Studie: DRAM-Speicherfehler viel häufiger als angenommen

// 14:40 So, 11. Okt 2009von

Die bisher erste groß angelegte Untersuchung von Fehlern in Speicherbausteinen unter Realbedingungen ist zu einem beunruhigenden Ergebnis gekommen: Die Fehlerraten waren bis zu 100mal höher als bisher angenommen. Grundlage der Untersuchung waren Daten aus Googles Rechenzentrum, das eine sehr schöne, repräsentative Datengrundlage bietet, weil Google statt Großcomputern zehntausende normaler PCs einsetzt. Diese sind mit DRAMs verschiedener Hersteller und handelsüblicher Komponenten, mit unterschiedlichen Motherboards, Speichergrößen und Speichertypen (DDR1, DDR2 und FB-DIMM, allerdings immer in der ECC-Version) ausgestattet.


Nur durch den Einsatz der etwas teureren ECC-DRAMs können die meisten im täglichen Einsatz vorkommende Fehler überhaupt erst erkannt werden (das System kann sich nicht selbst beobachten und Fehler in den eigenen Operationen erkennen), die sich sonst als unterschiedliche unerklärliche Fehler wie Lese- oder Schreibfehler bei der Arbeit mit Dateien, Systemabstürze oder in Form von unbemerkter Änderung von Daten auswirken würden. Bisher hatte dien Industrie die Fehlerhäufigkeit bei einem pro Monat bei einem duchlaufenden PC angesetzt.



Die Erkenntnisse der Studie im Einzelnen:


-die Anzahl Vorkommnisse von Speicherfehlern ist um das bis zu 100fache höher als bisher angenommen


-die DRAM-Fehlerrate ist vor allem vom Hersteller des Motherboards abhängig, d.h. manche Mobos erzeugen durch schlechte elektronische Abschirmung mehr Fehler (leider schlüsselt die Studie nicht näher auf, welche Motherboards/Chipsätze verwendet wurden)


-die Temperatur spielt kaum eine Rolle bei der Fehlerrate (wie Google schon bei einer Festplattenstudie festgestellt hatte)


-es gibt keine signifikanten Unterschiede der Fehlerrate bei RAMs unterschiedlicher Hersteller oder Speichertypen

-die neuesten (mit dichterem Speicher) DRAM-Generationen haben nicht mehr Fehler


-nur etwa 8% der Speicherbausteine erzeugen Fehler, also gilt: je weniger Speicher man einsetzt, desto weniger Fehler und ebenso gilt: ausgelastetere Systeme haben mehr Fehler - schlechte News für Renderfarmen


-die Fehler nehmen mit dem Alter der Speicherbausteine zu (ab 10-18 Monaten Einsatzzeit steigt die Fehlerrate an)


-die meisten Fehler sind "hard Errors" im Gegensatz zu "soft Errors", d.h. wiederkehrende Fehler die nur durch Austausch des Speicherbausteins behoben werden können und nicht durch einen Reboot



Eine Folgerung: die enorm hohen Fehlerraten sprechen sehr für den Einsatz von ECC-DRAMs auch im alltäglichen Einsatz und würden einige (sonst oft unerklärliche) Probleme vermeiden helfen. Zum Beispiel wäre es interessant, ob man einen eher fehlerreichen Rechner besitzt (in der Studie haben 20% der Rechner mit Fehlern mehr als 90% aller beobachteten Fehler produziert) dessen RAM man schnellstens austauschen sollte. Kritisch zu sehen ist, dass bisher die Versicherungen der Industrie so unhinterfragt gegolten haben - Hersteller und Groß-Nutzer von PCs müssen eigentlich schon länger über die Erkenntnis verfügen, das Speicherfehler garnicht sehr selten vorkommen.



Ähnliche News //
Umfrage
    Generative Video-KI: Hast du ein Abo?







    Ergebnis ansehen

slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash