Massenspeicher (HDDs und SSDs)

Home » Beratung zum Serverkauf » Massenspeicher (HDDs und SSDs)
14. November 2014 Beratung zum Serverkauf, Server-Festplatten Keine Kommentare

Während die Ausfallrate von Desktop Festplatten bereits in umfangreichen Studien untersucht wurde, gibt es leider nur wenig und kaum aussagekräftige Daten zu Ausfallraten von Server Festplatten. Es liegen jedoch Studien über die „Silent Data Corruption“ vor, welche die Vorteile von Server Festplatten klar belegen.

Die wichtigsten Unterscheidungsmerkmale sind Laufzeit, typische Last und Datenintegrität. Nicht in der ersten Tabelle zu finden aber auch eine wichtige Normgröße, ist die durchschnittliche Umgebungstemperatur. Während die meisten Desktop-Platten maximal für 40 Grad C Umgebungstemperatur spezifiziert sind, verkraften Server-Platten bis zu 60 Grad C. Natürlich gilt für beide Systeme: mit zunehmender Betriebstemperatur steigt die Wahrscheinlichkeit eines Ausfalls von HDDs (auf die Besonderheiten von SSDs gehen wir in einem zukünftigen Artikel ein). Bei der MTBF (Mean Time between Failure) handelt es sich um eine sehr theoretische Größe der Festplatten-Hersteller. Verlassen Sie sich lieber auf die Erfahrung Ihres Administrators.

 

Requirement Desktop Enterprise
OperationalAvailability 8 hours/day – 5 days/week 24 hours/day – 7 days/week
Work Load 10 20 % 100%
CostSensitivity Very sensitive to low cost Moderately sensitive, balanced withrequirements for reliability, availability, anddata integrity.
Performance Low to Moderate High
Reliability Moderate:1. Outage affects only one usera. Critical data is not usuallystored locallyb. Higher Tolerance for longerror recovery timeout2. Lower Mean Time Between FailureAcceptable High:1. Outage affects multiple users2. Higher Mean Time Between Failure3. Intolerance for long Error Timeout
Data Integrity Moderately desirable (a bit corruption mayresult in system lockup or critical data loss one one System)  Highly Desirable (a bit corruption may result incatastrophic critical data loss to multiple Clients)

 

Zu den Features von Server-Festplatten gehören Vibrations-Sensoren und Mechanismen zur Vibrations-Kompensierung, ECC Speicher und Dual-Core Prozessoren. All das ist auf den ersten Blick nicht sichtbar, trägt aber einen wesentlichen Teil zur überlegenen Performance und Zuverlässigkeit bei. Dadurch ist der Preis von Server-Festplatten zwar stets höher als von Desktop oder „nearline“ Festplatten, wirtschaftlich zahlt es sich aber spätestens dann aus, wenn es um sensible Unternehmens-Daten oder ein wirklich performanten Server geht.

 

Auch SSDs gibt es für beide Bereiche. Sie unterscheiden sich vor allem darin, welche Speicherzellentechnik eingesetzt wird und wie schnell und zuverlässig der Controller arbeitet. Server-SSDs kann man auch am TBW (Terabytes Written) bemessen. Dieser Wert sagt aus, wie viele Terabytes bei Einhaltung der normalen Betriebsparameter (Temperatur, Fehlerzahl, Geschwindigkeit) auf eine SSD geschrieben werden können.

Application Class Workload (see JESD219) Active Use (power on) Retention Use (power off) Functional Failure Requirement (FFR) Uber* Requirement
Client Client 40° C
8 hrs/day
30° C
1 year
3% 10 -15th
Enterprise Enterprise 55° C 24hrs/day 40° C
3 months
3% 10 -16

*Uber steht für die nicht behebbare Bit Fehlerrate (Unrecoverable Bit Error Ratio). Sie wird ermittelt in dem man die Anzahl der Speicherfehler durch Anzahl der gelesenen Bits teilt.

 

Quality of Service (QoS)

Dieser Punkt betrifft HDDs sowie auch SSDs und ist auch in anderen Bereichen eine bekannte und wichtige Kenngröße. QoS (im Bereich Server-Hardware) sagt aus, wie konsistent ein Produkt eine bestimmte Leistung erzielen kann. Typische QoS Werte von Enterprise SSDs liegen bei 99,9% oder sogar 99,9999%.

Ein Beispiel: SSDs führen im Hintergrund bestimmte Aufgaben durch um die Flash-Speicher-Zellen zu schonen. Die Performance von Desktop-SSDs kann während dieser Prozesse unvorhersehbar auf einen Bruchteil der üblichen Leistungswerte sinken. Server-SSDs verfügen hingegen über genügend Reserven um kontinuierlich hohe Performance zu liefern.

 

Silent Data Corruption

Stille Datenkorruption tritt auf, wenn Bitfehler unbemerkt bleiben. Die Quellen für Bitfehler sind vielseitig, Beispiele für oft unbemerkte Bitfehler sind Prüfsummen-Versatz, Identitäts-Diskrepanzen und Paritäts-Inkonsistenzen. Noch mal zum Verständnis: es handelt sich hier nicht um defekte Sektoren oder einen anderen Hardware-Schaden. Lediglich ein unbemerktes, klitzekleines „Versehen“, welches nicht durch die Fehlerkorrektur der Festplatte, des RAID-Controllers und des Dateisystems entdeckt wurde.

Charakteristik Latente Sektor Fehler – Desktop Latente Sektor Fehler – Server Prüfsummen Fehler – Desktop Prüfsummen Fehler – Server
% der im Jahr betroffenen Laufwerke 9,5% 1,4% 0,466% 0,042%

 

Laut einer aktuellen Studie, welche die Universitäten Wisconsin und Toronto in Zusammenarbeit mit NetApp durchgeführt haben, ist die Stille Datenkorruption ein Faktor der in der Planung kritischer Systeme unbedingt mit einbezogen werden muss. So tritt Silent Data Corruption bei 0,86 % der untersuchten nearline SATA Festplatten und zu 0,065 % bei den untersuchten Server-Festplatten auf. Untersucht wurden 1,53 Millionen Festplatten über 41 Monate (mit RAID-Konditionen). Bei einer weiteren Studie bei der 3.000 Rack-Server untersucht wurden, zeigten sich nach drei Wochen 152 Fälle von „Silent Data Corruption“.

Das Resultat können Pixelfehler in Bilddateien wie in diesem Beispiel oder aber inkorrekte Werte innerhalb Ihrer Datenbank sein. Eine Möglichkeit dieser herrausforderung zu begegnern ist ein speziell gehärtetes Dateisystem wie zum Beispiel ZFS.

 

Weitere Informationen / Quellen:

An Analysis of Data Corruption in the Storage Stack

Intel: Enterprise-class Versus Desktop-class Hard Drives Comparison White Paper

Choosing Between SAS vs. SATA Hard Disk for Your Server RAID System