がディスクドライブの利用状況を調査したデータから故障の傾向を分析

ハードディスクはいつ壊
れるのか
- Failure Trends In a Large Disk
Drive Population -
suzuk
ハードディスクはいつ壊れるのか

Googleがディスクドライブの利用状況を調査
したデータから故障の傾向を分析
 Failure
Trends in a Large Disk Drive
Population, E.Pinheiro, 5th USENIX

References
 Googleを支える技術,
西田啓介, 技術評論社
調査データ

調査対象

シリアル or パラレルATAの一般的なHDD





回転数 5400~7200rpm
容量80~400GB
2001年~2005年発売モデル
一通りストレステストをクリアし、データセンターで運用されたもの
計測データ



読み書きの頻度
ディスクドライブの温度
SMART値
10万台のハードディスクを調査
by Google

故障の前兆となる要因は何か?
1.
2.
3.
4.
5.
長く使うと壊れやすくなるわけではない
よく使うと壊れやすくなるとも限らない
温度が高いほど壊れやすいということもない
いくつかのSMART値は故障率に大きく影響す
る
故障率に影響しないSMART値も多い
長く使うと壊れやすくなるわけではな
い


新しいドライブは壊れ
やすい
いつどこで作られたか
によって決まる
 良いときに買ったドライ
ブは壊れにくい
 外れは最初から最後ま
で壊れやすい
よく使うと壊れやすくなるとも限らない


1年目と5年目のドライ
ブはよく使うモノほど壊
れる
それ以外の年ではアク
セス頻度に因らない
温度が高いほど壊れやすいということ
もない



温度が低いほど故障率
が高まる
30~40度の高い温度の
方が故障しにくい
45度を超えると再び故
障率が上がる
いくつかのSMART値は故障率に大き
く影響する

以下の現象は一度でも発生するとダメ
 スキャンエラー

ディスク表面の生涯に因って読み込みできなくなった状態
 リアロケーション数

何らかの理由でディスク読み書きに失敗した際に別の場所を用
いるように変更した回数
 オフラインリアロケーション
 リアロケーション前のセクタ数

生涯があるけれどまだリアロケーションしていない数
故障率に影響しないSMART値も多い

以下のSMART値は故障率に関係ない
 シークエラー

ドライブがヘッドをあわせに失敗したこと
 CRCエラー

データの物理的な読み書きは問題ないがその内容に問題があっ
たこと
 パワーサイクル

電源のオン、オフを繰り返すこと
 振動
結論:次の通説は疑ってかかるべき
読み書きが多いと壊れやすくなる
 温度が高いほど壊れやすくなる
