Disk failures paper from Google in FAST2007

[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
Paper Report:
Disk failure 論文 from
Google (FAST2007)
星野 喬
March 2, 2007
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
1
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
タイトル
 Failure Trends in a Large Disk Drive Population
– Eduardo Pinheiro, Wold-Dietrich Weber and Luiz Andre
Barroso, Google Inc.
– In proceedings of FAST2007
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
2
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
Agenda








概要
環境
使用ディスクドライブ詳細
故障の定義
結果
関連研究
まとめ
コメント
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
3
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
概要
 Googleで過去5年間に使用された100,000台以上のディ
スクドライブに関するデータを用いて故障分析を行った
– より細かいデータはここ1年程度のものを使用
– SMARTとの相関関係を調べ、故障予測が可能かどうか検証
 得られた知見
– これまでの知見と正反対に、故障率は、温度変化(elevated
temperature)や使用率(activity level)とは相関関係がほとんど
なかった
– いくつかのSMARTパラメータ(scan errors, reallocation counts,
offline reallocation counts, and probational counts)は故障
率に大きな影響があった
– 多くの故障がSMARTで検知できなかったため、SMARTだけでは正
確な故障予測モデルは作れそうにない
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
4
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
環境
 各ノードから数分毎にデータ
を収集し、 GFS, Bigtable
を使って保存、
Mapreduce/Sawzall、統
計分析にRを使って分析
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
5
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
使用ディスクドライブ詳細
 SATAもしくはPATAのコンシューマ向けドライブ
–
–
–
–
–
–
–
100,000台以上
Googleのサービスで使われたもの
5400~7200rpm
(おそらく3.5inch)
80~400GB
2001年以後のディスクドライブ
製造者、モデル、年式が混在
 分析に用いたデータは、2005年12月から2006年8月まで
に収集したもの
 サービスに使われる前に、short burn-in processにかけ
られて故障と判断されたものは除外
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
6
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
故障の定義
 故障
– a drive is considered to have failed if it was replaced as
part of a repairs procedure
– 交換されたディスクドライブはアップグレード目的のものを除き、故障に
よるものだと見なす
 フィルタ
–
–
–
–
あからさまにおかしなデータは除外
negative counts or data values that are clearly impossible
例: マイナスになっているもの、太陽の温度を超えているようなデータ
おかしなデータと判断されたドライブは除外
 全ドライブのうち、0.1%以下
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
7
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
結果





寿命
製造者、モデル、年式
使用率
温度
SMARTデータ分析
–
–
–
–
–
Scan Errors
Reallocation Counts
Offline Reallocations
Probational Counts
その他
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
8
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
寿命
 AFR
– Annual failure rate
 3-month、6-month、1monthはデータが重複
 最初の一年間はむしろ故障
率が下がっている
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
9
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
製造者、モデル、年式
 製造者(Manufacturers)、モデル(drive model)、年式
(vintages)毎にAFRを見ると劇的に異なる
 特に、年式が寿命に大きく影響を与えるようだ
 製造者、モデル、年式ごとのデータは論文中では出さない
 製造者、モデル、年式のデータがなくても、結論は変わらず
 SMARTデータのうち、seek error rateは、モデルによって
著しく異なったが、他はそこまで変わらなかった
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
10
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
使用率
 集めたデータからでは、何をもって使用率100%とするのかを導き出す
のに十分詳細な情報が得られないため、有意義な使用率の基準を用い
ることは難しい
 代替指標
– weekly averages of read/write bandwidth per drive
– ドライブあたり、一週間あたりの読み書きスループットの平均値
 スループットに応じて3レベルに分類
–
–
–
–
Low: 下から25%のドライブ
Medium: 25~75%
High: 上から25%
原文がおかしい:
 We categorize utilization in three levels: low, medium and high,
corresponding respectively to the lowest 25th percentile, 50-75th
percentiles and top 75th percentile
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
11
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
使用率 –cont.
 「高い使用率ほど高い故障率」は、
寿命が短いものと長いもののみ成
り立つ
– 2~4年のデータはあまり関係ない
 解釈1
– survival of the fittest theory
(適者生存理論)
– 初期に高い使用率に耐え抜いたド
ライブは、他の使用率のものに比
べて強いのではないか?
 解釈2
– 従来の評価は、加速耐久試験に
基づくものであったため、本分析
における1年未満の結果のみが得
られていたのではないか?
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
12
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
温度
 平均温度を用いて評価
– 最高温度、故障直前の温度、なども同様のトレンドを示した
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
13
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
温度 –cont.
 低い方が故障率が高い
 温度が上がっても故障率は上がらない
– (コメント:おそらく35度から45度のデータを指しているものだと思わ
れる)
 3年目と4年目のディスクは、温度によって故障率が高くなっ
ている
 通常の温度範囲では、温度よりも強く故障率に影響を与える
という結論
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
14
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
SMART: Scan Errors
 読み書き時もしくはバックグ
ラウンドでディスク表面が不
良になっていないかチェック
しており、エラーが起きた回
数をカウント
 全ドライブのうち2%未満で
発生
 Scan errorsが1回でも発
生すると60日以内の故障率
は39倍
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
16
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
SMART: Scan Errors –cont.
点線は95%
confidence
 Scan errorsが発生しても8ヶ月後70%以上が生存
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
17
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
SMART: Reallocation counts
 セクタが不良になると、スペアプー
ルに再割り当てすることができ、再
割り当て回数をカウント
 全ドライブの9%で発生
 一部のモデルで他に比べて
Reallocation countsが高いもの
が見られた
 Reallocationが1回でも発生する
と60日以内の故障率は14倍
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
18
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
SMART: Reallocation counts –cont.
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
19
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
SMART: Offline Reallocations
 Reallocationのサブセットで、
バックグランドで起きた
reallocaionの回数のみをカ
ウントする
– 記録しないモデルも存在
 全ドライブの4%で発生
 1回でも発生すると60日以内
の故障率は21倍
 一部のモデルでは
Reallocation countsを違う
分類で使っているかも知れな
いから、こちらも見ておく必要
がある
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
20
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
SMART: Offline Reallocations
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
21
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
SMART: Probational Counts
 ソフトエラーが起きたセクタをス
ペアで置き換えるための保護を
行った回数をカウント
– Reallocationよりも軽いエ
ラー
 全ドライブの2%で発生
 Offline reallocationsと同様
にモデルによって偏りが見られ
た
 1回でも発生すると、60日以内
の故障率は16倍
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
22
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
SMART: Probational Counts
 Offline reallocations と大体同じ傾向
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
23
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
SMART: その他
 Seek Errors
– セクタをヘッドが発見できなかった回数をカウント
– ある一製造者に関しては、多くのドライブで発生したが、その振る舞いは明ら
かではなく、年式によっても変化した
– それ以外は相関関係が認められなかった
 CRC Erros
– 物理メディアからインターフェースに転送されるときにCRCチェックされ、エ
ラーがおきた回数をカウント
– 全ドライブの2%で発生
– ある程度の相関は見られたが、明白なものではなかった
 Power Cycles
– 電源をOn/Offした回数
– 2年以内に故障したドライブに関しては、全く相関が見られなかった
– それ以上のドライブでは、カウントの大きいものでは2%以上故障率が上昇
した
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
24
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
SMART: その他 –cont.
 Calibration Retries
– 一貫性のある、明確な定義が分からない
– 0.3%以下のドライブで発生し、そのうち故障率はたったの2%
– 使えないパラメータである
 Spin Retries
– スピンアップをやり直した回数をカウント
– 一回も発生しなかった
 Power-on hours
– ドライブの寿命に大きく影響を与えることは疑う余地がない
– (ずっと電源ONのため、)運用時間が良い近似になっている (AFR)
 Vibration
– SMARTパラメータではないが、ドライブエンクロージャメーカーなどは振動の影響を気
にする
– 1ドライブしか入っていないマシンと複数ドライブが入っているマシンで比べようと試み
たが、そのような実験はうまくコントロールできず、結論を出すことができなかった
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
25
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
SMARTで故障は予測できるか?
 本実験で分かった主要な4つの現
象が発生すると、故障率は劇的に
上がる
温度は除く
 しかし、全故障ドライブのうち、
56%以上のドライブはSMARTに
よる兆候をなんら出さぬまま突然
死する(温度の影響は除いて)
 50%以上の時間において40度以
上の温度であった場合を故障の原
因であると仮定した場合でも、故
障ドライブのうち36%以上は突然
死
 必要となるディスクドライブ数の予
測には重要であるが、SMARTだ
けで正確な故障予測はできない
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
26
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
関連研究
 Yan and Sun (1999), and Cole(2000)
– 加速耐久試験を少数ディスクに行い、power-on-hours, duty cycle,
temperatureが故障に影響するとした
 Shar and Elerath (2003~2005)
– NetAppの製品を使って評価
– SMARTや環境ファクターと故障の関係を直接的には報告していない
 Talagala and Patterson (1999)
– 368 SCSI ドライブで18ヶ月の期間のデータを分析
– 1.9%の故障率
 Schwarz et al (2006)
– 2489 disks during 2005
– 過去6%がディスク交換された
– 2% の故障率
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
27
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
関連研究 –cont.
 Gray and van Ingen (2005)
– 22,400と15,805ドライブのある2つの巨大なwebストレージ
– 3.3-6%の故障率
 Schroeder and Gibson (2007)
– ドライブ故障率の統計的な性質を分析
– 製造業者がドライブの寿命のmean timeを過大評価しており、infant
mortality effects(早期故障の影響)が欠けていると報告
 Hughes et al (2002, 2003, 2005) and Elkan (2001)
– SMARTパラメータと故障率の関係を分析
– 3744 と 1934 ドライブで、30%の予測率を持つ故障モデルを構築
 false-positive rate は0.2%
– 2~3ヶ月のストレステストで4-6%の故障率
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
28
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
結論
 これまでよりも多数のディスクドライブを使って、故障率といく
つかのパラメータとの相関関係を分析した研究はない
 高い温度や高い使用率に対して、高い故障率を示す一貫性
のあるパターンはないことが分かった
– そのような相関関係はこれまでの調査では繰り返し取り上げられてき
たが、それを裏付ける結果はでなかった
– 相関関係が全くないという結論を出すことはできないが、もっと別な
要素を考慮すべきである重要な証拠とはなるだろう
 SMARTに関して、scan error, reallocations, offline
reallocations, probational countsは重要な故障予測
要素だが、それだけで正確な故障予測ができるわけではな
い
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
29
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
コメント
 ドライブの省電力モードがどうなっていたのかが書いていない
– 通常サーバー用ではずっと回転させておくはず
– 消費電力に悩んでいるといっても性能に影響が出たら困るので、おそ
らく回転を止めてはいないと思う
 コンシューマ(デスクトップ)用のドライブは24時間電源を入れ
ておく使い方は想定されていない、と聞いたことがある。
– 一日8時間くらいの電源ONで最適になるようにセッティングしてあると
かないとか。。。Nearline用のSATAディスクはそのあたりの設定が違
うらしい。
– だとしたら、メーカーの主張する故障率よりも高い結果が出る(と
googleは書いている)のもなんとなくだが納得できる
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
30
[20070302-hoshino] Paper Report: Disk failures paper from Google in FAST2007
コメント –cont.
 使用率(utilization)の基準があやしい
– 相対値でしか見せていないので、ディスクにとってつらいかどうかが
分からないし、シーケンシャル、ランダムの比率も書いていない
 個人的な故障原因予測(感覚的)
– ヘッドを動かすサーボモーターが死に易そう
– ヘッド自体が故障したときは、この論文においては突然死になるので
はないか
– チップなどの電子デバイスの故障も突然死に含まれるはずである。
2~3年前のseagateのドライブは著しくチップが熱くなり、死ぬという
現象があったような記憶がある
 低消費電力モードと、故障率の関係についても調べると(多
面的な分析が出来て)面白いかもしれない
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory, IIS, University of Tokyo.
31