1.基礎概念 1.1 ディペンダブルなシステムとは Dependability 広い意味で,信頼性を表す用語 Fault Avoidance 障害の原因となるフォールト(故障)が発生しないようにす るというアプローチ Fault Tolerance (耐故障性) フォールトが発生しても障害に至らないようにするという アプローチ リレー,真空管 接点の故障 → 誤り検出符号による フォールトの検出と 再実行 熱による故障 → ヒータ電圧の低電圧化 (長寿命化) 1.2 用語 Failure, Fault, Error Fault (故障,フォールト) 構成要素の異常.障害,誤りの原因. Error (誤り,エラー) システムの構成要素の異常状態.フォールトが顕在化し たもの.障害の原因. Failure (障害) システムが期待されるサービス(Service)を提供しなくな ること. フォールト,誤り,障害,エラーレイテ ンシ System x=0 → OK x Service x=1 → Error 0 Failure Fault (0縮退故障, Stuck-at-0 Fault) Fault Error Error Latency Failure time 故障モデル fault model フォールトのモデルのこと 故障のモデルが無いと,対策も立てられない 実際の故障を適切に表現していることが必要 例. 縮退故障 (ゲートレベル) 5章 クラッシュ故障(プロセスレベル) 3章 フォールトトレランスのレベル(ユーザ の視点から) 静的マスク Static Masking 動的マスク Dynamic Masking ファイルセイフ Fail Safe 静的マスク(Static Masking)の例 Triple Modular Redundancy (TMR) Module Input Module Module Voting Element Output 多数決を 採る Majority Faultはユーザに透過的(transparent) 動的マスク(Dynamic Masking)の例 単純な動的冗長系 Dynamic Redundancy Module Module Module Module Module Module Module Module … … … Spare Module Reconfiguration 障害が一時的に顕在化 フェイルセイフ(fail safe) 障害が起きても安全な出力・状態に移行 安全 障害 危険 1.3 評価尺度 まえおき Random variable (確率変数) 例.X (0 ≤ X ) : 障害までの時間を表す確率変数 Cumulative distributed function (CDF, 確率分布 関数) F(t) Probability density function (pdf, 確率密度関数) f(t) = Pr[X ≤ t] = fF(t)/dx Expected Value, Mean (期待値,平均) E[X] = 0 t f(t)dt (ただし,X≥0の場合) 例.指数分布 Exponential Distribution 指数分布 CDF F(t) pdf f(t) = 1 – e -l t = l e -l t Mean 1/l f(t) = 2e-2t F(t) = 1 – e-2t 信頼度 Reliability Reliability (信頼度) R(t) = Pr[X > t] = 1 – F(t) Xはシステム障害までの 時間を表す確率変数 F(t)はXに関する確率分 布関数 F(t) = 1 – e-2t 時刻0 R(t) = e-2t t X Failure Rate(障害率) f(t)Dt = t+Dt]でfailureが 起きる確率 [t, f(t)Dt/R(t) tで正常な時, [t, t+Dt]でfailureが 起きる確率 f(t) = 2e-2t R(t) = e-2t Failure Rate l(t) = f(t)/R(t) 時刻tまで無障害で [t, t +Dt]でfailureが 起きる確率= l(t)Dt F(t) = 1 – e-2t [t, t+Dt] Bathtub Curve Failure Rate l(t) = f(t)/R(t) Bathtub Curve 典型的なFailure Rate Failure rate の推移 通常は一定と考えるの l が自然 Failure Rateが定数lの とき,F(t)=1-e-lt (指数 分布) Time 信頼度 Failure Rate l(t)が与えられたとき -0t l(t)dt R(t) = e Failure Rateが定数 lのとき -lt R(t) = e MTTF (Mean Time To Failure) MTTF (平均障害時間) E[X] = 0 t f(t)dt = 0 R(t)dt Xはシステム障害までの時間を表す確率変数 時刻0 の期待値(expected value) R(t) = e-ltの場合 (Xが指数分布の場合) Rate = l MTTF = 1/l Failure 参考 Availability (可用度) ある時刻においてシステムが正常である確率 Instantaneous availability (瞬時アベイラビリティ) A(t) = Pr[時刻tでシステムが正常] 障害 修復 障害 修復 t Xi Xi+1 Ui Xi+2 Ui+1 Steady-State Availability (定常アベイラビリティ) A= limt→∞ A(t) MTTR (Mean Time To Repair)と 定 常アベイラビリティ MTTR (平均修復時間) MTTR = E[Ui] t Xi Xi+1 Ui Steady-State Availability Xi+2 Ui+1 (定常アベイラビリティ) A = MTTF / (MTTF + MTTR)
© Copyright 2024 ExpyDoc