Document

1.基礎概念
1.1 ディペンダブルなシステムとは

Dependability
 広い意味で,信頼性を表す用語

Fault Avoidance
 障害の原因となるフォールト(故障)が発生しないようにす
るというアプローチ

Fault Tolerance (耐故障性)
 フォールトが発生しても障害に至らないようにするという
アプローチ
リレー,真空管
接点の故障
→ 誤り検出符号による
フォールトの検出と
再実行
熱による故障
→ ヒータ電圧の低電圧化
(長寿命化)
1.2 用語
Failure, Fault, Error

Fault (故障,フォールト)
 構成要素の異常.障害,誤りの原因.

Error (誤り,エラー)
 システムの構成要素の異常状態.フォールトが顕在化し
たもの.障害の原因.

Failure (障害)
 システムが期待されるサービス(Service)を提供しなくな
ること.
フォールト,誤り,障害,エラーレイテ
ンシ
System
x=0
→ OK
x
Service
x=1
→ Error
0
Failure
Fault (0縮退故障, Stuck-at-0 Fault)
Fault
Error
Error Latency
Failure
time
故障モデル fault model

フォールトのモデルのこと
 故障のモデルが無いと,対策も立てられない
 実際の故障を適切に表現していることが必要
例.
縮退故障 (ゲートレベル) 5章
 クラッシュ故障(プロセスレベル) 3章

フォールトトレランスのレベル(ユーザ
の視点から)

静的マスク Static Masking

動的マスク Dynamic Masking

ファイルセイフ Fail Safe
静的マスク(Static Masking)の例

Triple Modular Redundancy (TMR)
Module
Input
Module
Module
Voting
Element
Output
多数決を
採る
Majority
Faultはユーザに透過的(transparent)
動的マスク(Dynamic Masking)の例

単純な動的冗長系 Dynamic Redundancy
Module
Module
Module
Module
Module
Module
Module
Module
…
…
…
Spare
Module
Reconfiguration
障害が一時的に顕在化
フェイルセイフ(fail safe)

障害が起きても安全な出力・状態に移行
安全
障害
危険
1.3 評価尺度
まえおき

Random variable (確率変数)
例.X (0 ≤ X ) : 障害までの時間を表す確率変数

Cumulative distributed function (CDF, 確率分布
関数)
 F(t)

Probability density function (pdf, 確率密度関数)
 f(t)

= Pr[X ≤ t]
= fF(t)/dx
Expected Value, Mean (期待値,平均)
 E[X]
= 0 t f(t)dt
(ただし,X≥0の場合)
例.指数分布 Exponential
Distribution
指数分布
 CDF
 F(t)

pdf
 f(t)

= 1 – e -l t
= l e -l t
Mean
 1/l
f(t) = 2e-2t
F(t) = 1 – e-2t
信頼度 Reliability

Reliability (信頼度)
 R(t)
= Pr[X > t]
= 1 – F(t)
Xはシステム障害までの
時間を表す確率変数
 F(t)はXに関する確率分
布関数
F(t) = 1 – e-2t

時刻0
R(t) = e-2t
t
X
Failure Rate(障害率)

f(t)Dt
=
t+Dt]でfailureが
起きる確率
 [t,

f(t)Dt/R(t)
 tで正常な時,
[t, t+Dt]でfailureが
起きる確率

f(t) = 2e-2t
R(t) = e-2t
Failure Rate
l(t) = f(t)/R(t)
 時刻tまで無障害で
[t, t +Dt]でfailureが
起きる確率= l(t)Dt
F(t) = 1 – e-2t
[t, t+Dt]
Bathtub Curve
Failure Rate
 l(t)

= f(t)/R(t)
Bathtub Curve
 典型的なFailure
Rate
Failure rate

の推移
 通常は一定と考えるの l
が自然
 Failure Rateが定数lの
とき,F(t)=1-e-lt (指数
分布)
Time
信頼度
Failure
Rate l(t)が与えられたとき
-0t l(t)dt
R(t) = e
Failure
Rateが定数 lのとき
-lt
R(t) = e
MTTF (Mean Time To Failure)

MTTF (平均障害時間)
 E[X]

= 0 t f(t)dt = 0 R(t)dt
Xはシステム障害までの時間を表す確率変数
時刻0
の期待値(expected value)

R(t) = e-ltの場合 (Xが指数分布の場合)
Rate = l
 MTTF = 1/l
 Failure
参考 Availability (可用度)
ある時刻においてシステムが正常である確率
 Instantaneous availability (瞬時アベイラビリティ)
 A(t)
= Pr[時刻tでシステムが正常]
障害
修復
障害
修復
t
Xi
Xi+1
Ui

Xi+2
Ui+1
Steady-State Availability (定常アベイラビリティ)
A=
limt→∞ A(t)
MTTR (Mean Time To Repair)と 定
常アベイラビリティ

MTTR (平均修復時間)
 MTTR
= E[Ui]
t
Xi
Xi+1
Ui
 Steady-State Availability
Xi+2
Ui+1
(定常アベイラビリティ)
A = MTTF / (MTTF + MTTR)