Document

クイズ

信頼度 R(t) = e-t/6 のシステムのMTTFを求
めよ

信頼度 R(t) = 3e-t/3 -2e-t/2 のシステムの
MTTFを求めよ
2.誤り検出とマスクによる耐故障化技術
2.1 静的マスク

静的マスク
 障害をユーザに気付かせない

例.リレーの多重化
 故障モデル
開放故障 (open fault)
閉じない
短絡故障 (short fault)
開かない
リレーの多重化
耐えられる故障は?
リレーの多重化
単一故障
(a)
(c)
(b)
(d)
ポイント:(a), (b)のレベルでも,開放故障と短絡故障にモデ
ル化できる
リレーの多重化
2重故障
(c)
(d)
信頼性解析

E[a]open, E[b]short
 aが開放故障する確率
(a)
 bが短絡故障する確率
(b)
E[a]short = eshort * eshort
 E[a]open = 1 - (1-eopen) * (1-eopen)

E[b]short = 1 - (1-eshort) * (1-eshort)
 E[b]open = eopen * eopen

信頼性解析(2)
(c)
(a)
E[a]short = eshort * eshort
(b)
 E[a]open = 1 - (1-eopen) * (1-eopen)

E[c]short = E[b]short * E[b]short
 E[c]open = 1 - (1-E[b]open) * (1-E[b]open)

グラフ
E[c]short
E[c]open
eshort
eopen
ポイント
多重化しても信頼性が改善されない場合が
ある.
 信頼性は,システムの構成,構成要素自体
の信頼性に依存する

2.1 多重系多数決システム

3重系多数決システムTriple Modular Redundancy
(TMR)
Input
Module
Module
Module


Voting
Element
Output
多数決を
採る
Majority
1つのModuleのFaultに耐えられる.
Faultの発生に対し特別な処理(エラー検出やリカ
バリー等)を行わない (静的冗長系)
信頼性解析

Rtmr (TMRの信頼度)
= Rv (Rm3 + 3Rm2(1-Rm))
= (3Rm2 - 2Rm3)

Rv=1,Rm(t)=e-lt を仮定
Rtmr=
3e-2lt -2e-3lt
MTTFm = 1/l
 MTTFtmr = 5/6l

Module
Rv(t)
Voting
Element
Module
Module
Rm(t)
グラフ
信頼度
信頼度
時間
任務時間(mission time)が短いときに有効
時間
信頼性の改善度を計る尺度

比較したい信頼度
 改善前:
Rm(t)
 改善後: Rr(t)

信頼度改善比
 Rr(Treq)

/ Rm (Treq) ただし, Treqは任務時間
任務時間改善比
 Tr

/ Tr
ただし,Rreqを要求される信頼度として,
Rreq = Rm(Tm) = Rr(Tr)
多数決素子

1ビット当たりの構成
&
&
+
&

多重化
Module
Voting
Element
Module
Voting
Element
Module
Voting
Element
Module
Voting
Element
Module
Voting
Element
Module
Voting
Element
N Modular Redundancy

N-Modular Redundancy


TMRの一般化(Module数 3 → N)
Rnmr
= Rv *
S
()
N
N-i (1-R )i
R
m
m
0<=i<N/2 i
ハイブリッド冗長システム
静的冗長系(TMR)+動的冗長系

動的冗長系(Dynamic Redundancy)

Faultが起こった場合,システムのReconfiguration(再
構成)を行うことでFaultを除去する手法
Module
Module
Module
Module
Module
Module
Module
Module
…
…
Spare
Module
…
待機冗長システム
Reconfiguration
ハイブリッド冗長システム
Module
不一致
検出回路
Module
Module
Voting
Element
Module
Module
Module
…
…
Module
不一致
検出回路
Module
Module
Module
Module
Module
Voting
Element
信頼性解析
2台以上モジュールが生き残っていれば良い
 Rhyb

= Rv Rsw (1 - NRm(1-Rm)N-1 - (1-Rm)N)
Module
不一致
検出回路
Module
Module
Module
Module
…
Module
Rm(t)
Voting
Element
Rv(t)
Rsw(t)
グラフ
Rsw は定数
N=7
N=3
N=5
時間
Rsw が定数でなくRsw = PN とした場合,Nがある値を超え
ると,信頼度が逆に下がる
2.1.4 2重系比較システム(デュアルシ
ステム)
Module
Module
比較
選択
信頼度
 Rdup= Rcmp Rsw (Rm2 + 2CRm(1-Rm))

 C:カバリッジ

再構成(故障診断など)が成功する確率
システムの例

NEC Express5800サーバ
2.2 動的マスク

2.2.1 待機冗長システム
Module
Module
Module
Module
Module
Module
Module
Module
…
…
…
Spare
Module
Reconfiguration


信頼度 (Rsw = 1)
Rsb= Rm + RmC(1 - Rm) + RmC2(1-Rm)2 +
・・・ + RmCN-1(1-Rm)N-1
Spareの区分

熱予備 Hot-Standby


温予備 Warm-Standby


中間の方式.稼動はしているが,サービスをしていない
等.
冷予備 Cold-Standby


処理を実行
稼動させない
待機時の障害率(の仮定)

lmodule = lhot > lwarm > lcold = 0
2.2.2 システム回復

チェックポインティング(Checkpointing)とロールバッ
クリカバリ(Rollback Recovery)

チェックポイントでシステムの状態を保存しておき,故障
が発生した場合は,直前の正常な状態から処理を再開す
る.
Checkpoint
Rollback
Error
 チェックポイント間隔 大
 オーバヘッド小,障害の影響大
 チェックポイント間隔 小
 オーバヘッド大,障害の影響小
2.3 フェィルセイフ

障害が起きても安全な出力・状態に移行
 危険側出力は出さない

例.3値を用いたフェイルセイフ論理
 AND演算発振器
タイプA: 入力VA,VB が共にVCC(+側電源電圧)より高
いなら,発振
 タイプB: 入力VA,VB が共にVEE(ー側電源電圧)より高
いなら,発振

A
B
出力用整流回路
タイプ+: 発振信号が入力されたら, VCCより
高い電圧を出力
 タイプ-: 発振信号が入力されたら,VEEより
低い電圧を出力

+
-
アイデア

論理値
 1:VCCより高い電圧
 0:VEEより低い電圧
 1/2:それ以外

(安全側出力)
AND演算発振器と出力用整流回路を組み合わせる
 AND演算発振器の故障

発振停止により1/2を出力
 出力用整流回路の故障


A -
A +
B -
B +
1/2を出力
誤った論理値がでない!
論理ゲート
NOT
AND
0
1
1/2 1/2
1
0
A -
B +
0
0 0
1/2 1/2
1 0
1/2
1/2
1/2
1/2
1
0
1/2
1
B -
B -
A -
B -
A -
A +