クイズ 信頼度 R(t) = e-t/6 のシステムのMTTFを求 めよ 信頼度 R(t) = 3e-t/3 -2e-t/2 のシステムの MTTFを求めよ 2.誤り検出とマスクによる耐故障化技術 2.1 静的マスク 静的マスク 障害をユーザに気付かせない 例.リレーの多重化 故障モデル 開放故障 (open fault) 閉じない 短絡故障 (short fault) 開かない リレーの多重化 耐えられる故障は? リレーの多重化 単一故障 (a) (c) (b) (d) ポイント:(a), (b)のレベルでも,開放故障と短絡故障にモデ ル化できる リレーの多重化 2重故障 (c) (d) 信頼性解析 E[a]open, E[b]short aが開放故障する確率 (a) bが短絡故障する確率 (b) E[a]short = eshort * eshort E[a]open = 1 - (1-eopen) * (1-eopen) E[b]short = 1 - (1-eshort) * (1-eshort) E[b]open = eopen * eopen 信頼性解析(2) (c) (a) E[a]short = eshort * eshort (b) E[a]open = 1 - (1-eopen) * (1-eopen) E[c]short = E[b]short * E[b]short E[c]open = 1 - (1-E[b]open) * (1-E[b]open) グラフ E[c]short E[c]open eshort eopen ポイント 多重化しても信頼性が改善されない場合が ある. 信頼性は,システムの構成,構成要素自体 の信頼性に依存する 2.1 多重系多数決システム 3重系多数決システムTriple Modular Redundancy (TMR) Input Module Module Module Voting Element Output 多数決を 採る Majority 1つのModuleのFaultに耐えられる. Faultの発生に対し特別な処理(エラー検出やリカ バリー等)を行わない (静的冗長系) 信頼性解析 Rtmr (TMRの信頼度) = Rv (Rm3 + 3Rm2(1-Rm)) = (3Rm2 - 2Rm3) Rv=1,Rm(t)=e-lt を仮定 Rtmr= 3e-2lt -2e-3lt MTTFm = 1/l MTTFtmr = 5/6l Module Rv(t) Voting Element Module Module Rm(t) グラフ 信頼度 信頼度 時間 任務時間(mission time)が短いときに有効 時間 信頼性の改善度を計る尺度 比較したい信頼度 改善前: Rm(t) 改善後: Rr(t) 信頼度改善比 Rr(Treq) / Rm (Treq) ただし, Treqは任務時間 任務時間改善比 Tr / Tr ただし,Rreqを要求される信頼度として, Rreq = Rm(Tm) = Rr(Tr) 多数決素子 1ビット当たりの構成 & & + & 多重化 Module Voting Element Module Voting Element Module Voting Element Module Voting Element Module Voting Element Module Voting Element N Modular Redundancy N-Modular Redundancy TMRの一般化(Module数 3 → N) Rnmr = Rv * S () N N-i (1-R )i R m m 0<=i<N/2 i ハイブリッド冗長システム 静的冗長系(TMR)+動的冗長系 動的冗長系(Dynamic Redundancy) Faultが起こった場合,システムのReconfiguration(再 構成)を行うことでFaultを除去する手法 Module Module Module Module Module Module Module Module … … Spare Module … 待機冗長システム Reconfiguration ハイブリッド冗長システム Module 不一致 検出回路 Module Module Voting Element Module Module Module … … Module 不一致 検出回路 Module Module Module Module Module Voting Element 信頼性解析 2台以上モジュールが生き残っていれば良い Rhyb = Rv Rsw (1 - NRm(1-Rm)N-1 - (1-Rm)N) Module 不一致 検出回路 Module Module Module Module … Module Rm(t) Voting Element Rv(t) Rsw(t) グラフ Rsw は定数 N=7 N=3 N=5 時間 Rsw が定数でなくRsw = PN とした場合,Nがある値を超え ると,信頼度が逆に下がる 2.1.4 2重系比較システム(デュアルシ ステム) Module Module 比較 選択 信頼度 Rdup= Rcmp Rsw (Rm2 + 2CRm(1-Rm)) C:カバリッジ 再構成(故障診断など)が成功する確率 システムの例 NEC Express5800サーバ 2.2 動的マスク 2.2.1 待機冗長システム Module Module Module Module Module Module Module Module … … … Spare Module Reconfiguration 信頼度 (Rsw = 1) Rsb= Rm + RmC(1 - Rm) + RmC2(1-Rm)2 + ・・・ + RmCN-1(1-Rm)N-1 Spareの区分 熱予備 Hot-Standby 温予備 Warm-Standby 中間の方式.稼動はしているが,サービスをしていない 等. 冷予備 Cold-Standby 処理を実行 稼動させない 待機時の障害率(の仮定) lmodule = lhot > lwarm > lcold = 0 2.2.2 システム回復 チェックポインティング(Checkpointing)とロールバッ クリカバリ(Rollback Recovery) チェックポイントでシステムの状態を保存しておき,故障 が発生した場合は,直前の正常な状態から処理を再開す る. Checkpoint Rollback Error チェックポイント間隔 大 オーバヘッド小,障害の影響大 チェックポイント間隔 小 オーバヘッド大,障害の影響小 2.3 フェィルセイフ 障害が起きても安全な出力・状態に移行 危険側出力は出さない 例.3値を用いたフェイルセイフ論理 AND演算発振器 タイプA: 入力VA,VB が共にVCC(+側電源電圧)より高 いなら,発振 タイプB: 入力VA,VB が共にVEE(ー側電源電圧)より高 いなら,発振 A B 出力用整流回路 タイプ+: 発振信号が入力されたら, VCCより 高い電圧を出力 タイプ-: 発振信号が入力されたら,VEEより 低い電圧を出力 + - アイデア 論理値 1:VCCより高い電圧 0:VEEより低い電圧 1/2:それ以外 (安全側出力) AND演算発振器と出力用整流回路を組み合わせる AND演算発振器の故障 発振停止により1/2を出力 出力用整流回路の故障 A - A + B - B + 1/2を出力 誤った論理値がでない! 論理ゲート NOT AND 0 1 1/2 1/2 1 0 A - B + 0 0 0 1/2 1/2 1 0 1/2 1/2 1/2 1/2 1 0 1/2 1 B - B - A - B - A - A +
© Copyright 2024 ExpyDoc