スライド タイトルなし

2009. 7. 6
Ibaraki Univ. Dept of Electrical & Electronic Eng.
Keiichi MIYAJIMA
今後の予定
7月6日
コンピュータシステムの信頼性
7月13日 まとめと期末試験について
7月27日 期末試験
コンピュータシステムの
信頼性
信頼性と信頼度
信頼性
素子や機器などのアイテムが正しく機能
しているかどうかを定性的に表す言葉
信頼度
アイテムが与えられた条件で、規定の期
間中、要求された機能を満足する確率
信頼度の例)
総数 N 個の素子が時刻 t まで正常に動作している素子数
を S (t )とすると、信頼度 R (t )は
S (t )
R(t ) 
N
信頼性と信頼度
不信頼度
アイテムが与えられた条件で、規定の期
間までに、故障する確率
不信頼度の例)
時刻 t までに故障した素子数をQ(t )と
すると、不信頼度 F (t )は
Q(t )
F (t ) 
N
信頼性と信頼度
故障率
時刻 t までに残っている素子数 S (t ) の
うち、単位時間に故障する確率  (t )
1 dQ(t )
 (t ) 

S (t )
dt
ここで、dQ(t ) / dtは時刻 t まで正常で
あった素子が、時刻 t  t で故障する確率
信頼性と信頼度
故障率のバスタブ曲線
1 dQ(t )

 (t ) 
dt
S (t )
故障率の時間変化
故
障
率
初期故障
偶発故障
時 間
摩耗故障
信頼性と信頼度
偶発故障期間の信頼度
この期間における故障率を
1 dQ(t )


dt
S (t )
 (一定)とすると、
S (t ) N  Q(t )
Q(t )
R(t ) 

 1
N
N
N
両辺を
t
で微分すると、
dR(t )
1 dQ(t )
 
dt
N
dt
dQ(t )
dR(t )
 N 
dt
dt
信頼性と信頼度
1 dQ(t )


dt
S (t )
偶発故障期間の信頼度
dQ(t )
dR(t )
代入
 N 
dt
dt
N dR(t )
1 dR(t )




S (t )
dt
R(t )
dt
右辺の dt を左辺に移すと、
dR(t )
  dt  
R(t )
信頼性と信頼度
偶発故障期間の信頼度
1 dQ(t )


dt
S (t )
dR(t )
  dt  
R(t )
t  0 における信頼度を1とすると、
t
R (t ) 1
   dt   
dR(t )
0
1
R(t )
t
R (t )
t 0  log e R(t )1
t  log e R(t )  log e 1
t   log e R(t )
R(t )  e
 t
平均故障寿命と平均故障間隔
平均故障寿命 (mean time to failure: MTTF)
非修理アイテムの故障寿命の平均値
平均故障間隔 (mean time between failure: MTBF)
故障と故障の間の平均時間間隔 (故障率の逆数)
MTBF 


0

R(t ) dt   e
0
 t
dt 
1

例) あるプロセッサが 10 6ゲートから構成され、1ゲートあ
たりの故障が平均 1010時間に1回発生すると仮定
プロセッサの故障率
1
10  10  10  4 個数/時間
10
よってMTBFは 10 4 時間
6
保全度と平均修理時間
保全度 (maintainability)
与えられた時間内に故障の検出・修理を完了する確率
平均修理時間 (mean time to repair: MTTR)
修理に要する平均時間
この時間が短ければ短いほど修理が速い
アベイラビリティ
(availability: Av)
コンピュータシステムが特定の瞬間に機能を維持
している確率。(稼働率ともいう)
Av=
アップタイム
アップタイム+ダウンタイム
MTBF
=
MTBF+MTTR
信頼度と保全度を総合したシステムの広義の信頼性を表
す尺度
アベイラビリティの向上にはMTTR(平均修理時
間)を小さくすることが、コスト的に有利である場
合が多い。
直列および並列システムの信頼度
直列システム (series system)
近年のコンピュータシステムはモジュール化されている
R1
R2
R3
R4
モジュール
1
モジュール
2
モジュール
3
モジュール
4
どれか一つでも故障するとシステムダウンになる。
例) 信頼度 R1  0.98と信頼度 R2  0.98 の2個のモジュールか
らなる直列システム全体の信頼度 R は
R  R1  R2  0.98  0.98  0.96
直列および並列システムの信頼度
並列システム (parallel system)
モジュール
1
R1
モジュール
2
R2
モジュール
3
R3
モジュール
4
R4
全て故障しないとシス
テムダウンにならない。
例) 信頼度 R1  0.98と信頼度 R2  0.98の2個のモジュールか
らなる並列システム全体の信頼度 R は
直列および並列システムの信頼度
並列システム (parallel system)
例) 信頼度 R  0.98と信頼度 R  0.98の
1
2
2個のモジュールからなる並列システ
ム全体の信頼度 R は
2個のモジュールが2つとも故障する確率は
(1  0.98)(1  0.98)
よって R は
R  1  (1  0.98)(1  0.98)  0.9996
モジュール
1
R1
モジュール
2
R2
モジュール
3
R3
モジュール
4
R4
直列および並列システムの信頼度
例題
1)
以下のシステムの全体の信頼度 R はそれぞれ
いくらか?
なお、各モジュールの信頼度は全て0.98とする。
R1
R2
モジュール
1
モジュール
2
R3
R4
モジュール
3
モジュール
4
2)
R1
R2
モジュール
1
モジュール
2
R3
R4
モジュール
3
モジュール
4
1)
解答
1) 上側の信頼度は2個の直列なので
RU  R1  R2  0.98  0.98  0.96
R1
R2
モジュール
1
モジュール
2
R3
R4
モジュール
3
モジュール
4
下側も同様であるから、これが二つ
の並列システムを作っているので、
R  1  (1  0.96)(1  0.96)  0.9984
2) 左側の側の並列システム
の信頼度は
RL  1  (1  0.98)(1  0.98)  0.9996
R1
R2
モジュール
1
モジュール
2
R3
R4
モジュール
3
モジュール
4
これが二つ、直列に繋がっていると考えられるので、
R  0.9996  0.9996  0.9992
高信頼化システムの構成
一般にコンピュータシステムでは、万一、故障が発生してもシステ
ムダウンとならないことが要求される
故障が発生してもシステムが動作を維持できる
フォールトトレランス (fault tolerance: 耐故障)
代表的な耐故障システムの構成例
デュプレックスシステム
(待機冗長システム)
MEM 1
CCU 1
CPU 1
CCU 2
CPU 2
FILE
1
SW
一方に故障が発生したら、すぐに
予備のシステムに切り換える
MEM 2
FILE
2
代表的な耐故障システムの構成例
デュアルシステム
(dual system)
MEM 1
CCU 1
CPU 1
FILE
1
クロス チェック
CCU 2
CPU 2
MEM 2
クロスチェックにより、信頼性を向上
FILE
2
代表的な耐故障システムの構成例
TMR (triple modular redundancy)
MEM 1
CPU 1
CPU 2
Voter
MEM 2
CPU 3
MEM 3
システムを三重化して多数決
で決定
代表的な耐故障システムの構成例
マルチプロセッサシステム
C
C
U
(multi-processor system)
CPU 1
Channel 1
CPU 2
Channel 2
M
E
M
多数のCPUを用いて処理を分担し実行する。高信
頼性と高処理効率を実現できるが、制御やプログラ
ミングが難
FILE
1
FILE
2
本日のまとめ
「コンピュータシステムの信頼性」について
• 信頼性と信頼度
• 平均故障寿命と平均故障間隔
• 保全度とアベイラビリティ
• 信頼度の計算法
• 代表的な耐故障システム
本日の課題1
1. MTBFが1500時間、MTTRが500時間であるコ
ンピュータシステムの稼働率を1.25倍に向上さ
せたい。MTTRをいくらにすればよいか?
(H15年春)
2.3台のコンピュータが以下の図のように接続さ
れているとき、システム全体の信頼度はいくら
か? なおコンピュータの信頼度は全て0.98
とする。
A
C
B
本日の課題2
3.信頼度0.9の装置を用いて、全体の信頼度
0.999以上の多重化システムを作りたい。こ
の装置を最低何台並列に接続すればよい
か?
(H18年秋、H14年秋、類題:H15秋)