Fault - System LSI Lab.

ハードウェア設計特論 (12)
安浦寛人
2008.7.10
社会の神経系としての情報通信システム
•
•
•
20世紀後半は既存の社会システム(19世紀後半から20世紀
前半に基本設計された)の中に情報通信技術を部分的に導入
し、サービスの高度化、高速化を進める時代であった。
通信速度、情報処理速度の向上は、システムの設計時に想定
しなかった事態を生み出すようになった。
21世紀は情報通信技術を前提として社会システム自身を再設
計する時代。
–
–
社会情報基盤(Social Information Infrastructure)
ユビキタス社会、 e-Japan、u-Japan
社会情報基盤の構築
社会システムの再構築とそのために必要となる基盤情報技術
経済性・効率性
安全・安心
快適・豊かさ
社会システム
行政システム、経済システム、通信システム
交通システム、物流システム、放送システム
環境、教育、徴税、治安、国防、商業、農業
情報
ネットワーク
ハードウェア
(LSIなど)
基盤情報技術
ソフトウェア
何が問題か?
• 産業・社会構造の変化
–
–
–
–
サービス中心の産業構造への転換
価値や信用の移動速度の劇的変化
社会システムの情報通信技術への依存度の増大
電子情報系と機械系などの他分野技術の融合
• システムの複雑化
–
–
–
–
–
世界的なネットワーク接続(地理的拡大)
異なる分野のシステムとの接続(異分野との統合)
新旧の各種システムとの接続(時間軸での統合)
微細化・大規模化による揺らぎや不確実性の増大
設計者、製造者、利用者の理解不足(技術と人間のギャップ)
• 想定外の事象の発生とそれへの対応
–
–
–
–
Specification-basedの技術からPolicy-basedの技術への転換
即時的な応急回復機能への要求(Instant Recovery)
保険や責任体系の変化
制度、法律、規則の整備や改変との連携
JST研究開発戦略センター
ディペンダビリティワークショップ資料
揺らぎと不確実性への増大
物理的揺らぎの
設計による吸収
攻撃
仕様不備
環境変化
•DFM
システム(ネットワークを含む)
•Variation Tolerant Design
多数のデバイスとSWの結合
OS、組込みSW
複雑な機能のSW化・プラットフォーム独立
SWバグ
回路・HW
温度・電源
の揺らぎ
低コスト化・高性能化・低消費電力化・高信頼化
製造プロセス
プロセスの
揺らぎ
微細化・マスクコスト・歩留まり向上
設計バグ
問題のシステム
全体への波及
の阻止
各層で発生する問題をいかにシステム全体の致命的な
問題にせずに済ませるかという問題
微細化によるLSIの信頼性の問題
• リーク電流
– 発熱、誤動作、製品寿命短縮の原因
• プロセス(P)変動
– プロセスパラメータ(P)の変動やCVD工程などによる薄膜の破壊によるのVtの
変動
• 電源(V)変動
– 電流の偏りや電源線の抵抗成分による電源電圧の変動
• 温度(T)の変動
– 温度の変化による回路遅延変動
• ソフトエラー
– 宇宙線が大気と反応して生成される中性子線などによるメモリビット反転や
論理誤動作
• クロストーク
– 配線間カップリング容量による信号変形、遅延変動
SRAMとDRAMの面積当りのSER
Slaymanの論文及びITRSのデータを用いて計算したもの
SOCの面積に占めるメモリの割合
出典:ITRS 2003
DFTとセキュリティの関係
00101
・・・
何がスキャンインされて、何がスキャ
ンアウトされてはいけないのかを整理
どんな値をスキャンイン、入力されて
も鍵を特定できる情報はスキャンアウ
ト、出力されない
暗号アルゴリズムとハードウェアの関
係からスキャン化するFFを決定
防御法を実験で評価
9
DESの実装例に対する適用例
Input_Reg
観測/制御可能
初期転置IP
観測可能
制御可能
MUX
MUX
L_Reg
R_Reg
いずれも不可
ラウンドキーK1
故障検出率を保証しつつ
スキャンパスを利用した攻撃
を防ぐためのスキャンパス構成
観測性/制御性
故障検出率
すべてのレジスタ不可
3%
入出力レジスタのみ可
72%
提案手法
92%
F
最終転置IP-1
Scan_out
Output_Reg
Control部
State_Reg
ATPGツール( シノプシス社製 TetraMax)
Round_Reg
10
暗号文
Dependabilityとは
• システムの環境・本体・構成要素に発生する故障・人的
な誤り・悪意ある攻撃に対し,システムが提供するサー
ビスを利用者が満足する許容範囲内のレベルで維持する
こと
– ユーザ視点の概念
• ユーザ(利用者)が、その生命、財産、プライバシーなどを安心し
て委ねられるシステムが持つべき性質
• 合理的な有限責任をユーザに宣言するための基礎となる性質
• 無限責任を負うべきシステム(航空機や原子力など)については、
極めて厳しいレベルで要求される
安浦:JST研究開発戦略センター
ディペンダビリティワークショップ資料
Dependabilityとは?(IEEEでの議論から)
Dependability
可用性
利用可能性
サービスの
継続性
Availability Reliability
壊滅的被害
の防止
Safety
秘匿情報の
不正な改造や
保護
偽造の防止
サービス中
の修理や改
良の可能性
Confidentiality Integrity Maintainability
Security
Absence of unauthorized access to, or handling of , system state
南谷教授 JST研究開発戦略センター
ディペンダビリティワークショップ資料
Dependability 阻害要因の因果関係
検出されるerrorの原因は複数かも
しれないので区別が必要
Error
Fault
failureまたは
errorの原因
failureを起こし得るシステムの状態
区別しないとtoleranceは達成できない
Failure
提供されるサービスが仕様から逸脱したときに生じる
南谷教授 JST研究開発戦略センター
ディペンダビリティワークショップ資料
Dependability 阻害要因の因果関係
Same error caused by different
faults
Cause of failure or
error
(Physical Faults,
Human Errors and
Attacks)
Fault
Fault
Undependable
Systems
Error
Status of a
system which
causes failure
Error
Failure
The service of the system deviates from
specification.
Detect, Mask and Repair
Dependable Systems
Classical Fault Model: Recursion
higher level
fault
error
failure
system
fault
error
failure
lower level
fault
error
failure
南谷教授 JST研究開発戦略センター
ディペンダビリティワークショップ資料
現代的な問題
• Faultの多様化
– 自然現象中心から人間の誤りや攻撃によるもの
へ
• FaultとFailureの関係の多様化
– 階層を飛び越えた影響
– 複数のFaultの組み合わせ効果
• Failureの定義の変化
– システム仕様の動的な変化
Modern Fault Model: Faultの多様化
grobal system
fault
system
攻撃
fault
error
failure
人的ミス
subsystem
error
物理fault
人的ミス(設計、製造、運用)
failure
error
failure
Modern Fault Model:階層の透過
grobal level
fault
error
system
fault
subsystem
fault
error
failure
error
failure
failure
Modern Fault Model:相互作用
grobal system
fault
system
system
fault
subsystem
fault
failure
error
error
error
subsystem
fault
error
fault
error
Modern Fault Model:仕様の変更
grobal system
fault
新しい仕様
system
fault
error
古い仕様
subsystem
fault
error
Non-fault
failure
仕様の
変化
failure
error
failure
阻害要因による分類
•
自然現象による脅威 (Natural Threat)
– 自然界からの雑音
– デバイスの故障・経年変化
– 製造時の揺らぎ
•
人間活動(設計、製造、運用)におけるミス(Human Errors)
– 設計や仕様上の誤り
– 製造時の誤り
– 運用上の誤り
•
悪意ある攻撃による脅威 (Human Attack)
– 攻撃への耐性(設計時、製造時、運用時など)
– 事故時の対応(波及の局所化、迅速な復旧)
– 利用者の了解性、社会の受容環境
•
複数の要因の複合的効果
– システム同士、システム対人、人同士のインタラクションに起因する不具合
– 「仕様が規定できない」という本質的問題
JST研究開発戦略センター
ディペンダビリティワークショップ資料
Life Cycle Stagesの視点
• Dependabilityに影響するLife Cycle Stages
– 企画 (Planning)
– 設計 (Design)
– 製造 (Fabrication)
– 検査 (Test)
– 流通 (Distribution)
– 運用 (Operation)
– 廃棄・更新 (Abandonment/Replace)
JST研究開発戦略センター
ディペンダビリティワークショップ資料
人命にかかわる例
(自動車用チップ)
自然現象
人的ミス
人的攻撃
企画
仕様不備
寿命設定ミス
企画の盗難
設計
設計ミス、バグ
利用環境の想定ミス
設計の盗難
製造
製造ばらつき
製造ミス
検査
間欠故障の見逃し
見逃し
不良品混入
流通
実装中の環境変化
不良・偽造品混入
偽造品混入
運用
経年変化、温度環境
利用事故
保守のミス
無線による攻撃
更新不整合
情報抜取
廃棄・更新
赤字:原因
JST研究開発戦略センター
ディペンダビリティワークショップ資料
財産にかかわる例
(電子マネー用チップ)
自然現象
人的ミス
人的攻撃
企画
仕様不備
交換時への配慮不足
企画の盗難
設計
設計ミス、バグ
利用環境の想定ミス
設計の盗難
不正回路挿入
製造
製造ばらつき
製造ミス
違法な生産による
横流し
検査
間欠故障
見逃し
良品横流し
流通
運搬・保存中の
環境変化
運搬等の事故
盗難、横流し
運用
経年変化
宇宙線・環境
利用事故
廃棄・更新
赤字:原因
更新時不整合
Phishing、virus
盗聴、不正利用
情報抜取・解析
JST研究開発戦略センター
ディペンダビリティワークショップ資料
何が問題か?
価値の量(大きさ)と保存則の保証
2,000 年
1,000年
電子マネー ?
金属貨幣
紙幣
価値の量:情報
価値の量:物質(金属)
価値の量:情報(印刷)
価値の保存則:物質保存則 価値の保存則:物質(紙) 価値の保存則:情報
完全なコピーが可能な
情報で価値が保存できるか?
ICカードは財布か貨幣か?
•
財布であるなら
– 偽物でも入っている「価値」が本物な
ら許せる
– ブランド品と安物の差はあっても、中
身の「価値」とは無関係
•
貨幣であるなら
– 偽物は許されない
– 政府の通貨発行権や徴税権と密接
に関係する
– 財務省印刷局LSI部門が必要?
– 暗号だけで済む話ではない
特殊性の実現
技術的課題
設計
製造
材料
加工方法
機能・性能
■特殊な設計・製造過程
設計時の機密保持
製造時の盗難防止
テスト時の不法行為防止
配布時の盗難防止
テスト
■運用時の真贋性判定
電子的・非電子的
不正の検出機能
配付
運用
真贋性保証の例
製造
特性測定
特性データ
の暗号化と
書き込み
ICカードなど
特性測定
比較
暗号データ
読み出し
Dependability向上の対策
自然現象
人的ミス
人的攻撃
製品寿命の見積もり
環境変化の予測
仕様の完備
ライフサイクルの予測
機密保持
攻撃の予測
耐故障設計、雑音対策
DFM、DFT
モニタ機能の組込み
単純なアーキテクチャ
設計検証
設計品質管理
テスト容易化
製品の操作性向上
設計データ管理
耐タンパ設計
Security-on-Chip
製造
製造ばらつきの制御
工程管理の徹底
製品管理の徹底
検査
テスト精度向上
悪環境下のテスト
工程管理、自己テスト
テスト精度向上
製品管理の徹底
モニタリング
流通
環境の保全・管理
物流の管理
物流の管理
トレース技術
運用
環境モニタリング
Online Self Test
利用履歴モニタリング
利用者教育
利用者教育
監視、攻撃対策
廃棄・更新
自殺、異常通知機能
自動消去機能
無効化
企画
設計
製品管理の仕組
JST研究開発戦略センター
ディペンダビリティワークショップ資料
マルチコアプロセッサにおける電力と性能と
Dependabilityの関係(佐藤)
Br
Pred
I$
Decode
Br
Pred
I$
Decode
Decode
IQ
IQ
IQ
IQ
IQ
RF
RF
RF
RF
RF
FU FU
FU FU
FU FU
FU FU
FU FU
D$
D$
(a) Dual large core
•
Br
Pred
I$
Cluster
gating
D$
Br
Pred
I$
Decode
Br
Pred
I$
Decode
IQ
IQ
IQ
RF
RF
RF
FU FU
FU FU
FU FU
D$
(b) Hetero core
Br
Pred
I$
Decode
IQ
Cluster
gating
Cluster
gating
RF
FU FU
D$
D$
(c) Dual small core
Br
Pred
I$
Decode
IQ
RF
RF
RF
FU FU
FU FU
FU FU
(d) Single large core
クラスタ・ゲーティング & コア・ゲーティング
電力と性能とのトレードオフを考慮可能
Dependability指標の必要性
ASP-DAC2008(2008.1.24)で報告
Core
gating
D$
– 要求性能に必要な電力のみを供給⇒電力利用効率改善
•
•
Decode
IQ
– 様々なスケールと構成を実現可能
•
Br
Pred
I$
IQ
Cluster
gating
Core
gating
D$
(e) Single small core
ディペンダビリティの実現手段
Fault prevention:
フォールトの発生や導入を予防する
Fault tolerance:
フォールトが生じても正しいサービスを提供する
Fault removal:
フォールトの数や程度を減少させる
Fault forecasting:
フォールトの現存数、影響を推定する
南谷教授 JST研究開発戦略センター
ディペンダビリティワークショップ資料
ディペンダビリティの実現手段
grobal sysytem
fault
error
failure
system
fault
error
failure
prevention subsystem
forcasting
fault
tolerance
error
failure fault
removal
安浦:JST研究開発戦略センター
ディペンダビリティワークショップ資料
ディペンダビリティの水準
•
サービス品質:ディペンダビリティとパフォーマンス
•
要求仕様:Service Level Agreement
•
–
望ましい(正常な)品質レベル
–
許容できる品質レベル
–
許容不可
フォールトトレランスの段階
–
1) 狭義のフォールトトレランス:要素にフォールトが発生してもシステムとしては所望の品質
レベルのサービスを維持
–
2) 漸次縮退(graceful degradation):1)を維持できなくなったら、許容レベルまでサービス品質
を漸次縮退する
–
3) フェイルセイフ(フェイルストップ):2)を維持できなくなリサービス品質が許容レベル以
下になったらシステムを安全側の状態へ固定する=>最後の手段
南谷教授 JST研究開発戦略センター
ディペンダビリティワークショップ資料
フォールトトレランスの実現原理
•
「冗長性」と「分散性」
‒ 冗長性がなければ誤り検出もフォールトマスクもできない
‒ その冗長性がフォールトの影響範囲に集中したのでは効果がない
•
冗長性の形態
‒ 空間:多重化、反復配列など
‒ 時間:再試行、交番論理、マルチスレディングなど
‒ 情報:誤り検出訂正符号、システム不変量、シグネチャーなど
‒ 仕様の解釈:アナログ値、ファジー値、許容精度など
‒ 問題の表現:ニューラルネットによる最適化問題、多重符号状態割
り当てなど
どのような形態の冗長性をどのように実現するか?
南谷教授 JST研究開発戦略センター
ディペンダビリティワークショップ資料
フォールトトレランス要素技術
•
対象とするフォールトモデルの明確化が必要!
•
フォールトの局限化:波及範囲の限定=>上位システムへの影響防止
•
誤り検出:2重化、語の符号化、系列の符号化、時間監視、 I m alive 、Heart Beat、一貫
性/合理性チェック、評価尺度はCoverageとLatency
•
フォールトマスク:多重化、誤り訂正符号、フォールトマスク論理、時間冗長
•
再試行:過渡的フォールトに効果
•
診断:マイクロプログラム診断、システムレベル診断、ビザンチン合意など、
永久的フォールトの同定に必要
•
システム再構成:動的2重化、動的冗長系、超並列など、
予備要素へ切り替え、システムから切り離し
•
システム回復:チェックポイント設定、ファイルバックアップ、情報分散
•
再起動:最後の手段
南谷教授 JST研究開発戦略センター
ディペンダビリティワークショップ資料
•
•
•
•
具体的な達成目標 デバイス技術、回路技術、アーキテクチャ、LSI技
術、システムソフトウェア技術の各技術分野における技術開発、および、
それらを統合した技術開発により、スーパーコンピュータから携帯情報端
末などの組み込み用情報通信システムまで適用可能な、消費電力あた
りの処理性能を100倍から1000倍にする超低消費電力技術の確立を目
指す。
デバイス、回路技術分野: 動的閾値制御技術、高誘電率材料技術、磁
気抵抗メモリ等の不揮発メモリデバイス技術、単一磁束量子素子等
アーキテクチャ、LSI技術分野: 動的再構成LSI技術、高機能メモリ技術、
並列演算処理技術、組込用超低消費電カプロセッサを活用したスーパー
コンピュータ等
システムソフトウェア分野: 低消費電力化のためのコンパイラ技術、0S等
による資源制御技術等
•
コンピュータ技術の進展に伴い、基幹業務系や汎用Cのみならず、ホームサー
バ、デジタルV、組み込み型高性能サーバ、車載制御装置、生産制御装置、通信
制御装置、ロボット、携帯機器、モバイル・ウェラブルコンピュータ、センサー・アク
チュエータなど、多数の情報機器・システムがネットワークに接続されるように
なってきており、近い将来にいわゆるユビキタス情報社会を構成するであろうと見
込まれます。この時、これらの要素システムの多くは目的別の組込みシステムと
して構築され、高い信頼性、応答性を確保しつつ、小さく、軽く実現することを要
求されます。加えて、それらを接続した情報システムの信頼性、安全性、セキュリ
ティ、性能などの要求を満足でき、さらには将来の拡張性や変更に動的に対応で
きなければなりません。このようなディペンダブルなシステムを構築するために
は、オペレーティング・システム(0S)のレベルからイノベーティブな研究開発を行
う必要があると考えられます。本研究領域は、ディペンダブルな情報システムを
構築するための組込みシステム向けのOSの研究開発を行うものです。
ディペンダブルVLSIシステムの
基盤技術
•
•
•
•
•
LSIシステムの高信頼・高安全性を保証するための基盤技術の研究開発を対象とします。
人類の諸活動が情報システムに依存する度合いは増す一方であり、その信頼性・安全性
の確保はきわめて重要な社会的課題です。そのエンジンであるLSIも、それ自身が膨大な
数の回路素子を含む巨大システムであり、その信頼性・安全性は情報システムの信頼性・
安全性のコアとなるものです。LSIシステムを、信頼性・安全性に配慮しつつさらに大規模化
するため、横たわる多くの課題を解決することが本研究領域の目的です。
素子寸法の極限的な微細化にともなう物理的な揺らぎ、一過性雑音事象、使用にともなう
劣化などが問題です。こうした不安定要因は、直接誤動作の原因となるのみならず、LSIの
大規模化にとっての阻害要因であり、その影響を緩和する素子レベル、回路レベル、システ
ムレベルの新技術の研究開発が必要です。
微細化による大規模化が限界に近づいているため、多数のチップを3次元的に実装するこ
とによる大規模化と、それにともなう信頼性・安心性の確保も大きな課題であり、研究開発
が必要です。
規模の拡大と複雑化にともなう設計上のミスを排除し、設計・検証・製造・検査を容易化す
る設計の方法も研究開発課題です。信頼性・安全性へのLSIシステム内外からの脅威を動
作中に検出し、封じ込め、緩和するアーキテクチャー、回路の研究開発も必要となります。
LSIシステムへの要求事項は、用いられる情報システムの特性から決まりますが、新しく信
頼性・安全性の仕様規定、評価尺度を作り上げて行くことも本研究領域の研究開発課題で
す。
参考文献
• 安浦寛人:「社会システムを支えるディペンダブルコンピューティ
ング」,電子情報通信学会誌,創立90周年特集号,
vol.90,no.5,pp.399-405,(2007,5)
下記はhttp://crds.jst.go.jp/output/sp.html#1 から取得できます.
• 科学技術振興機構研究開発戦略センター:「情報化社会の安全と信頼を
担保する情報技術体系の構築 −ニュー・ディペンダビリティを求めて−」
(2006,12)
• 科学技術振興機構研究開発戦略センター:「 VLSIのディペンダビリティに
関する基盤研究−高信頼・高安全を保証するLSI基盤技術の構築ー」
(2007, 3)
• 科学技術振興機構研究開発戦略センター:「組込みシステム用ディペン
ダブルOS」(2006, 3)
• 科学技術振興機構研究開発戦略センター:「超低消費電力化(ULP)技
術」(2006, 3)
試験問題
試験日:7月17日 8:40-10:10
2問とも解答すること.
ノート,教科書,資料の持ち込みは不可.
事情によって受験できない人は早急に安浦にメールで連絡して
ください。
試験問題1
与えられた5個の独立したスレッドからなるプログラムを2個のプロセッサを含むマルチプロ
セッサシステムで実行することを考える。同一のスレッドは別のプロセッサに分割して実行
することはできないと仮定する。また、各プロセッサは、独立に電源のon/offあるいは電源
電圧とクロック周波数を動的に制御できると仮定する。このとき、プログラムの実行に必要と
なるエネルギーを最小とするスケジュールについて議論せよ。
ただし,消費エネルギーは動的消費エネルギーとリーク電流によるものを考え
Ei = Cyclei ・ ΣCLk・Switk・VDD2+AVDD2
であたえられるとし,電源offの時のリーク電流は0とできると仮定する.回路の遅延は電源
電圧に反比例すると仮定する.また,プログラムの実行時間とエネルギー消費は入力デー
タには依存しないと仮定する.また、各スレッドは、同じクロック実行サイクル数であり、独立
に実行でき、データ依存関係も無いと仮定する。最大電圧V0、最大周波数f0で1つのスレッ
ドを1つのプロセッサで実行する時間をT0とする.動的消費エネルギーとリーク電流による
消費エネルギーの比を表す定数Aが0.1,1,10の3つの場合について考えよ.
Ei :スレッドiを実行するのにかかる総エネルギー
Cyclei :スレッドiの実行サイクル数(総クロック数)
CLk:素子kの負荷容量
Switk:素子kの1サイクル当たりの平均スイッチング回数
VDD:電源電圧(各プロセッサ毎にV0とV0 /2の2種が設定可能。時間的に変更も可能)
Α:動的消費エネルギーとリーク電流に起因する静的消費エネルギーの比を表す定数
試験問題2
与えられた計算(例えば画像処理や音声処理) を実現するハードウェ
アを設計する場合に,プロセッサを利用した設計と完全に専用回
路設計を設計する場合を比較する.具体的には,下記の4つの
場合を考える.
(1)既存のプロセッサを搭載した汎用LSIを利用する設計
(2)プロセッサのIPを購入し,専用LSIに組み込んで利用する設計
(3)専用回路を設計し,FPGAを利用して実現する設計
(4)専用回路を設計し,オリジナルのLSIを設計・製造する設計
1.上記の4つの設計について,設計や製造の中で他製品との共有が
行える部分がどのように異なるかを比較せよ.
2. 上記の4つの設計について,チップコストと性能および製品数の側
面から比較せよ.