280 likes | 347 Views
クイズ. 信頼度 R(t) = e -t/6 のシステムの MTTF を求めよ 信頼度 R(t) = 3e -t/3 -2e -t/2 のシステムの MTTF を求めよ. 2. 誤り検出とマスクによる耐故障化技術 2.1 静的マスク. 静的マスク 障害をユーザに気付かせない 例.リレーの多重化 故障モデル. 開放故障 (open fault) 閉じない. 短絡故障 ( short fault ) 開かない. リレーの多重化. 耐えられる故障は?. リレーの多重化 単一故障. (a). (b). (c). (d).
E N D
クイズ • 信頼度 R(t) = e-t/6のシステムのMTTFを求めよ • 信頼度 R(t) = 3e-t/3 -2e-t/2のシステムのMTTFを求めよ
2.誤り検出とマスクによる耐故障化技術2.1 静的マスク • 静的マスク • 障害をユーザに気付かせない • 例.リレーの多重化 • 故障モデル 開放故障 (open fault) 閉じない 短絡故障 (short fault) 開かない
リレーの多重化 耐えられる故障は?
リレーの多重化単一故障 (a) (b) (c) (d) ポイント:(a), (b)のレベルでも,開放故障と短絡故障にモデル化できる
リレーの多重化2重故障 (c) (d)
信頼性解析 • E[a]open, E[b]short • aが開放故障する確率 • bが短絡故障する確率 • E[a]short = eshort * eshort • E[a]open = 1 - (1-eopen) * (1-eopen) • E[b]short = 1 - (1-eshort) * (1-eshort) • E[b]open = eopen * eopen (a) (b)
(a) (b) 信頼性解析(2) (c) • E[a]short = eshort * eshort • E[a]open = 1 - (1-eopen) * (1-eopen) • E[c]short = E[b]short * E[b]short • E[c]open = 1 - (1-E[b]open) * (1-E[b]open)
グラフ E[c]short E[c]open eshort eopen
ポイント • 多重化しても信頼性が改善されない場合がある. • 信頼性は,システムの構成,構成要素自体の信頼性に依存する
2.1 多重系多数決システム • 3重系多数決システムTriple Modular Redundancy (TMR) • 1つのModuleのFaultに耐えられる. • Faultの発生に対し特別な処理(エラー検出やリカバリー等)を行わない (静的冗長系) Module Module Voting Element Input Output 多数決を採る Majority Module
Module Module Voting Element Module 信頼性解析 • Rtmr (TMRの信頼度) = Rv (Rm3 + 3Rm2(1-Rm)) = (3Rm2 - 2Rm3) • Rv=1,Rm(t)=e-lt を仮定 Rtmr= 3e-2lt -2e-3lt • MTTFm = 1/l • MTTFtmr = 5/6l Rv(t) Rm(t)
グラフ 信頼度 信頼度 時間 時間 任務時間(mission time)が短いときに有効
信頼性の改善度を計る尺度 • 比較したい信頼度 • 改善前: Rm(t) • 改善後: Rr(t) • 信頼度改善比 • Rr(Treq) / Rm (Treq) ただし, Treqは任務時間 • 任務時間改善比 • Tr / Tr • ただし,Rreqを要求される信頼度として, Rreq = Rm(Tm) = Rr(Tr)
Voting Element Voting Element Module Module & & + Voting Element Voting Element Module Module & Voting Element Voting Element Module Module 多数決素子 • 1ビット当たりの構成 • 多重化
N Modular Redundancy • N-Modular Redundancy • TMRの一般化(Module数 3 → N) • Rnmr = Rv * S0<=i<N/2( )RmN-i (1-Rm)i N i
ハイブリッド冗長システム 静的冗長系(TMR)+動的冗長系 • 動的冗長系(Dynamic Redundancy) • Faultが起こった場合,システムのReconfiguration(再構成)を行うことでFaultを除去する手法 待機冗長システム Module Module Module Module Module Module Spare Module Module Module … … … Reconfiguration
ハイブリッド冗長システム 不一致 検出回路 Module 不一致 検出回路 Module Module Module Voting Element Module Voting Element Module Module Module Module Module … … Module Module
不一致 検出回路 Module Module Voting Element Module Module Module … Module 信頼性解析 • 2台以上モジュールが生き残っていれば良い • Rhyb = Rv Rsw (1 - NRm(1-Rm)N-1 - (1-Rm)N) Rsw(t) Rv(t) Rm(t)
グラフ Rswは定数 N = 7 N = 3 N = 5 時間 Rswが定数でなくRsw = PN とした場合,Nがある値を超えると,信頼度が逆に下がる
2.1.4 2重系比較システム(デュアルシステム) • 信頼度 • Rdup= Rcmp Rsw (Rm2 + 2CRm(1-Rm)) • C:カバリッジ • 再構成(故障診断など)が成功する確率 Module 比較 選択 Module
システムの例 • NEC Express5800サーバ
2.2 動的マスク • 2.2.1 待機冗長システム • 信頼度 (Rsw = 1) • Rsb= Rm + RmC(1 - Rm) + RmC2(1-Rm)2 + ・・・ + RmCN-1(1-Rm)N-1 Module Module Module Module Module Module Spare Module Module Module … … … Reconfiguration
Spareの区分 • 熱予備 Hot-Standby • 処理を実行 • 温予備 Warm-Standby • 中間の方式.稼動はしているが,サービスをしていない等. • 冷予備 Cold-Standby • 稼動させない • 待機時の障害率(の仮定) • lmodule = lhot > lwarm > lcold = 0
2.2.2 システム回復 • チェックポインティング(Checkpointing)とロールバックリカバリ(Rollback Recovery) • チェックポイントでシステムの状態を保存しておき,故障が発生した場合は,直前の正常な状態から処理を再開する. • チェックポイント間隔 大 • オーバヘッド小,障害の影響大 • チェックポイント間隔 小 • オーバヘッド大,障害の影響小 Rollback Checkpoint Error
2.3 フェィルセイフ • 障害が起きても安全な出力・状態に移行 • 危険側出力は出さない • 例.3値を用いたフェイルセイフ論理 • AND演算発振器 • タイプA: 入力VA,VBが共にVCC(+側電源電圧)より高いなら,発振 • タイプB: 入力VA,VBが共にVEE(ー側電源電圧)より高いなら,発振 A B
出力用整流回路 • タイプ+: 発振信号が入力されたら, VCCより高い電圧を出力 • タイプ-: 発振信号が入力されたら,VEEより低い電圧を出力 + -
アイデア • 論理値 • 1:VCCより高い電圧 • 0:VEEより低い電圧 • 1/2:それ以外 (安全側出力) • AND演算発振器と出力用整流回路を組み合わせる • AND演算発振器の故障 • 発振停止により1/2を出力 • 出力用整流回路の故障 • 1/2を出力 • 誤った論理値がでない! A - A + B - B +
B - B - 0 1/2 1 A - 0 1/2 0 0 1/2 1/2 1/2 1/2 B - 0 1/2 1 1 A - A + 論理ゲート NOT AND 0 1 1/2 1/2 1 0 A - B +