先月7月18日に発生した米大手セキュリティベンダーであるクラウドストライクが引き起こした大規模なシステム障害は、技術市場最大の障害ともいわれている。その影響は、航空会社、銀行、病院、政府機関などのほか、米国の一部の州では緊急電話番号911も一時不通になるなど多岐にわたった。マイクロソフトによると850万台のパソコンが影響を受けたと推計されている。
最も経済的損失を受けたデルタ航空は、障害発生から5日間で約7000便が欠航し、130万人に影響が出た。払戻しなどによる損害だけでも3億8000万ドル(約570億円)、復旧にかかった費用は1億7000万ドル(約255億円)にのぼると試算している。
欠航による燃料費の節約はわずか5000万ドル(約75億円)にすぎないことから、クラウドストライクとマイクロソフトに対して5億ドル(750億円)の損害賠償を求めている。
「単一障害点」という危うさ
今回の原因は、クラウドストライクが配布した更新プログラムが原因であったことが判明している。Windowsの動作をOSレベルで監視するファルコン(Falcon sensor for Windows)のアップデートが原因だという。アップデートを配布する前の検査ツールにバグ(瑕疵)があり、検査を通過してしまったと言うのがクラウドストライクCEO(最高経営責任者)のジョージ・カーツ氏の説明だ。
たった一つのシステム障害が、システム全体に影響を及ぼすことを「単一障害点(Single point of failure)」と呼ぶ。例えば、通信装置(ルーター)や配電盤が1台しか設置されていないシステムでは、それらの機器に障害が発生した場合、システム全体が停止してしまうような事態をいう。
通信装置や配電盤などは二重化し、耐障害性(フォールトトレランシー)を確保すればいいが、ソフトウェアの場合は、二重化しても結果は変わらないため厄介だ。ソフトウェアの更新時期をずらして部分的にアップデートを行うか、または異なるOS、例えばWindows OSだけでなくLinux OSを使用するかしかない。
今回の事故を受けて米国議会では、「単一障害点」は、国家安全保障の脅威であり、民間や政府のインフラに及ぼす影響は無視できないとして、システムの見直しをするよう議論が進んでいる。わが国のシステムでも単一障害点が起こらないか、今一度見直しを行う必要があるだろう。