2024年12月21日(土)

Wedge REPORT

2016年4月21日

 世界を震撼させたパナマ文書は、データ量の観点から見ても桁違いだった。容量2.6TB、480万点のメール、300万点のデータベース、100万点の画像、210万点のPDFファイル、32万点のテキストファイルが流出したのだ。ドイツの新聞社に持ち込まれたデータはICIJ(国際調査報道ジャーナル連合)の手に渡り、Webサイトに見やすく整理された情報がアップされている。現在も76カ国に点在する370人以上のジャーナリストが協力してその全貌の解明を続けている。これらのビッグデータはどのように解析され公開に至ったのだろうか。

2.6TBを2日間でインデックス化

 ICIJに持ち込まれたデータの解析に協力したのがオーストラリアNuix社である。聞き慣れない名前の会社だが、同社の開発した「Nuix Investigator Lab」は政府を含む世界の一流調査機関に欠かすことの出来ないフォレンジツール、すなわち不正調査ツールだという。

 デジタルフォレンジックとは膨大なデータを解析して名前、会社、預金などの個人情報を抜き出し、相互参照をおこない、隠れていた関連性を浮かび上がらせる作業で、国際カルテル調査などに欠かせない。

 それでは実際のパナマ文書はどう解析されたのか。専門の調査機関に持ち込まれたと仮定して推測してみよう。まずHDDなどのハードウエアで持ち込まれた2.6TBのデータは、HDDデュプリケータと呼ばれるマシンを使って完全複製されオリジナルを保全。次に複製されたデータが改ざんできないように書き込みを禁止するライトブロッカーと呼ばれる装置に収められる。

 次にフォレンジツールが解析できないPDFファイルと書類をスキャンした画像データのテキスト化が待っている。OCRを使うのだが、おそらく最も時間のかかるパートに違いない。この作業にはクラウドコンピュータを使い数カ月を有したと言われる。次にデータ自身に付けられたメタデータを全文検索エンジンなどを使って切り出している。メタデータとはファイルタイプやタイムスタンプ、画像データであればExifやGPS情報などで、これらを利用してデータを分類することが可能になる。

 メタデータを利用してNuixはインデックスを作成。処理速度は1時間で85GBと超高速である。パナマ文書も2日あれば余裕で解析できる計算だ。インデックスを元に人物、会社、メールなどの相関関係を明らかにするためのダイヤグラムが自動生成される。このようなネットワーク構造を示すダイヤグラムはグラフと呼ばれる。グラフは中心になるノードとそこから伸びるエッジで形成されている。

 Nuixは400種類以上のファイルタイプをサポート。クラウドにあるメールアーカイブからもデータを収集可能である。また、画像分析機能もあり肌の色調から画像を抽出できる。地図上に位置を確定するためGPS情報やIPアドレスを利用。通信記録の解析、レジストリ分析、削除ファイルの復元、破損ファイル抽出など高度な機能を搭載。これらの機能を使ってNuixは名前、社名、金額、メールアドレス、IPアドレス、クレジットカード番号からなるグラフデータを構築する。可視化されたグラフによって、ターゲットの会社の中心人物が誰なのか、その人物が最も多くメールでやりとりしている人物は誰か、またその人物は誰とつながっているかなどの相関関係が一目で分かるようになるのだ。


新着記事

»もっと見る