勉強会概要

はじめに

扱ってるデータが今話題のパナマ文書なだけに資料はアップされないし、この勉強会中の写真等のアップはお控えください。だったので自分も控えつつ、技術の内容を中心にまとめる事とする

もともとはパナマにある法律事務所のモサック・フォンセカから出た機密文章
ドイツの新聞社がはじめこの機密文書を解析を試みたが、莫大なデータ量(2.6TB)で解析できず、国際調査報道ジャーナリスト連合 (ICIJ)が協力してデータの解析することとなったらしい

詳しくはwikiで

ちなみにICIJは過去にもoffshore leaks,china leaksといったものも解析してみたらしいです。で今回過去に例のない莫大なデータ量(2.6TB)のデータ解析にNeo4jを活用してる為に今回の勉強会のテーマになった様子

ICIJには結構人数はいるそうですが、今回解析したエンジニアは実質３人のエンジニアがやったらしいです。

じゃ3人でどのようにやったかでいうと

元々データはEmail 41% database 26% 残り紙等の非データ化のデータ
- 非文字データ化がまだまだ多いらしく、人力が必要でこれからまた新しい情報も出てくる可能性は高いらしい
- 下記に詳しく載ってる panamapapers.sueddeutsche.de
約40台ほどのawsのインスタンスに
Apache Tikaでメタデータを取得して
データベースからはtalendを使ってNeo4jに入れて
Solaを使って検索して
Linkuriousで可視化して

等々を駆使してやっているらしいです。このあたりで出てきてるワードで調べていけば何となくアプローチ方法はわかりそう。。。

ちなみにパナマ文書以前は

今回の紹介で気になったのをピックアップ

Improved Cost-based Optimizer
- 以前 read = cost base,write = rule base
- 今回 read = cost base,write = cost base
Official Language Drivers & Bolt
- JavaやJavaScript,Pythonなどの主要な言語でドライバが公式にサポートされた点
- Boltというバイナリ通信プロトコルをサポート。全然知らない、、、勉強せねば
Java stored procedure
spatial function
- 今後使い勝手が増すようなきがする
Neo4j Browser Sync
githubとかのアカウントでログインできる

データにある直接的な関連付け(relation)とデータから読み解いて間接的にわかる関連付け(relation)がある。この後者の間接的な関連性が重要らしい

例えば、人というノードのプロパティに住所情報がある場合、同じ住所情報のあるノード=人は一緒に住んでいるので家族である可能性が高い等々

いずれにしてもまだまだデータを解析が終わってる段階ではなく、下記の3つの観点で解析を進めている様子

PDF等のデータ化されていないものはどうしても人力が必要らしく、今後数年をかけてデータ化して解析してくらしいです

技術的な紹介はあまりなく、事例等々の紹介がメイン

これ、ほぼ言える内容ではないですが、一番やはり面白かった？やばかった。

技術的な事でいうと