オープンソース

Google、ディープラーニングによりファイル形式を判別する「Magika」を公開

Googleは2月16日、ディープラーニングによりファイル形式を判別することができるツール「Magika」を、オープンソースソフトウェアとして公開した。

 「Magika」はディープラーニングを利用し、高速でファイル形式を判別するツール。ライセンスはApache 2.0準拠ライセンスとなっている。ファイル形式には形式ごとの構造がないものもあるため、形式の判別を正確に行うことは難しい。従来は、ファイル形式を判別するためには手動で作成したヒューリスティックとカスタムルールのコレクションを利用する必要があった。しかし、ルールの作成は難度が高く、また信頼性も低かった。

 「Magika」は「Keras」を利用して設計・トレーニングされており、高度の最適化されたディープラーニングモデルを採用しており、高度なファイル形式の推論が可能になっているという。

Magikaは、GitHubでデモが公開されている。また、Pythonのパッケージ管理システムで「pip install magika」とすることでインストールすることも可能。

(川原 龍人/びぎねっと)

[関連リンク]
Magika
Blogによる記事