オープンソース
Google、ディープラーニングによりファイル形式を判別する「Magika」を公開
Googleは2月16日、ディープラーニングによりファイル形式を判別することができるツール「Magika」を、オープンソースソフトウェアとして公開した。
「Magika」はディープラーニングを利用し、高速でファイル形式を判別するツール。ライセンスはApache 2.0準拠ライセンスとなっている。ファイル形式には形式ごとの構造がないものもあるため、形式の判別を正確に行うことは難しい。従来は、ファイル形式を判別するためには手動で作成したヒューリスティックとカスタムルールのコレクションを利用する必要があった。しかし、ルールの作成は難度が高く、また信頼性も低かった。
「Magika」は「Keras」を利用して設計・トレーニングされており、高度の最適化されたディープラーニングモデルを採用しており、高度なファイル形式の推論が可能になっているという。
Magikaは、GitHubでデモが公開されている。また、Pythonのパッケージ管理システムで「pip install magika」とすることでインストールすることも可能。
(川原 龍人/びぎねっと)