オープンソース
TIS、自然言語処理・機械学習向けデータ作成ツール「doccano」を発表
TISは11月6日、自然言語処理・機械学習向けのデータ作成ツール(アノテーションツール)「doccano」をオープンソースソフトウェアとして公開すると発表した。
「doccano」は、自然言語処理・機械学習に使われるラベル付きデータ(教師データ)の作成を容易にするツール(アノテーションツール)。テキスト分類、系列ラベリング、系列変換という3つの基本的なタスクで使用するデータを作成することができる。セットアップが容易であり、英語以外に日本語にも対応している。
「doccano」を利用することで、作成に特に手間がかかる系列ラベリングのデータを簡単に作成できる。テキスト分類や系列変換は、Excelなどの帳票ツールでも作成できるが、系列ラベリングでは文字・単語単位でデータを作る必要があるため、帳票ツールのみでは作成が困難。系列ラベリングに「doccano」を活用することで、対象の単語を選択し、ボタンやショートカットキーを押すだけでラベル付けが可能。
TISは「doccano」をOSSとして公開し、より多くのフィードバックを得ることで機能を改善し、データ作成業務を効率化することで機械学習・自然言語処理の市場の拡大を目指す。
(川原 龍人/びぎねっと)
[関連リンク]
プレスリリース
GitHub(doccano)