オープンソース

Yahoo、分散表現の学習時間を短縮化する「yskip」をオープンソースとして公開

 Yahoooは4月18日、分散表現の学習時間を短縮化する技術「yskip」をオープンソースソフトウェアとして公開した。

 「分散表現」は、単語をベクトルとして扱うAI技術。分散表現を利用すると、大量のテキストから様々な単語の関係を学習し、単語同士の意味の相違を機械的に推定することができる。Yahooでは、ユーザの興味関心情報と、記事や広告のマッチングに応用している。「分散表現」は、大量のテキストデータを学習データに用いることで利用できるが、日々増加するキーワードに対応するためには、学習モデルを頻繁に更新する必要があった。従来の技術では、新しいデータだけでなく既に学習したデータもあわせて学習しなおす必要があり、効率に問題があったという。

 「yskip」は、新しいデータの学習のみによって従来の技術と同等精度を維持する分散表現技術として開発された。この技術は、「skip-gram model with negative sampling(SGNS)」を拡張したもの。

 「yskip」は、GitHubに公開されている。

(川原 龍人/びぎねっと)

[関連リンク]
Blogによる記事