ニュース

レアゾン・ホールディングス、日本語音声コーパス「ReazonSpeech」を公開

レアゾン・ホールディングスは1月18日、世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス「ReazonSpeech」を公開した。

 音声コーパスとは、音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を左右する。「ReazonSpeech」とは、レアゾン・ヒューマンインタラクション研究所が開発した高精度な音声認識モデルを中心とするプロダクト群。OpenAI Whisperに匹敵する高精度な日本語音声認識モデル「ReazonSpeech音声認識モデル」、TV録画データ等から音声コーパスを自動抽出するソフトウェアツール「ReazonSpeechコーパス作成ツール」、世界最大19,000時間の高品質な日本語音声認識モデル学習用コーパス「ReazonSpeech音声コーパス」からなり、いずれも無償で公開されている。

 最初に「Mozilla Common Voice」という音声コーパスから構築した音声認識モデルでアラインメント処理を行い、そこで得られた音声コーパスを元にして再度アラインメント処理を実行する、という過程を幾世代も重ねることによって少しずつ音声コーパスのサイズを増やした。現在のサイズは19,000時間だが、今後さらに規模を拡大する予定。

(川原 龍人/びぎねっと)

[関連リンク]
プレスリリース