AI・データサイエンス

スーパーコンピュータ「富岳」で学習し日本語能力に優れた大規模言語モデル「Fugaku-LLM」を公開

2024.05.17
AI・データサイエンス

東京工業大学、東北大学、富士通らの研究グループは5月10日、理化学研究所のスーパーコンピュータ「富岳」を用いて学習した、日本語能力に優れた大規模言語モデル「Fugaku-LLM」を公開した。

今回、深層学習フレームワークを「富岳」に移植してTransformerの性能を「富岳」上で最適化するとともに、並列分散学習手法を開発し適用することで、「富岳」を用いて大規模言語モデルの学習を行う際の演算速度を6倍に高速化した。さらに、「富岳」向けにTofuインターコネクトD上での集団通信の最適化を行うことにより、通信速度を3倍高速化することに成功したという。これにより「富岳」のCPUを用いて、現実的な時間内で大規模言語モデルを学習することが可能になった。

「Fugaku-LLM」は、国内で多く開発されている70億パラメータより一般に高性能かつ現在の計算機環境下で扱いやすい130億パラメータのモデルとなっている。今回の学習では、サイバーエージェントが収集した独自の日本語学習データと英語のデータなどを用いており、透明性と安全性を確保しつつ日本語性能にも優れている。国産かつ独自のデータで学習を行っているオープンなモデルの中では日本語ベンチマークJapanese MT-Benchで最高性能を達成し、特に人文社会系のタスクでは高いベンチマーク性能を発揮する。

Fugaku-LLMは、GitHubやHugging Faceを通じて公開しており、ライセンスに従う限りにおいて、研究および商業目的での利用が可能。

(川原龍人/びぎねっと)

[関連リンク]
プレスリリース
 モデル
 GitHub