日本語に強い大規模言語モデル「Swallow」を公開

－英語が得意な大規模言語モデルに日本語を教える－

産総研

2023/12/21 15:25

【要点】

○日本語能力に優れビジネスにも安心して活用できる大規模言語モデルを公開

○継続事前学習により大規模言語モデルの日本語能力を改善

○高度な日本語処理が求められる多くの場面で、生成AI技術の利活用を推進

【概要】

　東京工業大学（以下、東工大）情報理工学院情報工学系の岡崎直観教授と横田理央教授らの研究チームと国立研究開発法人産業技術総合研究所（以下、産総研）は、日本語能力に優れた生成AIの基盤である大規模言語モデル「Swallow」を公開した（公開リンク）。本モデルは現在公開されている日本語に対応した大規模言語モデルとしては最大規模であり、オープンで商用利用が可能であるため、ビジネスに安心して用いることができる。

東工大と産総研の研究チームは、英語の言語理解や対話で高い能力を持つ大規模言語モデル（米Meta社 Llama 2）の日本語能力を拡張することで「Swallow」を構築した。拡張前の大規模言語モデルの高い言語処理能力を維持しながら日本語能力を強化するため、研究チームは言語モデルに日本語の文字や単語などの語彙を追加したうえで、新たに開発した日本語データを用いてモデルの構築を継続的に行う継続事前学習を行った。今回、パラメータ数が70億パラメータ（7B）、130億パラメータ（13B）、700億パラメータ（70B）であるモデルを公開した。

公開リンク： https://tokyotech-llm.github.io/

プレスリリースの詳細はこちら

https://www.aist.go.jp/aist_j/press_release/pr2023/pr20231219/pr20231219.html

本プレスリリースは発表元が入力した原稿をそのまま掲載しております。また、プレスリリースへのお問い合わせは発表元に直接お願いいたします。