オープンソースLLMの日本語能力を高めた「Llama 3.1 Swallow」を公開
英語力を維持しながら日本語の理解・生成・対話能力を強化した大規模言語モデル
【ポイント】
○大規模言語モデルLlama 3.1の英語の能力を維持しながら、日本語の能力を強化
○Llama 3.1ライセンスにより、商用利用だけでなく他のモデルの改良にも利用可能
○高度な日本語処理が求められる多くの場面で、生成AI技術の利活用を推進
【概要】
東京科学大学(Science Tokyo) 情報理工学院 情報工学系の岡崎直観教授と横田理央教授らの研究チームと国立研究開発法人 産業技術総合研究所(産総研)は、日本語能力に優れた大規模言語モデル(「Swallow」シリーズの最新版である「Llama 3.1 Swallow」を公開しました(公開リンク参照)。今回、80億パラメータ(8B)、700億パラメータ(70B)の規模に対し、それぞれベース(base)モデルと指示チューニング(instruct)済みモデル、合計4種類のモデルを公開しました。本モデルはLlama 3.1ライセンスで公開されているため、商用利用だけでなく、他のモデルの改良などにも利用できます。
Science Tokyoと産総研の研究チームは、英語の言語理解・生成や対話で高い能力を持つ大規模言語モデル(米Meta社 Llama 3.1)の能力をほぼ落とさずに、日本語の言語理解・生成や対話能力を高めることに成功しました。特に、80億パラメータのモデルは、同規模の既存の大規模言語モデルよりも高い日本語理解・生成能力を有することが確認されました。日本語と英語の両方において高い性能を達成するため、研究チームは学習に用いる日本語ウェブコーパスの大規模化・高品質化や、指示チューニングデータの自動生成などに取り組みました。
公開リンク: https://swallow-llm.github.io/llama3.1-swallow.ja.html
プレスリリースの詳細はこちら
https://www.aist.go.jp/aist_j/press_release/pr2024/pr20241008_2/pr20241008_2.html
本プレスリリースは発表元が入力した原稿をそのまま掲載しております。また、プレスリリースへのお問い合わせは発表元に直接お願いいたします。
このプレスリリースには、報道機関向けの情報があります。
プレス会員登録を行うと、広報担当者の連絡先や、イベント・記者会見の情報など、報道機関だけに公開する情報が閲覧できるようになります。
このプレスリリースを配信した企業・団体
- 名称 国立研究開発法人産業技術総合研究所
- 所在地 茨城県
- 業種 政府・官公庁
- URL https://www.aist.go.jp/
過去に配信したプレスリリース
波として伝わる磁気振動の回転方向の制御と検出に成功
11/20 19:00
エポキシ樹脂のケミカルリサイクルに新たな道筋
11/18 14:00
磁気嵐起源の「下から上」へ伝わった地球大気最上部の変動を発見
11/15 16:00
「吊るさない点滴」が医療機器に
11/13 14:00
タンデム型太陽電池のトップセルとして有望な光吸収層を開発
11/13 14:00
高温高圧水環境で二酸化炭素の電気分解効率を向上
11/8 11:00
トンボの複眼から金型を作製
11/7 14:00
0.9 V以下の電解電圧で水から水素を製造する手法を実証
11/5 14:00
温暖期なのに昔の東京湾は冷たかった?
11/2 00:30
ネイチャーポジティブな循環型社会を創る!発電型のバイオ炭生産技術
10/31 14:00
極微量の放射性ヨウ素を測定する技術を開発
10/29 14:00
「便器のふたを閉めて流してください」は衛生的か?
10/28 14:00