日本語に強い大規模言語モデル「Swallow」を公開
-英語が得意な大規模言語モデルに日本語を教える-
【要点】
○日本語能力に優れビジネスにも安心して活用できる大規模言語モデルを公開
○継続事前学習により大規模言語モデルの日本語能力を改善
○高度な日本語処理が求められる多くの場面で、生成AI技術の利活用を推進
【概要】
東京工業大学(以下、東工大) 情報理工学院 情報工学系の岡崎直観教授と横田理央教授らの研究チームと国立研究開発法人 産業技術総合研究所(以下、産総研)は、日本語能力に優れた生成AIの基盤である大規模言語モデル「Swallow」を公開した(公開リンク)。本モデルは現在公開されている日本語に対応した大規模言語モデルとしては最大規模であり、オープンで商用利用が可能であるため、ビジネスに安心して用いることができる。
東工大と産総研の研究チームは、英語の言語理解や対話で高い能力を持つ大規模言語モデル(米Meta社 Llama 2)の日本語能力を拡張することで「Swallow」を構築した。拡張前の大規模言語モデルの高い言語処理能力を維持しながら日本語能力を強化するため、研究チームは言語モデルに日本語の文字や単語などの語彙を追加したうえで、新たに開発した日本語データを用いてモデルの構築を継続的に行う継続事前学習を行った。今回、パラメータ数が70億パラメータ(7B)、130億パラメータ(13B)、700億パラメータ(70B)であるモデルを公開した。
|
プレスリリースの詳細はこちら
https://www.aist.go.jp/aist_j/press_release/pr2023/pr20231219/pr20231219.html
本プレスリリースは発表元が入力した原稿をそのまま掲載しております。また、プレスリリースへのお問い合わせは発表元に直接お願いいたします。
このプレスリリースには、報道機関向けの情報があります。
プレス会員登録を行うと、広報担当者の連絡先や、イベント・記者会見の情報など、報道機関だけに公開する情報が閲覧できるようになります。
このプレスリリースを配信した企業・団体
![](https://cdn.kyodonewsprwire.jp/prwfile/release/M107968/file/_prw_logo_image_k2Hg.png)
- 名称 国立研究開発法人産業技術総合研究所
- 所在地 茨城県
- 業種 政府・官公庁
- URL https://www.aist.go.jp/
過去に配信したプレスリリース
ハイドレートの最後の基本構造を発見
7/25 03:00
超音波診断動画から肺病変の所見に必要な特徴を高精度・高速に自動検出するAIを開発
7/24 18:00
これまでの10倍の効率で花粉を地層から分取し高精度年代測定を可能に
7/19 18:00
鹿児島市の下水処理場で下水汚泥ガス化に関するフィールド試験実施を決定
7/19 11:30
膝サポーターが歩行を“整える”ことを実証
7/18 14:05
結晶中のトリウム229原子核アイソマーをX線で制御することに成功!
7/16 18:00
土壌中の微量な有害物質を検出
7/12 14:00
血管内治療の課題を克服する新規の抗血栓性コーティング
7/10 18:00
半導体型カーボンナノチューブ(CNT)を選択的に抽出
7/10 14:00
電子部品の品質管理をシームレスに実現する計測器
7/5 14:00
常温・常圧で進行するアンモニアの連続電解合成で世界最高性能を達成
7/4 14:00
微生物を活用した鉱山廃水処理システムの開発に成功
7/3 13:00