2025年2月12日、日本語に特化した大規模言語モデル(LLM)「Rakuten AI 2.0」と、同社初の小規模言語モデル(SLM)「Rakuten AI 2.0 mini」を発表しました。本記事ではその特徴について解説いたします。
概要
Rakuten AI 2.0
「Rakuten AI 2.0」は、8×7B(70億パラメータ × 8のエキスパート)で構成された大規模言語モデル(LLM)です。70億パラメータの専門家が8人いて、タスクごとに最適なエキスパートだけが動くというイメージです。
- 高精度な日本語処理
- 会話・要約・質問応答など幅広いタスクに対応
- チューニング済みモデルが提供され、実用的な活用が可能
- Hugging Face で無料公開
Rakuten AI 2.0 mini
「Rakuten AI 2.0 mini」は、楽天にとっては初の小規模言語モデル(SLM)です。大規模モデルに比べて軽量ながら、高品質な日本語処理を実現しているのが特徴です。
- 15億パラメータの小規模モデル
- 軽量で運用コストが低く、組み込み AI などにも適用可能
- Hugging Face で無料公開
最新手法「SimPO」
「Rakuten AI 2.0」と「Rakuten AI 2.0 mini」には、「SimPO」という新しいチューニング手法が使われています。チューニングとは、AI の出力を人間の嗜好(=自然で分かりやすい回答)に近づけるための調整のことです。
従来の手法
回答精度は高いが、計算コストが高く安定しにくいのが特徴です。
- RLHF(強化学習): AI の回答を人間が評価し、フィードバックを学習させる方法
- DPO(直接選好最適化):人間の好む回答をモデルに直接学習させる方法
新しい手法
従来よりも計算コストを抑え、安定性が向上しています。
- SimPO:参照モデルなしで、AIの出力の確率を利用し、自然な回答を学習
具体例
学校のテスト対策に例えてみます。
- 従来の手法:先生がすべての答案をチェックし、「この答えは○、これは×」と細かくフィードバックする方式。細かい評価ができるが、時間と手間がかかる。
- 新しい手法:AI 自身が「この答えは他と比べてどれくらい良いか」を自分で考え、正解の確率が高いものを学習する方式。先生が一つ一つ評価しなくても、自主学習でどんどん改善される。
まとめ
- 大規模言語モデル(LLM)「Rakuten AI 2.0」と小規模言語モデル(SLM)「Rakuten AI 2.0 mini」をオープンソースでリリース
- 従来のモデルよりも、計算コストを抑えつつ、より自然な人間の嗜好に合わせた回答が可能
