Alibaba Groupが開発したAIモデル「R1-Omni」は、人間の感情を読み取る能力を備えたAIモデルです。このモデルは、以前のオープンソースモデル「HumanOmni」の強化版であり、感情認識において重要な進歩を遂げています。
「R1-Omni」はLLMに加えて様々なモデルを組み合わせて感情認識に焦点を当たAIモデルです。
使用例
動画と結果は以下のGitHubレポジトリから引用しました。
「R1-Omni」を利用することで動画の理解が高いレベルで行えるようになります。
https://github.com/HumanMLLM/R1-Omni
例1
- 感情:怒り
- 分析:動画の中で、茶色のジャケットを着た男性が鮮やかな壁画の前に立っている。彼はジャケットの下にピンクのシャツを着ており、髪は黒くてカールしている。彼の表情は複雑で、目を大きく見開き、口が少し開き、眉を上げ、額にしわを寄せており、驚きと怒りが入り混じっている。音声認識技術によると、彼の声には “you”(お前)、”lower your voice”(声を抑えろ)、”freaking out”(取り乱している)といった言葉が含まれており、強い感情と動揺がうかがえる。全体として、彼は混乱、怒り、興奮といった感情状態を示している。
例2
- 感情:幸せ
- 分析:動画の冒頭のシーンでは、目を少し閉じ、口をゆっくり開けながら笑っているような女性が映っている。彼女の表情はやや楽しげで、その瞬間に何か心地よい、または面白い状況を経験していることを示している可能性がある。音声では、文と文の間に途切れがなく、流れるように続いており、軽やかで陽気なトーンが感じられる。テキストの内容と組み合わせると、このキャラクターが非常に幸せで前向きな感情状態にあることが伝わってくる。字幕には「It was interesting.」(面白かった)と表示されており、この文は彼女の満足感や好奇心を表している可能性がある。動画内での笑いと楽しげな感情、音声の軽快で陽気なトーンの流れを考慮すると、この文は彼女の興味や好奇心を表現していると推測できる。この文に込められた喜びの感情は、全体的な幸福感や前向きな雰囲気と一致している。
まとめ
アリババは、このAIモデルをオープンソースとして公開し、無料でダウンロードできるようにしています。これにより、多くの企業や開発者がこの技術を利用し、新しいアプリケーションを開発する機会が生まれています。この新技術は、ビジネスにおける顧客理解や意思決定支援など、幅広い分野での応用が期待されています。
