Claude 3.7 Sonnet は本当に優秀？

（ほぼ全ての）LLMを使い倒した私たちの結論を先に述べます。
「非常に優秀で、現状あるLLMの中で最も実用性が高い」
満場一致でこの結論に至りました。

Claudeがポケモンマスターになる日ポケモンでわかる成長曲線「拡張思考」がもたらした飛躍的進歩拡張思考モードの概要圧倒的なコーディング力ゼロベースで書いたコード既存コードを改良エンジニアから熱い支持性能を測るベンチマーク Software engineering Agentic tool use APIの柔軟性まとめ

2月25日、Anthropicは最新のAIモデル「Claude 3.7 Sonnet」をリリースしました。「Claude 3.5 Sonnet」の上位互換となるモデルで、実用性においてもトップクラスの性能を誇ります。

Claudeがポケモンマスターになる日

ポケモンでわかる成長曲線

Anthropicは、モデルの能力を
「ポケモン（ポケモンレッド）をどれだけ進められたか？」
という面白い方法で測定しています。

この図は、異なる4つのClaudeモデルがポケモンをプレイした進行状況を比較したグラフです。

縦軸（MILESTONE REACHED）：どこまで到達したか
横軸（NUMBER OF ACTIONS）：Aモデルが実行したアクションの数

各モデルの結果は以下のようになっています。

3.0 Sonnet：ほとんど進行できず、家を出るのがやっと
3.5 Sonnet：トキワの森に到達
3.5 Sonnet (new)：トキワの森を少し超えたところで停止
3.7 Sonnet：3つのジムリーダー（タケシ、カスミ、マチス）を倒してバッジを獲得

基本的なメモリ、画面ピクセル入力、ボタン押下関数呼び出しを備えたClaude 3.7 Sonnet は、以前のバージョンがゲーム開始直後で行き詰まったのに対し、3つのジムリーダーを倒してバッジを獲得するところまで進むことができました。

「拡張思考」がもたらした飛躍的進歩

Claude 3.7 Sonnet が進歩した鍵は、新たに実装された「拡張思考モード」にあります。このモードでは、AIがより多くの時間とリソースを使って問題に取り組むことができます。グラフを見ると、アクション数が増えるにつれてモデル間の差が広がっていることがわかります。これは、複雑な問題に対して粘り強く取り組む能力がAIの性能向上に直結していることを示しています。

拡張思考モードの概要

ユーザーが「拡張思考モード」をオン/オフできる
難しい問題に対してより深く考える
開発者は「思考予算（thinking budget）」を設定して、Claudeが問題に費やす時間を正確にコントロール可能

圧倒的なコーディング力

ゼロベースで書いたコード

「モバイルアプリ「LINE」のホーム画面をhtmlとcssとjavascriptで再現して」というプロンプトをClaude 3.7 Sonnet と GPT 4o に入力。

Claude 3.7 Sonnet の方が「デザインの再現性」「UIの整合性」「視認性」の面で優れており、実際のLINEアプリにより近い形で表現されています。

既存コードを改良

では、ゼロからの開発ではなく、既存のコードをどれだけ改良できるかを測ってみます。モバイルアプリ「X」を再現した既存のコードは次のようになっています。

「このコードを改良し、より実用的にしたい」というプロンプトをClaude 3.7 Sonnet と GPT 4o に入力。

言うまでもなく、Claude 3.5 Sonnet の方が「UI の忠実性」や「多様な機能の追加」という点で優れています。「ダークモードとライトモードの切り替え機能」までついているのはすごいですよね👏

エンジニアから熱い支持

おそらく、最も多くのエンジニアがコードを書く際に使用しているのは Claude シリーズです。実際、エンジニア仲間の間や X 上での評判を見ると、Claude は強力な支持を得ています。
代表的な AI エディタである「Windsurf」のマネージャーも次のように発言しています。

私たちのテストでは、これは Sonnet ほどのパフォーマンスを発揮しませんでした…とはいえ、私たちは常にユーザーに最先端のものへのアクセスを提供し、選択してもらうことを目指しています。
https://x.com/akshatag77/status/1895213195947913689

性能を測るベンチマーク

Software engineering

Software engineering は、実世界のソフトウェア問題を解決する能力を評価するテストで、最高点を記録しています。

Agentic tool use

Agentic tool use とは、モデルが自律的に外部ツールを利用し、より複雑なタスクを実行する能力のことです。

APIの柔軟性

Claude 3.7 Sonnet の API では、ユーザーが思考に費やすトークン数の上限を指定することができます。この機能により、

思考トークンを少なく設定することで、より速い応答を優先
思考トークンを多く許容することで、深い分析と高品質な回答を優先

といった使い分けができ、コストの最適化が可能になりました。

まとめ

「Claude 3.7 Sonnet」は実用性に即したモデル
難しい問題に対してより深く考える「拡張思考モード」
圧倒的なコーディング能力
開発者が性能とコストを最適化できる API

Claude 3.7 Sonnet は本当に優秀？