The Distillations | AI関連最新ニュース

ビジネスパーソン向けAI最新動向

The Distillations Daily

平日の配信

The Distillations Weekly

土日のメール配信

  • Home
  • Daily
  • Weekly
Reading: Claude 3.7 Sonnet は本当に優秀?
Share
The Distillations | AI関連最新ニュースThe Distillations | AI関連最新ニュース
Font ResizerAa
Search
  • 研究開発
  • Weekly
  • イベント
  • ツール
  • 経済
Follow US
© 2025 The Distillations. EI engineering & Co. All Rights Reserved.
LLMWeeklyツール

Claude 3.7 Sonnet は本当に優秀?

The Distillations
Last updated: 2025年03月02日
The Distillations
Share
SHARE

(ほぼ全ての)LLMを使い倒した私たちの結論を先に述べます。
「非常に優秀で、現状あるLLMの中で最も実用性が高い」
満場一致でこの結論に至りました。

目次
Claudeがポケモンマスターになる日ポケモンでわかる成長曲線「拡張思考」がもたらした飛躍的進歩拡張思考モードの概要圧倒的なコーディング力ゼロベースで書いたコード既存コードを改良エンジニアから熱い支持性能を測るベンチマークSoftware engineeringAgentic tool useAPIの柔軟性まとめ

2月25日、Anthropicは最新のAIモデル「Claude 3.7 Sonnet」をリリースしました。「Claude 3.5 Sonnet」の上位互換となるモデルで、実用性においてもトップクラスの性能を誇ります。

Claudeがポケモンマスターになる日

ポケモンでわかる成長曲線

Anthropicは、モデルの能力を
「ポケモン(ポケモンレッド)をどれだけ進められたか?」
という面白い方法で測定しています。

この図は、異なる4つのClaudeモデルがポケモンをプレイした進行状況を比較したグラフです。

  • 縦軸(MILESTONE REACHED):どこまで到達したか
  • 横軸(NUMBER OF ACTIONS):Aモデルが実行したアクションの数

各モデルの結果は以下のようになっています。

  • 3.0 Sonnet:ほとんど進行できず、家を出るのがやっと
  • 3.5 Sonnet:トキワの森に到達
  • 3.5 Sonnet (new):トキワの森を少し超えたところで停止
  • 3.7 Sonnet:3つのジムリーダー(タケシ、カスミ、マチス)を倒してバッジを獲得

基本的なメモリ、画面ピクセル入力、ボタン押下関数呼び出しを備えたClaude 3.7 Sonnet は、以前のバージョンがゲーム開始直後で行き詰まったのに対し、3つのジムリーダーを倒してバッジを獲得するところまで進むことができました。

「拡張思考」がもたらした飛躍的進歩

Claude 3.7 Sonnet が進歩した鍵は、新たに実装された「拡張思考モード」にあります。このモードでは、AIがより多くの時間とリソースを使って問題に取り組むことができます。グラフを見ると、アクション数が増えるにつれてモデル間の差が広がっていることがわかります。これは、複雑な問題に対して粘り強く取り組む能力がAIの性能向上に直結していることを示しています。

拡張思考モードの概要

  • ユーザーが「拡張思考モード」をオン/オフできる
  • 難しい問題に対してより深く考える
  • 開発者は「思考予算(thinking budget)」を設定して、Claudeが問題に費やす時間を正確にコントロール可能

圧倒的なコーディング力

ゼロベースで書いたコード

「モバイルアプリ「LINE」のホーム画面をhtmlとcssとjavascriptで再現して」というプロンプトをClaude 3.7 Sonnet と GPT 4o に入力。

Claude 3.7 Sonnet の出力
GPT 4o の出力

Claude 3.7 Sonnet の方が 「デザインの再現性」「UIの整合性」「視認性」 の面で優れており、実際のLINEアプリにより近い形で表現されています。

既存コードを改良

では、ゼロからの開発ではなく、既存のコードをどれだけ改良できるかを測ってみます。モバイルアプリ「X」を再現した既存のコードは次のようになっています。

既存のコード

「このコードを改良し、より実用的にしたい」というプロンプトをClaude 3.7 Sonnet と GPT 4o に入力。

Claude 3.7 Sonnet の出力(複数画面を1枚に連結)
GPT 4o の出力

言うまでもなく、Claude 3.5 Sonnet の方が「UI の忠実性」や「多様な機能の追加」という点で優れています。「ダークモードとライトモードの切り替え機能」までついているのはすごいですよね👏

エンジニアから熱い支持

おそらく、最も多くのエンジニアがコードを書く際に使用しているのは Claude シリーズです。実際、エンジニア仲間の間や X 上での評判を見ると、Claude は強力な支持を得ています。
代表的な AI エディタである「Windsurf」のマネージャーも次のように発言しています。

私たちのテストでは、これは Sonnet ほどのパフォーマンスを発揮しませんでした…とはいえ、私たちは常にユーザーに最先端のものへのアクセスを提供し、選択してもらうことを目指しています。

https://x.com/akshatag77/status/1895213195947913689

性能を測るベンチマーク

Software engineering

Software engineering は、実世界のソフトウェア問題を解決する能力を評価するテストで、最高点を記録しています。

Agentic tool use

Agentic tool use とは、モデルが自律的に外部ツールを利用し、より複雑なタスクを実行する能力のことです。

APIの柔軟性

Claude 3.7 Sonnet の API では、ユーザーが思考に費やすトークン数の上限を指定することができます。この機能により、

  • 思考トークンを少なく設定することで、より速い応答を優先
  • 思考トークンを多く許容することで、深い分析と高品質な回答を優先

といった使い分けができ、コストの最適化が可能になりました。

まとめ

  • 「Claude 3.7 Sonnet」は実用性に即したモデル
  • 難しい問題に対してより深く考える「拡張思考モード」
  • 圧倒的なコーディング能力
  • 開発者が性能とコストを最適化できる API 

The Distillations Weeklyに登録しましょう

ニュースレターに登録して最新のAI動向を見逃さないようにしてください。 週2回の配信で、単なる事例紹介だけにとどまらず弊社エンジニアによる解説や洞察をご覧いただけます。

登録することで、利用規約に同意し、プライバシーポリシーに記載されたデータ取り扱いについて承認したものとみなされます。いつでも配信停止が可能です。
Share This Article
Email Copy Link Print
Previous Article NVIDIA 最新決算と株価
Next Article Deep Research の料金と使い方

ピックアップ

医療とAI:すでに臨床レベルに?進化する“医療モデル”の今

2025年4月6日
6 Min Read
研究はもはや企業のもの?〜AI時代にアカデミアが置き去りにされる日〜
2025年4月5日
AIはどうやって「知識」を覚えるのか? 話題の論文がとても興味深い
2025年4月4日

関連記事

AIエージェントDailyLLMWeekly研究開発

【ChatGPTモデル一覧】現在使用できるモデルまとめ

2025年3月26日
Weekly人間

AI革命の旗手:サム・アルトマンの軌跡

2025年3月16日
Dailyツール

Googleが検索機能「AIモード」を導入!

2025年3月10日
DailyLLM経済

Claude開発のAnthropic、企業価値9兆円に

2025年3月5日
The Distillations | AI関連最新ニュース

The Distillations

  • support@thedistillations.com

運営会社

〒107-0061
東京都 港区 北青山 一丁目3番6号SIビル青山

  • ei-and.co.jp

カテゴリー

  • LLM
  • 生成AI
  • 経済
  • 研究開発
  • 法規制
  • ツール
  • イベント
  • AIエージェント

More

  • Daily
  • Weekly
  • プライバシーポリシー
  • 利用規約
X-twitter Rss Threads

© The Distillations. EI engineering & Co. All Rights Reserved.

Join The Distillation weekly!
ニュースレターに登録して最新のAI動向を見逃さないようにしてください。 週2回の配信で、単なる事例紹介だけにとどまらず弊社エンジニアによる解説や洞察をご覧いただけます。

無料での配信です。いつでも解除することができます。
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?