Claude Sonnet 5 登場:Anthropic史上最もエージェント的な Sonnet が Opus 4.8 との差を縮める
Anthropic は 2026 年 6 月 30 日に Claude Sonnet 5 を公開しました。agentic coding やツール利用の性能は Opus 4.8 に迫りながら、価格ははるかに安く抑えられています。公開内容、ベンチマークと独立レビューの評価、知っておくべき価格の落とし穴、そして AI で開発する人にとっての意味をまとめます。
2026年6月30日、Anthropicは Claude Sonnet 5 をリリースした。同社はこれを、これまでで最もエージェント能力の高い Sonnet モデルと位置づけている。訴求点は明快だ。エージェント型コーディングとツール利用の性能は Claude Opus 4.8 とのギャップの大半を埋めながら、価格は導入価格として旧世代の Sonnet 4.6 すら下回る。現在、Claude の Free プランおよび Pro プランのデフォルトモデルとなっている。
この組み合わせこそが、単一のベンチマークよりも重要な本質だ。これまで長年、トレードオフは単純明快だった。フロンティア級の能力を求めるなら Opus の価格を払うか、コストを抑えるために実質的な能力差を受け入れるか、である。Sonnet 5 は Anthropic によるこのトレードオフの縮小の試みだ。それが成功しているかどうかは、何を最適化したいかによって変わってくるし、複数のレビュアーが指摘しているように、見出しの数字の先にある価格詳細をきちんと読み込むかどうかにもかかっている。
Anthropic が実際に公開したもの
Anthropic の Claude Sonnet 5 発表 および システムカード によれば、今回のリリースはエージェント能力を中心に据えている。複数ステップにわたる作業の計画立案、ブラウザやターミナルといったツールの利用、そして従来の Sonnet モデルよりも手取り足取りの介入を必要とせずに稼働できる点だ。
- モデル ID:
claude-sonnet-5。API、Claude Code、Claude Platform を通じて利用可能。 - Claude の Free プランおよび Pro プランのデフォルトモデルとなった。
- 直接 API に加えて、Amazon Bedrock でもすでに利用可能。
- これまでより大きなモデルを必要としていたエージェント型ワークロードを、より安価に実行できる選択肢として明確に位置づけられている。
この打ち出し方は重要だ。Anthropic は Sonnet 5 を新たなフロンティアの天井として売り込んでいるわけではない。エージェント作業においてデフォルトで使うべきモデルとして位置づけ、Opus 4.8 はそれでもなお、より高い能力を必要とするタスク向けに温存する、という構図である。
Sonnet 4.6・Opus 4.8 とのベンチマーク比較
推論、コーディング、ツール利用、コンピュータ操作のいずれにおいても、見出しとなる数値は同じ方向に動いている。
| ベンチマーク | Sonnet 4.6 | Sonnet 5 | Opus 4.8 |
|---|---|---|---|
| エージェント型コーディング(SWE-bench Pro) | 58.1% | 63.2% | 69.2% |
| Terminal-Bench 2.1 | 67.0% | 80.4% | — |
| コンピュータ操作(OSWorld-Verified) | 78.5% | 81.2% | — |
| Humanity's Last Exam(ツール使用あり) | 46.8% | 57.4% | 57.9% |
| ナレッジワーク(GDPval-AA v2) | — | 1,618 | 1,615 |
注目すべき点は2つある。第一に、Terminal-Bench における13ポイントという伸びは単一項目としては最大の変化であり、Sonnet 5 を一般的な知識のアップグレードというよりエージェントファーストのリリースとする Anthropic の打ち出し方と一致する。第二に、GDPval-AA v2 では、Sonnet 5 は実際に Opus 4.8 をわずかに上回っている(1,618 対 1,615)。単一ベンチマークでの僅差ではあるが、より安価なモデルがフラッグシップモデルを何らかの点で上回るのは稀なケースであり、自分のワークロードが生のエージェント型コーディングよりも構造化されたナレッジワークに近いのであれば、知っておく価値がある。
SWE-bench Pro に限って言えば、Sonnet 5 は依然として Opus 4.8 に6ポイントの差をつけられている。すべてのコーディングタスクをデフォルトで安価なモデルに振り分ける前に、このギャップは念頭に置いておくべきだ。
独立したレビューが伝えていること
Anthropic 自身の数値は、あくまで一つのデータポイントに過ぎない。以下は、レビュアーたちが実際に Sonnet 5 を使ってみて分かったことだ。
CodeRabbit は、コード作成とコードレビューに特化してテストを行い、コード作成においては自分たちのティアの中で最も能力の高いモデルだと評価した。テストを先に書き、それに対して実装を組み立て、タスク完了を宣言する前にすべてを実行する傾向があるという。しかしレビューに関する数値は芳しくなかった。コメントの精度は明確に向上した(およそ29%から38〜40%へ)一方、コードレビューにおけるバグ検出率は約50〜51%まで低下し、Sonnet 4.6 が記録していた50%台後半から60%台前半という水準からは後退した。CodeRabbit の推奨は、推論努力(reasoning effort)を中程度に設定して実行することだ。最高設定まで引き上げてもコストがほぼ倍になるだけで、検出できるバグが増えるわけではないという。
Simon Willison は、事前確認をせずに移行するユーザーが最も痛い目に遭いそうな詳細を指摘した。Sonnet 5 は新しいトークナイザーを採用しており、同じ英語のテキストでも Sonnet 4.6 と比べておよそ30%多いトークン数を生成するという。中国語のテキストへの影響はほとんどないが、英語中心のプロンプトにとっては、見出し価格が据え置かれた裏で実質的なコスト増が隠れていることになる。また、Sonnet 5 はもはや temperature、top_p、top_k といったサンプリングパラメータを受け付けなくなった点も指摘しており、自分の実装がこれらに依存していないか確認する価値がある。
報道各社(TechCrunch など)は価格の物語に注目し、「エージェントをより安価に動かす方法」として取り上げ、広く報じられている IPO 推進を前に同社が事業を拡大するなかで、Anthropic が Opus とのギャップを縮めている動きの一環としてこのリリースを位置づけた。その報道の中で紹介された早期採用者の声はタスク完了について好意的で、Zapier のエンジニアは複雑なタスクをエンドツーエンドで完了させたと述べ、Lovable の共同創業者は安全でないリクエストに対する一貫してクリーンな拒否応答を評価した。
MarkTechPost のベンチマーク比較 は、一律の評価ではなくルーティングの推奨に落ち着いた。ほとんどの作業は低〜中程度の努力設定で Sonnet 5 に送り、精度が重要なタスクには Opus 4.8 を温存する、というものだ。最高の努力設定では、Sonnet 5 のコストが対応する精度向上を伴わないまま Opus 4.8 を上回ることがあると彼らは発見した。すべてのダイヤルを最大まで回してしまうと、安価な選択肢はもはや安価ではなくなる。
独立したレビュー全体を通じて一貫しているテーマは以下の通りだ。構築と実行には強い一方、微妙なバグの検出には後退(崩壊ではない)が見られ、実際にトークン使用量を測定して初めて「より安い」と言える、見た目の価格をそのまま信用してはいけない、ということである。
価格設定 — そして注意書きの落とし穴
Anthropic は Sonnet 5 を積極的な価格で提供しているが、それにはスケジュールが伴う。
| モデル | 入力 | 出力 |
|---|---|---|
claude-sonnet-5(導入価格、2026-08-31 まで) | $2 / 1M tokens | $10 / 1M tokens |
claude-sonnet-5(標準価格、2026-09-01 から) | $3 / 1M tokens | $15 / 1M tokens |
claude-sonnet-4-6 | $3 / 1M tokens | $15 / 1M tokens |
claude-opus-4-8 | $5 / 1M tokens | $25 / 1M tokens |
標準価格になったとしても、Sonnet 5 は Sonnet 4.6 の見出し価格と同水準を維持しながら全体的に有意に高いスコアを記録しており、その点についての訴求は成立している。しかし Willison のトークナイザーに関する発見は、本当に比較すべきなのはトークン単価ではなく、完了したタスク単位あたりの価格だということを意味する。英語中心のワークロードは、導入価格であるかどうかにかかわらず、Sonnet 4.6 からの移行時に実質的なトークン数の増加を見込んでおくべきだ。Anthropic の標準的なプロンプトキャッシングは、この上にさらに適用される。キャッシュ読み取りは大幅な割引価格で課金される一方、キャッシュ書き込みには一度限りのプレミアムが課される。したがって、いつものように、見出し価格だけで計算するのではなく、自分の請求ダッシュボードで実際の数値を確認してほしい。
安全性
Anthropic の報告によれば、Sonnet 5 は Sonnet 4.6 と比べて望ましくない挙動の発生率が低い。悪用への協力が少なく、欺瞞的な振る舞いも少ない。また、悪意あるリクエストの拒否やプロンプトインジェクションによる乗っ取り試行への抵抗においても、より一貫性が高いという。安全ガードレールはデフォルトで有効になっている。
そのサイバーセキュリティ能力は、意図的に Opus 4.8 より抑えられている。Anthropic 自身のテストでは、Sonnet 5 が動作するエクスプロイトをエンドツーエンドで完全に開発しきることは一度もなかった。これはほとんどの用途にとって欠点というより設計上の選択であり、Claude Fable 5 の分類器プラス・フォールバックというアプローチの背後にあるのと同じ論理だ。フロンティア級の能力にはゲートがかけられ、一般提供されるモデルにはあらかじめガードレールが組み込まれた状態で出荷される。
開発者にとっての意味
- トークン単価ではなく、完了したタスクあたりのコストを測定すること。トークナイザーの変更により、見出し価格だけでは誤った判断につながる。特に英語中心のワークロードでは顕著だ。
- Sonnet 5 が Sonnet 4.6 に対して単純なコストメリットになると決めつける前に、実際のプロンプトでトークン数を再計測すること。
- 自分の実装が
temperature、top_p、top_kに依存していないか確認すること。Sonnet 5 はこれらを受け付けない。 - 推論努力は中程度から始めること。CodeRabbit と MarkTechPost はどちらも、最高の努力設定は対応する精度向上を伴わずにコストを増やすだけだと発見している。
- 精度が重要な作業では、引き続きルーティングに Opus 4.8 を組み込むこと。Sonnet 5 はギャップを縮めるが、完全に埋めるわけではない。特に、微妙なバグの検出が何より重要となる、注意深いコードレビューのようなタスクではなおさらだ。
MuiRouter ユーザーにとっての意味
MuiRouter は、シンプルな発想のもとに構築されている。一つの API キー、一つの統合パターン、そして主要な AI モデルへのアクセスをルーティングするための、より明快な方法だ。Sonnet 5 のようなリリース — より安価で、より強力だが、追跡しておく価値のある価格とトークナイザーの注意点を伴う — はまさに、統合されたゲートウェイがユーザーに代わって吸収するべき類の変化である。
MuiRouter のカタログに、Anthropic が公表した導入価格で claude-sonnet-5 を追加した。ユーザー側の実装は変更不要だ。モデル、その価格設定、そして 2026-09-01 に予定されている値上げは、すべてゲートウェイの背後で処理される。
いつものことだが、claude-sonnet-5 を本番として扱うのは、自分のアカウントでエンドツーエンドの動作確認を終えてからにしてほしい。実際のルーティングは、依然として上流の可用性に左右される。その注意点を別にすれば、これはまさに、統合を安定させておくことが報われる類のリリースだ。価格とトークナイザーの詳細は、利用するすべてのモデルについて手作業で追跡したくない類のものだからだ。
まとめ
Claude Sonnet 5 は、エージェント作業とコーディング作業において正当な進歩であり、しかも書面上は自らの前身モデルすら下回る価格で提供されている。ベンチマークはそれを裏付けており、独立したレビュアーたちも同様だ。ただし、覚えておく価値のある2つの注意点がある。コードレビューのバグ検出はコメントの精度が向上した一方でわずかに後退したこと、そして新しいトークナイザーにより、「より安い」かどうかはトークンあたりではなく完了したタスクあたりで測定して初めて信じられる、ということだ。
AI を使って開発しているなら、今すぐ自分の実際のワークロードに対してテストしてみる価値がある。英語中心のプロンプトを移行するならトークナイザーの変更分を予算に織り込み、中程度の努力設定から始め、そして最もリスクの高い作業については、Sonnet 5 が自分の手元の数値で実力を証明するまで、引き続き Opus 4.8 にルーティングしておくべきだ。
公式ソース
OpenAI 公式ソースの公開日: 2026年6月30日
次のモデルロールアウトに備える
1つの API Key から始め、upstream の提供開始後に将来のモデルアクセスをより明確に route できるようにします。