Claude Sonnet 4.6レビュー|SWE-bench 79.6%でOpus級性能をSonnet価格で
SWE-bench 79.6%。OSWorld 72.5%。
2026年2月17日、Anthropicが発表したClaude Sonnet 4.6のベンチマークは、フラッグシップモデルとの境界線を実質的に消し去った。
SWE-benchでOpus 4.6(80.8%)との差はわずか1.2ポイント。OSWorldに至っては0.2ポイント差で、人間の基準値(72%)を初めて超えた。それでいて価格はOpusの約6割、入力$3/出力$15(100万トークンあたり)で据え置きだ。
Anthropicは公式ブログで「以前ならOpusクラスのモデルが必要だった性能が、Sonnet 4.6で利用可能になった」と述べている。控えめな表現ではない。ベンチマークがそれを裏付けている。
結論を先に言う。Claude Code利用者は今日からclaude-sonnet-4-6に切り替えていい。以下でその根拠を示す。
- Claude Code / Cursor / VS Codeを使っているエンジニア
- Claude APIを利用中で、Sonnet 4.5からの移行を検討している方
- LLMの性能と料金のバランスを重視するフリーランスエンジニア
- AIコーディングツールの最新動向を追いたい方
Claude Sonnet 4.6のベンチマーク:Opusとの差が消えた
SWE-bench Verified: 79.6%
ソフトウェアエンジニアリングの実力を測る業界標準ベンチマーク。実在のGitHubリポジトリからのバグ修正タスクで評価する。
- Sonnet 4.6: 79.6%
- Opus 4.6: 80.8%(差1.2pt)
- GPT-5.2: 80.0%(差0.4pt)
- Sonnet 4.5: 77.2%(+2.4pt改善)
注目すべきは、GPT-5.2(80.0%)との差がわずか0.4ポイントに収まっていること。GPT-5.2の入力単価$1.75に対してSonnet 4.6は$3.00と割高だが、出力単価はほぼ同等($14 vs $15)。トータルコストで見れば十分に競争力がある。
OSWorld-Verified: 72.5%:ベンチマーク上で人間基準値を超えた
実際のソフトウェア(Chrome、LibreOffice、VS Code)を使ったPC操作タスクのベンチマーク。特別なAPIは使わず、人間と同じ方法でマウスとキーボードを操作して評価する。
- Sonnet 4.6: 72.5%
- Opus 4.6: 72.7%(差0.2pt)
- 人間基準値: 72.0%(このベンチマーク上で初めて超えた)
- Sonnet 4.5: 61.4%(+11.1pt改善)
2024年10月のcomputer use初公開時は14.9%だった。16ヶ月で57.6ポイント改善し、OSWorldの特定タスク群において人間基準値を超えた。スプレッドシート操作、複数ステップのフォーム入力、ブラウザ操作で高い能力を示している。
その他の注目指標
| ベンチマーク | Sonnet 4.6 | Sonnet 4.5 | 改善幅 |
|---|---|---|---|
| ARC-AGI-2(新規性のある問題解決) | 58.3% | 13.6% | +44.7pt |
| OfficeQA(文書理解) | 1633 Elo | 1276 Elo | +357 Elo |
| Claude Code 選好率 | 70% | — | 対Sonnet 4.5 |
| 対Opus 4.5 選好率 | 59% | — | 2025年11月のフラッグシップ超え |
ARC-AGI-2の**+44.7ポイント**は異常な跳躍だ。これは単純なパターン認識ではなく、未知の問題への汎化能力を測る指標であり、モデルの根本的な推論能力が向上していることを示唆する。
Claude Sonnet 4.6の新機能
Adaptive Thinking:考える深さをAIが自律制御
従来のbudget_tokensによる手動制御は非推奨になった。代わりに導入されたのがadaptive thinkingだ。
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=16000,
thinking={"type": "adaptive"},
messages=[{"role": "user", "content": "このバグの原因を特定して"}],
)
Claudeがタスクの複雑さに応じて、思考の深さを自律的に判断する。effortパラメータで大まかな方向性を指示できる。Sonnet 4.6ではmediumが推奨。速度・コスト・性能のバランスが最も良い。
| effort | 用途の目安 | コスト感 |
|---|---|---|
low | 単純な翻訳、テキスト整形、テンプレ生成 | 最安・最速 |
medium | バグ修正、コードレビュー、要約(Sonnet推奨) | バランス型 |
high | 設計レビュー、複雑なリファクタ | デフォルト |
max | 数学的証明、高度な推論(Opus限定) | 最高コスト |
1Mトークンコンテキスト(ベータ)
コンテキストウィンドウが100万トークンに拡張された(ベータ版)。デフォルトは200Kトークンのまま。
- 巨大なコードベース全体を一度に処理
- 数十本の研究論文を同時参照
- 長大な契約書の全文解析
200K超のリクエストは入力$6/出力$22.50に料金が上がる(ベータ期間中の料金。正式リリース時に変更の可能性あり)。
Compaction API:会話が終わらない
コンテキストがウィンドウ上限に近づくと、サーバー側で自動的に会話の前半を要約するCompaction API(ベータ)が導入された。これにより理論上無限の会話が可能になる。Claude Codeのような長時間のコーディングセッションで特に効果を発揮する。
Web Search / Fetch の動的フィルタリング
Web検索・取得ツールにコード実行による動的フィルタリングが追加された(ベータ)。Claudeが検索結果をコードで処理し、コンテキストに入れる前に関連情報だけを抽出する。トークン消費を抑えつつ精度が向上する。
しかもWeb検索・取得と併用する場合、コード実行は無料だ。
その他の新機能
- Fast Mode(Opus限定): 出力速度が最大2.5倍(プレミアム料金$30/$150)
- 128K出力トークン(Opus限定): 従来の64Kから倍増
- Data Residency: リクエストごとに推論実行地域を指定可能(
us指定は1.1倍料金) - Claude in Excel + MCP: S&P Global、LSEG、Moody’s等の外部データソースと接続可能に
- Fine-grained Tool Streaming: 正式リリース(ベータヘッダー不要)
Claude CodeでのSonnet 4.6性能:開発者の70%が選好
Claude Codeでの実使用テストの結果は明快だ。
- 70%がSonnet 4.6をSonnet 4.5より選好
- 59%がOpus 4.5(2025年11月のフラッグシップ)より選好
具体的にどこが良くなったのか:
- コード修正前の文脈読み込みが的確: 変更対象の周辺コードを正しく理解してから手を入れる
- 共有ロジックの重複を排除: コピペコードではなく共通化を提案する
- オーバーエンジニアリングの抑制: 必要十分な実装を心がける
- 命令追従の向上: 指示通りの出力をより確実に返す
- ハルシネーションの減少: 嘘の成功主張が減った
- マルチステップタスクの一貫性: 途中で方向を見失わない
Anthropicの公式発表に掲載された各社コメントも紹介する。Rakutenは「Sonnet 4.6はiOSコードの品質が驚くべきレベル」、Boxは「エンタープライズ文書のQ&AでSonnet 4.5より15ポイント向上」、GitHubは大規模コードベースの検索能力、Cognitionはバグ検出のコスト効率をそれぞれ評価している。ただしこれらはAnthropicのプレスリリースに掲載されたコメントであり、独立したレビューではない点に留意してほしい。
| ユースケース | 推奨モデル | 理由 |
|---|---|---|
| Claude Codeでの日常コーディング | Sonnet 4.6 | 選好率70%、Opusの約6割コスト |
| フロントエンド構築・UI生成 | Sonnet 4.6 | 「設計センスがOpus級」の評価 |
| 複雑なアーキテクチャ設計 | Opus 4.6 | 深い推論が必要な領域 |
| 大量テキスト処理・RAG | Gemini 3 Pro検討 | 入力$2.00で1Mコンテキスト |
| PC操作の自動化(computer use) | Sonnet 4.6 | OSWorld 72.5%でOpusと僅差 |
| コスト最優先のバッチ処理 | GPT-5.2 | 入力$1.75が最安クラス |
Claude料金プラン別のSonnet 4.6活用:使用量リミットへの影響
API利用者だけでなく、claude.ai(Free / Pro / Max)ユーザーにとってもSonnet 4.6の登場は大きい。
Claude Free・Pro・Maxプラン別のモデル対応と料金
| プラン | 月額(USD) | Sonnet 4.6 | Opus 4.6 | 使用量 |
|---|---|---|---|---|
| Free | $0 | 利用可能(デフォルト) | 利用不可 | 限定的 |
| Pro | $20 | 利用可能 | 利用可能 | Freeの約5倍 |
| Max 5x | $100 | 利用可能 | 利用可能 | Proの5倍 |
| Max 20x | $200 | 利用可能 | 利用可能 | Proの20倍 |
※ 価格は米ドル表記。日本からの決済時は為替レートが適用される。使用量の倍率はプラン名に基づく目安であり、メッセージの長さやモデルにより実際の送信可能数は変動する。最新の料金はAnthropic公式を確認してほしい。
使用量は5時間ごとにリセットされる。claude.ai、Claude Code、Claude Desktopの使用量はすべて同じリミットにカウントされる。特にClaude Codeはツール呼び出しの往復でトークンを大量消費するため、claude.aiのチャットより速くリミットに到達しやすい。
Opus vs Sonnet:使用量制限とリミット消費の違い
ここが実用上の最重要ポイントだ。claude.aiの使用量制限はトークンベースで計算される。2025年11月のアップデートで、OpusとSonnetの使用量枠は独立した。つまり、Opusを使い切ってもSonnetは別枠で使える。逆も同様だ。
Sonnet枠はOpus枠よりも多くのメッセージを送れる設計になっている。Sonnet 4.6がOpusに迫る性能を持つ今、Sonnet枠の実質的な価値が大幅に上がった。
※ 使用量制限やモデル別枠の仕様はAnthropicが変更する可能性がある。最新情報は公式を確認してほしい。
Sonnet 4.6でClaude Proのリミット不足を解消する
これまでは「Opusの方が賢いからOpusを使いたい、でもすぐリミットに達する」というジレンマがあった。Sonnet 4.6はこのジレンマを大幅に緩和する。
- Opusに迫る性能をSonnetのリミット枠で使える
- Opusの枠を長文の複雑な分析や高度なマルチステップ推論に温存できる
- FreeプランユーザーはOpusなしでも多くのタスクで十分な品質を得られる
ただし、長文の技術文書生成や複雑なアーキテクチャ設計など、依然としてOpusが優位な場面はある。用途に応じた使い分けが最善だ。
Proプランで日常的にClaude Codeを使っているなら、デフォルトをSonnet 4.6にしておくのが最もリミット効率が良い。Opusは「ここぞ」という場面だけ手動で切り替えればいい。Claude Codeでの具体的な活用法はClaude Code 2026年アップデートまとめも参照してほしい。
APIでSonnet 4.6を使う場合の移行手順は次章で解説する。
Sonnet 4.6のAPI移行ガイド:破壊的変更に注意
Sonnet 4.5から4.6への移行で、開発者が対応すべき変更点をまとめる。
非推奨化
| 項目 | 旧 | 新 | 対応期限 |
|---|---|---|---|
| 拡張思考 | thinking: {type: "enabled", budget_tokens: N} | thinking: {type: "adaptive"} + effort | 将来のリリースで削除 |
| 出力フォーマット | output_format | output_config.format | 将来のリリースで削除 |
| インターリーブ思考ヘッダー | interleaved-thinking-2025-05-14 | adaptive thinkingで自動有効化 | 即時(無視される) |
破壊的変更(Opus 4.6のみ)
Prefillの廃止: アシスタントメッセージのprefill(応答の冒頭を指定する手法)がOpus 4.6で400エラーを返すようになった。Sonnet 4.6では引き続き利用可能。代替手段:
- 構造化出力(
output_config.format)でフォーマット指定 - システムプロンプトでスタイル指示
移行コード例
# Before(Sonnet 4.5)
response = client.messages.create(
model="claude-sonnet-4-5-20250929",
max_tokens=8192,
thinking={"type": "enabled", "budget_tokens": 4096},
output_format={"type": "json_schema", "schema": my_schema},
messages=[...],
)
# After(Sonnet 4.6)
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=8192,
thinking={"type": "adaptive"},
output_config={"format": {"type": "json_schema", "schema": my_schema}},
messages=[...],
)
Sonnet 4.6と競合の料金比較:コスパの現在地
| モデル | 入力(/MTok) | 出力(/MTok) | SWE-bench | コンテキスト |
|---|---|---|---|---|
| Claude Sonnet 4.6 | $3.00 | $15.00 | 79.6% | 200K(1M β) |
| Claude Opus 4.6 | $5.00 | $25.00 | 80.8% | 200K(1M β) |
| GPT-5.2 | $1.75 | $14.00 | 80.0% | 400K |
| Gemini 3 Pro | $2.00 | $12.00 | 未公開※ | 1M |
※ GoogleはSWE-benchではなく独自のコーディングベンチマークを採用しており、直接比較できるスコアは2026年2月時点で未公開。
GPT-5.2の方がトークン単価は安い。入力$1.75はSonnet 4.6の約6割だ。ただし、Claude CodeやOSWorldでの実績を考慮すると、コーディング・エージェント用途ではSonnet 4.6に分がある。一方、大量のテキスト処理が中心ならGemini 3 Proの入力$2.00も有力な選択肢だ。各モデルの特徴を詳しく比較したい方はGemini vs ChatGPT vs Claude徹底比較を参照してほしい。
「最安」を追うなら他社にも選択肢がある。Sonnet 4.6の真価は価格と性能のバランス、つまりOpus級の実力をSonnet価格で提供するところにある。
Sonnet 4.6への開発者の反応:賛否を正直に
肯定派: 「もうOpusに手を出さなくていい」
MercuryのRyan Wiggins氏は「Sonnet 4.6は速く、安く、一発で正解を出す確率が高い」と評価。ReplitのMichele Catasta社長はコスト対性能比を「異常(extraordinary)」と表現した。
ゼロショットアプリ構築テストでは、Sonnet 4.6は人間の介入なしに3〜4倍長く稼働し、Opusシリーズと同等の完成度のアプリを出力したという報告もある。AIエージェントによる業務自動化の文脈でも、このエージェント性能の向上は大きな意味を持つ。
懐疑派: 「ベンチマーク選びが恣意的では」
Hacker Newsのディスカッションでは辛口な指摘が飛び交った。
ベンチマーク選定への疑問: 「OpenAIの最新Codex 5.3との比較を避けている」「都合の良い相手とだけ比較している」。ベンチマークの信頼性に関する本質的な批判だ。独立した第三者検証が出揃うまでは、公式発表のスコアを鵜呑みにすべきではない。
命名の混乱: Sonnet 5をスキップして4.6とした理由について「より大きなバージョンジャンプのために温存している」という推測もある。
コンテキストコストの構造的問題: 「MCPのツールスキーマ自体がO(N)のコンテキストコストを発生させる」「attentionの二次複雑性が価格差の本当の理由」。1Mコンテキストを本当にフル活用するとコストが跳ね上がるリスクは、公式アナウンスでは目立たない。
筆者の見解
スコアの差がほぼ誤差範囲に収まっている以上、ほとんどの開発者はSonnet 4.6で十分というのが率直な結論だ。ただし「Opus不要」と断言するには早い。深い推論やエッジケースの処理でOpusが上回るシナリオは依然存在する。
重要なのは、選択肢が増えたこと。以前は「予算が許すならOpus一択」だったが、今は「まずSonnet 4.6で試し、不足ならOpusにフォールバック」という合理的な戦略が成立する。
まとめ:Sonnet 4.6で何が変わるか
Claude Sonnet 4.6は、AI業界の「性能と価格のトレードオフ」を根本から書き換えた。
- SWE-bench 79.6%、OSWorld 72.5% — Opus 4.6との差が事実上消滅
- $3/$15のSonnet価格を維持。Opus($5/$25)の約6割
- adaptive thinking、1Mコンテキスト等の新機能でAPI体験が進化
- Claude Code選好率70%。フロントエンド構築からバグ修正まで実用性が証明済み
- v1alphaではなく正式リリース。本番環境で安心して使える
モデルID claude-sonnet-4-6 をAPIに指定するか、claude.aiにアクセスすれば今すぐ使える。すでにデフォルトモデルとして全ユーザーに提供されている。
AIモデルの最新動向を追いたい方は、Gemini 3 Deep Think完全ガイドやGemini vs ChatGPT vs Claude徹底比較も参考になるはずだ。コーディングツールとしてのClaude Codeの実力はClaude Code 2026年アップデートまとめで詳しく解説している。
※ 本記事の情報は2026年2月18日時点のものです。ベンチマークスコアはAnthropicの公式発表値に基づきます。競合他社の料金・スコアを含むすべてのデータは各社公式情報に基づきますが、変更される場合があります。独立した第三者検証の結果とは異なる可能性があります。最新情報はAnthropic公式およびAPIドキュメントをご確認ください。
※ Claude、Claude Code、Claude Sonnet、Claude OpusはAnthropic PBCの商標です。GPT、ChatGPTはOpenAI, Inc.の商標です。Gemini、Google Cloudは Google LLCの商標です。その他記載の製品名・サービス名は各社の商標または登録商標です。