メインコンテンツへスキップ
AI News 28分で読める

Claude Sonnet 4.6レビュー|SWE-bench 79.6%でOpus級性能をSonnet価格で

SWE-bench 79.6%。OSWorld 72.5%。

2026年2月17日、Anthropicが発表したClaude Sonnet 4.6のベンチマークは、フラッグシップモデルとの境界線を実質的に消し去った。

SWE-benchでOpus 4.6(80.8%)との差はわずか1.2ポイント。OSWorldに至っては0.2ポイント差で、人間の基準値(72%)を初めて超えた。それでいて価格はOpusの約6割、入力$3/出力$15(100万トークンあたり)で据え置きだ。

Anthropicは公式ブログで「以前ならOpusクラスのモデルが必要だった性能が、Sonnet 4.6で利用可能になった」と述べている。控えめな表現ではない。ベンチマークがそれを裏付けている。

結論を先に言う。Claude Code利用者は今日からclaude-sonnet-4-6に切り替えていい。以下でその根拠を示す。

この記事はこんな人におすすめ
  • Claude Code / Cursor / VS Codeを使っているエンジニア
  • Claude APIを利用中で、Sonnet 4.5からの移行を検討している方
  • LLMの性能と料金のバランスを重視するフリーランスエンジニア
  • AIコーディングツールの最新動向を追いたい方

Claude Sonnet 4.6のベンチマーク:Opusとの差が消えた

SWE-bench Verified: 79.6%

ソフトウェアエンジニアリングの実力を測る業界標準ベンチマーク。実在のGitHubリポジトリからのバグ修正タスクで評価する。

  • Sonnet 4.6: 79.6%
  • Opus 4.6: 80.8%(差1.2pt)
  • GPT-5.2: 80.0%(差0.4pt)
  • Sonnet 4.5: 77.2%(+2.4pt改善)

注目すべきは、GPT-5.2(80.0%)との差がわずか0.4ポイントに収まっていること。GPT-5.2の入力単価$1.75に対してSonnet 4.6は$3.00と割高だが、出力単価はほぼ同等($14 vs $15)。トータルコストで見れば十分に競争力がある。

OSWorld-Verified: 72.5%:ベンチマーク上で人間基準値を超えた

実際のソフトウェア(Chrome、LibreOffice、VS Code)を使ったPC操作タスクのベンチマーク。特別なAPIは使わず、人間と同じ方法でマウスとキーボードを操作して評価する。

  • Sonnet 4.6: 72.5%
  • Opus 4.6: 72.7%(差0.2pt)
  • 人間基準値: 72.0%(このベンチマーク上で初めて超えた
  • Sonnet 4.5: 61.4%(+11.1pt改善)

2024年10月のcomputer use初公開時は14.9%だった。16ヶ月で57.6ポイント改善し、OSWorldの特定タスク群において人間基準値を超えた。スプレッドシート操作、複数ステップのフォーム入力、ブラウザ操作で高い能力を示している。

その他の注目指標

ベンチマークSonnet 4.6Sonnet 4.5改善幅
ARC-AGI-2(新規性のある問題解決)58.3%13.6%+44.7pt
OfficeQA(文書理解)1633 Elo1276 Elo+357 Elo
Claude Code 選好率70%対Sonnet 4.5
対Opus 4.5 選好率59%2025年11月のフラッグシップ超え

ARC-AGI-2の**+44.7ポイント**は異常な跳躍だ。これは単純なパターン認識ではなく、未知の問題への汎化能力を測る指標であり、モデルの根本的な推論能力が向上していることを示唆する。

SWE-bench、OSWorldの両方でSonnet 4.6はOpus 4.6に肉薄。ARC-AGI-2では+44.7ptの異常な跳躍

Claude Sonnet 4.6の新機能

Adaptive Thinking:考える深さをAIが自律制御

従来のbudget_tokensによる手動制御は非推奨になった。代わりに導入されたのがadaptive thinkingだ。

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    messages=[{"role": "user", "content": "このバグの原因を特定して"}],
)

Claudeがタスクの複雑さに応じて、思考の深さを自律的に判断する。effortパラメータで大まかな方向性を指示できる。Sonnet 4.6ではmediumが推奨。速度・コスト・性能のバランスが最も良い。

effort用途の目安コスト感
low単純な翻訳、テキスト整形、テンプレ生成最安・最速
mediumバグ修正、コードレビュー、要約(Sonnet推奨バランス型
high設計レビュー、複雑なリファクタデフォルト
max数学的証明、高度な推論(Opus限定最高コスト

1Mトークンコンテキスト(ベータ)

コンテキストウィンドウが100万トークンに拡張された(ベータ版)。デフォルトは200Kトークンのまま。

  • 巨大なコードベース全体を一度に処理
  • 数十本の研究論文を同時参照
  • 長大な契約書の全文解析

200K超のリクエストは入力$6/出力$22.50に料金が上がる(ベータ期間中の料金。正式リリース時に変更の可能性あり)。

Compaction API:会話が終わらない

コンテキストがウィンドウ上限に近づくと、サーバー側で自動的に会話の前半を要約するCompaction API(ベータ)が導入された。これにより理論上無限の会話が可能になる。Claude Codeのような長時間のコーディングセッションで特に効果を発揮する。

Web Search / Fetch の動的フィルタリング

Web検索・取得ツールにコード実行による動的フィルタリングが追加された(ベータ)。Claudeが検索結果をコードで処理し、コンテキストに入れる前に関連情報だけを抽出する。トークン消費を抑えつつ精度が向上する。

しかもWeb検索・取得と併用する場合、コード実行は無料だ。

その他の新機能

  • Fast Mode(Opus限定): 出力速度が最大2.5倍(プレミアム料金$30/$150)
  • 128K出力トークン(Opus限定): 従来の64Kから倍増
  • Data Residency: リクエストごとに推論実行地域を指定可能(us指定は1.1倍料金)
  • Claude in Excel + MCP: S&P Global、LSEG、Moody’s等の外部データソースと接続可能に
  • Fine-grained Tool Streaming: 正式リリース(ベータヘッダー不要)

Claude CodeでのSonnet 4.6性能:開発者の70%が選好

Claude Codeでの実使用テストの結果は明快だ。

  • 70%がSonnet 4.6をSonnet 4.5より選好
  • 59%がOpus 4.5(2025年11月のフラッグシップ)より選好

具体的にどこが良くなったのか:

  1. コード修正前の文脈読み込みが的確: 変更対象の周辺コードを正しく理解してから手を入れる
  2. 共有ロジックの重複を排除: コピペコードではなく共通化を提案する
  3. オーバーエンジニアリングの抑制: 必要十分な実装を心がける
  4. 命令追従の向上: 指示通りの出力をより確実に返す
  5. ハルシネーションの減少: 嘘の成功主張が減った
  6. マルチステップタスクの一貫性: 途中で方向を見失わない

Anthropicの公式発表に掲載された各社コメントも紹介する。Rakutenは「Sonnet 4.6はiOSコードの品質が驚くべきレベル」、Boxは「エンタープライズ文書のQ&AでSonnet 4.5より15ポイント向上」、GitHubは大規模コードベースの検索能力、Cognitionはバグ検出のコスト効率をそれぞれ評価している。ただしこれらはAnthropicのプレスリリースに掲載されたコメントであり、独立したレビューではない点に留意してほしい。

ユースケース別 モデル選択ガイド
ユースケース推奨モデル理由
Claude Codeでの日常コーディングSonnet 4.6選好率70%、Opusの約6割コスト
フロントエンド構築・UI生成Sonnet 4.6「設計センスがOpus級」の評価
複雑なアーキテクチャ設計Opus 4.6深い推論が必要な領域
大量テキスト処理・RAGGemini 3 Pro検討入力$2.00で1Mコンテキスト
PC操作の自動化(computer use)Sonnet 4.6OSWorld 72.5%でOpusと僅差
コスト最優先のバッチ処理GPT-5.2入力$1.75が最安クラス

Claude料金プラン別のSonnet 4.6活用:使用量リミットへの影響

API利用者だけでなく、claude.ai(Free / Pro / Max)ユーザーにとってもSonnet 4.6の登場は大きい。

Claude Free・Pro・Maxプラン別のモデル対応と料金

プラン月額(USD)Sonnet 4.6Opus 4.6使用量
Free$0利用可能(デフォルト)利用不可限定的
Pro$20利用可能利用可能Freeの約5倍
Max 5x$100利用可能利用可能Proの5倍
Max 20x$200利用可能利用可能Proの20倍

※ 価格は米ドル表記。日本からの決済時は為替レートが適用される。使用量の倍率はプラン名に基づく目安であり、メッセージの長さやモデルにより実際の送信可能数は変動する。最新の料金はAnthropic公式を確認してほしい。

使用量は5時間ごとにリセットされる。claude.ai、Claude Code、Claude Desktopの使用量はすべて同じリミットにカウントされる。特にClaude Codeはツール呼び出しの往復でトークンを大量消費するため、claude.aiのチャットより速くリミットに到達しやすい。

Opus vs Sonnet:使用量制限とリミット消費の違い

ここが実用上の最重要ポイントだ。claude.aiの使用量制限はトークンベースで計算される。2025年11月のアップデートで、OpusとSonnetの使用量枠は独立した。つまり、Opusを使い切ってもSonnetは別枠で使える。逆も同様だ。

Sonnet枠はOpus枠よりも多くのメッセージを送れる設計になっている。Sonnet 4.6がOpusに迫る性能を持つ今、Sonnet枠の実質的な価値が大幅に上がった。

※ 使用量制限やモデル別枠の仕様はAnthropicが変更する可能性がある。最新情報は公式を確認してほしい。

Sonnet 4.6でClaude Proのリミット不足を解消する

これまでは「Opusの方が賢いからOpusを使いたい、でもすぐリミットに達する」というジレンマがあった。Sonnet 4.6はこのジレンマを大幅に緩和する。

  • Opusに迫る性能をSonnetのリミット枠で使える
  • Opusの枠を長文の複雑な分析や高度なマルチステップ推論に温存できる
  • FreeプランユーザーはOpusなしでも多くのタスクで十分な品質を得られる

ただし、長文の技術文書生成や複雑なアーキテクチャ設計など、依然としてOpusが優位な場面はある。用途に応じた使い分けが最善だ。

Proプランで日常的にClaude Codeを使っているなら、デフォルトをSonnet 4.6にしておくのが最もリミット効率が良い。Opusは「ここぞ」という場面だけ手動で切り替えればいい。Claude Codeでの具体的な活用法はClaude Code 2026年アップデートまとめも参照してほしい。

APIでSonnet 4.6を使う場合の移行手順は次章で解説する。

Sonnet 4.6のAPI移行ガイド:破壊的変更に注意

Sonnet 4.5から4.6への移行で、開発者が対応すべき変更点をまとめる。

非推奨化

項目対応期限
拡張思考thinking: {type: "enabled", budget_tokens: N}thinking: {type: "adaptive"} + effort将来のリリースで削除
出力フォーマットoutput_formatoutput_config.format将来のリリースで削除
インターリーブ思考ヘッダーinterleaved-thinking-2025-05-14adaptive thinkingで自動有効化即時(無視される)

破壊的変更(Opus 4.6のみ)

Prefillの廃止: アシスタントメッセージのprefill(応答の冒頭を指定する手法)がOpus 4.6で400エラーを返すようになった。Sonnet 4.6では引き続き利用可能。代替手段:

  • 構造化出力(output_config.format)でフォーマット指定
  • システムプロンプトでスタイル指示

移行コード例

# Before(Sonnet 4.5)
response = client.messages.create(
    model="claude-sonnet-4-5-20250929",
    max_tokens=8192,
    thinking={"type": "enabled", "budget_tokens": 4096},
    output_format={"type": "json_schema", "schema": my_schema},
    messages=[...],
)

# After(Sonnet 4.6)
response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=8192,
    thinking={"type": "adaptive"},
    output_config={"format": {"type": "json_schema", "schema": my_schema}},
    messages=[...],
)

Sonnet 4.6と競合の料金比較:コスパの現在地

モデル入力(/MTok)出力(/MTok)SWE-benchコンテキスト
Claude Sonnet 4.6$3.00$15.0079.6%200K(1M β)
Claude Opus 4.6$5.00$25.0080.8%200K(1M β)
GPT-5.2$1.75$14.0080.0%400K
Gemini 3 Pro$2.00$12.00未公開※1M

※ GoogleはSWE-benchではなく独自のコーディングベンチマークを採用しており、直接比較できるスコアは2026年2月時点で未公開。

GPT-5.2の方がトークン単価は安い。入力$1.75はSonnet 4.6の約6割だ。ただし、Claude CodeやOSWorldでの実績を考慮すると、コーディング・エージェント用途ではSonnet 4.6に分がある。一方、大量のテキスト処理が中心ならGemini 3 Proの入力$2.00も有力な選択肢だ。各モデルの特徴を詳しく比較したい方はGemini vs ChatGPT vs Claude徹底比較を参照してほしい。

「最安」を追うなら他社にも選択肢がある。Sonnet 4.6の真価は価格と性能のバランス、つまりOpus級の実力をSonnet価格で提供するところにある。

Sonnet 4.6への開発者の反応:賛否を正直に

肯定派: 「もうOpusに手を出さなくていい」

MercuryのRyan Wiggins氏は「Sonnet 4.6は速く、安く、一発で正解を出す確率が高い」と評価。ReplitのMichele Catasta社長はコスト対性能比を「異常(extraordinary)」と表現した

ゼロショットアプリ構築テストでは、Sonnet 4.6は人間の介入なしに3〜4倍長く稼働し、Opusシリーズと同等の完成度のアプリを出力したという報告もある。AIエージェントによる業務自動化の文脈でも、このエージェント性能の向上は大きな意味を持つ。

懐疑派: 「ベンチマーク選びが恣意的では」

Hacker Newsのディスカッションでは辛口な指摘が飛び交った。

ベンチマーク選定への疑問: 「OpenAIの最新Codex 5.3との比較を避けている」「都合の良い相手とだけ比較している」。ベンチマークの信頼性に関する本質的な批判だ。独立した第三者検証が出揃うまでは、公式発表のスコアを鵜呑みにすべきではない。

命名の混乱: Sonnet 5をスキップして4.6とした理由について「より大きなバージョンジャンプのために温存している」という推測もある。

コンテキストコストの構造的問題: 「MCPのツールスキーマ自体がO(N)のコンテキストコストを発生させる」「attentionの二次複雑性が価格差の本当の理由」。1Mコンテキストを本当にフル活用するとコストが跳ね上がるリスクは、公式アナウンスでは目立たない。

筆者の見解

スコアの差がほぼ誤差範囲に収まっている以上、ほとんどの開発者はSonnet 4.6で十分というのが率直な結論だ。ただし「Opus不要」と断言するには早い。深い推論やエッジケースの処理でOpusが上回るシナリオは依然存在する。

重要なのは、選択肢が増えたこと。以前は「予算が許すならOpus一択」だったが、今は「まずSonnet 4.6で試し、不足ならOpusにフォールバック」という合理的な戦略が成立する。

まとめ:Sonnet 4.6で何が変わるか

Claude Sonnet 4.6は、AI業界の「性能と価格のトレードオフ」を根本から書き換えた。

  • SWE-bench 79.6%、OSWorld 72.5% — Opus 4.6との差が事実上消滅
  • $3/$15のSonnet価格を維持。Opus($5/$25)の約6割
  • adaptive thinking、1Mコンテキスト等の新機能でAPI体験が進化
  • Claude Code選好率70%。フロントエンド構築からバグ修正まで実用性が証明済み
  • v1alphaではなく正式リリース。本番環境で安心して使える

モデルID claude-sonnet-4-6 をAPIに指定するか、claude.aiにアクセスすれば今すぐ使える。すでにデフォルトモデルとして全ユーザーに提供されている。

AIモデルの最新動向を追いたい方は、Gemini 3 Deep Think完全ガイドGemini vs ChatGPT vs Claude徹底比較も参考になるはずだ。コーディングツールとしてのClaude Codeの実力はClaude Code 2026年アップデートまとめで詳しく解説している。


※ 本記事の情報は2026年2月18日時点のものです。ベンチマークスコアはAnthropicの公式発表値に基づきます。競合他社の料金・スコアを含むすべてのデータは各社公式情報に基づきますが、変更される場合があります。独立した第三者検証の結果とは異なる可能性があります。最新情報はAnthropic公式およびAPIドキュメントをご確認ください。

※ Claude、Claude Code、Claude Sonnet、Claude OpusはAnthropic PBCの商標です。GPT、ChatGPTはOpenAI, Inc.の商標です。Gemini、Google Cloudは Google LLCの商標です。その他記載の製品名・サービス名は各社の商標または登録商標です。

Share