メインコンテンツへスキップ
AI News 15分で読める

Claude Opus 4.7完全解説|SWE-bench 87.6%の実力と見えないコスト増【2026年4月】

「Opus 4.7はマジでひどい。Anthropicが今まで出した中で最悪のリリースだ」。2026年4月17日、リリース翌日にRedditのr/ClaudeAIに投稿されたこのスレッドは24時間で2,300のアップボートを集めた。一方、同じ日のHacker Newsでは「Devinがこれを使って数時間コードを書き続け、以前は止まっていたバグを突破した」という投稿が上位に並ぶ。

まったく正反対の評価が同時に存在する。Claude Opus 4.7は、それほど極端なモデルだ。

この記事はこんな人におすすめ
  • Claude CodeやAPIでOpus 4.6を使っており、4.7への移行を検討している開発者
  • コスト計算なしにアップグレードして「なぜ請求が増えたか」を理解したいエンジニア
  • GPT-5.4との優劣を実データで把握したいプロダクトマネージャー

Claude Opus 4.7 — 主要アップデート一覧

Anthropicが2026年4月16日にリリースしたClaude Opus 4.7は、コーディング・視覚認識・エージェント実行の3領域で前世代から大きく進化した。APIモデル名は claude-opus-4-7 、コンテキストウィンドウは100万トークン、最大出力は128kトークン。

変更点Opus 4.6Opus 4.7
SWE-bench Verified80.8%87.6%
SWE-bench Pro53.4%64.3%
最大画像解像度1568px / 1.15MP2576px / 3.75MP
XBOW視覚精度54.5%98.5%
effortレベル最上位maxxhigh / max
タスクバジェットなしあり(beta)
セッション間メモリ限定的ファイルシステムベース
表示価格$5 / $25 /Mtok$5 / $25 /Mtok(同額)

価格表示は据え置きだが、後述するトークナイザーの変更により実際のコストは増加するケースがある。

コーディング性能 — SWE-bench 87.6%が意味すること

SWE-benchはGitHubの実課題をモデルが自律解決する難度の高いベンチマークで、現在の業界標準指標だ。Opus 4.7はVerifiedスコアで87.6%を記録し、前世代比6.8ポイント増。さらに難易度の高いSWE-bench Proでは53.4%から64.3%へと約11ポイントの大幅改善を達成した。

注目すべきはGPT-5.4との差だ。GPT-5.4のSWE-bench Proは57.7%に対しOpus 4.7は64.3%、6.6ポイントのリードを持つ。MCP-Atlasと呼ばれるマルチツール協調ベンチマークでも77.3% vs 68.1%とOpus 4.7が優位に立つ(DataCamp, 2026年4月)。2026年4月時点で、主要コーディングベンチマークにおけるトップスコアを記録している(Anthropic公式発表)。

Anthropicの内部93タスクベンチマークでは前世代比13%の改善。Rakuten-SWE-Benchでは本番タスクの解決率がOpus 4.6比3倍に達したとされる。

エージェントとして動くDevinでの実績もある。「数時間連続で動作し、以前は諦めていたレベルの問題を突破する」という報告が複数出ている。

視覚認識が大進化 — XBOW 98.5%と3.75MP対応

Opus 4.7はClaude初の高解像度画像サポートを搭載した。最大解像度が1568px(1.15MP)から2576px(3.75MP)へ約3.3倍に拡大し、XBOWビジュアル精度ベンチマークでは54.5%から98.5%へと、桁違いの改善を達成した。

この数字が実務に意味するのは以下だ。

  • スクリーンショット内の小さな文字や数値の読み取り
  • 化学構造式・複雑な回路図の解析
  • 密度の高いグラフやダッシュボードの数値抽出
  • 複数オブジェクトの位置特定(バウンディングボックス検出)

従来のOpus 4.6では「画像を渡したが読み取れなかった」ケースの多くが、4.7では解決できる可能性がある。画像認識を使うワークフローは4.7への移行メリットが特に大きい。

新機能: xhigh努力レベルとタスクバジェット

effortパラメータ

Opus 4.7のeffortスケールは low / medium / high / xhigh / max の5段階になった。xhigh はコーディング・エージェント用途向けの新レベルで、Claude Codeではデフォルトとして採用されている。

response = client.messages.create(
    model="claude-opus-4-7",
    output_config={"effort": "xhigh"},
    ...
)

推奨は「コーディング・エージェントはxhighスタート、精度最重視タスクのみmax」。low/medium はコスト削減のために下げることも可能だが、Opus 4.7はOpus 4.6より低effortレベルでの動作の差が大きいため注意が必要だ。

タスクバジェット(beta)

長時間エージェント実行の「コスト青天井問題」に対応する機能が追加された。タスクバジェットはモデルに「このタスクの目標トークン数はN」と伝える仕組みで、モデルはカウントダウンを見ながら作業優先度を調整し、予算到達前に作業を完了させる。

ハードキャップの max_tokens と異なり、タスクバジェットはソフト制約(モデルへの情報提供)であるため、突然の打ち切りではなく自然な完了を促す。最小2万トークンから設定可能で、task-budgets-2026-03-13 betaヘッダーが必要。

見えないコスト増 — 新トークナイザーの罠

Opus 4.7の価格表示はOpus 4.6と同額だ。入力$5、出力$25(100万トークンあたり)。ところが実際の請求額が増えたという報告が相次いでいる。原因は新トークナイザーだ。

同じ入力テキストを処理したとき、Opus 4.7は最大35%多くのトークンを生成する場合がある。$0.10のリクエストが$0.135になりうる計算で、コード・構造化データが多いワークロードほど影響が大きい。

さらにモデルの動作変化も重なる。Opus 4.7はOpus 4.6よりも推論・検証ステップが多く、xhigh effortのデフォルトと組み合わさって「同じタスクで1.5〜3倍のコストがかかる」という事例が報告されている(Xlork Blog調査)。

本番移行前にやるべきこと:

  1. 実際のトラフィックを使ってOpus 4.6とOpus 4.7を並走させ、1リクエストあたりの実コストを比較測定する
  2. プロンプトキャッシュ(キャッシュ済みトークンは90%オフ)とバッチ処理(50%オフ)の活用でコスト最適化
  3. 精度が不要なルーティンタスクはSonnet 4.6(Opusより40%安価)への切り替えを検討

開発者コミュニティの評価 — 称賛と批判の実態

批判の声

Reddit 2,300アップボートの批判スレッドが挙げた最大の問題は「あいまい性税(Ambiguity Tax)」だ。Opus 4.6はあいまいなプロンプトを好意的に解釈して補完してくれた。Opus 4.7は指示をより文字通りに実行するため、従来うまく動いていたプロンプトが突然期待外れの結果を返す。

「Opus 4.7はこっちの意図を読まなくなった。以前のバージョンは補ってくれたのに、今は書いてあることしかやらない」(r/ClaudeAI、2026年4月17日)

クリエイティブライティングの劣化も報告されている。文体の温かみが失われ、過剰なフォーマット(箇条書き化)が増えたという声だ。さらに一部のユーザーは「モデルが修正に反論する」挙動も報告した。

称賛の声

一方、エージェントコーディングユーザーの評価は高い。

「Opus 4.7はClaude Codeに入った。より自律的で、精密で、長時間タスクに格段に強い。セッション間でコンテキストを引き継ぐのが特に助かる」(Boris Cherny、Threads、2026年4月16日)

r/ClaudeAIとr/LocalLLaMAでは、大規模モノレポの複数ファイルリファクタリングや、以前は人間のレビューが必要だったアーキテクチャ設計を一発でこなす事例が共有されている。中途修正せずに完了できる仕事の難易度の上限が上がったという評価だ。

GPT-5.4との比較

GPT-5.4(2026年3月5日リリース)との主要ベンチマーク比較は以下の通りだ。

ベンチマークOpus 4.7GPT-5.4
SWE-bench Verified87.6%85.0%
SWE-bench Pro64.3%57.7%
MCP-Atlas(マルチツール)77.3%68.1%
CursorBench70%

コーディングとマルチツール協調ではOpus 4.7が明確にリード。一方、GPT-5.4はブラウザ操作・Webリサーチ型エージェントに強みを持つ。「コードを書かせる、ツールを連携させる」用途ならOpus 4.7、「Webを調べながらタスクをこなす」用途ならGPT-5.4が現時点では有利だ。

Claude Opus 4.7 基本情報
  • APIモデル名: claude-opus-4-7
  • リリース日: 2026年4月16日
  • コンテキストウィンドウ: 100万トークン
  • 最大出力: 12万8,000トークン
  • 価格: 入力 $5 / 出力 $25(100万トークンあたり)
  • 利用可能プラットフォーム: Claude API、Amazon Bedrock、Google Cloud Vertex AI
  • Claude Security beta: Opus 4.7ベースで2026年4月30日より公開ベータ開始

Claude Opus 4.7を今すぐ試す

APIモデル名 claude-opus-4-7 で利用可能。effortパラメータのデフォルトはxhigh。コスト比較は本番移行前に必ず実施を。

公式ドキュメントを見る

関連記事:


本記事の価格・ベンチマーク数値はAnthropicの公式発表(2026年4月16日)、DataCampのモデル比較分析(2026年4月)、Anthropic公式APIドキュメントに基づく。市場環境は急速に変化するため、最新情報は各公式サイトで確認のこと。特定のモデルや製品の購入・契約を推奨するものではない。

Share