Claude Opus 4.7 完全ガイド|SWE-bench 87.6%・xhigh effort・/ultrareview
- Claude CodeやAnthropicのAPIを日常的に使うエンジニア・開発者
- Opus 4.7の新機能(xhigh・タスクバジェット・/ultrareview)を試したい方
- 最近のClaude性能低下の議論を受けて、Opus 4.7で何が変わったか知りたい方
- Claude Designが自分のワークフローに使えるか判断したい方
「Claudeが頭悪くなった」。4月上旬のRedditやXには、そんな投稿が溢れていた。あるエンジニアが6,852件のClaude Codeセッションファイル、17,871件のthinkingブロック、234,760件のツール呼び出しを分析した結果として「Claude Codeは複雑なエンジニアリング作業に信頼できない水準まで後退した」と告発し、波紋を呼んだ。
Anthropicのボリス・チェルニー(Claude Code責任者)はX上でこれを認め、「ユーザーからのトークン過剰消費の苦情を受け、デフォルト努力レベルをmediumに下げた」と説明した。ただし、この変更はユーザーへの事前告知なしに実施されていた。
そのわずか数日後、AnthropicはClaude Opus 4.7をリリースした。
性能低下の経緯とOpus 4.7の位置づけ
2026年3月3日、AnthropicはClaude Opus 4.6のデフォルト努力レベルを「high」から「medium」へ静かに変更した。mediumは「レイテンシとトークンコストを優先し、推論の深さを抑える」設定だ。
Stella Laurenzo(AMDのAIシニアディレクター)が4月2日にGitHubイシューで公開した分析は、この変更の影響を数値で示した。「reads-per-edit比」、つまり修正前にコードを読む回数が6.6から2.0に急落。AIが下調べをせずに修正に飛びつく「edit-first」な行動パターンへの退行が確認されたという。
Redditでは「Opus 4.7はclaude.aiでは後退だが、Claude Codeでは改善」というスレッドが多数のアップボートを集めた。これは重要な視点だ。Opus 4.7は万能の改善ではなく、コーディング・エージェント用途に特化した強化という位置づけである。
SWE-benchで何が起きたか
Opus 4.7の最大の主張は、ソフトウェアエンジニアリングベンチマークでの大幅な改善だ。
| ベンチマーク | Opus 4.6 | Opus 4.7 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Verified | 80.8% | 87.6% | — | 80.6% |
| SWE-bench Pro | 53.4% | 64.3% | 57.7% | 54.2% |
| CursorBench | 58% | 70% | — | — |
| GPQA Diamond | — | 94.2% | 94.4% | 94.3% |
SWE-bench Proは産業界の実タスクに近い難易度の高いベンチマークで、ここで10.9ポイントの改善は大きい。93タスクの内部コーディングベンチマークでも、Opus 4.6とSonnet 4.6の両方が解けなかった4タスクをOpus 4.7が解いた。
一方で、ウェブリサーチベンチマーク(BrowseComp)ではGPT-5.4(89.3%)に後れを取る(Opus 4.7: 79.3%)。コーディング特化の強化は、別の領域でのトレードオフを伴っている可能性がある。
xhigh努力レベル:精度とコストの制御
Opus 4.7で最も実用的な追加機能がxhigh努力レベルだ。これまでの努力レベルはlow・medium・high・maxの4段階だったが、highとmaxの間にxhighが追加された。
low → medium → high → xhigh(新規)→ max
Anthropicが公開した数値では:
- Opus 4.7 @ xhigh(100Kトークン): 71%
- Opus 4.6 @ max(200Kトークン): これ以下
- Opus 4.7 @ high ≈ Opus 4.6 @ max(同等トークン数)
つまり、Opus 4.7はモデル全体の効率が上がっているため、同じ努力レベルでも旧モデルより少ないトークンで高い性能を出せる。デフォルト努力レベルが「medium」に下げられて怒ったユーザーには、xhighを明示的に指定することで、以前の「max相当」を上回る性能を得られる。
Opus 4.7は新しいトークナイザーを採用しており、コードや構造化データ(JSON/XML等)では同一入力に対して最大35%多くトークンを消費する場合がある。料金は同じ$5/$25/Mだが、実際のコストは想定より高くなる可能性がある。
タスクバジェット(ベータ):エージェントの暴走を防ぐ
長時間のエージェントループで最も怖いのは、予期しないトークン消費だ。デバッグタスクを任せたら数時間後に請求書が届いていた、という経験をしたAPIユーザーは少なくない。
タスクバジェットはこの問題への直接的な回答だ。開発者がAPIでトークン上限(thinking・ツール呼び出し・ツール結果・最終出力の合計)を設定すると、モデルは残りトークンのカウントダウンを参照しながら処理の優先順位をつけ、予算到達時にグレースフルに終了する。途中で突然切れるのではなく、「残りわずかなので最重要作業に集中する」という動作をする。
仕組みとしては、APIでエージェントループ全体のトークン上限を指定すると、モデルが残量を把握しながら作業優先度を決める。上限に達したとき途中で強制終了するのではなく「残りわずかだから最重要作業に集中する」という適応的な行動をとる。
現在はベータ扱いで、正式な仕様は変更される可能性がある。詳細はAnthropic公式ドキュメントを確認してほしい。エージェントをプロダクションで使うチームにとっては最優先で試すべき機能だ。
/ultrareview:4エージェント並列コードレビュー
Claude Codeに追加された/ultrareviewコマンドは、コードレビューの質を一段引き上げる可能性がある。
/ultrareview
これだけで、セキュリティ・ロジック・パフォーマンス・スタイルの4専門エージェントが差分を並列で読み込み、互いに独立してバグを検証する。ローカルの/reviewと異なり、各エージェントが独立して所見を持ち寄るため、「見落としの見落とし」が起きにくい。
r/ClaudeCodeでは「マージ前の最終確認として価値がある」という評価が多い一方、5〜10分かかるため「毎回使うものではない」という声も上がっている。バックグラウンドタスクとして走るため、レビュー中も別の作業を続けられる。
Claude Pro/Maxユーザーには月3回の無料枠がある。それ以降はコードサイズに応じて1回あたり5〜20ドル程度。大規模なPRレビューや、重要リリース前の最終確認用途が現実的な使い方だ。
ビジョン強化:画像3.75メガピクセルで設計図が読める
Opus 4.7では画像認識の解像度上限が大幅に引き上げられた。
- Opus 4.6: 最大1,568px / 1.15メガピクセル
- Opus 4.7: 最大2,576px / 3.75メガピクセル
この変化が実務に直結するのは、ERD(エンティティ関係図)や回路基板の設計図、スプレッドシートのスクリーンショットなど、細部の読み取りが重要な画像だ。従来は高解像度画像を拡大・分割して渡す手間が必要だったが、Opus 4.7では多くのケースでそのまま渡せる。
ただしトレードオフもある。高解像度画像は最大4,784トークンを消費し(低解像度は1,600トークン)、コストが3倍近くになる。大量の画像を処理するパイプラインでは事前に解像度を検討すること。
Claude Design:Opus 4.7が動かすデザインツール
同日、AnthropicはOpus 4.7を基盤としたClaude Designも発表した。テキストプロンプトからスライド・プロトタイプ・ワンページャー・マーケティング素材を生成するツールだ。
対応する入力形式は幅広い。テキストプロンプトのほか、DOCX・PPTX・XLSXのアップロード、URLからのウェブキャプチャ、コードベースの読み込みに対応する。チームのデザインシステムをファイルとして渡せば、生成物のスタイルを統一できる。
出力形式も実用的だ:PDF、URL、PPTX(PowerPoint)、HTML、そしてCanvaへの直接エクスポートに対応する。
市場の反応は即座だった。Figmaの株価はClaude Design発表当日に6.8〜7.28%下落し、18.84ドルで引けた。AnthropicのCPO Mike Kriegerが4月14日にFigmaの取締役会から静かに退いていたという事実も、後から明らかになっている。
利用できるのはClaude Pro、Max、Team、Enterpriseの各プランのみ(リサーチプレビュー)。
料金・APIモデルID・利用可能なプラットフォーム
料金
| 項目 | 料金 |
|---|---|
| 入力 | $5 / 100万トークン |
| 出力 | $25 / 100万トークン |
| プロンプトキャッシュ | 最大90%削減 |
| バッチ処理 | 50%削減 |
Opus 4.6から価格変更なし。ただし新トークナイザーによりコード・JSON等のトークン数が増加する点は注意が必要だ。
APIモデルID
claude-opus-4-7
利用可能なプラットフォーム
- claude.ai: Pro/Max/Team/Enterprise
- Anthropic API:
claude-opus-4-7 - Amazon Bedrock:
anthropic.claude-opus-4-7-v1:0 - Google Cloud Vertex AI:
claude-opus-4-7@20260416 - Microsoft Foundry: Azure AI Foundryカタログ経由
- GitHub Copilot: Pro+/Business/Enterprise(4月30日まで7.5倍のプレミアム消費)
PMとしての評価:光と影
光の面: Opus 4.7のコーディング強化は本物だ。SWE-bench Proの10.9ポイント改善は、同じタスクを渡したとき実際に解決率が上がることを意味する。xhigh努力レベルの追加で、ユーザーは「どれだけ頑張らせるか」を以前より細かく制御できるようになった。タスクバジェットは、エージェントを本番で使うあらゆるチームが欲しかった安全弁だ。
影の面: Redditでは「claude.aiでは後退」という評価も多い。コーディング以外の一般用途では、改善が実感しにくいケースが報告されている。新しいトークナイザーはコードを含む入力のコストを実質的に引き上げる。そして、今回のアップデートが「性能低下問題への直接的な回答」かと問われると、一部のユーザーにとっては別途努力レベルを明示的に設定するという手間が残る。
透明性の問題については、Anthropicは今回の発表で詳細な技術ドキュメントと変更点を公開した。以前の「静かな変更」との対照は明らかだ。
- API呼び出しの努力レベル確認: 現在「medium」になっていないか確認。コーディング用途なら「high」または「xhigh」を明示
- トークンコスト試算: 新トークナイザーの影響でコードが多い入力は試算を見直す
- タスクバジェット設定: エージェントワークフローにはベータ機能を今すぐ試す
- /ultrareview: 重要PRのマージ前に月3回の無料枠を活用
- Bedrock/Vertex利用者: モデルIDの更新を忘れずに
Claude Opus 4.7を試す(Anthropic公式)
関連記事:
- Claude Code 4月アップデート完全ガイド(/powerup・MCP 500K)
- Claude Sonnet 4.6 レビュー
- Claude Agent SDK完全ガイド
- MCP実践ガイド 2026
- Anthropic完全ガイド 2026
※本記事の情報は2026年4月18日時点の筆者調査に基づく。ベンチマーク数値・料金・機能仕様はAnthropicの公式発表およびリリースノートに基づいているが、予告なく変更される場合がある。最新情報はAnthropic公式サイトを確認してほしい。