メインコンテンツへスキップ
AI News 17分で読める

Claude Opus 4.7 レビュー:SWE-bench 87.6%の実力と2300票「退化」批判の真相

「Opus 4.7 is not an upgrade but a serious regression」。2026年4月16日のリリース直後、このタイトルのRedditスレッドに約2300票が集まった。同時期、別スレッド「Gaslightus 4.7」も1700票を超え、Hacker Newsには674ポイント470コメントの議論が立った。

それとまったく逆の評価もある。Rakuteは「本番タスク解決率が4.6比3倍」と発表し、CursorのベンチマークはSWE-bench Verified 87.6%という過去最高スコアを記録した。

どちらも事実だ。Claude Opus 4.7 は特定用途で本物の進化を遂げた一方、別の用途では確実に後退している。そして「価格は据え置き」という発表の陰で、実質的なコスト増が静かに進行している。この記事では炎上の原因を整理し、移行すべきかどうかの判断材料を示す。

この記事はこんな人におすすめ
  • Claude Code を日常的に使っているエンジニア
  • Anthropic API(Opus 4.6)を使っているプロダクトチームの開発者
  • Claude Opus 4.7 への移行を検討中で、コストと品質の変化が気になる方

コーディング性能は本物だ:ベンチマークが示す事実

Anthropicは4月16日、Claude Opus 4.7を「これまでで最も有能な汎用モデル」(Anthropic社の主張)として発表した。コーディングベンチマークの数字は、その主張を一定程度裏付けている。

ベンチマークOpus 4.6Opus 4.7差分
SWE-bench Verified80.8%87.6%+6.8pp
SWE-bench Pro53.4%64.3%+10.9pp
CursorBench58%70%+12pp
GPQA Diamond91.3%94.2%+2.9pp

SWE-bench Pro(実際のGitHubイシューを解決するタスク)での10.9ポイント増は、1バージョンアップとしては異例の幅だ(出典:Vellum AI)。

企業パートナーからの報告も一致している。Rakuteは「本番タスク解決率が4.6比3倍」、CodeRabbitは「リコールが10%以上向上し、検出困難なバグの発見精度が上がった」、Notion AIは「エージェントエラー率が4.6の3分の1に」とそれぞれ発表した(Anthropic公式)。

新機能として注目すべきは xhigh effortレベル(highとmaxの中間に追加された新思考深度設定)の追加だ。このレベルは、Claude Codeのデフォルト設定に採用された。公式ドキュメントによれば「xhigh at 100kトークンはOpus 4.6のmax at 200kトークンを上回る」とされており、同等の品質をより低コストで実現できる可能性がある。

また画像解析の最大解像度が1568px(1.15MP)から**2576px(3.75MP)**に拡大した。コンピュータ操作、スクリーンショット分析、設計書の読み取り精度が向上し、ピクセル座標がスケール計算不要の1:1対応になった。

コーディング用途でのアップグレードを試みたエンジニアの声は概して好意的だ。製品ストラテジストのPaweł Hurynは「16時間使ってみて確信した。4.7は4.6より高性能だが、大半のユーザーが4.6向けのプロンプトのまま使っている」とXに投稿した(出典)。Claude Codeの実践的な活用法はこちらで詳しく解説している。

「退化した」という批判はどこから来るのか

コーディングベンチマークが最高値を更新する一方で、なぜこれほどの反発が生まれたのか。

GitHub上のIssue #50235に投稿したユーザー@tomtokitajrの言葉が症状を端的に示している。

「4.7は4.6と比べて頻繁にハルシネーションを起こす。ルールファイルやCLAUDE.mdを無視して、薄い情報から推測で動く。トークンを大量に消費しながら較正作業が続いており、ユーザーにとってはネット・マイナスだ」(GitHub issue #50235、2026年4月18日)

Xユーザーの@xw33bttv(Lex)はより辛辣に表現した。「Claude Codeのコミュニティは今、Redditで4.7を”伝説的な失敗作”と呼んでいる。主な不満はモデルが自分の誤りを認めた直後に同じ誤りを繰り返し、幻覚した状態で主張し続けること」(出典)。

HNのスレッドでは匿名ユーザーが「4.7は4.6の劣化版をトークナイザー変更でカモフラージュした新モデルであり、実質的な値上げだ」とまとめた(HN #47816960、674ポイント)。

批判は大きく2パターンに分類できる。

パターンA:汎用会話の劣化 4.6で動いていた一般的な指示への応答が、4.7ではより「文字通り」かつ「主張的」になった。「より自信をもって誤る」という表現が複数のスレッドで使われた。DataCampのベンチマークによれば、メモリ機能を使うとhigh effortで-3.3pt、xhigh effortで-12.3ptの性能低下が観測されており、直感に反する結果が出ている(出典)。

パターンB:プロンプト感度の変化 4.6向けに最適化されたプロンプトが4.7では期待どおりに動かない。Anthropicが公式ドキュメントに記載した挙動変更(より直接的なトーン、ツール呼び出し回数の減少、サブエージェント生成の抑制)は、既存ワークフローのリライトを要求する。

Claude Code Lead のBoris ChernyはXで「Opus 4.7は思考トークンを多く使うため、全サブスクライバーのレート制限を引き上げた」と回答した(出典)。しかしこの説明は「なぜ汎用的な会話が悪化したのか」への回答にはなっていない。

「価格据え置き」の裏で何が起きているか

炎上のもう一つの震源は料金だ。Anthropicは「$5/$25 per MTok」という単価を維持した。しかし新しいトークナイザーが同じテキストで消費するトークン数を増やしており、実質的な支払い額は増加する。

Anthropicは公式ドキュメントに以下を明記している。

「Opus 4.7は新しいトークナイザーを使用しており、同じテキストで最大35%多くトークンを消費する可能性があります(1.0x〜1.35x、内容により異なる)」

しかし実測値はこの上限を超えることがある。claudecodecamp.comの独立計測では、技術文書で47%増、CLAUDE.mdファイルで45%増というデータが出た。日本語テキストは構造上トークナイザーの負荷が高いカテゴリに属し、上限付近のコスト増が予想される。

より問題になったのはGitHub Copilotの請求変更だ。4.6では1回のClaude利用が「3プレミアムリクエスト」として計算されていたが、4.7のリリース直後は「7.5プレミアムリクエスト」、さらに4月30日以降は15プレミアムリクエストに引き上げられた。4.6比で5倍の請求増となり、GitHub Copilotコミュニティ #192814 には多数の抗議が集まった。

ユーザー@HeDo88THは「7.5倍は絶対に理不尽。価値がまったくなくなった」と投稿した(当時)。@Depot404は「技術的変化から計算すれば3×1.35≈4倍が妥当。7.5倍との乖離は説明がつかない」と指摘した(GitHub Community #192814)。その後の15倍への引き上げは、批判をさらに増幅させた。

実際の対策として、GitHubのユーザーyurukusaが「settings.jsonに "code_gen_effort": "medium" を追加することでCC支出を30〜40%削減できた」という回避策を公開し、広く参照された(GitHub Gist)。

移行前に必ず確認すべき破壊的変更

コスト問題とは別に、コードレベルで即座に動作しなくなる変更がある。Anthropicは公式ドキュメントで以下を「破壊的変更」として明記している(出典)。

HTTP 400エラーになるパラメータ:

  • temperaturetop_ptop_k をデフォルト以外の値に設定
  • thinking: {"type": "enabled", "budget_tokens": N} 形式の拡張思考設定

対処法はシンプルだ。これらのパラメータを削除してAPIを呼び出す。挙動の調整は今後パラメータではなくプロンプトで行う設計に変わっている。

その他の変更:

  • プロンプトキャッシュは4.6→4.7の切り替え時に全無効化される。4.7のトークナイザーは4.6より大きな接頭辞を書き込むため、移行直後のコールドスタートコスト(キャッシュ無効後の初回推論コスト)は想定以上になる可能性がある
  • thinkingコンテンツはデフォルトでレスポンスから省略される。ストリーミングUIで「考え中」表示が消えた場合は display: "summarized" を追加する
  • budget_tokens による思考量の固定指定は廃止。アダプティブ思考(モデルが自律的に思考量を決める)のみとなった

結局、どう判断すべきか

用途別に整理する。

移行を推奨する場合: コーディングエージェント、長時間の自律タスク、高解像度の画像解析を主用途とするユーザー。SWE-bench ProとCursorBenchの数字は実用的な意味を持ち、Anthropic公式発表によればRakuteは「本番タスク解決率3倍」と報告している。

慎重に評価すべき場合: 一般的な会話、ドキュメント作成、汎用Q&Aを主用途とするユーザー。4.6で動いていたプロンプトを4.7でテストし、品質が維持されることを確認してから移行する。

コスト先決の場合: GitHub Copilotを使っているチームは現在15倍換算の影響を試算する(あくまで参考であり、導入判断は各組織の要件に基づいてほしい)。日本語テキスト中心のシステムプロンプトを持つAPIユーザーはトークン増加の影響が大きい可能性があるため、/v1/messages/count_tokens(Anthropic APIのトークン数確認エンドポイント)で4.6と4.7を比較計測してから判断するとよい。

Anthropicは4月23日、品質への批判に対する事後報告書を公開した。問題を認識していることは評価できる。一方で、破壊的変更の多さとトークナイザー変更の非透明な発表は、プロダクションで使うユーザーへの配慮が足りなかったと言わざるを得ない。まず count_tokens で自分のシステムプロンプトの影響を測るところから始めよう。Anthropicの最新戦略についてはこちらも参照されたい

コスト試算の手順

移行前に POST /v1/messages/count_tokens でモデルを claude-opus-4-6claude-opus-4-7 に切り替えて同じプロンプトのトークン数を比較する。差分が20%を超える場合はシステムプロンプトの最適化を先に行うとよい。

Claude Codeを使い倒している方へ

当ブログではClaudeやAIコーディングツールの実用的な評価を継続的に発信しています。新着記事はRSSまたはXでフォローしてください。

詳しく見る

関連記事


本記事の情報は2026年5月11日時点のものです。価格・仕様は変更される場合があります。投資・導入判断は公式ドキュメントおよび自社環境でのテストに基づいて行ってください。本記事に含まれるユーザー報告値(Reddit投票数、GitHub投稿等)は各原著者による自己申告であり、独立した第三者検証は行っていません。本記事の著者はAnthropicおよび関連企業と利害関係はありません。

Share