メインコンテンツへスキップ
AI News 27分で読める

Claude Opus 4.7のコスト実態|価格据え置きでも実質35%増えるトークン課金の正体

「単価は同じ。なのに月末の請求額が30%増えていた」。Claude Code CampのAbhishek Rayが、Opus 4.7に切り替えたエンジニアから受け取ったDMをそう要約している。

2026年4月16日、AnthropicはClaude Opus 4.7を一般公開した。SWE-bench Verifiedは80.8%から87.6%へ約7ポイント上昇、同ベンチマークではGemini 3.1 Proを上回って首位に返り咲いた(Vellumのまとめ)。価格は据え置き、$5/$25。

ところが、料金表に書かれていない変更点が一つある。新しいトークナイザだ。これが「単価据え置き」の言葉を額面通りに受け取れない理由になっている。

PMとしてAPIコスト管理の責任を負っている立場から、Opus 4.7の実態を整理する。

この記事はこんな人におすすめ
  • Claude Opus 4.7への移行を検討中のエンジニア・PM
  • API課金が気になるフリーランス・スタートアップ
  • 「単価据え置き」の意味を実態ベースで知りたい方
  • コーディング用途での乗り換え判断を迷っている方

まず数字で見るOpus 4.7

Anthropicが公式発表した主要ベンチマークと変更点を並べる。

項目Opus 4.6Opus 4.7
SWE-bench Verified(実コードのバグ修正成功率)80.8%87.6%
GPQA Diamond(博士レベル理系問題正答率)非公開94.2%
Terminal-Bench 2.0(ターミナル操作タスク)非公開69.4%
Finance Agent(金融エージェントタスク)非公開64.4%(SOTA)
入力料金$5 / 1M tokens$5 / 1M tokens
出力料金$25 / 1M tokens$25 / 1M tokens
画像入力長辺旧モデル基準2,576 px(旧モデル比3倍超)
エフォート設定high / maxhigh / xhigh / max

ベンチマーク上の改善は明確だ。とくにSWE-bench Verifiedの87.6%は、Geminiを抜き返した数字として広く報じられている(出典: Vellum)。

新設のxhighエフォートは、highmaxの中間に位置する設定だ。難問でレイテンシと深さのバランスを取りたい場面に使える。AnthropicのBoris Cherny(Claude Code担当)はThreadsで「より自律的で精密、長時間タスクで顕著に改善した」と述べている。

ここまでだけ見れば、純粋にいいニュースに見える。問題はトークナイザ側にある。

トークナイザが35%膨張する仕組み

AnthropicはOpus 4.7ドキュメントで、新モデルが「同じテキストに対して最大1.35倍のトークンを生成し得る」と注記している。単価は変わらないが、課金単位の数え方が変わったということだ。

OpenRouterのJustin Summervilleが実測した結果はこうだ。

  • ネイティブトークン膨張率: 32〜45%増
  • 実コスト影響: 12〜27%増
  • 短プロンプト(2K未満): 1.6%安くなる場合あり
  • コード・構造化データ(JSON、XML): 上限の35%付近に張り付く
  • 英文プロセ・日本語: 比較的影響が小さい
  • 長コンテキスト(128K以上): プロンプトキャッシュが93%吸収するためコスト増は限定的

Claude Code CampのAbhishek Rayはさらに踏み込んだ計測を示している。同氏の計測ではCLAUDE.mdファイルで44.5%増、テクニカルドキュメントで47%増という値も報告されており、Anthropic公式の「最大1.35倍」を超えるケースもあるとされる(個人計測ベースのため再現性は要検証)。80ターン規模のClaude Codeセッションでは、料金が$6.65から$7.86〜$8.76に変動し、20〜30%のコスト増がセッション単位で観測された。

具体的に肌感を出すと、月10万円相当(おおよそ$650)のOpus 4.6利用者がそのままOpus 4.7に切り替えた場合、12〜27%増の換算で月額は約11.2〜12.7万円に膨らむ計算になる。プロンプトキャッシュやプロンプト構成次第で増加幅は変わるが、年間で考えると無視できる差ではない。

ここで起きていることを翻訳すると、こうなる。

  • 公式単価表: 変わらない
  • 1リクエストの実トークン数: 増える
  • 1リクエストの請求額: 増える
  • ベンチマーク値: 改善する

「単価据え置き」と「請求額据え置き」が一致しなくなったのが、Opus 4.7の本当の経済的特徴だ。GitHubのCopilot関連ディスカッション#192814でも、Opus 4.7の請求倍率設定を巡って議論が起きている。

賛否で割れた評価:3つの典型ケース

リリース48時間で、Reddit・Hacker News・Xの評価は明確に割れた。Botmonster Techがまとめている通り、「コーディングは賞賛、創作は失望、コストは不満」というパターンに収束している。

ケース1: 自律コーディングは確かに進化した

Zennでソウシュ氏はこう書いている。

「本番のエージェント運用ではタスク予算機能を待っていた。自律実行を管理する上で、これは現実の痛みに刺さる」

QiitaのYukurash氏は30タスクの比較計測で、Opus 4.7の総合スコアが+0.132、コーディングスコアが0.80→1.00、レイテンシは35%短縮したと報告している。

Anthropic公式の主張、すなわち「マルチステップのコーディングワークフローでタスク放棄率が60%減った」とおおむね整合する数字だ。

ケース2: ワンショット率は下がっている

Hacker NewsでagentsealはOpus 4.6との直接比較データを投下している。

「4.7は4.6より一発で正解する確率が低い。ワンショット成功率は83.8%から74.5%へ下落。コーディングのワンショットは84.7%から75.4%へ。1コールあたりコストは$0.112から$0.185になった」

同じスレッドのmuzaniは「4.6では選択肢のうち2つは妥当だった。4.7は全部ダメだった」と書いている。Reddit r/ClaudeAIで2,300upvoteを集めたとされる投稿「Opus 4.7 is not an upgrade but a serious regression」を、XlorkのAbhilashが二次的に分析している(一次ソースであるReddit原投稿のリンクは記事中に明示されていないため、ここではXlorkの分析として参照する)。同分析にはスペルミス、履歴書の幻覚、誤検知のマルウェアフラグといった具体的な不具合報告が並ぶ。

Anthropic自身が公表する「マルチステップのコーディングワークフローでタスク放棄率が60%減少」という数字と、agentsealの「ワンショット率が下がった」という個別計測は、一見矛盾するように見える。実際には測定対象が異なる可能性が高く、長時間自律タスクでは改善し、短時間ワンショットタスクでは退化したと読むのが自然だ。Anthropic公式の効果が出やすいのはエージェント的に長く走るユースケース、個別ユーザーの体感を悪くしているのは1〜2ターンで済む短い質問、と整理しておきたい。

ケース3: 「曖昧さ税」と過剰なフォーマット

MindStudioのレビューが指摘するのは、Opus 4.7が指示に「リテラル」になったことだ。曖昧なプロンプトを暗黙に補完する4.6の挙動が薄れ、ユーザーがプロンプト精度を上げないと使いこなせなくなった。Anthropic自身が移行ガイドで「指示への忠実度が上がった結果、4.6で動いていたプロンプトが想定外の出力を返す可能性がある」と認めている。

創作領域では「会話の温度」が下がったとの指摘が多い。過剰なヘッダ、過剰な箇条書き、冷たいトーン。これはGPT系との差別化要素だっただけに、不満の声が目立つ。

光と影をまとめると、こうだ。

  • : 難解な多段コーディング、長時間自律実行、視覚処理(最長辺2,576pxまで)、xhighによるエフォート制御
  • : ワンショット率の低下、創作・会話の温度低下、リテラルすぎる指示解釈、トークナイザ膨張

PMとしての判断基準:ユースケース別の損得

ここから「電脳狐影ならどう判断するか」を書く。エンジニアではなくPMの視点なので、コードの細部ではなく「組織として導入するときに何を測るか」の話だ。

個人開発者・小規模チーム:用途で判断

フリーランスや小規模チームの場合、月のClaude支出を一度で全切り替えするのはリスクが高い。1〜2週間だけ4.7を試し、リトライ回数とトークン消費を実測したうえで、4.6か4.7かを使い分ける運用が現実的だ。コスト感覚としては前述の通り、月10万円ユーザーで11.2〜12.7万円の幅と捉えておくのが安全圏になる。

コーディング主体のチーム:移行価値が出やすい

SWE-bench Verifiedの7ポイント差は、PMから見れば「タスクのリトライ回数が減る」シグナルになる可能性がある。トークン膨張で1回あたりのコストが上がっても、リトライが減れば総コストは下がる場合がある。長時間自律タスクが主戦場なら4.7、短時間ワンショット主体なら4.6維持のほうが経済合理的になり得るというのが大枠の判断だ。

判断材料としてClaude Code 2026年大型アップデートまとめで扱った自律実行系の機能と組み合わせて検証することを勧めたい。

軽量タスク主体ならOpus 4.6に留まる選択肢が現実的

短いプロンプトはOpus 4.7のほうが1.6%安くなるという計測もあるが、出力長が伸びる傾向もあるので一概に得とは言えない。ライティング、要約、対話ボット、Q&Aといった軽量タスク主体のチームは、しばらくOpus 4.6を維持して様子を見るのが妥当だ。Anthropicの料金体系全体はClaude API 2026年4月アップデートで扱った内容から大きく変わっていない。

個人利用ならClaude Pro/Maxの容量制限が先に効く

API直叩きではなくClaude Pro/Maxプランで使う場合、Opus 4.7は同じ「リクエスト枠」を消費する。トークン膨張は表面化しないが、内部的には1リクエストあたりの計算量が増えるため、ピーク時間帯の制限に引っかかりやすくなる可能性はある。Claude Pro契約は本当に得かClaude使用量制限とピーク時間帯の実態に書いた通り、サブスク勢はAPI勢とは別の指標で評価したほうがいい。

プロンプトキャッシュを使えば膨張は緩和できる

OpenRouterの計測で、128K以上のコンテキストでは追加トークンの93%がキャッシュにヒットしたと報告されている。長文ドキュメントを繰り返し参照するエージェントなら、キャッシュ設定を明示するだけでコスト増の大半を打ち消せる可能性がある。具体的なAPI設計はClaude Code 2026年大型アップデートまとめMCP実践ガイドを参照してほしい。

Info

Claude Opus 4.7主要スペック(Anthropic公式発表値)

  • SWE-bench Verified: 87.6%(Opus 4.6: 80.8%)
  • GPQA Diamond: 94.2%
  • Terminal-Bench 2.0: 69.4%
  • Finance Agent: 64.4%(state-of-the-art)
  • 画像入力: 最長辺2,576px(旧モデル比3倍超)
  • エフォート設定: high / xhigh / max
  • API料金: 入力 $5 / 出力 $25(100万トークンあたり、USD建て・税別、Opus 4.6から据え置き)
  • トークナイザ: 同じテキストで最大1.35倍のトークンを生成(Anthropic公式注記)

過去のOpus 4.6評価についてはClaude Opus 4.6がクヌースのグラフ理論未解決問題を解いた件、競合との比較はGPT-5.4 vs Claude Opus 4.6、Anthropic全体像はAnthropic完全ガイドを参照してほしい。

移行前にやっておきたい3つの計測

実務的な話に戻す。Opus 4.7導入前に必ず計測しておきたい指標を3つ挙げる。

1. ピークプロンプトのトークン膨張率

頻繁に使うCLAUDE.mdやシステムプロンプトを、AnthropicのトークンカウントAPIで4.6と4.7それぞれのトークナイザで計算する。Simon Willisonがトークンカウントツールを公開しているので、これを使うと早い。コード・JSON系プロンプトなら30%超の膨張が珍しくない。

2. 直近1ヶ月の使用パターンの再現テスト

直近で実施した代表的なタスク(バグ修正、機能追加、ドキュメント生成、コードレビュー)を、4.6と4.7で同条件実行して比較する。トークン数とリトライ回数を両方記録するのが鉄則だ。リトライ回数が3割以上減るなら、トークン膨張を払う価値がある。

3. プロンプトキャッシュの有効率

長文コンテキストを使うエージェントなら、キャッシュヒット率が低い状態でいきなり4.7に切り替えると、追加コストをまるごと吸う羽目になる。先にキャッシュ設定を整え、ヒット率80%以上を確認してから切り替える順番が安全だ。

結論:4.7は「条件付きで強い」モデル

整理する。

評価できる点:

  • SWE-bench Verifiedで87.6%、難解コーディング・長時間自律実行は確かに強化された
  • 画像入力の解像度3倍超、xhighエフォート追加、長コンテキスト処理の安定化
  • 公式単価据え置きという「形式上の据え置き」は守られた

注意すべき点:

  • 新トークナイザでコード・構造化データのトークン数が最大35%増える
  • ワンショット率や曖昧プロンプト処理など、特定指標で退化が観測されている
  • 創作・会話用途では「温度低下」を指摘する声が多い

PMとしての結論は「コーディング主軸のチームは速やかに移行、軽量タスク主軸のチームはしばらく4.6で様子見、いずれにしても切り替え前にトークン膨張率とリトライ削減効果を必ず計測する」だ。AIの仕組みを踏まえてベンチマーク数字をどう読むかはAIの仕組み完全ガイドで解説しているが、ベンチマーク改善が即コスト改善にならない事例として、Opus 4.7は今後の参照点になりそうだ。

「単価据え置き」と書いてある料金表を見て安心するのではなく、自分のワークロードで実コストを測る。それが2026年5月時点でAPI課金を読む正しい姿勢だと考える。月10万円規模で使っているフリーランスなら、まず1週間4.7を試して請求額を比較する。それだけで判断材料は十分そろう。

Claude Opus 4.7やAnthropicの最新動向は引き続き追いかけて発信する。Anthropicの企業背景や戦略はAnthropic完全ガイド、料金プラン全体はClaude Pro契約は本当に得かで扱っている。and-and.devの記事更新はXアカウント @dennoukoei_pdm でお知らせしている。

詳しく見る

免責事項: 本記事は2026年5月3日時点の公開情報および第三者の計測データに基づく。Anthropicが公表しているベンチマーク値、API料金、トークナイザ仕様は予告なく変更される場合がある。本記事に引用した第三者のコメントおよび計測値は各発信者個人の見解・実測であり、当サイトが内容の正確性を保証するものではない。本記事は特定の製品・サービスの導入・契約を推奨するものではない。

主な出典:

Share