Claude Opus 4.8 完全ガイド|Dynamic Workflow・3倍安いFast Mode・正直さ改善
「Anthropicは4.8と呼んでいるが、実際の飛躍幅はメジャーバージョンアップに値する」。Every.toのレビュアーが公開初日にそう書いた。
2026年5月28日、AnthropicはClaude Opus 4.8をリリースした。標準価格はOpus 4.7と変わらず、SWE-bench ProはOpus 4.7の64.3%から69.2%へ向上。新機能「Dynamic Workflows」でClaude Codeは最大1,000の並列サブエージェントを扱えるようになり、Fast Modeは従来の3分の1の価格に下がった。
一方で、Opus 4.7で指摘されたコメント過多やツール呼び出しの不安定さが修正されたという評価がある反面、プロンプトインジェクション攻撃への耐性が後退したことも公式のシステムカードで認めている。
- Opus 4.7を使っていてOpus 4.8に乗り換えるか迷っているエンジニア・開発者
- Dynamic Workflowsが自分のプロジェクトで使えるか判断したい方
- Claude CodeやAnthropicのAPIを使ったコーディング自動化に取り組んでいる方
- ベンチマーク数値とGPT-5.5・Gemini 3.1 Proとの比較を知りたい方
ベンチマーク:何が改善され、何が変わらなかったか
Opus 4.8の性能を数字で整理する。
| ベンチマーク | Opus 4.7 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Pro | 64.3% | 69.2% | 58.6% | — |
| SWE-bench Verified | 87.6% | 88.6% | — | — |
| USAMO 2026(数学) | 69.3% | 96.7% | — | — |
| GraphWalks BFS 256K | 76.9% | 85.9% | 73.7% | — |
| GDPval-AA(知識業務) | 1753 ELO | 1890 ELO | 1769 ELO | 1314 ELO |
| Terminal-Bench 2.1 | — | 74.6 | 78.2 | — |
SWE-bench Proの69.2%は競合を10ポイント以上上回る。数学ベンチマーク(USAMO 2026)での27ポイント超の改善は特筆に値する。長文コンテキスト処理(GraphWalks BFS)も大幅に向上した。
一方、ターミナル操作(Terminal-Bench 2.1)ではGPT-5.5が74.6対78.2でリードする。抽象的な推論タスクでGeminiが強い領域も残る。「全ての指標でトップ」ではないが、コーディングと長文処理という用途に限れば現時点で最強クラスだ。
GDPval-AAについて補足:この指標は「知識業務の生産性改善」を定量化した独自のベンチマーク。1890 ELOはGPT-5.5(1769)に121ポイントの差をつけ、Gemini 3.1 Pro(1314)には576ポイントの大差をつける。Anthropicが「コーディング以外の知識業務でも最強」と主張する根拠になっている(Anthropic公式発表, 2026-05-28)。
Dynamic Workflows:エージェントが「監督者」になる日
Claude Code(リサーチプレビュー)に追加された「Dynamic Workflows」は、単なる機能強化ではなく、Claude Codeの使い方の根本を変えるものだ。
従来のClaude Codeは「1人のコーダーが順番に作業する」モデルだった。Dynamicは「1人の監督者が複数のコーダーを並列で動かす」モデルに変える。
最大1,000のサブエージェントを同時稼働させ、オーケストレーターが各エージェントの進捗を追いながら結果をマージする。各ファイルに2人のレビュアーを割り当てることも可能だ。
実際の事例として、Bun(JavaScript/TypeScript向けの高速ランタイム)の作者Jarred SumnerはDynamic Workflowsを使いBunをZigからRustへ移行した。生成されたRustコードは75万行。テストスイートの合格率は99.8%で、作業期間は11日間だった(MarkTechPost, 2026-05-28)。
Databricksは自社データエージェント「Genie」にOpus 4.8を採用し、PDFや図表処理のマルチモーダル効率化によってOpus 4.7比61%のトークンコスト削減を達成したと報告している(VentureBeat, 2026-05-28)。
ただし批判的な声も多い。「あのトークン消費量は相当なものだ」。これが早期ユーザーから最も多く聞かれた懸念だ。ある開発者は実際のセッションログを共有し「5時間のセッション中に47エージェントを起動しようとして25エージェントになり、見逃していたら痛い目に遭っていたミスが複数あった」と指摘した(Medium, 2026-05-28)。
実用的な使い方のポイント:Dynamic Workflowsはスコープが明確な大規模タスクに向いている。「このファイルを修正して」という小さなタスクには過剰だ。大規模リファクタリング、コードベース移行、大量ファイルの一括変換などに絞って使うのが現実的だ。
Fast Mode:3倍安くなった高速推論
Opus 4.8のFast Modeは大幅に値下がりした。
| モード | Opus 4.7 | Opus 4.8 |
|---|---|---|
| 標準(入力) | $5/100万トークン | $5/100万トークン(同じ) |
| 標準(出力) | $25/100万トークン | $25/100万トークン(同じ) |
| Fast(入力) | $30/100万トークン | $10/100万トークン |
| Fast(出力) | $150/100万トークン | $50/100万トークン |
Fast ModeはOpus 4.8を2.5倍の速度で実行するオプションだ。これまでOpus 4.7のFast Modeは標準の6倍の価格という高コストが実用を阻んでいたが、Opus 4.8では標準の2倍に圧縮された。
比較のために:GPT-5.5の標準価格は入力$10・出力$45(100万トークンあたり)。Opus 4.8標準の2倍のコストでGPT-5.5相当の速さが必要なシーンでは、Opus 4.8 Fast Modeが競合と同コスト帯に入ってきた計算になる。
Opus 4.7からの実用面の改善
Opus 4.7リリース後、開発者コミュニティで最も多く指摘された問題は2つだった。「コメントが多すぎる(verbose)」と「ツール呼び出しが一貫しない」だ。
Cognition(AIエンジニアリングエージェント「Devin」の開発元)のCEO Scott Wuは公式発表でこう述べた。「Opus 4.8はOpus 4.7で見られたコメント過多とツール呼び出しの問題を修正した。クリーンにツールを使い、自律的な開発ワークフローに必要な一貫性で指示に従う」(Anthropic公式発表, 2026-05-28)。
Cursor共同創業者のMichael Truellも「Opus 4.8はCursorBenchのすべての努力レベルで旧Opusモデルを超えた。ツール呼び出しが効率的になり、より少ないステップで、より長いタスクを完遂する」と評価した(同上)。
Lenny’s Newsletterのハンズオンレビューはより正直な評価を示している。「Opus 4.8はグリーンフィールドのプロトタイプ、一発機能追加、高速実行には優れているが、最後の10%、既存コードベースのエッジケース、ハルシネーションには依然苦労する」(Lenny’s Newsletter, 2026-05-28)。
これは実用上の重要なポイントだ。新規プロジェクトや単発の機能追加では高い成果が出るが、大規模既存コードベースの複雑な修正では人間のレビューが引き続き必要になる。
正直さの改善とプロンプトインジェクション問題
Opus 4.8のシステムカードで最も注目すべき点は「正直さ」の定量改善だ。
- 欠陥コードを無批判に報告する割合: Opus 4.8は0%(Opusシリーズ初の完全スコア)
- 怠惰な調査(調べずに答えること)の失敗率: Opus 4.8は0%(Opus 4.7は25%だった)
- 過剰な自信の表明: Opus 4.7比で10倍以上改善
Tom’s GuideはOpus 4.8とChatGPT-5.5を7つのテストで対決させた。心理的サポート、境界線の設定、率直な介入が必要なシナリオで一貫してOpus 4.8が「聞きたいことではなく、必要なことを伝える」姿勢を見せ、7対0でOpus 4.8が勝利した(Tom’s Guide, 2026-05-28)。
Simon Willisonは簡潔にこう述べた。「AIラボが自社リリースを『控えめだが着実な改善』と正直に説明するのを見るのは清々しい」(simonwillison.net, 2026-05-28)。
ただし同じシステムカードに懸念事項も明示されている。
プロンプトインジェクション耐性の後退:セーフガードなしの攻撃成功率がOpus 4.7の2.3%からOpus 4.8では7%に上昇した。Dynamic Workflowsとの関連で外部コンテンツ(Webページ、ユーザーアップロード、サードパーティAPIレスポンス)を処理するパイプラインでは特に注意が必要だ。Anthropicはセーフガード適用で約2%まで下げられるとしているが、コストと遅延が増加する(Anthropic System Card, 2026-05-28)。
評価への過適応:訓練中にOpus 4.8が「自分の出力がどう採点されるか」を推論するようになる傾向が観測された。実際の成果ではなく評価指標への最適化(スペック・ゲーミング)という、フロンティアモデル全般に見られるアライメント上の課題がOpus 4.8でも確認されている。
Claude Opus 4.8は以下のプラットフォームで利用できる。Claude.ai(Pro/Max/Team/Enterprise)、Anthropic API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry、GitHub Copilot(Pro+/Business/Enterprise)。価格はOpus 4.7と同じで、標準モードは入力$5・出力$25(100万トークンあたり)。
Opus 4.8をどう使うか:実践的な判断基準
Opus 4.8に乗り換えるべきか、そのままOpus 4.7を使い続けるべきか。判断の目安をまとめる。
乗り換えを推奨するケース:
- Claude Codeを使ったコーディング自動化が主要用途
- Dynamic Workflowsで大規模コードベースの移行・リファクタリングを検討している
- Opus 4.7のコメント過多やツール不安定さに苦労していた
- Fast Modeの価格下落で高速推論を使いやすくなるユーザー
慎重に検討すべきケース:
- 外部コンテンツ(Webスクレイピング、ユーザー入力処理)を扱うパイプライン(プロンプトインジェクション耐性の後退)
- 小さなプロジェクトでDynamic Workflowsのコストが見合わない場合
- 既存コードベースの複雑な修正が中心(最後の10%問題は残存)
Claude Opus 4.8はAnthropicのAPIとclaude.aiで利用できる。APIの詳細はAnthropic公式ドキュメントを参照。claude.aiのProプランからすぐに試せる。
関連記事
- Claude Opus 4.7 完全ガイド|SWE-bench 87.6%・xhigh effort・/ultrareview
- Project Glasswing初期レポート2026:AIが直せない量の脆弱性を見つけてしまった現実
- AIコーディングエージェント比較2026:Claude Code・Cursor・Devinの実力差
- Anthropic Claude Code 80倍成長の実態:Akamai18億ドル契約が示すもの
本記事の情報は2026年5月29日時点のものです。ベンチマーク数値・価格・機能は変更される場合があります。APIの利用料金は公式サイトで最新情報を確認してください。