メインコンテンツへスキップ
AI News 18分で読める

Claude Fable 5公開: SWE-Bench 80.3%の実力とガードレール論争

「まさに、バージョン番号が変わるに値するステップチェンジだ」。元OpenAI/TeslaのAI研究者Andrej Karpathyは2026年6月9日のXへの投稿でそう述べた(出典)。一方、開発者コミュニティでは「Ferrariに時速30マイルのリミッターを付けて売りに出した」という比喩も広まっている。セーフガードの制限に触れたエンジニアたちの反応だ。

Anthropicは同日、Claude Fable 5を一般公開した(TechCrunch)。SWE-Bench Proで80.3%を達成し、Opus 4.8(69.2%)を11ポイント、GPT-5.5(58.6%)を21ポイント上回る現時点最高スコアを記録した。価格はAPIで入力$10/出力$50(百万トークンあたり)とOpus 4.8の2倍に設定されている。

この記事はこんな人におすすめ
  • Claude Pro/Max/TeamプランでFable 5の無料試用(〜6月22日)を検討しているユーザー
  • Opus 4.8からFable 5への移行コストを見積もりたいAPIエンジニア
  • 大規模コードベース移行や長時間エージェント型コーディングを検討している開発チーム

Fable 5とMythos 5の正体: 同一モデル、2つの顔

Fable 5とMythos 5は別物ではない。同一の基盤モデルに対するアクセス層の違いだ。Anthropicの公式ドキュメントによると、両者は同じモデル重みを持ち、能力の上限も同じだ(公式API docs)。差異はその上に乗っている安全性分類器の有無に集約される。

Claude Fable 5Claude Mythos 5
基盤モデル同一同一
一般公開✓(API、Copilot等)✗(Project Glasswing限定)
サイバーセキュリティ能力ブロック→Opus 4.8完全解放
生物・化学系能力ブロック→Opus 4.8研究目的で解放
データ保持30日必須30日必須

この分割の直接の引き金は2026年4月の出来事だ。Mythos PreviewがFirefoxのコードベースを単独で解析し、271件のコード欠陥を自律的に発見した(SecurityWeek)。Mozillaは翌月のFirefox 150で40件超のCVEを修正した。「271件のゼロデイ」という表現が広まっているが、正確には271件中40件超がCVEとして修正されており、Claudeが公式に信用されたCVEは3件だ。それでも単一の評価パスで脆弱性を大量発見したという事実は政府・業界に衝撃を与え、Anthropicは無制限公開を見送った。

詳細はClaude Mythos PreviewとProject Glasswingの概要を参照。

ベンチマーク: SWE-Bench Pro 80.3%が示すもの

SWE-Bench Proは実際のGitHubリポジトリのバグ修正・機能追加タスクをAIが自律的に解決できるかを測る業界標準だ。「人間のエンジニアが書いたコードベースに対し、どれだけ意味のある変更を加えられるか」という実用的な能力に近い指標で、合成ベンチマークよりも現場での実力を反映しやすい。

ベンチマークClaude Fable 5Claude Opus 4.8GPT-5.5
SWE-Bench Pro80.3%69.2%58.6%
SWE-Bench Verified95.0%88.6%82.6%
FrontierCode Diamond29.3%13.4%5.7%
GDPval-AA(知識業務)193218901769

(出典: BenchLM.aiDigitalApplied

最も差が大きいのはFrontierCode Diamondだ。Opus 4.8の13.4%に対し29.3%と倍以上のスコアを出している。Cognitionが用意した最難度のコーディングタスクで、複雑さが増すほどFable 5の優位性が広がる傾向がある。

ReplitのMatt Colyer製品ディレクターは「テストしたClaude系モデルで最高の結果で、Opus 4.8より少ないトークンでアプリを構築できる」と述べた(出典)。vibe-codingプラットフォームBase44も「フルアプリのワンショット生成がはるかに深く、精度が高い」と評価している。Anthropicが示したStripeの事例では、5,000万行規模のRubyコードベース移行を1日で完了したと報告されているが、この数値はAnthropicのマーケティング素材に基づくものであり、現時点で独立した検証は確認できていない点に留意が必要だ。

料金$10/$50の現実: いつ割に合うか

Fable 5の価格はAPIで入力$10/出力$50(百万トークンあたり)。Opus 4.8($5/$25)の2倍、GPT-5.5($5/$30)と比較しても入力は2倍、出力は約1.7倍高い。

モデル入力(/1Mトークン)出力(/1Mトークン)
Claude Fable 5$10$50
Claude Opus 4.8$5$25
GPT-5.5$5$30
Fable 5(バッチAPI)$5$25

(出典: Anthropic API docsOpenAI pricing

注意点はアダプティブシンキングが常時オンであることだ。複雑なセッションでは推論トークンが追加発生し、1セッションで50万〜100万トークンを消費するケースが報告されている。表示価格より実効コストが高くなりやすい構造だ。

楽天は「Fable 5は最高努力モードで自分の作業を検証するため、追加の思考コストは自己回収する」と述べている(出典)。高価値な1回のパスで完了できるなら、安価なモデルを複数回試行するより総コストが低くなる場面もある。ただしベンチマーク上の優位性と比較してコスト差は小さくない。バッチAPI(非同期処理)を使えばFable 5の価格はOpus 4.8の通常料金と同水準($5/$25)まで下がる。急がない大規模バッチ処理では有効なコスト削減策になる。

Pro/Max/Teamプランでは6月22日まで追加費用なしで試用できる。6月23日以降はUsage Creditsが必要になる。claude.aiのサブスクリプション内でFable 5を使うと、他のモデルより2倍のレートでクレジットが消費される点も確認しておきたい。

ガードレールの実態: 「Ferrariに30mphリミッター」の意味

Fable 5には4カテゴリに対するハードな制限がある。サイバーセキュリティ(攻撃技法)、生物(生物兵器関連)、化学(化学兵器関連)、モデル蒸留だ。これらに触れるリクエストはFable 5で処理されず、自動的にOpus 4.8にフォールバックする(公式API docs)。

開発者コミュニティで広まっている批判の本質は、フォールバックが無言で起きる点にある。APIはstop_reason: "refusal"としてHTTP 200を返すだけで、なぜモデルが切り替わったかをユーザーに十分説明しない。Anthropicのヘルプセンターにはモデル切り替えの説明記事が存在するが(出典)、通知の粒度は荒い。

Anthropicが公表したデータによると、フォールバックが発生するのは全セッションの5%未満だ。ローンチ当日の分類器は保守的にチューニングされており、無害なリクエストへの誤適用も起きている。Anthropicは時間をかけて誤検知を減らすと述べている。Palo Alto NetworksのCPTO Lee Klarichは「6ヶ月以内に、深いサイバーセキュリティ能力を持つ高度なAIモデルが普及する」と述べており(SecurityWeek)、ガードレールを巡る議論は今後さらに激化するとみられる。日本語圏のAIコメンテーター@tetumemoも「性能があまりにも高すぎて非エンジニア目線でどう使うか悩み中」と反応しており(出典)、一般ユーザーへの影響の広がりも見えてきた。

30日データ保持と企業導入の障壁

Fable 5とMythos 5は「Covered Models」に指定されており、すべてのAPIトラフィックに対して最長30日間のデータ保持が義務付けられている(ITPro)。従来のゼロデータ保持(ZDR)契約を結んでいた企業でも、Fable 5使用時はこの要件が優先される。

GitHub Copilotでの利用も同様だ。管理者はCopilot BusinessおよびEnterpriseのポリシー設定でFable 5を手動で有効化する必要があり(デフォルトはオフ)、データ保持要件を承諾した上での利用となる(GitHub Changelog)。HarveyはEU法律事務所向けに「データ処理はすべて米国内で行われる」と注記しており、GDPR厳格対応環境での導入障壁を明示している(Harvey)。Anthropicはデータをトレーニングに使用しないと述べているが、保持自体が規制要件と衝突するケースは残る。

Project Glasswingパートナー(AWS、Microsoft、Apple、CrowdStrike等)はMythos 5へのアクセスが許可されており、ZDR等の条件は個別契約に委ねられている。Glasswingの150組織への拡大についてはこちらの記事で詳しく解説している。

Fable/Mythosの二層構造が示すもの

AnthropicはFirefox 271件バグ発見という事態を受け、「一般公開できる能力の上限」を初めて意識的に分割した。FableとMythosは単なる製品ラインではなく、「大衆向けに安全な能力」と「信頼パートナー向けの完全な能力」を切り分けるアーキテクチャの実験だ。この方向性が続くなら、一般ユーザーが触れられる能力の天井と実際のフロンティアの乖離が広がり続けることになる。

Mythos PreviewとProject Glasswingの全経緯はClaude Mythos Preview完全ガイドで解説している。AnthropicのIPO申請の背景はAnthropicのS-1機密申請も参照。

詳しく見る

関連記事


本記事の数値・料金・ベンチマークスコアは2026年6月9〜10日時点の公開情報に基づく。Anthropicは予告なく仕様・価格を変更する場合がある。最新情報は公式APIドキュメントを参照のこと。ベンチマーク数値は公開評価環境での結果であり、実際のユースケースでの性能を保証するものではない。記事内の企業・個人の引用は各出典ページの情報に基づく。本記事は特定のサービス選択を推奨・保証するものではない。

Share