メインコンテンツへスキップ
AI News 29分で読める

Claude Fable 5 公開 — Anthropic初のMythosクラス、SWE-Bench Pro 80%の衝撃

この記事はこんな人におすすめ
  • Claude / Claude Codeを業務で使っているフリーランスエンジニア・PM
  • Fable 5への切り替え可否を、料金と能力の両面から判断したい方
  • 6月22日までの「無料期間」が何を意味するのか、冷静に読み解きたい方

「Fable 5は、4ヶ月避けていたVERY DIFFICULTな問題を、ようやく解いてくれた」。Hacker NewsでSimon Willison氏が書いた感想だ(HN #48463808)。MicroPythonをフルPythonにアップグレードする方法をPythonライブラリで調査させたところ、これまでのモデルでは届かなかった層に手が届いた、というレポートである。

2026年6月9日、Anthropicは公式に Claude Fable 5 と Claude Mythos 5 をリリースした。「Mythosクラス」とは、Anthropic社内で2026年初頭から検証してきたフロンティア世代の重みを指す呼称で、これまでは政府機関とProject Glasswingの選定パートナーにしか触れる権利がなかった。一般ユーザーの手に渡るのは今回が初めてだ。料金は入力 $10 / 100万トークン、出力 $50 / 100万トークン。Mythos Previewの半額以下である(Anthropic公式)。

数日前、同じAnthropicは「協調的にフロンティアAI開発を一時停止する選択肢を世界で持つべきだ」とする論考を出していた。詳細は「Anthropic 80%論考」解説に書いた。「ブレーキを叫んだ翌週にアクセルを踏んだ」と読まれる余地が当然ある。本記事はFable 5の中身を整理しつつ、この矛盾とどう向き合うかも併記する。

何が公開されたのか:3つの核心

1. Mythosと同じ重み、安全装置だけが違う

Fable 5とMythos 5の関係は単純だ。ベースモデルの重みは同じで、安全装置の構成だけが異なる(Anthropic公式Business Upturn)。

  • Claude Fable 5: サイバーセキュリティ・生物/化学・モデル蒸留の3カテゴリで分類器が動く公開版。該当する質問はサイレントにClaude Opus 4.8へ振り替えられる。Anthropic自身の見立てでは、振り替えが発火するセッションは平均5%未満で、95%以上のセッションでは一度もfallbackが起きないとされる。
  • Claude Mythos 5: その分類器を外したバージョン。Project Glasswingの選定パートナーと一部の生命科学研究者にのみ提供される。一般ユーザーは触れられない。

サイバーセキュリティ分野でMythos 5が特別扱いされる理由はわかりやすい。Mythos Previewはオープンソースソフトウェアを内部テストで監査させた際、独立してゼロデイ脆弱性を発見・チェイン化する挙動を示し、開発者自身を驚かせたとされる(TechCrunchSaaSCity)。同じ能力を制限なく一般公開すれば、攻撃側の戦力に直結するというのがAnthropicの判断だ。

加えて、Fable 5とMythos 5は全トラフィックを30日間保持する仕様で運用される。Anthropicは「訓練には使わない」「新規ジェイルブレイクを含む高度な攻撃の防御と誤検知の削減にのみ使う」と明言している(TechCrunch)。プライバシー要件が厳しい業務での採用は、ここを契約面で確認する必要がある。

2. 料金は半額、ただし「設定が常に厚い」

入力 $10 / 100万トークン、出力 $50 / 100万トークン。Mythos Previewの半額以下である(Anthropic公式finout.io)。プロンプトキャッシュを使えば最大90%の割引が乗る。これだけ見ると価格は前進している。

しかし実コストはそうシンプルではない。Hacker NewsとXの報告で繰り返し指摘されているのが、「adaptive thinking(適応的思考)が常時オン」で、複雑なセッションは500K〜1Mトークン規模を平気で消費するという点だ(Hacker News thread、Roo記事も参照)。「単価が下がっても、セッションあたりのトークンが3〜5倍になるなら、結果として高い」という読み方は無視できない。

これはClaude Opus 4.7のトークナイザー論争で議論された構造の延長線上にある。料金カードの数字だけでは意思決定できないのが、Claude 5世代の特徴になっている(Hacker News #48463808 の長期テスト報告も参照)。

3. ベンチマーク:Anthropic公表値ではコーディングで他社をリード

公式の発表でAnthropicがもっとも強調しているのはコーディング性能だ。第三者検証や独立ベンチマークではなく、Anthropic自身が公開した数値である点には注意が必要だが、公表値の伸び幅は他社製モデルとの差をはっきり示している(Vellumllm-stats)。

ベンチマークFable 5Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-Bench Verified95.0%88.6%
SWE-Bench Pro80.3%69.2%58.6%54.2%
FrontierCode Diamond29.3%13.4%5.7%
GDP.pdf(視覚推論)29.8%22.5%24.9%16.7%

サイバーセキュリティと生物の領域ではMythos 5の数字が公開されている。ExploitBenchでMythos 5は78.0%(Opus 4.8: 40.0%、GPT-5.5: 34.0%)、BioMysteryBenchで46.1%(Opus 4.8: 40.0%)だ(Vellum)。

実務寄りのレポートも揃っている。Stripeは5,000万行のRubyコードベースに対してFable 5で1日のリファクタリングを完了させ、人手なら2か月以上かかる規模だと述べた(Anthropic公式)。Cursorは「CursorBenchで最先端、長時間タスクの範囲が広がった」とコメント(Anthropic公式)。GitHubは「複雑で長期的なコーディングタスクを、これまでのベンチマークを超える自律性と信頼性で処理した」とした(Anthropic公式)。

ベンチマークを読むときの留保

SWE-Bench Pro / Verifiedの数字はAnthropicの自社公表で、各モデルに対する評価条件(tool呼び出しの上限、リトライ回数、コンテキスト分割の戦略)が同一かは外部から検証できない。「同じデータセットでも、エージェント側の作り込みで10ポイント以上動く」現象はAIコーディングエージェント比較で扱った。第三者検証を待たずに「圧勝」と読むのは早い。

実ユーザーの声:3つの傾向

Hacker News(#48463808)とX、各種レビューブログの感想を読み込むと、反応は大きく3つに分かれる。

賛:「届かなかった層に手が届いた」

  • Simon Willison氏は、4か月手をつけられずにいたPython WASMライブラリの設計を、Fable 5で1セッションで通したと報告した。MicroPythonからフルPythonへのアップグレード経路まで提案されたという(HN #48463808)。
  • 同スレッドの別のテスターは、Claude Opus 4.8とChatGPT Codexがどちらも解けなかったリバースエンジニアリング課題を、Fable 5が30分で片付けたと書いた。
  • 別の報告者は50ページの密な仕様PDFを解析させたところ、論点を漏れなくフラグ立てできた、Opus 4.8からの「明確な階段」と表現している。
  • フロントエンドの生成品質が上がり、トークン効率が改善し、1Mコンテキストで価格が据え置きなのは「Claude 5の名にふさわしい」というポジティブ評価も並んでいる。

否:「サイレントに振り替えられる気持ち悪さ」

  • 安全分類器が発火した際にOpus 4.8へサイレントに振り替えられる挙動について、「出力がいつ静かにダウングレードされたかをユーザー側からは判別できない」という不信の声がスレッドで複数上がっている(HN #48463808)。
  • プロンプト改変による「見えない制限」が、フロンティアLLM開発のような正当な研究用途まで巻き込みうる、という懸念も指摘されている。安全装置の透明性が足りない、という主張だ。
  • 分類器が攻撃的すぎて、ごく普通のコーディング質問が誤検知されるのではないかという見方もある。発火率5%未満という公式の数字が現場でどう振る舞うかは、まだ十分な公開データがない。

中:「コストの実感が読めない」

  • 6月22日まで無料、23日からクレジット制という設計は、複数のコメンターから「先に依存させる構造」「定額サブスクではIPO前の売上を立てづらいAnthropicの一手」と読まれている(HN #48463808)。
  • 最適化系の課題で「直近の最適化を辿り直せず、Opus 4.8のほうがクリエイティブに感じた」という反例レポートも上がっている。すべてのタスクで一方的に強いわけではない。
  • 同価格帯ではChatGPT Codexのほうが使用量が寛容なため、こちらに切り替えた、というユーザーも一定数いる。Claude側の総コストが視界に入りにくいことへの不満が背景にある。

Hex社のFable 5に対するコメントは「自社の中心アナリティクスベンチマークで90%を達成」だが、観察者は「価格設定が普及の足を引っ張りうる」とした(TechCrunch)。

「6月22日まで無料」の読み方

ここがFable 5の中で、実務上もっとも判断を迫る箇所だと感じる。

サブスクリプション側の構造はこうだ(Anthropic公式finout.io)。

  • 6月9日〜6月22日:Pro / Max / Team / Enterprise(席課金)にFable 5を含める。追加料金なし。
  • 6月23日以降:これらのプランからFable 5は除外。利用は従量課金クレジットで。

Hacker Newsで複数のコメンターが「Anthropicは上場前に売上を立てる必要がある。定額サブスクではそれが届かない」と読んだ(HN thread)。実際、Anthropicの直近の動きは、定額からトークンベースへ収益構造を寄せる方向で一貫している(Claude Code 課金変更ガイドClaude Code Pro Plan 撤回騒動)。

Fable 5の「14日無料 → 従量課金」はその一手だ、と読める。

ここに乗るかどうかは判断が分かれる。

Aプラン:14日間試して、業務での価値を測る

  • メリット:実際の業務で価格 - 性能のトレードオフを測れる。SWE-Bench Pro 80%が自分のリポジトリで何分の生産性に化けるかは、触らないとわからない。
  • リスク:依存度が上がった後で23日にクレジット制へ移行する。当初試した感触のまま使い続けると、月間の請求が予想を大きく超える可能性がある。

Bプラン:22日まで様子見、第三者ベンチマークを待つ

  • メリット:自社公表のベンチマークがどこまで再現されるか、独立評価が出るまで待てる。料金体系の最終確定(6月22日時点)も見極められる。
  • リスク:Fable 5の能力を業務で測る機会を逃す。コンペティターがその間に学習効果を蓄積する。

「ブレーキを叫んだ翌週にアクセル」と読まれる構図

論考と今回のリリースの関係を整理する。

Anthropicは6月4日の論考「When AI builds itself」で、再帰的自己改良への懸念と「協調的な開発スローダウンの選択肢」を提案した。その5日後にFable 5を公開した。

擁護側の読み方はこうだ。「Fable 5はMythosクラスを公開する代わりに、4分野で分類器を仕掛けてOpus 4.8へ振り替える設計にした。これは『出すべきものを出しつつ、危険な部分は抑える』というAnthropicの建前と整合している」。

批判側の読み方はこうだ。「論考は規制の堀作りで、Fable 5はその堀の中で売上を立てる本命。両者は矛盾せず、戦略的に整合している」。TechRadarが論考時に紹介した「they want to build a moat(堀を作りたいだけ)」批評は、Fable 5の14日無料設計を見たあとに読み返すと、また別の読み方ができる(TechRadar)。

どちらを取るかはユーザーの立場による。本記事は「両方が同時に成立する」と読むのがいちばん近いと考える。

Anthropicの方向性を体系的に押さえたい方は「Anthropic完全ガイド」「Anthropic vs OpenAI ビジネスモデル比較」、Mythos周りの背景は「Claude Mythos Preview / Project Glasswingガイド」をどうぞ。

詳しく見る

Mythos 5側はどうなっているか

公開版ではないが、Mythos 5の存在を踏まえずにFable 5を語るのは難しい。

Mythos 5はProject Glasswingで提供される、サイバーセキュリティ分類器を外したバージョンだ。対象はAnthropicが選定した防御側のパートナーと、一部の生命科学研究者に限定される(Anthropic公式SecurityWeek)。

数字で見るとMythos 5の能力は明確で、ExploitBench 78.0%は次点(Opus 4.8)の2倍近い。BioMysteryBenchでは生命科学のオープン課題に対して人間の研究者の選好で80%程度が「Mythos 5の仮説のほうが優れている」と回答した(Anthropic公式)。創薬向けのタンパク質設計タスクでは「10倍」の高速化が報告されている。

つまり、一般ユーザーの手には能力の上限を絞ったFable 5が渡り、上限近くのMythos 5は厳格に閉じられている。能力上限を制度で抑える仕組みが本当に機能するのか、6月以降の運用が問われる。

電脳狐影の判断:自分ならこう動く

PMとして率直に書く。

1つ目は、6月22日までの無料期間を、Fable 5の能力検証に充てる方針を取る。ただし「業務の中核に組み込む」のではなく、別の検証用ブランチで触る。Stripeのような大規模リファクタリングの再現は無理だが、自分のリポジトリで「Opus 4.8で2時間かかる作業がFable 5で30分か」を測ることはできる。社内データを持ったうえで、6月23日からのクレジット制で続けるか降りるか決める。

2つ目は、サイレントな振り替えへの対処だ。Fable 5は分類器発火時にOpus 4.8へ静かに切り替わる設計で、ユーザー側からはどちらに返事をもらったか判別しづらい。本番のコード生成パイプラインに組み込むなら、応答のメタ情報(モデルIDやレスポンスヘッダ)でどのモデルが応答したかをログに残す層が必要だ。透明性は自分で確保するしかない。

3つ目は、Mythos 5を「届かない場所」と割り切ることだ。一般ユーザーには関係ないが、Mythos 5の存在は「Fable 5が安全分類器のせいで本来の上限を切られたモデルである」という事実を意味する。コーディングのような分類器が発火しない領域では、Fable 5は実質Mythos 5と同じ重みで動いていると考えてよい。安全装置と能力の関係をフラットに理解しておくと、後で報道に振り回されずに済む。

業務の優先順位は変わらない。レビュー側のAI強化、ベンダー切替コストの低減、自社指標の確立。Fable 5はその文脈のなかで、コード生成側の上限を一段引き上げる選択肢として位置づける。乗るか降りるかは、6月22日までの自分のデータが決める。

まとめ:6月22日までに測るべき3つの指標

Fable 5を試すなら、以下の3指標を自分のリポジトリで計っておくと、6月23日以降の継続可否を冷静に判断できる。

  1. 同タスクのトークン消費比較:Opus 4.8と同じプロンプトをFable 5に投げ、入出力トークンが何倍になるかを記録する。Adaptive thinkingが常時オンのFable 5は、3〜5倍のレンジに収まることが多いと報告されている。料金単価の半額化が、実コストでも半分になるとは限らない。
  2. 分類器の発火率:自分の業務領域(一般的なWeb開発、データ処理など)で、Opus 4.8へサイレント振り替えが起きる頻度を測る。5%未満が公称値だが、扱う分野によっては偏る。応答のモデルIDをログするのが手早い。
  3. 長時間タスクの完了率:Fable 5の本来の強みは「数十分〜数時間の自律タスク」での粘りだ。30分以上かかるリファクタやマイグレーションを、人手介入なしで何%完走するか。SWE-Bench Proの80%が自分の現場で何%になるかは、ここで初めてわかる。

数字を持って6月22日を迎えれば、契約面の判断材料になる。Fable 5は「使うか使わないか」ではなく、「どの業務に、どこまで効くか」を測るためのモデルだ。

コード生成側の選択肢を広げたい方は「AIコーディングエージェント比較2026」「Claude Code vs Codex」、Claude Opus 4.8との関係は「Claude Opus 4.8 完全ガイド」、Claude Codeの最新動向は「Claude Code Dynamic Workflows解説」もあわせてどうぞ。

詳しく見る

免責事項: 本記事の情報は2026年6月10日時点のものだ。Claude Fable 5 / Mythos 5の料金、サブスクリプションでの提供期間(6月22日まで)、安全分類器の発火率(平均5%未満)はAnthropic公式の発表に基づく。SWE-Bench Pro 80.3%、ExploitBench 78.0%等の数値はAnthropicが自社公表したもので、第三者による独立検証は本記事執筆時点で進行中である。引用したHacker Newsコメントは投稿者の個人的見解であり、検証可能な事実とは限らない。Project Glasswingの選定基準、Mythos 5の提供条件は変更される可能性がある。本記事は一般情報として提供するもので、契約・投資判断や法務助言を構成するものではない。

Share