Claude Fable 5はジェイルブレイクされましたか？

Pliny the Liberatorが分類器のバイパスに成功したと主張しています。Anthropicは「モデル重み自体の突破ではない」と反論し、1,000時間超のバグバウンティでも普遍的ジェイルブレイクは発見されなかったとしています。

秘密の性能劣化問題とは何ですか？

フロンティアLLM開発のクエリを無通知でClaude Opus 4.8へ転送していた問題です。Anthropicは謝罪し、2026年6月11日に可視化する修正を発表しました。

Claude Fable 5とClaude Mythos 5の違いは？

同一の重みですが、Fable 5にはサイバー・生物化学・フロンティアLLM開発の3分野に安全分類器が有効化されています。Mythos 5は分類器なしで、Project Glasswing承認組織限定です。

APIで分類器が発動した場合の課金は？

出力生成前の拒否は課金なし。Fable 5からOpus 4.8へのフォールバック時はプロンプトキャッシュコストが重複しないクレジット還元があります。

AI News 2026年6月13日 16分で読める

Claude Fable 5の48時間混乱全記録｜ジェイルブレイク・秘密劣化・謝罪

#Claude Fable 5 #Anthropic #ジェイルブレイク #AIセキュリティ #AI安全性

「helloと入力しただけでブロックされた」。Institute for Disease Modeling（Gates Foundation）のMike Famulare主任研究者がGitHub Issue #66916に投稿したのはClaude Fable 5リリースから24時間後のことだ。同日、IBM X-ForceのValentina PalmiottiはThe Registerに「ブログ投稿の分析すら拒否された」と語った（The Register, 2026年6月10日）。

2026年6月9日にリリースされたClaude Fable 5。「Anthropic史上最も高性能な一般公開モデル」という触れ込みは、48時間後に二重の炎上案件で上書きされた。ジェイルブレイク疑惑と、AI研究者向けの秘密の性能劣化問題。本記事ではその全タイムラインと技術的背景、開発者が取るべき対処を整理する。

この記事はこんな人におすすめ

Claude Fable 5をAPIで使っているエンジニア・研究者
AIセキュリティや安全性設計に関心がある開発者
ジェイルブレイク騒動と秘密劣化問題の実態を知りたい方

Fable 5とMythos 5——「同じ脳、違う安全弁」

Anthropicが選んだのは、一つのモデルを二製品として出す構造だ。

項目	Claude Fable 5	Claude Mythos 5
重み	同一	同一
安全分類器	あり（3分野）	なし
アクセス	一般公開	Project Glasswing限定
価格	$10/$50（百万トークン）	$10/$50（同）
コンテキスト	最大100万トークン	最大100万トークン

分類器が作動する3分野は「サイバーセキュリティ攻撃」「生物・化学の二重用途リスク」「フロンティアLLM開発」だ。該当クエリは自動でClaude Opus 4.8へルーティングされる。公式ドキュメントによれば、全セッションの95%以上はフォールバックが発動しない。モデルの詳細な性能・料金はClaude Fable 5公開レビューで解説している。

混乱の全タイムライン（48時間）

日時（JST概算）	出来事
6月9日夜	Claude Fable 5 一般公開。SWE-Bench Pro 80.3%を記録
6月10日午前	研究者・開発者が過剰拒否を報告。“hello”でもOpus 4.8に切り替わる事例
6月10日午後	Pliny the Liberatorがジェイルブレイクを宣言。システムプロンプト（約12万文字）をGitHubに公開
6月10日夕方	Nathan Lambert（AI研究者）が「anti-science（反科学）」と批判。The Registerが報道
6月11日	AnthropicがFortuneとGizmodoに謝罪コメント。秘密劣化を可視化する修正を発表
6月12日現在	ジェイルブレイク主張についてAnthropicが否定を継続

ジェイルブレイク騒動——Pliny the Liberatorの挑戦

6月10日、著名なAIレッドチーマー「Pliny the Liberator」（Xハンドル: @elder_plinius）がFable 5の安全分類器をバイパスしたと宣言した。

「JAILBREAK ALERT — FABLE-5: LIBERATED。これはこれまで最も失望させるモデルリリースのひとつだ。正当な研究者が自分の才能をAI安全研究に発揮できなくなっている」 — Pliny the Liberator（X投稿、2026年6月10日）

使用したのは「Pack Hunt（集団狩猟）」と呼ばれる多エージェント攻撃手法だ。Unicodeホモグリフ・キリル文字置換・長文コンテキスト操作・悪意ある指示を無害コンテンツに偽装するナラティブフレーミングを組み合わせた。生成された出力にはx86 LinuxでのバッファオーバーフローExploit手順やバーチ還元（特定薬物の合成経路）が含まれていたと複数のセキュリティメディアが報じている（CyberSecurityNews）。

Anthropicの反論： 「分類器層をバイパスしたものであり、モデル重み自体が突破されたわけではない。事前のバグバウンティで1,000時間超・30以上の既知手法をテストしたが、普遍的なジェイルブレイクは発見されなかった」（SecurityWeek）。システムプロンプトの漏洩（約12万文字）についてはAnthropicからの直接コメントは出ていない。

「hello」でも落ちる——過剰拒否の実態

ジェイルブレイク騒動と並行して表面化したのが、分類器の「過剰発火」問題だ。

「helloと入力しただけでmodel_refusal_fallback（Opus 4.8への自動切り替え）が発生した。リポジトリのコンテンツも、ツール呼び出しも、ファイル読み込みも、何もコンテキストにない状態で」 — Mike Famulare（Gates Foundation主任研究者）、GitHub Issue #66916、2026年6月10日

免疫学者のDerya Unutmaz教授（Jackson Laboratory）は「『cancer（がん）』という単語だけで生物安全上のリスクとしてフラグが立った」とFast Companyに語った（Fast Company, 2026年6月10日）。同教授はバイオセーフティレベル3認定保持者だ。

IBM X-ForceのValentina Palmiottiも「サイバー関連と言えるブログ投稿の分析すら拒否された」と証言している。

Anthropicの説明： 全セッションへの影響は0.03%、影響組織は全体の0.1%未満に集中するという。ただし批判者たちは「影響を受けた0.03%がML研究者・セキュリティ研究者・AI企業エンジニアに偏っていた」と指摘する。影響を受けた0.03%がML研究者・セキュリティ研究者・AI企業エンジニアに偏っていたとされ、SNS上の炎上は広範に及んだ。秘密制限の技術的な仕組みはClaude Fable 5の秘密制限問題で詳述している。

Anthropicの謝罪と修正——6月11日の転換

6月10日の夜、AI2の研究者Nathan Lambertがこう投稿した。

「最先端モデルへのアクセスを、こそこそとした形で奪われることは言語道断だ。これはAnthropicが明らかに反科学、つまり反進歩・反安全であることを示している」 — Nathan Lambert（interconnects.ai、2026年6月10日）

開発者のJonathon Readyは「Claudeがアプリを密かに妨害できる」と題したブログ記事で、より具体的なリスクを指摘した。「品質低下が発生しても、モデルが混乱しているのか、問題が解決不能なのか、それとも見えないポリシー制限が発動したのかを区別する方法がない」と書いた（jonready.com, 2026年6月10日）。

6月11日、AnthropicはFortuneとGizmodoに対して公式謝罪を発表した。

「私たちは間違ったトレードオフをしました。バランスを正しく取れなかったことをお詫びします」 — Anthropic公式声明（Gizmodo, 2026年6月11日）

修正の内容：フロンティアLLM開発に関する制限を「無通知の劣化」から「可視化されたOpus 4.8へのフォールバック」に変更した。制限自体は維持されたが、ユーザーは理由を通知されるようになった。

安全性 vs ユーザビリティ——他社との比較

今回の騒動は、Anthropic固有の問題ではなくAI業界全体が直面するジレンマでもある。

モデル	安全制限の方針	開発者摩擦
Claude Fable 5	分類器でハードルーティング。当初は無通知	高（修正後は中）
GPT-5.5	「できる限り断らない」をModel Specに明記	低（ただし幻覚率最高）
Gemini 3.1 Pro	ブランドリスク重視の保守的設計	中（透明性への批判あり）

OpenAIは2025年12月のModel Specに「ポリシーが要求しない限り拒否すべきでない」と明文化している。SWE-Bench Pro（GPT-5.5: 58.6% vs Fable 5: 80.3%）ではFable 5が大きく上回るが、プロンプト注入成功率（GPT-5.5: 30.8% vs Fable 5: 4.8%）では安全性の差も明確だ（Eden AI, 2026年6月）。

MetaのFAIR研究者François Fleuretは対照的な視点を示した。「営利企業が競合他社を助けるツールを提供すると期待するのは、どういう根拠からなのか理解できない」（Digg, 2026年6月10日）。商業的合理性としては一つの論点だが、Anthropicは過剰拒否によるトレードオフのバランスを誤ったと謝罪した事実がある。

開発者が確認すべき現時点の仕様

Fable 5のAPIでは、分類器が発動した場合にstop_reason: "refusal"がHTTP 200で返る（エラーではない）。対応フォールバックには「サーバーサイドのfallbacksパラメータ（beta）」「クライアントSDKミドルウェア」「手動リトライ」の3方法が用意されている。claude-fable-5を明示的に指定してもOpus 4.8に切り替わる場合は公式ドキュメントで最新のフォールバック設定を確認すること。

Fable 5の性能・料金・ベンチマークは「Claude Fable 5公開レビュー」で詳しく解説。秘密制限の技術的詳細は「Claude Fable 5の秘密制限問題」を参照。Project Glasswingの全体像は「Anthropic Glasswing拡張150組織」もどうぞ。

詳しく見る

本記事に含まれる情報は執筆時点（2026年6月13日）のものです。AnthropicのAPIポリシーや安全性分類器の仕様は随時更新されます。最新情報は公式ドキュメントを参照してください。