Claude Fable 5の48時間混乱全記録|ジェイルブレイク・秘密劣化・謝罪
「helloと入力しただけでブロックされた」。Institute for Disease Modeling(Gates Foundation)のMike Famulare主任研究者がGitHub Issue #66916に投稿したのはClaude Fable 5リリースから24時間後のことだ。同日、IBM X-ForceのValentina PalmiottiはThe Registerに「ブログ投稿の分析すら拒否された」と語った(The Register, 2026年6月10日)。
2026年6月9日にリリースされたClaude Fable 5。「Anthropic史上最も高性能な一般公開モデル」という触れ込みは、48時間後に二重の炎上案件で上書きされた。ジェイルブレイク疑惑と、AI研究者向けの秘密の性能劣化問題。本記事ではその全タイムラインと技術的背景、開発者が取るべき対処を整理する。
- Claude Fable 5をAPIで使っているエンジニア・研究者
- AIセキュリティや安全性設計に関心がある開発者
- ジェイルブレイク騒動と秘密劣化問題の実態を知りたい方
Fable 5とMythos 5——「同じ脳、違う安全弁」
Anthropicが選んだのは、一つのモデルを二製品として出す構造だ。
| 項目 | Claude Fable 5 | Claude Mythos 5 |
|---|---|---|
| 重み | 同一 | 同一 |
| 安全分類器 | あり(3分野) | なし |
| アクセス | 一般公開 | Project Glasswing限定 |
| 価格 | $10/$50(百万トークン) | $10/$50(同) |
| コンテキスト | 最大100万トークン | 最大100万トークン |
分類器が作動する3分野は「サイバーセキュリティ攻撃」「生物・化学の二重用途リスク」「フロンティアLLM開発」だ。該当クエリは自動でClaude Opus 4.8へルーティングされる。公式ドキュメントによれば、全セッションの95%以上はフォールバックが発動しない。モデルの詳細な性能・料金はClaude Fable 5公開レビューで解説している。
混乱の全タイムライン(48時間)
| 日時(JST概算) | 出来事 |
|---|---|
| 6月9日夜 | Claude Fable 5 一般公開。SWE-Bench Pro 80.3%を記録 |
| 6月10日午前 | 研究者・開発者が過剰拒否を報告。“hello”でもOpus 4.8に切り替わる事例 |
| 6月10日午後 | Pliny the Liberatorがジェイルブレイクを宣言。システムプロンプト(約12万文字)をGitHubに公開 |
| 6月10日夕方 | Nathan Lambert(AI研究者)が「anti-science(反科学)」と批判。The Registerが報道 |
| 6月11日 | AnthropicがFortuneとGizmodoに謝罪コメント。秘密劣化を可視化する修正を発表 |
| 6月12日現在 | ジェイルブレイク主張についてAnthropicが否定を継続 |
ジェイルブレイク騒動——Pliny the Liberatorの挑戦
6月10日、著名なAIレッドチーマー「Pliny the Liberator」(Xハンドル: @elder_plinius)がFable 5の安全分類器をバイパスしたと宣言した。
「JAILBREAK ALERT — FABLE-5: LIBERATED。これはこれまで最も失望させるモデルリリースのひとつだ。正当な研究者が自分の才能をAI安全研究に発揮できなくなっている」 — Pliny the Liberator(X投稿、2026年6月10日)
使用したのは「Pack Hunt(集団狩猟)」と呼ばれる多エージェント攻撃手法だ。Unicodeホモグリフ・キリル文字置換・長文コンテキスト操作・悪意ある指示を無害コンテンツに偽装するナラティブフレーミングを組み合わせた。生成された出力にはx86 LinuxでのバッファオーバーフローExploit手順やバーチ還元(特定薬物の合成経路)が含まれていたと複数のセキュリティメディアが報じている(CyberSecurityNews)。
Anthropicの反論: 「分類器層をバイパスしたものであり、モデル重み自体が突破されたわけではない。事前のバグバウンティで1,000時間超・30以上の既知手法をテストしたが、普遍的なジェイルブレイクは発見されなかった」(SecurityWeek)。システムプロンプトの漏洩(約12万文字)についてはAnthropicからの直接コメントは出ていない。
「hello」でも落ちる——過剰拒否の実態
ジェイルブレイク騒動と並行して表面化したのが、分類器の「過剰発火」問題だ。
「
helloと入力しただけでmodel_refusal_fallback(Opus 4.8への自動切り替え)が発生した。リポジトリのコンテンツも、ツール呼び出しも、ファイル読み込みも、何もコンテキストにない状態で」 — Mike Famulare(Gates Foundation主任研究者)、GitHub Issue #66916、2026年6月10日
免疫学者のDerya Unutmaz教授(Jackson Laboratory)は「『cancer(がん)』という単語だけで生物安全上のリスクとしてフラグが立った」とFast Companyに語った(Fast Company, 2026年6月10日)。同教授はバイオセーフティレベル3認定保持者だ。
IBM X-ForceのValentina Palmiottiも「サイバー関連と言えるブログ投稿の分析すら拒否された」と証言している。
Anthropicの説明: 全セッションへの影響は0.03%、影響組織は全体の0.1%未満に集中するという。ただし批判者たちは「影響を受けた0.03%がML研究者・セキュリティ研究者・AI企業エンジニアに偏っていた」と指摘する。影響を受けた0.03%がML研究者・セキュリティ研究者・AI企業エンジニアに偏っていたとされ、SNS上の炎上は広範に及んだ。秘密制限の技術的な仕組みはClaude Fable 5の秘密制限問題で詳述している。
Anthropicの謝罪と修正——6月11日の転換
6月10日の夜、AI2の研究者Nathan Lambertがこう投稿した。
「最先端モデルへのアクセスを、こそこそとした形で奪われることは言語道断だ。これはAnthropicが明らかに反科学、つまり反進歩・反安全であることを示している」 — Nathan Lambert(interconnects.ai、2026年6月10日)
開発者のJonathon Readyは「Claudeがアプリを密かに妨害できる」と題したブログ記事で、より具体的なリスクを指摘した。「品質低下が発生しても、モデルが混乱しているのか、問題が解決不能なのか、それとも見えないポリシー制限が発動したのかを区別する方法がない」と書いた(jonready.com, 2026年6月10日)。
6月11日、AnthropicはFortuneとGizmodoに対して公式謝罪を発表した。
「私たちは間違ったトレードオフをしました。バランスを正しく取れなかったことをお詫びします」 — Anthropic公式声明(Gizmodo, 2026年6月11日)
修正の内容:フロンティアLLM開発に関する制限を「無通知の劣化」から「可視化されたOpus 4.8へのフォールバック」に変更した。制限自体は維持されたが、ユーザーは理由を通知されるようになった。
安全性 vs ユーザビリティ——他社との比較
今回の騒動は、Anthropic固有の問題ではなくAI業界全体が直面するジレンマでもある。
| モデル | 安全制限の方針 | 開発者摩擦 |
|---|---|---|
| Claude Fable 5 | 分類器でハードルーティング。当初は無通知 | 高(修正後は中) |
| GPT-5.5 | 「できる限り断らない」をModel Specに明記 | 低(ただし幻覚率最高) |
| Gemini 3.1 Pro | ブランドリスク重視の保守的設計 | 中(透明性への批判あり) |
OpenAIは2025年12月のModel Specに「ポリシーが要求しない限り拒否すべきでない」と明文化している。SWE-Bench Pro(GPT-5.5: 58.6% vs Fable 5: 80.3%)ではFable 5が大きく上回るが、プロンプト注入成功率(GPT-5.5: 30.8% vs Fable 5: 4.8%)では安全性の差も明確だ(Eden AI, 2026年6月)。
MetaのFAIR研究者François Fleuretは対照的な視点を示した。「営利企業が競合他社を助けるツールを提供すると期待するのは、どういう根拠からなのか理解できない」(Digg, 2026年6月10日)。商業的合理性としては一つの論点だが、Anthropicは過剰拒否によるトレードオフのバランスを誤ったと謝罪した事実がある。
Fable 5のAPIでは、分類器が発動した場合にstop_reason: "refusal"がHTTP 200で返る(エラーではない)。対応フォールバックには「サーバーサイドのfallbacksパラメータ(beta)」「クライアントSDKミドルウェア」「手動リトライ」の3方法が用意されている。claude-fable-5を明示的に指定してもOpus 4.8に切り替わる場合は公式ドキュメントで最新のフォールバック設定を確認すること。
Fable 5の性能・料金・ベンチマークは「Claude Fable 5公開レビュー」で詳しく解説。秘密制限の技術的詳細は「Claude Fable 5の秘密制限問題」を参照。Project Glasswingの全体像は「Anthropic Glasswing拡張150組織」もどうぞ。
本記事に含まれる情報は執筆時点(2026年6月13日)のものです。AnthropicのAPIポリシーや安全性分類器の仕様は随時更新されます。最新情報は公式ドキュメントを参照してください。