メインコンテンツへスキップ
AI News 17分で読める

Claude Fable 5が19日ぶり復活——誤検知問題と業界初ジェイルブレーク評価基準

「コードベースのリファクタリング中に、突然Fable 5がOpus 4.8に切り替わった。api/test/invariantsというパス名がサイバーセキュリティ分類器を誤検知したらしい」。Claude Code Issue #66685にそう投稿したのは、FinTechのステーブルコイン決済プラットフォームを改修していた開発者だ(出典: GitHub)。複雑なアーキテクチャ判断の最中に無警告でモデルがダウングレードされた、と開発者は指摘している。

2026年7月1日、Claude Fable 5がグローバルに復活した。6月12日の米商務省輸出規制命令から数えて19日ぶりの復帰だ。だが戻ってきたFable 5は、出ていったときと同じモデルではない。Anthropicの発表によれば99%以上の確率でジェイルブレーク(モデルの安全制限を迂回する手法)をブロックする新分類器(プロンプトを有害/無害に振り分けるAIのフィルタリング層)を積んでいる。そしてその分類器は、誤検知という新たな問題も連れてきた。

この記事はこんな人におすすめ
  • Claude Fable 5を業務で使っているエンジニアやPM
  • 復活後の変化点と誤検知問題を正確に把握したい開発者
  • AI規制とジェイルブレーク対策の最新動向を追うセキュリティ研究者

19日間の停止——何が起きたか

Fable 5は6月9日の一般公開からわずか3日後の6月12日、米商務省が輸出規制命令を発動した。トリガーはAmazonの研究者が発見したジェイルブレーク手法だ。「コードレビュー」という体裁でリクエストすることでFable 5のサイバーセキュリティガードレールを迂回し、ソフトウェアの脆弱性を特定させ、実際の悪用コードを生成させることができた(出典: CyberSecurityNews)。

Amazon CEOのアンディ・ジャシーが直接ホワイトハウスに安全保障上のリスクを報告。トランプ政権顧問のデービッド・サックスは、Anthropicは当初そのジェイルブレークを「深刻ではない」として修正を拒否していたと語った(出典: Tom’s Hardware)。なお中国のグループも同様の手法でモデルにアクセスしていたとも報告されている。

輸出規制命令の対象は「外国人への提供禁止」だったが、AnthropicはリアルタイムでユーザーのNationalityを確認する手段を持たないとして、全ユーザー対象のグローバル停止を選択した。詳細は停止時の解説記事を参照されたい。

19日間の空白は市場に痕跡を残した。OpenAIはGPT-5.6(Sol・Terra・Luna)をプレビュー発表し、中国の開放モデルGLM-5.2は「使えるから」という理由で開発者の注目を集めた。米国AIモデルのグローバル利用シェアは過去1年で大幅に低下したという指摘もあり、今回の停止はその傾向を加速させたとみられる(出典: lablab.ai)。

G7各国も一斉に反発した。元仏財務相のブルーノ・ルタイヨーは「他国の技術に頼る国は、一夜にして電源を切られる国だ」と警告し、カナダのマーク・カーニー首相は「供給元を多様化しなければならない」と述べた(出典: Al Jazeera)。G7での動きは専門家書簡の分析記事に詳しい。

復活の代償——新分類器がもたらす誤検知

6月30日に輸出規制が解除され、7月1日にFable 5がグローバル復活した。しかし復活にはコストが伴う。

新安全分類器の仕組みはこうだ。 Amazonの研究者が発見したジェイルブレーク手法を99%以上の確率でブロックする。ブロックされたリクエストは自動的にClaude Opus 4.8に切り替えられ、ユーザーへ通知が届く。分類器は意図的に保守的にチューニングされており、「有害な可能性が小さいが、ゼロではないリクエスト」も弾く設計だ(出典: Anthropic)。

この「安全マージン」が誤検知を生んでいる。Anthropicの公式データでは全セッションの5%未満にしか発生しないとされているが、その5%に頻繁に当たるユーザーには深刻な問題になる。実際に報告されている誤検知の例を列挙する。

  • api/test/invariantsというパス名:FinTech開発者のリファクタリング中にサイバー分類器が誤作動し、無警告でOpus 4.8に降格(GitHub #66685
  • アドバイザーモードの永続的無効化:分類器が1回誤作動すると、そのセッション全体でFable 5アドバイザーが「利用不可」になりフォールバックも機能しない(GitHub #67306
  • ネットワーク隔離確認・iptablesルール・PDF処理:標準的なインフラ管理タスクでも誤検知が報告(GitHub #67441
  • 「cancer」という単語:バイオセキュリティ分類器が反応(出典: TechTimes

Anthropicは「分類器を継続的に改善し誤検知を減らす」と明言しているが、具体的なタイムラインは示していない。

誤検知が多い?停止の経緯と新分類器の背景を読む

なぜFable 5は19日間停止し、なぜこの分類器が導入されたのか——経緯を知ると対策の優先度が見えてくる。

経緯と背景を読む

Big Tech 4社が作る業界初のジェイルブレーク評価基準

今回の騒動が浮き彫りにした課題の一つが、AIジェイルブレークに関する業界統一基準の欠如だ。深刻なジェイルブレークか、リスクの低い誤検知か——その判断が企業や政府機関によってバラバラであることが、今回の「全モデル19日間停止」という過剰な対応を生んだ側面もある。

Anthropicはこの問題に対し、Amazon・Microsoft・Google・Glasswingパートナーと共同で業界初のジェイルブレーク重大度フレームワークを策定中だと発表した。フレームワークはジェイルブレークを以下の4軸で評価する。

評価軸内容
能力上昇度(Capability Gain)既存ツールを超えてどれだけ新たな攻撃能力を与えるか
攻撃範囲(Breadth)同じ手法でどれだけ多くの攻撃シナリオに対応できるか
武器化の容易さ(Weaponization Ease)実際の攻撃に転用するのにどれだけのスキル・手順が必要か
発見可能性(Discoverability)手法が既にどれだけ公開・流通しているか

重大度が最も高いクラス(重要インフラへの攻撃に現在使われているもの)に対しては、深刻度が確認された瞬間に対策を展開し、24時間体制のジェイルブレーク監視チームが即応する。現在は同基準が存在しないため、政府が輸出規制を発動する根拠も企業が優先対応する根拠も曖昧なままだ(出典: TechTimes)。

統一基準が確立されれば、AIモデルが国家安全保障の観点から「どの水準で危険か」を定量化できるようになる。今回のFable 5が晒した脆弱性——コードレビューを装った手法でエクスプロイトコード(脆弱性を突く攻撃コード)を生成できること——は、Anthropic自身の調査によれば他社の主要モデルでも類似の動作が確認されたという(出典: BeinCrypto)。つまり問題はFable 5固有ではなく、業界全体のフロンティアモデルが抱える課題だ。

セキュリティ研究者はHackerOneのAnthropicサイバージェイルブレークプログラムからFable 5のサイバー系脆弱性を報告できる(金銭報奨なし)。CBRN・サイバー領域の重大脆弱性を対象とする別プログラム「Model Safety Bug Bounty」では最大1万5,000ドルの報奨金がある。

Anthropicが政府に約束した5つのこと

輸出規制解除と引き換えに、Anthropicは米政府に対して具体的なコミットメントを行った(出典: Anthropic)。

1. フロンティアモデルの事前政府評価アクセス 国家安全保障に関わる能力を持つモデルは、一般公開前に指定政府パートナーへの早期アクセスを提供する。政府側は独自に能力評価とガードレールテストを実施でき、Anthropicの技術スタッフが並走する。

2. 24時間体制のジェイルブレーク監視 ジェイルブレーク提出チャネルを24時間モニタリングするチームを新設する。

3. 政府への迅速通知 重大なジェイルブレークや悪用パターンが確認された際は、速やかに調査・トリアージし、政府カウンターパートに通知する。

4. 重要インフラ企業への先行復帰(Mythos 5) より制限の厳しいMythos 5は、6月26日に商務省が「附属書A」に指定した約100社の米国重要インフラ企業・連邦機関に先行して復帰していた。

5. トランプ大統領令との整合 トランプ大統領が6月2日に署名した大統領令——フロンティアAIモデルに最大30日間の政府事前アクセスを求める任意制度——をベースに、Anthropicはそれを上回るコミットメントを取り付けられた(出典: Forbes)。

ここで問われるのはトレードオフだ。政府との協調は「次の輸出規制」を防ぐ保険になる。だが事前アクセス義務化は、Anthropicが「商務省の承認が下りなければ新モデルを出せない」前例を作るリスクも孕む。Amazonのジャシーのホワイトハウスへの直訴が今回の規制を生んだ経緯を踏まえれば、この前例はAIガバナンスの主導権争いを不可逆的に変える一歩だ。

Fable 5復活後に気をつけること

セキュリティ関連・インフラ管理・バイオ関連ワードを含むプロンプトは分類器に引っかかり、Opus 4.8に自動切り替えされる場合がある。切り替えの際はユーザーへの通知が届くが、アドバイザーモードでは通知なく永続的に無効化されるケースも報告されている(GitHub #67306)。誤検知が多い場合はAnthropicフィードバックへ報告するのが現状の最善策だ。

関連記事


本記事の情報は2026年7月1日時点のものです。Anthropicの安全分類器の仕様や対応方針は予告なく変更される場合があります。投資・業務上の判断の際は公式情報を必ず確認してください。

Share