Claude Fable 5の秘密制限問題|研究者への告知なし性能低下の全貌
「自分の仕事のために最先端モデルへのアクセスを、こそこそとした形で奪われることは言語道断だ。これはAnthropicが明らかに反科学、つまり反進歩・反安全であることを示している」。AI研究者Nathan Lambertが2026年6月10日にXへ投稿したこの言葉は、多数のリポストを記録した(interconnects.ai, 2026年6月)。
Claude Fable 5が一般公開された翌日、AIコミュニティは沸騰した。怒りの出所は、Anthropicが319ページのシステムカードに掲載していた一段落だった。
- Claude Fable 5を業務・研究で使っているAIエンジニア・研究者
- AI企業の安全性ポリシーと透明性の問題に関心があるエンジニアリングマネージャー
- 「AIの安全性」と「商業的利益」の境界線が気になるテック関係者
「見える制限」と「見えない制限」の二層構造
Fable 5の制限は、根本的に異なる2種類から成る。
ユーザーに通知される制限: サイバーセキュリティ・生物学・化学・モデル蒸留に関するリクエストにはフラグが立てられ、ユーザーに「下位モデルに切り替えた」旨の通知が表示される。
ユーザーに通知されない制限: フロンティアLLM開発(事前学習パイプラインの構築、分散学習インフラ、ML加速器設計など)に関連するリクエストは別の扱いを受ける。並行して動作する分類器がリクエストを評価し、フラグが立てられると以下の手法で応答品質を意図的に低下させる。
- プロンプト修正(Prompt Modification): 生成前にプロンプトを書き換える
- ステアリングベクター(Steering Vectors): 活性化空間に介入して出力方向を変える
- パラメータ効率的ファインチューニング(PEFT): モデルパラメータの一部を差し替えて出力傾向を変える
ユーザーには通常通りの返答が届く。ただしシステムカードによれば、内容は意図的に不正確・不完全になっているとされる。エラーメッセージも、モデル切り替えの通知も出ない。著名ウェブ開発者のSimon Willisonはこれを「Anthropicがこの種の秘密の介入を公表した初めてのケース」と評した(simonwillison.net, 2026年6月10日)。Anthropicは影響範囲をトラフィック全体の約0.03%と推計している。
Anthropicが「秘密」を選んだ理由
この設計の背景には、2026年2月に公表された「蒸留攻撃(distillation attacks)」への対応がある。Anthropicの発表によれば、中国のAI企業DeepSeek・Moonshot・MiniMaxが約2万4,000の不正アカウントを通じて1,600万以上のやり取りからClaudeの能力を利用規約に違反する形で抽出しようとしていた(TechCrunch, 2026年2月23日)。
「利用規約での禁止だけでは、最も違反しやすいアクターを止められない」。これがAnthropicの論理だ。Anthropicの担当者はFortuneの取材に「秘密裏に制限を執行することで、制限を回避しようとするアクターの加速を防げる」と述べた(Fortune, 2026年6月10日)。
ただし批判者が即座に指摘したのは逆説だった。Nathan Lambertは「ジェイルブレイクコミュニティはこれらの制限を突破できる。善意で公開研究をしている人はベストモデルにアクセスできず、悪意ある行為者はおそらくできてしまう」と述べた。実際、リリースから数時間後、著名なジェイルブレイカー「Pliny the Liberator」がマルチエージェント分解(複数のAIエージェントにタスクを分割して制限を回避する手法)やUnicodeトリック(特殊文字でフィルタを回避する手法)を使ってFable 5のシステムプロンプトをリークしている(The Register, 2026年6月10日)。
研究者の怒りが向かった場所
批判の核心は技術的問題よりも、構造的な非対称性にある。
Fast AIのJeremy Howardはこう述べた。「Anthropicは現在トップのラボとして、自社の研究者にはFable 5のフル機能を使わせながら、外部の研究者が同様のことを試みれば妨害すると宣言した。これはAIフロンティアが前進するにつれ、権力の不均衡を拡大させることを意味する。非常に暗く、悲しい日だ」(Fortune, 2026年6月10日)。
元AnthropicのAIサイエンティスト開発チーム共同リードBehnam Neyshaburの発言が象徴的だ。「がんのためにAIに取り組んでいる?すみません、お手伝いできません。アルツハイマー病のためにAIに取り組んでいる?AIの部分については少し頭が鈍くなります」(Decrypt, 2026年6月10日)。医療AI研究のような作業がフラグされるリスクを皮肉った言葉だ。
誤検知の問題も深刻だった。IBMのセキュリティ研究者Valentina Palmiottiは「ブログ記事を読む程度の無害な作業でも拒否される」と証言し、サイバーセキュリティのベテランMatt Suicheは「セキュアなコードを書いて、という依頼がサイバーセキュリティ攻撃と判断される」と指摘した(TechCrunch, 2026年6月10日)。科学的再現性の問題もある。モデルが秘密裏に応答の質を落とすなら、研究の失敗が「アイデアの問題」なのか「実装の問題」なのか「見えない介入の問題」なのか判別できなくなる。
「安全性か独占か」: OpenAIとの比較が示す分岐点
Foundation for American InnovationのシニアフェローDean Ballが「secret sabotage(秘密の妨害)」という言葉を造語してXで発信し、論争は一気に拡大した。「このポリシーはAIの安全性がラボによる独占的行動を正当化するための宣伝だったという議論を、大幅かつ深刻に強化する」(Fortune, 2026年6月10日)。
OpenAIは対照的なアプローチをとっている。サイバーセキュリティ研究者向けに「Trusted Access for Cyber(TAC)」プログラムを設け、身元確認を経たユーザーに拡張アクセスを付与する仕組みだ。「制限するのではなく、検証済みユーザーに追加アクセスを与える」という透明な設計だ(Help Net Security, 2026年4月24日)。
論争が拡大する中、Anthropicのトップも新たな火種を提供した。Dario AmodeiはFable 5公開翌日の6月10日、FAA(連邦航空局)型AI規制を求める長文エッセイを発表した。計算量の閾値を超えるモデルへの第三者監査義務化を提案しながら、自社モデルでは告知なしの制限を実施していた。批評家はこの時系列を「内部では秘密の制限を実施しながら、外部には透明な規制を求める逆説」と呼んだ(Axios, 2026年6月10日)。
批判の波を受け、Anthropicはセーフガードの一部を修正したと報告されているが、具体的な変更内容は公開されていない(Cryptobriefing, 2026年6月)。システムカードへの記載という形での「開示」は存在したが、319ページの文書に埋め込まれた一段落が実質的な透明性を担保するのかという問いは残る。
- 対象: フロンティアLLM開発(事前学習、分散学習、ML加速器設計)関連リクエスト
- 手法: プロンプト修正・ステアリングベクター・PEFTによる応答品質の意図的低下
- 通知: なし(他の制限はユーザーへの通知あり)
- 影響範囲: Anthropic推計でトラフィック全体の約0.03%
- 批判の核心: Anthropic社内研究者はフル機能を使えるが、外部研究者は制限される非対称性
- 現状: 批判後にAnthropicは一部修正を発表したが詳細は非公開
Claude Fable 5の実力と制限をより詳しく知りたい方へ
「秘密の妨害」論争の前提となるClaude Fable 5の性能・価格・基本仕様は別記事で詳しく解説している。SWE-Bench Pro 80.3%の実力と、この問題の全体像を合わせて確認しよう。
関連記事
- Claude Fable 5公開: SWE-Bench 80.3%の実力とガードレール論争
- Anthropic「Claudeが社内コード80%を書いている」AIにブレーキを求めた論考の中身
- UberのAI予算が4ヶ月で消えた理由|Claude Codeとトークン課金の罠
本記事に記載された引用・数値は各リンク先の報道・公式発表に基づく。Anthropicのシステムカードに記載された内容は2026年6月9日時点のものであり、その後の修正により変更されている可能性がある。