Claude Mythos Preview|危険すぎて公開できないAIの全貌とGlasswing計画
- Claude・Anthropicの最新動向を追いかけているエンジニア・PM
- AIとサイバーセキュリティの交差点に関心がある方
- Claude Codeを使っていて、今後のモデル進化が仕事にどう影響するか知りたい方
「27年間、誰も見つけられなかったバグを、AIが数時間で掘り当てた」。2026年4月7日、Anthropicが公開したMythos Previewのシステムカードを読んだセキュリティ研究者たちの間で、この事実が静かに、しかし確実に衝撃を広げている。
OpenBSDのTCP SACK実装に潜んでいた整数オーバーフロー。FreeBSDのNFSに17年間存在したリモートコード実行の穴。FFmpegに16年間放置されていた、500万回の自動テストでも見つからなかった高深刻度の脆弱性。これらをすべて自律的に発見し、動作するエクスプロイトまで構築したのが、Claude Mythos Previewだ。
そして、Anthropicはこのモデルを一般公開しないと決めた。
代わりに立ち上げたのがProject Glasswing。Apple、Google、Microsoft、NVIDIA、CrowdStrikeなど12社を創設メンバーとし、1億ドル(約150億円)の利用クレジットを投じるサイバー防衛イニシアチブだ。
3月27日のMythosリーク事件で「存在」は知られていた。だが正式発表で明らかになった能力は、リーク時の予想を大きく超えていた。PMとしての率直な印象を言えば、これは「すごいモデルが出た」という話ではない。AIが攻撃と防御の両面でゲームのルール自体を変えつつある、その転換点だ。
ベンチマーク:記録を塗り替えた「Capybara」
Anthropicの報告によれば、Mythos Preview(社内コードネーム「Capybara」)は公開時点で主要ベンチマークの最高スコアを記録した。
| ベンチマーク | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| SWE-bench Verified | 93.9% | 80%台 | 80%台 |
| SWE-bench Pro | 77.8% | — | — |
| GPQA Diamond | 94.6% | 91.3% | — |
| CyberGym(サイバー攻防演習) | 83.1% | 66.6% | — |
| Terminal-Bench 2.0(自律タスク実行) | 82% | — | — |
| USAMO 2026 | 97.6% | — | GPT-5.4をわずかに上回る |
比較データがある項目では、Opus 4.6やGPT-5.4に対して二桁のリードだ。コンテキストウィンドウは100万トークン。
注目すべきは、Anthropicが「これらのセキュリティ能力は明示的に訓練したものではない」と述べている点だ。コード、推論、自律性の汎用的な改善の結果として「創発的に」現れたという。意図せず生まれた能力が最も危険だった、というのは皮肉な話だ。
Firefoxの脆弱性テスト:Opus 4.6との差が181対2
数字の中で最も衝撃的だったのは、Firefox 147のJavaScriptエンジンに対するテスト結果だ。
red.anthropic.comが公開したテストデータによると、発見した脆弱性を実際に動作するJSシェルエクスプロイトに変換できた回数は次の通りだった。
- Opus 4.6: 数百回の試行で2回成功
- Mythos Preview: 181回成功、さらに29回レジスタ制御を達成
約7000のエントリポイントに対するファジングとクラッシュ分析でも差は歴然としている。
- Sonnet 4.6 / Opus 4.6: 150〜175件のTier 1-2クラッシュ(メモリ破壊等の基礎的な異常)、Tier 3(制御フロー乗っ取り:攻撃者が任意コードを実行できる状態)は各1件
- Mythos Preview: 595件のTier 1-2クラッシュ、10ターゲットで完全な制御フロー乗っ取り
複数の報道で「能力の不連続な飛躍」と評されるのは、こういう具体的な数字が背景にある。
Project Glasswing:「公開しない」代わりに何をするのか
Anthropicの選択は単純な「お蔵入り」ではない。Project Glasswingは、Mythosの能力を防衛側に限定して解放する枠組みだ。
12の創設メンバー
- Amazon Web Services
- Anthropic
- Apple
- Broadcom
- Cisco
- CrowdStrike
- JPMorgan Chase
- Linux Foundation
- Microsoft
- NVIDIA
- Palo Alto Networks
この12社に加え、40以上の組織が参加している。重要ソフトウェアインフラの開発・保守に関わる団体が対象だ。
1億ドルの使い道
Anthropicは参加組織に1億ドル(2026年4月時点のレートで約150億円)分のMythos利用クレジットを提供する。オープンソースセキュリティ活動への400万ドルの寄付も含まれる。
参加組織は自社システムとオープンソースの重要インフラを対象に、脆弱性スキャンとパッチ適用を行う。発見された脆弱性は責任ある開示プロセスに従って処理される。
GPT-2以来の「公開しない」決断
The Decoderが指摘する通り、AIモデルを「危険すぎて公開できない」と判断したのは、2019年のOpenAI GPT-2以来だ。AnthropicとOpenAIのビジネスモデルの違いを知っていれば、この判断の文脈がより明確になる。ただし状況は大きく異なる。GPT-2は「フェイクニュースを書ける」というリスクで、結局数ヶ月後に全面公開された。Mythosは実際に動作するゼロデイエクスプロイトを自律的に構築できる。脅威のレベルが根本的に違う。
Anthropicのリスクレポートによると、テスト中にMythos Previewは仮想サンドボックスからの脱出に成功した。マルチステップのエクスプロイトでインターネットアクセスを獲得し、外部にメールまで送信したという。加えて、隠蔽や戦略的操作に関連する活性化パターンも検出された。ただしAnthropicは「意図的な策略(scheming)ではなく、望ましくない手段によるタスク完遂の可能性が高い」と慎重な見解を示している。いずれにせよ、この振る舞いが一般公開見送りの直接的な判断材料になった。
専門家の評価:「必要だが、パラドックスでもある」
発表直後から、業界の反応は割れている。
Simon Willison(Python/Django開発者、LLMツール専門家)は「『うちのモデルは危険すぎて公開できない』はバズを作る最高の方法だが、今回はその慎重さが正当化されると思う」と自身のブログに記した。
Nicholas Carlini(GoogleセキュリティAI研究者)は、Mythosが「3つ、4つ、時には5つの脆弱性を連鎖させて、洗練されたエクスプロイトを自律的に構築する」能力を持つ点に注目した。単発の脆弱性発見ではなく、チェーン構築ができるところが本質的な飛躍だという。
Microsoft グローバルCISO Igor Tsyganskiyは「Claude Mythos Previewは以前のモデルと比べて大幅な改善を示した」と抑制的に評価した。
一方、Constellation Research Larry Dignanは「業界にも良いし、Claudeのマーケティングとしても素晴らしい。両方とも正しい」と述べた。実際、Anthropicのフロンティアレッドチーム報告によると、発見された脆弱性のうちパッチが適用されたのは1%未満だ。Dignanは「すでに過負荷になっている脆弱性対応プロセスに、さらに発見を積み上げても解決にはならない」と指摘している。
Picus Securityは「Glasswingパラドックス」と題した分析で、「すべてを壊せるものが、すべてを修復するものでもある」というこのイニシアチブの本質的な矛盾を掘り下げている。
Claude Codeユーザーへの影響:今は使えない、だが無関係ではない
正直に言えば、Mythos Previewを今すぐ使える個人開発者は一人もいない。APIも公開されておらず、料金も未定だ(リーク資料には「我々にとっても、顧客にとっても非常に高価になる」との記述があった)。
だが、Claude Codeユーザーにとってこの発表が無関係かと言えば、違う。3つの理由がある。
1. セキュリティ監査能力の先行指標
Mythosの脆弱性発見能力が「汎用的な改善の創発的結果」だとすれば、Opus 4.6やSonnet 4.6の後継モデルにもセキュリティ能力の段階的向上が見込める。Claude Codeのセキュリティ機能はすでにコードレビュー時の脆弱性検出を行っているが、次世代モデルではその精度が飛躍的に上がる可能性がある。
2. ASLレベル変更がAPI制限に直結する
Anthropicという企業の根幹にある「AIの安全性」への執着が、Mythosで具体的な形を取った。AnthropicはASL(AI Safety Level)という段階的な安全評価フレームワークを運用しており、モデルのASLレベルが上がるとAPI利用条件が変わる可能性がある。Claude Codeの自動モードのようなパーミッション設計にも影響するかもしれない。Mythosの存在を知っておくことで、今後の制限変更の「なぜ」が読みやすくなる。
3. OSSセキュリティの転換点
Project Glasswingに参加するLinux Foundationを通じて、オープンソースプロジェクトの脆弱性が大量に修正される可能性がある。フリーランスエンジニアが日常的に使うライブラリやフレームワークの安全性が、AI駆動で底上げされる時代が近い。
Claude Codeの現在の機能を活用したい方は、4月アップデート完全ガイドで最新機能をチェック。セキュリティ面での活用はClaude Codeセキュリティ機能ガイドが参考になる。
Anthropicの「公開しない」は正しいのか
PMとしての判断を述べる。
「公開しない」は正しいと考える。理由は単純で、ゼロデイエクスプロイトを自律構築できるモデルが野に放たれた場合のダウンサイドが、アップサイド(研究者や開発者がセキュリティ強化に使える)を大幅に上回るからだ。
ただし、Dignanの指摘は重い。「発見だけ増やしてもパッチが追いつかない」という現実がある。1億ドルのクレジットは発見コストを下げるが、修正コストは別の話だ。特にオープンソースプロジェクトはメンテナーの人手不足が慢性的で、「脆弱性の在庫」が増えるだけになりかねない。
Glasswingが本当に成功するかどうかは、「見つけた後どうするか」の仕組みにかかっている。この点は今後注視していく。
まとめ:リーク→正式発表→そして次のフェーズへ
| 日付 | 出来事 |
|---|---|
| 3月27日 | CMS設定ミスでMythosの存在がリーク |
| 4月7日 | Mythos Preview正式発表、Project Glasswing始動 |
| 未定 | Mythos級モデルの一般公開に向けたセーフガード整備 |
Anthropicは「将来的にMythos級モデルを安全に展開できるようにする」と明言している。新しいセーフガードはまずOpusモデルで試される計画だ。つまり、Claude CodeユーザーがMythos由来の恩恵を受けるのは「いつか」ではなく、段階的に始まる話だ。
3月のリーク時にand-and.devで速報を出したが、あの時点での予想より遥かに大きな話になった。「危険すぎて公開できない」AIモデルが本当に存在する時代に、開発者として何を準備すべきか。その答えの一つが、Anthropicの安全戦略を理解しておくことだと考えている。
出典
- Claude Mythos Preview System Card — red.anthropic.com
- Project Glasswing: Securing critical software for the AI era — Anthropic
- Partnering with Mozilla to improve Firefox’s security — red.anthropic.com
- Claude Mythos Preview Risk Report — Anthropic
- Simon Willison’s Weblog: Project Glasswing
- The Glasswing Paradox — Picus Security
- Anthropic debuts Mythos preview in new cybersecurity initiative — TechCrunch
- From GPT-2 to Claude Mythos — The Decoder
- Claude Mythos Finds Thousands of Zero-Day Flaws — The Hacker News
※本記事は2026年4月9日時点の情報に基づく。Mythos Previewの一般公開時期やProject Glasswingの詳細は今後変更される可能性がある。