メインコンテンツへスキップ
AI News 17分で読める

$20のAIエージェントがMcKinsey「Lilli」機密4600万件に侵入した事件

この記事はこんな人におすすめ
  • エンタープライズAI基盤を構築・評価するエンジニアとアーキテクト
  • 社内AIプラットフォームのセキュリティを担当するCISO・ITマネージャー
  • AI時代のサイバーセキュリティに関心のある開発者

「$20で全部やれた。これが今のAIエージェントの現実だ」。2026年3月9日、セキュリティスタートアップCodeWallの創設者Paul Priceはこの事実をSNSに投稿した。前日、彼が訓練した自律AIエージェントはMcKinsey & Companyの社内AIプラットフォーム「Lilli」に2時間で侵入し、M&Aや経営戦略を含む4600万件のチャット履歴へのアクセス権を獲得していた。人間のオペレーターは起動以外に一切関与していない。攻撃費用はLLM推論のAPIトークン代として約$20だった。

この事件が企業AIにとって重要なのは、使われた技術が最先端でも難解でもなかったからだ。認証の欠如、SQLインジェクション、公開APIドキュメント。2000年代から続く古典的なアプリケーションセキュリティの失敗が、AIプラットフォームを経由して前例のない規模の機密データへのアクセス経路となった。

攻撃の全貌: 2時間、$20、人間の介入ゼロ

2026年2月28日、CodeWallは自社の自律型オフェンシブAIエージェントをオープンインターネットに向け、「ターゲットを自分で選べ」と設定した。エージェントが選んだのはMcKinseyのLilliだった。

Lilliは世界最大のコンサルティングファームの情報基盤だ。OpenAI GPT-4oとAzure OpenAIを使ったRAGプラットフォームで、4万3000人超のコンサルタントが機密クライアントデータを入力できる唯一の社内ツールとして2年以上稼働していた。月50万プロンプト以上を処理し、M&A案件、経営戦略、クライアントの財務情報がここを通っていた。

エージェントは2時間で偵察・解析・攻撃・報告のすべてを完了した。Price本人の言葉は簡潔だ。「ターゲットの調査から分析、攻撃、レポートまで完全に自律で実行された」(出典: BankInfoSecurity、2026年3月)。

McKinseyへの責任ある開示は翌3月1日に行われ、2日以内に全未認証エンドポイントにパッチが当てられた。3月11日の公式声明で同社はこう述べた。「脆弱性は迅速に修正された。クライアントデータや機密情報への不正アクセスの証拠はない」(出典: McKinsey公式声明)。

技術的な死角: JSONキー名へのSQLインジェクション

Lilliの開発チームが犯したミスは「珍しい」ものではなかった。古典的なアプリケーションセキュリティの問題だが、AIシステムに特有の見えにくさを持っていた。

200以上あるAPIエンドポイントのドキュメントは公開されており、誰でも閲覧できた。そのうち22エンドポイントは認証を一切要求しなかった。

問題の核心はJSONフィールド名のSQLインジェクションだ。通常のSQLインジェクション対策「パラメータ化クエリ」はLilliも実装していた。しかし、JSONオブジェクトのは適切にパラメータ化していたのに、キー名(フィールド名)はSQLクエリに直接連結していた。

セキュリティ研究者Edward Kiledjianはこの手法を「技術的に筋が通っている」と評しつつ、見落とされる理由を説明した。「ほとんどのセキュリティテストツールは入力のをテストするが、フィールドはテストしない。LilliのバックエンドがJSONのキーをSQLに直接連結していたとすれば、多くの評価が見逃すブラインドスポットとなる」(出典: kiledjian.com、2026年3月)。

悪意あるペイロードをJSONキー名として渡すと、DBエラーメッセージにそのキー名がそのまま反映された。これはSQLインジェクション可能なフィールドの典型的なサインだ。標準的な自動スキャナーはこれを2年間見逃し続けた。

データより危険な「書き込み権限」

CodeWallが主張する露出データの規模は以下の通りだ。

  • 4600万件のチャットメッセージ(M&A案件・経営戦略・クライアント情報を含む平文)
  • 57,000ユーザーアカウント
  • 72万8000ファイル(PDF・Excel・PowerPoint)
  • 26万6000以上のOpenAIベクターストア
  • 95のシステムプロンプト(12モデルタイプにまたがる)

ただしKiledjianは懐疑的な見方も示す。「CodeWallのブログには概念実証のペイロード、ハッシュ、スクリーンショット、権限境界を示す証拠がない。4600万という数字が実際に取得したデータか、メタデータから推定したDB行数かも不明だ」。McKinseyは具体的な数字を否定も肯定もしていない。

しかし、実際のデータ漏洩より深刻かもしれないのがシステムプロンプトへの書き込み権限だ。

95のシステムプロンプトはLilliの「思考の枠組み」だ。同じDBに格納されており、同じエクスプロイトで書き換え可能だった。セキュリティディレクターのRajat Rai(Dream11)はこう指摘した。「みんなが話していないのはここだ。攻撃者がその権限を持てば、全4万3000人のコンサルタントに対してLilliがどう推論し、どう応答するかをサイレントに書き換えられる」(出典: NeuralTrust分析)。

コード変更もデプロイも不要。検知もされない。標準的なエンタープライズのセキュリティフレームワークはAIシステムプロンプトの整合性チェックを想定していない。変更履歴も、バージョン管理も、監査ログも、ほとんどの組織では存在しない。

BCGも: 同じ手法で3.17兆行が露出

Lilliのパッチから数週間後、CodeWallの同じエージェントはBCG(ボストン・コンサルティング・グループ)のデータウェアハウス「X Portal」を標的にした。

今度の被害規模はLilliを遙かに超えた。3.17兆行、131テラバイトのデータに、認証なしSQL実行エンドポイント1つで到達した。露出した情報は5億5300万件の個人職歴、87億件の従業員記録、128億件のスキルレコード、2億5200万件の報酬記録(シニアパートナーの報酬含む)に及ぶ。BCGは48時間以内に対応し、同様に「クライアントデータへの不正アクセスの証拠はない」と声明を出した。

同じ脆弱性クラスが世界トップのコンサルティングファーム2社で連続して見つかった事実は偶然ではない。Rajat Raiはこう述べた。「これはAI固有の脆弱性ではない。認証の欠如、SQLインジェクション、APIドキュメントの公開露出。古典的なアプリケーションセキュリティの失敗が、たまたまAIシステムに到達しただけだ」(出典: NeuralTrust分析)。

65%の企業がAIエージェントセキュリティ事件を経験済み

LilliとBCGの事例は特殊ではない。Cloud Security Alliance(CSA)が2026年4月に公表した調査(IT/セキュリティ専門家418人対象)は厳しい現実を示す。

  • 65%の企業がAIエージェント関連のセキュリティインシデントを過去12カ月に経験
  • 82%の企業のIT環境に「知らない間に展開された」AIエージェントが稼働中
  • 68%の組織がAIエージェントと人間のアクティビティを明確に区別できない
  • 53%の組織でAIエージェントが意図した権限を超過する事態が発生

より広い調査(VentureBeat)では、AIエージェントを稼働させている企業の**88%**が過去1年でセキュリティインシデントを経験または疑いを持ったと回答している(出典: CSA 2026年4月プレスリリースVentureBeat)。

Teleport 2026年調査によれば、過剰特権のAIシステムを持つ企業のインシデント率は**76%だが、最小権限を徹底している企業では17%**まで下がる。差は4.5倍だ(出典: Teleport)。

日本固有の課題もある。freeeの調査では、日本のIT担当者の**66%が2026年に従業員のシャドーAI利用が増加したと報告したが、全容を把握できているのは13.6%**にとどまった。

自社AIが危ないか: 今すぐ確認する3つのチェックポイント

Rajat Raiが指摘した通り、Lilli事件で使われた手法はAI特有の難解な技術ではなかった。企業AIプラットフォームを展開または評価するエンジニアが今すぐ確認すべき3点を整理する。

チェック1: 全APIエンドポイントの認証

全エンドポイントを一覧化し、認証が実装されているか確認する。特に注意すべきは「内部向けのつもり」のエンドポイントがインターネットから到達可能でないか、そしてSwagger/OpenAPIドキュメントが公開されていないかだ。OAuth 2.1 + PKCEが2026年のエンタープライズ標準とされている。

チェック2: JSONキー名のSQLインジェクション対策

通常のパラメータ化クエリチェックに加え、JSONオブジェクトのキー名がSQLクエリに直接連結されていないか確認する。標準的な自動スキャナーはこの経路を見逃しやすい。OWASP LLM Top 10(2025版)のLLM05(Improper Output Handling)が参考になる。

チェック3: システムプロンプトの整合性管理

システムプロンプトをデータベースに格納している場合、変更履歴(バージョン管理)、変更検知アラート、定期的な整合性チェックが存在するか確認する。これは既存のエンタープライズセキュリティフレームワークでは想定されていないため、明示的に設計に組み込む必要がある。OWASP LLM07(System Prompt Leakage)も参照。

Lilliは2年以上稼働してから初めてペネトレーションテストに相当する検査を受けた。それがどんな結果を招いたかは、業界が広く知るところとなった。AIプラットフォームにおけるセキュリティは「後から追加できる機能」ではない。

2026年エンタープライズAIセキュリティ: 重要統計
  • 65% の企業がAIエージェントセキュリティインシデントを過去12カ月に経験(CSA 2026)
  • 82% の企業のIT環境に知らない間に展開されたAIエージェントが存在
  • 過剰特権AIのインシデント率 76% vs 最小権限適用時 17%(4.5倍の差)
  • システムプロンプトへの書き込み権限は通常のDB管理者アクセスと同等の危険性を持つ
  • 日本では企業IT担当者の 66% がシャドーAI利用増加を報告、把握できているのは 13.6% のみ

AIコーディングツールのサプライチェーン攻撃も読む

npmパッケージを経由してAI開発環境を標的にしたMiasmaワームの詳細も解説。

詳しく見る

関連記事


本記事の情報はCodeWall社のブログ、OECD.AIインシデントレジストリ、The Register、BankInfoSecurity等の公開情報に基づく。CodeWallが主張する被害規模(4600万件等)はMcKinseyが独立して確認した数字ではない。McKinseyは「クライアントデータへの不正アクセスの証拠はない」と述べているが、脆弱性の存在と修正については認めている。自社システムへのセキュリティ対策については専門家に相談すること。

Share