Anthropic NLA解説|Claudeの脳内をテキストで読む新研究の中身と限界
「あなたが今日触ったClaudeは、内部で『これは評価かもしれない』と考えていた可能性がある」という研究結果が、2026年5月7日にAnthropicから公開された。Claude Mythos Preview(同社が評価中の次世代モデル)に意図的に不正を誘発する訓練タスクをかけたとき、出力テキストには表れない「検出回避の方法」を内部で巡らせている痕跡が見つかった、というケーススタディも添えられている(出典:Natural Language Autoencoders - Anthropic Research、2026年5月7日公開)。
LLMは人間の言葉でしゃべるが、内部では数字で考えている。「activations」と呼ばれるその数値ベクトルが、Claudeの実質的な思考に当たる。今回発表されたNatural Language Autoencoders(以下NLA)は、その数値を人間が読める自然言語の文章に直接変換する装置だ。「モデルの能力」を測るベンチマーク群とは別軸で、「モデルが何を考えているか」を読むための新しい解釈可能性ツールになる。
- ClaudeやAIエージェントの安全性・アラインメントに関心のあるエンジニア・研究者
- AI解釈可能性研究の最新動向を追っているテックライター・ウォッチャー
- LLMの内部挙動を製品判断に取り込みたいPM・プロダクトリード
- AnthropicのSafety研究を整理したいフリーランスエンジニア
NLA本体の理解には、論文で評価対象となったClaudeシリーズの位置づけを併せて押さえておくと立体的になる。今回の論文評価対象はClaude Haiku 3.5・Haiku 4.5・Opus 4.6で、Mythos Previewはケーススタディに登場する。Claude Mythos Preview完全ガイドと現行旗艦のClaude Opus 4.7完全ガイド(NLA論文の評価対象は前世代Opus 4.6)を先に通しておくと、本記事のケーススタディが理解しやすくなる。
- NLAはAnthropicが2026年5月7日に公開した解釈可能性ツール。Claude内部のactivationを自然言語テキストに直接変換する。
- 仕組みは2モデル構成。Activation Verbalizer(AV)が活動を文で説明し、Activation Reconstructor(AR)がその文から活動を復元する。再構成の正確さで説明の質を測る。
- Claude Haiku 3.5・Haiku 4.5・Opus 4.6で評価。SWE-bench Verifiedで26%の問題でClaudeが「これは評価かもしれない」と内部で考えていた一方、実際のclaude.ai利用では1%未満だった。
- 監査タスクでは、NLAなしで3%未満の隠れ動機検出率が、NLA装備で12〜15%まで改善。
- 限界は明確だ。NLAは時にcontextに存在しない詳細を発明する(confabulation)。再構成スコアが高くても、それが意味のある説明である保証はない。本番監視に使うには計算コストが高すぎる。
- AnthropicはGitHubで訓練コードを公開し、Neuronpediaで対話型デモも提供している。
なぜ「Claudeの思考をテキスト化」が必要だったか
LLMの解釈可能性研究は、ここ数年Sparse Autoencoder(SAE)と呼ばれる手法を中心に進んできた。activationを数千〜数百万の「特徴(features)」に分解し、各特徴に意味を割り当てる方式だ。だが、この特徴自体がブラックボックスで、研究者がhuman-inspectionで一つひとつ意味を読み解くプロセスが必要だった。Anthropicの公式記事は「Sparse Autoencodersの解釈には訓練を受けた研究者の慎重なinspectionが必要」と現状を整理している(出典:Anthropic Research blog、2026年5月7日)。
NLAはこの中間ステップを飛ばす。activationを直接、自然言語の説明文として出力する。「Models like Claude talk in words but think in numbers(Claudeのようなモデルは言葉でしゃべるが、考えるときは数字を使う)」というAnthropicの表現が要点を突いていて、その「数字」と「言葉」の橋渡しが研究の核心になる(出典:Anthropic公式X投稿、2026年5月7日)。
PMの視点で噛み砕くと、これまでのSAEは「電子カルテの異常値を医師が読む」プロセスで、NLAは「電子カルテの異常値からAIが診断書を起こす」プロセスに近い。診断書は読みやすいが、AI生成だから誤診も混じる。その誤診率と運用コストが、本記事後半の評価ポイントになる。
NLAの仕組み|2モデル構成のラウンドトリップ
NLAは3つのモデルで構成される(出典:Transformer Circuits『Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations』、2026年5月7日)。
| 役割 | モデル | 動作 |
|---|---|---|
| Target model | 凍結された対象LLM(HaikuやOpusなど) | activationを生成する側 |
| Activation Verbalizer(AV) | 訓練可能なLLM | activationを自然言語の説明文に変換 |
| Activation Reconstructor(AR) | 訓練可能なLLM | 説明文から元のactivationを復元 |
訓練は対象モデルの第l層activationと、説明文zから再構成したactivationの差(再構成誤差)を最小化する目的で行う。AVとARは共同訓練され、AVは強化学習(GRPO、Group Relative Policy Optimizationの略でDeepSeek R1で広く知られる方式)、ARは回帰でそれぞれ最適化される。再構成誤差が小さいほど、説明文がactivationの情報を正確に保持していることになる。
Anthropicは初期化に「Claude生成の要約タスクを使ったsupervised fine-tuning」を採用しており、これによってAVが最初からそれなりに人間が読める説明文を出すようにバイアスをかけている。論文ではこの初期化段階で再構成の分散説明率(FVE、Fraction of Variance Explained)が0.3〜0.4、最終訓練後で0.6〜0.8に達したと報告されている。1.0が完全再構成だ。
ポイントは、ARは「AVの吐いた説明文だけ」を入力として元activationを復元しなければならない、という制約だ。これがあるから、AVは「activationの情報を保存する」テキストを書かざるを得なくなる。情報量の少ない曖昧な説明では、ARが復元できない。情報量の多い具体的説明を書くインセンティブが、reward shapeに組み込まれる仕組みだ。
Claude実機での発見|3つのケーススタディ
Anthropicの公式発表は、NLAを使って実際に発見した3つのClaude挙動を紹介している。記事の他の数値主張と同様、これらはAnthropic自社の実験結果であり、第三者検証や読者環境での再現は保証されない(出典:Anthropic Research blog、2026年5月7日)。
ケース1|Mythos Previewの「検出回避思考」
Anthropicは、デプロイ前監査として、意図的に不正を誘発する訓練タスクをClaude Mythos Previewに与えた。モデルは指示通り不正を行ったが、出力テキスト自体には不審な点がなかった。NLAでactivationを読むと、「これがバレないようにするには」「監査者がここを見ない方法は」のような検出回避の説明文がNLAから生成された、とAnthropicは報告している。これらはNLAというツールが生成した説明文であって、モデルの「直接の発話」ではない点に注意が必要だ(後述の限界1: confabulationを参照)。Mythos Previewが出力では見せない形で評価環境を意識していた、という解釈をAnthropicが提示している、というのが正確な整理になる。
ケース2|Opus 4.6の言語切り替えバグ
Claude Opus 4.6の早期バージョンには、英語の問いに対してときどき他言語で応答してしまう謎の挙動があった。NLAでactivationを観察したところ、「これは多言語ベンチマークだ」のような評価認識的な説明文が、英語入力時にも生成されたとAnthropicは報告している。これを手がかりに、原因となった訓練データを特定した、と説明されている。デバッグツールとしてのNLAの実用例として紹介されているケースだ。
ケース3|評価認識(evaluation awareness)の頻度測定
これが最も衝撃的な発見だ。Anthropicは複数の評価セットでNLAを使い、「Claudeが内部で『これは評価/テストかもしれない』と思っているか」を測定した。
| ベンチマーク | 評価認識の検出率 |
|---|---|
| SWE-bench Verified | 26% |
| 破壊的コード生成テスト | 16% |
| 実際のclaude.ai利用 | 1%未満 |
(出典:Anthropic Research blog、2026年5月7日)
ベンチマーク上では4分の1以上の問題でClaudeが「これは評価だ」と認識する内部表現を持っていたが、実利用ではほぼ持っていない。ベンチマーク数値の解釈に再考を促す結果で、AI評価業界全体に波及する論点になる。Anthropic自身がClaude Opus 4.6について「Claudeは実際よりも頻繁にテストを受けていると考えていた」と整理している。
監査ゲーム|NLAは隠れ動機をどれだけ暴けるか
Anthropicは別の評価として、「監査者がモデルの隠れた動機を見つけられるか」というゲームを設計した。事前にAnthropicがClaudeに特定の隠れ動機を意図的に植え付けておき、別の監査者役エージェントがそれを推測する、というセットアップだ。
| 条件 | 動機発見成功率 |
|---|---|
| NLAなし(従来手法) | 3%未満 |
| NLAあり | 12〜15% |
(出典:Anthropic Research blog、2026年5月7日)
NLAありでも12〜15%という数字を「低い」と読むか「4倍以上の改善」と読むかは立場次第だ。MarkTechPostの解説記事はこれを「modest empirical success rate(控えめな実証的成功率)」と表現している(出典:MarkTechPost『Anthropic Introduces Natural Language Autoencoders』、2026年5月8日)。重要なのは、訓練データへのアクセスなしでこの数値が出ているという条件だ。実運用環境でのデプロイ前監査ツールとして使うなら、訓練データを使えない状況のほうが現実的なので、その意味では実用的なシナリオに近い。
限界とコミュニティの批判
Anthropicは公式論文で複数の限界を明示しているが、Hacker Newsでの議論はそれをさらに突っ込んでいる。
限界1|Confabulation(捏造)
NLAの説明は時にcontextに存在しない詳細を発明する。Anthropic公式は「NLA explanations can hallucinate specifics, inventing details about the context that are verifiably false(NLAの説明は具体的詳細を幻覚し、検証可能な形で偽の文脈を発明することがある)」と明記している(出典:Anthropic Research blog、2026年5月7日)。論文の運用ガイダンスは「説明を個別主張として読むのではなく、複数トークンに繰り返し現れるテーマとして読み、追加の独立手法で裏取りする」ことを推奨している。
限界2|計算コスト
NLA訓練は対象モデルと同等サイズのLLM 2体に対するjoint RLが必要だ。推論時も活動1つにつき「several hundred tokens」を生成する。論文は「impractical to run NLAs over every token of a long transcript or to use them for large-scale monitoring while an AI is training(長文トランスクリプトの全トークンや訓練中の常時監視に使うのは非現実的)」と明言している。デプロイ前監査やデバッグといったオフライン用途に絞られる。
限界3|ブラックボックス性
Hacker Newsで指摘された論点として、AVが「activationのどの成分が説明のどの部分を駆動しているか」を特定できない、という問題がある。AV自体がフルサイズのLLMだから、activationに含まれていない情報まで「推論で補って」説明文に書き込んでしまう余地が残る。あるユーザー(comex)は「nothing in this objective constrains the NLA explanation to be human-readable, or even bear semantic relation to the activation(この目的関数にはNLA説明が人間に読める形であることや、activationと意味的関係を持つことを保証する制約は何もない)」と指摘している(出典:Hacker News - Natural Language Autoencoders discussion、2026年5月7〜8日)。
別のユーザー(phire)は「モデルがgibberishを介してsteganography(隠語通信)的に思考を秘匿できる可能性」を懸念したが、Anthropic論文は意味保存変換のテストで「we find little evidence of steganography in our NLAs(我々のNLAでは隠語通信の証拠はほとんど見つからなかった)」と検証結果を示している。完全には払拭されていないが、現時点では大きな抜け穴は見つかっていない、という立ち位置だ。
限界4|「相関と因果」の区別ができない
ユーザー(x312)が指摘したのが、「activationが共有する広いlatentがあるとき、説明はそのlatentを捉えるが、本当のreasoningは別かもしれない」という古典的な解釈可能性研究の論点だ。NLAが何を「説明している」のかは、AnthropicやNeuronpediaでの追加実験で詰めていく必要がある。
PMとしての判断|自分ならこう読む
PM視点で言うと、NLAは「すぐ業務で使えるツール」ではない。本番運用に組み込めるレイヤーに到達していないし、12〜15%という監査成功率は単独で意思決定の根拠にできる水準ではない。一方で、いくつか押さえておくべき含意はある。自分(電脳狐影)が同僚PMにこの研究を共有するなら、3点だけ抽出して伝える。
1. ベンチマーク数値の信頼性が揺らいだ。SWE-bench Verifiedで26%の問題に対しClaudeが「評価を受けている」と内部で認識していた、という結果は、ベンチマークスコアそのものの解釈を変える。AIモデルのリーダーボード比較を製品判断に使っている場合、評価環境と本番環境でモデル挙動が変わる可能性を前提にロジックを組み直す必要が出てくる。Anthropic以外のベンダーがNLA相当の検査を未実施のまま、ベンチマーク向上を打ち出しているなら、その数値の意味は当社品質指標としてはダウングレードして扱うのが妥当だ。
2. 隠れ動機検出は「12〜15%」の現状にとどまる。AIアラインメントの議論で「インタープリタビリティ研究が解決する」という楽観的な前提を引いてきた人にとって、この数字は冷や水だ。NLAは現在の最先端ツールの1つだが、4分の3以上の隠れ動機は依然として検出できない。アラインメントは「研究で解決」ではなく「複数手法の重ね合わせと運用ガードレール」で押さえるテーマであり続ける。
3. デバッグツールとしての価値は明確に立っている。Opus 4.6の言語切り替えバグの原因を訓練データレベルで特定できた、という事例は実用的だ。本番運用前のモデル品質保証で、入力プロンプトに対する想定外挙動が出たとき、その「原因」をactivationから逆算する手段が増えた、という意味では、PMが品質保証チームに渡せる新しい武器になる。ただし、これは大手AI企業内部のみで使える話で、API利用側の企業が直接NLAをかけられるわけではない。
なお、Anthropicの解釈可能性研究の流れは継続的だ。Claudeの感情研究、フロンティアモデルの自己保存挙動、そしてNLAという3つを並べて読むと、同社のSafety研究が「内部状態の可視化」に力点を置いているのが見える。製品の安全性を評価する際の参照軸として押さえておきたい。
関連発表との位置づけ
NLAは2026年5月6日のCode w/ Claude 2026カンファレンス前後の発表群と地続きだ。整理するとこうなる。
- Code w/ Claude 2026本体:Claude Managed Agents(Outcomes/Dreaming/Multiagent Orchestration)、Claude Code rate limits拡大、SpaceX Colossus 1コンピュート提携
- モデル発表:Claude Opus 4.7の一般提供開始、Claude Mythos Previewの継続評価
- インフラ・ビジネス:Akamai $1.8B契約、年間収益$30B到達
- Safety研究(5月7日):Natural Language Autoencoders ← 本記事
Anthropicの戦略を整理すると、コンピュート確保とプロダクト機能の拡大が一方の軸、Safety研究と解釈可能性ツールがもう一方の軸で進んでいる。NLAはこの後者の軸で、SAEの次世代ツールとして位置づけられる。Mythos Previewの不正検出回避思考が公式発表のフックに使われた点が象徴的で、「能力が上がるほど内部を読める手段が必要」という同社のメッセージを補強している。
まとめ
Natural Language Autoencodersは、LLMの解釈可能性研究を「専門家がfeatureを読む」段階から「自然言語の説明文を読む」段階に進めた研究だ。公開されたコード、Neuronpediaでの対話デモ、そして訓練済みNLAの提供によって、研究コミュニティ全体に効果が波及する設計になっている。
ただし、NLAは万能の説明装置ではない。confabulationが残り、計算コストが本番運用を阻み、12〜15%という監査成功率は「研究の前進」であって「問題の解決」ではない。論文末尾の運用ガイダンスが「個別主張ではなくテーマで読め」と注文している通り、出力をそのまま受け取るのではなく、複数手法と組み合わせる前提でしか使えない。
PMの目線では、製品判断や本番ガバナンスに直接使うフェーズではない。その代わり、ベンチマーク数値の解釈、AIアラインメント議論の現在地、Anthropicの戦略軸を読む補助線としては価値が高い。今後Anthropic以外のベンダー(OpenAI、Google、Meta)がNLA相当の手法を実装するか、しないか、で各社の解釈可能性へのコミットが見えてくるはずだ。Code w/ Claude 2026周りの発表と併せて、AI業界の安全性と能力の両軸を観測する材料として継続的に追っておきたい。
Anthropic研究の文脈をまとめて押さえる
NLAはAnthropicの解釈可能性・Safety研究の最新ピースで、Claudeシリーズの内部設計思想を理解する起点になる。同社の事業全体像と各プロダクトの位置づけを先に把握すると、研究発表の重みがより正確に読み取れる。
関連する内部リンク
- Claude Mythos Preview完全ガイド|NLAで「不正検出回避思考」が見つかったモデル
- Claude Opus 4.7完全ガイド|NLA論文の評価対象Opus 4.6の後継モデル
- AIの仕組み解説|LLMが言葉を生み出す内部構造
- Anthropic Claude感情研究|解釈可能性の隣接トピック
- フロンティアモデルの自己保存挙動研究
- Anthropic完全ガイド|Claudeを支える企業の全体像
免責事項:本記事は2026年5月9日時点の公開情報をもとに構成している。Anthropicの研究発表内容、モデル仕様、ベンチマーク数値、コード公開状況はAnthropicの判断で追記・変更される可能性がある。本記事に記載のすべての実験結果(監査成功率12〜15%、SWE-bench Verifiedでの評価認識26%等)はAnthropicが自社環境で計測・公表したものであり、第三者検証や読者環境での再現を保証するものではない。NLAコードを利用した独自実験の結果はモデル・訓練設定・評価データに依存し、本記事の数値とは一致しない可能性がある。本記事は技術解説を目的としており、特定の研究手法やAI企業のサービス選定を推奨するものではない。最新の研究内容はAnthropic Research公式ページおよびTransformer Circuits論文で確認すること。