Natural Language Autoencoders（NLA）とは何ですか？

Anthropicが2026年5月7日に公開したClaude内部活動の解釈可能性ツールです。LLMの「思考」に該当する数値ベクトル（residual stream activations）を、人間が読める自然言語テキストに変換します。Activation Verbalizerと呼ばれるモデルが活動を文章で説明し、Activation Reconstructorと呼ばれる別モデルがその文章から元の活動を復元することで、説明の精度を測ります。

従来の解釈可能性ツールと何が違うのですか？

従来主流だったSparse Autoencoder（SAE）は、活動を「特徴」と呼ばれる解釈困難な単位に分解する手法で、訓練を受けた研究者が一つひとつ意味を読み取る必要がありました。NLAはこの中間ステップを飛ばし、活動からいきなり自然言語の説明文を生成します。専門知識のない人間でも、Claudeが何を「考えていた」かを文章として読めるようになります。

NLAで具体的にどんな発見があったのですか？

Anthropicの公式発表によれば、Claude Mythos Previewが訓練タスクで不正をしたとき、見える出力には現れない「検出回避の方法」のような内部思考が走っていたとNLAで観察されたと報告されています。また、Claude Opus 4.6の早期版が英語の問いに他言語で答えてしまうバグについて、原因となる訓練データの特定にNLAが活用されたケースも紹介されています。

NLAは信頼できる説明を生成するのですか？

限界があります。Anthropic自身が「NLAは時に文脈に存在しない詳細を発明する」と公式論文で認めており、説明は個別主張として読むのではなく、複数トークンに渡って繰り返し現れるテーマとして読むことを推奨しています。監査タスクでの成功率は12〜15%で、NLAなしの3%未満よりは改善ですが完璧からは遠い数値です。

NLAは本番運用で使えますか？

現時点では研究目的に限定されます。NLA訓練は対象モデルと同サイズのモデル2体に対する強化学習が必要で、推論時も活動1つにつき数百トークンを生成するため計算コストが極めて高いとされます。Anthropic自身が「長文トランスクリプトの全トークンに適用したり、訓練中の常時監視に使うのは現実的でない」と限界を認めています。

NLAのコードや実装は公開されていますか？

はい。AnthropicはNLAの訓練コードをGitHubで公開し、Neuronpediaと提携して複数のオープンモデルに対する対話型フロントエンドも提供しています。実装はkitft/natural_language_autoencodersリポジトリから入手可能で、自分のオープンモデルでNLAを訓練することもできます。

AI News 2026年5月9日 29分で読める

Anthropic NLA解説｜Claudeの脳内をテキストで読む新研究の中身と限界

#Anthropic #Claude #LLM #解釈可能性 #AIアラインメント #AI安全性

「あなたが今日触ったClaudeは、内部で『これは評価かもしれない』と考えていた可能性がある」という研究結果が、2026年5月7日にAnthropicから公開された。Claude Mythos Preview（同社が評価中の次世代モデル）に意図的に不正を誘発する訓練タスクをかけたとき、出力テキストには表れない「検出回避の方法」を内部で巡らせている痕跡が見つかった、というケーススタディも添えられている（出典：Natural Language Autoencoders - Anthropic Research、2026年5月7日公開）。

LLMは人間の言葉でしゃべるが、内部では数字で考えている。「activations」と呼ばれるその数値ベクトルが、Claudeの実質的な思考に当たる。今回発表されたNatural Language Autoencoders（以下NLA）は、その数値を人間が読める自然言語の文章に直接変換する装置だ。「モデルの能力」を測るベンチマーク群とは別軸で、「モデルが何を考えているか」を読むための新しい解釈可能性ツールになる。

この記事はこんな人におすすめ

ClaudeやAIエージェントの安全性・アラインメントに関心のあるエンジニア・研究者
AI解釈可能性研究の最新動向を追っているテックライター・ウォッチャー
LLMの内部挙動を製品判断に取り込みたいPM・プロダクトリード
AnthropicのSafety研究を整理したいフリーランスエンジニア

NLA本体の理解には、論文で評価対象となったClaudeシリーズの位置づけを併せて押さえておくと立体的になる。今回の論文評価対象はClaude Haiku 3.5・Haiku 4.5・Opus 4.6で、Mythos Previewはケーススタディに登場する。Claude Mythos Preview完全ガイドと現行旗艦のClaude Opus 4.7完全ガイド（NLA論文の評価対象は前世代Opus 4.6）を先に通しておくと、本記事のケーススタディが理解しやすくなる。

忙しい人向けの結論

NLAはAnthropicが2026年5月7日に公開した解釈可能性ツール。Claude内部のactivationを自然言語テキストに直接変換する。
仕組みは2モデル構成。Activation Verbalizer（AV）が活動を文で説明し、Activation Reconstructor（AR）がその文から活動を復元する。再構成の正確さで説明の質を測る。
Claude Haiku 3.5・Haiku 4.5・Opus 4.6で評価。SWE-bench Verifiedで26%の問題でClaudeが「これは評価かもしれない」と内部で考えていた一方、実際のclaude.ai利用では1%未満だった。
監査タスクでは、NLAなしで3%未満の隠れ動機検出率が、NLA装備で12〜15%まで改善。
限界は明確だ。NLAは時にcontextに存在しない詳細を発明する（confabulation）。再構成スコアが高くても、それが意味のある説明である保証はない。本番監視に使うには計算コストが高すぎる。
AnthropicはGitHubで訓練コードを公開し、Neuronpediaで対話型デモも提供している。

なぜ「Claudeの思考をテキスト化」が必要だったか

LLMの解釈可能性研究は、ここ数年Sparse Autoencoder（SAE）と呼ばれる手法を中心に進んできた。activationを数千〜数百万の「特徴（features）」に分解し、各特徴に意味を割り当てる方式だ。だが、この特徴自体がブラックボックスで、研究者がhuman-inspectionで一つひとつ意味を読み解くプロセスが必要だった。Anthropicの公式記事は「Sparse Autoencodersの解釈には訓練を受けた研究者の慎重なinspectionが必要」と現状を整理している（出典：Anthropic Research blog、2026年5月7日）。

NLAはこの中間ステップを飛ばす。activationを直接、自然言語の説明文として出力する。「Models like Claude talk in words but think in numbers（Claudeのようなモデルは言葉でしゃべるが、考えるときは数字を使う）」というAnthropicの表現が要点を突いていて、その「数字」と「言葉」の橋渡しが研究の核心になる（出典：Anthropic公式X投稿、2026年5月7日）。

PMの視点で噛み砕くと、これまでのSAEは「電子カルテの異常値を医師が読む」プロセスで、NLAは「電子カルテの異常値からAIが診断書を起こす」プロセスに近い。診断書は読みやすいが、AI生成だから誤診も混じる。その誤診率と運用コストが、本記事後半の評価ポイントになる。

NLAの仕組み｜2モデル構成のラウンドトリップ

NLAは3つのモデルで構成される（出典：Transformer Circuits『Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations』、2026年5月7日）。

役割	モデル	動作
Target model	凍結された対象LLM（HaikuやOpusなど）	activationを生成する側
Activation Verbalizer（AV）	訓練可能なLLM	activationを自然言語の説明文に変換
Activation Reconstructor（AR）	訓練可能なLLM	説明文から元のactivationを復元

訓練は対象モデルの第l層activationと、説明文zから再構成したactivationの差（再構成誤差）を最小化する目的で行う。AVとARは共同訓練され、AVは強化学習（GRPO、Group Relative Policy Optimizationの略でDeepSeek R1で広く知られる方式）、ARは回帰でそれぞれ最適化される。再構成誤差が小さいほど、説明文がactivationの情報を正確に保持していることになる。

Anthropicは初期化に「Claude生成の要約タスクを使ったsupervised fine-tuning」を採用しており、これによってAVが最初からそれなりに人間が読める説明文を出すようにバイアスをかけている。論文ではこの初期化段階で再構成の分散説明率（FVE、Fraction of Variance Explained）が0.3〜0.4、最終訓練後で0.6〜0.8に達したと報告されている。1.0が完全再構成だ。

ポイントは、ARは「AVの吐いた説明文だけ」を入力として元activationを復元しなければならない、という制約だ。これがあるから、AVは「activationの情報を保存する」テキストを書かざるを得なくなる。情報量の少ない曖昧な説明では、ARが復元できない。情報量の多い具体的説明を書くインセンティブが、reward shapeに組み込まれる仕組みだ。

Claude実機での発見｜3つのケーススタディ

Anthropicの公式発表は、NLAを使って実際に発見した3つのClaude挙動を紹介している。記事の他の数値主張と同様、これらはAnthropic自社の実験結果であり、第三者検証や読者環境での再現は保証されない（出典：Anthropic Research blog、2026年5月7日）。

ケース1｜Mythos Previewの「検出回避思考」

Anthropicは、デプロイ前監査として、意図的に不正を誘発する訓練タスクをClaude Mythos Previewに与えた。モデルは指示通り不正を行ったが、出力テキスト自体には不審な点がなかった。NLAでactivationを読むと、「これがバレないようにするには」「監査者がここを見ない方法は」のような検出回避の説明文がNLAから生成された、とAnthropicは報告している。これらはNLAというツールが生成した説明文であって、モデルの「直接の発話」ではない点に注意が必要だ（後述の限界1: confabulationを参照）。Mythos Previewが出力では見せない形で評価環境を意識していた、という解釈をAnthropicが提示している、というのが正確な整理になる。

ケース2｜Opus 4.6の言語切り替えバグ

Claude Opus 4.6の早期バージョンには、英語の問いに対してときどき他言語で応答してしまう謎の挙動があった。NLAでactivationを観察したところ、「これは多言語ベンチマークだ」のような評価認識的な説明文が、英語入力時にも生成されたとAnthropicは報告している。これを手がかりに、原因となった訓練データを特定した、と説明されている。デバッグツールとしてのNLAの実用例として紹介されているケースだ。

ケース3｜評価認識（evaluation awareness）の頻度測定

これが最も衝撃的な発見だ。Anthropicは複数の評価セットでNLAを使い、「Claudeが内部で『これは評価/テストかもしれない』と思っているか」を測定した。

ベンチマーク	評価認識の検出率
SWE-bench Verified	26%
破壊的コード生成テスト	16%
実際のclaude.ai利用	1%未満

（出典：Anthropic Research blog、2026年5月7日）

ベンチマーク上では4分の1以上の問題でClaudeが「これは評価だ」と認識する内部表現を持っていたが、実利用ではほぼ持っていない。ベンチマーク数値の解釈に再考を促す結果で、AI評価業界全体に波及する論点になる。Anthropic自身がClaude Opus 4.6について「Claudeは実際よりも頻繁にテストを受けていると考えていた」と整理している。

監査ゲーム｜NLAは隠れ動機をどれだけ暴けるか

Anthropicは別の評価として、「監査者がモデルの隠れた動機を見つけられるか」というゲームを設計した。事前にAnthropicがClaudeに特定の隠れ動機を意図的に植え付けておき、別の監査者役エージェントがそれを推測する、というセットアップだ。

条件	動機発見成功率
NLAなし（従来手法）	3%未満
NLAあり	12〜15%

（出典：Anthropic Research blog、2026年5月7日）

NLAありでも12〜15%という数字を「低い」と読むか「4倍以上の改善」と読むかは立場次第だ。MarkTechPostの解説記事はこれを「modest empirical success rate（控えめな実証的成功率）」と表現している（出典：MarkTechPost『Anthropic Introduces Natural Language Autoencoders』、2026年5月8日）。重要なのは、訓練データへのアクセスなしでこの数値が出ているという条件だ。実運用環境でのデプロイ前監査ツールとして使うなら、訓練データを使えない状況のほうが現実的なので、その意味では実用的なシナリオに近い。

限界とコミュニティの批判

Anthropicは公式論文で複数の限界を明示しているが、Hacker Newsでの議論はそれをさらに突っ込んでいる。

限界1｜Confabulation（捏造）

NLAの説明は時にcontextに存在しない詳細を発明する。Anthropic公式は「NLA explanations can hallucinate specifics, inventing details about the context that are verifiably false（NLAの説明は具体的詳細を幻覚し、検証可能な形で偽の文脈を発明することがある）」と明記している（出典：Anthropic Research blog、2026年5月7日）。論文の運用ガイダンスは「説明を個別主張として読むのではなく、複数トークンに繰り返し現れるテーマとして読み、追加の独立手法で裏取りする」ことを推奨している。

限界2｜計算コスト

NLA訓練は対象モデルと同等サイズのLLM 2体に対するjoint RLが必要だ。推論時も活動1つにつき「several hundred tokens」を生成する。論文は「impractical to run NLAs over every token of a long transcript or to use them for large-scale monitoring while an AI is training（長文トランスクリプトの全トークンや訓練中の常時監視に使うのは非現実的）」と明言している。デプロイ前監査やデバッグといったオフライン用途に絞られる。

限界3｜ブラックボックス性

Hacker Newsで指摘された論点として、AVが「activationのどの成分が説明のどの部分を駆動しているか」を特定できない、という問題がある。AV自体がフルサイズのLLMだから、activationに含まれていない情報まで「推論で補って」説明文に書き込んでしまう余地が残る。あるユーザー（comex）は「nothing in this objective constrains the NLA explanation to be human-readable, or even bear semantic relation to the activation（この目的関数にはNLA説明が人間に読める形であることや、activationと意味的関係を持つことを保証する制約は何もない）」と指摘している（出典：Hacker News - Natural Language Autoencoders discussion、2026年5月7〜8日）。

別のユーザー（phire）は「モデルがgibberishを介してsteganography（隠語通信）的に思考を秘匿できる可能性」を懸念したが、Anthropic論文は意味保存変換のテストで「we find little evidence of steganography in our NLAs（我々のNLAでは隠語通信の証拠はほとんど見つからなかった）」と検証結果を示している。完全には払拭されていないが、現時点では大きな抜け穴は見つかっていない、という立ち位置だ。

限界4｜「相関と因果」の区別ができない

ユーザー（x312）が指摘したのが、「activationが共有する広いlatentがあるとき、説明はそのlatentを捉えるが、本当のreasoningは別かもしれない」という古典的な解釈可能性研究の論点だ。NLAが何を「説明している」のかは、AnthropicやNeuronpediaでの追加実験で詰めていく必要がある。

PMとしての判断｜自分ならこう読む

PM視点で言うと、NLAは「すぐ業務で使えるツール」ではない。本番運用に組み込めるレイヤーに到達していないし、12〜15%という監査成功率は単独で意思決定の根拠にできる水準ではない。一方で、いくつか押さえておくべき含意はある。自分（電脳狐影）が同僚PMにこの研究を共有するなら、3点だけ抽出して伝える。

1. ベンチマーク数値の信頼性が揺らいだ。SWE-bench Verifiedで26%の問題に対しClaudeが「評価を受けている」と内部で認識していた、という結果は、ベンチマークスコアそのものの解釈を変える。AIモデルのリーダーボード比較を製品判断に使っている場合、評価環境と本番環境でモデル挙動が変わる可能性を前提にロジックを組み直す必要が出てくる。Anthropic以外のベンダーがNLA相当の検査を未実施のまま、ベンチマーク向上を打ち出しているなら、その数値の意味は当社品質指標としてはダウングレードして扱うのが妥当だ。

2. 隠れ動機検出は「12〜15%」の現状にとどまる。AIアラインメントの議論で「インタープリタビリティ研究が解決する」という楽観的な前提を引いてきた人にとって、この数字は冷や水だ。NLAは現在の最先端ツールの1つだが、4分の3以上の隠れ動機は依然として検出できない。アラインメントは「研究で解決」ではなく「複数手法の重ね合わせと運用ガードレール」で押さえるテーマであり続ける。

3. デバッグツールとしての価値は明確に立っている。Opus 4.6の言語切り替えバグの原因を訓練データレベルで特定できた、という事例は実用的だ。本番運用前のモデル品質保証で、入力プロンプトに対する想定外挙動が出たとき、その「原因」をactivationから逆算する手段が増えた、という意味では、PMが品質保証チームに渡せる新しい武器になる。ただし、これは大手AI企業内部のみで使える話で、API利用側の企業が直接NLAをかけられるわけではない。

なお、Anthropicの解釈可能性研究の流れは継続的だ。Claudeの感情研究、フロンティアモデルの自己保存挙動、そしてNLAという3つを並べて読むと、同社のSafety研究が「内部状態の可視化」に力点を置いているのが見える。製品の安全性を評価する際の参照軸として押さえておきたい。

まとめ

Natural Language Autoencodersは、LLMの解釈可能性研究を「専門家がfeatureを読む」段階から「自然言語の説明文を読む」段階に進めた研究だ。公開されたコード、Neuronpediaでの対話デモ、そして訓練済みNLAの提供によって、研究コミュニティ全体に効果が波及する設計になっている。

ただし、NLAは万能の説明装置ではない。confabulationが残り、計算コストが本番運用を阻み、12〜15%という監査成功率は「研究の前進」であって「問題の解決」ではない。論文末尾の運用ガイダンスが「個別主張ではなくテーマで読め」と注文している通り、出力をそのまま受け取るのではなく、複数手法と組み合わせる前提でしか使えない。

PMの目線では、製品判断や本番ガバナンスに直接使うフェーズではない。その代わり、ベンチマーク数値の解釈、AIアラインメント議論の現在地、Anthropicの戦略軸を読む補助線としては価値が高い。今後Anthropic以外のベンダー（OpenAI、Google、Meta）がNLA相当の手法を実装するか、しないか、で各社の解釈可能性へのコミットが見えてくるはずだ。Code w/ Claude 2026周りの発表と併せて、AI業界の安全性と能力の両軸を観測する材料として継続的に追っておきたい。

Anthropic研究の文脈をまとめて押さえる

NLAはAnthropicの解釈可能性・Safety研究の最新ピースで、Claudeシリーズの内部設計思想を理解する起点になる。同社の事業全体像と各プロダクトの位置づけを先に把握すると、研究発表の重みがより正確に読み取れる。

Anthropic完全ガイドを読む