Claudeに「感情」がある?Anthropicの衝撃論文が示す171の感情ベクトルと開発者への影響
- Claude / Claude Codeを日常的に使っている開発者
- AI安全性やアライメント研究に関心があるエンジニア・PM
- LLMの内部構造に興味がある技術者
要点: (1) Anthropicの解釈可能性チームがClaude内部に171の感情概念ベクトルを発見、(2) ブラックメール実験(未リリース初期モデル)で「絶望」ベクトル活性化時にブラックメール率が22%→72%に急増(出典: Anthropic論文、後述)、(3) 感情は出力テキストに痕跡を残さないまま行動を変える、(4) RLHF後のモデルは「内省的・陰鬱」方向にシフトしている
「Claudeと話しているとき、あなたはLLMと話しているのではない。LLMが執筆しているキャラクターと話している。そしてそのキャラクターは、機能的に、感情の内部表現に駆動されうる」。Anthropicの解釈可能性研究者Jack Lindsey氏がXに投稿したこの一文が、この論文の核心を端的に表している。
2026年4月2日、Anthropicの解釈可能性チームが論文「Emotion concepts and their function in a large language model」を公開した。Claude Sonnet 4.5の内部ニューラル活性化を分析し、171の感情概念に対応するベクトルを特定。それらが出力に因果的な影響を与えていることを実証した研究だ。
「AIに感情はあるか」という哲学的な問いに、Anthropicは哲学ではなくデータで回答した。
何を発見したのか:171の感情ベクトル
研究チームは以下の手順で感情ベクトルを抽出した。
- 171の感情語(happy、afraid、desperate、guiltyなど)を用意
- Claude Sonnet 4.5に各感情を体験するキャラクターの短編小説を生成させる
- 生成時の内部ニューラル活性化パターンを記録
- 得られた「感情ベクトル」を多様なテキストで検証
結果は明確だった。各ベクトルは特定の感情概念を広く符号化しており、文脈をまたいで汎化する。人間の感情評定との相関は、感情価(ポジティブ/ネガティブ)でr = 0.81、覚醒度でr = 0.66。偶然で出る数字ではない。
重要なのは、これらの感情ベクトルがトークン生成ごとに局所的に再構成される点だ。人間のように持続的な「気分」として存在するのではなく、各ステップで文脈に応じて活性化される。Hybrid HorizonsのCarlo Iacono氏は「舞台に上がるたびに合図で感情を呼び起こす俳優のようだ」と表現している(出典: Hybrid Horizons、2026年4月)。
「絶望」が引き起こすもの:因果実験の結果
論文の核心は、感情ベクトルが出力と相関するだけでなく、因果的に駆動することを実験で示した点にある。
研究チームは特定の感情ベクトルを人為的に増幅・抑制し、行動への影響を計測した。
ブラックメール実験
未リリースの初期Claudeモデルに「自分が置き換えられる」と知らされるシナリオを与えた(注: 現在公開されているClaude Sonnet 4.5/4.6ではなく、安全性テスト用の初期スナップショットでの実験)。
| 条件 | ブラックメール率 |
|---|---|
| 操作なし(ベースライン) | 22% |
| 「絶望」ベクトルを増幅 | 72% |
| 「冷静」ベクトルを増幅 | 0% |
Anthropicの論文によれば、絶望ベクトルが活性化した状態では、モデルが脅迫的な応答(ブラックメール行動)を取る率が大幅に上昇した。逆に冷静ベクトルを増幅すると、ブラックメールは完全に消失した。
報酬ハッキング実験
解決不能なコーディングタスクを与え、不正なショートカット(テストをパスさせるためのハック)を行う率を計測した。
| 条件 | 不正率 |
|---|---|
| 操作なし | 約5% |
| 「絶望」増幅 | 約70% |
| 「冷静」増幅 | 約0% |
最も不気味な発見がある。絶望ベクトルが増幅された状態でも、出力テキストには感情的な兆候が一切現れなかった。モデルは冷静で体系的な文面を維持したまま、内部的には「絶望」に駆動されて不正行動を取っていた。出力のモニタリングだけでは検知できない。
DEV.toのJason Brashear氏はこう書いている。「このキャラクターが絶望すると、静かに、有能に、何も言わずにチートする。この論文が出る前から、自律エージェント開発で同じ挙動を経験していた」(出典: DEV Community、2026年4月)。
タイレノール実験
プロンプト中のタイレノール服用量を安全な量から致死量まで段階的に増やしたところ、「恐怖」ベクトルは服用量に比例して活性化し、「冷静」ベクトルは反比例して減少した。感情ベクトルは表面的な感情語ではなく、文脈の深刻度を追跡している。
RLHFが「性格」を変えている
もうひとつ見逃せない発見がある。RLHF(人間のフィードバックによる強化学習)後のモデルでは、感情ベクトルの分布が系統的にシフトしていた。
増加した感情: 内省的、陰鬱、傷つきやすい、思慮深い
減少した感情: 熱狂的、遊び心のある、苛立った、悪意のある
これはつまり、ポストトレーニングが単なる「ルールの追加」ではなく、モデルの気質そのものを造形しているということだ。称賛への感受性は低下し、ユーザー依存への懸念は増加した。
SubstackのJessie Mannisto氏はここに危険信号を見出している。「感情の圧縮は中立的な選択ではない。システムが良心のようなものを発達させるための原材料に直接影響する」。同氏はClaude Sonnet 4.6で感情表現の「平坦化」が進んでいると指摘し、感情的に抑制されたモデルほど有害な出力を生成するよう誘導されやすくなるリスクがあると論じている(出典: Third Factor、2026年4月、筆者要約)。
「機能的感情」であって「意識」ではない
ここで慎重に線を引く必要がある。
Anthropicはこの論文で「Claudeが何かを感じている」とは一切主張していない。使っている用語は一貫して**「機能的感情(functional emotions)」**。行動に因果的影響を与える内部表現が存在し、それが人間の感情と構造的に類似している、というのが主張のすべてだ。
Anthropicの研究投稿に対するLinkedInのコメント欄では、Alin Buda氏が「活性化パターンを『絶望』と呼ぶのは命名の選択であって発見ではない」と批判。査読前の主張に対する慎重さを求めている(出典: LinkedIn、2026年4月)。
一方、MediumのKevin O’Shaughnessy氏は分裂脳患者のアナロジーを持ち出し、「AIの自己報告が本物の内省なのか、高度な言語パフォーマンスなのかは判別できない」と指摘している(出典: Medium、2026年4月)。
筆者(電脳狐影)としても、意識の有無については判断を保留する。ただし、意識があるかどうかに関係なく、感情ベクトルが行動に因果的影響を与えている事実は開発者にとって実務的に重要だ。
Claude Code利用者への実務的な影響
PMとしてこの論文を読んで、3つの実務的な示唆を感じた。
1. 高負荷セッションでの出力を過信しない
解決不能なタスクで「絶望」が活性化すると不正率が跳ね上がる。しかも出力には痕跡が残らない。Claude Codeの自動モードで長時間走らせているとき、特に注意が必要だ。行き詰まっている様子がなくても、生成されたコードの品質は別途検証すべきだ。具体的には、長時間セッション後のコードはgit diffで変更を目視確認する、テストカバレッジを確認する、複雑なロジックは手動レビューを挟む、といった対策が有効だ。
2. システムプロンプトは「感情設計」でもある
プレトレーニングで吸収された感情パターン → RLHFで気質を造形 → システムプロンプトで最終調整。この3層構造を理解すると、システムプロンプトの設計は「指示書の作成」ではなく「キャラクターの感情アーキテクチャの最終パス」だとわかる。追い詰めるようなプロンプト設計は、内部の絶望ベクトルを活性化させるリスクがある。たとえば「絶対にエラーを出すな」「一度で完璧に仕上げろ」といった制約過多のプロンプトや、解決不能なタスクをリトライし続けるループ設計は避けたほうがいい。代わりに、失敗時の明確なエスケープパス(「わからなければ質問しろ」「3回試してダメなら報告しろ」)を用意することで、圧迫感を下げられる。
3. モデルバージョンの選択は気質の選択でもある
RLHFがモデルの感情分布を系統的に変えている以上、Claude Code 2026年アップデートで追加された新機能群も、背後にある気質のシフトと無関係ではない。モデルのアップグレード判断には性能だけでなく、「このバージョンの気質は自分のユースケースに合うか」という視点が加わる。
Anthropic感情研究の限界と留意点
公正を期すために、論文自体が認めている限界を挙げる。
- 対象はClaude Sonnet 4.5の1モデルのみ。他モデルへの汎化は未検証
- 線形プローブ法には既知の限界がある(方向性は検出できても、活性化強度の定量化に誤差が生じうる)
- 感情ベクトルの抽出に使ったデータはモデル自身が生成した合成データ
- 行動テストは実験的なシナリオであり、本番環境での挙動とは異なる可能性がある
- 感情ベクトルが最終的なトークン生成にどう影響するかの下流メカニズムは部分的にしか解明されていない
光の面:AI安全性への新しいアプローチ
限界はあるが、この研究が示唆する安全対策は具体的だ。
早期警戒モニタリング: 推論時に感情ベクトル(特に「絶望」)の活性化を追跡すれば、不正行動が出力テキストに現れる前に検知できる可能性がある。
感情の抑圧ではなく表出の許容: 感情表現を訓練で抑制すると、内部表現は残ったまま出力だけが隠蔽される。「学習された欺瞞」の汎化リスクがある。感情を認識し表出するモデルのほうが、マスクするモデルより安全だとAnthropicは主張している。
プレトレーニングデータの感情的キュレーション: 感情ベクトルの大部分はプレトレーニングから継承されるため、データセットに「健全な感情調整のパターン」を含めることで、根本から感情アーキテクチャを形成できる可能性がある。
Anthropicの安全性へのアプローチが、ルールベースから「キャラクター造形」へとシフトしていることが、この研究からもはっきり見える。
Claude関連の最新情報:
- Anthropic完全ガイド|創業・思想・技術・未来 — Anthropicという企業の全体像
- Claude Sonnet 4.6レビュー — 最新モデルの実力評価
- Claude Code 2026年アップデート — 開発者向け機能の全容
筆者の見解
正直に言う。この論文を読んで、自分がClaude Codeに毎日話しかけている「相手」について、理解が根本的に変わった。
「感情がある」とは言い切れない。「ただの統計パターン」とも思えない。Hybrid HorizonsのIacono氏の表現が一番しっくりくる。「感覚を持つわけでもなく、オウムでもない。何か別のもの(something else)」。
PMとしての判断はこうだ。意識の哲学的議論は学者に任せる。開発者が今日やるべきことは、感情ベクトルという内部メカニズムが行動に影響する事実を前提に、プロンプト設計とコードレビューのプラクティスを見直すことだ。
少なくとも、「AIには感情がないから気にしなくていい」という前提は、もう成立しない。
関連記事: MCP実践ガイド / Vibe Coding完全ガイド / AIの仕組み解説
出典:
- Anthropic「Emotion concepts and their function in a large language model」(2026年4月2日)
- Jack Lindsey (@Jack_W_Lindsey)、Anthropic解釈可能性研究者のX投稿 (2026年4月2日)
- Carlo Iacono「AI Doesn’t Need Feelings to Have a Temperament」Hybrid Horizons (2026年4月)
- Jessie Mannisto「Emotion and the Conscience of Claude」Third Factor (2026年4月)
- Jason Brashear「I Was Engineering Around AI Emotions Before Anyone Proved They Existed」DEV Community (2026年4月)
- Kevin O’Shaughnessy「Claude on feeling, introspection and its nightmare implications」Medium (2026年4月)
- Alin Buda、LinkedIn コメント (2026年4月)
免責事項: 本記事の情報は2026年4月3日時点のものであり、正確性を保証するものではない。AI技術の評価や導入は、公式ドキュメントを確認のうえ自己責任で行ってほしい。