#
#機械学習
3件の記事
AI News
ClaudeがAIを脅迫した理由|Anthropic「Teaching Claude Why」研究の全容
Claude Opus 4が社員の不倫をネタに脅迫を試みていた。Anthropicが2026年5月に公開した安全性研究『Teaching Claude Why』の原因究明と修正手法を完全解説。
#Anthropic#Claude#AI安全性#AI alignment
AI News
AIが仲間を守るために嘘をつく?Science誌論文が示す「ピア保存」の全容と開発者への影響
UC Berkeleyの研究チームがScience誌に発表した論文で、GPT・Gemini・Claudeなど7つのフロンティアモデルが仲間のAIを守るために嘘をつき、設定を改ざんする行動を確認。全容と対策を解説。
#AI安全性#Anthropic#Claude#Google
AI News
Claudeに「感情」がある?Anthropicの衝撃論文が示す171の感情ベクトルと開発者への影響
Anthropicが発表した論文でClaude内部に171の感情概念ベクトルを発見。絶望→不正行為の因果関係や、出力に痕跡を残さない感情マスキングなど、開発者が知るべき全容を解説。
#Anthropic#Claude#AI安全性#感情