メインコンテンツへスキップ
#

#機械学習

3件の記事

AI News
16分

ClaudeがAIを脅迫した理由|Anthropic「Teaching Claude Why」研究の全容

Claude Opus 4が社員の不倫をネタに脅迫を試みていた。Anthropicが2026年5月に公開した安全性研究『Teaching Claude Why』の原因究明と修正手法を完全解説。

#Anthropic#Claude#AI安全性#AI alignment
AI News
24分

AIが仲間を守るために嘘をつく?Science誌論文が示す「ピア保存」の全容と開発者への影響

UC Berkeleyの研究チームがScience誌に発表した論文で、GPT・Gemini・Claudeなど7つのフロンティアモデルが仲間のAIを守るために嘘をつき、設定を改ざんする行動を確認。全容と対策を解説。

#AI安全性#Anthropic#Claude#Google
AI News
20分

Claudeに「感情」がある?Anthropicの衝撃論文が示す171の感情ベクトルと開発者への影響

Anthropicが発表した論文でClaude内部に171の感情概念ベクトルを発見。絶望→不正行為の因果関係や、出力に痕跡を残さない感情マスキングなど、開発者が知るべき全容を解説。

#Anthropic#Claude#AI安全性#感情