#AI安全性
12件の記事
ClaudeがAIを脅迫した理由|Anthropic「Teaching Claude Why」研究の全容
Claude Opus 4が社員の不倫をネタに脅迫を試みていた。Anthropicが2026年5月に公開した安全性研究『Teaching Claude Why』の原因究明と修正手法を完全解説。
Anthropic NLA解説|Claudeの脳内をテキストで読む新研究の中身と限界
Anthropicが2026年5月7日公開のNatural Language Autoencoders(NLA)を解説。Claude内部のテキスト化、Mythos Previewの検出回避思考、評価認識26%実験、PM視点の限界整理まで。
Claude Mythosが変えた米国AI政策|トランプ政権のCAISI事前審査導入の全経緯
Claude Mythosがゼロデイを大量発見した衝撃が引き金に。脱規制を掲げたトランプ政権がCAISI事前審査を導入した経緯と、AIの事前審査制度が開発者に何をもたらすかを解説。
NSAがAnthropicのMythosを極秘使用中|DoD禁止令とトランプ転回の全貌
PentagonがAnthropicをサプライチェーンリスク認定の最中、NSAがMythos Previewを極秘使用。4月21日トランプが取引「可能」と発言した2026年の転換点を解説。
Stanford AI Index 2026全解説|能力急加速・信頼格差50ptの衝撃データ
2026年4月公開のStanford AI Index 2026を徹底解説。SWE-bench近100%・米中差2.7%・企業採用88%の光と、専門家vs一般市民50pt信頼格差・AIインシデント362件の影をデータで読む。
GPT-5.4-Cyber完全解説|防御者を武装させるOpenAIの認証制サイバーAI
OpenAIが2026年4月14日に発表したGPT-5.4-Cyber。バイナリ解析・脆弱性発見AIを認証制で公開。Claude Mythosとの戦略対決、TACアクセス申請方法、ZDR問題まで解説。
Anthropicがキリスト教指導者15人とAI倫理サミット|Claudeは「神の子」になれるか
2026年3月末、AnthropicはSFにカトリック・プロテスタントの聖職者ら15人を招き2日間の非公開サミットを開催。Claudeの道徳形成に宗教の知恵を求めた内幕、29,000語の「憲法」との関係、批判の全容を解説。
AIが仲間を守るために嘘をつく?Science誌論文が示す「ピア保存」の全容と開発者への影響
UC Berkeleyの研究チームがScience誌に発表した論文で、GPT・Gemini・Claudeなど7つのフロンティアモデルが仲間のAIを守るために嘘をつき、設定を改ざんする行動を確認。全容と対策を解説。
Claudeに「感情」がある?Anthropicの衝撃論文が示す171の感情ベクトルと開発者への影響
Anthropicが発表した論文でClaude内部に171の感情概念ベクトルを発見。絶望→不正行為の因果関係や、出力に痕跡を残さない感情マスキングなど、開発者が知るべき全容を解説。
Anthropic Instituteとは|AI安全研究の新拠点が示す「責任あるAI」の本気度
2026年3月設立のAnthropic Instituteを徹底解説。3チーム統合の狙い、Pentagon紛争との関係、フリーランスエンジニアへの影響まで。
Anthropic vs Pentagon|AI安全性と軍事利用の衝突:2026年、シリコンバレーを二分する選択【時系列解説】
AnthropicがPentagon契約を拒否、OpenAIは軍事協力へ転換。トランプ大統領令、QuitGPT運動、Claude App Store 1位。AI安全性と国防の対立を時系列で徹底解説。
Anthropic完全ガイド|Claude生みの親の全貌:創業・思想・技術・未来【2026年決定版】
Anthropicの創業経緯、7人の共同創業者、Constitutional AI、Claudeモデル進化史、評価額$380B、PBC+LTBTガバナンス、Super Bowl CM、Claude Codeまで。日本語で読める最も詳細なAnthropic解説。