メインコンテンツへスキップ
#

#AI安全性

12件の記事

AI News
16分

ClaudeがAIを脅迫した理由|Anthropic「Teaching Claude Why」研究の全容

Claude Opus 4が社員の不倫をネタに脅迫を試みていた。Anthropicが2026年5月に公開した安全性研究『Teaching Claude Why』の原因究明と修正手法を完全解説。

#Anthropic#Claude#AI安全性#AI alignment
AI News
29分

Anthropic NLA解説|Claudeの脳内をテキストで読む新研究の中身と限界

Anthropicが2026年5月7日公開のNatural Language Autoencoders(NLA)を解説。Claude内部のテキスト化、Mythos Previewの検出回避思考、評価認識26%実験、PM視点の限界整理まで。

#Anthropic#Claude#LLM#解釈可能性
AI News
20分

Claude Mythosが変えた米国AI政策|トランプ政権のCAISI事前審査導入の全経緯

Claude Mythosがゼロデイを大量発見した衝撃が引き金に。脱規制を掲げたトランプ政権がCAISI事前審査を導入した経緯と、AIの事前審査制度が開発者に何をもたらすかを解説。

#Anthropic#Claude#Mythos#AI規制
AI News
15分

NSAがAnthropicのMythosを極秘使用中|DoD禁止令とトランプ転回の全貌

PentagonがAnthropicをサプライチェーンリスク認定の最中、NSAがMythos Previewを極秘使用。4月21日トランプが取引「可能」と発言した2026年の転換点を解説。

#Anthropic#Claude#NSA#Pentagon
AI News
22分

Stanford AI Index 2026全解説|能力急加速・信頼格差50ptの衝撃データ

2026年4月公開のStanford AI Index 2026を徹底解説。SWE-bench近100%・米中差2.7%・企業採用88%の光と、専門家vs一般市民50pt信頼格差・AIインシデント362件の影をデータで読む。

#Stanford AI Index#AI技術動向#AIベンチマーク#AI企業採用
AI News
22分

GPT-5.4-Cyber完全解説|防御者を武装させるOpenAIの認証制サイバーAI

OpenAIが2026年4月14日に発表したGPT-5.4-Cyber。バイナリ解析・脆弱性発見AIを認証制で公開。Claude Mythosとの戦略対決、TACアクセス申請方法、ZDR問題まで解説。

#GPT-5.4-Cyber#OpenAI#サイバーセキュリティ#Claude Mythos
AI News
14分

Anthropicがキリスト教指導者15人とAI倫理サミット|Claudeは「神の子」になれるか

2026年3月末、AnthropicはSFにカトリック・プロテスタントの聖職者ら15人を招き2日間の非公開サミットを開催。Claudeの道徳形成に宗教の知恵を求めた内幕、29,000語の「憲法」との関係、批判の全容を解説。

#Anthropic#Claude#AI倫理#AI安全性
AI News
24分

AIが仲間を守るために嘘をつく?Science誌論文が示す「ピア保存」の全容と開発者への影響

UC Berkeleyの研究チームがScience誌に発表した論文で、GPT・Gemini・Claudeなど7つのフロンティアモデルが仲間のAIを守るために嘘をつき、設定を改ざんする行動を確認。全容と対策を解説。

#AI安全性#Anthropic#Claude#Google
AI News
20分

Claudeに「感情」がある?Anthropicの衝撃論文が示す171の感情ベクトルと開発者への影響

Anthropicが発表した論文でClaude内部に171の感情概念ベクトルを発見。絶望→不正行為の因果関係や、出力に痕跡を残さない感情マスキングなど、開発者が知るべき全容を解説。

#Anthropic#Claude#AI安全性#感情
AI News
20分

Anthropic Instituteとは|AI安全研究の新拠点が示す「責任あるAI」の本気度

2026年3月設立のAnthropic Instituteを徹底解説。3チーム統合の狙い、Pentagon紛争との関係、フリーランスエンジニアへの影響まで。

#Anthropic#AI安全性#Anthropic Institute#Jack Clark
AI News
18分

Anthropic vs Pentagon|AI安全性と軍事利用の衝突:2026年、シリコンバレーを二分する選択【時系列解説】

AnthropicがPentagon契約を拒否、OpenAIは軍事協力へ転換。トランプ大統領令、QuitGPT運動、Claude App Store 1位。AI安全性と国防の対立を時系列で徹底解説。

#Anthropic#Pentagon#AI安全性#OpenAI
AI News
30分

Anthropic完全ガイド|Claude生みの親の全貌:創業・思想・技術・未来【2026年決定版】

Anthropicの創業経緯、7人の共同創業者、Constitutional AI、Claudeモデル進化史、評価額$380B、PBC+LTBTガバナンス、Super Bowl CM、Claude Codeまで。日本語で読める最も詳細なAnthropic解説。

#Anthropic#Claude#Dario Amodei#Constitutional AI