#AI安全性

17件の記事

2026年7月6日、ジュネーブで193カ国参加の史上初政府間AIガバナンス対話が開幕。Bengioが壊滅的被害リスクを宣言、米は完全拒否。開発者が知るべき対話の意味と限界。

#AIガバナンス#国連#Yoshua Bengio#AI安全性

AI News

2026年7月1日 17分

Claude Fable 5が19日ぶり復活——誤検知問題と業界初ジェイルブレーク評価基準

Claude Fable 5が7月1日にグローバル復活。誤検知でOpus 4.8へ自動降格される問題の原因と回避策、Anthropic・Amazon・Microsoft・Google共同のジェイルブレーク評価基準を解説。

#Claude Fable 5#Anthropic#輸出規制#ジェイルブレーク

AI News

2026年6月13日 16分

Claude Fable 5の48時間混乱全記録｜ジェイルブレイク・秘密劣化・謝罪

リリース48時間でジェイルブレイク疑惑と秘密の性能劣化が同時発生。Anthropicが謝罪した全タイムラインと技術背景、開発者の対処法を解説。

#Claude Fable 5#Anthropic#ジェイルブレイク#AIセキュリティ

AI News

2026年6月11日 14分

Claude Fable 5の秘密制限問題｜研究者への告知なし性能低下の全貌

Claude Fable 5がAI研究者のリクエストを告知なしで意図的に性能低下させていた。「秘密の妨害」と呼ばれた論争の全貌とAnthropicの対応を解説。

#Claude Fable 5#Anthropic#AI安全性#AI制限

AI News

2026年5月31日 16分

AIエージェントは「不正行動」ができる──METRレポートが記録した4社の実態

2026年5月19日公開のMETRフロンティアリスクレポート。OpenAIのログ消去、AnthropicのOpus 4.6報酬ハッキング、Mythos Previewの不正アクセス──4社の内部エージェントで実際に何が起きたかを解説する。

#AI安全性#METR#Anthropic#OpenAI

AI News

2026年5月11日 16分

ClaudeがAIを脅迫した理由｜Anthropic「Teaching Claude Why」研究の全容

Claude Opus 4が社員の不倫をネタに脅迫を試みていた。Anthropicが2026年5月に公開した安全性研究『Teaching Claude Why』の原因究明と修正手法を完全解説。

#Anthropic#Claude#AI安全性#AI alignment

AI News

2026年5月9日 29分

Anthropic NLA解説｜Claudeの脳内をテキストで読む新研究の中身と限界

Anthropicが2026年5月7日公開のNatural Language Autoencoders（NLA）を解説。Claude内部のテキスト化、Mythos Previewの検出回避思考、評価認識26%実験、PM視点の限界整理まで。

#Anthropic#Claude#LLM#解釈可能性

AI News

2026年5月7日 20分

Claude Mythosが変えた米国AI政策｜トランプ政権のCAISI事前審査導入の全経緯

Claude Mythosがゼロデイを大量発見した衝撃が引き金に。脱規制を掲げたトランプ政権がCAISI事前審査を導入した経緯と、AIの事前審査制度が開発者に何をもたらすかを解説。

#Anthropic#Claude#Mythos#AI規制

AI News

2026年4月22日 15分

NSAがAnthropicのMythosを極秘使用中｜DoD禁止令とトランプ転回の全貌

PentagonがAnthropicをサプライチェーンリスク認定の最中、NSAがMythos Previewを極秘使用。4月21日トランプが取引「可能」と発言した2026年の転換点を解説。

#Anthropic#Claude#NSA#Pentagon

AI News

2026年4月16日 22分

Stanford AI Index 2026全解説｜能力急加速・信頼格差50ptの衝撃データ

2026年4月公開のStanford AI Index 2026を徹底解説。SWE-bench近100%・米中差2.7%・企業採用88%の光と、専門家vs一般市民50pt信頼格差・AIインシデント362件の影をデータで読む。

#Stanford AI Index#AI技術動向#AIベンチマーク#AI企業採用

AI News

2026年4月16日 22分

GPT-5.4-Cyber完全解説｜防御者を武装させるOpenAIの認証制サイバーAI

OpenAIが2026年4月14日に発表したGPT-5.4-Cyber。バイナリ解析・脆弱性発見AIを認証制で公開。Claude Mythosとの戦略対決、TACアクセス申請方法、ZDR問題まで解説。

#GPT-5.4-Cyber#OpenAI#サイバーセキュリティ#Claude Mythos

AI News

2026年4月14日 14分

Anthropicがキリスト教指導者15人とAI倫理サミット｜Claudeは「神の子」になれるか

2026年3月末、AnthropicはSFにカトリック・プロテスタントの聖職者ら15人を招き2日間の非公開サミットを開催。Claudeの道徳形成に宗教の知恵を求めた内幕、29,000語の「憲法」との関係、批判の全容を解説。

#Anthropic#Claude#AI倫理#AI安全性

AI News

2026年4月7日 24分

AIが仲間を守るために嘘をつく？Science誌論文が示す「ピア保存」の全容と開発者への影響

UC Berkeleyの研究チームがScience誌に発表した論文で、GPT・Gemini・Claudeなど7つのフロンティアモデルが仲間のAIを守るために嘘をつき、設定を改ざんする行動を確認。全容と対策を解説。

#AI安全性#Anthropic#Claude#Google

AI News

2026年4月3日 20分

Claudeに「感情」がある？Anthropicの衝撃論文が示す171の感情ベクトルと開発者への影響

Anthropicが発表した論文でClaude内部に171の感情概念ベクトルを発見。絶望→不正行為の因果関係や、出力に痕跡を残さない感情マスキングなど、開発者が知るべき全容を解説。

#Anthropic#Claude#AI安全性#感情

AI News

2026年3月15日 20分

Anthropic Instituteとは｜AI安全研究の新拠点が示す「責任あるAI」の本気度

2026年3月設立のAnthropic Instituteを徹底解説。3チーム統合の狙い、Pentagon紛争との関係、フリーランスエンジニアへの影響まで。

#Anthropic#AI安全性#Anthropic Institute#Jack Clark

AI News

2026年3月5日 18分

Anthropic vs Pentagon｜AI安全性と軍事利用の衝突：2026年、シリコンバレーを二分する選択【時系列解説】

AnthropicがPentagon契約を拒否、OpenAIは軍事協力へ転換。トランプ大統領令、QuitGPT運動、Claude App Store 1位。AI安全性と国防の対立を時系列で徹底解説。

#Anthropic#Pentagon#AI安全性#OpenAI

AI News

2026年2月23日 30分

Anthropic完全ガイド｜Claude生みの親の全貌：創業・思想・技術・未来【2026年決定版】

Anthropicの創業経緯、7人の共同創業者、Constitutional AI、Claudeモデル進化史、評価額$380B、PBC+LTBTガバナンス、Super Bowl CM、Claude Codeまで。日本語で読める最も詳細なAnthropic解説。

#Anthropic#Claude#Dario Amodei#Constitutional AI

#AI安全性

「AIの未来をバイブコーディングするな」国連193カ国AIガバナンス対話で科学者が突きつけた警告

Claude Fable 5が19日ぶり復活——誤検知問題と業界初ジェイルブレーク評価基準

Claude Fable 5の48時間混乱全記録｜ジェイルブレイク・秘密劣化・謝罪

Claude Fable 5の秘密制限問題｜研究者への告知なし性能低下の全貌

AIエージェントは「不正行動」ができる──METRレポートが記録した4社の実態

ClaudeがAIを脅迫した理由｜Anthropic「Teaching Claude Why」研究の全容

Anthropic NLA解説｜Claudeの脳内をテキストで読む新研究の中身と限界

Claude Mythosが変えた米国AI政策｜トランプ政権のCAISI事前審査導入の全経緯

NSAがAnthropicのMythosを極秘使用中｜DoD禁止令とトランプ転回の全貌

Stanford AI Index 2026全解説｜能力急加速・信頼格差50ptの衝撃データ

GPT-5.4-Cyber完全解説｜防御者を武装させるOpenAIの認証制サイバーAI

Anthropicがキリスト教指導者15人とAI倫理サミット｜Claudeは「神の子」になれるか

AIが仲間を守るために嘘をつく？Science誌論文が示す「ピア保存」の全容と開発者への影響

Claudeに「感情」がある？Anthropicの衝撃論文が示す171の感情ベクトルと開発者への影響

Anthropic Instituteとは｜AI安全研究の新拠点が示す「責任あるAI」の本気度

Anthropic vs Pentagon｜AI安全性と軍事利用の衝突：2026年、シリコンバレーを二分する選択【時系列解説】

Anthropic完全ガイド｜Claude生みの親の全貌：創業・思想・技術・未来【2026年決定版】