56年来の数学難問をAIが数百ドルで解いた|AlphaProof Nexusの衝撃と限界
「人類の知的優位が終わりゆく日々からの報告」。量子計算の権威でテキサス大学のスコット・アーロンソン教授は2026年5月下旬、自身のブログにそう書いた(Shtetl-Optimized, 2026年5月)。
発端は5月21日にarXivで公開されたDeepMindの論文だ。AIシステム「AlphaProof Nexus」が、数学界の未解決問題353問のうち9問を自律的に解いた。そのうち2問は1970年から56年間、誰も解けずにいたものだ。かかったコストは問題1件あたり数百ドル(The Decoder, 2026年5月)。
- AI技術の最前線を追いかけているエンジニア・研究者
- 「AIが数学を解く」報道の実態と限界を正確に知りたい人
- 数学・形式証明・AIの交点に関心があるソフトウェア開発者
56年越しの証明: AlphaProof Nexusが達成したこと
エルデシュ問題とは、ハンガリーの数学者パウル・エルデシュが生涯で提起した数百の難問だ。「一文で述べられるが、解くには数十年かかる」という問題群で、専門家でも特に難しいと見なすものには1万ドルの懸賞金がついていた。
AlphaProof Nexusはarxivに公開した論文(2605.22763v1)で353問に挑み、9問を解いた。同時に、整数列データベースOEISの未解決予想492件のうち44件も証明した。さらに代数幾何学の15年来の未解決問題と、凸最適化の既知上界の改善も達成した(Crypto Briefing, 2026年5月)。
成功率は約2.5%。344問には手も足も出なかった。だが解けた問題の「重さ」が重要だ。問題#12(i)と#741は1970年から56年間、世界中の数学者が手を出せなかったものだ。
特筆すべきは論文の著者陣だ。Google DeepMindのチームにテキサス大学のスワラット・チャウドゥリーが名を連ねており、アーロンソンはこの点を自身のブログで強調した。
「証明が正しい」を機械が保証する: Lean形式証明の革新性
なぜこの結果が過去のAI数学ブレークスルーと一線を画すのか。答えはLean形式証明にある。
AlphaProof NexusはGemini 3.1 ProというLLMとLean 4.27形式証明アシスタントをペアにしている。AIが証明ステップをLean構文で提案し、Leanコンパイラがすべての論理ステップを機械的に検証する。証明がコンパイルされれば正しい。コンパイルされなければ却下される。これだけだ。
「鍵は『検証済み』という言葉にある。有力な議論の話ではなく、Leanライブラリのあらゆる定理と同水準の機械検証済み証明だ」。フィールズ賞受賞者のティム・ガワーズはそう評した(faq.com.tw, 2026年5月)。
従来のAI数学研究では「それらしい証明を書く」ことはできても、細部に誤りが混入するハルシネーション問題があった。Lean形式証明はそれを根本から断つ。コンパイラは正直だ。
OpenAIとの1日違い: 数学AIブレークスルーの競争
AlphaProof Nexusの発表の前日、5月20日にはOpenAIも数学の歴史的難問を解いたと発表した。OpenAIのモデルが1946年からの未解決問題「平面単位距離予想」を反証したのだ。80年ぶりの決着だった(TechCrunch, 2026年5月)。詳細はOpenAI、エルデシュの幾何学的予想を80年越しに反証で解説している。
1日の差でDeepMindとOpenAIが相次いで数学AI成果を公開した。この競争が意図的なタイミング調整かどうかは不明だが、両社とも2025年末ごろから数学AIへの投資を強化してきたとみられ、成果の公開が重なった。
ただしアプローチの差は明確だ。OpenAIの証明は自然言語によるもので、プリンストンのノガ・アロンら著名数学者が人力で検証した。AlphaProof NexusはLean形式証明で機械検証される。前者は「一点突破の大ニュース」、後者は「多数解決・完全自動検証」という構図だ。
限界と批判: 2.5%の成功率が意味するもの
すべてが賞賛されたわけではない。
批判1: 成功した問題領域の偏り。解けた9問は、LeanのMathlib(Leanの数学定理ライブラリ)が成熟している整数の加算的性質を扱う加法的整数論や組み合わせ論に集中した。新しい数学的構造が必要な問題には対処できない。この点は論文自体が認めている。
批判2: 事前形式化という隠れたコスト。自然言語のエルデシュ問題をLean構文に変換する「形式化」は人間の専門家が担った。「自律的に解いた」という表現は部分的にしか正確でない。
批判3: 最も単純なシステムが9問すべてを解いた。論文の比較実験が示す不都合な真実がある。4種類の変形システムのうち、最も基本的なAgent A(LLMとLeanコンパイラのフィードバックループのみ)が9問すべてを解いた。複雑な多エージェント設計の優位性は示されなかった(buildmvpfast.com, 2026年5月)。
チャウドゥリーは自ら認めた。「現在のフロンティアモデルでは、コンパイラフィードバック付きの単純なエージェントループが、より高度なシステムと同等以上の成果を出すことを発見した」。
数学者たちの声: 「もう隠れる場所がない」
CMUのジェレミー・アヴィガード教授は今回の一連の発表を受けこう述べた。「もう隠れる場所がない。数学の慣行が再構築されつつある」(TechTimes, 2026年5月)。
テレンス・タオ(フィールズ賞)はGitHubウィキでAIによるエルデシュ問題解決の記録を継続更新しながら、「AIは数学に初めて分業をもたらす可能性がある」と述べた(The Decoder, 2026年5月)。アイデア生成、計算、形式確認、説明、査読という役割を分離できるという見立てだ。
一方、懸念の声もある。数学者の間では、AIが証明を大量生産することで査読システムへの負荷が増大するリスクが指摘されている(Physics World, 2026年5月)。数学系の学術誌に送られてくるAI生成証明が急増し、検証しきれないとの懸念も聞かれる。
DeepMind CEOのデミス・ハサビスは冷静に釘を刺す。「どれだけエルデシュ問題を解いても、AGIではない。独創性があり、創造的で、多分野にわたるスキルを持つ。そのようなシステムがAGIだ」(Big Technology Podcast, 2026年5月)。
ラマヌジャンが一夜で思いついた定理群をAIは再現できない。それは現在のところ正しい。しかし「再現できない」の範囲は着実に狭まっている。
| 項目 | 数値・詳細 |
|---|---|
| 公開日 | 2026年5月21日(arXiv: 2605.22763v1) |
| エルデシュ問題の成功数 | 9問 / 353問(約2.5%) |
| OEISの成功数 | 44件 / 492件(約9%) |
| 証明方式 | Lean 4.27形式証明(機械検証済み) |
| 使用モデル | Gemini 3.1 Pro |
| 推論コスト | 問題1件あたり数百ドル |
| 56年来の未解決問題 | #12(i)、#741など2問 |
OpenAIも同期間に数学難問を解いた
DeepMindの1日前、OpenAIが80年来の未解決問題「平面単位距離予想」を反証した。両社の異なるアプローチを比較した記事で全体像を把握しよう。
関連記事:
- Gemini 3.1 Proの実力: AlphaProof Nexusを動かしたモデルの全貌
- Stanford AI Index 2026: AIが人間を超えたベンチマークと「それでも足りない」という現実
- OpenAI、エルデシュの幾何学的予想を80年越しに反証
本記事は公開情報・報道資料をもとに執筆しています。数学的証明の正確な内容については各arXiv論文(2605.22763v1等)を参照してください。AlphaProof Nexusの解答については数学コミュニティ内で先行研究との重複の可能性が指摘されており、最終的な評価は継続的な査読を待つ必要があります。本記事の内容は執筆時点の情報に基づくものであり、将来の評価変更を保証するものではありません。