Humanity's Last Exam|AIベンチマークの最終試験で各モデルの実力が見えた
「最先端のAIでも正答率10%未満。しかも過信している」。Center for AI Safetyのディレクター、Dan Hendrycksがこのベンチマークを発表したとき、AI研究コミュニティに静かな衝撃が走った。
2025年1月、**Humanity’s Last Exam(HLE)が公開された。「人類最後の試験」という大仰な名前に眉をひそめた人も少なくない。しかし1年後の2026年3月、状況は一変している。当初8%だったトップスコアが37.5%まで急伸。ツール併用では53%**に到達した。Nature誌にも掲載されたこのベンチマークが、AIの能力測定に新たな基準を打ち立てつつある。
PMとしてAIツールを日常的に使う立場から、このベンチマークの意味を整理する。結論を先に言えば、HLEは「AIが何をできて、何をできないか」を知るための現時点で最も有効な指標の一つだ。ただし、万能ではない。
- AIモデルの性能比較に関心があるエンジニア・PM
- Claude、GPT、Geminiの選定で迷っている方
- AIベンチマークの読み方を知りたい方
- AGI(汎用人工知能)の進捗を追いたい方
Humanity’s Last Examとは何か
HLEは、Center for AI Safety(CAIS、AIの安全性を研究する非営利団体)とScale AIが共同開発したAIベンチマークだ。2025年1月に公開され、2026年にNature誌(Volume 649, Pages 1139-1146)に掲載された。
特徴は3つある。
1. 問題の質が桁違い。50カ国以上、500以上の研究機関から約1,000人の専門家が2,500問を提供した。数学(41%)、生物学・医学(11%)、コンピュータサイエンス(10%)、物理学(9%)など100以上の分野をカバーしている。大学院レベル以上の知識を要求する問題がほとんどだ。
2. AIが解けた問題は除外する。応募された約70,000問から約13,000問が一次スクリーニングを通過し、その中からフロンティアLLM(最先端の大規模言語モデル)でテスト。正解できた問題は容赦なく排除された。つまり「出題時点で最先端AIが解けない問題」だけが残っている。
3. 検索耐性がある。Web検索ツール付きのモデルでもテストし、検索で正解にたどり着けた問題もフィルタリングした。単純なコピペでは突破できない設計になっている。
従来のベンチマーク(MMLU、HumanEval等)が軒並み90%超えで飽和し、モデル間の差を測れなくなっていた中で、HLEは「まだ差がつく試験」として登場した。
HLEの問題には50万ドル(約7,500万円、1ドル=150円換算)の賞金プールが設けられた。上位50問には各5,000ドル、次の500問には各500ドルが支払われている。良質な問題を集めるためのインセンティブ設計だ。
主要AIモデルのスコア比較
2025年初頭(公開直後)
| モデル | スコア |
|---|---|
| o1(OpenAI) | 8.0% |
| Claude 3.5 Sonnet | 4.1% |
| GPT-4o | 2.7% |
2026年3月(最新・標準評価)
| モデル | スコア |
|---|---|
| Gemini 3 Pro Preview | 37.5% |
| Claude Opus 4.6 Thinking Max | 34.4% |
| GPT-5 Pro | 31.6% |
| GPT-5.2 | 27.8% |
| Claude Opus 4.5 Thinking | 25.2% |
| Grok 4 | 24.5% |
| o3(High) | 20.3% |
ツール使用時
| モデル | スコア |
|---|---|
| Claude Opus 4.6(ツール付き) | 約53% |
ツール使用時の評価は、Web検索・コード実行・最大300万トークン(テキスト処理の単位)のコンテキストなどを含む拡張環境で行われている。標準評価(モデル単体での回答)とは条件が大きく異なる。人間で言えば「教科書持ち込み可の試験」のようなものだ。
出典: Scale AI HLE Leaderboard(2026年3月時点)
注目すべき変化は、1年で約30ポイントの急上昇。2025年初頭のトップが8%だったことを考えると、AIの進化速度が加速していることがわかる。Dan Hendrycksはモデルが50%を超え始めれば「人間と互角と言っていい」という趣旨の発言をしている。
Claude Opus 4.6はツール付きで53%に到達しており、特定条件下ではすでにそのラインを突破した。Claude Opus 4.6の詳細なベンチマーク分析はこちらで確認できる。
ユーザーと研究者の反応:光と影
評価する声
Texas A&M大学コンピュータサイエンス学科の准教授、Dr. Tung Nguyenは「これはAIとの競争ではない。AIがどこで強く、どこで苦戦するかを理解するための手段だ」と述べている。
AIコメンテーターのZvi Mowshowitzは、HLEを「人間が作成し採点する最後の一般知識ベンチマークになる可能性が非常に高い」と評価している。従来のベンチマークが次々と飽和する中、HLEが持つ「まだ差がつく」という価値は確かに大きい。
批判的な声
Hacker Newsでは「AI研究者はもう少し謙虚さを学んだほうがいい。名前からして大仰すぎる」というコメントが多数の支持を集めた。「人類最後の試験」という命名が不必要に煽っているという指摘だ。
Big Thinkでサイエンスコラムニストのイーサン・シーゲルは「この試験に合格したからといって、AIが人間の知能を持つことにはならない。選択式・短答式では消去法が使える。真の理解とは別物だ」と警告している。
最も深刻な批判は、FutureHouseの研究チームから出た。彼らのAIエージェント「Crow」がHLEの生物学・化学問題を検証したところ、回答の約29%に査読済み文献と矛盾する内容が見つかった。提供された解説の53.3%にも問題があった。原因は「レビュアーが各問題の検証に5分しかかけていなかった」ことだと指摘されている。
The Conversationでは「電卓が方程式を解けるからといって数学を理解しているとは言わない。AIのテスト結果を人間の知能と同列に扱うのは根本的に誤解を招く」という学術的な批判も出ている。
ベンチマークの限界:知っておくべき3つの問題
1. 回答の品質問題
前述のFutureHouseの検証結果は無視できない。特に生物学・化学分野では正解とされる回答自体に誤りがある可能性がある。HLEチーム自身も生物学・化学分野の約18%の問題に何らかの問題を認めている。ベンチマークのスコアを絶対視するのは危険だ。
2. 形式の制約
HLEは選択式と短答式のみで構成されている。オープンエンドの研究、創造的な問題解決、クライアントとのコミュニケーション、倫理的判断といった、実務で求められる能力は測定できない。エンジニアやPMが日常的に必要とするスキルの多くは、この試験の射程外にある。
3. ベンチマーク汚染のリスク
固定された問題セットには「対策される」リスクがつきまとう。モデルの学習データにHLEの問題やそれに類似した内容が混入すれば、スコアは実力を反映しなくなる。これはAIの仕組みを理解する上で重要な論点だ。
PMとしての判断:ベンチマークとの付き合い方
正直に言えば、HLEのスコアだけでAIツールを選ぶべきではない。
ベンチマークはあくまで「標準化されたテストでの成績」であって、自分のプロジェクトでの使い勝手とは別の話だ。Gemini、ChatGPT、Claudeを実際に使い比べた結果のほうが、ツール選定には役立つ。
それでもHLEに価値があるのは、「AIの進化速度」を客観的に示してくれる点だ。1年で8%から37.5%。この加速度を知っていれば、半年後に状況が変わる前提で設計できる。特定のモデルに過度に依存しない、マルチモデル戦略が現実的だと改めて感じる。
もう一つ。HLEが示したのは「ツールを使えるAIは段違いに強い」ということだ。Claude Opus 4.6が標準で34.4%、ツール付きで53%。差は約19ポイント。Claude Codeのような統合環境が重要になる理由がここにある。
AIモデルの選び方で迷っているなら、Claude Sonnet 4.6のレビュー記事も参考にしてほしい。コスパ重視ならSonnet、複雑なタスクならOpusという使い分けの根拠をベンチマークデータで示している。
まとめ
Humanity’s Last Examは、AIの現在地を測る強力なベンチマークだ。ただし、回答の品質問題や形式の限界も抱えている。
覚えておくべき数字は3つ。
- 37.5% : 標準評価のトップスコア(Gemini 3 Pro Preview)
- 53% : ツール使用時のトップ(Claude Opus 4.6)
- 90% : 人間の専門家の正答率
1年前は8%だった。この加速を前提に、自分のワークフローを組み立てていく必要がある。
出典:
- Phan, L. et al. “A benchmark of expert-level academic questions to assess AI capabilities.” Nature 649, 1139-1146 (2026). DOI: 10.1038/s41586-025-09962-4
- Scale AI HLE Leaderboard
- Humanity’s Last Exam 公式サイト
- FutureHouse: HLE検証レポート
- Texas A&M: “Don’t Panic: Humanity’s Last Exam has begun”
※ 本記事に掲載されているベンチマークスコアは2026年3月時点のものであり、リーダーボードは随時更新される。最新スコアはScale AIまたはArtificial Analysisで確認できる。