#ベンチマーク

4件の記事

Gemini 3.1 Proのスペック・料金・ベンチマークを徹底解説。GPT-5.4・Claude Opus 4.6との比較や開発者の本音、PMとしての評価を日本語で詳説。

Humanity's Last Exam｜AIベンチマークの最終試験で各モデルの実力が見えた

Nature誌掲載のAIベンチマーク「Humanity's Last Exam」を解説。Claude Opus 4.6やGemini 3 Proなど主要モデルのスコア比較、方法論の強みと弱点、そしてこの試験が示すAIの現在地。

Claude Sonnet 4.6はSWE-bench 79.6%でOpusとの差が1.2ptに縮小。価格はSonnet据え置きの入力$3/出力$15。adaptive thinking・1Mコンテキストの新機能とAPI移行手順、GPT-5.2・Gemini 3 Proとの競合比較を解説。

Gemini 3 Deep Thinkの使い方・料金・始め方を図解で解説。ARC-AGI-2で84.6%を達成した推論AIの実力を、GPT-5・Claude Opus 4.6と徹底比較。無料枠の制限やGoogle AI Ultra（月額36,400円）の費用対効果まで網羅。