#ベンチマーク
4件の記事
Gemini 3.1 Pro完全解説|ベンチマーク王者が抱える光と影
Gemini 3.1 Proのスペック・料金・ベンチマークを徹底解説。GPT-5.4・Claude Opus 4.6との比較や開発者の本音、PMとしての評価を日本語で詳説。
Humanity's Last Exam|AIベンチマークの最終試験で各モデルの実力が見えた
Nature誌掲載のAIベンチマーク「Humanity's Last Exam」を解説。Claude Opus 4.6やGemini 3 Proなど主要モデルのスコア比較、方法論の強みと弱点、そしてこの試験が示すAIの現在地。
Claude Sonnet 4.6レビュー|SWE-bench 79.6%でOpus級性能をSonnet価格で
Claude Sonnet 4.6はSWE-bench 79.6%でOpusとの差が1.2ptに縮小。価格はSonnet据え置きの入力$3/出力$15。adaptive thinking・1Mコンテキストの新機能とAPI移行手順、GPT-5.2・Gemini 3 Proとの競合比較を解説。
Gemini 3 Deep Think 完全ガイド|使い方・料金・GPT-5/Claude比較【2026年2月】
Gemini 3 Deep Thinkの使い方・料金・始め方を図解で解説。ARC-AGI-2で84.6%を達成した推論AIの実力を、GPT-5・Claude Opus 4.6と徹底比較。無料枠の制限やGoogle AI Ultra(月額36,400円)の費用対効果まで網羅。