メインコンテンツへスキップ
#

#ベンチマーク

4件の記事

AI News
15分

Gemini 3.1 Pro完全解説|ベンチマーク王者が抱える光と影

Gemini 3.1 Proのスペック・料金・ベンチマークを徹底解説。GPT-5.4・Claude Opus 4.6との比較や開発者の本音、PMとしての評価を日本語で詳説。

#Google#Gemini#Gemini 3.1 Pro#LLM
AI News
15分

Humanity's Last Exam|AIベンチマークの最終試験で各モデルの実力が見えた

Nature誌掲載のAIベンチマーク「Humanity's Last Exam」を解説。Claude Opus 4.6やGemini 3 Proなど主要モデルのスコア比較、方法論の強みと弱点、そしてこの試験が示すAIの現在地。

#AI#ベンチマーク#Humanity's Last Exam#Claude
AI News
28分

Claude Sonnet 4.6レビュー|SWE-bench 79.6%でOpus級性能をSonnet価格で

Claude Sonnet 4.6はSWE-bench 79.6%でOpusとの差が1.2ptに縮小。価格はSonnet据え置きの入力$3/出力$15。adaptive thinking・1Mコンテキストの新機能とAPI移行手順、GPT-5.2・Gemini 3 Proとの競合比較を解説。

#Claude#Anthropic#Claude Sonnet#AI
AI News
24分

Gemini 3 Deep Think 完全ガイド|使い方・料金・GPT-5/Claude比較【2026年2月】

Gemini 3 Deep Thinkの使い方・料金・始め方を図解で解説。ARC-AGI-2で84.6%を達成した推論AIの実力を、GPT-5・Claude Opus 4.6と徹底比較。無料枠の制限やGoogle AI Ultra(月額36,400円)の費用対効果まで網羅。

#Gemini#Google#Deep Think#推論AI