Gemini 3.1 Pro完全解説|ベンチマーク王者が抱える光と影
「知っている中で最も賢いアホなモデルだ」。Medium上でGemini 3.1 Proのレビューを書いたエンジニアのDan Clearyはそう見出しをつけた。Googleが18のベンチマーク中12で1位を主張するモデルに対する評価としては、辛辣すぎる一言だ。
ベンチマークの数字は本物だ。ARC-AGI-2のスコアは前バージョン比2.5倍、1Mトークンのコンテキスト、Claude Opus 4.6比で約7.5倍安い価格。しかし「賢いアホ」と言われる理由も実在する。PMとして数十のAIツールを試してきた立場から、この矛盾を正直に解説する。
- Gemini 3.1 ProをAPIや業務に採用するか判断したいフリーランスエンジニア・PM
- GPT-5.4やClaude Opus 4.6と比較してコスト最適化を考えているAIサービス開発者
- エージェント機能や1Mトークンコンテキストの実用性を知りたい開発者
結論を先に言う。
- 科学的推論・エージェントワークフロー:現時点の最有力候補
- コスト重視の大規模文書処理:Claude Opus 4.6から乗り換えを検討できる水準
- 長時間の反復コーディングセッション:まだ注意が必要(実務報告が複数ある)
- ライティング・クリエイティブ系:Claude Opus 4.6が人間評価でリード
Gemini 3.1 Proとは
Google DeepMindが2026年2月にプレビュー公開したGemini 3.1 Proは、Gemini 3.0 Proの後継にあたる推論特化モデルだ。TransformerベースのMixture-of-Experts(MoE)アーキテクチャを採用し、コンテキストウィンドウは最大1,048,576トークン(約100万トークン)、最大出力は65,536トークン(64K)。
マルチモーダル入力は実用的な範囲をカバーしている。テキスト、画像(最大900枚/プロンプト)、音声(最大8.4時間)、動画(最大1時間)、PDF、そしてコードリポジトリ全体をそのまま渡せる。出力はテキストのみだが、SVGやインタラクティブダッシュボードのコード生成は可能だ。
(Gemini 3.0 Proの概要については「Gemini 3 Deep Think完全ガイド」も参照)
ベンチマーク:何が強くて何が弱いか
主要ベンチマークでのGemini 3.1 Proの位置づけを整理する。
| ベンチマーク | Gemini 3.1 Pro | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|---|
| GPQA Diamond(PhD級科学) | 94.3% | 92.8% | - |
| ARC-AGI-2(抽象推論) | 77.1% | 73.3% | - |
| SWE-Bench Verified(コーディング) | 80.6% | 80.6% | 80.8% |
| BrowseComp(Webエージェント) | 85.9% | - | - |
| Terminal-Bench 2.0(ターミナル操作) | 68.5% | 77.3% | - |
| 人間評価Elo(LMArena系) | 1317 | - | 1633 |
(出典:MindStudio、Evolink AI、Google DeepMind Model Card)
Gemini 3.1 Proが圧倒的なのは科学的推論だ。GPQA DiamondはPhDレベルの専門知識を要する問題を扱うベンチマークで、GPT-5.4に1.5pt差をつけた。ARC-AGI-2(パターン認識・抽象推論)でも4pt近いリードを保っている。
一方、ターミナル操作を含むエージェント系実装ではGPT-5.4が68.5%対77.3%でGemini 3.1 Proを上回る。人間評価(ライティング品質・専門的な判断)ではClaude Opus 4.6が316ポイント差でリードしており、この差は無視できない。
Gemini 3.0 Proからの改善点
3.1で最も劇的に変わった数字がARC-AGI-2だ。
| 指標 | Gemini 3.0 Pro | Gemini 3.1 Pro | 変化率 |
|---|---|---|---|
| ARC-AGI-2 | 31.1% | 77.1% | +148% |
| BrowseComp | 59.2% | 85.9% | +26.7pt |
| MCP Atlas(MCPエージェント評価) | 54.1% | 69.2% | +15.1pt |
| APEX-Agents | 18.4% | 33.5% | +82% |
| SWE-Bench Verified | 76.8% | 80.6% | +3.8pt |
| Terminal-Bench 2.0 | 56.9% | 68.5% | +11.6pt |
(出典:Apiyi.com、Google DeepMind)
「3.1は同じ品質で消費トークンが約15%少なくなった」というのはJetBrains AI DirectorによるAPIを使った定量評価で確認されている。コストを押し上げずに品質向上を実現した点は評価できる。
新設されたMEDIUM思考レベルも実用的な改善だ。LOW(速度優先)とHIGH(精度優先)の二択だった3.0 Proと違い、3.1ではMEDIUMを選ぶことで応答速度とコストを抑えながら推論品質を確保できる。
(MCP連携でGemini 3.1 Proをエージェント構成に組み込む方法は「MCP実践ガイド2026」を参照)
Gemini 3.1 Proの料金とAPI
Google AI Studio(Gemini API)の公式料金は以下の通りだ。
| 利用量 | 入力(/100万トークン) | 出力(/100万トークン) |
|---|---|---|
| 200K以下 | $2.00 | $12.00 |
| 200K超 | $4.00 | $18.00 |
| コンテキストキャッシュ | $0.50 | - |
(出典:Google AI Developer Pricing)
Claude Opus 4.6(入力$15.00/出力$75.00/100万トークン)と比較すると、入力で7.5倍、出力で6.25倍安い。大量のAPIリクエストを処理する業務用途でこの差は無視できない。コンテキストキャッシュを活用すれば繰り返し参照するデータのコストをさらに削減できる。
OpenRouterにも対応しており、OpenAI互換のインターフェースから既存インフラを変えずに利用できる。
Gemini 3.1 Proへの開発者の本音
ベンチマークと実務の乖離を示す声が目立つ。
「推論・設計・コード生成は驚異的。特にone-shotタスクが得意」(Hacker News開発者、2026年2月)
「1Mトークンのコンテキストは実際に使える。コードベース全体を読み込んでアーキテクチャ分析できた」(DataCamp実地テスト、2026年2月)
「GPT-5.4と価格性能比で明らかに勝っている。コスト差7.5倍は予算に直結する」(Evolink AI分析、2026年2月)
一方で辛辣な評価も多い。
「知っている中で最も賢いアホなモデルだ。ベンチマークはトップクラスだが、実際の開発では余分なラッパーが最も必要なモデルでもある」(Dan Cleary、Medium / CodeX、2026年2月)
「長い反復的コーディングセッションで状態が劣化し始める。Gemini CLIが正常なコードチャンクを誤って削除したケースも経験した」(Hacker News、2026年2月)
「高需要時に最大104秒のレイテンシスパイクと503エラーが発生した。プロダクション利用には注意が必要だ」(独立レビュアー、2026年2月)
「人間評価タスクではClaudeが一貫して好まれる。ベンチマーク勝者と実用的な使いやすさは別物だ」(SmartScope分析、2026年2月)
「最も賢いアホ」という表現が指すのは、構造的な推論は得意でも「何をすべきか」の文脈判断で脱線しやすい傾向のことだ。one-shot(一発の指示で完結する)タスクでは力を発揮するが、長期的なコーディングセッションで文脈を保ち続けるのが苦手という評価が複数の開発者から出ている。
Googleの廃止ポリシーに関する注意: HNコミュニティでは、Gemini 3.0 Proのプレビュー廃止告知が発表からわずか11日しかなかった点を問題視する声もある。Googleのポリシーは14日前通知としているが、実質的にそれを下回ったとして開発チームが混乱したという報告がある。プロダクション利用では移行リスクを考慮した設計を推奨する。
Gemini 3.1 Proが向く用途・向かない用途
Gemini 3.1 Proが向くケース
科学・研究系タスク: GPQA Diamond 94.3%はPh.D.レベルの専門知識を要する問題で現時点のトップ。医薬品・法律・工学分野の専門文書分析に強みがある。
大規模文書の一括処理: 1Mトークンのコンテキストは実際に活用できる水準だ。大量の契約書・マニュアル・コードリポジトリを一括投入しての要約・検索・分析が可能。
コスト重視のAPI利用: Claude Opus 4.6比7.5倍安という価格差は業務コストに直結する。月間数百万リクエストが必要なサービスでは乗り換えを真剣に検討できる。
エージェントワークフロー: BrowseComp 85.9%、MCP Atlas 69.2%など、エージェント系ベンチマークでの改善幅は顕著だ。Webリサーチや複数ステップの自動化タスクに向いている。
Gemini 3.1 Proが向かないケース
長時間の反復コーディングセッション: 状態の劣化に関するHN上の報告が気になる。Claude Code + Claude Opus 4.6の組み合わせのほうが安定している可能性が高い。
クリエイティブ・ライティング系: 人間評価EloスコアでClaude Opus 4.6に300ポイント超の差がある(出典:Evolink AI / SmartScope分析)。記事・コピー・提案書など人に読ませる文書生成ではClaude優位が続く。
プロダクションでのレイテンシ要件が厳しい用途: 高需要時の103秒スパイクや503エラーの報告がある現時点では、SLA要件が厳しいプロダクションには慎重に判断したい。
(Claude Opus 4.6との詳細な比較は「GPT-5.4 vs Claude Opus 4.6:2026年最新AIモデル徹底比較」を参照)
PMから見たGemini 3.1 Proの選定基準
正直に言う。「ベンチマーク最強」というGoogleの主張は数字として本物だ。ただし「最強のモデル」と「最適なモデル」は別の話だ。
PMとして選定するなら、今の時点ではこう整理する。
採用する場面: 科学的推論を要する分析タスク、大量ドキュメント処理のAPIコスト最適化、エージェントワークフローの実験的導入。コンテキストキャッシュを使えばさらにコストを下げられる構成はコスト競争力がある。
保留する場面: 長時間コーディングセッションのメイン環境としての採用はレイテンシと状態劣化の問題が解消されてから再評価したい。ライティング品質が重要な用途もClaudeをまだ使い続ける。
Dan Clearyの「最も賢いアホ」という評価は皮肉ではなく的確な観察だ。Googleが本気でエージェント・推論路線に投資しているのは数字が証明している。一方で「実際に使いやすいか」はまだ余地がある。この乖離が3.2や4.0で解消されるかどうかが、Gemini系列が開発者の第一選択肢になれるかどうかの分岐点になるだろう。
Gemini 3.1 ProのAPIを試すなら、まずGoogle AI Studioで無料アクセスできる。コンテキストキャッシュを使ったコスト最適化の構成は、実際に数値を出してから判断することを推奨する。
免責事項: 本記事の料金・スペックはGemini 3.1 Proプレビュー版リリース時点(2026年2月)の情報に基づく。正式リリース時に変更される可能性がある。ベンチマークは引用元の測定条件下での数値であり、実際の用途での性能を保証するものではない。投資や重要な業務判断に際しては公式情報を確認すること。