メインコンテンツへスキップ
AI News 24分で読める

Gemini 3 Deep Think 完全ガイド|使い方・料金・GPT-5/Claude比較【2026年2月】

「画面の向こうでAIが腕を組んで、最適解を悩み抜いているような人間臭さを感じた」。あるユーザーはDeep Thinkをそう表現した。

2026年2月12日、GoogleはGemini 3 Deep Thinkの大型アップデートを発表。Google DeepMindによると、未解決だった研究問題18件に解を提示し、2015年以来の数学予想を反証。ARC-AGI-2では**84.6%**を記録し、従来のGemini 3 Pro(31.1%)から53.5ポイント飛躍した。

一方で「ベンチマーク特化で実務では信頼できない」という辛辣な声もある。実際のところ、Deep Thinkは使えるのか。ユーザーの声とデータの両面から判断する。

この記事はこんな人におすすめ
  • 「GPT-5とClaude、Geminiどれを契約すべきか」悩んでいるエンジニア
  • Deep Thinkを研究やデータ分析に使えるか検討中の方
  • Google AI Ultra(月額36,400円)に課金する価値があるか判断したい方

Gemini 3 Deep Thinkとは何か

Deep Thinkは、Gemini 3 Proの上に構築された推論特化モードだ。

通常のAIは質問に対して即座に回答する(System 1思考)。Deep Thinkは違う。複数の仮説を並行で検証し、行き詰まったらバックトラックして別の道を探る「System 2思考」を採用している。

起業戦略についてDeep Thinkに相談したあるCEOは「単なるリストではなく、市場の変遷を踏まえた上で『なぜその戦略が有効なのか』という文脈まで提示してくれた」と評価している。従来のAIが「答え」を返すのに対し、Deep Thinkは「考え方」を返す。

通常モードとの違い

項目Gemini 3 Pro(通常)Gemini 3 Deep Think
思考方式即座に回答生成複数仮説を並行探索
処理時間数秒数十秒〜数分
得意分野日常タスク、文章作成数学、科学、複雑な推論
ARC-AGI-231.1%84.6%(+53.5pt)
コスト標準最大50倍のトークン消費

Deep Thinkには**thinking_levelパラメータ**があり、none(推論なし)からdeep(最大50倍以上の処理量)まで4段階で調整できる。タスクの複雑さに応じて処理コストをコントロール可能だ。

リリースタイムライン

日付出来事
2025年11月18日Gemini 3 Pro & Deep Thinkの初期リリース
2026年2月12日Deep Think大型アップデート — 科学・工学特化の強化

ベンチマーク — 数字で見るDeep Thinkの実力

Deep Thinkは複数の主要ベンチマークでトップスコアを記録している(ただし分野によって得意不得意がある)。

ARC-AGI-2ではDeep Thinkが84.6%でGPT-5.2(52.9%)に31.7ポイントの大差。GPQA Diamondでも93.8%でトップ

主要ベンチマーク詳細

ベンチマークDeep ThinkGPT-5.2Claude Opus 4.6意味
ARC-AGI-284.6%52.9%68.8%抽象推論 — 未知のパターンを見抜く視覚パズル
Humanity’s Last Exam48.4%34.5%40.0%各分野の専門家が作成した超難問テスト
GPQA Diamond93.8%85.0%82.0%博士課程レベルの科学Q&A
MMMU-Pro81.5%79.5%73.9%画像+テキストの複合理解
ARC-AGI-196.0%未公開未公開抽象推論(旧版)
Codeforces3,455 Elo未公開2,352 Elo競技プログラミング

※スコアはGoogle公式ブログ(2026/2/12)および各社公式発表値に基づく。「—」は未公開または未参加。

Codeforcesの3,455 EloはLegendary Grandmaster級。世界の競技プログラマーの上位0.01%に相当する。

分野別のリーダー

全てにおいてDeep Thinkがトップというわけではない。

  • 数学(AIME 2025): GPT-5.2が100%で首位 — 厳密な数学証明ではGPT-5.2が有利
  • 実用コーディング(SWE-bench等): Claude Opus 4.6が依然として強い — 大規模コードベースの理解とバグ修正に強み。Claude Codeの詳細はこちら
  • 抽象推論・科学: Deep Thinkがリード — パターン認識と多段階の論理推論で他を圧倒
「benchmarkmaxed」という批判

AI研究者のZvi Mowshowitzは、Gemini 3を「benchmarkmaxed(ベンチマーク特化型)」と評している。ベンチマークでは圧倒的でも、誤答時のハルシネーション率が88%に達するというデータもある(Claudeは26〜48%)。ベンチマークの数字だけで判断せず、自分のユースケースで実際に試すことが重要だ。

何ができるのか — 実世界での成果

2026年2月のアップデートで、Deep Thinkは以下の実績を残している。

未解決問題への解を提示

Google DeepMindの発表(2026年2月12日)によると:

  • 18件の未解決研究問題に数学・物理・コンピュータサイエンスの分野で解を提示
  • 2015年以来の数学予想を反証(10年以上未解決だった問題)

これらの成果は今後の査読・検証を経て評価が確定される。

ユーザーが報告している成功事例

ハードウェア設計(Adafruit): 電子部品メーカーのAdafruitは、データシートのPDFからEagleCAD用の部品ライブラリ(.lbr)をDeep Thinkに生成させた。パッドの寸法、ピンの名前、ペーストマスクの分割まで正確だったという。処理時間は1ファイルあたり5〜10分。

SVG生成(Simon Willison): 著名な開発者Simon Willisonが「ペリカンが自転車に乗るSVG」を生成させたところ、「これまでに見た中で最も出来が良い」と評価。推論を重ねることで、通常のモデルでは難しい複雑な視覚表現を実現した。

工学の議論で人間に勝つ(HN): あるHacker Newsユーザーは、補助発電機の設置方法について「Geminiと議論になり、強く反論したが、結局Geminiのほうが正しかった」と報告している。

3D可視化: WiFiレーダーの3D可視化を依頼したところ、指示していないPearson相関のロジックを自主的に組み込んだ実装を返してきた。統計的手法の選択まで自律的に行う。

しかし、失敗もある

693行のハルシネーション・コード: Surge HQの検証では、2行で直せるバグ修正に対してDeep Thinkが39ターン・693行の修正を行い、最終的に「利用可能な戦略を使い果たした」と降参した。存在しないクラスを捏造し、ずれた行番号を主張し続けた。同じタスクでClaudeは途中で立ち止まり再調査して解決、GPT-5も不足を指摘して正しいアプローチに修正した。

指示を無視する: Hacker Newsでは「『要約テーブルを作らないで』と頼んでも毎回無視される」という報告が複数ある。Deep Thinkは複雑な推論には強いが、簡単な指示に従う能力に課題が残る。

Deep Thinkが輝くタスク、輝かないタスク

成功事例に共通するのは「正解が1つとは限らない」「多段階の推論が必要」なタスクだ。逆に、単純なバグ修正や定型的な文章作成では、ClaudeやGPT-5のほうが信頼性が高いという報告が目立つ。道具は使い所を選ぶ。

料金と使い方

料金プラン

プラン月額(税込)Deep Think利用
Gemini(無料)0円1日数回の制限付き
Google AI Pro2,900円Gemini 3 Proのみ
Google AI Ultra36,400円Deep Thinkフルアクセス(1日10プロンプト)

Google AI Ultraは初回3ヶ月50%オフ(月額約18,200円・税込)のキャンペーンが実施されている。※キャンペーン内容・期間は変更される場合がある。最新情報はGoogle公式サイトで確認してほしい。

競合サービスとの料金比較

サービス月額(税込)推論モデル
ChatGPT Plus約3,000円o3利用可(制限あり)
Claude Pro約3,000円Opus 4.6利用可
Google AI Ultra36,400円Deep Thinkフルアクセス

ChatGPT PlusやClaude Proの約12倍の価格。この差をどう見るか。

ASCII.jpの新清士氏は「1日10プロンプト制限で月額36,400円、つまり1回あたり約120円。あまりに高くて連続利用には悩む」と率直に書いている。Hacker Newsでも「$250は現時点のGeminiの価値では正当化できない」「無料モデルを回して使えば十分」という声が多い。

一方で、noteユーザーのさやさや氏は「同じAIとは思えないほどの違い。思考の深さが別次元」と評価しており、研究や高度な分析に使うユーザーの満足度は高い。Google AI Pro(月額2,900円)の年間プランを「コスパ最高」と評価するユーザーもいる。

結局、Deep Thinkのフルアクセスが必要かどうかは用途次第だ。まずは無料枠で試して判断するのが現実的。3モデルの詳しい比較はGemini 3 vs ChatGPT vs Claude徹底比較も参考にしてほしい。

API料金

項目料金(100万トークンあたり)
入力$2〜$4
出力$12〜$18
Deep Think思考トークン出力と同等料金

Deep Thinkは思考プロセスが長いため、通常のGemini 3 Proと比べてトークン消費量が大幅に増加する。APIは現在早期アクセスプログラムで、研究者・エンジニア・企業向けに順次開放中だ。

使い方

Geminiアプリ(ブラウザ/スマホ)

  1. gemini.google.com にアクセス
  2. テキストボックスにプロンプトを入力
  3. テキストボックス下のDeep Thinkボタンをクリック
  4. 思考過程が表示された後、回答が生成される

Google AI Studio(開発者向け)

  1. ai.google.dev でAPIキーを取得
  2. モデル選択で gemini-3-pro を選択
  3. thinking_level パラメータを deep に設定

GPT-5 / Claudeとの使い分け

結局どれを使えばいいのか。実際に複数モデルを併用しているユーザーの声から見えてきた使い分けを整理する。

用途おすすめ理由
科学研究・数理推論Deep Think抽象推論・科学ベンチでトップ
数学の厳密な証明GPT-5.2AIME 2025で100%を記録
コーディング(実務)Claude Opus 4.6SWE-benchで実用コード生成に強い
日常的なQ&A・文章作成Gemini 3 Pro / GPT-5Deep Thinkは過剰。通常モードで十分
長文コンテキスト分析Gemini 3 Pro100万トークンの長文コンテキスト
マルチモーダル(画像+テキスト)Deep ThinkMMMU-Proでトップ

Hacker Newsのあるユーザーは「コーディングではOpusがGeminiを片手で倒す。でもGeminiは安いから、簡単なタスクはまずGeminiに投げる」と書いている。noteの中村修三氏は「深く考えたいときはClaude、Google連携で仕事したいときはGemini」と整理している。日経リスキリングの取材でも「メインでClaudeとGemini、画像が必要なときだけChatGPT」という使い分けが紹介されている。

1つのモデルに固定しない

実際に複数モデルを使い込んでいるユーザーほど、用途に応じて切り替えている。Deep Thinkは科学・推論でトップクラスだが、コーディングではClaudeが、速度重視ならGPT-5が有利。全部を1つで済ませようとしないのが2026年のAI活用の鉄則だ。

注意点と制約

性能面

  • レイテンシが大きい: 複雑な問題では回答まで数分かかることも
  • コストが高い: 思考トークン分のコストが加算される
  • 簡単なタスクには不向き: 「今日の天気は?」にDeep Thinkは使わない

正確性 — 最大の懸念

  • 誤答時のハルシネーション率が高い: Zvi Mowshowitzの検証では、Gemini 3が間違えた場合の88%がハルシネーション(捏造)だった。Claudeの26〜48%と比較すると深刻な差がある。「わからない」と言わず、もっともらしい嘘をつく傾向が強い
  • 引用の捏造: 2007年のハンドブックの章に対して「新しい要旨を捏造し、年号まで間違えた」という報告がある。数学の証明には強いが、文献の引用は信用しないほうがいい
  • おべっか(Sycophancy): Hacker Newsでは「新しいDeep Thinkモデルが不安になるほどお世辞を言ってくる」という指摘が複数ある。質問者の意見に迎合する傾向があり、批判的なフィードバックを求めるときは注意が必要
  • 出力の検証は必須: どれだけベンチマークが高くても、人間によるレビューは欠かせない

日本語での利用

Gemini 3は日本語対応が大幅に強化されており、敬語の使い分けやビジネス慣習を踏まえた文章作成が自然になっている。ただしDeep Thinkは推論特化モードのため、日常会話よりも論理的な分析・数学・コーディングで真価を発揮する。

アクセス

  • API早期アクセスは限定的: 一般開発者への全面開放はまだ
  • Google AI Ultra月額36,400円(税込): 個人には高額。まずは無料枠で試すのが現実的
  • 1日10プロンプト制限(Ultra会員でも)

まとめ — Gemini 3 Deep Thinkは誰が使うべきか

ベンチマークでは圧倒的。実務での評価は分かれる。それがDeep Thinkの現在地だ。

Adafruitのようにハードウェア設計で生産品質の出力を得ている企業もあれば、693行のハルシネーション・コードに振り回された開発者もいる。「思考の深さが別次元」と感じるユーザーと、「ベンチマーク特化で実務では信頼できない」と切り捨てるユーザーが共存している。

現時点での判断基準はこうなる。

  • 科学・数学・複雑な推論にお金を払える → Deep Thinkを試す価値あり
  • コーディングが主戦場 → Claude Opus 4.6のほうが信頼性が高い
  • 速度とコスパ重視 → GPT-5.2かGemini 3 Pro(通常モード)で十分
  • まだ決められない → Geminiアプリの無料枠で試してから判断する

月額36,400円を払う前に、無料枠で「AIが腕を組んで考える」あの感覚を体験してほしい。その上で、自分の仕事に本当に必要かどうか判断すればいい。

フリーランスのAI活用全般についてはおすすめAIツール10選、AIエージェントによる業務自動化についてはAIエージェント自動化ガイドもあわせて参考にしてほしい。


参考ソース — 公式発表

参考ソース — ユーザー体験・レビュー

※本記事の情報は2026年2月時点のものだ。ベンチマークスコア、料金、サービス内容は予告なく変更される場合がある。最新情報は各サービスの公式サイトで確認してほしい。 ※記事中の製品名・サービス名は各社の商標または登録商標。

Share