Gemini 3.5 Flash GA徹底レビュー|Terminal-Bench 76.2%でPro超え・289tok/sの実力
「Flashなのに、Proを上回った」。Google DeepMindのモデルカードを最初に目にしたとき、多くの開発者が違和感を覚えたはずだ。これまで「Flash=速いが軽量」「Pro=重いが高性能」という棲み分けが当然だった。それを Google 自らが Google I/O 2026 のキーノートで公式に否定した(出典:Google Blog「Gemini 3.5: frontier intelligence with action」、2026年5月)。
2026年5月、Gemini 3.5 Flash が一般提供(GA)に到達した。同月にAppwriteが公開した検証では、Terminal-Bench 2.1(CLI操作タスクの精度ベンチ)で 76.2%、Gemini 3.1 Pro の 70.3% を上回る数字が記録された(出典:Appwrite「Gemini 3.5 Flash deep dive」、2026年5月)。
- Gemini API を業務で使っているエンジニア・PM
- Claude Opus 4.7 や GPT-5.5 から乗り換えコストを試算したい開発者
- AIエージェントのコスト最適化を進めたいフリーランス・チームリード
- 「Flashで本当にProの仕事が回るのか」を実例で確かめたい技術選定担当
Gemini 3.5 Flash は「Flashの皮をかぶった準フラッグシップ」だ。Terminal-Bench 2.1で76.2%、出力速度289トークン/秒(Google公式計測でClaude Opus 4.7の約4.3倍)、入力$1.50・出力$9.00(100万トークンあたり、USD・税抜)。多くのコーディング・エージェント用途で Gemini 3.1 Pro から置換可能だ。一方、複雑な多段推論や設計判断が要る場面では Pro の安定感がまだ有利。1Mコンテキスト・64K出力・2026年5月にGA。
何が起きたのか
2026年5月、Google I/O 2026 のキーノートと同じタイミングで Gemini 3.5 Flash の GA が告知された。Google AI Studio・Gemini API・Vertex AI・Antigravity・Android Studio・Gemini アプリ・検索の AI Mode に同時展開されている(出典:Engadget「Google says Gemini 3.5 Flash rivals large flagship models」、2026年5月)。
注目すべきは Google のマーケティング文言だ。プレビュー段階では「軽量モデル」と説明していた 3.5 Flash を、GA 発表では「最も知的なモデル」と位置づけ直している。実際、複数のベンチマークで上位プランの 3.1 Pro を上回る数字を出しており、ポジショニングの修正は数字に裏付けられている。
ベンチマークの全体像
Google DeepMind のモデルカードと llm-stats の集計を突き合わせると、3.5 Flash の強さは「コーディング・エージェント系」に集中していることがわかる(出典:Gemini 3.5 Flash Model Card、llm-stats「Gemini 3.5 Flash launch」)。Gemini 3.1 Pro完全解説 で整理した Pro 側のスコアと比較すると、性能の地殻変動がはっきり見える。
| ベンチマーク | Gemini 3.5 Flash | Gemini 3.1 Pro | 解釈 |
|---|---|---|---|
| Terminal-Bench 2.1 | 76.2% | 70.3% | CLI/シェル操作で逆転 |
| MCP Atlas | 83.6% | 78.2% | MCP(Model Context Protocol)経由のツール呼び出し精度 |
| Finance Agent v2 | 57.9% | 43.0% | 金融タスクのエージェント実行精度 |
| GDPval-AA (Elo) | 1656 | 1314 | 経済価値タスクの総合評価 |
| 出力速度 | 289 tok/s | ≒135 tok/s | 2.1倍速 |
数値出典はGemini 3.5 Flash モデルカード と llm-stats の集計を突き合わせたもの。Google は同モデルカードで「Claude Opus 4.7 と比較して約4.3倍の出力速度」とも主張している(Google公式計測値)。Artificial Analysis ベースの Opus 4.7 出力速度(約67 tokens/秒)と突き合わせるとほぼ一致する。
ただしフラッグシップ全部を抜いたわけではない。WhatLLMによれば、Intelligence Index の天井である GPT-5.5(xhigh、60.24点)は4月以降まだ抜けていない。3.5 Flash は「速度を犠牲にしない範囲での最強」というポジションだ(出典:WhatLLM「New AI Models May 2026」)。
料金で見た立ち位置
Google の公式料金は次の通り。
- 入力:$1.50 / 100万トークン
- 出力:$9.00 / 100万トークン
- キャッシュ入力:$0.15 / 100万トークン
- 非グローバル:入力$1.65、出力$9.90
主要モデルとの比較を Artificial Analysis ベースで並べると、Claude Opus 4.7(入力$15、出力$75 ベース)、GPT-5.5(入力$1.25、出力$10)、Gemini 3.1 Pro(200K以下で入力$2、出力$12)。3.5 Flash は GPT-5.5 とほぼ同水準の安さで、Opus 4.7 と比べると入出力ともに10倍前後安い。
DEV Community のレポートは、3.1 Pro から 3.5 Flash への置換でトークンあたり40%程度安くなるケースを示している(出典:DEV Community「Gemini 3.5 Flash beat 3.1 Pro on coding and agents」)。エージェントを24時間稼働させる構成ではこの差は無視できない。
実ユーザーの声:光と影
ベンチマークだけでは見えない部分を、各所のレビューから集めた。
肯定的な声としてもっとも多いのは「対話的なコーディングのストレスがなくなる」というものだ。MindStudio の比較レビューは、開発者がレスポンスを待つ局面において 3.5 Flash がトップだと評価している。同じプロンプトを Pro と Flash に投げて、コード差分が無視できる程度なら速い方を選ぶのが合理的という整理だ(出典:MindStudio「Gemini 3.5 Flash vs Gemini 3.1 Pro」)。
Appwrite の検証では、コード生成・デバッグ・ドキュメント生成・テスト記述・言語間翻訳のいずれも Pro と同等品質と結論づけている。ベンチマークだけでなく実務タスクでも置換が成立しているということだ。
否定的な声もある。MindStudio は同じ記事で「アーキテクチャ判断、多ファイルにまたがる複雑なリファクタリング、新規アルゴリズム設計では Pro が依然として優位」と書いている。日本語圏でも、note の検証記事が「長セッションでの一貫性は Pro の方がやや上」と報告している(出典:note「Gemini 3.5 Flash 速報」)。
つまり「速いから何でも置き換える」のではなく、「短く区切れるタスクは Flash、長い文脈を引きずる設計判断は Pro」という棲み分けが現実解になる。
Claude Opus 4.7 / GPT-5.5 との使い分け
電脳狐影として PM 視点で整理すると、次のような棲み分けが妥当だ。
Gemini 3.5 Flash が向いている用途
- コーディング支援(短いタスクの反復)
- MCP ツール経由のエージェント実行
- 1Mコンテキストでの大規模コードベース読み込み
- レイテンシ重視のチャット UI バックエンド
- コスト最適化が必須な高スループット業務
Claude Opus 4.7 を選ぶべき場面
- 設計レビューや長文ドキュメントの構造化(Claude Opus 4.7完全ガイド で詳述)
- 幻覚率の低さが効くファクトベースの調査
- 大規模リポジトリの SWE-bench Pro 系タスク
GPT-5.5 を選ぶべき場面
- エージェントを長時間自律稼働させるユースケース(GPT-5.5 完全ガイド で詳細比較)
- Terminal-Bench 2.0 で計測したい純粋なシェル操作
幻覚率の観点では、Artificial Analysis の AA-Omniscience(事実性ベンチ)が Claude Opus 4.7:36%、GPT-5.5:86% という値を報告している(出典:Artificial Analysis AA-Omniscience)。3.5 Flash の AA-Omniscience は GA 直後でまだ第三者の独立計測が出揃っていないため、ファクト性が要る用途はもうしばらく Opus 4.7 のほうが安全だと判断する。同じ理由で、医療・法務・会計のような誤情報コストが大きい業務は急いで切り替えるべきではない。
フリーランスエンジニア・PMにとっての意味
PM 業務に置き換えて評価すると、3.5 Flash の登場で「コストを理由にAIエージェントを諦めていた個人開発」が動き出せる。
たとえば顧客の社内 Slack ログから日次サマリを作る業務エージェントを月20万トークン(出力ベース)処理する想定で試算する。Opus 4.7(出力$75/1Mトークン)では月$15、3.5 Flash(出力$9/1Mトークン)では月$1.80、概算で約8分の1になる(USD・税抜・概算)。プロトタイプを Flash で作り、品質要件が確定してから Opus に上げる、という二段構成が現実的だ。請求書作成や議事録要約のように出力量がある程度予測できる業務は、Flash 起点で問題ない。
ただし、3.5 Flash 一本に依存するのは避けたほうがいい。Google の AI Studio は過去にレート制限や API 廃止を急に告知したケースがある(Gemini API Changelogを継続確認しておくべき)。Anthropic・OpenAI・Google の3系統を切り替えられるよう、抽象化レイヤーは引いておきたい。
注意点
- GA直後の不安定さ:GA 直後の Gemini API では数時間規模のレート逼迫が観測されている。クリティカルパスでの一極依存は避ける
- 非グローバルリージョン料金:日本リージョンを含む非グローバルでは10%程度割高
- ベンチマークと実務の乖離:Terminal-Bench 2.1 や MCP Atlas は強力な指標だが、業務固有のタスクは別途検証する
- キャッシュ入力単価の活用:$0.15 / 100万トークンの割引は同一プロンプトを再利用する構成でしか効かない。設計段階でキャッシュキーを意識する必要がある
明日試すための最短手順
- Google AI Studio にアクセスし、モデル選択で
gemini-3.5-flashを指定する - まず手元の「Pro で動かしていた1分以内のタスク」を Flash に流して品質差を体感する
- 同じプロンプトで
Run 3 timesを実行し、応答ブレを確認 - レイテンシ・出力品質に問題なければ、本番アプリの routing 設定を Flash 優先に切り替える。失敗時に Pro へフォールバックする構成にしておくと安全
検証段階で「Pro より明らかに劣る」ケースが10%以上出るなら、その業務は Pro に残す判断が無難だ。
公式情報は Google Blog「Gemini 3.5: frontier intelligence with action」 と Gemini 3.5 Flash モデルカード で確認できる。Google AI Studio から無料枠で試せる。Claude Opus 4.7との詳細比較はClaude Opus 4.7完全ガイドを参照。
関連記事
- Gemini 3.1 Pro完全解説 :3.5 Flash の比較対象として最重要。コンテキスト窓と思考レベルの仕組みも整理
- GPT-5.5完全ガイド :幻覚率86%と Terminal-Bench 首位の二面性を解説
- Claude Opus 4.7完全ガイド :比較対象として最重要。Anthropic 側の最新フラッグシップの全体像
- Gemini・ChatGPT・Claude徹底比較 :3系統の選定基準を網羅
- AIコーディングエージェント比較2026 :エージェント基盤を横断比較
本記事の情報は2026年5月28日時点のものです。Gemini 3.5 Flash の料金・ベンチマーク・提供範囲は変更される可能性があります。最新情報はGoogle 公式ブログおよびGemini API 公式ドキュメントをご確認ください。記事内のベンチマーク数値は各出典時点の値です。記事内の企業名・サービス名は各社の商標または登録商標です。