メインコンテンツへスキップ
AI News 21分で読める

Google Gemma 4完全ガイド|全4モデルの性能・実行環境を徹底比較【2026年4月】

「Gemma 4のE4Bがベンチマークで旧Gemma 3の27Bを超えた。アクティブパラメータは6分の1なのに」。リリース直後、Ollama公式がこの事実を淡々と伝えた。数字だけ見れば、前世代とは別物だ。

2026年4月2日、GoogleはGemma 4を公開した。Gemini 3の研究成果をベースに構築された4つのオープンウェイトモデルで、最大の変更点はApache 2.0ライセンスへの移行。商用利用の制限が撤廃された。

Arena AIリーダーボードで31Bモデルが世界3位、26B MoEが6位。「パラメータあたりの知能」という表現がGoogleから出てきたのは、スペックシートの大きさで競う時代の終わりを示唆しているのかもしれない。

この記事はこんな人におすすめ
  • ローカルLLMの導入・乗り換えを検討しているエンジニア
  • オープンウェイトモデルを商用プロダクトに組み込みたいフリーランス・スタートアップ
  • Llama 4やQwen 3.5と比較してどれを使うか決めたい開発者

結論を先に言う。

  • コーディング+推論重視:31B Denseが最有力(LiveCodeBench 80.0%、Codeforces ELO 2150)
  • コスパ最優先:E4Bが強い(旧27B超えを9.6GBで実現)
  • 商用利用:Apache 2.0で完全自由。Llama 4のMAU制限・ブランディング義務なし

Gemma 4とは何か

Gemma 4は、Google DeepMindがGemini 3の研究技術をベースに構築したオープンウェイトモデルだ。「オープンウェイト」とは、モデルの重み(学習済みパラメータ)が公開されており、ダウンロードしてローカル環境で実行できることを意味する。

前世代のGemma 3(2025年3月公開)からの最大の進化は3つ。

  1. Apache 2.0ライセンスへの移行 — 商用利用が完全に自由になった
  2. 4モデル展開 — スマホからサーバーまでカバーする4サイズ
  3. ベンチマークの大幅向上 — AIME 2026で31Bが89.2%(Gemma 3 27Bは20.8%)

PMの視点で率直に言えば、ライセンスの変更がいちばん大きい。どれだけ性能が良くても、法務チェックで引っかかるモデルはプロダクトに入れづらい。Apache 2.0なら、法務レビューのハードルが大幅に下がる。

Gemma 4の全4モデル比較:スペックとVRAM要件

モデルパラメータアクティブパラメータコンテキストVRAM目安用途
E2B2.3B2.3B128K~3GBスマホ、IoT
E4B4.5B4.5B128K~6GBノートPC、エッジ
26B MoE26B(128エキスパート)3.8B256K~18GBデスクトップ、小規模サーバー
31B Dense30.7B30.7B256K~20GBワークステーション、サーバー

※ MoE(Mixture of Experts):複数の「エキスパート」モジュールを持ち、入力に応じて一部だけを起動する設計。全パラメータを常時使うDenseモデルより推論コストが低い。

全モデルが画像入力に対応し、140以上の言語をサポートする。E2BとE4Bはさらに音声入力にも対応しており、エッジデバイスでの音声アシスタント用途にも使える。26Bと31Bは音声非対応だ。

注目すべきは26B MoEだ。128個のエキスパートを持ちながら、推論時にアクティブになるのは3.8Bパラメータだけ。つまり計算コストは4Bクラスなのに、知識量は26Bクラスという設計になっている。

実際にiPhone 16 ProでE2Bをオフライン実行したユーザー(@hAru_mAki_ch)は、Google AI Edge Galleryアプリを使い、「ダウンロードから音声入力まで1日で全部試せた」と報告している。スマホでLLMが実用レベルで動く時代が、本格的に来た。

なお、Gemma 3で人気だった12Bサイズは今回ラインナップにない。E4B(4.5B)と26B MoE(26B)の間に空白がある。Hacker Newsでは「12Bユーザーの直接アップグレードパスがない」という声が出ている(Hacker News)。Gemma 3の12Bを使っていた人は、E4Bで足りるか26B MoEに上げるか、判断が必要になる。

E4B:コスパの怪物

Ollama公式によると、E4Bのダウンロードサイズは約9.6GB。24GBのMac miniにロードしても14GB以上の余裕がある。

それでいて、ベンチマークではGemma 3の27Bモデルを複数の指標で上回る。パラメータ数は6分の1以下だ。ローカルLLMをこれから始めるなら、E4Bは手堅い選択肢の一つだ。

26B MoE:隠れた実力者

Arena AIリーダーボードで世界6位(ELOスコア1441)。アクティブパラメータがわずか3.8Bでこの順位は極めて高い水準だ。AIME 2026(数学)でも88.3%を叩き出している。

ただし注意点がある。DGX Sparkでの検証(DevelopersIO)によると、Thinkingモードが知識ベースのQAで逆効果になるケースが確認された。JCommonsenseQA(日本語常識推論)ではThinking ONで9.2ポイント低下。「知っているか知らないか」が勝負のタスクでは、考え込むほど精度が落ちるという皮肉な結果だ。

ベンチマーク:数字で見る実力

ベンチマークGemma 4 31BGemma 4 26B MoELlama 4 ScoutQwen 3.5 27B
Arena AI ELO1452(3位)1441(6位)— ※1
MMLU Pro85.2%82.6%86.1%
AIME 2026(数学)89.2%88.3%
GPQA Diamond84.3%85.5%
LiveCodeBench v680.0%77.1%
Codeforces ELO2150

※ Llama 4 Scoutはアクティブパラメータ17Bだが総パラメータ109Bのため直接比較には注意が必要。「—」は公式データ未公開または比較条件不一致。

※1 Llama 4 Maverickは当初Arena AIで1417 ELOを記録したが、Metaがリーダーボード専用にチューンした特別版だったことが判明し、公開モデルは32位相当まで下落している。

数学(AIME)での伸びが特に顕著だ。Gemma 3の27Bが20.8%だったのに対し、31Bは89.2%。約70ポイントの向上は、世代間の改善としては異例の幅と言える。

一方、MMLU ProではQwen 3.5の27Bが86.1%でわずかにリード。万能型の知識テストでは中国勢が強い。用途に応じて使い分けるのが現実的だ。

Apache 2.0:ライセンスが変えるゲームのルール

Gemma 3は「Gemma Terms of Use」という独自ライセンスだった。商用利用は可能だが、制約があった。

Gemma 4はApache 2.0に移行した。これが何を意味するか、3つのモデルで比較する。

条件Gemma 4(Apache 2.0)Llama 4(Llama License)Qwen 3.5(Apache 2.0)
商用利用無制限700M MAU以下無制限
ブランディング義務なし「Built with Llama」必須なし
改変・再配布自由条件付き自由
特許ライセンス付与付与付与

PMとしてプロダクトにオープンモデルを組み込む立場で見ると、Apache 2.0は法務レビューの負担が少ないライセンスの一つだ。実際、あるチームがGemma 3を評価した際「ライセンスの話が10分で出て、結局Qwenを選んだ。Qwenのほうが性能で優れていたからではなく、ライセンスがクリーンだったから」という事例がVentureBeatで報じられている(VentureBeat)。Hugging FaceのCEO Clement Delangueも、Apache 2.0への移行を「巨大なマイルストーン」と評した。

Llama 4のMAU制限は、スタートアップが急成長した場合にいきなり壁になりうる。Llama 4の詳細なライセンス条件と技術仕様はこちらの記事で解説している。

Ollamaで動かす:実践ガイド

ローカルで試すならOllamaが手軽だ。

# インストール(macOS)
brew install ollama

# モデルのダウンロードと実行
ollama run gemma4:e4b      # 推奨:9.6GBダウンロード
ollama run gemma4:e2b      # 軽量:7.2GB
ollama run gemma4:26b      # MoE:18GB
ollama run gemma4:31b      # フルサイズ:20GB

ハードウェア別おすすめ

環境おすすめモデル備考
MacBook Air 16GBE4B余裕を持って動作
Mac mini 24GB26B MoE高性能と効率のバランス
RTX 3060 12GBE4B26Bは量子化が必要
RTX 4090 24GB31B Denseフル性能を発揮
iPhone 16 ProE2BAI Edge Gallery経由

Mac StudioでGemma 4を検証したユーザー(Zenn)によると、E2BとE4Bは実用的な速度で動作したが、31Bはリソース消費が重かった。

速度の落とし穴:ハードウェアとの相性

リリース直後のコミュニティテストで、速度面の問題が浮上した。RTX 5060 Ti 16GBで26B MoEを動かしたユーザーが11トークン/秒と報告。同じGPUでQwen 3.5の35Bモデルは60トークン/秒以上出たという(DEV Community)。「モデル自体は印象的だが、動かす体験はそうでもない」という声もあった。

一方、Mac Studio M2 UltraでMoEモデルを動かしたユーザーは約300トークン/秒を報告しており(Medium)、Apple Silicon環境では好成績が出ている。NVIDIA GPU環境ではllama.cppやOllamaのバージョンアップで改善が期待される状況だ。

KVキャッシュの落とし穴

r/LocalLLaMAコミュニティで報告されている注意点がある。31Bモデルは40GBのVRAMでもKVキャッシュが厳しい。KVキャッシュとは、推論時に過去の会話内容を保持するためのメモリ領域だ。Q8量子化(8bit精度に圧縮してVRAM消費を抑える手法)で2Kトークンのコンテキストを扱う場合、追加でQ4(4bit)のKVキャッシュ量子化が必要になるケースがある。

長いコンテキストを扱う予定なら、VRAMに余裕を持った構成を組むか、26B MoEで妥協する判断が求められる。

Gemma 4 Thinkingモードの効果と注意点

Gemma 4の全モデルにはThinking(思考)モードが搭載されている。有効にすると、回答前に内部で推論プロセスを実行する。

効果が出るタスク:

  • 数学の問題(AIME 2026で大幅向上)
  • コーディング(複雑なロジック構築)
  • 多段階の推論が必要な分析

逆効果になるタスク:

  • 知識ベースの5択QA(JCommonsenseQAで-9.2pt)
  • 単純な事実の質問
  • 速度が重要なリアルタイム応答

DevelopersIOの検証では、「知っているか知らないか」が勝負のタスクではThinkingモードを切ったほうが正確だった。考えすぎて迷うのは、人間もAIも同じらしい。Thinkingモード(推論特化)の仕組みをより深く知りたい場合は、Gemini 3 Deep Thinkの完全ガイドも参考になる。

Gemma 4を選ぶべき人、選ばないべき人

選ぶべきケース

  • 商用プロダクトに組み込みたい — Apache 2.0で法務負担が軽い
  • エッジデバイスで動かしたい — E2B/E4Bはスマホでも実用レベル
  • コーディングAIとして使いたい — LiveCodeBench 80.0%、Codeforces ELO 2150は強い。ただし専用のコーディングAIエージェントと比べると用途が異なる
  • マルチモーダルが必要 — 画像入力にネイティブ対応(140言語以上)

選ばないべきケース

  • 超長文脈が必要 — Gemma 4の最大256Kトークンに対し、Llama 4 Scoutは10Mトークン
  • 最先端の汎用知識テスト — MMLU ProではQwen 3.5が僅差でリード
  • 画像生成が必要 — テキスト出力専用。画像生成には別ツールが必要
  • 最新情報への対応 — 学習データのカットオフは2025年1月。RAG等の外部ツール連携が前提

電脳狐影としての判断:フリーランスの開発者がローカルLLMを1つ選ぶなら、E4Bから始めてプロジェクトに合わせて26B MoEに上げるのが現実的な路線だ。ライセンスの心配が不要で、ハードウェア要件も現実的。Llama 4のようなMAU上限に怯える必要がない安心感は、小規模チームにとって大きい。

Gemma 4を今すぐ試すなら、ターミナルで ollama run gemma4:e4b を実行するだけだ。5分でローカルLLMを体験できる。Ollama公式のGemma 4ページからダウンロード可能。詳細なモデルカードはGoogle AI for Developersを参照。

詳しく見る

関連記事

ローカルLLMの選択肢を広げるなら、以下の記事も参考になる。


免責事項: 本記事の情報は2026年4月6日時点のものです。ベンチマークスコア、料金、ライセンス条件は変更される場合があります。最新情報は各公式サイトをご確認ください。モデルの性能は実行環境やタスクにより異なります。

商標注記: Google、Gemini、GemmaはGoogle LLCの商標です。Llama、MetaはMeta Platforms, Inc.の商標です。その他記載の製品名は各社の商標または登録商標です。

Share