DiffusionGemmaはGemma 4と何が違いますか？

テキスト生成の仕組みが根本的に異なります。Gemma 4はトークンを1つずつ生成する自己回帰モデル。DiffusionGemmaは256トークンのブロックを一度にノイズから復元する拡散モデルです。最大4倍速になりますが、MMLU・コーディング・数学のベンチマークではGemma 4より低いスコアになります。

DiffusionGemmaを動かすのに必要なGPUは？

公式推奨はH100（60GB超VRAM）ですが、UnslothのGGUF量子化版（Q8_0）なら約16GBのVRAMで動作します。RTX 4090で200〜400トークン/秒、RTX 5090で700トークン/秒超が目安です。

DiffusionGemmaはどんな用途に向いていますか？

コードのインライン補完、エディター内のリアルタイム編集提案、高速な反復プロトタイピングに向いています。複雑な推論・数学・高品質コード生成には標準Gemma 4を推奨します。Googleも公式ブログで「最高品質が必要な場合はGemma 4を」と明言しています。

DiffusionGemmaはOllamaで動きますか？

2026年6月時点でOllamaは公式サポートしていません。HuggingFace TransformersまたはvLLMでのデプロイが現状の主流です。GGUF版はLM Studio経由での利用報告があります。

AI News 2026年6月15日 15分で読める

Google DiffusionGemma完全ガイド｜4倍速テキスト生成の仕組みと限界【2026年6月】

#Google #DiffusionGemma #テキスト拡散 #オープンウェイト #Apache 2.0 #ローカルLLM #Gemma #MoE #開発者ツール

「コード補完の速度が変わった。ただしGemma 4を全部置き換えるつもりで使うと失望する」。Hacker Newsのスレッド（#48478471）でDiffusionGemmaを試した開発者たちが共通して述べたのは、このモデルの立ち位置だ。速さの価値は本物。万能の後継機として見ると期待外れ。

2026年6月10日、GoogleはDiffusionGemmaをApache 2.0ライセンスで公開した（公式ブログ）。H100上で1100トークン/秒超。従来の自己回帰モデルと比べて最大4倍の速度だ。重みはHugging Faceで誰でも入手できる。ただしGoogleは「実験的」と明示している。

この記事はこんな人におすすめ

ローカルLLMの導入・更新を検討しているエンジニア
コード補完やインライン編集の速度に不満がある開発者
Gemma 4やLlama 4との違いを知りたい人
テキスト拡散モデルの技術的な仕組みに興味がある研究者・学生

なぜ今、テキスト拡散モデルが注目されるのか

拡散モデルがテキスト生成に応用される試みは2021年から続いてきた。2023年10月にスタンフォード大のLou、Meng、Ermonが発表したSEDDが初めてGPT-2相当の品質に到達し、2024年6月のMDLM（NeurIPS 2024採択）が実用レベルに押し上げた。2025年にはInception LabsがMercuryという商用拡散LLMをAPIとして公開し、H100で1000トークン/秒を実証した。

そこにGoogleが2026年6月10日、Apache 2.0で無償公開したのがDiffusionGemmaだ。前日のFable 5リリース（入力$10/MTok、出力$50/MTok）との対比で「最速モデルが同日に有料で出て、翌日に無料の高速ローカルモデルが出た」という文脈は開発者コミュニティで強く意識された（Decrypt報道）。

アーキテクチャ：256トークンを一度に描く

従来の自己回帰モデル（Gemma 4、GPT-5.5等）は左から右へ1トークンずつ生成する。前のトークンが確定しないと次に進めない逐次処理だ。GPUの計算能力は余っているのにメモリ帯域がボトルネックになる。

DiffusionGemmaは発想が逆だ。まず256トークン分を「マスクされた状態」として一括で持ち、ノイズ除去を繰り返して全体を同時に確定させる。VentureBeatによれば、生成途中に「前後の文脈を見ながら自己修正」できるのが最大の特徴だ。双方向アテンションを使うため、すでに生成したトークンだけでなく「まだ確定していないトークンの文脈」も参照できる。これは自己回帰モデルでは構造的に不可能な動作だ。

MoE構造も速度に貢献している。総パラメータは25.2B（26Bクラス）だが、推論時に動くのは128エキスパートのうち8つのみ、実質3.8Bだ。Gemma 4 26Bと同じ計算コストで、diffusion処理によって1フォワードパスで複数トークンを同時確定できる。

スペックと動作要件

項目	値
総パラメータ	25.2B（MoE）
推論時アクティブ	3.8B
生成ブロックサイズ	256トークン
コンテキストウィンドウ	256K
H100速度（FP8）	1,100+ トークン/秒
RTX 5090速度	700+ トークン/秒
RTX 4090速度（GGUF）	200〜400 トークン/秒
VRAM（NVFP4量子化）	約18GB
ライセンス	Apache 2.0

Simon Willison（simonwillison.net）がプレビューで試したところ、2,409トークンを4.4秒で生成したと報告している。推論フレームワークはHugging Face Transformers、vLLM、SGLang、MLXに対応。OllamaはGGUFが存在するが通常版では動かず、llama.cpp の未マージPR（#24423）または専用CLIが必要だ（Zenn / lifona）。

なお、Apple SiliconでM3 Max（96GB RAM）で試したユーザーが6〜28トークン/秒しか出なかったとllama.cppのGitHub Issue #24529で報告している。速度優位はNVIDIA GPUのCompute-bound環境限定だ。

ベンチマーク：速さの代償

Google自身がモデルカードで正直に開示している品質差が重要だ。

ベンチマーク	Gemma 4 26B（自己回帰）	DiffusionGemma	差分
MMLU Pro	82.6%	77.6%	-5.0pt
GPQA Diamond	82.3%	73.2%	-9.1pt
AIME 2026（数学）	88.3%	69.1%	-19.2pt

数学推論で19ポイント以上の差が出る。Googleは「品質重視の本番用途にはGemma 4を推奨する」と明言している（公式ブログ）。速度を取るか品質を取るか、用途を明確にして選ぶ必要がある。

一方で強みがある分野もある。数独パズルデータセットでファインチューニングした実験では、ベースモデルの正解率0%が、わずか12回のデノイジングステップで80%に到達した（GIGAZINE）。双方向アテンションが、制約付き生成タスクで本領を発揮する例だ。

使うべき場面、避けるべき場面

向いている用途

コードのインライン編集・補完: 双方向アテンションにより前後のコードを同時参照できる。FIM（Fill-in-the-Middle）が追加訓練なしでネイティブに動く
低レイテンシが要件のツール: バッチサイズ1〜8で最大のパフォーマンス。インタラクティブなコーディングアシスタント、リアルタイム文章補完に有利
制約付き生成タスク: テンプレート穴埋め、構造化テキスト生成、非線形なテキスト構造
ローカルGPU単独運用: 月$10〜$200の従量課金を避けたい個人・スタートアップ向け

避けた方が良い用途

品質重視の本番環境: 数学・推論・コーディングベンチマーク全般でGemma 4より5〜19ポイント劣る。Google自身がGemma 4推奨と明言
高並列サーバーサービング: バッチサイズ32以上ではKVキャッシュ再利用の仕組みが自己回帰モデルと異なり、効率面で逆転する可能性がある
ストリーミングチャットUI: 256トークンまとめてリリースする方式のため、1トークンずつ流れるチャット体験と相性が悪い
Apple Siliconローカル: M3 MaxでH100比1/40程度の速度しか出ないという報告がある

開発者・ユーザーの声

リリース直後、Sundar Pichai（Google CEO）はXで「DiffusionGemmaは競走馬だ。256トークンを一度に生成することで最大4倍速い」と投稿した（出典）。

vLLMチームは「これがvLLMで正式サポートする初の拡散LLM」と発表し、H200で1,288トークン/秒（FP8）を独立検証した（vLLM Blog）。

Zennでは実際に試した開発者（lifona）が「RTX 5090 + llama.cpp PRで動かすのにかなり手間がかかった。通常のOllamaは不可。動いたときの速度は本物だが、日本語テキストの品質劣化バグがある」と報告した。

日本語コミュニティ（note.com）では「チャットは死んだ」という挑発的なタイトルの記事も登場（KeiTy）。拡散モデルが従来のChatGPT型UIを変える可能性を論じたものだ。Qiitaでは（picnic）ベンチマーク分析と双方向コンテキストの優位性が詳しく解説された。

Hugging FaceのMerve Noyan（@mervenoyann）は「4倍速でComputeバウンド。コーディングでも優れている」と評価した。

本番環境での利用前に確認すべきこと

Ollamaは未対応（2026年6月時点）。llama-diffusion-CLIまたはvLLMが必要
日本語テキストの品質劣化が報告されている。英語優先タスクでの利用が現状では無難
Apple Siliconでの速度優位はない。NVIDIA GPU専用と考えること
Google自身が「実験的リリース」と明示。品質重視の本番用途にはGemma 4を選ぶこと

Gemma 4の全モデルを比較する

DiffusionGemmaのベースとなったGemma 4ファミリーの全スペックと選び方を解説。

Gemma 4ガイドを読む

関連記事

本記事の情報は2026年6月15日時点のものです。DiffusionGemmaは「実験的リリース」と明示されており、仕様・性能・対応ツールは今後変更される可能性があります。投資判断や業務利用の最終的な意思決定は、公式ドキュメントを確認のうえ自己責任で行ってください。