NVIDIA Nemotron 3 Ultra:米国最強オープンウェイトAIの実力と中国との差
「米国のオープンウェイト最強モデルが来た。ただし中国には届かない」。2026年6月1日、台北Computex会場でJensen Huang CEOがNemotron 3 Ultraを発表した直後、Decryptが打った見出しがそのまま本質を突いている(Decrypt, 2026年6月1日)。
AI評価プラットフォームのArtificial Analysisも公式パートナーとして即座に評価結果を公表した。スコアは48。米国産オープンウェイトモデルで最高値だが、中国のKimi K2.6(54)、GLM-5.1(51)には届かない(Artificial Analysis, 2026年6月1日)。
「米国の敗北」か「NVIDIAの反撃」か。スペック、ベンチマーク、実際に動かす方法を整理する。加えてNVIDIAがなぜ自前モデルを出すのかという戦略的な問いにも踏み込む。
- オープンウェイトLLMを業務・研究で使っており、最新の性能比較を知りたいエンジニア・研究者
- 中国 vs 米国のオープンAI競争の現状を把握したいAI業界ウォッチャー
- NVIDIAの事業戦略がAIエコシステムに与える影響を分析したい人
Computex 2026:Nemotron 3 Ultraの発表内容
2026年6月1日、台北ミュージックセンターで開催されたComputex基調講演でJensen Huang CEOはNemotron 3 Ultraを披露した。総パラメータ550B(アクティブ55B)のMixture-of-Experts(MoE)モデルで、同社Nemotron 3ファミリーの最上位モデルにあたる(NVIDIA Newsroom, 2026年6月1日)。
発表時点での主要スペックは以下の通りだ。
| 項目 | Nemotron 3 Ultra |
|---|---|
| 総パラメータ | 約550B |
| トークンあたり稼働パラメータ | 約55B |
| コンテキストウィンドウ | 100万トークン |
| アーキテクチャ | Hybrid Mamba-Transformer MoE |
| 推論速度 | 300トークン/秒超(DeepInfra事前検証) |
| ライセンス | NVIDIA Nemotron Open Model License(商用可) |
| ウェイト公開日 | 2026年6月4日 |
アクセス経路はHugging Face、ModelScope、OpenRouter、NVIDIA NIM(build.nvidia.com)の4系統。NIMのプロトタイピング枠は無料で、レート制限はあるものの個人開発者でも試せる。
既存のNemotron 3ファミリーはNano(30B総/3B稼働)とSuper(120B総/12B稼働)の2モデルが先行しており、Ultraはその上位として追加された。Superは2026年3月11日のGTC会場で公開され(VentureBeat, 2026年3月)、ファミリー全体で50M回以上ダウンロードされている(Build Fast With AI, 2026年4月)。
なぜ速いのか:MoEとMambaの仕組み
Nemotron 3 UltraのアーキテクチャはHybrid Mamba-Transformer MoEと呼ばれる。2つの技術が組み合わさっている。
**MoE(Mixture-of-Experts)**は、各トークンを「専門のサブネットワーク」に振り分ける構造だ。550Bの総パラメータのうち各トークン処理では約55B分だけが稼働するため、推論コストは事実上55B密モデルに近い。550Bの知識容量を持ちながら55B相当の速度で動く設計だ。
Mambaは状態空間モデル(SSM)ベースのアーキテクチャで、通常のTransformerが抱えるアテンション計算の二乗コスト問題を線形スケーリングで置き換える(arXiv 2512.20856)。この線形スケーリングが100万トークンの長大なコンテキストウィンドウを現実的なコストで実現する。
さらに独自技術「LatentMoE」がトークンをルーティング前に圧縮し、同じ推論コストで4倍のエキスパート専門化を実現する。
100万トークンのコンテキストウィンドウはMambaのアーキテクチャ的恩恵だ。標準的なTransformerで同じ長さを処理するとメモリが二乗で膨れ上がるが、線形スケーリングのMamba-2では現実的なコストで扱える。
訓練フォーマットはNVIDIA独自のNVFP4(4ビット浮動小数点)で、Blackwellアーキテクチャ(H100後継)での高スループットに最適化されている。事後学習には複数のシミュレーション環境で報酬を与える強化学習を採用し、reasoning、多段階ツール使用、そして「思考トークン量」の調整機能を備える(NVIDIA Technical Blog)。
ベンチマーク:米国最強、しかし中国には届かない
Artificial AnalysisのIntelligence Index(エージェント・コーディング・一般・科学推論の4カテゴリ10評価の複合スコア)での順位は以下の通りだ(Artificial Analysis, 2026年6月1日)。
| モデル | 運営元 | 国 | スコア |
|---|---|---|---|
| Kimi K2.6 | Moonshot AI | 中国 | 54 |
| GLM-5.1 | Z AI(Zhipu) | 中国 | 51 |
| MiniMax-M2.7 | MiniMax | 中国 | 50 |
| Nemotron 3 Ultra | NVIDIA | 米国 | 48 |
| DeepSeek V4 Pro | DeepSeek | 中国 | 〜47 |
| Gemma 4 31B | 米国 | 39 | |
| gpt-oss-120B | OpenAI | 米国 | 33 |
米国産オープンウェイトモデルの中では最高値の48だが、上位3モデルはすべて中国発だ。クローズドモデルの最高値(Claude Opus 4.8、GPT-5.5等)が約57であることを考えると、Kimi K2.6の54はプロプライエタリ最前線まで3点差に迫っている。
ただし「賢さ」以外の指標では構図が変わる。Nemotron 3 Ultraの推論速度は300トークン/秒超。対するDeepSeekやKimiは通常50〜100トークン/秒だ。アジェント型ワークフローは推論呼び出しを連鎖させるため、スループットの差は実業務では体感上の大きな差になる。Artificial Analysisは同レポートで、Ultraを「高い知性と高い出力速度を両立する領域」に位置づけた(同出典)。
必要なVRAMとハードウェア構成:自前で動かせるか
550Bモデルを自前でホストするのは個人・スモールチームには現実的ではない。推定VRAMは精度によって大きく変わる。
| 精度 | 推定VRAM | 最小構成例 |
|---|---|---|
| BF16 | 約1,100GB | H100 80GB × 14枚以上 |
| FP8 | 約550GB | H100 80GB × 7枚以上 |
| NVFP4 | 約275GB | H100 80GB × 4枚以上 |
精度フォーマットとは数値の表現方法で、BF16(16ビット)→FP8(8ビット)→NVFP4(4ビット)の順に軽量になる代わりに、わずかな精度低下のリスクが増す。MoE構造のため「計算コスト」は55B密モデル相当だが、「重みの保存」には550B分のメモリが必要という非対称な関係がある。
個人や小規模チームに現実的な選択肢は2つだ。まずNVIDIA NIM(build.nvidia.com)の無料プロトタイピング枠。NVIDIA Developer Programに登録すればレート制限付きで無料使用できる。次にOpenRouter経由のAPIで、SuperモデルはコミュニティティアでFreeで提供されている。Ultraの有料レートは発表時点では未公開だった。
Hugging FaceからのウェイトダウンロードはNVIDIA Open Model Licenseに同意すれば無料で可能。商用利用、ファインチューニング、再配布も許可されており、MetaのLlamaが設けた月間アクティブユーザー7億人上限のような制約もない(NVIDIA Open Model License)。
NVIDIAが自前モデルを出す理由
NVIDIAがLLMを投入する理由は、スタックの上位を自社製品で固めるためだ。
NVIDIAのモデルが企業のデフォルトになれば、GPU(訓練・推論)、ソフトウェア(NIM、CUDA)、モデルの三層すべてでNVIDIAへの依存が深まる。ライバルがNemotronをベースに製品を作るほど、NVIDIAのハードウェアへの依存が高まる構造だ(Medium / Marc Bara分析, 2026年4月)。
スループットの優位性もハードウェア固有の強みだ。中国モデルが速度で追いつくにはNVIDIA製チップが必要になるが、そのチップは米国の輸出規制で中国に出荷できない。「賢さ」で負けても「速さ」で勝てる領域を確保することは、輸出管理という非技術的な障壁と組み合わさって機能している。
Hugging Faceが2026年春に発表したオープンソース状況レポートでは、中国モデルがグローバルダウンロードの41%を占め、米国の36.5%を初めて上回った(Hugging Face, 2026年春レポート)。Nemotron 3 Ultraはこの文脈でNVIDIAが打つ「米国オープンウェイトの旗手」という役割を持つ。純粋な知性スコアだけで測れない、このモデルの位置づけはそこにある。
- 発表日: 2026年6月1日(Computex台北)
- ウェイト公開: 2026年6月4日予定
- パラメータ: 550B総 / 55Bアクティブ(MoE)
- コンテキスト: 100万トークン
- Intelligence Index: 48(米国オープンウェイト最高、中国勢より6点低)
- 推論速度: 300トークン/秒超
- ライセンス: NVIDIA Open Model License(商用・ファインチューニング可)
- アクセス: Hugging Face、NVIDIA NIM(無料枠あり)、OpenRouter
AIコーディングエージェントのスループット・コスト比較
Nemotron 3 Ultraの300トークン/秒という速度が実際のコーディング用途でどう効くか。他のエージェントとのスループット・コスト比較はこちらで確認できる。
関連記事
- NVIDIA GTC 2026完全ガイド:Blackwell、NIM、エージェント基盤の全貌 — NVIDIAのAI戦略の文脈を把握するのに役立つ
- AIコーディングエージェント比較2026:Claude Code vs Codex vs Gemini — Nemotron 3 Ultraをコーディング用途で評価する際の参考に
- スタンフォードAIインデックス2026:データで見る世界のAI競争 — 米中AI競争の統計的背景を把握できる
本記事の情報は2026年6月2日時点のものです。ベンチマークスコアやAPI価格は随時更新される可能性があります。投資判断の根拠として使用しないでください。