Meta Llama 4完全解説|10Mトークン・MoE革新と開発者が語る光と影
「incredibly disappointed」。Meta Llama 4が発表された直後、r/LocalLLaMAのスレッドにこんな言葉が並んだ。Metaはリーダーボード2位を主張し、「GPT-4oの1/9のコスト」を謳った。だが開発者コミュニティの反応は冷淡だった。
10Mトークンのコンテキスト、MoEアーキテクチャ、ネイティブマルチモーダル。スペックシートは確かに魅力的だ。しかし現実のパフォーマンスは何を示しているのか。PMとしてAIツールを評価し続けてきた立場から、数字と声の両面を検証する。
- Llama 4を業務やプロジェクトに使えるか判断したいフリーランスエンジニア・PM
- ローカルLLMの選択肢としてLlama 4を検討している開発者
- オープンウェイトモデルのコスト最適化に興味があるAIサービス開発者
結論を先に言う。
- コーディング用途:今はまだ選ばなくていい(Aider Polyglot 16%)
- コスト重視の文書処理・多言語対応:ScoutのAPIが有力候補($0.11/100万トークン)
- ローカル実行:ScoutはInt4量子化で10GBで動くがMaverickはコンシューマーGPU不可
Meta Llama 4とは何か
Llama 4はMetaが発表したオープンウェイトのネイティブマルチモーダルLLMシリーズだ。Llamaシリーズで初めてMoE(Mixture-of-Experts)アーキテクチャを採用し、テキストと画像トークンを単一バックボーンに統合する「Early Fusion(早期融合)」方式をとる。
Early Fusionとは、画像とテキストを別々のエンコーダーで処理してから結合する従来手法と異なり、最初から同じ処理系でまとめて扱う設計だ。実用上は「スクリーンショットや図面をそのまま渡して質問できる」「コードとUIのスクショを同時に見せてデバッグを頼める」といった使い方が可能になる。
公開されているのはScoutとMaverickの2モデル。Behemothは現在も学習中で未公開だ。
学習データは30兆トークン超(Llama 3の2倍)、対応言語は200言語(多言語トークン数はLlama 3比10倍)。Metaは「開放性がイノベーションを促進する」として、無償でのモデルウェイト公開を続けている。
3つのモデル:Scout・Maverick・Behemoth
| Scout | Maverick | Behemoth | |
|---|---|---|---|
| アクティブパラメータ | 17B | 17B | 288B |
| 総パラメータ | 109B | 400B | 約2T |
| エキスパート数 | 16 | 128 | 16 |
| コンテキスト | 10Mトークン | 1Mトークン | 未公開 |
| 動作要件 | H100×1(Int4量子化で~10GB VRAM) | H100ホスト×1 | 学習中・未リリース |
| 状態 | 公開済み | 公開済み | 未公開 |
MoEアーキテクチャの本質は「使う時は17Bだけ起動する」という設計だ。推論コストはアクティブパラメータで決まるため、400Bモデルでも実際の計算量は17B相当になる。これがMetaの主張する「GPT-4o比1/9のコスト」の根拠だ。
10Mトークンの現実
ScoutのコンテキストウィンドウはGemini 2.5 Proの10倍、Claude Sonnet 3.7の50倍に相当する。理論上は大規模なコードリポジトリ全体や膨大な業務文書を一括で渡せる。
しかし開発者コミュニティからは懐疑的な声が上がっている。
「300Kトークン程度でコンテキストが崩壊し始めた」(Reddit r/LocalLLaMA ユーザー Dr_Karminski、2025年4月)
長いコンテキストはモデルにとって難易度が高く、「10Mトークン対応」と「10Mトークンで安定して動く」は別の話だ。fast.ai創設者のJeremy Howardは「量子化してもコンシューマーGPUでは動かない」と指摘した。コンテキストの実用上限は公称値よりずっと手前にある可能性が高い。
ベンチマーク論争:LMArena疑惑
Llama 4発表後、もっとも議論を呼んだのはLMArenaのランキング操作疑惑だ。
MetaがLMArena(人間がAI回答を比較評価するクラウドソーシング型ランキング)に提出したのは、一般公開版とは別の「実験的チャット版Maverick」だった。この実験版は絵文字多用・冗長な返答スタイルで人間評価者に高評価されやすく、2位を獲得した。しかし通常のAPIで利用できるモデルは異なる簡潔スタイルの別バージョンだ。
後に通常の公開版をLMArenaで再テストしたところ32位相当の結果となった。LMArenaはポリシーを更新し「公正で再現可能な評価へのコミットメント」を声明に盛り込んだ。MetaのAhmad Al-Dahle VP(Generative AI部門長)は不正を否定しているが、公開バージョンと評価バージョンに差があったこと自体は事実だ。
AI研究者のZvi Mowshowitzは端的にこう表現した。
「Llama Does Not Look Good 4 Anything」(Zvi Mowshowitz、2025年4月、X / Substack)
コーディング性能の実態
開発者にとって最も重要な数字がある。
Aider Polyglot Benchmark:16%(出典:aider.chat/docs/leaderboards)
これはコーディング専門ベンチマークでのMaverickのスコアだ。参考としてDeepSeek V3は同ベンチマークで55%前後を記録しており、その差は3倍以上ある。「20 Bouncing Balls」テストの比較でも、DeepSeek V3が完璧なシミュレーションを実装したのに対し、Maverickは根本的に誤ったロジックを出力したという個人開発者による検証報告が複数ある(出典:Reddit r/LocalLLaMA、2025年4月)。
LeetCode Hardでは632テストケース中10件しか通過しなかったという検証報告もある(同)。
一般知識(MMLU: Maverick 85.5%)や文書処理には問題ない水準だが、コーディング用途で既存の専門モデルより優れているという根拠は現時点では薄い。
(LLMのベンチマーク評価全般については「GPT-5.4 vs Claude Opus 4.6:2026年最新AIモデル徹底比較」も参照)
Llama 4の実際の使い方
APIで試す(最も手軽)
| プロバイダー | Scout料金 | Maverick料金 | 無料枠 |
|---|---|---|---|
| Groq | $0.11/100万トークン | $0.50/100万トークン | あり |
| Together AI | ~$0.30/100万トークン | ~$0.40/100万トークン | あり |
| Meta API | $0.10~/100万トークン | $0.40~/100万トークン | あり |
Groqは無料枠があり、まず試すには最適な選択肢だ。
無料チャットUIで試す
- meta.ai:Maverick搭載。アカウント登録のみで無料利用可能
- Hugging Face Chat:Groq/Cerebras経由でアクセス可能
ローカルで動かす
Scoutの場合、Int4量子化で約10GB VRAMが必要。Ollamaを使えば以下のコマンドで起動できる。
ollama run llama4:scout
ただしMaverickのローカル実行はコンシューマーハードウェアでは事実上不可能だ。最低でもH100 DGXシステムが必要になる。
(MCPサーバー経由でLlama 4をAPI接続する構成については「MCP実践ガイド2026」が参考になる)
Llama 4が向くケース、向かないケース
向くケース
- 大規模文書の一括処理:契約書・マニュアル一式をScoutに一括投入して要約・検索
- コスト重視のエンタープライズ:GPT-4o比1/9コストは実用上無視できない差
- プライバシー重視の社内ツール:オープンウェイトのため自社サーバーデプロイ可能
- 多言語コンテンツ処理:200言語対応で日本語も強化されている
向かないケース
- 複雑なコーディング:Aider Polyglot 16%は専門コーディングツールの代替にならない
- 高精度論理推論:GPQA Diamond(大学院レベルの科学的推論ベンチマーク)でMaverick 69.8% に対しClaude 3.7 Sonnet 84.8%(出典:Meta公式、Bind AI比較)
- リアルタイム評価が必要な用途:コンテキスト崩壊の報告があり、10Mトークン全域での信頼性は未検証
Llama 4 の位置づけ
Llama 4は「最強のコーディングモデル」でも「GPT-5の対抗馬」でもない。「オープンウェイト」かつ「低コストで長いコンテキストを扱える」という点に本当の価値がある。使う用途を絞れば、コストパフォーマンスで他の選択肢より優れる局面は確かに存在する。
電脳狐影の判断
PMとしての評価を正直に述べる。
Llama 4は「期待外れ」だったが「無価値」ではない。コーディング性能への過大な期待が失望を生んだ面が大きく、文書処理・多言語対応・コスト最適化という軸で評価すれば十分に実用的だ。
個人的に使うなら、まずGroqでScoutをAPIとして試す。10Mトークンの恩恵を受けられる用途(たとえば大量の仕様書や議事録を一括で分析するタスク)に限定して使う。コーディングはClaude Codeのまま動かさない。
ベンチマーク論争については、Metaの対応は不誠実だったと感じる。「公開版と評価版が異なる」という事実を認めつつ「不正ではない」と主張するのは、ユーザーの信頼を損なう行為だ。
Behemothがリリースされれば評価は変わるかもしれない。だが現状のScout・Maverickで「Llama 4に乗り換える」理由は、コスト重視の特定用途以外には見当たらない。
(Claude vs GPT-5.4の現状については「GPT-5.4 vs Claude Opus 4.6」も参照)
Llama 4を今すぐ無料で試す
まず meta.ai でMaverick搭載のチャットを試してみよう。APIとして使いたい場合は、Groqのフリープランが最速の選択肢だ。
- meta.ai(Maverick搭載・無料)
- Groq Console(APIキー発行・無料枠あり)
- Hugging Face Chat(複数モデル比較可能)
関連記事
- GPT-5.4 vs Claude Opus 4.6:2026年最新AIモデル徹底比較
- MCP実践ガイド2026:Claude・Cursor・Windsurf対応の最新エコシステム
- AIの仕組み完全ガイド2026:LLMと画像生成AIを基礎から理解する
- Claude Sonnet 4.6レビュー:実務で3ヶ月使った正直な評価
本記事に掲載しているベンチマーク数値・価格情報は各種公開リソース(Meta公式モデルカード、Rootly、Bind AI、Groq公式、aider.chat等)をもとに執筆時点(2026年3月)で調査したものです。モデルの性能・料金は随時更新されるため、最新情報は各公式サイトでご確認ください。