Meta Muse Spark完全解説|Llama路線を捨てた新AIモデルの実力と限界
「knocked it out of the park」。Meta Muse Sparkが発表された直後、Hacker Newsにこんなコメントが上がった。フロアプランの読み取りでChatGPTもClaudeも超えたという報告だ。
一方で同じスレッドには「actively not good」という評価も並ぶ。基本的な数学問題でエラーを出し、分析的な質問にまともに答えられなかったという声だ。
2026年4月8日、MetaはMuse Sparkを発表した。Llama路線を捨て、クローズドソースに転換し、Alexandr Wangが率いるMeta Superintelligence Labs(MSL)がゼロから作り直した初のモデル。なお筆者(電脳狐影)は日本在住のため、Muse Sparkの直接的な使用テストはできていない。PMとしてAIツールを評価し続けてきた立場から、公開情報とコミュニティの声をもとにこの「Metaの賭け」がどこに着地したのかを検証する。
- AIモデルの選定に関わるフリーランスエンジニア・PM
- Llama 4からの乗り換えを検討している開発者
- Claude/GPT以外の選択肢を探しているAIサービス開発者
先に結論を言う。
- 医療・ヘルスケア分野:HealthBench Hardで現時点トップスコア(42.8、GPT-5.4の40.1超え)
- コーディング用途:選ばない方がいい(Terminal-Bench 59、GPT-5.4は75.1)
- 汎用チャット:無料で使える点は魅力だが、米国限定で日本からは当面使えない
- 開発者向けAPI:未発表。業務に組み込む段階ではない
Muse Sparkとは何か
Muse SparkはMetaが「パーソナル・スーパーインテリジェンス」と呼ぶビジョンの第一弾だ。コードネーム「Avocado」。Alexandr WangがMeta Superintelligence Labs(MSL)のChief AI Officerとして着任後、9か月で完成させた。
最大の転換点は、Llamaシリーズで貫いてきたオープンソース(正確にはオープンウェイト)路線を捨てたこと。モデルウェイトは非公開、APIの一般提供も未定。「将来のバージョンではオープンソース化したい」とMetaは言うが、具体的な時期は示されていない。
基本スペック
| 項目 | 内容 |
|---|---|
| コンテキストウィンドウ | 260Kトークン |
| 入力 | テキスト、画像、音声(マルチモーダル) |
| 出力 | テキストのみ |
| パラメータ数 | 非公開 |
| 推論モード | Instant / Thinking / Contemplating |
| 利用地域 | 米国のみ(2026年4月時点) |
「Contemplating Mode」はMuse Spark独自の推論モードで、複数のエージェントが並列に思考して結果を統合する仕組みだ。例えば医療文書の診断候補を複数の視点から同時検討するようなイメージだ。Humanity’s Last Exam(HLE)で50.2を記録したのはこのモードによるもので、人間のステップバイステップ思考というより「複数の専門家会議」に近い。
ベンチマーク:何が強くて何が弱いか
数字の話をする。Artificial Analysisの Intelligence Index v4.0ではMuse Sparkのスコアは52。GPT-5.4とGemini 3.1 Proが57、Claude Opus 4.6が53。4位だ。
| ベンチマーク | Muse Spark | Claude Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Intelligence Index | 52 | 53 | 57 | 57 |
| HealthBench Hard | 42.8 | — | 40.1 | 20.6 |
| CharXiv Reasoning | 86.4 | — | — | — |
| HLE(Contemplating) | 50.2 | — | — | — |
| Terminal-Bench 2.0 | 59 | — | 75.1 | 68.5 |
| ARC-AGI-2 | 42.5 | — | 76.1 | — |
| GPQA Diamond | 89.5 | — | — | 94.3 |
| Agentic ELO(エージェントタスク遂行力) | 1,444 | 1,607 | 1,672 | — |
数字が示す傾向は明確だ。
強い領域: 医療(HealthBench Hard 42.8は全モデル中1位)、科学的図表の読解(CharXiv 86.4)、そして学際的な難問(HLE 50.2)。Meta公式ブログによれば1,000人以上の医師と共同で学習データを構築したとのことで、この結果を見ると納得がいく。
弱い領域: コーディング(Terminal-Bench 59)と抽象推論(ARC-AGI-2 42.5)。特にコーディングではGPT-5.4に16ポイント差をつけられている。エージェント能力もClaude Opus 4.6とGPT-5.4の両方に劣る。
もうひとつ注目すべきはトークン効率だ。Artificial Analysisの評価で、Muse Sparkは5,800万出力トークンで済んだのに対し、Claude Opus 4.6は1億5,700万トークンを消費した。同じタスクをより少ないトークンでこなせるということは、API利用時のコスト効率が高い可能性を示している。
ただし、ベンチマークには注意が必要だ。Llama 4のLMArena疑惑の記憶はまだ新しい。Hacker Newsユーザーの一人は「benchmaxxed(ベンチマーク最適化しすぎ)」と一蹴した。Metaにはベンチマーク最適化の前科がある。実際の使用感と数字が一致するかは、自分の手で確かめる必要がある。
開発者コミュニティの反応:賞賛と失望
肯定的な声
Simon Willison(Datasette開発者)はMuse Sparkの内部ツールを調査し、Python 3.9サンドボックス、ビジュアルグラウンディング(画像内のオブジェクト数カウント)、Instagram/Threads/Facebookを横断するセマンティック検索など16のツールが統合されていることを発見。「Meta がボットにこれらを隠せと指示していないのは素晴らしい」と評価した(出典:simonwillison.net、2026年4月8日)。
Hacker Newsでは、PDFからフロアプランの情報を抽出するタスクでChatGPT、Claude、Gemini、Grokのすべてを上回ったという報告がユーザー「laser」から上がっている(出典:Hacker News #47692043、2026年4月8日)。
批判的な声
同じHacker Newsスレッドで、ユーザー「creddit」は「major analytical errors(重大な分析エラー)」と「basic mathematical errors(基本的な数学エラー)」を複数のテクニカルな質問で確認したと報告。「actively not good(積極的にダメ)」と断じた(出典:Hacker News #47692043、2026年4月8日)。
オープンソースコミュニティの反応はさらに厳しい。複数のメディア報道によれば、r/LocalLLaMAでは「gut punch(腹にパンチを食らった)」に類する反応が相次いだという。Metaがオープンソースの旗手だったからこそ、クローズド転換のショックは大きい。
AIエンジニアのYuchen Jinは「インフラこそがAIラボの本当の堀だ」とXに投稿した。9か月でLlama 4 Maverick相当の性能を10分の1の計算量で再現したことへの評価と、オープンソース消滅への失望が入り混じった反応だった(出典:X @Yuchenj_UW、2026年4月8日)。
Metaのオープンソース戦略はなぜ転換したのか? Alexandr Wang(元Scale AI CEO、報道によれば約143億ドルの契約でMeta入り)の方針転換が大きい。MSLは「パーソナル・スーパーインテリジェンス」という明確に商業的な目標を掲げており、モデルウェイトの公開はその戦略と整合しないと判断されたと見られる。Metaは「将来バージョンでのオープンソース化を望む」と述べているが、時期の約束はない。
Alexandr WangとMeta Superintelligence Labs
Muse Sparkの背景を理解するには、Metaの組織再編を知る必要がある。
Alexandr WangはScale AIのCEOからMetaのChief AI Officerに転じた。報道によれば約143億ドル($14.3B)規模の契約だ(出典:CNBC、2026年4月8日)。彼が率いるMSLがMuse Sparkを開発した。
しかし2026年3月、ZuckerbergはAIリーダーシップを再編。Applied AI Engineering部門をMaher Saba(CTO Andrew Bosworth直属)の下に新設し、Wangの権限を分割した。Meta AIの長年の顔であったYann LeCunは2025年11月に退任を発表。Wangへの報告ラインに置かれることへの抵抗や、研究哲学の相違が主因とされている。
PMとしてこの組織力学を見ると、Muse Sparkは「Wangが自由に動けた9か月」の産物であり、今後のモデルは社内政治の影響を受ける可能性がある。組織再編後のMSLがこのペースを維持できるかは未知数だ。
Claude/GPTとの実用比較:何にどれを使うか
結局、エンジニアやPMが知りたいのは「どの場面でどのモデルを使うべきか」だ。
| 用途 | 推奨モデル | 理由 |
|---|---|---|
| コーディング・開発 | Claude Code / GPT-5.4 | Terminal-Bench、Agentic ELOともに大差 |
| 医療・ヘルスケア分析 | Muse Spark | HealthBench Hard 42.8でトップ |
| ビジュアル分析(PDF、図面) | Muse Spark / Claude | 用途で分かれる。フロアプラン等はMuse Sparkに報告あり |
| エージェント自動化 | Claude Managed Agents | Agentic ELOでClaude/GPTが圧倒 |
| 無料チャット(米国内) | Muse Spark(Meta AI) | 無料かつ16ツール統合 |
| 日本からの業務利用 | Claude / GPT | Muse Sparkは米国限定、API未公開 |
電脳狐影としての判断を述べる。現時点でMuse Sparkを業務に組み込む理由はない。日本からは使えず、APIも未公開、コーディング性能はClaudeやGPTに遠く及ばない。ただし医療・ヘルスケア関連のプロジェクトに携わっているなら注視すべきだ。HealthBench Hardのスコアは本物の強みであり、Meta AIの医療ツールが日本に展開されたときにはゲームチェンジャーになる可能性がある。
「10倍効率」の本当の意味
Muse Sparkの最も注目すべき主張は、Llama 4 Maverickと同等の性能を「10分の1以下の計算量」で実現したというものだ。
これが事実なら、AIモデル開発のコスト構造に影響を与えうる話だ。現在のフロンティアモデル開発は数十億ドル規模の投資を必要とするが、同じ性能をより少ないリソースで達成できるなら、参入障壁が下がる。Yuchen Jinが「インフラが本当の堀」と言ったのはこの文脈だ。アーキテクチャの効率化よりも、計算リソース自体の確保が競争優位になるという見方だ。
ただし検証手段が限られている。モデルウェイトもアーキテクチャの詳細も非公開だ。Metaの主張を額面通り受け取るかどうかは、Llama 4のベンチマーク論争を踏まえると慎重にならざるを得ない。
フリーランスエンジニアにとっての実務的影響
正直に言うと、今日時点でMuse Sparkがフリーランスエンジニアの日常業務を変えることはない。理由は3つ。
- 日本未提供: 米国限定。VPN経由で使えるかもしれないが、利用規約違反のリスクがあり業務利用には向かない
- API未公開: プロダクトに組み込めない。Claude APIやOpenAI APIのようなエコシステムがまだ存在しない
- コーディング性能不足: Terminal-Bench 59では、Claude CodeやGitHub Copilotの代替にはならない
ただしウォッチリストには入れるべきだ。Metaは30億人超のユーザーベースを持ち、WhatsApp、Instagram、Messengerに直接統合される。API公開と国際展開が実現すれば、開発者向けの選択肢が一気に増える。特に無料枠の設定次第では、個人開発やプロトタイピングの第一選択肢になりうる。
AIモデルの比較をもっと深掘りしたい方へ: Gemini 3 vs ChatGPT vs Claude徹底比較では主要3モデルの詳細比較を解説している。またGPT-5.4 vs Claude Opus 4.6完全比較ではフロンティアモデル同士の直接対決を検証している。
まとめ:Metaの賭けは成功したのか
Muse Sparkは「Metaの本気」を見せた製品だ。9か月で前世代比10倍の効率を実現し、医療分野ではトップスコアを叩き出した。組織を作り直し、オープンソースの看板を降ろしてまで勝負に出た。
しかし「成功」と呼ぶには時期尚早だ。コーディングとエージェント能力でClaudeとGPTに追いついておらず、API未公開でエコシステムが構築できていない。クローズド転換でコミュニティの信頼を失ったコストも小さくない。
PMとしての評価:技術的なポテンシャルは認めるが、今の段階で業務ツールとして採用する根拠はない。半年後、APIが公開され、日本で使えるようになり、コーディング性能が改善されていれば話は変わる。それまではClaudeとGPTの二択で十分だ。
免責事項: 本記事は2026年4月10日時点の公開情報に基づく。ベンチマークスコアはArtificial Analysis、Meta公式発表等の外部情報を引用しており、筆者による独自測定ではない。AIモデルの性能はアップデートにより変動するため、利用時には最新情報を確認されたい。本記事にはアフィリエイトリンクを含む場合がある。