Qwen 3.7 Max完全ガイド|Claude Code対応・35時間自律・Alibaba製フロンティアモデル
「qwenはありえない。3.7 maxをドロップして、terminal bench、MCP、数学、HLEでほぼすべてopus 4.6 maxを上回った。apex mathの数字、44.5対34.5、これはわずかな差じゃない」。ローカルLLMデベロッパーの@sudoingXは2026年5月21日のXにそう投稿した(X/@sudoingX)。
日本の開発者コミュニティZennでは、「Qwenがプロプライエタリになる件について」というタイトルの記事を書いたihasqが、「オープンソースで信頼を得てからAPIで稼ぐ構造は、MetaのLlamaやMistralと同じ戦略だ」と分析した(Zenn/ihasq)。別のZennユーザーhelloworldは「Qwenが閉じ始めたのでGemma 4を選んだ」という記事でローカルFTの移行先変更を報告した(Zenn/helloworld)。
2026年5月20日にAlibaba Cloudが公開したQwen 3.7 Maxは、エージェント実行ベンチマークTerminal-Bench 2.0-Terminusで69.7%を記録し、DeepSeek-V4-Pro Max(67.9%)、Kimi K2.6 Thinking(66.7%)、Claude Opus 4.6 Max(65.4%)を上回った(BenchLM.ai)。同モデルはAnthropicのClaude Codeハーネスへの対応を明示しており、Claude Codeユーザーが別のバックエンドモデルとして使える初の中国製フロンティアモデルになった。
- Claude Codeの月額コストを圧縮したいエンジニア
- Alibaba Qwen 3.7 Maxの性能と限界を実務ベースで知りたい開発者
- 中国AIラボが米国フロンティアに追いついたのか判断したいPM・CTOクラス
Qwen 3.7 Maxとは何か
Qwen 3.7 Maxは、Alibabaの研究部門Qwen Teamが開発した大規模言語モデルで、テキスト専用のエージェント特化フロンティアモデルだ。同日に発表されたQwen 3.7 Plusがビジョン(画像・動画入力)対応の低コストモデルであるのに対し、Qwen 3.7 Maxは「長時間・大規模コンテキスト・高強度な推論」に特化して設計されている。
主要スペックは次の通り。
| 項目 | 値 |
|---|---|
| コンテキスト長 | 最大1,000,000トークン |
| 最大出力 | 65,536トークン |
| 入力コスト(OpenRouter) | $1.25/MTok |
| 出力コスト(OpenRouter) | $3.75/MTok |
| 公開日 | 2026年5月20日 |
| オープンウェイト | なし(APIのみ) |
Qwen 3.7 Maxが注目を集めた第一の理由は、Alibabaがここで初めてオープンウェイト公開を取りやめたことだ。Qwen 3.xまでのモデルはHugging Faceで重みが公開されており、開発者はセルフホストや微調整が可能だった。しかしQwen 3.7 MaxはOpenAIやAnthropicと同様のクローズドAPIモデルとして展開された。Alibabaが「計算効率の最大化のため」と説明した選択は、オープンソースコミュニティから即座に批判を受けた(Decrypt)。
背景として見逃せないのは、Qwenのテクニカルリードだったヤン・ジュンヤン(Junyang “Justin” Lin)氏が2026年3月に事実上解任されたことだ。同氏はQwenのオープンウェイト路線を主導していた人物であり、Qwen 3.5 Smallモデルのリリースわずか24時間後に「me stepping down. bye my beloved qwen」とXに投稿した。同氏のコメントに対してQwenのコントリビューターは「あなたが自ら選んで去ったわけではないことは知っている」と返信した。Alibabaの投資家圧力がプロプライエタリ化に向けて組織を動かした構図が見える(TechCrunch)。
35時間自律実行デモが示したこと
発表と同時に公開されたデモが開発者の関心を引いた。QwenチームはGPUカーネル最適化タスクをQwen 3.7 Maxに与え、モデルが35時間にわたって1,158回のツール呼び出しを行いながら自律的に作業を続けた結果を報告した。最終的な達成速度向上は10倍で、「熟練した人間の研究者が4〜8時間かけて4倍の改善を出す」水準をベースラインとした比較でも大幅に上回った(VentureBeat)。
この数字単体は慎重に受け取る必要がある。GPUカーネル最適化は特定のドメインであり、一般的なコーディング業務に直接翻訳できるわけではない。AnthropicがClaude Mythos Previewで報告した「人間研究者との比較で64%勝率」も内部ベンチマークであり、どの組織も自社に有利な条件でデモを設計する。
ただし重要な点が一つある。35時間という動作時間だ。現在のClaude Codeを含むほとんどのエージェントフレームワークは、長時間タスクでコンテキスト窓が満杯になるか、モデルが脱線するかのどちらかで実用的な上限が数時間程度に収まっている。1,158回のツール呼び出しを失敗なく継続できたという主張は、エージェント耐久性のベンチマークとして独立した価値を持つ。完全な35時間の独立再現は2026年5月25日時点では確認されていないが、Towards AIのエンジニアChew Loong Nianが18タスクのエージェントベンチマークで9時間・1,040回のツール呼び出しを継続できたことを独立検証した。「p99レイテンシを400ms以下にするという単一の指示を与えたところ、9時間後もまだ実行を続けていた。最終的にp99は372msで着地した。長時間持久力は本物だ」(Towards AI/Chew Loong Nian)。
補足すると、このデモはAlibaba独自のAIアクセラレータ「ZW-M890 PPU」上で実施された。このハードウェアはモデルの学習データに含まれておらず、プロファイリングデータも設計文書もサンプルカーネルも提供されていない条件での実行だったとAlibaba側は説明している。未知のハードウェアを自律的に調べ最適化したという点が、単なる既知タスクの自動化と性質が異なる所以だ(TechTimes)。
ベンチマーク: 数字の正確な読み方
Qwen 3.7 Maxはリリース時に複数のベンチマークで首位を主張した。整理する。
Qwen 3.7 Maxがリリースされた2026年5月20日時点の比較(Claude Opus 4.8は5月28日にリリース):
| ベンチマーク | Qwen 3.7 Max | Claude Opus 4.6 Max | Claude Opus 4.8 | DeepSeek-V4-Pro Max |
|---|---|---|---|---|
| Terminal-Bench 2.0-Terminus | 69.7% | 65.4% | — | 67.9% |
| SWE-bench Pro | 60.6% | ~58% | 69.2% | 59.0% |
| SWE-bench Verified | 80.4% | 80.8% | 88.6% | 80.6% |
| エージェント総合スコア | 69.7 | — | 80.1 | — |
リリース後1週間でClaude Opus 4.8が登場し、構図が一変した。SWE-bench Verifiedでは88.6%対80.4%でOpus 4.8が8.2ポイント上回る。エージェント総合スコアでもOpus 4.8が80.1対69.7と大きくリードする(BenchLM.ai)。
Qwen 3.7 Maxが今も先行するのはTerminal-Bench 2.0-Terminus(69.7%で5時間制限の端末エンジニアタスク)と数学推論(Apex Math 44.5 vs Opus 4.6 Maxの34.5)。コード品質・コードパッチ精度でのリードは7日間で失われた。GPT-5.5はTerminal-Bench Hardで78.2%を記録しており(Qwen 3.7 Maxは50.8%)、複雑なCLIタスクでは大きく劣後する。
「ベンチマーク首位」という主張は正しいが、それが何のベンチマークかに注意が必要だ。どのモデルが最善かは「何のタスクに使うか」で変わる。
Claude Codeハーネス対応の意味
Qwen 3.7 MaxがAnthropicのClaude Codeハーネスに対応していることは、想定外の重要性を持つ。
技術的には、Qwen 3.7 MaxはAnthropicのMessages APIプロトコルを実装しており、ツール使用・ストリーミング・マルチターンの仕様をネイティブでサポートしている。これにより、Claude CodeのバックエンドモデルをQwen 3.7 Maxに差し替える場合にアダプターやプロキシが不要になる(VentureBeat)。
ユーザーにとっての含意は次の二段階だ。
第一に、Claude Codeの操作感・ワークフローを変えずに、バックエンドコストだけを変更できる。Claude Codeのショートカット・タスク管理・ルーティン機能はそのまま使いながら、推論コストの安いモデルに切り替えられる。
第二に、Anthropicがこの状況を意図していない点がある。Anthropicは2026年4月にサードパーティハーネス経由のサブスクリプション利用を制限し、その後Agent SDKクレジット制に移行した(Claude Agent SDK課金詳細)。これらの施策はAnthropicのモデル以外への切り替えを前提にした設計ではなく、競合モデルへの乗り換えを抑制する構造でもある。
実際の設定はAlibaba Cloud公式ドキュメントに記載があり、環境変数3つで接続できる。
ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
ANTHROPIC_MODEL=qwen3.7-max
ANTHROPIC_API_KEY=<DashScope APIキー>
ただし、実際の統合テストでは問題も確認されている。2026年5月27日、GitHubユーザーlayjaonがOpenCode Go経由のClaude Code統合で401認証エラーが発生することを報告した(GitHub Issue #29558)。「DashScopeに直接接続すれば動作する」というのが実務者の共通見解で、サードパーティアグリゲーター経由では認証の問題が生じる可能性がある。
日本の開発者kai_kouは「Qwen 3.7 MaxをClaude Codeのバックエンドとして使う」方法をQiitaでまとめており、日本語で実装手順を確認できる(Qiita/kai_kou)。
「Claude CodeのUIを使いつつQwenのモデルで推論する」というユースケースは技術的に可能だが、利用規約上の問題が生じる可能性がある。実装前に最新の利用規約を確認すること。
価格: 何倍安いのか
コスト比較を具体的な数値で整理する。
| モデル | 入力 | 出力 | キャッシュ入力 |
|---|---|---|---|
| Qwen 3.7 Max(DashScope) | $2.50/MTok | $7.50/MTok | $0.25/MTok |
| Qwen 3.7 Max(OpenRouter) | $1.25/MTok | $3.75/MTok | — |
| Claude Opus 4.8 | $5.00/MTok | $25.00/MTok | $0.50/MTok |
| Claude Sonnet 4.6 | $3.00/MTok | $15.00/MTok | $0.30/MTok |
DashScope基準では、Qwen 3.7 MaxはClaude Opus 4.8に対して入力2倍安・出力3.3倍安だ。OpenRouter経由では入力4倍安・出力6.7倍安になる。
90%キャッシュ割引(DashScope: $0.25/MTok)を活用した場合、長いシステムプロンプトを使い回すエージェントワークフローではさらにコストが下がる。Claude Opus 4.8もキャッシュ($0.50/MTok)を使えるが、それを考慮してもQwen 3.7 Maxが低い。
ただし注意点がある。DashScopeとOpenRouterで価格が2倍異なる。OpenRouterが安く見えるのはプロバイダー競争の結果か一時的な価格設定か不明で、長期的なコスト計算にはDashScope公式レートを使う方が安全だ(pricepertoken.com)。
さらに重大な落とし穴がある。Qwen 3.7 Maxは同等タスクに対して他モデルの約4倍の出力トークンを生成する。Artificial Analysisの計測では、Qwen 3.7 Maxは同一評価で約9,700万出力トークンを使ったのに対し、他のモデルの中央値は約2,400万トークンだった。Extended ThinkingがデフォルトでONになっており、簡単にはオフにできない仕様が原因と見られる。
RedditユーザーのquietusがXで次の比較を報告している。「qwen3.7-max(月$30プラン)を使ったら月額枠の23%を1セッションで消費した。gpt-5.5(月$100プランのCodex CLI)は同じタスクで1%未満だった」(eesel AI)。
対策はmax_tokensを2048〜4096に明示的に設定することだ。ヘッドラインレートだけで判断すると実際のコストが3〜4倍になる可能性があることを念頭に置くこと。
光と影: 使う側の判断材料
光(メリット)
1. コストパフォーマンスが高い。フロンティア級の性能をClaude Opus 4.8の2〜4倍安く使える。大量のエージェントタスクを回すチームにとって予算圧縮の選択肢になる。
2. Claude Codeハーネスに対応。既存のClaude Codeベースのワークフローを大きく変えずにバックエンドを差し替えられる技術的互換性がある。
3. 長時間エージェント実行での実績。Terminal-Bench 2.0-Terminusでの首位スコアは、長時間エージェントワークフローの耐久性という点で他モデルを上回る指標になっている。
4. 1Mトークンコンテキストを持ちつつキャッシュ割引が90%。大規模コードベースを常時コンテキストに乗せるユースケースでは、キャッシュ効率がコストを大幅に下げる。
影(デメリット)
1. Alibaba Cloud依存になる。クローズドAPIのため、利用にはAlibaba CloudまたはOpenRouter経由でデータが流れる。データセキュリティポリシーが厳しい企業・医療・法務領域では導入障壁が高い。
2. オープンウェイトがない。従来のQwenシリーズはセルフホストができたが、Qwen 3.7 Maxにはその選択肢がない。ネットワーク非依存のオフライン実行や微調整ができないため、一部の研究者・エンタープライズにとって使用不可だ。
3. 35時間デモは独立検証されていない。発表から約2週間時点での独立再現報告はなく、Alibaba自身のハードウェアでのベンダー内ベンチマークという性質は変わらない。製品の採用判断は独立した評価を待った方が堅実だ。
4. SWE-Verifiedでは Claude Opus 4.6が上回る。コードパッチ品質という観点では、Qwen 3.7 MaxはまだClaude Opus 4.6に及ばない(80.4% vs 80.8%)。コードレビュー・品質保証を重視するなら、コスト差を上回るメリットがAnthropicモデルにある場合がある。
5. 出力トークンの冗長性でヘッドラインコストが4倍化。Qwen 3.7 Maxは同等タスクで他モデルの約4倍の出力トークンを生成する傾向がある。max_tokensを明示設定しないとコストがヘッドラインレートの3〜4倍になる実例が複数報告されている。
6. Claude Code連携の利用規約リスク。技術的互換性はあるが、AnthropicのAPIエコシステムを経由せずClaude Codeを使う場合の利用規約上の問題は事前確認が必要だ。また、サードパーティアグリゲーター経由での401エラーも確認されており、DashScopeへの直接接続を推奨する。
Qwen 3.7 Maxと同じタイミングでQwen 3.7 Plusも発表された(GA: 2026年6月1〜2日)。PlusはテキストだけでなくJPEG/PNG画像や動画も入力できるマルチモーダルモデルで、スクリーンショット読み取りやGUIオートメーションが可能(ScreenSpot Pro: 79.0%)。コストはDashScope基準で$0.40/$1.60(約6倍安い)。しかしPlusは純粋なコーディング性能ではMaxに若干劣る。「画面を見ながら操作するエージェント」ならPlus、「コーディング・推論専用の長時間エージェント」ならMaxというすみ分けが基本的な判断基準だ。
Claude Opus 4.8の機能・料金・ベンチマークを詳しく知りたい場合はClaude Opus 4.8 完全ガイドを参照。Claude Codeのエージェント機能をフル活用する方法はClaude Agent SDK完全ガイドで解説している。各AIコーディングエージェントを横断的に比較したい場合はAIコーディングエージェント比較2026も参考に。
関連記事
- Claude Opus 4.8 完全ガイド|Dynamic Workflow・3倍安いFast Mode
- Claude Agent SDK完全ガイド
- AIコーディングエージェント比較2026|Claude Code・Cursor・Copilot実力と料金
本記事に記載のベンチマーク数値はリリース時点(2026年5月〜6月)の公開情報に基づく。Terminal-Bench 2.0-Terminusスコアはリリース後の順位変動が生じる可能性がある。35時間自律実行デモはAlibaba内部環境での結果であり独立再現検証は限定的。料金はDashScopeおよびOpenRouterの表示値に基づくが予告なく変更される場合がある。最新情報は各プロバイダーの公式ページを参照のこと。Claude Codeハーネスとの互換性利用については最新の利用規約を確認すること。本記事は特定モデルの選択を推奨・保証するものではない。