#SWE-bench

5件の記事

Opus 4.8を徹底解説。SWE-bench Pro 69.2%、Dynamic Workflows、3倍安いFast Mode、Opus 4.7の問題修正、プロンプトインジェクション後退まで。

Claude Opus 4.7 レビュー：SWE-bench 87.6%の実力と2300票「退化」批判の真相

Redditで2300票の「退化」批判とCopilot 15倍請求問題を整理。SWE-bench 87.6%の実力と炎上の真因、移行コストを正直に評価する。

Claude Opus 4.7はSWE-bench 87.6%に到達した一方、新トークナイザで同じ入力が最大35%多くトークン化される。実測コスト・ユーザーの賛否・移行判断基準を整理する。

2026年4月16日リリースのClaude Opus 4.7を解説。SWE-bench 87.6%、xhigh努力レベル、タスクバジェット、/ultrareview、Claude Designまで。

JetBrains1万人調査とSWE-benchデータで比較。Claude Code・Cursor・Copilotの料金・ベンチマーク・実ユーザー評価を徹底分析。