AIトークンコストを100分の1に|Engramが$98Mで挑む企業の「メモリ問題」
「エージェントがワークスペースを探索せず、最初から知っている。そこで何か魔法のようなことが起きた」。Notionの共同創業者サイモン・ラストは2026年6月23日、X(旧Twitter)でそう書いた(Simon Last, X, 2026年6月)。
彼が言及したのはEngramというスタートアップのパイロット導入だ。Notionのカスタムエージェントに同社の「学習済みメモリ」を組み込んだところ、エージェントがワークスペース内容を毎回再取得する必要がなくなったという。そしてトークン消費が「桁違いに」減ったと報告している。
その翌日、Engramはステルスから公の舞台に出た。調達総額は9,800万ドル(約150億円)、評価額は6億ドル(約920億円)。従業員わずか13人の会社にGeneral Catalyst・Kleiner Perkins・Sequoiaが集まり、OpenAI共同創業者のアンドレイ・カルパシーも個人投資家として参加している(CNBC, 2026年6月23日)。
- 月間AI利用コストが増え続け、予算管理に悩む開発者・エンジニアリングマネージャー
- RAGやプロンプトキャッシュに加えてトークン削減の新しい選択肢を探している技術者
- エンタープライズAIへの投資対効果を問われているIT管理者・CTO
なぜトークンコストは「安くなるのに高くなる」のか
1トークンあたりのコストは2025年第1四半期から2026年第1四半期にかけて67%下落した($18.40→$6.07/百万トークン)。にもかかわらず、FinOps Foundationの2026年調査では企業の73%がAIコストを予算超過と報告している(Optimum Partners, 2026年)。
安くなったから使う量が増える。ジェヴォンズのパラドックス(単価が下がると需要が増え、結果的に総コストが膨張する経済学の現象)が企業のAI予算を直撃している。
問題の根源はエージェント型AIへの移行だ。2023年の単純なワークフロー(入力→応答)は1インタラクションあたり$0.04前後だった。だが2026年の複雑なオーケストレーション(ツール呼び出し・推論ループ・検証)では同じ概念的タスクに$1.20、つまり30倍のコストがかかる(EY, 2026年)。トークン消費量は2025年1月以降13倍に増加した。
Uberは2026年分のAI予算を4ヶ月で使い切り、1人あたり月1,500ドルの上限を導入した。Metaでは「トークンマキシング」が横行し、ある企業では1ヶ月で$5億のトークンを消費した事例も報告されている(Fortune, 2026年6月17日)。Goldman Sachsは2030年までにトークン需要が現在の24倍に達すると試算しており、この問題は序章に過ぎない(Enterprise DNA, 2026年)。
EngramがKVキャッシュ問題に挑む理由
AIモデルが毎回クエリを処理するとき、文脈を理解するためのKVキャッシュ(Key-Value Cache)を一から構築する。長い文脈ほど計算量は2乗で増加し、これが繰り返されるとコストは跳ね上がる。
Engramの共同創業者ダン・ビダーマン(コロンビア大学計算神経科学博士)はこの問題を「天才的な見知らぬ人のジレンマ」と表現する。「AIは毎回の会話に組織の記憶を持たず、チームの優先事項を知らず、プロジェクト間の連想ができない状態で到着する」(PRNewswire, 2026年6月)。
Engramの解法は事前学習だ。「Cartridge」と呼ぶ圧縮KVキャッシュをクエリが来る前にオフラインで構築する。組織データを事前に学習したCartridgeをロードすることで、毎回の再構築コストを省く設計だ。神経科学の「engram(記憶痕跡)」概念に由来する命名が示す通り、脳の記憶メカニズムをトランスフォーマーに応用する研究がベースにある(arXiv 2511.12960)。
13人・$600M評価額:誰がこの賭けに乗ったのか
Engramの共同創業者は6人。CTOのサブリ・エユボグルはStanfordでトランスフォーマー内部の記憶メカニズムを研究しCartridge技術の中核を開発した。指導教授のクリス・レイ(Stanford教授)も共同創業者として参加。残りのメンバーはMIT出身のジェシー・リン(Meta FAIR元研究員)、Cornell博士のジャック・モリス(FAIR元研究員)、Scott Linderman(Stanford教授、状態空間モデル専門)を含む(General Catalyst, 2026年6月)。
投資家側の発言も明快だ。Kleiner Perkinsパートナーのリームマリーブラズウェルは「データの爆発とコストの爆発が同時に起きている。Engramは組織をマッピングして、桁違いに安い出力を提供する」と述べている(CNBC, 2026年6月23日)。
顧客3社のうち法律AIのHarveyは「非構造化リーガルコンテキストを安全かつコスト効率よく学習済みメモリに変換する」という用途で導入中だ。Microsoftは365環境でのパイロット試験を進めており、Azure上でのGPUキャパシティも提供している。13人で評価額$600Mは1人あたり約$4,600万(約70億円)の水準。市場の期待値の高さが数字に出ている。
「100分の1」の主張は本物か:光と影
Engramが主張する「最大100倍のトークン削減」は現時点で独立した第三者機関による検証がない。TechTimesの報道も「Engram自身の資料と商業パートナーの証言のみが根拠」と明記している(TechTimes, 2026年6月25日)。ビダーマン自身も「汎用の最先端モデルを構築しているわけではない」と認めており、数字は特定ユースケースに限定されたものだ。
競合のMem0はGitHubスター51,000超、$24M調達済みで、LOCOMO ベンチマークでクエリあたり1,800トークン(従来比90%削減)を実証済みだ。ZepはLongMemEvalで最大18.5%の精度向上を示している。どちらも既に独立したベンチマーク数字を持つという点でEngramより先行している(Vectorize, 2026年)。
Engramの技術的優位点は「推論前の事前学習」という設計思想にある。Mem0やLettaがクエリ時に記憶を取得・更新するのに対し、Cartridgeは静的でありクエリが来た時点で既に圧縮済みのメモリが存在している。これはレイテンシ特性が根本的に異なる可能性を意味するが、実測値はまだない。
採用を検討する企業が問うべき問いは明確だ。「コスト削減が自社の具体的ユースケースで再現されるか」「モデルバージョンアップ時にCartridgeの再学習コストはどうなるか」「HIPAAやGDPR対応はどうするか」。これらへの公開回答は現時点では存在しない。
「1ドルあたりの知性」が新たな競争軸になる
EngramへのVCの賭けが示しているのは、AI競争の次の戦場が「性能」ではなく「コスト効率」だという見立てだ。Zhipu GLM-5.2はAnthropicのOpus 4.8に近い性能をその5分の1のコスト($1.40/$4.40 per Mトークン vs $5/$25)で提供し、企業のモデル選定基準を変えつつある(CNBC, 2026年6月26日)。
Sam AltmanはOpenAIの全従業員の97.9%がエージェントを使用していると報告しており、「AIトークンコストが巨大な問題になっている」と認めた(Tom’s Hardware, 2026年)。メモリ技術によるトークン削減は、この問題へのアーキテクチャレベルの回答の一つだ。Engramがそれを実現できるかどうか、独立検証が出るのを待つ価値はある。
- ユースケース特化か汎用か: 100分の1削減は特定ユースケースの数字。自社タスクでの再現性を独自検証すること
- モデルバージョン耐性: Cartridgeはモデルアップデートのたびに再学習が必要か。コストと頻度を確認する
- 既存代替との比較: Mem0($24M調達・51kスター・独立検証済み)やプロンプトキャッシュとの実測比較を要求する
- コンプライアンス対応: GDPR・HIPAAへの対応方針は現時点で非公開。規制業種は慎重な事前確認が必要
- 価格体系: メモリ層フィーかモデルフィーか消費量ベースか。長期的なTCOが変わりうる
エンタープライズAIのトークンコスト管理を深掘りしたい方へ
Engramの登場はAI予算問題がいよいよアーキテクチャレベルで語られる段階に入ったことを示している。先行するUberの事例やAI FinOpsの基本は関連記事で詳しく解説している。
関連記事
- UberのAI予算が4ヶ月で消えた理由|Claude Codeとトークン課金の罠
- LindyがClaudeを切った日|AI節約元年・IPO前夜に企業が「AI反乱」を起こす理由
- Google TurboQuant完全解説|KVキャッシュを6倍圧縮してLLM推論コストを下げる
本記事に記載されたEngramの性能数値・調達額は各リンク先の報道および同社発表資料に基づく。「最大100分の1」のトークン削減は特定ユースケースにおける同社自身の主張であり、独立した第三者検証は2026年6月時点で確認されていない。為替レートは執筆時点のものであり変動する場合がある。