2026 OpenRouter 週 Token 調用量排行：帳單資料不會說謊，誰才是真正的王者？

Q: OpenRouter 週榜和 SWE-bench 榜單哪個更可信？

二者回答不同問題。SWE-bench 測的是單次任務上限能力；OpenRouter 週榜統計的是過去 7 天真實 API 調用的 Token 吞吐量，反映開發者用錢包投票的結果。選型時應以週榜定主用模型池，以基準測試校準 critical 任務的品質下限。

約 18 分鐘閱讀 · MACCOME

若你正為多模型路由選型而糾結——一邊刷 SWE-bench 榜單，一邊看發表會簡報——本文用 OpenRouter 2026 年 5 月 18–24 日週 Token 帳單資料給出結論：① 全球週調用量 28.9 兆（+7.4%，五週連漲），中國模型 9.223T 連續四週超美；② DeepSeek-V4-Flash 以 3.43T 登頂，系列合計 5.74T；③ Token 份額與美元收入的「雙重真相」揭示 Anthropic 溢價困局；④ 附八步週榜追蹤與場景路由落地清單。與5 月路由決策矩陣、6 月趨勢文互補——本篇只啃帳單體溫計 → 週榜硬資料 → 反直覺發現。

六種「只看榜單不看帳單」的選型誤區

把 SWE-bench 榜首當生產預設：基準測試測的是單次任務上限；OpenRouter 週榜統計的是過去 7 天真實 API 花出去的錢。二者回答的問題完全不同。
忽視 7 天滾動口徑：OpenRouter 排行按週 Token 吞吐量（輸入+輸出）統計，不是日榜也不是月榜。用錯時間視窗會把「限免衝量」誤判為長期趨勢。
只看模型排名不看廠商矩陣：DeepSeek 三款模型同進前十，系列週量 5.74T——單模型排名會低估矩陣型廠商的真實統治力。
把 Token 份額等同於收入份額：Anthropic 約 12% Token 卻占約 46% 美元收入；DeepSeek 流量巨大但單價極低。只看量會誤判「誰真正賺錢」。
用發表會敘事覆蓋調用資料：Kimi K2.6 前週排名第 6，當週跌出前十——榜單週環比變化比任何 Keynote 都更誠實。
把 OpenRouter 當全市場鏡像：平台接入 300+ 模型、800 萬+ 使用者、月約 100 兆 Token，但仍以第三方路由的開發者流量為主；ChatGPT 訂閱與企業直連 API 權重不在此列。

核心論點只有一句：Token 調用量是衡量 AI 真實落地與市場認可度的體溫計，花出去的錢不說謊。一年前 OpenRouter 週處理量約 2.4 兆，如今 28.9 兆——約 12 倍成長，說明 AI 推論已進入規模化爆發，而非實驗室展示階段。

許多團隊的瓶頸不在「哪個模型最聰明」，而在閘道層日誌與帳單能否每週對齊。當 Agent 工作流單次任務的 Token 消耗是聊天機器人的數十倍，仍用靜態基準測試當採購依據，FinOps 與平台工程往往會在季末對不上帳——這正是週榜存在的價值。

舉一個具體場景：平台組把夜間全庫 docstring 生成掛在榜單高分模型上，輸出單價約 $15/M；FinOps 發現同類流量在 OpenRouter 上已遷到 DeepSeek-V4-Flash（約 $0.40/M），CI 品質幾乎無差，月帳單卻差四倍——這就是「帳單不說謊」在站會裡的樣子。另一場景：受監管金融團隊仍在交易監控摘要上保留 Claude Opus，儘管 Opus 在週榜 Token 量不高、美元占比卻仍可觀；週榜告訴你人群去向，不能覆寫自家合規矩陣。

資料來源與統計方法：為什麼 OpenRouter 是中立體溫計？

OpenRouter 是全球最大的中立 AI 模型 API 聚合平台之一：接入 300+ 模型、涵蓋 OpenAI、Anthropic、Google、DeepSeek 等 60+ 供應商。公開排行榜位址為 openrouter.ai/rankings，統計維度包括：週 Token 總量、模型維度排行、廠商市占，以及美元收入份額 vs Token 份額（揭示定價差異）。

本文資料截止 2026 年 5 月 24 日（統計視窗 5 月 18–24 日）。第 1–2、5 項 Top 10 資料交叉參照每日經濟新聞 2026-05-25 報導；其餘條目對照 OpenRouter 公開榜單與 MACCOME 同期解讀。如需最新資料請造訪官網即時查看。

對需要多供應商路由、7×24 常駐閘道的團隊而言，平台週榜是少數能公開驗證的「市場方向指針」。你家閘道帳單的絕對比例不必與 OpenRouter 一致，但廠商升降趨勢若長期背離，通常代表路由策略或計費口徑該重審。

維運上還有三點實務細節。其一，週榜統計輸入與輸出 Token 合計，長上下文 Agent 會同時放大兩側，單價低的模型仍可能因「prompt 極長」而霸榜。其二，美元收入欄位跨廠商定價體系正規化，若你有企業折扣，Anthropic 的真實毛利差距可能更大。其三，預覽或匿名模型（Owl Alpha、Hy3 Preview）常在定價穩定前衝量——適合灰度，不適合寫死為預設。

若已部署 OpenClaw、Cursor 或自建 LiteLLM 層，建議每週匯出 provider 維度 CSV，與公開榜單疊圖。連續兩週偏差超過十五個百分點，通常代表你的流量組成（內部工具 vs 對外 Agent）與全球開發者中位數不同，或降級鏈卡在備援模型上未切回。

指標	資料（5/18–5/24）	環比	解讀
全球週調用量	28.9 兆 Token	+7.4%	連續五週上漲
中國模型週調用量	9.223 兆 Token	+19.89%	連續四週超越美國
美國模型週調用量	4.93 兆 Token	+16.27%	增速低於中國陣營
一年前週基準	約 2.4 兆	—	同比量級約 12×

最新一週模型調用量 Top 10：DeepSeek-V4-Flash 以 3.43T 加冕

當週前十榜單呈現鮮明分層：極低價高吞吐（DeepSeek-V4-Flash、Step 3.5 Flash）、限免後仍高成長（騰訊 Hy3 Preview）、企業程式設計主力（Claude Sonnet 4.6）、免費 Agent 特化（Owl Alpha）。下表為截至 5 月 24 日的週 Token 量排行。

排名	模型	廠商	週 Token 量	環比	特點
1	DeepSeek-V4-Flash	DeepSeek	3.43T	+66%	Agent 工作流首選，極低價格
2	騰訊 Hy3 Preview	Tencent	3.07T	+16%	限免結束後仍高成長
3	Claude Sonnet 4.6	Anthropic	1.35T	—	百萬上下文，企業程式設計主力
4	DeepSeek-V3.2	DeepSeek	1.31T	—	低價長尾，角色扮演活躍
5	Owl Alpha（匿名）	OpenRouter	1.15T	+29%	免費 Agent 特化，百萬上下文
6	Gemini 3 Flash Preview	Google	1.06T	—	多模態，學術/醫療場景
7	DeepSeek-V4-Pro	DeepSeek	1.00T	—	矩陣旗艦（系列合計 5.74T）
8	MiniMax M2.7	MiniMax	806B	—	長上下文性價比之選
9	Grok 4.1 Fast	xAI	721B	—	2M 上下文，法律場景強勢
10	Step 3.5 Flash	StepFun	673B	—	快速低價，批次處理場景

註：Kimi K2.6 前週排名第 6，當週跌出前十。DeepSeek 旗下三款模型同時進入前九，系列週調用總量 5.74 兆 Token（環比 +25.9%），連續兩週超越 Anthropic 和 Google，位居廠商排名第一。這不是單點爆款，而是「Flash 吃量 + Pro 扛質 + V3.2 守長尾」的矩陣打法。

Hy3 Preview 值得單獨觀察：限免活動結束後仍維持 +16% 成長，代表產品黏性而非單純券後套利。Owl Alpha 以匿名免費形態衝榜，往往是下一季付費 SKU 架構的預演——平台工程應對這類模型保留 5% 灰度觀察延遲與失敗率。

Claude Sonnet 4.6 以 1.35T 穩居第三，說明企業賽道仍願為百萬上下文、工具穩定性與合規敘事付費。Grok 4.1 Fast 憑 2M 上下文在法律與長文件場景占有一席之地。Step 3.5 Flash 擠進前十，則與 DeepSeek 經濟學呼應：批次摘要與鬆延遲任務追求極致單價。

容量規劃者應把週榜視為延遲預算訊號：低價高量模型常依賴供應端激進批次化。若互動式 Agent 要求首 Token 低於一秒，必須用自家 p95 量測驗證——流量王者不一定是互動贏家。

廠商格局：Token 量 vs 美元收入的「雙重真相」

若把市場比作三層蛋糕，結構已非常清晰：

高價值·低流量：Anthropic Claude Opus → 企業複雜推理，付費能力強
性價比·中流量：Google Gemini Flash → 多模態、學術
極低價·高流量：DeepSeek / MiniMax / StepFun → Agent、程式設計、批次處理

中國模型崛起速度同樣驚人：2025 年初流量占比不足 2%，2026 年 2 月首次超越美國，至 2026 年 5 月已達 約 45%+ 並連續四週領先。但 Anthropic 的「溢價悖論」更值得深思——Token 份額約 12%（一年前約 25%，持續下滑），美元收入份額卻約 46%。Claude Opus 4.6 月收入約 2500 萬美元量級，但 Token 量只有 DeepSeek 的零頭：企業級使用者仍為 Claude 付高價，流量主導權卻已拱手相讓。

這應解讀為市場分流，而非「誰會贏者全拿」。一條賽道優化兆級 Token 的單位成本；另一條賽道優化合規審計與深度推理的席位定價。路由策略必須同時服務兩條賽道。

MiniMax、StepFun 與 DeepSeek 同擠前十，說明中國開源陣營在百萬 Token 單價與上下文長度上競爭，而非單一旗艦 demo。美系廠商仍靠 Opus 與企業 Sonnet 合約掌握美元占比，但 Token 引力已轉向「路由器可熱切換、無需半年採購」的模型族。

對台灣與整體亞太團隊而言，經新加坡或東京節點 egress 後，一旦 Agent 並發上百，邊際成本往往比模型產地更敏感；用第三方週榜向管理層說明 bulk 切換，比只看業務簡報更有說服力。

對比維度	DeepSeek 矩陣	Anthropic	解讀
週 Token 量	系列 5.74T，廠商 #1	Sonnet 1.35T 等	量主導權在中國開源陣營
Token 份額趨勢	快速上升（V4-Flash +66%）	約 12%，同比下滑	高價模型被分流
美元收入份額	極低單價，金額占比小	約 46%	高價值任務仍付溢價
典型場景	Agent、批次處理、程式設計回歸	合規推理、金融、複雜程式碼審查	不可互相替代

反直覺發現：基準測試分數與市場調用量近乎反比

OpenRouter 與 a16z 聯合發布的《2025 AI 使用報告》涵蓋約 100 兆 Token匿名後設資料，核心發現令人不安：模型的基準測試分數與其實際市占幾乎呈反比。原因並不神秘：

開發者關注推論成本大於極限能力——output 從 $30/M 降到 $0.28/M 時，8pp 的 SWE-bench 差距往往可被工程流程消化。
Agent 工作流更依賴穩定性與 API 回應速度，而非單次極限推理。
程式設計任務占比從 2025 年初約 11% 飆升至超 50%，成為最大單一用途——這正是 DeepSeek-V4-Flash、Claude Sonnet 4.6 爭奪的主戰場。

info

結論：帳單上的數字，比任何評測榜單都誠實。投資者用它評估商業化進度（OpenRouter 估值約 26× PS），開發者用它選擇模型，研究機構用它追蹤趨勢——Token 調用量已從「技術指標」升級為「商業戰場晴雨表」。

程式設計占比過半意味著：為「通用聊天」設計的採購矩陣，會嚴重低估 Cursor、Claude Code 或 OpenClaw 進場後的 Token 曲線。閘道主機的頻寬、記憶體與日誌留存應按長上下文、多輪工具呼叫來規劃，而非 2024 年聊天機器人的假設。

資安與合規審查也應理解「反比現象」的雙面性：SWE-bench 分數普通的模型，在沙箱 CI 閘門下仍可能適合大量重構；榜單高分卻工具 JSON 脆弱的模型，可能因線上事故被路由器永久降權而根本不出現在週榜。帳單資料因此與內部事故庫互補，而非互相取代。

FinOps 可把週榜轉成預算敘事：中國模型週量環比 +19.89%、全球僅 +7.4% 時，把 bulk 路由切到 DeepSeek-V4-Flash 不是追熱點，而是對齊多數開發者的邊際成本曲線；Opus 級預算應保留給季度評測中便宜模型仍無法通過的合規與深度推理工單。

八步落地：把週榜資料變成可執行的路由策略

訂閱週榜節奏：每週一造訪 OpenRouter Rankings，記錄 Top 10 環比變化與新進榜模型（如 Hy3 Preview、Owl Alpha 往往是下一個爆款先兆）。
對齊自家帳單：匯出過去 7 天閘道側 Token 與美元成本，與 OpenRouter 廠商份額趨勢對照——分歧時以自身日誌為最終口徑。
按場景分桶路由：Agent / 批次 → DeepSeek-V4-Flash；企業複雜推理 → Claude Opus 系列；多模態 → Gemini Flash 系列（詳見6 月場景選型文）。
設定主用 + 降級佇列：參考OpenClaw 多 provider 路由，把 critical / bulk 任務寫入不同 provider 鏈。
監控新進榜模型：對 Owl Alpha、Hy3 Preview 等設定 5% 灰度流量，觀察延遲與失敗率後再擴量。
埋點雙維度 KPI：同時追蹤「每百萬 Token 成本」與「主用→降級觸發率」，避免便宜模型 + 三次重試反而更貴。
季度複盤廠商矩陣：DeepSeek 式矩陣打法意味著單模型排名會波動——應以廠商系列總量評估競爭格局。
固定 Gateway 出口：多模型路由層需要 7×24 穩定宿主，避免筆電合蓋導致假性降級與日誌散落（拓撲見SSH 常駐 Gateway Runbook）。

步驟 1–3 適合寫進技術評審摘要；4–8 才是平台工程實際上線的檢查清單。略過硬體常駐（步驟 8）是多模型路由「文件完美、線上脆弱」的首要原因。

建議在內部 Runbook 為每步標註負責人：FinOps 負責步驟 2 帳單對帳；平台負責 4–6；資安負責 stealth 模型灰度；SRE 負責步驟 8 宿主釘選。缺少 RACI 時，週榜檢討往往淪為 Slack 討論，openclaw.json 與環境變數卻從不更新。

升級主用模型時，保留七天回滾視窗：新主用未穩定前，舊主用維持約 20% 流量。DeepSeek-V4-Flash 全球環比 +66% 很亮眼，但你們的專有評測集若更重合規任務，未必應一刀切。帳單告訴你世界怎麼做；評測告訴你公司什麼不能壞。

三條可寫進技術評審的硬核資料

12× 週吞吐成長：OpenRouter 全球週處理量從約 2.4T 漲至 28.9T（一年內），AI 推論已從試點進入規模化生產。
程式設計占比 >50%：a16z × OpenRouter 報告顯示程式設計已超半數調用——選型必須按程式 Agent 成本曲線而非通用聊天場景定價。
中美週量剪刀差：中國 9.223T vs 美國 4.93T（5/18–5/24），且中國環比 +19.89% 快於美國 +16.27%——路由策略應為「中國模型預設 + 美國模型 critical 保留」而非單廠商押注。

結語：不是誰最聰明，而是誰最被調用

市場正在用錢投票：中國開源模型以極低成本重塑全球 AI 調用格局。不是發表會誰喊得響，而是每週 28.9 兆 Token 的帳單在定義王者。對開發者而言，最務實的動作是：不要只看發表會，要看帳單——OpenRouter 每週免費更新，按任務場景選模型，定期追蹤榜單變化並及時調整路由策略。

但若把多模型 Gateway 跑在筆電或合用機上，你會面臨三項隱性成本：合蓋/睡眠導致 Agent 鏈路瞬時不可達、網路抖動拉高假性降級率、以及跨機日誌難以做週榜對照複盤。對需要 7×24 多 provider 路由、週榜複盤與穩定 Agent 出口 的生產環境，把 OpenClaw 或自建閘道落在 MACCOME Mac mini（M4 / M4 Pro）獨占節點上，通常比在本地與降級佇列搏鬥更省總成本；公開檔位見租用價格說明，路由矩陣細節可對照5 月決策矩陣長文。

獨占雲端 Mac 還能把 launchd 常駐、本機日誌輪替與 SSH 埠轉發放在同一台閘道宿主上，週一複盤只需打包一份 provider 日誌，而非三台筆電與遺忘的 cron。Apple Silicon 統一記憶體亦利於在 OpenClaw 旁並行輕量評測腳本，在每次週榜洗牌後做迴歸抽樣。

5 月 18–24 日只是快照，不是預言；但方向與前幾週一致：低價模型吸收 Agent 吞吐、高價模型留住美元占比、程式設計成為用量重心。若 2026 路線圖仍假設單一旗艦 API，這組數字就是校正器——更新路由器、釘選宿主，讓下週一的榜單驗證你的下注是否正確。

常見問題

OpenRouter 週榜和 SWE-bench 榜單哪個更可信？

二者回答不同問題。SWE-bench 測單次任務上限；週榜統計真實 API 調用的 Token 吞吐量，是開發者用錢包投票的結果。建議以週榜定主用模型池，以基準測試校準 critical 任務品質下限。落地環境可參考MACCOME 租用價格頁中的獨占節點方案。

DeepSeek 週調用量第一是否意味著可以全面替換 Claude？

不能一刀切。DeepSeek-V4-Flash 以極低單價吃下 Agent 與批次處理流量，但 Anthropic 仍以約 12% Token 拿約 46% 美元收入。建議按任務分層路由：critical 保留 Claude，bulk 走 DeepSeek。設定語法見OpenClaw 多 provider 路由文。

資料截止 5 月 24 日，6 月榜單變化大嗎？

OpenRouter 按 7 天滾動更新，排名每週都可能洗牌。本文側重「帳單方法論」與 5 月下旬硬資料；最新 Top 10 與趨勢解讀見6 月趨勢文。維運問題見雲端 Mac 協助中心。