2026 OpenRouter 周 Token 调用量排行:账单数据不会说谎,谁才是真正的王者?

约 18 分钟阅读 · MACCOME

若你正为多模型路由选型而纠结——一边刷 SWE-bench 榜单,一边看发布会 PPT——本文用 OpenRouter 2026 年 5 月 18–24 日周 Token 账单数据给出结论:① 全球周调用量 28.9 万亿(+7.4%,五周连涨),中国模型 9.223T 连续四周超美;② DeepSeek-V4-Flash 以 3.43T 登顶,系列合计 5.74T;③ Token 份额与美元收入的「双重真相」揭示 Anthropic 溢价困局;④ 附八步周榜追踪与场景路由落地清单。与5 月路由决策矩阵6 月趋势文互补——本篇只啃账单体温计 → 周榜硬数据 → 反常识发现

六种「只看榜单不看账单」的选型误区

  1. 把 SWE-bench 榜首当生产默认:基准测试测的是单次任务上限;OpenRouter 周榜统计的是过去 7 天真实 API 花出去的钱。二者回答的问题完全不同。
  2. 忽视 7 天滚动口径:OpenRouter 排行按周 Token 吞吐量(输入+输出)统计,不是日榜也不是月榜。用错时间窗口会把「限免冲量」误判为长期趋势。
  3. 只看模型排名不看厂商矩阵:DeepSeek 三款模型同进前十,系列周量 5.74T——单模型排名会低估矩阵型厂商的真实统治力。
  4. 把 Token 份额等同于收入份额:Anthropic 约 12% Token 却占约 46% 美元收入;DeepSeek 流量巨大但单价极低。只看量会误判「谁真正赚钱」。
  5. 用发布会叙事覆盖调用数据:Kimi K2.6 前周排名第 6,当周跌出前十——榜单周环比变化比任何 Keynote 都更诚实。
  6. 把 OpenRouter 当全市场镜像:平台接入 300+ 模型、800 万+ 用户、月约 100 万亿 Token,但仍以第三方路由的开发者流量为主;ChatGPT 订阅与企业直连 API 权重不在此列。

核心论点只有一句:Token 调用量是衡量 AI 真实落地与市场认可度的体温计,花出去的钱不说谎。一年前 OpenRouter 周处理量约 2.4 万亿,如今 28.9 万亿——约 12 倍增长,说明 AI 应用已进入规模化爆发,而非实验室演示阶段。

数据来源与统计方法:为什么 OpenRouter 是中立体温计?

OpenRouter 是全球最大的中立 AI 模型 API 聚合平台之一:接入 300+ 模型、覆盖 OpenAI、Anthropic、Google、DeepSeek 等 60+ 供应商。公开排行榜地址为 openrouter.ai/rankings,统计维度包括:周 Token 总量、模型维度排行、厂商市场份额,以及美元收入份额 vs Token 份额(揭示定价差异)。

本文数据截止 2026 年 5 月 24 日(统计窗口 5 月 18–24 日)。第 1–2、5 项 Top 10 数据交叉参照每日经济新闻 2026-05-25 报道;其余条目对照 OpenRouter 公开榜单与 MACCOME 同期解读。如需最新数据请访问官网实时查看。

指标 数据(5/18–5/24) 环比 解读
全球周调用量28.9 万亿 Token+7.4%连续五周上涨
中国模型周调用量9.223 万亿 Token+19.89%连续四周超越美国
美国模型周调用量4.93 万亿 Token+16.27%增速低于中国阵营
一年前周基准约 2.4 万亿同比量级约 12×

最新一周模型调用量 Top 10:DeepSeek-V4-Flash 以 3.43T 加冕

当周前十榜单呈现鲜明分层:极低价高吞吐(DeepSeek-V4-Flash、Step 3.5 Flash)、限免后仍高增长(腾讯 Hy3 Preview)、企业编程主力(Claude Sonnet 4.6)、免费 Agent 特化(Owl Alpha)。下表为截至 5 月 24 日的周 Token 量排行。

排名 模型 厂商 周 Token 量 环比 特点
1DeepSeek-V4-FlashDeepSeek 🇨🇳3.43T+66%Agent 工作流首选,极低价格
2腾讯 Hy3 PreviewTencent 🇨🇳3.07T+16%限免结束后仍高增长
3Claude Sonnet 4.6Anthropic 🇺🇸1.35T百万上下文,企业编程主力
4DeepSeek-V3.2DeepSeek 🇨🇳1.31T低价长尾,角色扮演活跃
5Owl Alpha(匿名)OpenRouter1.15T+29%免费 Agent 特化,百万上下文
6Gemini 3 Flash PreviewGoogle 🇺🇸1.06T多模态,学术/医疗场景
7DeepSeek-V4-ProDeepSeek 🇨🇳1.00T矩阵旗舰(系列合计 5.74T)
8MiniMax M2.7MiniMax 🇨🇳806B长上下文性价比之选
9Grok 4.1 FastxAI 🇺🇸721B2M 上下文,法律场景强势
10Step 3.5 FlashStepFun 🇨🇳673B快速低价,批处理场景

注:Kimi K2.6 前周排名第 6,当周跌出前十。DeepSeek 旗下三款模型同时进入前九,系列周调用总量 5.74 万亿 Token(环比 +25.9%),连续两周超越 Anthropic 和 Google,位居厂商排名第一。这不是单点爆款,而是「Flash 吃量 + Pro 扛质 + V3.2 守长尾」的矩阵打法。

厂商格局:Token 量 vs 美元收入的「双重真相」

若把市场比作三层蛋糕,结构已非常清晰:

  • 高价值·低流量:Anthropic Claude Opus → 企业复杂推理,付费能力强
  • 性价比·中流量:Google Gemini Flash → 多模态、学术
  • 极低价·高流量:DeepSeek / MiniMax / StepFun → Agent、编程、批处理

中国模型崛起速度同样惊人:2025 年初流量占比不足 2%,2026 年 2 月首次超越美国,至 2026 年 5 月已达 约 45%+ 并连续四周领先。但 Anthropic 的「溢价悖论」更值得深思——Token 份额约 12%(一年前约 25%,持续下滑),美元收入份额却约 46%。Claude Opus 4.6 月收入约 2500 万美元量级,但 Token 量只有 DeepSeek 的零头:企业级用户仍为 Claude 付高价,流量主导权却已拱手相让。

对比维度 DeepSeek 矩阵 Anthropic 解读
周 Token 量系列 5.74T,厂商 #1Sonnet 1.35T 等量主导权在中国开源阵营
Token 份额趋势快速上升(V4-Flash +66%)约 12%,同比下滑高价模型被分流
美元收入份额极低单价,金额占比小约 46%高价值任务仍付溢价
典型场景Agent、批处理、编程回归合规推理、金融、复杂代码审查不可互相替代

反常识发现:基准测试分数与市场调用量近乎反比

OpenRouter 与 a16z 联合发布的《2025 AI 使用报告》覆盖约 100 万亿 Token匿名元数据,核心发现令人不安:模型的基准测试分数与其实际市场份额几乎呈反比。换言之,SWE-bench 每涨 1 分,往往对应 output 单价多付数美元;而周榜前列模型多在 79–81% 区间,却以 $0.14–$0.87/M 的 output 价格吃下 Agent 与编程的主流量。这不是模型「变笨了」,而是生产环境在成本-稳定性-吞吐三维空间里做了理性取舍。原因并不神秘:

  • 开发者关注推理成本大于极限能力——output 从 $30/M 降到 $0.28/M 时,8pp 的 SWE-bench 差距往往可被工程流程消化。
  • Agent 工作流更依赖稳定性与 API 响应速度,而非单次极限推理。
  • 编程任务占比从 2025 年初约 11% 飙升至超 50%,成为最大单一用途——这正是 DeepSeek-V4-Flash、Claude Sonnet 4.6 争夺的主战场。
info

结论:账单上的数字,比任何评测榜单都诚实。投资者用它评估商业化进度(OpenRouter 估值约 26× PS),开发者用它选择模型,研究机构用它追踪趋势——Token 调用量已从「技术指标」升级为「商业战场晴雨表」。

八步落地:把周榜数据变成可执行的路由策略

  1. 订阅周榜节奏:每周一访问 OpenRouter Rankings,记录 Top 10 环比变化与新进榜模型(如 Hy3 Preview、Owl Alpha 往往是下一个爆款先兆)。
  2. 对齐自家账单:导出过去 7 天网关侧 Token 与美元成本,与 OpenRouter 厂商份额趋势对照——分歧时以自身日志为最终口径。
  3. 按场景分桶路由:Agent / 批量 → DeepSeek-V4-Flash;企业复杂推理 → Claude Opus 系列;多模态 → Gemini Flash 系列(详见6 月场景选型文)。
  4. 配置主用 + 降级队列:参考OpenClaw 多 provider 路由,把 critical / bulk 任务写入不同 provider 链。
  5. 监控新进榜模型:对 Owl Alpha、Hy3 Preview 等设置 5% 灰度流量,观察延迟与失败率后再扩量。
  6. 埋点双维度 KPI:同时追踪「每百万 Token 成本」与「主用→降级触发率」,避免便宜模型 + 三次重试反而更贵。
  7. 季度复盘厂商矩阵:DeepSeek 式矩阵打法意味着单模型排名会波动——应以厂商系列总量评估竞争格局。
  8. 固定 Gateway 出口:多模型路由层需要 7×24 稳定宿主,避免笔记本合盖导致假性降级与日志散落(拓扑见SSH 常驻 Gateway Runbook)。

三条可写进技术评审的硬核数据

  • 12× 周吞吐增长:OpenRouter 全球周处理量从约 2.4T 涨至 28.9T(一年内),AI 推理已从试点进入规模化生产。
  • 编程占比 >50%:a16z × OpenRouter 报告显示编程已超半数调用——选型必须按代码 Agent 成本曲线而非通用聊天场景定价。
  • 中美周量剪刀差:中国 9.223T vs 美国 4.93T(5/18–5/24),且中国环比 +19.89% 快于美国 +16.27%——路由策略应为「中国模型默认 + 美国模型 critical 保留」而非单厂商押注。
  • DeepSeek-V4-Flash 周环比 +66%:单模型一周暴涨说明 Agent 管线对「够快 + 够便宜 + 百万上下文」的组合极其敏感;新进榜的 Hy3 Preview(+16%)与 Owl Alpha(+29%)同样印证:榜单洗牌往往先于媒体叙事。

结语:不是谁最聪明,而是谁最被调用

市场正在用钱投票:中国开源模型以极低成本重塑全球 AI 调用格局。不是发布会谁喊得响,而是每周 28.9 万亿 Token 的账单在定义王者。对开发者而言,最务实的动作是:不要只看发布会,要看账单——OpenRouter 每周免费更新,按任务场景选模型,定期追踪榜单变化并及时调整路由策略。

但若把多模型 Gateway 跑在笔记本或合用机上,你会面临三项隐性成本:合盖/睡眠导致 Agent 链路瞬时不可达、网络抖动拉高假性降级率、以及跨机日志难以做周榜对照复盘。对需要 7×24 多 provider 路由、周榜复盘与稳定 Agent 出口 的生产环境,把 OpenClaw 或自建网关落在 MACCOME Mac mini(M4 / M4 Pro)独占节点上,通常比在本地与降级队列搏斗更省总成本;公开档位见租赁价格说明,路由矩阵细节可对照5 月决策矩阵长文

常见问题

OpenRouter 周榜和 SWE-bench 榜单哪个更可信?

二者回答不同问题。SWE-bench 测单次任务上限;周榜统计真实 API 调用的 Token 吞吐量,是开发者用钱包投票的结果。建议以周榜定主用模型池,以基准测试校准 critical 任务质量下限。落地环境可参考MACCOME 租赁价格页中的独占节点方案。

DeepSeek 周调用量第一是否意味着可以全面替换 Claude?

不能一刀切。DeepSeek-V4-Flash 以极低单价吃下 Agent 与批处理流量,但 Anthropic 仍以约 12% Token 拿约 46% 美元收入。建议按任务分层路由:critical 保留 Claude,bulk 走 DeepSeek。配置语法见OpenClaw 多 provider 路由文

数据截止 5 月 24 日,6 月榜单变化大吗?

OpenRouter 按 7 天滚动更新,排名每周都可能洗牌。本文侧重「账单方法论」与 5 月下旬硬数据;最新 Top 10 与趋势解读见6 月趋势文。运维问题见帮助中心