若你正在做多模型路由选型——一边看 OpenRouter Rankings 上 Kimi K2.6 把 Claude Sonnet 4.6 挤下第一、中国模型 45%+ 份额,一边又被告知 Anthropic 仍以 12.3% token 拿 46.3% 金额——这篇文章回答四件事:① 厂商竞争格局到底是「中国全面碾压」还是「量-金额剪刀差」;② Top 10 模型的实际定位与单价;③ 编程、角色扮演、法律、健康/学术、营销垂类领跑者如何取舍;④ 在 OpenClaw / 自建 Gateway 上落地「主用 + 降级」多模型路由的可执行清单。与OpenClaw 多 provider 路由、私有模型对接互补——本篇只啃排行数据 → 厂商竞争 → 路由决策。
2026 年大模型竞争已脱离「单一最强」叙事,进入「多极路由 + 量-金额剪刀差」格局。Anthropic 守住企业合规、金融、复杂推理的高客单;OpenAI 在 OpenRouter 路由弱势但主场是 ChatGPT 与企业 API 直签;Google 以 Gemini Flash Lite → Pro 切全价格带;xAI 在 Legal 等垂类找到位置;中国阵营(Xiaomi MiMo、Moonshot Kimi、DeepSeek、Alibaba Qwen、MiniMax、Z.ai GLM、StepFun)以 2.5-8 倍价差 + 开源/开放权重 + 长上下文为武器,对编程、批处理与角色扮演形成结构性吞噬。看懂这张「格局图」,是后面所有路由决策的前提。
| 站内已有长文 | 本篇覆盖 | 本篇不重复 |
|---|---|---|
| OpenClaw 多 provider 路由与降级 | 路由策略矩阵 + 排行视角的 provider 取舍 | provider 配置语法、429 与日志字段全表 |
| 私有模型 Ollama/vLLM 对接 | 开源权重路径(DeepSeek、Kimi、Qwen)作降级备份的定位 | 本地推理资源预算与启停 Runbook |
| Gateway 健康检查与滚动更新 | 路由层与 Gateway 探活的衔接原则 | Compose / K8s 探针参数全表 |
| SSH 常驻远程 Mac Gateway | 多模型路由出口落在独占机的稳定性收益 | 端口转发、launchd、autossh 细节 |
所有路由决策都要建立在同一份排行数据之上。下表汇总 2026-04 / 05 OpenRouter 公开数据:按厂商聚合的周 token 份额、对应金额份额(按官方均价加权)与每百万 token 的均价。三列一起看,才能识别「量大但廉价」「量小但高单价」「量价齐升」的不同竞争模式。
| 厂商 | Token 份额 | 金额份额 | 均价 $/M | 典型旗舰 |
|---|---|---|---|---|
| Anthropic | 12.3% | 46.3% | $7.95 | Claude Opus 4.7 / Sonnet 4.6 |
| 13.3% | 7.0% | $1.12 | Gemini 3 Flash Preview / 3.1 Pro | |
| Xiaomi 🇨🇳 | 13.0% | 9.0% | $1.47 | MiMo-V2-Pro |
| Alibaba (Qwen) 🇨🇳 | 12.7% | 4.6% | $0.77 | Qwen 3.6 Plus |
| OpenAI | 9.8% | 24.2% | $5.25 | GPT-5.5 / GPT-5.4 |
| MiniMax 🇨🇳 | 9.5% | 2.1% | $0.48 | MiniMax M2.7 / M2.5 |
| DeepSeek 🇨🇳 | 6.3% | 0.9% | $0.30 | DeepSeek V3.2 / V4 Pro |
| Moonshot AI 🇨🇳 | ≈5% | ≈2% | $1.50 | Kimi K2.6 |
| Z.ai (Zhipu) 🇨🇳 | 5.6% | — | $0.80–1.20 | GLM-5 / GLM-5 Turbo |
| StepFun 🇨🇳 | 5.3% | — | ≈$0.50 | Step 3.5 Flash |
三视角对比能立刻看出三类竞争模式:(a) 量价齐升——Anthropic 以高均价拿走金额份额;(b) 量大价低——DeepSeek、MiniMax 用 $0.30-0.50 均价吃量;(c) 量价中间带——Google、Xiaomi 居中调和。OpenAI 处于「金额份额 24.2% 但 token 份额下滑到 9.8%」的尴尬位置,反映其主场不在 OpenRouter 而在 ChatGPT 与企业 API 直连。理解了这三类模式,才能给路由策略分桶:高金额任务给 Anthropic / OpenAI 主场,量大批处理任务给中国阵营,弹性补位给 Google。
下表是 2026-04 / 05 OpenRouter 综合 Top 10 周 token 量与五个核心垂类的 #1 模型,可作为路由层默认与降级队列的起点。
| 排名 | 模型 | 厂商 | 周 Token | 关键定位 |
|---|---|---|---|---|
| 1 | Kimi K2.6 | Moonshot 🇨🇳 | 1.36T | MoE 1T/32B、长程 agent、agent swarm |
| 2 | Claude Sonnet 4.6 | Anthropic 🇺🇸 | 1.35T | 1M context、编程主力、企业接入 |
| 3 | DeepSeek V3.2 | DeepSeek 🇨🇳 | 1.31T | DSA 稀疏注意力、极低价、Roleplay 王者 |
| 4 | Claude Opus 4.7 | Anthropic 🇺🇸 | 1.14T | Anthropic 旗舰、复杂推理 |
| 5 | Gemini 3 Flash Preview | Google 🇺🇸 | 1.06T | 1M context、多模态、Health/Academia |
| 6 | MiniMax M2.7 | MiniMax 🇨🇳 | 806B | 性价比之选、长上下文 |
| 7 | Grok 4.1 Fast | xAI 🇺🇸 | 721B | 2M context、Legal #1 |
| 8 | Claude Opus 4.6 | Anthropic 🇺🇸 | 699B | 上代旗舰、稳定接入 |
| 9 | MiniMax M2.5 | MiniMax 🇨🇳 | 698B | 编程性价比、$0.30/$1.20 |
| 10 | Step 3.5 Flash | StepFun 🇨🇳 | 673B | 快速且廉价、批处理 |
| 垂类 | #1 模型 | 价格 $/M(in/out) | 取舍要点 |
|---|---|---|---|
| 编程 | GPT-5.5 / Claude Opus 4.7 | $5/$30;$5/$25 | SWE-bench 顶配;高价任务保留 |
| 角色扮演 (Roleplay) | DeepSeek V3.2(40.2% 垄断) | $0.30 级 | 价格碾压、社区生态规模化 |
| 法律 (Legal) | Grok 4.1 Fast | 中等 | 2M context、长文档优势 |
| 健康 / 学术 | Gemini 3 Flash Preview | $0.30–$1 级 | 多模态 + 长上下文 + Google 知识图 |
| 营销文案 | Gemini 2.5 Flash Lite | $0.10/$0.40 | 极低价、批量生成 |
在编程类任务上,价格与性能不是简单线性关系。下表把 2026-05 主要模型按 SWE-bench Verified 与每百万 token 价格放在同一张比对表,方便按「每 1% 准确率多付多少钱」做边际决策。
| 模型 | SWE-bench Verified | Input $/M | Output $/M | Context | 每 1% 准确率边际成本(in/out) |
|---|---|---|---|---|---|
| GPT-5.5 | 88.7% | $5.00 | $30.00 | 200K | —(顶配基准) |
| Claude Opus 4.7 | 87.6% | $5.00 | $25.00 | 1M | output 节省 17% |
| Claude Opus 4.6 | 80.8% | $5.00 | $25.00 | 1M | 降 7pp,价格不降 |
| Gemini 3.1 Pro | 80.6% | $2.00 | $12.00 | 1M | 降 8pp,省 60% in / 60% out |
| DeepSeek V4 Pro (Max) | 80.6% | $0.435 | $0.87 | 1M | 降 8pp,省 91% in / 97% out |
| MiniMax M2.5 | 80.2% | $0.30 | $1.20 | 1M | 降 8.5pp,省 94% in / 96% out |
| Kimi K2.6 | 80.2% | $0.75 | $3.50 | 128K | 降 8.5pp,省 85% in / 88% out |
| GPT-5.4 | 78.2% | $2.50 | $15.00 | 200K | 降 10.5pp,省 50% in / 50% out |
| MiMo-V2-Pro | 78.0% | $1.00 | $3.00 | 1M | 降 10.7pp,省 80% in / 90% out |
| DeepSeek V4 Flash | ~79% | $0.14 | $0.28 | 1M | 降 9.7pp,省 97% in / 99% out |
边际成本读法:从 GPT-5.5 88.7% 下降到 80% 区间只损失 ~8pp,但 output 价格能从 $30/M 降到 $0.87-3.50/M(节省 85-97%)。这是「主用 + 降级」双轨的数据基础:高价值任务用 GPT-5.5 / Opus 4.7 拿满分,批量与回归任务用 DeepSeek V4 Pro / Kimi K2.6 取 80% 准确率 + 1/10 成本。
下表把多模型路由按业务优先级拆成四种典型策略,每条策略给出「主用 / 第一降级 / 第二降级」三档,以及典型场景与触发条件。在 OpenRouter、自建 Gateway 或 OpenClaw 上落地时,可直接作为 provider 配置文件的起点。
| 策略 | 主用模型 | 第一降级 | 第二降级 | 触发条件 |
|---|---|---|---|---|
| 质量优先(企业、金融、复杂推理) | Claude Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro | 合规审查、关键决策、长链推理 |
| 成本优先(批处理、内部工具) | DeepSeek V4 Pro | MiniMax M2.5 | DeepSeek V4 Flash | 日常工单、文档摘要、回归测试 |
| 合规优先(数据驻留、国别) | 同区 Gemini / Claude | 同区私有 Qwen / Kimi | 本地 Ollama/vLLM | 欧洲 DSGVO、国内合规、金融监管 |
| 长上下文优先(代码库、研报) | Gemini 3.1 Pro(1M) | Grok 4.1 Fast(2M) | Claude Sonnet 4.6(1M) | 整库分析、长合同、年报阅读 |
四档策略不要求互斥——同一团队的不同 service 可以挂不同策略。建议在 Gateway 配置里用 route_by_tag 或等价机制把任务打标,避免「全站一刀切」的浪费。例如开发助手与代码评审都走质量优先,而 commit message 生成、日志摘要、内部知识库问答统统走成本优先;只有当主用 429 或超时时再触发降级队列。
x-task-tier(critical / standard / bulk / experimental);critical 走质量优先,bulk 走成本优先,experimental 路由到新模型做 A/B。routes;OpenRouter 用户可用 route 字段配合 fallback_models 列表。x-provider-used 与 x-cost-cents 响应头;以日为单位对账,避免「便宜模型 + 重试 3 次」反而比贵模型更贵。展望 2026 下半年,三条结构性力量会继续推动路由格局演化:(a) 价格战下沿仍有空间,DeepSeek V4 Flash 已把 input 推到 $0.14/M,Step 3.5 Flash 与 GLM-5 Turbo 等都在尝试更激进的价位;(b) 上下文窗口竞争,Grok 4.1 Fast 已 2M、Claude/Gemini 1M、Kimi 仍 128K——长文档与代码库任务的拐点在 1M-2M 之间;(c) 开源-闭源边界,DeepSeek、Qwen、Kimi 的开源权重让企业可以在「OpenRouter API + 自托管副本」之间切换,叠加 5 月 CNBC 报道的「9 倍成本差」与 Anthropic/OpenAI IPO 估值压力,这一边界会继续向开源倾斜。
把这些数据转化为可执行的路由策略,听上去复杂,落实下来无非是「标签 + 主用 + 降级 + 复盘」四件事。但要让这一切稳定跑下去,Gateway 与多 provider 路由层本身必须放在一个不会随笔记本合盖就掉线的环境里——这才是 7×24 多模型路由真正的物理基线。
如果你仍把 Gateway 与 provider 路由跑在笔记本或合用机上,要接受三项隐性成本:合盖/睡眠导致 critical 路由瞬时不可达、本地网络抖动造成假性降级触发率虚高、以及多模型 Token 与日志散落多机难以做季度复盘。对需要 7×24、多 provider 主用+降级、可工单化路由的生产 Gateway,把 OpenClaw / 自建网关落在 MACCOME Mac mini(M4 / M4 Pro)与六国弹性租期上,通常比在笔记本上与降级队列搏斗更省总成本;公开档位可对照多地区节点与租期指南,再与SSH 常驻 Gateway Runbook串联拓扑。
常见问题
OpenRouter 排行上中国模型 45% 份额,是否意味着可以全面迁移到便宜模型?
不能简单等价。token 份额 45% 主要由编程、批处理与长上下文任务驱动,而 Anthropic 仍以 12.3% token 拿 46.3% 金额,反映高价值任务仍偏向 Claude 与 GPT-5 系列。建议「主用 + 降级」双轨:critical 任务保留 Claude Opus 4.7 / GPT-5.5,bulk 任务路由到 Kimi K2.6 或 DeepSeek V4 Pro。落地拓扑可参考租赁价格说明中独占 Gateway 的工单化实践。
OpenRouter 公开数据可信度如何自测?
同时对照三处:OpenRouter Rankings 官方页(周 token、Market Share)、第三方独立分析(CodeSOTA、digitalapplied 等)、自身网关侧调用日志。三者趋势一致即可作为决策依据;分歧时以自身网关日志为最终口径。接入与拓扑问题见帮助中心。
高价模型(Claude Opus 4.7 / GPT-5.5)还有哪些不可替代场景?
三类典型场景:① 复杂多步推理与长链工具调用(87%+ SWE-bench 才能稳定一次通过);② 企业合规与金融审计(Anthropic 的安全护栏与企业 SLA);③ 长上下文 + 多模态混合(Claude 1M context + 文档结构化能力)。这些场景下,每 1% 准确率多付的钱往往低于「便宜模型多跑几次 + 工程师返工」的总成本。