若你正在為團隊規劃多模型路由架構——一邊看 OpenRouter Rankings 顯示 Kimi K2.6 把 Claude Sonnet 4.6 擠下第一名、中國模型 45%+ 份額,一邊又看到 Anthropic 仍以 12.3% token 拿 46.3% 金額——本文回答四件事:① 廠商競爭格局到底是「中國全面碾壓」還是「量價剪刀差」;② Top 10 模型的實際定位與單價;③ 程式碼撰寫、角色扮演、法律、健康/學術、行銷各垂類領跑者如何取捨;④ 在 OpenClaw 或自建網路閘道上落地「主用 + 降級」路由的可執行清單。與OpenClaw 多 provider 路由、私有模型對接互補——本篇只啃排行資料 → 廠商競爭 → 路由決策。
2026 年大模型競爭已脫離「單一最強」敘事,進入「多極路由 + 量價剪刀差」格局。Anthropic 守住企業合規、金融、複雜推理的高客單;OpenAI 在 OpenRouter 通路弱勢但主場是 ChatGPT 與企業 API 直簽;Google 以 Gemini Flash Lite 至 Pro 切全價格帶;xAI 在法律等垂類找到位置;中國陣營(Xiaomi MiMo、Moonshot Kimi、DeepSeek、Alibaba Qwen、MiniMax、Z.ai GLM、StepFun)以 2.5-8 倍價差加上開源/開放權重與長上下文,對程式碼撰寫、批次處理與角色扮演形成結構性吞噬。看懂這張「格局圖」,是後面所有路由決策的前提。
| 站內既有長文 | 本篇覆蓋 | 本篇不重複 |
|---|---|---|
| OpenClaw 多 provider 路由與降級 | 路由策略矩陣 + 排行視角的 provider 取捨 | provider 設定語法、429 與日誌欄位全表 |
| 私有模型 Ollama/vLLM 對接 | 開放權重路徑(DeepSeek、Kimi、Qwen)作為降級備援的定位 | 本地推論資源預算與啟停 Runbook |
| 網路閘道健康檢查與滾動更新 | 路由層與閘道探活的銜接原則 | Compose/K8s 探針參數全表 |
| SSH 常駐遠端 Mac 閘道 | 多模型路由出口落在獨占機的穩定性收益 | 連接埠轉發、launchd、autossh 細節 |
所有路由決策都必須建立在同一份排行資料之上。下表彙整 2026-04/05 OpenRouter 公開資料:按廠商聚合的週 token 份額、對應金額份額(以官方均價加權)與每百萬 token 的均價。三欄一起看,才能識別「量大但廉價」「量小但高單價」「量價齊升」的不同競爭模式。
| 廠商 | Token 份額 | 金額份額 | 均價 $/M | 典型旗艦 |
|---|---|---|---|---|
| Anthropic | 12.3% | 46.3% | $7.95 | Claude Opus 4.7 / Sonnet 4.6 |
| 13.3% | 7.0% | $1.12 | Gemini 3 Flash Preview / 3.1 Pro | |
| Xiaomi(中國) | 13.0% | 9.0% | $1.47 | MiMo-V2-Pro |
| Alibaba/Qwen(中國) | 12.7% | 4.6% | $0.77 | Qwen 3.6 Plus |
| OpenAI | 9.8% | 24.2% | $5.25 | GPT-5.5 / GPT-5.4 |
| MiniMax(中國) | 9.5% | 2.1% | $0.48 | MiniMax M2.7 / M2.5 |
| DeepSeek(中國) | 6.3% | 0.9% | $0.30 | DeepSeek V3.2 / V4 Pro |
| Moonshot AI(中國) | 約 5% | 約 2% | $1.50 | Kimi K2.6 |
| Z.ai/Zhipu(中國) | 5.6% | — | $0.80-1.20 | GLM-5 / GLM-5 Turbo |
| StepFun(中國) | 5.3% | — | 約 $0.50 | Step 3.5 Flash |
三視角同看可立刻識別三類競爭模式:(a) 量價齊升——Anthropic 以高均價拿走金額份額;(b) 量大價低——DeepSeek、MiniMax 以 $0.30-0.50 均價吃下批次量;(c) 中間帶——Google、Xiaomi 居中。OpenAI 處於「金額份額 24.2% 但 token 份額下滑至 9.8%」的尷尬位置,反映其主場不在 OpenRouter 而在 ChatGPT 與企業 API 直連。理解了這三種模式,才能給路由策略分桶:高金額任務交給 Anthropic/OpenAI 主場,量大批次任務交給中國陣營,彈性補位用 Google。
下表是 2026-04/05 OpenRouter 綜合 Top 10 週 token 量與五個核心垂類的 #1 模型,可作為路由層預設與降級佇列的起點。
| 排名 | 模型 | 廠商 | 週 Token | 關鍵定位 |
|---|---|---|---|---|
| 1 | Kimi K2.6 | Moonshot(中國) | 1.36T | MoE 1T/32B、長程 agent swarm |
| 2 | Claude Sonnet 4.6 | Anthropic(美國) | 1.35T | 1M context、程式碼主力、企業接入 |
| 3 | DeepSeek V3.2 | DeepSeek(中國) | 1.31T | DSA 稀疏注意力、極低價、Roleplay 王者 |
| 4 | Claude Opus 4.7 | Anthropic(美國) | 1.14T | Anthropic 旗艦、複雜推理 |
| 5 | Gemini 3 Flash Preview | Google(美國) | 1.06T | 1M context、多模態、Health/Academia |
| 6 | MiniMax M2.7 | MiniMax(中國) | 806B | 性價比選擇、長上下文 |
| 7 | Grok 4.1 Fast | xAI(美國) | 721B | 2M context、Legal #1 |
| 8 | Claude Opus 4.6 | Anthropic(美國) | 699B | 上代旗艦、穩定接入 |
| 9 | MiniMax M2.5 | MiniMax(中國) | 698B | 程式碼性價比、$0.30/$1.20 |
| 10 | Step 3.5 Flash | StepFun(中國) | 673B | 快速且廉價、批次處理 |
| 垂類 | #1 模型 | 價格 $/M(in/out) | 取捨要點 |
|---|---|---|---|
| 程式碼撰寫 | GPT-5.5 / Claude Opus 4.7 | $5/$30;$5/$25 | SWE-bench 頂配;高價任務保留 |
| 角色扮演(Roleplay) | DeepSeek V3.2(40.2% 壟斷) | $0.30 級 | 價格碾壓、社群生態規模化 |
| 法律(Legal) | Grok 4.1 Fast | 中等 | 2M context、長文件優勢 |
| 健康/學術 | Gemini 3 Flash Preview | $0.30-$1 級 | 多模態 + 長上下文 + Google 知識圖譜 |
| 行銷文案 | Gemini 2.5 Flash Lite | $0.10/$0.40 | 極低價、批次產生 |
在程式碼撰寫類任務上,價格與效能不是簡單線性關係。下表把 2026-05 主要模型按 SWE-bench Verified 與每百萬 token 價格放在同一張比對表,方便依「每 1% 準確率多付多少錢」做邊際決策。
| 模型 | SWE-bench Verified | Input $/M | Output $/M | Context | 每 1% 準確率邊際成本(in/out) |
|---|---|---|---|---|---|
| GPT-5.5 | 88.7% | $5.00 | $30.00 | 200K | —(頂配基準) |
| Claude Opus 4.7 | 87.6% | $5.00 | $25.00 | 1M | output 節省 17% |
| Claude Opus 4.6 | 80.8% | $5.00 | $25.00 | 1M | 降 7pp、價格不變 |
| Gemini 3.1 Pro | 80.6% | $2.00 | $12.00 | 1M | 降 8pp、省 60%/60% |
| DeepSeek V4 Pro(Max) | 80.6% | $0.435 | $0.87 | 1M | 降 8pp、省 91%/97% |
| MiniMax M2.5 | 80.2% | $0.30 | $1.20 | 1M | 降 8.5pp、省 94%/96% |
| Kimi K2.6 | 80.2% | $0.75 | $3.50 | 128K | 降 8.5pp、省 85%/88% |
| GPT-5.4 | 78.2% | $2.50 | $15.00 | 200K | 降 10.5pp、省 50%/50% |
| MiMo-V2-Pro | 78.0% | $1.00 | $3.00 | 1M | 降 10.7pp、省 80%/90% |
| DeepSeek V4 Flash | 約 79% | $0.14 | $0.28 | 1M | 降 9.7pp、省 97%/99% |
邊際成本讀法:從 GPT-5.5 88.7% 下降到 80% 區間只損失約 8pp,但 output 價格可從 $30/M 降到 $0.87-3.50/M(節省 85-97%)。這是「主用 + 降級」雙軌的資料基礎:高價值任務用 GPT-5.5 或 Opus 4.7 拿滿分,批次與回歸任務用 DeepSeek V4 Pro 或 Kimi K2.6 取 80% 準確率 + 1/10 成本。
下表把多模型路由按業務優先順序拆成四種典型策略,每條策略給出「主用/第一降級/第二降級」三檔,以及典型場景與觸發條件。在 OpenRouter、自建網路閘道或 OpenClaw 落地時,可直接作為 provider 設定檔的起點。
| 策略 | 主用模型 | 第一降級 | 第二降級 | 觸發條件 |
|---|---|---|---|---|
| 品質優先(企業、金融、複雜推理) | Claude Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro | 合規審查、關鍵決策、長鏈推理 |
| 成本優先(批次處理、內部工具) | DeepSeek V4 Pro | MiniMax M2.5 | DeepSeek V4 Flash | 日常工單、文件摘要、回歸測試 |
| 合規優先(資料駐留、國別) | 同區 Gemini/Claude | 同區私有 Qwen/Kimi | 本地 Ollama/vLLM | 歐洲 GDPR、金融監管、政府資料 |
| 長上下文優先(程式碼庫、研報) | Gemini 3.1 Pro(1M) | Grok 4.1 Fast(2M) | Claude Sonnet 4.6(1M) | 整庫分析、長合約、年報閱讀 |
四檔策略不要求互斥——同一團隊不同服務可掛不同策略。建議在網路閘道設定裡用 route_by_tag 或等價機制把任務打標,避免「全站一刀切」的浪費。例如開發助手與程式碼審查走品質優先;commit 訊息產生、日誌摘要、內部知識庫問答全走成本優先;僅當主用 429 或逾時時再觸發降級佇列。
x-task-tier(critical/standard/bulk/experimental);critical 走品質優先、bulk 走成本優先、experimental 路由至新模型做 A/B。routes;OpenRouter 使用者可用 route 欄位搭配 fallback_models 列表。x-provider-used 與 x-cost-cents 回應標頭;以日為單位對帳,避免「便宜模型 + 重試 3 次」反而比貴模型更貴。展望 2026 下半年,三條結構性力量將繼續推動路由格局演化:(a) 價格戰下沿仍有空間,DeepSeek V4 Flash 已把 input 推到 $0.14/M,Step 3.5 Flash 與 GLM-5 Turbo 都在嘗試更積極的價位;(b) 上下文視窗競爭,Grok 4.1 Fast 已 2M、Claude/Gemini 1M、Kimi 仍 128K——長文件與程式碼庫任務的拐點在 1M-2M 之間;(c) 開源-封閉邊界,DeepSeek、Qwen、Kimi 的開放權重讓企業可在「OpenRouter API + 自托管副本」之間切換,疊加 5 月 CNBC 報導的「9 倍成本差」與 Anthropic/OpenAI IPO 估值壓力,這一邊界會持續向開源傾斜。
把這些資料轉化為可執行的路由策略,聽起來複雜,落實下來無非是「標籤 + 主用 + 降級 + 復盤」四件事。但要讓這一切穩定跑下去,網路閘道與多 provider 路由層本身必須放在一個不會隨筆電合蓋就掉線的環境裡——這才是 7×24 多模型路由真正的物理基線。
如果你仍把網路閘道與 provider 路由跑在筆電或共用機上,要接受三項隱性成本:合蓋/睡眠導致 critical 路由瞬時不可達、本地網路抖動造成假性降級觸發率虛高、以及多模型 token 與日誌散落多機難以做季度復盤。對需要 7×24、多 provider 主用+降級、可工單化路由的生產級網路閘道,把 OpenClaw 或自建閘道落在 MACCOME Mac mini(M4/M4 Pro)與六國彈性租期上,通常比在筆電上與降級佇列搏鬥更省總成本;公開檔位可對照多地區節點與租期指南,再與SSH 常駐閘道 Runbook串聯拓撲。
常見問題
OpenRouter 排行顯示中國模型 45% 份額,是否代表可以全面遷移到便宜模型?
不能直接等同。45% token 份額主要由程式碼撰寫、批次處理與長上下文任務驅動,而 Anthropic 仍以 12.3% token 拿 46.3% 金額,反映高價值任務仍偏向 Claude 與 GPT-5。建議「主用 + 降級」雙軌:critical 任務保留 Claude Opus 4.7 / GPT-5.5,bulk 任務路由到 Kimi K2.6 或 DeepSeek V4 Pro。落地拓撲可參考租賃價格說明中獨占閘道的工單化實務。
OpenRouter 公開資料的可信度如何自我驗證?
同時對照三處:OpenRouter Rankings 官方頁、第三方獨立分析(CodeSOTA、digitalapplied 等)、自身網路閘道呼叫日誌。三者趨勢一致即可作為決策依據;分歧時以自身網路閘道日誌為最終口徑。接入與拓撲問題見協助中心。
高價模型(Claude Opus 4.7 / GPT-5.5)還有哪些不可替代的場景?
三類典型場景:① 複雜多步推理與長鏈工具呼叫(87%+ SWE-bench 才能穩定一次通過);② 企業合規與金融審計(Anthropic 安全護欄與企業 SLA);③ 長上下文加上多模態混合(Claude 1M context 加上文件結構化能力)。在這些場景下,每 1% 準確率多付的費用往往低於「便宜模型多跑幾次 + 工程師返工」的總成本。