マルチモデルルーティングの構成を検討されているとき、OpenRouter Rankings で Kimi K2.6 が Claude Sonnet 4.6 を抜いて首位に立ち、中国モデルが 45%+ のトークンシェアを占める一方、Anthropic は依然として トークン 12.3% で売上 46.3% を握っている──このページではその矛盾を 4 つの観点で整理します。(1) 競争構造は「中国の全面席巻」なのか「トークンと売上の鋏状ギャップ」なのか、(2) Top 10 モデルの実際のポジションと単価、(3) コーディング・ロールプレイ・法務・ヘルス/学術・マーケティングの垂直領域リーダーの選び方、(4) OpenClaw や自前ゲートウェイで「メイン + フォールバック」を実装する手順を扱います。OpenClaw マルチプロバイダールーティングとプライベートモデル連携と相補的に、本稿はランキングデータ → ベンダー競争 → ルーティング決定に絞ります。
2026 年の LLM 市場は「単一最強」のシナリオから離れ、多極ルーティングとトークン-売上の鋏状ギャップの時代へ移行しています。Anthropic はコンプライアンス、金融、複雑推論などの高単価領域を守り、OpenAI は OpenRouter では弱体化しているものの ChatGPT と企業契約が主戦場、Google は Gemini Flash Lite から Pro までで全価格帯を網羅、xAI は法務などの垂直で居場所を確保しています。中国陣営(Xiaomi MiMo、Moonshot Kimi、DeepSeek、Alibaba Qwen、MiniMax、Z.ai GLM、StepFun)は 2.5〜8 倍の価格差と長コンテキスト、オープンウェイト戦略でコーディング・バッチ・ロールプレイを構造的に取り込みつつあります。この景色を正しく読むことが、以降の意思決定の前提となります。
| 関連する MACCOME 長文記事 | 本稿が扱う範囲 | 本稿が重複しない範囲 |
|---|---|---|
| OpenClaw マルチプロバイダールーティングとフェイルオーバー | ランキング視点で見た戦略マトリクス | provider 構文、429 ハンドリング、ログ項目 |
| プライベートモデル Ollama/vLLM 連携 | オープンウェイト(DeepSeek、Kimi、Qwen)のフォールバック位置付け | セルフホストのリソース見積もりとライフサイクル |
| ゲートウェイヘルスプローブとローリング更新 | ルーティング層とゲートウェイ可用性の連動原則 | Compose/K8s のプローブパラメータ全表 |
| 専用リモート Mac での SSH 常駐ゲートウェイ | マルチモデルルーティングの出口を独占機に置く効果 | ポートフォワード、launchd、autossh の詳細 |
ルーティング決定は同じデータセットの上に立つ必要があります。下表は OpenRouter の 2026 年 4〜5 月の公開データをベンダー別に集計したものです。週次トークンシェア、公式単価で加重した売上シェア、平均単価($/M)の 3 列を同時に見ることで、「量が多くて安い」「量が少なくて高い」「量も価格も伸びている」3 つの競争モードを切り分けられます。
| ベンダー | トークンシェア | 売上シェア | 平均単価 $/M | 主要モデル |
|---|---|---|---|---|
| Anthropic | 12.3% | 46.3% | $7.95 | Claude Opus 4.7 / Sonnet 4.6 |
| 13.3% | 7.0% | $1.12 | Gemini 3 Flash Preview / 3.1 Pro | |
| Xiaomi(中国) | 13.0% | 9.0% | $1.47 | MiMo-V2-Pro |
| Alibaba/Qwen(中国) | 12.7% | 4.6% | $0.77 | Qwen 3.6 Plus |
| OpenAI | 9.8% | 24.2% | $5.25 | GPT-5.5 / GPT-5.4 |
| MiniMax(中国) | 9.5% | 2.1% | $0.48 | MiniMax M2.7 / M2.5 |
| DeepSeek(中国) | 6.3% | 0.9% | $0.30 | DeepSeek V3.2 / V4 Pro |
| Moonshot AI(中国) | 約 5% | 約 2% | $1.50 | Kimi K2.6 |
| Z.ai/Zhipu(中国) | 5.6% | — | $0.80-1.20 | GLM-5 / GLM-5 Turbo |
| StepFun(中国) | 5.3% | — | 約 $0.50 | Step 3.5 Flash |
3 視点をまとめて見ると、競争モードは大きく 3 つに分かれます。(a) 量と価格が同時に伸びる:Anthropic が高単価で売上シェアを取り込んでいます。(b) 量が多く価格が低い:DeepSeek や MiniMax が $0.30〜0.50 でバッチ系のボリュームをさらっています。(c) 中間帯:Google と Xiaomi が中庸の位置でバランスを取っています。OpenAI は売上シェア 24.2% を保ちつつトークンシェアは 9.8% まで減っており、主戦場が ChatGPT と企業 API 直接契約にあることを示しています。
これをルーティング戦略に翻訳すると、最も支払い意欲の高いタスクは Anthropic と OpenAI に流し、量の多いバッチ作業は中国モデルへ、その中間の弾力的なバランサーとして Google を使う、という構造になります。
次の 2 つの表は、週次トークンの Top 10 と、5 つの主要垂直領域のリーダーです。これらをルーティング層のデフォルトキューおよびフォールバックリストの起点として活用できます。
| 順位 | モデル | ベンダー | 週次トークン | 定位 |
|---|---|---|---|---|
| 1 | Kimi K2.6 | Moonshot(中国) | 1.36T | MoE 1T/32B、長尺エージェントスウォーム |
| 2 | Claude Sonnet 4.6 | Anthropic(米国) | 1.35T | 1M context、コーディング主力、企業統合 |
| 3 | DeepSeek V3.2 | DeepSeek(中国) | 1.31T | DSA 疎注意、極めて低価格、ロールプレイ王者 |
| 4 | Claude Opus 4.7 | Anthropic(米国) | 1.14T | Anthropic 旗艦、複雑推論 |
| 5 | Gemini 3 Flash Preview | Google(米国) | 1.06T | 1M context、マルチモーダル、ヘルス/アカデミア |
| 6 | MiniMax M2.7 | MiniMax(中国) | 806B | 長コンテキストのコストパフォーマンス |
| 7 | Grok 4.1 Fast | xAI(米国) | 721B | 2M context、法務 #1 |
| 8 | Claude Opus 4.6 | Anthropic(米国) | 699B | 前世代旗艦、安定したフォールバック |
| 9 | MiniMax M2.5 | MiniMax(中国) | 698B | コーディングの価格性能、$0.30/$1.20 |
| 10 | Step 3.5 Flash | StepFun(中国) | 673B | 速くて安い、バッチ向き |
| 垂直領域 | リーダー | $/M(in/out) | 勝因 |
|---|---|---|---|
| コーディング | GPT-5.5 / Claude Opus 4.7 | $5/$30;$5/$25 | SWE-bench トップ、高価値タスク向け |
| ロールプレイ | DeepSeek V3.2(40.2%) | 約 $0.30 | 圧倒的価格とコミュニティ |
| 法務 | Grok 4.1 Fast | 中価格 | 2M context で長文書類に強い |
| ヘルス/アカデミア | Gemini 3 Flash Preview | $0.30-$1 | マルチモーダル + 長コンテキスト + 知識グラフ |
| マーケティング | Gemini 2.5 Flash Lite | $0.10/$0.40 | 大量ドラフト用の極めて低い単価 |
コーディング系タスクでは、価格と性能の関係は線形ではありません。下表は 2026-05 時点の主要モデルを SWE-bench Verified と $/M を同じ軸上に並べたものです。「1% の精度を追加するためにいくら払うか」という限界費用の視点で意思決定できます。
| モデル | SWE-bench Verified | Input $/M | Output $/M | Context | 1% あたりの限界費用(in/out) |
|---|---|---|---|---|---|
| GPT-5.5 | 88.7% | $5.00 | $30.00 | 200K | 頂上ベースライン |
| Claude Opus 4.7 | 87.6% | $5.00 | $25.00 | 1M | output 17% 削減 |
| Claude Opus 4.6 | 80.8% | $5.00 | $25.00 | 1M | -7pp、価格同額 |
| Gemini 3.1 Pro | 80.6% | $2.00 | $12.00 | 1M | -8pp、60%/60% 削減 |
| DeepSeek V4 Pro(Max) | 80.6% | $0.435 | $0.87 | 1M | -8pp、91%/97% 削減 |
| MiniMax M2.5 | 80.2% | $0.30 | $1.20 | 1M | -8.5pp、94%/96% 削減 |
| Kimi K2.6 | 80.2% | $0.75 | $3.50 | 128K | -8.5pp、85%/88% 削減 |
| GPT-5.4 | 78.2% | $2.50 | $15.00 | 200K | -10.5pp、50%/50% 削減 |
| MiMo-V2-Pro | 78.0% | $1.00 | $3.00 | 1M | -10.7pp、80%/90% 削減 |
| DeepSeek V4 Flash | 約 79% | $0.14 | $0.28 | 1M | -9.7pp、97%/99% 削減 |
フロンティアの読み方:GPT-5.5(88.7%)から 80% 帯へ落とすと精度は 8pp ほど下がりますが、output 単価は $30/M から $0.87〜$3.50/M に下がり、85〜97% のコスト削減になります。これが「メイン + フォールバック」の二系統運用の根拠です。クリティカルパスはプレミアムモデル、バッチや回帰タスクは DeepSeek V4 Pro または Kimi K2.6 で 80% の精度を 1/10 の価格で取得します。
次の表は、業務優先度別にマルチモデルルーティングを 4 つの典型戦略へ整理したものです。各行で「メイン/第 1 フォールバック/第 2 フォールバック」と発動条件を示します。OpenRouter、OpenClaw、自前ゲートウェイいずれの provider 設定にも、そのまま起点として使えます。
| 戦略 | メイン | 第 1 フォールバック | 第 2 フォールバック | 発動条件 |
|---|---|---|---|---|
| 品質優先(企業、金融、推論) | Claude Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro | コンプライアンス審査、重要意思決定、長鎖推論 |
| コスト優先(バッチ、社内ツール) | DeepSeek V4 Pro | MiniMax M2.5 | DeepSeek V4 Flash | チケット、要約、回帰テスト |
| コンプライアンス優先(データ所在地、規制) | 同一リージョンの Gemini / Claude | 同一リージョンの Qwen / Kimi | セルフホストの Ollama / vLLM | EU GDPR、規制業種金融、政府データ |
| 長コンテキスト優先(コードベース、長文レポート) | Gemini 3.1 Pro(1M) | Grok 4.1 Fast(2M) | Claude Sonnet 4.6(1M) | リポジトリ全体解析、長期契約、年次報告書 |
4 つの戦略は排他的ではなく、同じチーム内でもサービスごとに異なる行を割り当てて構いません。ゲートウェイで各リクエストに x-task-tier を付与し、開発者アシスタントやコードレビューは品質優先、コミットメッセージ生成や要約、社内検索はコスト優先、というように振り分けます。フォールバックキューはメインが 429 やタイムアウトを返したときのみ発火させます。
x-task-tier ヘッダー(critical/standard/bulk/experimental)を付与し、critical は品質優先、bulk はコスト優先、experimental は新モデルの A/B 用に振り分けます。routes として記述します。OpenRouter では route と fallback_models を併用します。x-provider-used と x-cost-cents をレスポンスヘッダーに書き出し、日次で消し込みます。「安いモデル + 3 回リトライ」のほうがプレミアム 1 回より高くなる事故を防ぎます。2026 年後半に向けて、3 つの構造的な力がルーティング構造を変え続けます。(a) 価格の下限はまだ伸びる:DeepSeek V4 Flash は input を $0.14/M まで下げ、Step 3.5 Flash や GLM-5 Turbo もより積極的な価格帯を試しています。(b) コンテキスト窓の競争:Grok 4.1 Fast は 2M、Claude と Gemini は 1M、Kimi はまだ 128K。長文書類やコードベース系の臨界点は 1M〜2M の間にあります。(c) オープン/クローズドの境界がオープンに傾く:DeepSeek、Qwen、Kimi のオープンウェイトは、企業が OpenRouter API と自前コピーを行き来できるようにします。5 月の CNBC 記事による「9 倍のコスト差」と Anthropic/OpenAI の IPO 評価圧力が重なり、この境界はオープン側に傾き続けるはずです。
これらを実装に落とすと、「タグ付け + メイン + フォールバック + レビュー」の 4 工程に集約されます。複雑そうに見えても、実態は単純です。ただしこれを安定運用するには、ゲートウェイとマルチプロバイダー層を ノートを閉じても落ちない場所に置く必要があります。これが 7×24 マルチモデルルーティングの物理的ベースラインです。
もしゲートウェイとプロバイダールーティングをノート PC や共有マシンで動かし続けるなら、3 つの隠れたコストを受け入れることになります:スリープで critical パスが一時切断されること、ローカルのネットワーク揺らぎで偽のフォールバックが頻発すること、そしてトークンとログがマシン間に散らばって四半期レビューが破綻すること。7×24 稼働、メイン + フォールバック、チケット化されたランブックが必要な本番ゲートウェイには、OpenClaw や自前ゲートウェイを MACCOME の Mac mini(M4/M4 Pro)と 6 リージョンの弾力的なリース料金の上に置くのが、ノート PC で運用するよりトータルコストで安く済むのが普通です。料金はマルチリージョンノード料金ガイド、トポロジはSSH 常駐ゲートウェイ Runbook をご参照ください。
よくあるご質問
中国モデルが 45%+ のシェアを取ったということは、安価なモデルへ完全移行できるという意味ですか?
そうとは言えません。45% シェアはコーディング、バッチ処理、長コンテキスト用途で押し上げられたものであり、Anthropic は依然として 12.3% トークンで 46.3% の売上を取っています。「メイン + フォールバック」の二系統で運用し、critical なタスクは Claude Opus 4.7 や GPT-5.5、bulk タスクは Kimi K2.6 や DeepSeek V4 Pro に振り分けることを推奨します。トポロジは料金ページをご覧ください。
OpenRouter の公開データの信頼性はどうやって検証しますか?
3 つの情報源を突き合わせます:OpenRouter Rankings、第三者の独立分析(CodeSOTA、digitalapplied など)、自社ゲートウェイのログ。3 者の傾向が一致すれば意思決定に使え、乖離する場合は自社ログを最終根拠とします。導入相談はサポートセンターまでどうぞ。
Claude Opus 4.7 や GPT-5.5 のような高価格モデルが今でも不可欠なシナリオは?
3 種類あります:(1) 複雑な多段推論と長尾のツール呼び出し(87%+ の SWE-bench がないと一発で安定しないケース)、(2) 企業コンプライアンスと金融監査(Anthropic の安全ガードレールと企業 SLA)、(3) 1M context のマルチモーダル + 構造化文書処理。これらでは「1% の精度向上に追加で払う費用」のほうが「安いモデルで再試行 + エンジニア手戻り」よりも明らかに安く済みます。