2026 OpenRouter 週次トークン呼び出しランキング:請求データは嘘をつかない——真の王者は誰か?

約18分で読了 · MACCOME

マルチモデルルーティングの選定で、SWE-bench の順位と Keynote のスライドのどちらを信じるべきか迷っているなら——本稿は OpenRouter 2026年5月18–24日週の公開トークン請求データに基づく結論です。① 全球週呼び出し 28.9 兆 Token(+7.4%、五週連続増)、中国モデル 9.223T が四週連続で米国超え;② DeepSeek-V4-Flash が 3.43T で首位、系列合計 5.74T;③ Token シェアとドル収入の「二重の真実」が Anthropic プレミアムの逆説を示す;④ 八段階の週榜追跡とシナリオ別ルーティングの再現手順を付録します。5月ルーティング決定マトリクス6月トレンド文と補完関係にあり、本篇は請求体温計 → 週榜硬データ → 反直感の発見に特化します。

ランキングだけ見て請求を無視する六つの選定ミス

  1. SWE-bench 首位を本番デフォルトにする:ベンチマークは単発タスクの上限能力を測ります。OpenRouter 週榜は過去7日間に実際に API 経由で消費されたトークン量を集計します。二者が答える問いは根本的に異なります。
  2. 7日ローリング口径を見落とす:OpenRouter の排行は週次トークンスループット(入力+出力)です。日次でも月次でもありません。時間窓を取り違えると、限免キャンペーンの一時的な流量を長期トレンドと誤認します。
  3. 単一モデル順位だけでベンダーを評価する:DeepSeek は三款が同時にトップ10入りし、系列週量は 5.74T です。単モデル順位では、マトリクス型ベンダーの実支配力を過小評価しがちです。
  4. Token シェアを収入シェアと同一視する:Anthropic は Token 約12%ながらドル収入約46%。DeepSeek は流量は巨大ですが単価が極めて低い。量だけでは「誰が実際に儲かっているか」は読めません。
  5. 発表会ナラティブで呼び出しデータを上書きする:Kimi K2.6 は前週6位だったものが当週は圏外——週次の順位変動は、どの Keynote よりも市場の本音に近いです。
  6. OpenRouter を全市場の完全ミラーとみなす:300超のモデル、800万超ユーザー、月約100兆 Token と規模は巨大ですが、中立的ルーター経由の開発者トラフィックが中心です。ChatGPT サブスクや企業直契約 API の比重は含まれません。

核心は一文です:トークン呼び出し量は、AI の実運用度と市場承認の体温計であり、実際に支払われた金額は嘘をつきません。一年前の OpenRouter 週処理量は約2.4兆でしたが、今は28.9兆——約12倍の伸びです。これは実験室デモから本番スケールへの移行を示しています。五週連続の +7% 台成長は、一時的なキャンペーンでは説明しにくい持続性を持ち、週榜を毎月ではなく毎週見る動機付けになります。

マルチモデル Gateway を運用するチームにとって、週榜は「どのモデルが今、他の開発者の財布で勝っているか」の外部ベンチマークになります。社内ログだけでは、業界全体の価格破壊や新規参入の速度が見えにくいからです。毎週同じ手順でスナップショットを取れば、四半期レビューで「なぜ請求が跳ねたか」を説明する根拠資料にもなります。

選定会議でよく起きるのは、最新ベンチのスクリーンショット一枚が資料の主役になり、過去7日の実コスト曲線が添え資料に降格することです。その結果、「今月から Opus を全社デフォルトに」といった決定が、Agent バッチの大半を安価モデルへ流すべきタイミングと逆方向に進みます。週榜を読む習慣は、技術的謙虚さ——自分のユースケースが市場平均とどれだけズレているかを確認する作業——でもあります。特に日本企業ではコンプライアンス文書整備のため高価モデルを過剰配置しがちですが、OpenRouter の Token シェアは「実際にコストを抑えて回している開発者」の集合なので、両方の視点を並べて見る価値があります。

また、単一ベンダー契約だけを見ていると、競合が Hy3 や Owl Alpha のような新規入榜モデルへ素早く切り替えている事実に気づくのが遅れます。週次の Top 10 変動は、まさにその早期警告灯です。エンジニアリングマネージャーは、採用理由を「ベンチ上位」から「週榜上位かつ自社タスク適合」へ書き換えるだけで、半年後のコスト予測精度が大きく変わります。PoC 段階では高価モデルで品質を示し、本番 Agent 化の瞬間に Flash 系へ移るチームが多いのも、この体温計を見ているからです。六つの誤読を週次チェックリスト化し、採用レビューの議事録テンプレートに組み込むと、組織学習の速度が上がります。コンプライアンス文書向けの高価モデル過剰配置と、市場の低価格大量呼び出しを並べて見れば、社内ポリシーと外部トレンドのギャップを数値で説明できます。以下、データ源の定義から Top 10、ベンダー構造、反直感の a16z 知見、そして再現可能な八段階 Runbook へ進みます。 誤読を一つずつ潰すだけでも、四半期の Token 単価は二桁パーセント改善するチームが少なくありません。 週榜はベンダー PR ではなく開発者の集合知であり、六つの誤読を避けること自体がコスト最適化の第一歩です。 本稿の六モジュールは、選定ミスからデータ源、Top 10、ベンダー二重構造、a16z 逆相関、八段階 Runbook までを一気通貫で辿る設計です。 以下、各モジュールでデータと手順を展開します。 続けます。

データ源と統計方法:OpenRouter を中立体温計と呼ぶ理由

OpenRouter は世界最大級の中立的 AI モデル API 集約プラットフォームの一つです。300超のモデル、OpenAI・Anthropic・Google・DeepSeek など60超のベンダーをカバーします。公開ランキングは openrouter.ai/rankings で、週次トークン総量・モデル別順位・ベンダーシェア、さらにドル収入シェア対 Token シェアの対比(価格差の可視化)が提供されます。

本稿の数値は 2026年5月24日時点(集計窓 5月18–24日)です。Top 10 の一部は公開報道(毎日経済新聞 2026-05-25 等)と OpenRouter 公開榜单を突合しています。最新値は必ず公式ページで確認してください。週榜を読む際は、必ず「過去7日」「入力+出力合算」「OpenRouter 経由のみ」の三条件をメモに残すと、社内共有時の解釈ブレを防げます。

なぜ第三者ルーターのデータが有用かというと、各ベンダーは自社ベンチマークを選んで公開しますが、OpenRouter は実際にルーティングされた請求を横断集計するからです。開発者が複数モデルを同一ゲートウェイから切り替えるほど、週榜は「実戦でのコスパと安定性の総合投票」に近づきます。投資家は OpenRouter の PS 倍率(約26倍と言われる)を参照し、研究者は地域・用途のトレンドを追い、本番チームは主用モデルと降级先の候補リストを更新する——三者が同じ体温計を見ている構図です。

統計上の注意点も押さえておきます。第一に、OpenRouter 経由のトラフィックは「ルーターを使う開発者」に偏ります。第二に、無料枠やキャンペーンは週次で順位を一時的に歪めます——Hy3 Preview のような急伸は限免後の実需と投機的試験が混ざります。第三に、入力と出力は合算されるため、長出力 Agent は短チャットより Token 量が膨らみやすく、コーディング Agent ブームと表の見え方は連動します。それでも、同比較(前週比・前年比)の価値は損なわれません。全球 28.9T が +7.4% で五週連続という事実は、単一ベンダーのマーケティングでは再現できないマクロ信号です。

社内ダッシュボードを持つチームには、OpenRouter 週榜を「外部校正源」として月次で取り込むのがおすすめです。自社のモデル別 Token が業界シェアと同方向に動いているか、逆行しているか——逆行なら独自ルーティングが効いているか、単に古い設定が残っているか——を切り分けられます。MACCOME では Gateway 常駐ノードのログと週榜を並べて FinOps レビューする運用例も多く、本篇の八段階はその最小テンプレートです。

データ鮮度の観点では、5月18–24日の窓は「Agent 大量移行が加速した週」として後からも参照価値があります。全球 +7.4% のうち中国 +19.89% が占める比重は、単に地域トレンドではなく、オープンウェイト + 超低単価 API の組み合わせがグローバル開発者のデフォルトになりつつあることを示します。米国側 +16.27% も決して低くはありませんが、相対シェアの観点では守勢です。統計方法を理解したうえで表を読むと、各セルの数字がルーティングポリシーへの具体的示唆に変わります。

再現手順の第一歩は、毎週同じ URL・同じ時刻(UTC または自社タイムゾーンで固定)に Rankings を開き、スクリーンショットと CSV メモを残すことです。第二歩は、自社 Gateway の請求エクスポートと日付範囲を完全一致させることです。この二つが揃えば、モジュール2以降の表と議論がすべて検証可能になります。第三歩として、全球・中国・米国の三行サマリーを自社週次レポートの冒頭に固定掲載すると、経営層向けの一行説明(「今週も中国系が米国の約1.9倍の Token」など)が作りやすくなります。第四歩として、一年前の 2.4T ベースラインを社内 Wiki に貼り、同比 12 倍の文脈を全員が共有すると、「なぜ今 Flash へ移行するのか」の説明コストが下がります。 データ源の透明性が確保されれば、経営層も週榜を信頼して予算判断に使えるようになります。

指標 データ(5/18–5/24) 環比 解読
全球週呼び出し28.9 兆 Token+7.4%五週連続上昇
中国モデル週呼び出し9.223 兆 Token+19.89%四週連続で米国超え
米国モデル週呼び出し4.93 兆 Token+16.27%增速は中国陣営より低い
一年前の週ベース約 2.4 兆同比で約12倍

最新週モデル呼び出し Top 10:DeepSeek-V4-Flash が 3.43T で戴冠

当週のトップ10は明確な階層を示します。極低価格・高スループット(DeepSeek-V4-Flash、Step 3.5 Flash)、限免終了後も高成長(腾讯 Hy3 Preview)、企業向けコーディング主力(Claude Sonnet 4.6)、無料 Agent 特化(Owl Alpha)が同じ表に並びます。単一の「最強モデル」ではなく、用途別の流量奪い合いが週榜の本質です。

DeepSeek-V4-Flash の週間 +66% は、Agent パイプラインとバッチ推論が一気に安いモデルへ移ったシグナルです。一方 Claude Sonnet 4.6 は順位は高いものの環比が横ばいに見える場合、それは「量は伸びているがシェアは Flash に食われている」二層構造の表れかもしれません。Hy3 Preview は限免後も 3.07T を維持し、中国クラウド大手の推論コスト競争が本番トラフィックに波及していることを示唆します。

Top 10 の地理分布も読み解きのポイントです。10席のうち中国系が過半数を占め、米国は Sonnet・Gemini・Grok に集中します。これは「能力の欠如」ではなく、価格帯と用途の適合の結果です。Step 3.5 Flash や MiniMax M2.7 は、百万 Token 単位のバッチや長コンテキスト要約で採用が伸びています。Owl Alpha は無料ですが 1.15T という規模は、実験・学習・非機密 Agent の巨大なベースを示し、有料転換のファネル分析にも使えます。

順位の「空白」も見逃せません。圏外に落ちた Kimi K2.6 は、前週まで Agent 話題の中心でした。週榜が教えるのは、話題性と継続課金は別物だということです。ルーティング表に「Keynote 掲載モデル」欄を設けているチームは、週次でその欄を空にするか、5% 灰度のまま維持するかを週榜に従って決めると、感情バイアスを減らせます。

数値の読み方として、3.43T と 3.07T の差は約11%ですが、単価差を考慮するとドルベースではさらに開きます。つまりトークン首位争いは「同じ予算で誰がより多く回されたか」の競争でもあります。Gemini 3 Flash が 1.06T で多模态シェアを維持している点は、画像・図表パイプラインがまだ Flash 単価帯に完全移行していないことを示し、vision タスクのルーティングは別表で管理する理由にもなります。

Top 10 を週次で追うときは、順位だけでなく「環比列が空欄のモデル」と「+50%超のモデル」を色分けするとトレンドが一目で分かります。前者は成熟安定層、後者は破壊的価格またはキャンペーン層です。自社の bulk キューを後者へ寄せ、critical を前者に残す——この単純なルールでも請求最適化の大半は達成できます。

順位 モデル ベンダー 週 Token 量 環比 特徴
1DeepSeek-V4-FlashDeepSeek(中国)3.43T+66%Agent ワークフロー向け、極低価格
2腾讯 Hy3 PreviewTencent(中国)3.07T+16%限免終了後も高成長
3Claude Sonnet 4.6Anthropic(米国)1.35T百万コンテキスト、企業プログラミング主力
4DeepSeek-V3.2DeepSeek(中国)1.31T低価格ロングテール
5Owl Alpha(匿名)OpenRouter1.15T+29%無料 Agent 特化、百万コンテキスト
6Gemini 3 Flash PreviewGoogle(米国)1.06Tマルチモーダル、学術・医療
7DeepSeek-V4-ProDeepSeek(中国)1.00T系列旗艦(合計 5.74T)
8MiniMax M2.7MiniMax(中国)806B長コンテキストのコスパ
9Grok 4.1 FastxAI(米国)721B2M コンテキスト、法務向け
10Step 3.5 FlashStepFun(中国)673B高速低価格、バッチ処理

注:Kimi K2.6 は前週6位から当週圏外です。DeepSeek 旗下三款が同時に上位に入り、系列週合計 5.74 兆 Token(環比 +25.9%)で Anthropic と Google を二週連続上回り、ベンダー首位となりました。これは単発ヒットではなく、「Flash で量・Pro で質・V3.2 でロングテール」というマトリクス戦略の勝利です。単一 SKU 勝負のベンダーは、週次で順位が入れ替わるたびに PR コストがかかりますが、マトリクス型は内部で流量を再配分できるため、週榜上の安定感が違います。

ベンダー格局:Token 量とドル収入の「二重の真実」

市場を三層のケーキに例えると、構造はすでに固定化しつつあります。

  • 高価値・低流量:Anthropic Claude Opus 系——企業の複雑推論、支払い意欲が高い
  • コスパ・中流量:Google Gemini Flash 系——マルチモーダル、学術用途
  • 極低価格・高流量:DeepSeek / MiniMax / StepFun——Agent、プログラミング、バッチ

中国モデルの台頭も速いです。2025年初の流量占比は2%未満でしたが、2026年2月に初めて米国を上回り、2026年5月には約45%超で四週連続リードしています。しかし Anthropic の「プレミアム逆説」の方が実務選定に効きます——Token シェア約12%(一年前約25%から低下)、ドル収入シェアは約46%。Claude Opus 4.6 の月収は約2500万ドル規模と言われますが、Token 量は DeepSeek の零頭です。企業ユーザーは critical 用途で Claude に高い単価を払い続け、流量の主導権は中国オープン陣営へ移っています。

ルーティング設計への含意は明確です。「安いから全部 DeepSeek」も「評判だから全部 Claude」も請求最適ではありません。週榜はどこに量が流れたかを示し、ドルシェアはどこに利益が残ったかを示します。自社のタスク分布(Agent 比率、平均コンテキスト長、失敗再試行率)と突き合わせたとき初めて、主用・降级の線引きができます。

中国 9.223T と米国 4.93T の剪刀差は、単なる地域ナショナリズムの話ではありません。OpenRouter 上の中国モデルは多くがオープンウェイトまたは極低 API 単価で、グローバルなスタートアップ・個人開発者が利用しています。つまり週榜の「中国シェア」は、国内閉じたエコシステムではなく、世界のコスト敏感トラフィックの指標です。米国モデルは依然として高単価タスクと企業契約でドルを稼いでいますが、Token 量では守りに入っている——この二重構造は 2026 年中盤の常識になりつつあります。

FinOps 担当者向けの実務 tip:週榜の Token シェアをそのまま予算配分に使わないでください。代わりに「Token シェア × 推定単価 = 推定支出シェア」を粗く計算し、Anthropic のドル 46% が自社でも再現するかを見ます。多くのチームでは、支出の過半は依然 Sonnet/Opus に寄り、Token の過半は Flash 系に寄る——このズレこそが健全な階層ルーティングの証拠です。

ベンダー比較表(下表)は週次レビューのスライドにそのまま貼れる粒度でまとめています。DeepSeek マトリクスの強みは「同一 API キーで Flash / Pro / V3.2 を切替えられる」運用柔軟性にあり、Anthropic の強みは「高単価でも離れないユーザーの存在」です。どちらか一方の物語だけを信じると、半年後に必ず請求か品質のどちらかで痛みます。両方の列を並べた表こそ、技術レビューで合意形成に使える資料になります。

「プレミアム逆説」は投資家向けナラティブとしても有効です。Token シェア低下とドルシェア維持は、単価の高い loyal 層が残っている証拠でもあります。開発者視点では、その loyal 層が自社の金融・法務・監査タスクに該当するかを確認し、該当するなら Claude を critical 専用に残す判断が週榜と矛盾しません。該当しないなら、週榜が示す Flash 系への移行を遅らせる理由は薄いです。四週連続で中国が米国を上回っている事実は、一時的キャンペーンでは説明しにくく、ルーティングのデフォルトを「米国旗艦一本」から「階層型」へ改訂するトリガーとして使えます。Google Gemini Flash が中流量層を維持していることも忘れないでください。三層ケーキの中間層はマルチモーダルと学術でまだ米系に余地があり、vision ルートは週榜の別読みが必要です。 二重の真実を理解したうえでの階層ルーティングだけが、請求と品質の両方を満たす現実解になります。

比較軸 DeepSeek マトリクス Anthropic 解読
週 Token 量系列 5.74T、ベンダー #1Sonnet 1.35T 等量の主導権は中国オープン陣営
Token シェア推移急上昇(V4-Flash +66%)約12%、前年比低下高単価モデルからの分流
ドル収入シェア極低単価で金額占比は小約46%高価値タスクは依然プレミアム
典型シナリオAgent、バッチ、コード回帰コンプライアンス推論、金融、複雑レビュー相互完全置換は不可

反直感の発見:ベンチマーク点数と市場シェアはほぼ逆相関

OpenRouter と a16z が共同公開した《2025 AI 使用レポート》は約 100 兆 Tokenの匿名メタデータを分析し、不安な結論を示しました:ベンチマークスコアと実際の市場シェアはほぼ逆相関に近い。理由は複雑ではありません。

  • 開発者は極限能力より推論コストを優先します。output 単価が $30/M から $0.28/M に下がれば、SWE-bench 数ポイントの差は工程で吸収されがちです。
  • Agent ワークフローは単発の限界推論より安定性と API レイテンシに依存します。
  • プログラミングタスク占比は2025年初の約11%から50%超へ——最大の単一用途です。DeepSeek-V4-Flash と Claude Sonnet 4.6 が争うのはまさにこの戦場です。

つまり、週榜首位は「最も賢い」証明ではなく、「最もコスト効率よく大量に回されている」証明に近いです。投資家は OpenRouter の商業化ペース(PS 約26倍)をこのデータで評価し、開発者は主用モデルを選び、研究機関はトレンドを追跡します。トークン呼び出し量はもはや技術指標ではなく、商業戦場の晴雨計です。

a16z 報告が示すプログラミング占比 50% 超は、週榜 Top 10 の顔ぶれとも整合します。DeepSeek-V4-Flash と Sonnet 4.6 の争いは、チャットボット王座争いではなく、コード Agent のデフォルト枠争いです。output 単価が 100 倍違えば、SWE-bench で数ポイント負けても、月百万回のツール呼び出しでは総コストが桁違いになります。ベンチは「その差を埋める価値があるか」を測るもので、「市場が既に選んだか」を測るものではありません。両方の軸を混ぜないことが、週榜活用の第一歩です。

逆説をもう一段深く読むと、高ベンチモデルの市場シェア低下は「劣化」ではなく商品の大衆化の副作用かもしれません。スマートフォンカメラの画質議論が一般ユーザーから消えたように、十分良い推論が安価になれば、開発者はベンチの尾を追わずに出荷します。OpenRouter 週 28.9T は、その「十分良い」ラインがどこにあるかを毎週更新する価格発見メカニズムです。

実装チームへの翻訳:ベンチギャップが 8pp のとき、その差を埋める追加プロンプト・再試行・人間レビューのコストが、単価差 $30/M と $0.28/M の差を上回るかどうかを計算してください。多くの Agent バッチでは上回りません。だから週榜は Flash を頂点に置き、Sonnet は降级先ではなく「品質保険」として残る——この配置が a16z の逆相関と整合します。選定ドキュメントに「ベンチ差分」と「単価差分」の両列を義務付けると、組織的な誤読が減ります。

100 兆 Token 規模の a16z サンプルは、個別スタートアップの体感を上書きする力があります。「うちはまだ Opus 一択」という現場感があっても、マクロではプログラミング過半数・低単価モデル優勢が既に確定しています。週榜はそのマクロを毎週更新する速報版です。ベンチ論争に週単位で終止符を打つことはできませんが、予算会議のデフォルト仮説を「コスト曲線優先」に切り替える根拠としては十分です。OpenRouter 自体の評価倍率が示すように、投資家もすでに「呼び出し量=商用化の先行指標」という読み方に移っており、開発現場だけがベンチ中心のまま残るリスクがあります。週 28.9T という絶対量は、いかなる単一モデルの宣伝よりも「AI 推論のインフラ化」を技術レビューに引用できる硬データです。

info

結論:請求に現れる数字は、どの評測リストより正直です。選定会議では「ベンチ何点か」より「先週何兆トークンがこの単価で流れたか」を先に置くと、議論が現実に着地しやすくなります。 プログラミング占比 50% 超と併記すれば、採用理由の説得力が一段上がります。ベンチ一点勝負から市場投票への視点転換は、本章の中心的メッセージです。 週 28.9T は実験から本番への移行を示すマクロ指標であり、投資家・研究者・本番チームが同じ体温計を共有する時代です。 a16z レポートと週榜を併読すれば、ベンチ至上主義から脱却する組織文化を築けます。 請求データは最も正直なベンチマークです。 開発チームは週榜と自社ログの両方を見るべきです。 ベンチと請求の二軸を分離することが、2026年のモデル選定の最低要件です。 週榜首位は聡明さではなく、最も多く呼ばれた結果です。 投資家も開発者も同じデータを見ています。 この視点転換なしに、2026年のルーティング最適化は議論の域を出ません。

八段階実装:週榜データを実行可能なルーティング戦略へ

以下は macOS / Linux で Gateway を運用し、OpenRouter または直契約 API を持つチーム向けの再現可能な週次 Runbookです。構文詳細はOpenClaw マルチプロバイダールーティングを参照し、本篇は運用リズムと判断基準に集中します。

  1. 週榜リズムを固定する:毎週月曜に OpenRouter Rankings を開き、Top 10 の環比と新規入榜(Hy3 Preview、Owl Alpha などは次の爆款予兆になりやすい)をスプレッドシートに記録します。
  2. 自社請求と突合する:過去7日のゲートウェイ側 Token とドルコストをエクスポートし、OpenRouter のベンダーシェア推移と照合します。乖離がある場合は自社ログを最終口径とします。
  3. シナリオ別バケットルーティング:Agent / バッチ → DeepSeek-V4-Flash;企業複雑推論 → Claude Opus 系;マルチモーダル → Gemini Flash 系(詳細は6月シナリオ選定文)。
  4. 主用 + 降级キューを設定するOpenClaw 多 provider ルーティングを参照し、critical / bulk を別チェーンに書き分けます。
  5. 新規入榜モデルを灰度監視する:Owl Alpha、Hy3 Preview 等に 5% 流量を流し、レイテンシと失敗率を確認してから拡大します。
  6. 二軸 KPI を埋め込む:「百万 Token あたりコスト」と「主用→降级トリガー率」を同時追跡し、安価モデル + 三重リトライで逆に高くなるパターンを検出します。
  7. 四半期でベンダーマトリクスを再評価する:DeepSeek のように単一順位が揺れても系列総量で評価し、ベンダー単位の競争格局を見ます。
  8. Gateway 出口を固定する:7×24 の多モデル層は専用ホストが必要です。ノート PC のスリープは假性降级とログ散逸を招きます(拓扑はSSH 常駐 Gateway Runbook)。

八段階を一巡すれば、「週榜を読んだ」から「週榜に基づきルーティングを変えた」までのギャップが閉じます。特に手順2と6を省略すると、業界トレンドと自社請求の因果が説明できず、四半期の FinOps レビューで詰まりやすいので、テンプレート化することをおすすめします。

再現性のため、週次ミーティングのアジェンダ例を示します。(1)OpenRouter Top 10 スクショと前週差分、(2)自社 Gateway のモデル別 Token・USD、(3)新規入榜モデルの灰度結果、(4)来週のルーティング変更案の承認または保留。これを 30 分で回せるようになると、六つの誤読のうち「時間窓の取り違え」と「Keynote 偏重」は自然に減ります。手順8の Gateway 固定は、レビュー資料のログ欠損を防ぐインフラ要件でもあり、常駐 Runbookとセットで運用してください。

変更管理の原則:週榜で順位が動いたからといって即全量切替しないこと。critical パスはベンチ再検証後、 bulk パスは週榜追随でよい——この二速さを明示すると、SRE と ML チームの合意が取りやすくなります。DeepSeek 系列 +25.9% のような週は、bulk 側を先に寄せ、Sonnet 降级率が上がっていないかだけを監視するのが安全です。

各手順の成果物も定義しておきます。手順1は週次スプレッドシート、手順2は Gateway エクスポート CSV、手順6は Grafana またはスプレッドシート上の二軸 KPI グラフです。これらが揃えば、新メンバーでも同じ解釈で週榜を追えます。手順8でリモート Mac に Gateway を固定する場合、ヘルプセンターのネットワーク・スリープ無効化チェックリストと併用すると、週次ログの欠損率を下げられます。

八段階は一度きりの導入ではなく、毎週回すループです。月曜に Rankings、火曜に自社突合、水曜に灰度判断、木曜にルーティング PR レビュー、金曜に KPI 確定——このリズムをカレンダー招待に固定すると、六モジュールで述べた誤読の多くが運用で自動的に排除されます。再現性の本質は、同じ手順を同じ順序で繰り返すことにあります。四半期ごとに 5月決定マトリクスと突合し、戦略層が陳腐化していないかも確認してください。手順5の灰度 5% は新モデル API 安定性の最小実験単位で、Hy3 や Owl が翌週も Top 10 に残るかは灰度より週榜が先に答えることが多いため、両者をスプレッドシートの隣列に置くと運用が楽になります。 八段階すべてに担当者と期限を割り当てれば、週榜追跡は個人の善意ではなくチームの習慣になります。

技術レビューに書ける三つの硬核データ

  • 12倍の週スループット成長:OpenRouter 全球週処理量は約2.4Tから28.9Tへ(一年内)——推論はパイロットから本番スケールへ移行済みです。
  • プログラミング占比 >50%:a16z × OpenRouter 報告ではコード Agent が過半数——選定は汎用チャット単価ではなく Agent コスト曲線で行うべきです。
  • 中美週量シザー差:中国 9.223T vs 米国 4.93T(5/18–5/24)、中国環比 +19.89% は米国 +16.27% を上回る——「中国モデルデフォルト + 米国モデル critical 保留」が現実的です。

結語:最も賢いのではなく、最も呼ばれている者が王者

市場は金で投票しています。中国オープンモデルは極低コストで全球の呼び出し格局を塗り替えつつあります。Keynote の音量ではなく、毎週28.9兆 Token の請求が王者を定義します。開発者にとって最も実務的な行動は、発表会だけでなく請求を見ることです——OpenRouter は毎週無料更新され、タスク別にモデルを選び、順位変化に応じてルーティングを調整してください。

ただし多モデル Gateway をノート PC や共用機で動かすと、三つの隠れコストが出ます。スリープによる Agent 链路の瞬断、ネットワーク揺らぎによる假性降级、週榜対照用ログの散逸です。7×24 多 provider ルーティング、週榜复盘、安定 Agent 出口が必要な本番では、OpenClaw や自前ゲートウェイを MACCOME Mac mini(M4 / M4 Pro)専用ノードに載せる方が総コストで有利なことが多いです。公開料金はレンタル価格、ルーティング詳細は5月決定マトリクス長文をご覧ください。

よくある質問

OpenRouter 週榜と SWE-bench はどちらが信頼できますか?

二者は異なる問いに答えます。SWE-bench は単発タスク上限、週榜は実 API の Token スループット——開発者の財布投票です。週榜で主用プールを決め、ベンチで critical 品質下限を校正してください。常駐環境はMACCOME レンタル価格の専用ノード案を参照ください。

DeepSeek 週首位は Claude 全面置換の根拠になりますか?

一概にはなりません。DeepSeek-V4-Flash は Agent・バッチを獲得していますが、Anthropic は約12% Token で約46% ドル収入です。critical は Claude、bulk は DeepSeek と階層ルーティングしてください。設定例はOpenClaw ルーティング文にあります。

データは5月24日截止です。6月の変化は大きいですか?

OpenRouter は7日ローリングのため順位は毎週変わります。本篇は請求方法論と5月下旬の硬データに焦点を当て、最新 Top 10 は6月トレンド文をご覧ください。運用面はヘルプセンターへ。