Если вы выбираете модели для multi-provider gateway и сравниваете SWE-bench с презентациями — нужен другой сигнал: OpenRouter за 18–24 мая 2026. ① Глобально 28,9T токенов/нед (+7,4 %, пятый рост подряд); китайские модели 9,223T, четвёртую неделю впереди США. ② DeepSeek-V4-Flash 3,43T; серия 5,74T. ③ Доля токенов vs USD revenue — «двойная правда» Anthropic. ④ Восемь шагов: недельный рейтинг → routing с учётом latency ceiling и failover. Дополняет майскую матрицу и июньский тренд-гайд — здесь только биллинг как термометр, hard data недели, контринтуитив.
Тезис: token throughput — термометр реального adoption; потраченные деньги не врут. Год назад ~2,4T tokens/нед на OpenRouter, сейчас 28,9T — порядка 12×. Это уже scaled inference, не lab demo. Для gateway engineer это значит: p99 latency и failover rate важнее leaderboard MMLU, когда bulk идёт через V4-Flash на пределе rate limit.
Типичный anti-pattern: architecture review фиксирует «Claude по умолчанию», а через месяц FinOps видит, что 65 % трафика могло бы идти через Flash-tier при корректном x-task-tier. Недельный rank даёт аргументы до первого quarterly review — не заменяет load test, но показывает, что рынок реально держит под нагрузкой.
WoW volatility — operational signal: V4-Flash +66 % за неделю, Kimi выпал из top 10. Бенчмарки обновляются квартально; invoice — ежедневно. Для multi-provider gateway наблюдение за delta должно быть в runbook наравне с health probes.
OpenRouter — крупный neutral LLM API aggregator: 300+ models, 60+ vendors. Публичный openrouter.ai/rankings: недельные tokens, model/vendor share, USD revenue vs token share — виден price pressure.
Срез 24 мая 2026 (окно 18–24 мая). Позиции top 10 #1–2 и #5 сверены с публикациями 25 мая; остальное — snapshot OpenRouter и разбор MACCOME. Live — на платформе.
Performance boundary: агрегатор не гарантирует ваш p99 — только aggregate throughput рынка. Сопоставляйте недельный rank с x-provider-used и x-latency-ms в собственных логах; иначе routing оптимизируется под чужой traffic mix.
Triangulation: публичный OpenRouter + пресса 25 мая 2026 + ваш 7-day export из gateway. Расхождение часто означает другой scenario mix — больше compliance на Sonnet, меньше bulk на Flash, чем у медианы платформы. Ground truth для prod — ваши логи, не aggregate leaderboard.
Stealth top-10 (Owl Alpha): высокий throughput не равен prod-ready для sensitive data. Держите в experimental bucket, изолируйте secrets на gateway — иначе free tier станет самым дорогим из-за retry storm на 429.
| Метрика | Значение (18–24.05) | WoW | Интерпретация |
|---|---|---|---|
| Глобально tokens/нед | 28,9 трлн | +7,4% | Пятый рост подряд |
| Китайские модели | 9,223 трлн | +19,89% | Четыре недели впереди США |
| US модели | 4,93 трлн | +16,27% | Рост ниже CN |
| Baseline год назад | ~2,4 трлн | — | ~12× YoY |
Неделя расслаивается: ultra-cheap high throughput (V4-Flash, Step 3.5 Flash), post-free-tier growth (Hy3 Preview), enterprise code (Sonnet 4.6), free agent specialty (Owl Alpha). На 24.05.2026:
| # | Модель | Вендор | Tokens/нед | WoW | Профиль |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek (CN) | 3,43T | +66% | Agent pipelines, floor price |
| 2 | Tencent Hy3 Preview | Tencent (CN) | 3,07T | +16% | Рост после free tier |
| 3 | Claude Sonnet 4.6 | Anthropic (US) | 1,35T | — | 1M context, enterprise code |
| 4 | DeepSeek-V3.2 | DeepSeek (CN) | 1,31T | — | Cheap long tail |
| 5 | Owl Alpha (anon) | OpenRouter | 1,15T | +29% | Free agent, 1M context |
| 6 | Gemini 3 Flash Preview | Google (US) | 1,06T | — | Multimodal |
| 7 | DeepSeek-V4-Pro | DeepSeek (CN) | 1,00T | — | Flagship (серия 5,74T) |
| 8 | MiniMax M2.7 | MiniMax (CN) | 806B | — | Long context / price |
| 9 | Grok 4.1 Fast | xAI (US) | 721B | — | 2M context, legal |
| 10 | Step 3.5 Flash | StepFun (CN) | 673B | — | Fast batch |
Kimi K2.6 был #6, выпал из top 10. Три DeepSeek в первой девятке; серия 5,74T tokens (+25,9 % WoW), вторую неделю #1 vendor — впереди Anthropic и Google. Matrix play: Flash на volume, Pro на quality ceiling, V3.2 на long tail.
Hy3 Preview 3,07T (+16 % WoW после free tier) — не one-off spike. Canary 5 % до full rollout: measure p95/p99 и error budget. Sonnet 4.6 1,35T держит enterprise code layer — million-token context и stable tool XML оправдывают premium на critical path.
Owl Alpha 1,15T — wildcard для R&D; Gemini Flash и Grok 4.1 Fast закрывают multimodal и 2M context без раздувания sticker price на каждый long-doc request.
Три слоя:
CN models: <2 % traffic начало 2025, февраль 2026 обогнали US, май 2026 ~45 %+, четыре недели лидерства. Парадокс Anthropic: ~12 % tokens (год назад ~25 %), ~46 % USD. Opus 4.6 ~$25M/month revenue при token volume на порядки ниже DeepSeek — premium платят, volume у дешёвого сегмента.
На границе performance: дешёвый primary + три retry на 429 часто дороже одного Sonnet call с первого раза — считайте effective $/M с учётом failover, не sticker price.
Парадокс Anthropic не баг, а feature: enterprise платит, где ошибка дороже токена. DeepSeek забирает iteration loops — agent steps, regression, batch summarize. Оба слоя нужны; wholesale swap — architectural mistake.
OpenRouter ~26× PS — сигнал, что aggregators monetize volume growth независимо от weekly winner. Ваш KPI: падает ли $/delivered feature быстрее, чем растёт token inflation? Если нет — ужесточайте tier routing.
| Ось | DeepSeek matrix | Anthropic | Вывод |
|---|---|---|---|
| Tokens/нед | серия 5,74T, vendor #1 | Sonnet 1,35T и др. | Volume у CN OSS |
| Token trend | V4-Flash +66% | ~12 %, снижение | Premium теряет mass |
| USD share | floor price | ~46 % | Critical tasks платят |
| Сценарии | agent, batch, code regression | compliance, finance, review | Не 1:1 swap |
Отчёт OpenRouter × a16z 2025 (~100T tokens metadata): benchmark rank и реальная доля рынка часто коррелируют отрицательно. Почему:
Итог: цифры в invoice честнее любого leaderboard. Token throughput стал economic indicator — от PS multiple OpenRouter (~26×) до weekly routing review.
При code share >50 % pricing по chat-сценарию врёт. 8pp SWE-bench gap съедается, когда output падает с $30/M до $0.28/M и pipeline терпит controlled retries. Метрика для SRE: quality per dollar и quality per wall-clock, не single-shot benchmark.
Явно взвешивайте сигналы: 70 % — 30-day cost trend, 30 % — benchmark floor для critical. Keynotes optimize headlines; invoices optimize margin under your actual load profile.
Шаг 2 блокирует blind copy рынка; шаг 6 — «cheap + triple retry» trap; шаг 8 — sleep tax и scattered logs, убивающие weekly reconcile. Каждый primary swap — запись в routing changelog: через квартал вы скажете спасибо при postmortem после vendor outage.
На dedicated host проще держать centralized logs, key rotation и predictable uptime — prerequisite для честного сравнения weekly rank с вашим x-cost-cents, а не для synthetic failover metrics с closing laptop. Зафиксируйте в runbook минимальный набор полей на каждый request: model id, provider, input/output tokens, latency, fallback depth — без этого weekly reconcile превращается в guesswork.
Эти три цифры удобно класть в slide для engineering leadership без лишней теории. 12× — аргумент, что capacity planning gateway и log retention уже не «на будущее». >50 % code — повод пересмотреть default model pool: если у вас 80 % codegen, а pricing sheet от chat-ассистента, вы систематически переплачиваете. Ножницы CN/US — reminder не ставить single-vendor bet: региональные outage и rate-limit policy меняются быстрее, чем quarterly contract.
Добавьте четвёртую внутреннюю метрику — effective failover rate: доля запросов, дошедших до второго provider в цепочке. Если она растёт синхронно с появлением нового дешёвого лидера в top 10, проблема не в модели, а в capacity или timeout budget. Weekly rank подсказывает кандидата; ваш p99 подтверждает, можно ли его масштабировать.
Рынок голосует кошельком: CN open-weight при floor price перекраивает global volume. Иерархию задают не keynotes, а 28,9T tokens/нед. Прагматика: смотреть invoice, не только пресс-релизы — OpenRouter обновляется еженедельно; routing по task tier и WoW delta. Если у вас уже OpenClaw или self-hosted gateway, встройте weekly review в release train: понедельник — snapshot rank, среда — diff с прошлой неделей, пятница — решение о canary или rollback primary.
Performance boundary на практике: при 1M context agent loop KV cache и serialization latency на gateway host часто упираются раньше model FLOPs. Dedicated host без sleep даёт стабильный baseline для честного WoW-сравнения — иначе вы калибруете routing под шум Wi-Fi ноутбука, а не под поведение provider.
Gateway на laptop = три скрытых tax: sleep рвёт agent chain, jitter раздувает fallback, логи размазаны — weekly review невозможен. Для 7×24 multi-provider, weekly reconcile и stable agent egress типично dedicated MACCOME Mac mini (M4 / M4 Pro) с predictable uptime; тарифы: аренда Mac Mini, матрица: майская статья.
Долгосрочно побеждает не самый громкий keynote, а самый часто вызываемый model под вашей нагрузкой. OpenRouter weekly rank — бесплатный sensor; читайте каждую неделю, reconcile ежемесячно, vendor matrix — ежеквартально. Competitive edge — в alignment billing и routing раньше конкурентов, не в chase каждого release. Это и есть практический смысл фразы «биллинг не врёт»: цифры на счёте переживут любой marketing cycle и любой benchmark leaderboard того же квартала — при условии честного weekly reconcile.
FAQ
Недельный OpenRouter или SWE-bench — что надёжнее?
Разные вопросы. SWE-bench — ceiling single task; недельный rank — real API throughput, wallet vote. Primary pool из rank, quality floor — benchmarks. Dedicated node: тарифы MACCOME.
DeepSeek #1 — полный swap Claude?
Нет. V4-Flash на agent/bulk; Anthropic ~12 % tokens, ~46 % USD. Critical → Claude, bulk → DeepSeek. Config: OpenClaw multi-provider.
Данные до 24 мая — сильно ли меняется июньский rank?
7-day rolling — shuffle каждую неделю. Здесь методология и май hard data; актуальный top 10: тренды июня. Ops: центр помощи.
Как не перепутать throughput rank с quality ceiling?
Rank отвечает на «что рынок массово вызывает»; SWE-bench и ваши regression suites — на «что проходит acceptance». Держите два registry: primary pool из weekly rank для bulk, allowlist premium для tier critical. Меняйте primary не чаще одного раза в неделю без canary — иначе метрики latency станут несравнимыми между неделями. Подробнее про failover chains: OpenClaw multi-provider.