Недельный рейтинг OpenRouter или SWE-bench — что надёжнее?

Разные вопросы. SWE-bench — потолок на одной задаче; недельный рейтинг — реальный API throughput за семь дней. Пул primary из рейтинга, quality floor для critical — из бенчмарков.

DeepSeek на первом месте — можно полностью заменить Claude?

Нет. DeepSeek-V4-Flash забирает agent/bulk по минимальной цене, но Anthropic держит около 12 процентов токенов при около 46 процентах USD revenue. Маршрутизируйте по task tier, а не wholesale swap.

Еженедельный рейтинг OpenRouter май 2026: биллинг не врёт

Около 18 мин чтения · MACCOME

Если вы выбираете модели для multi-provider gateway и сравниваете SWE-bench с презентациями — нужен другой сигнал: OpenRouter за 18–24 мая 2026. ① Глобально 28,9T токенов/нед (+7,4 %, пятый рост подряд); китайские модели 9,223T, четвёртую неделю впереди США. ② DeepSeek-V4-Flash 3,43T; серия 5,74T. ③ Доля токенов vs USD revenue — «двойная правда» Anthropic. ④ Восемь шагов: недельный рейтинг → routing с учётом latency ceiling и failover. Дополняет майскую матрицу и июньский тренд-гайд — здесь только биллинг как термометр, hard data недели, контринтуитив.

Шесть ловушек: смотреть рейтинги, игнорируя биллинг

SWE-bench #1 как production default: бенч — потолок на single-shot task; недельный OpenRouter — реальные API spend за 7 дней. Разные метрики.
Игнор 7-day rolling window: ранжирование по недельному throughput (input + output), не daily/monthly. Неверное окно спутает free-tier spike с трендом.
Только rank модели, не vendor matrix: три DeepSeek в top 10, серия 5,74T — single-model rank недооценивает matrix vendors.
Token share = revenue share: Anthropic ~12 % токенов, ~46 % USD; DeepSeek — объём при floor price. Volume alone врёт про monetization.
Keynote narrative vs WoW delta: Kimi K2.6 был #6, выпал из top 10 — недельный delta честнее сцены.
OpenRouter = весь рынок: 300+ models, 8M+ users, ~100T tokens/month — но в основном dev traffic через third-party routing; ChatGPT subscription и enterprise direct API вне выборки.

Тезис: token throughput — термометр реального adoption; потраченные деньги не врут. Год назад ~2,4T tokens/нед на OpenRouter, сейчас 28,9T — порядка 12×. Это уже scaled inference, не lab demo. Для gateway engineer это значит: p99 latency и failover rate важнее leaderboard MMLU, когда bulk идёт через V4-Flash на пределе rate limit.

Типичный anti-pattern: architecture review фиксирует «Claude по умолчанию», а через месяц FinOps видит, что 65 % трафика могло бы идти через Flash-tier при корректном x-task-tier. Недельный rank даёт аргументы до первого quarterly review — не заменяет load test, но показывает, что рынок реально держит под нагрузкой.

WoW volatility — operational signal: V4-Flash +66 % за неделю, Kimi выпал из top 10. Бенчмарки обновляются квартально; invoice — ежедневно. Для multi-provider gateway наблюдение за delta должно быть в runbook наравне с health probes.

Источник и методика: почему OpenRouter — рабочий термометр

OpenRouter — крупный neutral LLM API aggregator: 300+ models, 60+ vendors. Публичный openrouter.ai/rankings: недельные tokens, model/vendor share, USD revenue vs token share — виден price pressure.

Срез 24 мая 2026 (окно 18–24 мая). Позиции top 10 #1–2 и #5 сверены с публикациями 25 мая; остальное — snapshot OpenRouter и разбор MACCOME. Live — на платформе.

Performance boundary: агрегатор не гарантирует ваш p99 — только aggregate throughput рынка. Сопоставляйте недельный rank с x-provider-used и x-latency-ms в собственных логах; иначе routing оптимизируется под чужой traffic mix.

Triangulation: публичный OpenRouter + пресса 25 мая 2026 + ваш 7-day export из gateway. Расхождение часто означает другой scenario mix — больше compliance на Sonnet, меньше bulk на Flash, чем у медианы платформы. Ground truth для prod — ваши логи, не aggregate leaderboard.

Stealth top-10 (Owl Alpha): высокий throughput не равен prod-ready для sensitive data. Держите в experimental bucket, изолируйте secrets на gateway — иначе free tier станет самым дорогим из-за retry storm на 429.

Метрика	Значение (18–24.05)	WoW	Интерпретация
Глобально tokens/нед	28,9 трлн	+7,4%	Пятый рост подряд
Китайские модели	9,223 трлн	+19,89%	Четыре недели впереди США
US модели	4,93 трлн	+16,27%	Рост ниже CN
Baseline год назад	~2,4 трлн	—	~12× YoY

Top 10 моделей: DeepSeek-V4-Flash 3,43T

Неделя расслаивается: ultra-cheap high throughput (V4-Flash, Step 3.5 Flash), post-free-tier growth (Hy3 Preview), enterprise code (Sonnet 4.6), free agent specialty (Owl Alpha). На 24.05.2026:

#	Модель	Вендор	Tokens/нед	WoW	Профиль
1	DeepSeek-V4-Flash	DeepSeek (CN)	3,43T	+66%	Agent pipelines, floor price
2	Tencent Hy3 Preview	Tencent (CN)	3,07T	+16%	Рост после free tier
3	Claude Sonnet 4.6	Anthropic (US)	1,35T	—	1M context, enterprise code
4	DeepSeek-V3.2	DeepSeek (CN)	1,31T	—	Cheap long tail
5	Owl Alpha (anon)	OpenRouter	1,15T	+29%	Free agent, 1M context
6	Gemini 3 Flash Preview	Google (US)	1,06T	—	Multimodal
7	DeepSeek-V4-Pro	DeepSeek (CN)	1,00T	—	Flagship (серия 5,74T)
8	MiniMax M2.7	MiniMax (CN)	806B	—	Long context / price
9	Grok 4.1 Fast	xAI (US)	721B	—	2M context, legal
10	Step 3.5 Flash	StepFun (CN)	673B	—	Fast batch

Kimi K2.6 был #6, выпал из top 10. Три DeepSeek в первой девятке; серия 5,74T tokens (+25,9 % WoW), вторую неделю #1 vendor — впереди Anthropic и Google. Matrix play: Flash на volume, Pro на quality ceiling, V3.2 на long tail.

Hy3 Preview 3,07T (+16 % WoW после free tier) — не one-off spike. Canary 5 % до full rollout: measure p95/p99 и error budget. Sonnet 4.6 1,35T держит enterprise code layer — million-token context и stable tool XML оправдывают premium на critical path.

Owl Alpha 1,15T — wildcard для R&D; Gemini Flash и Grok 4.1 Fast закрывают multimodal и 2M context без раздувания sticker price на каждый long-doc request.

Вендоры: двойная правда tokens vs USD

Три слоя:

High value / low volume: Claude Opus — complex reasoning, платёжеспособный enterprise
Mid: Gemini Flash — multimodal, research
Floor price / high volume: DeepSeek, MiniMax, StepFun — agent, code, batch

CN models: <2 % traffic начало 2025, февраль 2026 обогнали US, май 2026 ~45 %+, четыре недели лидерства. Парадокс Anthropic: ~12 % tokens (год назад ~25 %), ~46 % USD. Opus 4.6 ~$25M/month revenue при token volume на порядки ниже DeepSeek — premium платят, volume у дешёвого сегмента.

На границе performance: дешёвый primary + три retry на 429 часто дороже одного Sonnet call с первого раза — считайте effective $/M с учётом failover, не sticker price.

Парадокс Anthropic не баг, а feature: enterprise платит, где ошибка дороже токена. DeepSeek забирает iteration loops — agent steps, regression, batch summarize. Оба слоя нужны; wholesale swap — architectural mistake.

OpenRouter ~26× PS — сигнал, что aggregators monetize volume growth независимо от weekly winner. Ваш KPI: падает ли $/delivered feature быстрее, чем растёт token inflation? Если нет — ужесточайте tier routing.

Ось	DeepSeek matrix	Anthropic	Вывод
Tokens/нед	серия 5,74T, vendor #1	Sonnet 1,35T и др.	Volume у CN OSS
Token trend	V4-Flash +66%	~12 %, снижение	Premium теряет mass
USD share	floor price	~46 %	Critical tasks платят
Сценарии	agent, batch, code regression	compliance, finance, review	Не 1:1 swap

Контринтуитив: benchmark score и market share почти инвертированы

Отчёт OpenRouter × a16z 2025 (~100T tokens metadata): benchmark rank и реальная доля рынка часто коррелируют отрицательно. Почему:

Инженеры оптимизируют inference cost — с $30/M output до $0.28/M gap SWE-bench 8pp часто съедается pipeline.
Agent loops упираются в stable tool calls и tail latency, не в single-shot max reasoning.
Code share с ~11 % (нач. 2025) до >50 % — главный battlefield V4-Flash vs Sonnet 4.6; KV cache и context length бьют по memory bandwidth на gateway host.

info

Итог: цифры в invoice честнее любого leaderboard. Token throughput стал economic indicator — от PS multiple OpenRouter (~26×) до weekly routing review.

При code share >50 % pricing по chat-сценарию врёт. 8pp SWE-bench gap съедается, когда output падает с $30/M до $0.28/M и pipeline терпит controlled retries. Метрика для SRE: quality per dollar и quality per wall-clock, не single-shot benchmark.

Явно взвешивайте сигналы: 70 % — 30-day cost trend, 30 % — benchmark floor для critical. Keynotes optimize headlines; invoices optimize margin under your actual load profile.

Восемь шагов: недельный rank → executable routing

Weekly cadence: понедельник — OpenRouter Rankings, WoW top 10, newcomers (Hy3, Owl).
Mirror billing: export gateway tokens + USD за 7 дней; расхождение — побеждают ваши логи.
Scenario buckets: agent/batch → V4-Flash; complex reasoning → Opus; multimodal → Gemini — июньский гайд.
Primary + fallback chain: OpenClaw multi-provider, critical vs bulk tiers.
5 % canary на новых top-10 — measure p95/p99 и error rate до full rollout.
Dual KPI: $/M tokens и primary→fallback rate; три retry на cheap tier — hidden cost.
Quarterly vendor matrix: сумма серии, не single-model rank.
Pinned gateway host: 7×24 без laptop sleep — SSH gateway runbook.

Шаг 2 блокирует blind copy рынка; шаг 6 — «cheap + triple retry» trap; шаг 8 — sleep tax и scattered logs, убивающие weekly reconcile. Каждый primary swap — запись в routing changelog: через квартал вы скажете спасибо при postmortem после vendor outage.

На dedicated host проще держать centralized logs, key rotation и predictable uptime — prerequisite для честного сравнения weekly rank с вашим x-cost-cents, а не для synthetic failover metrics с closing laptop. Зафиксируйте в runbook минимальный набор полей на каждый request: model id, provider, input/output tokens, latency, fallback depth — без этого weekly reconcile превращается в guesswork.

Три hard numbers для architecture review

12× weekly throughput: 2,4T → 28,9T за год — inference в prod.
Code >50 %: a16z × OpenRouter — ценообразование под code agent, не chat.
CN vs US: 9,223T vs 4,93T; +19,89 % vs +16,27 % — CN default bulk, US critical reserve.

Эти три цифры удобно класть в slide для engineering leadership без лишней теории. 12× — аргумент, что capacity planning gateway и log retention уже не «на будущее». >50 % code — повод пересмотреть default model pool: если у вас 80 % codegen, а pricing sheet от chat-ассистента, вы систематически переплачиваете. Ножницы CN/US — reminder не ставить single-vendor bet: региональные outage и rate-limit policy меняются быстрее, чем quarterly contract.

Добавьте четвёртую внутреннюю метрику — effective failover rate: доля запросов, дошедших до второго provider в цепочке. Если она растёт синхронно с появлением нового дешёвого лидера в top 10, проблема не в модели, а в capacity или timeout budget. Weekly rank подсказывает кандидата; ваш p99 подтверждает, можно ли его масштабировать.

Итог: не кто умнее в слайдах, а кого чаще вызывают

Рынок голосует кошельком: CN open-weight при floor price перекраивает global volume. Иерархию задают не keynotes, а 28,9T tokens/нед. Прагматика: смотреть invoice, не только пресс-релизы — OpenRouter обновляется еженедельно; routing по task tier и WoW delta. Если у вас уже OpenClaw или self-hosted gateway, встройте weekly review в release train: понедельник — snapshot rank, среда — diff с прошлой неделей, пятница — решение о canary или rollback primary.

Performance boundary на практике: при 1M context agent loop KV cache и serialization latency на gateway host часто упираются раньше model FLOPs. Dedicated host без sleep даёт стабильный baseline для честного WoW-сравнения — иначе вы калибруете routing под шум Wi-Fi ноутбука, а не под поведение provider.

Gateway на laptop = три скрытых tax: sleep рвёт agent chain, jitter раздувает fallback, логи размазаны — weekly review невозможен. Для 7×24 multi-provider, weekly reconcile и stable agent egress типично dedicated MACCOME Mac mini (M4 / M4 Pro) с predictable uptime; тарифы: аренда Mac Mini, матрица: майская статья.

Долгосрочно побеждает не самый громкий keynote, а самый часто вызываемый model под вашей нагрузкой. OpenRouter weekly rank — бесплатный sensor; читайте каждую неделю, reconcile ежемесячно, vendor matrix — ежеквартально. Competitive edge — в alignment billing и routing раньше конкурентов, не в chase каждого release. Это и есть практический смысл фразы «биллинг не врёт»: цифры на счёте переживут любой marketing cycle и любой benchmark leaderboard того же квартала — при условии честного weekly reconcile.

FAQ

Недельный OpenRouter или SWE-bench — что надёжнее?

Разные вопросы. SWE-bench — ceiling single task; недельный rank — real API throughput, wallet vote. Primary pool из rank, quality floor — benchmarks. Dedicated node: тарифы MACCOME.

DeepSeek #1 — полный swap Claude?

Нет. V4-Flash на agent/bulk; Anthropic ~12 % tokens, ~46 % USD. Critical → Claude, bulk → DeepSeek. Config: OpenClaw multi-provider.

Данные до 24 мая — сильно ли меняется июньский rank?

7-day rolling — shuffle каждую неделю. Здесь методология и май hard data; актуальный top 10: тренды июня. Ops: центр помощи.

Как не перепутать throughput rank с quality ceiling?

Rank отвечает на «что рынок массово вызывает»; SWE-bench и ваши regression suites — на «что проходит acceptance». Держите два registry: primary pool из weekly rank для bulk, allowlist premium для tier critical. Меняйте primary не чаще одного раза в неделю без canary — иначе метрики latency станут несравнимыми между неделями. Подробнее про failover chains: OpenClaw multi-provider.

Еженедельный рейтинг OpenRouter май 2026: биллинг не врёт — кто реальный лидер?

Шесть ловушек: смотреть рейтинги, игнорируя биллинг

Источник и методика: почему OpenRouter — рабочий термометр

Top 10 моделей: DeepSeek-V4-Flash 3,43T

Вендоры: двойная правда tokens vs USD

Контринтуитив: benchmark score и market share почти инвертированы

Восемь шагов: недельный rank → executable routing

Три hard numbers для architecture review

Итог: не кто умнее в слайдах, а кого чаще вызывают