Анализ OpenRouter Rankings 2026: Kimi K2.6 во главе, 45 % китайских моделей и матрица мульти-модельной маршрутизации против Claude / GPT-5 / Gemini

Чтение ≈ 19 минут · MACCOME

При проектировании мульти-модельной маршрутизации вы смотрите в OpenRouter Rankings и видите, что Kimi K2.6 обошла Claude Sonnet 4.6, китайские модели держат 45 %+ токенов, а Anthropic с 12,3 % токенов забирает 46,3 % выручки. Статья отвечает на четыре вопроса: (1) что это — «доминирование Китая» или «ножницы между токенами и выручкой»; (2) реальная позиция Топ-10 моделей по цене и сценариям; (3) как читать вертикальных лидеров в коде, ролевых играх, праве, медицине/академии и маркетинге; (4) как уложить «основа + резерв» на OpenClaw или собственный шлюз. Текст дополняет OpenClaw multi-provider routing и интеграцию приватных моделей и сосредоточен на связке данные → конкуренция вендоров → маршрутизация.

Шесть типичных ошибок чтения OpenRouter

  1. Смотреть только на долю токенов и игнорировать долю выручки. Китайские поставщики держат 45 %+ токенов, но Anthropic один забирает 46,3 % выручки при 12,3 % токенов с усреднённой ценой $7,95/M; OpenAI — 9,8 % токенов и 24,2 % выручки при $5,25/M. Считать долю токенов прямым сигналом миграции значит игнорировать готовность платить за критические задачи.
  2. Считать №1 универсально лучшим. Kimi K2.6 (1,36 трлн токенов в неделю) выигрывает на agent swarm и batch с длинным контекстом; Claude Sonnet 4.6 (1,35 трлн) — на кодировании и интеграции в предприятии. Лидер недели не переносится автоматически на ваш рабочий процесс.
  3. Сводить выбор к одному бенчмарку. На SWE-bench Verified GPT-5.5 — 88,7 %, Claude Opus 4.7 — 87,6 %, Gemini 3.1 Pro и DeepSeek V4 Pro — 80,6 %, Kimi K2.6 — 80,2 %. Разница в одной цифре, но цена варьируется в 5–10 раз. Сортировка по баллу разрушает бюджет.
  4. Распространять вертикальных лидеров на весь стек. DeepSeek V3.2 удерживает 40,2 % в Roleplay, Grok 4.1 Fast — №1 в Legal, Gemini 3 Flash Preview — №1 в Health/Academia, Gemini 2.5 Flash Lite держит Marketing с $0,10/$0,40. Каждый чемпион локален и не транслируется.
  5. Недооценивать структурный сдвиг 18 месяцев. Китайская доля выросла с 1,2 % в октябре 2024 до >10 % в марте 2025, >25 % в Q3 2025, >45 % в апреле 2026 и до 60 %+ в мае 2026 по части источников. Это перестройка рынка, и стратегии маршрутизации обязаны закладывать эластичность на следующие два квартала.
  6. Считать OpenRouter зеркалом всего рынка. OpenRouter показывает трафик разработчиков через сторонний роутер. Главный канал OpenAI — ChatGPT и прямые корпоративные API. Корпоративные решения должны накладывать публичные данные на собственные журналы и прямые контракты.

К 2026 году рынок LLM ушёл от нарратива «единственно лучший» к многополярной маршрутизации и ножницам токены/выручка. Anthropic удерживает высоко-ценные задачи в комплайенсе, финансах и сложных рассуждениях. OpenAI ослабляется на OpenRouter, но силён в ChatGPT и прямых корпоративных контрактах. Google закрывает весь диапазон через Gemini Flash Lite — Pro. xAI закрепляется на Legal. Китайская группа (Xiaomi MiMo, Moonshot Kimi, DeepSeek, Alibaba Qwen, MiniMax, Z.ai GLM, StepFun) объединяет цену в 2,5–8 раз ниже, открытые/open-weight модели и длинные контексты, поглощая код, batch и роуплей структурно. Это базовый контур всех дальнейших решений.

На низком уровне ключевыми факторами производительности остаются распределение нагрузки между GPU и CPU, эффективность Metal на Apple Silicon, пропускная способность токенайзера и оверхеды компиляции цепочек шаблонов. Эти детали проявляются именно тогда, когда маршрутизация переключается между моделями с разной архитектурой и разными движками инференса.

Связанные статьи MACCOMEЧто покрывает этот материалЧто не дублируется
OpenClaw multi-provider routing и failoverМатрица стратегий по данным рейтингаСинтаксис provider, 429, поля журналов
Приватные модели Ollama / vLLMOpen-weight как путь резерваБюджет ресурсов и lifecycle
Health-probes и rolling updates шлюзаСвязь маршрутизации и доступности шлюзаПараметры Compose / K8s
SSH-форвардинг к выделенному MacЦенность стабильного хоста для маршрутизацииДетали port forwarding, launchd, autossh

База данных: токены, выручка и средняя цена в трёх ракурсах

Каждое решение по маршрутизации опирается на один и тот же массив данных. В таблице ниже собраны публичные данные OpenRouter за апрель–май 2026 по вендорам: недельная доля токенов, доля выручки, взвешенная официальной ценой, и средняя цена за миллион токенов. Все три колонки одновременно различают режимы «много по дешёвке», «мало по дорого» и «рост обеих величин».

ВендорДоля токеновДоля выручкиСредняя цена $/MФлагман
Anthropic12,3 %46,3 %$7,95Claude Opus 4.7 / Sonnet 4.6
Google13,3 %7,0 %$1,12Gemini 3 Flash Preview / 3.1 Pro
Xiaomi (CN)13,0 %9,0 %$1,47MiMo-V2-Pro
Alibaba / Qwen (CN)12,7 %4,6 %$0,77Qwen 3.6 Plus
OpenAI9,8 %24,2 %$5,25GPT-5.5 / GPT-5.4
MiniMax (CN)9,5 %2,1 %$0,48MiniMax M2.7 / M2.5
DeepSeek (CN)6,3 %0,9 %$0,30DeepSeek V3.2 / V4 Pro
Moonshot AI (CN)≈ 5 %≈ 2 %$1,50Kimi K2.6
Z.ai / Zhipu (CN)5,6 %$0,80–1,20GLM-5 / GLM-5 Turbo
StepFun (CN)5,3 %≈ $0,50Step 3.5 Flash

Три режима конкуренции видны сразу. (a) Растут и объём, и цена: Anthropic превращает высокий средний прайс в долю выручки. (b) Большой объём при низкой цене: DeepSeek и MiniMax обслуживают batch по $0,30–0,50. (c) Средний коридор: Google и Xiaomi удерживают баланс. OpenAI сохраняет 24,2 % выручки при доле токенов 9,8 % — основной канал у него ChatGPT и прямые контракты.

В терминах маршрутизации: высокооплачиваемые задачи идут к Anthropic и OpenAI, batch — к китайским вендорам, эластичный балансир в середине — Google.

Топ-10 моделей и вертикальные лидеры одним взглядом

Следующие таблицы дают недельный Топ-10 по токенам и лидеров в пяти вертикалях. Вместе они служат отправной очередью по умолчанию и списком резервов для маршрутизации.

МестоМодельВендорТокены/недПозиционирование
1Kimi K2.6Moonshot (CN)1,36 TMoE 1T/32B, длинные agent-swarm
2Claude Sonnet 4.6Anthropic (US)1,35 T1M контекст, код, enterprise
3DeepSeek V3.2DeepSeek (CN)1,31 TDSA sparse attention, низкая цена, лидер Roleplay
4Claude Opus 4.7Anthropic (US)1,14 TФлагман Anthropic, сложные рассуждения
5Gemini 3 Flash PreviewGoogle (US)1,06 T1M контекст, мультимодальность, медицина/наука
6MiniMax M2.7MiniMax (CN)806 BВыгодный длинный контекст
7Grok 4.1 FastxAI (US)721 B2M контекст, Legal #1
8Claude Opus 4.6Anthropic (US)699 BПредыдущий флагман, стабильный резерв
9MiniMax M2.5MiniMax (CN)698 BКод по выгодной цене, $0,30/$1,20
10Step 3.5 FlashStepFun (CN)673 BБыстро и дёшево для batch
ВертикальЛидер$/M (in/out)Почему выигрывает
КодGPT-5.5 / Claude Opus 4.7$5/$30; $5/$25Топ SWE-bench, для критических задач
RoleplayDeepSeek V3.2 (40,2 %)≈ $0,30Агрессивная цена и сообщество
LegalGrok 4.1 FastСредняя цена2M контекста для длинных документов
Health/AcademiaGemini 3 Flash Preview$0,30–$1Мультимодальность и граф знаний
MarketingGemini 2.5 Flash Lite$0,10/$0,40Низкая цена для массовой генерации

Граница цена-производительность: SWE-bench × $/M токенов

В задачах разработки соотношение цены и качества нелинейно. Таблица располагает основные модели мая 2026 на двух осях: SWE-bench Verified и цена за миллион токенов. Это даёт прозрачное представление о маржинальной стоимости каждого процента точности.

МодельSWE-bench VerifiedInput $/MOutput $/MКонтекстМаржинал на 1 % (in/out)
GPT-5.588,7 %$5,00$30,00200KВерхняя планка
Claude Opus 4.787,6 %$5,00$25,001M−17 % output
Claude Opus 4.680,8 %$5,00$25,001M−7 pp, та же цена
Gemini 3.1 Pro80,6 %$2,00$12,001M−8 pp, экономия 60 % / 60 %
DeepSeek V4 Pro (Max)80,6 %$0,435$0,871M−8 pp, экономия 91 % / 97 %
MiniMax M2.580,2 %$0,30$1,201M−8,5 pp, 94 % / 96 %
Kimi K2.680,2 %$0,75$3,50128K−8,5 pp, 85 % / 88 %
GPT-5.478,2 %$2,50$15,00200K−10,5 pp, 50 % / 50 %
MiMo-V2-Pro78,0 %$1,00$3,001M−10,7 pp, 80 % / 90 %
DeepSeek V4 Flash≈ 79 %$0,14$0,281M−9,7 pp, 97 % / 99 %
info

Как читать границу: переход с GPT-5.5 (88,7 %) на полосу 80 % обходится примерно в 8 п.п. точности, но снижает выходную цену с $30/M до $0,87–$3,50/M, то есть экономит 85–97 %. Это и есть фундамент схемы «основа + резерв»: критические задачи — на премиум-модели, batch и регрессионные пайплайны — на DeepSeek V4 Pro или Kimi K2.6 за десятую часть стоимости.

Четыре стратегии маршрутизации: основа и резерв на любой workload

Таблица распределяет мульти-модельную маршрутизацию по четырём бизнес-приоритетам. Для каждой строки указаны основа, первый резерв, второй резерв и условие срабатывания. Её можно сразу использовать как стартовую конфигурацию OpenRouter, OpenClaw или собственного шлюза.

СтратегияОснова1-й резерв2-й резервТриггер
Качество (enterprise, финансы, рассуждения)Claude Opus 4.7GPT-5.5Gemini 3.1 ProCompliance, ключевые решения, длинные цепочки
Стоимость (batch, внутренние инструменты)DeepSeek V4 ProMiniMax M2.5DeepSeek V4 FlashТикеты, резюме, регресс
Соответствие (residency, регулятор)Региональный Gemini / ClaudeРегиональный Qwen / KimiSelf-hosted Ollama / vLLMEU GDPR, регулируемые финансы, государственные данные
Длинный контекст (репозитории, отчёты)Gemini 3.1 Pro (1M)Grok 4.1 Fast (2M)Claude Sonnet 4.6 (1M)Анализ репо, длинные контракты, годовые отчёты

Стратегии не исключают друг друга: разные сервисы одной команды могут жить на разных строках. Шлюз размечает запросы заголовком x-task-tier и направляет соответствующе. Ассистент разработчика и code review идут по качеству, генерация коммитов, конспекты и внутренний поиск — по стоимости. Резервные очереди срабатывают только на 429, 503 или таймауте.

Шесть шагов внедрения multi-provider маршрутизации

  1. Профилируйте трафик. Экспортируйте токены prompt/response, среднюю длину контекста и сервисные баскеты за 30 дней. Чаще всего реально ценны лишь 10–20 % токенов.
  2. Размечайте каждый запрос. Добавьте заголовок x-task-tier (critical/standard/bulk/experimental). critical идёт по качеству, bulk — по стоимости, experimental — A/B новых моделей.
  3. Конфигурируйте провайдеров и резервы. Используйте YAML-шаблон из OpenClaw multi-provider routing. На OpenRouter применяйте поле route и список fallback_models.
  4. Инструментируйте стоимость. Пишите ответные заголовки x-provider-used и x-cost-cents; сверяйтесь ежедневно, иначе «дешёвая модель + 3 повтора» окажется дороже одного премиум-вызова.
  5. Тренируйте плохой путь. Регулярно вбрасывайте 429, 502 и таймауты. Совместно с health-probes шлюза убедитесь, что сбой одного провайдера не валит весь шлюз.
  6. Ежеквартальный обзор. Сводите квартальные тренды OpenRouter Rankings (китайская доля, цены, новые релизы) с собственными 30-дневными логами в одной встрече и принимайте решение о смене основной модели. Это и есть превращение публичных данных в действия.

Три метрики уровня OKR

  • Смешанная цена за миллион токенов по тиру. critical — $5–10/M output; bulk — $0,5–2/M output. Квартал к кварталу — снижение не менее 15 %, иначе стратегия осталась на бумаге.
  • Доля срабатываний резерва. Основа → 1-й резерв — менее 5 %. Свыше 10 % — недостаточная квота основного провайдера или его нестабильность; перевешивайте через очередь резервов.
  • Концентрация на одном провайдере. Доля одного провайдера — менее 60 % токенов. Свыше — региональная авария (например, 1,5 ч простоя в апреле 2026) валит всё. Принцип совпадает с «равная цена в нескольких регионах» для Mac-узлов и описан в матрице равной цены по регионам.

Прогноз и завершение: 45 % — не предел

Во второй половине 2026 года три структурные силы будут перекраивать маршрутизацию. (a) Дно цен ещё может опуститься: DeepSeek V4 Flash довёл input до $0,14/M, Step 3.5 Flash и GLM-5 Turbo тестируют более агрессивные уровни. (b) Окна контекста продолжают расти: Grok 4.1 Fast — 2M, Claude и Gemini — 1M, Kimi — 128K. Перелом для анализа репозиториев и длинных документов находится между 1M и 2M. (c) Граница open vs closed смещается в сторону открытого: open-weight DeepSeek, Qwen и Kimi позволяют корпорациям перемещать нагрузку между OpenRouter и собственной копией. Совместно с майским репортажем CNBC о девятикратной разнице в стоимости давление на IPO-оценки Anthropic и OpenAI будет нарастать.

В операционном плане всё сводится к четырём действиям: тегировать, основной, резерв, обзор. Чтобы это работало 24×7, маршрутизация должна жить в окружении где закрытие ноутбука не отключает критические пути. Это и есть физическая база мульти-модельного роутинга, в нижнем слое определяемая стабильностью токенайзера, расписания CPU/GPU и Metal-конвейера на macOS.

Если шлюз и multi-provider маршрутизация остаются на ноутбуке или общем рабочем месте, вы принимаете три скрытые издержки: разрыв critical-путей в режиме сна, ложные срабатывания резерва из-за локальных сетевых джиттеров и разрозненные логи и токены, мешающие квартальному обзору. Для production-шлюза с 24/7 доступом, маршрутизацией основа + резерв и операциями по тикетам размещение OpenClaw или собственного шлюза на выделенных MACCOME Mac mini (M4 / M4 Pro) и гибких сроках аренды в шести регионах обычно дешевле, чем борьба с резервными очередями на ноутбуке. Тарифы — в гайде по тарифам в регионах; топология — в runbook постоянного SSH-шлюза.

Часто задаваемые вопросы

Означает ли 45 %+ доли китайских моделей, что можно полностью перейти на дешёвые модели?

Нет. 45 % формируются кодом, batch и длинным контекстом, тогда как Anthropic берёт 46,3 % выручки с 12,3 % токенов. Используйте двухконтурный маршрут: critical-пути — Claude Opus 4.7 / GPT-5.5, bulk — Kimi K2.6 или DeepSeek V4 Pro. Топология подробно описана в странице тарифов.

Как проверить надёжность публичных данных OpenRouter?

Триангулируйте три источника: OpenRouter Rankings, независимые анализы (CodeSOTA, digitalapplied) и собственные логи шлюза. Совпадение трёх трендов — пригодно для решений. Расхождение — приоритет за вашими логами. Помощь по onboarding — в центре помощи.

Когда премиум-модели Claude Opus 4.7 и GPT-5.5 остаются незаменимыми?

Три сценария: (1) сложные многошаговые рассуждения и длинные цепочки инструментов, где требуется 87 %+ SWE-bench для стабильного результата с первого раза; (2) корпоративный compliance и финансовый аудит с гарантиями Anthropic и enterprise SLA; (3) мультимодальные сценарии с 1M контекста и структурированной обработкой документов. В этих случаях добавочная стоимость за каждый процент точности меньше суммы «повторы дешёвой модели + переделки инженеров».