При проектировании мульти-модельной маршрутизации вы смотрите в OpenRouter Rankings и видите, что Kimi K2.6 обошла Claude Sonnet 4.6, китайские модели держат 45 %+ токенов, а Anthropic с 12,3 % токенов забирает 46,3 % выручки. Статья отвечает на четыре вопроса: (1) что это — «доминирование Китая» или «ножницы между токенами и выручкой»; (2) реальная позиция Топ-10 моделей по цене и сценариям; (3) как читать вертикальных лидеров в коде, ролевых играх, праве, медицине/академии и маркетинге; (4) как уложить «основа + резерв» на OpenClaw или собственный шлюз. Текст дополняет OpenClaw multi-provider routing и интеграцию приватных моделей и сосредоточен на связке данные → конкуренция вендоров → маршрутизация.
К 2026 году рынок LLM ушёл от нарратива «единственно лучший» к многополярной маршрутизации и ножницам токены/выручка. Anthropic удерживает высоко-ценные задачи в комплайенсе, финансах и сложных рассуждениях. OpenAI ослабляется на OpenRouter, но силён в ChatGPT и прямых корпоративных контрактах. Google закрывает весь диапазон через Gemini Flash Lite — Pro. xAI закрепляется на Legal. Китайская группа (Xiaomi MiMo, Moonshot Kimi, DeepSeek, Alibaba Qwen, MiniMax, Z.ai GLM, StepFun) объединяет цену в 2,5–8 раз ниже, открытые/open-weight модели и длинные контексты, поглощая код, batch и роуплей структурно. Это базовый контур всех дальнейших решений.
На низком уровне ключевыми факторами производительности остаются распределение нагрузки между GPU и CPU, эффективность Metal на Apple Silicon, пропускная способность токенайзера и оверхеды компиляции цепочек шаблонов. Эти детали проявляются именно тогда, когда маршрутизация переключается между моделями с разной архитектурой и разными движками инференса.
| Связанные статьи MACCOME | Что покрывает этот материал | Что не дублируется |
|---|---|---|
| OpenClaw multi-provider routing и failover | Матрица стратегий по данным рейтинга | Синтаксис provider, 429, поля журналов |
| Приватные модели Ollama / vLLM | Open-weight как путь резерва | Бюджет ресурсов и lifecycle |
| Health-probes и rolling updates шлюза | Связь маршрутизации и доступности шлюза | Параметры Compose / K8s |
| SSH-форвардинг к выделенному Mac | Ценность стабильного хоста для маршрутизации | Детали port forwarding, launchd, autossh |
Каждое решение по маршрутизации опирается на один и тот же массив данных. В таблице ниже собраны публичные данные OpenRouter за апрель–май 2026 по вендорам: недельная доля токенов, доля выручки, взвешенная официальной ценой, и средняя цена за миллион токенов. Все три колонки одновременно различают режимы «много по дешёвке», «мало по дорого» и «рост обеих величин».
| Вендор | Доля токенов | Доля выручки | Средняя цена $/M | Флагман |
|---|---|---|---|---|
| Anthropic | 12,3 % | 46,3 % | $7,95 | Claude Opus 4.7 / Sonnet 4.6 |
| 13,3 % | 7,0 % | $1,12 | Gemini 3 Flash Preview / 3.1 Pro | |
| Xiaomi (CN) | 13,0 % | 9,0 % | $1,47 | MiMo-V2-Pro |
| Alibaba / Qwen (CN) | 12,7 % | 4,6 % | $0,77 | Qwen 3.6 Plus |
| OpenAI | 9,8 % | 24,2 % | $5,25 | GPT-5.5 / GPT-5.4 |
| MiniMax (CN) | 9,5 % | 2,1 % | $0,48 | MiniMax M2.7 / M2.5 |
| DeepSeek (CN) | 6,3 % | 0,9 % | $0,30 | DeepSeek V3.2 / V4 Pro |
| Moonshot AI (CN) | ≈ 5 % | ≈ 2 % | $1,50 | Kimi K2.6 |
| Z.ai / Zhipu (CN) | 5,6 % | — | $0,80–1,20 | GLM-5 / GLM-5 Turbo |
| StepFun (CN) | 5,3 % | — | ≈ $0,50 | Step 3.5 Flash |
Три режима конкуренции видны сразу. (a) Растут и объём, и цена: Anthropic превращает высокий средний прайс в долю выручки. (b) Большой объём при низкой цене: DeepSeek и MiniMax обслуживают batch по $0,30–0,50. (c) Средний коридор: Google и Xiaomi удерживают баланс. OpenAI сохраняет 24,2 % выручки при доле токенов 9,8 % — основной канал у него ChatGPT и прямые контракты.
В терминах маршрутизации: высокооплачиваемые задачи идут к Anthropic и OpenAI, batch — к китайским вендорам, эластичный балансир в середине — Google.
Следующие таблицы дают недельный Топ-10 по токенам и лидеров в пяти вертикалях. Вместе они служат отправной очередью по умолчанию и списком резервов для маршрутизации.
| Место | Модель | Вендор | Токены/нед | Позиционирование |
|---|---|---|---|---|
| 1 | Kimi K2.6 | Moonshot (CN) | 1,36 T | MoE 1T/32B, длинные agent-swarm |
| 2 | Claude Sonnet 4.6 | Anthropic (US) | 1,35 T | 1M контекст, код, enterprise |
| 3 | DeepSeek V3.2 | DeepSeek (CN) | 1,31 T | DSA sparse attention, низкая цена, лидер Roleplay |
| 4 | Claude Opus 4.7 | Anthropic (US) | 1,14 T | Флагман Anthropic, сложные рассуждения |
| 5 | Gemini 3 Flash Preview | Google (US) | 1,06 T | 1M контекст, мультимодальность, медицина/наука |
| 6 | MiniMax M2.7 | MiniMax (CN) | 806 B | Выгодный длинный контекст |
| 7 | Grok 4.1 Fast | xAI (US) | 721 B | 2M контекст, Legal #1 |
| 8 | Claude Opus 4.6 | Anthropic (US) | 699 B | Предыдущий флагман, стабильный резерв |
| 9 | MiniMax M2.5 | MiniMax (CN) | 698 B | Код по выгодной цене, $0,30/$1,20 |
| 10 | Step 3.5 Flash | StepFun (CN) | 673 B | Быстро и дёшево для batch |
| Вертикаль | Лидер | $/M (in/out) | Почему выигрывает |
|---|---|---|---|
| Код | GPT-5.5 / Claude Opus 4.7 | $5/$30; $5/$25 | Топ SWE-bench, для критических задач |
| Roleplay | DeepSeek V3.2 (40,2 %) | ≈ $0,30 | Агрессивная цена и сообщество |
| Legal | Grok 4.1 Fast | Средняя цена | 2M контекста для длинных документов |
| Health/Academia | Gemini 3 Flash Preview | $0,30–$1 | Мультимодальность и граф знаний |
| Marketing | Gemini 2.5 Flash Lite | $0,10/$0,40 | Низкая цена для массовой генерации |
В задачах разработки соотношение цены и качества нелинейно. Таблица располагает основные модели мая 2026 на двух осях: SWE-bench Verified и цена за миллион токенов. Это даёт прозрачное представление о маржинальной стоимости каждого процента точности.
| Модель | SWE-bench Verified | Input $/M | Output $/M | Контекст | Маржинал на 1 % (in/out) |
|---|---|---|---|---|---|
| GPT-5.5 | 88,7 % | $5,00 | $30,00 | 200K | Верхняя планка |
| Claude Opus 4.7 | 87,6 % | $5,00 | $25,00 | 1M | −17 % output |
| Claude Opus 4.6 | 80,8 % | $5,00 | $25,00 | 1M | −7 pp, та же цена |
| Gemini 3.1 Pro | 80,6 % | $2,00 | $12,00 | 1M | −8 pp, экономия 60 % / 60 % |
| DeepSeek V4 Pro (Max) | 80,6 % | $0,435 | $0,87 | 1M | −8 pp, экономия 91 % / 97 % |
| MiniMax M2.5 | 80,2 % | $0,30 | $1,20 | 1M | −8,5 pp, 94 % / 96 % |
| Kimi K2.6 | 80,2 % | $0,75 | $3,50 | 128K | −8,5 pp, 85 % / 88 % |
| GPT-5.4 | 78,2 % | $2,50 | $15,00 | 200K | −10,5 pp, 50 % / 50 % |
| MiMo-V2-Pro | 78,0 % | $1,00 | $3,00 | 1M | −10,7 pp, 80 % / 90 % |
| DeepSeek V4 Flash | ≈ 79 % | $0,14 | $0,28 | 1M | −9,7 pp, 97 % / 99 % |
Как читать границу: переход с GPT-5.5 (88,7 %) на полосу 80 % обходится примерно в 8 п.п. точности, но снижает выходную цену с $30/M до $0,87–$3,50/M, то есть экономит 85–97 %. Это и есть фундамент схемы «основа + резерв»: критические задачи — на премиум-модели, batch и регрессионные пайплайны — на DeepSeek V4 Pro или Kimi K2.6 за десятую часть стоимости.
Таблица распределяет мульти-модельную маршрутизацию по четырём бизнес-приоритетам. Для каждой строки указаны основа, первый резерв, второй резерв и условие срабатывания. Её можно сразу использовать как стартовую конфигурацию OpenRouter, OpenClaw или собственного шлюза.
| Стратегия | Основа | 1-й резерв | 2-й резерв | Триггер |
|---|---|---|---|---|
| Качество (enterprise, финансы, рассуждения) | Claude Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro | Compliance, ключевые решения, длинные цепочки |
| Стоимость (batch, внутренние инструменты) | DeepSeek V4 Pro | MiniMax M2.5 | DeepSeek V4 Flash | Тикеты, резюме, регресс |
| Соответствие (residency, регулятор) | Региональный Gemini / Claude | Региональный Qwen / Kimi | Self-hosted Ollama / vLLM | EU GDPR, регулируемые финансы, государственные данные |
| Длинный контекст (репозитории, отчёты) | Gemini 3.1 Pro (1M) | Grok 4.1 Fast (2M) | Claude Sonnet 4.6 (1M) | Анализ репо, длинные контракты, годовые отчёты |
Стратегии не исключают друг друга: разные сервисы одной команды могут жить на разных строках. Шлюз размечает запросы заголовком x-task-tier и направляет соответствующе. Ассистент разработчика и code review идут по качеству, генерация коммитов, конспекты и внутренний поиск — по стоимости. Резервные очереди срабатывают только на 429, 503 или таймауте.
x-task-tier (critical/standard/bulk/experimental). critical идёт по качеству, bulk — по стоимости, experimental — A/B новых моделей.route и список fallback_models.x-provider-used и x-cost-cents; сверяйтесь ежедневно, иначе «дешёвая модель + 3 повтора» окажется дороже одного премиум-вызова.Во второй половине 2026 года три структурные силы будут перекраивать маршрутизацию. (a) Дно цен ещё может опуститься: DeepSeek V4 Flash довёл input до $0,14/M, Step 3.5 Flash и GLM-5 Turbo тестируют более агрессивные уровни. (b) Окна контекста продолжают расти: Grok 4.1 Fast — 2M, Claude и Gemini — 1M, Kimi — 128K. Перелом для анализа репозиториев и длинных документов находится между 1M и 2M. (c) Граница open vs closed смещается в сторону открытого: open-weight DeepSeek, Qwen и Kimi позволяют корпорациям перемещать нагрузку между OpenRouter и собственной копией. Совместно с майским репортажем CNBC о девятикратной разнице в стоимости давление на IPO-оценки Anthropic и OpenAI будет нарастать.
В операционном плане всё сводится к четырём действиям: тегировать, основной, резерв, обзор. Чтобы это работало 24×7, маршрутизация должна жить в окружении где закрытие ноутбука не отключает критические пути. Это и есть физическая база мульти-модельного роутинга, в нижнем слое определяемая стабильностью токенайзера, расписания CPU/GPU и Metal-конвейера на macOS.
Если шлюз и multi-provider маршрутизация остаются на ноутбуке или общем рабочем месте, вы принимаете три скрытые издержки: разрыв critical-путей в режиме сна, ложные срабатывания резерва из-за локальных сетевых джиттеров и разрозненные логи и токены, мешающие квартальному обзору. Для production-шлюза с 24/7 доступом, маршрутизацией основа + резерв и операциями по тикетам размещение OpenClaw или собственного шлюза на выделенных MACCOME Mac mini (M4 / M4 Pro) и гибких сроках аренды в шести регионах обычно дешевле, чем борьба с резервными очередями на ноутбуке. Тарифы — в гайде по тарифам в регионах; топология — в runbook постоянного SSH-шлюза.
Часто задаваемые вопросы
Означает ли 45 %+ доли китайских моделей, что можно полностью перейти на дешёвые модели?
Нет. 45 % формируются кодом, batch и длинным контекстом, тогда как Anthropic берёт 46,3 % выручки с 12,3 % токенов. Используйте двухконтурный маршрут: critical-пути — Claude Opus 4.7 / GPT-5.5, bulk — Kimi K2.6 или DeepSeek V4 Pro. Топология подробно описана в странице тарифов.
Как проверить надёжность публичных данных OpenRouter?
Триангулируйте три источника: OpenRouter Rankings, независимые анализы (CodeSOTA, digitalapplied) и собственные логи шлюза. Совпадение трёх трендов — пригодно для решений. Расхождение — приоритет за вашими логами. Помощь по onboarding — в центре помощи.
Когда премиум-модели Claude Opus 4.7 и GPT-5.5 остаются незаменимыми?
Три сценария: (1) сложные многошаговые рассуждения и длинные цепочки инструментов, где требуется 87 %+ SWE-bench для стабильного результата с первого раза; (2) корпоративный compliance и финансовый аудит с гарантиями Anthropic и enterprise SLA; (3) мультимодальные сценарии с 1M контекста и структурированной обработкой документов. В этих случаях добавочная стоимость за каждый процент точности меньше суммы «повторы дешёвой модели + переделки инженеров».