Открываешь OpenRouter Rankings на 4 июня 2026 — DeepSeek V4 Flash ~10.9T tokens, сразу за ним Hy3 Preview, в Top 10 сидят Owl Alpha и Nemotron 3 Super с $0 pricing. Этот пост — не пересказ пресс-релиза, а инженерный разбор для тех, кто крутит multi-provider routing и OpenClaw gateway: 6 market shifts, Top-10 snapshot, capability/price matrices, 6 use-case picks, 8-step runbook + yaml. Дополняет майскую матрицу token×revenue — здесь фокус на трендах и выборе primary/fallback, без полного повтора «ножниц».
OpenRouter считает реальные tokens через единый API — ближе к рынку, чем vendor benchmarks. Сдвиги июня vs мая: китайский MoE open source забирает growth, западный closed держит revenue при более медленном token growth, platform/chip free models вошли в Top 10. Ниже — таблицы и тренды, которые можно сразу положить в routing policy.
Для geek-аудитории важно разделить три слоя: ranking signal (что рынок реально вызывает), unit economics ($/M и FLOPs на длинном контексте), ops constraints (429 chains, log volume, host uptime). Ranking без bill и без gateway logs — half picture.
Цифры из скриншота/страницы OpenRouter + публичные отчеты; growth — как на платформе, перепроверяй live.
| # | Model | Vendor | Volume | Growth | One-liner |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 10.9T | ↑995% | 1M ctx, ~13B active MoE, insane $/M |
| 2 | Hy3 Preview | Tencent | 10.7T | ↑>999% | Open MoE, +40% eff, agent coding |
| 3 | Claude Opus 4.7 | Anthropic | 7.48T | ↑197% | Flagship reasoning, vision, long agents |
| 4 | Claude Sonnet 4.6 | Anthropic | 7.45T | ↑34% | Daily driver, free tier, balanced |
| 5 | Owl Alpha | OpenRouter | 5.03T | ↑>999% | $0, ~1.05M ctx, agent-friendly |
| 6 | Gemini 3 Flash Preview | 4.6T | ↑3% | Multimodal, SWE-bench ~78% | |
| 7 | DeepSeek V4 Pro | DeepSeek | 4.54T | ↑739% | Heavy MoE, hard reasoning |
| 8 | DeepSeek V3.2 | DeepSeek | 4.31T | ↓14% | Legacy, вытесняется V4 |
| 9 | Kimi K2.6 | Moonshot | 3.72T | ↑1% | 1T MoE, Agent Swarm, long runs |
| 10 | Nemotron 3 Super (free) | NVIDIA | 2.65T | ↑3% | Free OSS, Mamba hybrid, throughput |
| Model | Chat | Code | Long | Reason | MM | Agent |
|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | — | ★★★★★ |
| Hy3 Preview | ★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | — | ★★★★★ |
| Claude Opus 4.7 | ★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ |
| Claude Sonnet 4.6 | ★★★★★ | ★★★★ | ★★★★★ | ★★★★ | ★★★★ | ★★★★ |
| Owl Alpha | ★★★ | ★★★★ | ★★★★ | ★★★★ | — | ★★★★★ |
| Gemini 3 Flash | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★ | ★★★★★ | ★★★★★ |
| Kimi K2.6 | ★★★★ | ★★★★★ | ★★★★ | ★★★★ | ★★★★ | ★★★★★ |
| Nemotron 3 Super | ★★★★ | ★★★★ | ★★★★★ | ★★★★ | — | ★★★★★ |
| Model | In $/M | Out $/M | Ctx | Params | OSS |
|---|---|---|---|---|---|
| DeepSeek V4 Flash | ~0.10 | ~0.40 | 1M | 284B MoE | yes |
| DeepSeek V4 Pro | ~0.27 | ~1.10 | 1M | 1.6T MoE | yes |
| Hy3 Preview | self-host | self-host | 256K | 295B MoE | yes |
| Claude Opus 4.7 | 5.00 | 25.00 | 1M β | n/a | no |
| Claude Sonnet 4.6 | 3.00 | 15.00 | 200K/1M β | n/a | no |
| Owl Alpha | 0 | 0 | 1.05M | n/a | no |
| Gemini 3 Flash | 0.50 | 3.00 | 1M+ | n/a | no |
| Kimi K2.6 | low | low | 256K | 1T MoE | yes |
| Nemotron 3 Super | 0 | 0 | 1M | 120B MoE | yes |
Price drift: публичные $/M меняются еженедельно. Prod = invoice + gateway logs + budget alerts до того, как 429 на free tier уронит всю agent chain.
V4, Opus 4.7, Owl, Gemini 3 Flash, Nemotron — все пишут million-token window в base spec. Engineering implication: whole repo / contract pack в один run; RAG упрощается, но gateway обязан scrub secrets и cap retention — иначе 1M window = 1M leak surface.
DeepSeek (3 slots), Hy3, Kimi с growth 700–999% — не flash mob, а default route rewrite. Если primary всё ещё «Sonnet 2025», часто платишь 5–10× без выигрыша на agent steps.
SWE-bench, Terminal-Bench, tool-call stability. Kimi K2.6 Agent Swarm (~300 sub-agents, ~4000 steps) двигает войну в orchestration layer. Вопрос: chat-heavy или tool-chain-heavy workload?
Sparse activation decouples total params from marginal cost. Nemotron — linear-time hybrid для private factory; V4 Flash — mixed FP4/FP8 на long context. Dense trillion-param без sparsity выпадает из real usage spike.
Owl + Nemotron free — отличный sandbox, плохой default для prod PII. Enterprise всё равно считает SLA, logging, data path.
Gemini (text/image/audio/video/PDF), Opus (hi-res vision). Pure-text models ещё объемны, но проигрывают в procurement checklists на search / design-to-code / ops screenshots.
| Scenario | Primary | Why (June data) |
|---|---|---|
| Office / summarize | Sonnet 4.6 / Gemini 3 Flash | Stable IF, cheap tiers |
| Dev copilot | V4 Flash / Sonnet 4.6 | 1M repo vs quality guardrail |
| Multi-step agent | Kimi K2.6 / Hy3 / V4 Flash | SWE-bench + Terminal-Bench, OSS weights |
| Ultra budget | Owl Alpha / Nemotron free | $0 API; Owl — no sensitive data |
| Vision / video / charts | Gemini 3 Flash / Opus 4.7 | Ecosystem vs precision vision |
| Private high throughput | Nemotron 3 Super / Hy3 / V4 Flash | OSS + Nemotron throughput |
Prereq: OpenRouter or direct API keys, gateway on macOS/Linux. Syntax/failover: multi-provider checklist. Ниже — policy layer only.
chat, code, agent-long, vision, bulk — no single-model religion.code V4 Flash → Sonnet 4.6; vision Gemini 3 Flash → Opus 4.7.bulk / non-sensitive labs.openclaw gateway probe — failover on model down, not laptop sleep.# routing intent by task tag (field names vary by gateway version)
routing:
code:
primary: deepseek/deepseek-v4-flash
fallback: [anthropic/claude-sonnet-4.6, google/gemini-3-flash-preview]
agent-long:
primary: moonshotai/kimi-k2.6
fallback: [deepseek/deepseek-v4-pro]
vision:
primary: google/gemini-3-flash-preview
fallback: [anthropic/claude-opus-4.7]
bulk-experimental:
primary: openrouter/owl-alpha
allow_sensitive: false
1M + MoE + tool calls = commodity. Moat: cost per agent step, IDE/cloud embed (Cursor/Claude Code vs Workspace vs HF), OSS growth parity with western flagships. Win window для команд с quarterly routing review; lose — если primary застрял в Sonnet-2025 pricing.
Gateway + cron + multi-provider на closing laptop = hidden tax: routing freeze on sleep, 429 cascades on free tiers, 1M logs eating local SSD. Для prod eight-step checklist нужен host без sleep — типично dedicated Mac mini M4/M4 Pro у MACCOME. Topology: SSH gateway runbook; pricing: тарифы аренды Mac Mini; ops: центр помощи.
FAQ
Чем этот пост отличается от OpenRouter-статьи 25 мая?
Май: token×revenue, verticals, decision matrix. Июнь: 6 shifts, 6 scenarios, 8 steps + Hy3/Owl/Nemotron. Читать оба — май для market structure, июнь для model pick и deploy.
Owl Alpha в prod с PII?
Не как default: stealth terms, prompts могут улучшать модель. Prod: paid tier или self-hosted OSS weights, secrets isolated в gateway. Network/perms: центр помощи.
Как часто пересматривать routing?
Минимум раз в квартал; при agent share >50% — monthly coding-agent sampling. После DeepSeek V4 releases — сразу failover regression.