Тренды LLM июнь 2026: рейтинг OpenRouter, шесть сдвигов и выбор моделей под agent-пайплайны

~18 мин чтения · MACCOME

Открываешь OpenRouter Rankings на 4 июня 2026 — DeepSeek V4 Flash ~10.9T tokens, сразу за ним Hy3 Preview, в Top 10 сидят Owl Alpha и Nemotron 3 Super с $0 pricing. Этот пост — не пересказ пресс-релиза, а инженерный разбор для тех, кто крутит multi-provider routing и OpenClaw gateway: 6 market shifts, Top-10 snapshot, capability/price matrices, 6 use-case picks, 8-step runbook + yaml. Дополняет майскую матрицу token×revenue — здесь фокус на трендах и выборе primary/fallback, без полного повтора «ножниц».

Шесть ловушек, если смотреть только на rank #1

  1. Token leader ≠ universal SOTA: V4 Flash доминирует по price×1M×agent throughput — не замена Opus 4.7 в regulated verticals.
  2. Free tier ≠ safe tier: Owl Alpha — stealth model; prompts могут уйти в training loop. PII и secrets — не в бесплатный stealth path.
  3. MMLU в 2026 — legacy metric: смотри SWE-bench Verified, Terminal-Bench 2.0, стабильность tool calls в production logs.
  4. 100K context больше не selling point: Top-10 = 256K–1M; часть RAG-слоев можно схлопнуть в «залить весь repo» — растут gateway logs и disk IO.
  5. Open weights ≠ только on-prem: DeepSeek/Hy3/Kimi/Nemotron — и API, и self-host; явно фиксируй data residency vs agility.
  6. 7×24 agent на laptop + free top model: $0/token не чинит sleep, Wi-Fi jitter и ложные failover metrics.

OpenRouter считает реальные tokens через единый API — ближе к рынку, чем vendor benchmarks. Сдвиги июня vs мая: китайский MoE open source забирает growth, западный closed держит revenue при более медленном token growth, platform/chip free models вошли в Top 10. Ниже — таблицы и тренды, которые можно сразу положить в routing policy.

Для geek-аудитории важно разделить три слоя: ranking signal (что рынок реально вызывает), unit economics ($/M и FLOPs на длинном контексте), ops constraints (429 chains, log volume, host uptime). Ranking без bill и без gateway logs — half picture.

OpenRouter Top 10 — snapshot 4 июня 2026 (token volume)

Цифры из скриншота/страницы OpenRouter + публичные отчеты; growth — как на платформе, перепроверяй live.

#ModelVendorVolumeGrowthOne-liner
1DeepSeek V4 FlashDeepSeek10.9T↑995%1M ctx, ~13B active MoE, insane $/M
2Hy3 PreviewTencent10.7T↑>999%Open MoE, +40% eff, agent coding
3Claude Opus 4.7Anthropic7.48T↑197%Flagship reasoning, vision, long agents
4Claude Sonnet 4.6Anthropic7.45T↑34%Daily driver, free tier, balanced
5Owl AlphaOpenRouter5.03T↑>999%$0, ~1.05M ctx, agent-friendly
6Gemini 3 Flash PreviewGoogle4.6T↑3%Multimodal, SWE-bench ~78%
7DeepSeek V4 ProDeepSeek4.54T↑739%Heavy MoE, hard reasoning
8DeepSeek V3.2DeepSeek4.31T↓14%Legacy, вытесняется V4
9Kimi K2.6Moonshot3.72T↑1%1T MoE, Agent Swarm, long runs
10Nemotron 3 Super (free)NVIDIA2.65T↑3%Free OSS, Mamba hybrid, throughput

Три hard numbers, ломающие cost curve

  • Efficiency: V4 Flash @ 1M — FLOPs ~10% of V3.2, KV cache ~7% (vendor tech note).
  • Agent benches: Gemini 3 Flash ~78% SWE-bench Verified; Hy3 ~74.4% / Terminal-Bench 2.0 54.4%.
  • Throughput: Nemotron 3 Super ~2.2× vs GPT-OSS-120B, ~7.5× vs Qwen3.5-122B — bottleneck смещается на GPU/RAM, не на «достаточно ли умная модель».

Capability matrix + price table = 80% решения

ModelChatCodeLongReasonMMAgent
DeepSeek V4 Flash★★★★★★★★★★★★★★★★★★★★★★★★★
Hy3 Preview★★★★★★★★★★★★★★★★★★★★★★★★
Claude Opus 4.7★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
Claude Sonnet 4.6★★★★★★★★★★★★★★★★★★★★★★★★★★
Owl Alpha★★★★★★★★★★★★★★★★★★★★
Gemini 3 Flash★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
Kimi K2.6★★★★★★★★★★★★★★★★★★★★★★★★★★
Nemotron 3 Super★★★★★★★★★★★★★★★★★★★★★★
ModelIn $/MOut $/MCtxParamsOSS
DeepSeek V4 Flash~0.10~0.401M284B MoEyes
DeepSeek V4 Pro~0.27~1.101M1.6T MoEyes
Hy3 Previewself-hostself-host256K295B MoEyes
Claude Opus 4.75.0025.001M βn/ano
Claude Sonnet 4.63.0015.00200K/1M βn/ano
Owl Alpha001.05Mn/ano
Gemini 3 Flash0.503.001M+n/ano
Kimi K2.6lowlow256K1T MoEyes
Nemotron 3 Super001M120B MoEyes
warning

Price drift: публичные $/M меняются еженедельно. Prod = invoice + gateway logs + budget alerts до того, как 429 на free tier уронит всю agent chain.

Шесть сдвигов рынка (reverse-engineered из ranking)

Shift 1: 1M context — ticket to play

V4, Opus 4.7, Owl, Gemini 3 Flash, Nemotron — все пишут million-token window в base spec. Engineering implication: whole repo / contract pack в один run; RAG упрощается, но gateway обязан scrub secrets и cap retention — иначе 1M window = 1M leak surface.

Shift 2: китайский open source глобализируется

DeepSeek (3 slots), Hy3, Kimi с growth 700–999% — не flash mob, а default route rewrite. Если primary всё ещё «Sonnet 2025», часто платишь 5–10× без выигрыша на agent steps.

Shift 3: agent metrics > chat leaderboard

SWE-bench, Terminal-Bench, tool-call stability. Kimi K2.6 Agent Swarm (~300 sub-agents, ~4000 steps) двигает войну в orchestration layer. Вопрос: chat-heavy или tool-chain-heavy workload?

Shift 4: MoE / hybrid wins Top 10

Sparse activation decouples total params from marginal cost. Nemotron — linear-time hybrid для private factory; V4 Flash — mixed FP4/FP8 на long context. Dense trillion-param без sparsity выпадает из real usage spike.

Shift 5: $0 psychology

Owl + Nemotron free — отличный sandbox, плохой default для prod PII. Enterprise всё равно считает SLA, logging, data path.

Shift 6: multimodal baseline

Gemini (text/image/audio/video/PDF), Opus (hi-res vision). Pure-text models ещё объемны, но проигрывают в procurement checklists на search / design-to-code / ops screenshots.

Шесть сценариев — copy-paste в routing table

ScenarioPrimaryWhy (June data)
Office / summarizeSonnet 4.6 / Gemini 3 FlashStable IF, cheap tiers
Dev copilotV4 Flash / Sonnet 4.61M repo vs quality guardrail
Multi-step agentKimi K2.6 / Hy3 / V4 FlashSWE-bench + Terminal-Bench, OSS weights
Ultra budgetOwl Alpha / Nemotron free$0 API; Owl — no sensitive data
Vision / video / chartsGemini 3 Flash / Opus 4.7Ecosystem vs precision vision
Private high throughputNemotron 3 Super / Hy3 / V4 FlashOSS + Nemotron throughput

8-step runbook: trends → OpenClaw / custom gateway

Prereq: OpenRouter or direct API keys, gateway on macOS/Linux. Syntax/failover: multi-provider checklist. Ниже — policy layer only.

  1. Tag workloads: chat, code, agent-long, vision, bulk — no single-model religion.
  2. Primary + fallback per tag: e.g. code V4 Flash → Sonnet 4.6; vision Gemini 3 Flash → Opus 4.7.
  3. Context caps + redaction even with 1M models.
  4. Isolate free queue: Owl/Nemotron free только для bulk / non-sensitive labs.
  5. 429/timeout chain: order + cooldown — см. gateway troubleshooting runbook.
  6. Weekly ranking vs invoice: token spike + error rate up = wrong «cheap».
  7. OSS backup path: second API or self-host — thresholds: ds4 & 128GB Mac decision.
  8. 7×24 probe: openclaw gateway probe — failover on model down, not laptop sleep.
yaml
# routing intent by task tag (field names vary by gateway version)
routing:
  code:
    primary: deepseek/deepseek-v4-flash
    fallback: [anthropic/claude-sonnet-4.6, google/gemini-3-flash-preview]
  agent-long:
    primary: moonshotai/kimi-k2.6
    fallback: [deepseek/deepseek-v4-pro]
  vision:
    primary: google/gemini-3-flash-preview
    fallback: [anthropic/claude-opus-4.7]
  bulk-experimental:
    primary: openrouter/owl-alpha
    allow_sensitive: false

H2 2026: efficiency, ecosystem, OSS moat

1M + MoE + tool calls = commodity. Moat: cost per agent step, IDE/cloud embed (Cursor/Claude Code vs Workspace vs HF), OSS growth parity with western flagships. Win window для команд с quarterly routing review; lose — если primary застрял в Sonnet-2025 pricing.

Gateway + cron + multi-provider на closing laptop = hidden tax: routing freeze on sleep, 429 cascades on free tiers, 1M logs eating local SSD. Для prod eight-step checklist нужен host без sleep — типично dedicated Mac mini M4/M4 Pro у MACCOME. Topology: SSH gateway runbook; pricing: тарифы аренды Mac Mini; ops: центр помощи.

FAQ

Чем этот пост отличается от OpenRouter-статьи 25 мая?

Май: token×revenue, verticals, decision matrix. Июнь: 6 shifts, 6 scenarios, 8 steps + Hy3/Owl/Nemotron. Читать оба — май для market structure, июнь для model pick и deploy.

Owl Alpha в prod с PII?

Не как default: stealth terms, prompts могут улучшать модель. Prod: paid tier или self-hosted OSS weights, secrets isolated в gateway. Network/perms: центр помощи.

Как часто пересматривать routing?

Минимум раз в квартал; при agent share >50% — monthly coding-agent sampling. После DeepSeek V4 releases — сразу failover regression.