En ouvrant le classement OpenRouter au 4 juin 2026, on voit DeepSeek V4 Flash franchir environ 10,9 billions de tokens, Hy3 Preview (Tencent) juste derriere, et deux offres a 0 $ — Owl Alpha et Nemotron 3 Super — dans le top 10. Ce guide s adresse aux equipes qui industrialisent des agents et du routing multi-fournisseurs : il formalise six tendances structurelles, un top 10 commente, des grilles capacite/prix, six recommandations par scenario et un runbook en huit etapes. Il complete notre analyse de mai sur parts token et matrice de decision, sans reprendre l integralite du couple volume×revenu.
Le classement OpenRouter mesure l usage reel via une API unifiee. C est une photographie du marche plus fiable qu un slide de lancement — a condition de ne pas y projeter des attentes heritees de 2024.
Par rapport a mai, trois lignes de force se dessinent : la montee des MoE open source chinois, la rentabilite durable des fermes occidentales avec une croissance token plus lente, et l entree des offres gratuites plateforme ou fabricant de puces. La suite traduit ces lignes en tableaux actionnables pour l architecture et la direction technique.
Chiffres issus du snapshot OpenRouter et de la presse specialisee ; les taux de croissance suivent l affichage plateforme — a verifier en direct.
| Rang | Modele | Editeur | Volume (ordre) | Croissance | Lecture rapide |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 10,9T | ↑995% | 1M, MoE ~13B actifs, API agressive |
| 2 | Hy3 Preview | Tencent | 10,7T | ↑>999% | MoE open, efficacite +40 %, code agent |
| 3 | Claude Opus 4.7 | Anthropic | 7,48T | ↑197% | Raisonnement, vision, agents longs |
| 4 | Claude Sonnet 4.6 | Anthropic | 7,45T | ↑34% | Quotidien pro, palier gratuit |
| 5 | Owl Alpha | OpenRouter | 5,03T | ↑>999% | 0 $, ~1,05M tokens, agent-ready |
| 6 | Gemini 3 Flash Preview | 4,6T | ↑3% | Multimodal, SWE-bench ~78 % | |
| 7 | DeepSeek V4 Pro | DeepSeek | 4,54T | ↑739% | MoE flagship, raisonnement lourd |
| 8 | DeepSeek V3.2 | DeepSeek | 4,31T | ↓14% | Generation precedente |
| 9 | Kimi K2.6 | Moonshot | 3,72T | ↑1% | 1T MoE, Agent Swarm, longue duree |
| 10 | Nemotron 3 Super (free) | NVIDIA | 2,65T | ↑3% | Gratuit, hybrid Mamba-Transformer |
| Modele | Quotidien | Code | Long | Raisonnement | Multimodal | Agent |
|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | — | ★★★★★ |
| Hy3 Preview | ★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | — | ★★★★★ |
| Claude Opus 4.7 | ★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ |
| Claude Sonnet 4.6 | ★★★★★ | ★★★★ | ★★★★★ | ★★★★ | ★★★★ | ★★★★ |
| Owl Alpha | ★★★ | ★★★★ | ★★★★ | ★★★★ | — | ★★★★★ |
| Gemini 3 Flash | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★ | ★★★★★ | ★★★★★ |
| Kimi K2.6 | ★★★★ | ★★★★★ | ★★★★ | ★★★★ | ★★★★ | ★★★★★ |
| Nemotron 3 Super | ★★★★ | ★★★★ | ★★★★★ | ★★★★ | — | ★★★★★ |
| Modele | Entree $/M | Sortie $/M | Contexte | Taille | Open source |
|---|---|---|---|---|---|
| DeepSeek V4 Flash | ~0,10 | ~0,40 | 1M | 284B MoE | oui |
| DeepSeek V4 Pro | ~0,27 | ~1,10 | 1M | 1,6T MoE | oui |
| Hy3 Preview | self-host | self-host | 256K | 295B MoE | oui |
| Claude Opus 4.7 | 5,00 | 25,00 | 1M β | n/d | non |
| Claude Sonnet 4.6 | 3,00 | 15,00 | 200K/1M β | n/d | non |
| Owl Alpha | 0 | 0 | 1,05M | n/d | non |
| Gemini 3 Flash | 0,50 | 3,00 | 1M+ | n/d | non |
| Kimi K2.6 | bas | bas | 256K | 1T MoE | oui |
| Nemotron 3 Super | 0 | 0 | 1M | 120B MoE | oui |
Tarifs : les grilles publiques bougent chaque semaine. En production, croisez facture et journaux gateway ; configurez des alertes budget avant qu une vague de 429 ne degrade toute la chaine agent.
La fenetre ultra-longue n est plus un argument marketing : c est la condition d entree. Les equipes peuvent charger un depot entier ou un dossier contractuel en une passe, a condition de renforcer masquage des secrets et politique de retention cote gateway.
Avec trois lignes DeepSeek, Hy3 et Kimi, plus des croissances a trois chiffres, on assiste a un repositionnement durable des routes par defaut — pas a une mode passagere. Garder Sonnet comme unique primary en 2026 peut doubler la facture sans gain agent mesurable.
Les fiches produit mettent en avant SWE-bench, Terminal-Bench et la robustesse des appels d outils. Kimi pousse la competition vers l orchestration (centaines de sous-agents). La question decisive : votre charge est-elle conversationnelle ou tool-chain ?
Activer une fraction d experts a chaque requete decouple parametres totaux et cout marginal. Nemotron vise le debit on-prem ; DeepSeek V4 Flash compresse le long contexte via precisions mixtes.
Owl et Nemotron free abaissent le seuil des prototypes. En entreprise, il reste a arbitrer SLA, journalisation et conformite — zero dollar par token n efface pas le risque operationnel.
Recherche documentaire, design vers code, captures d ecran d exploitation : Gemini et Opus couvrent des cas que le texte seul ne traite plus proprement. Les modeles purement textuels conservent du volume mais perdent des parts dans les arbitrages d achat.
| Scenario | Choix primaire | Pourquoi (donnees juin 2026) |
|---|---|---|
| Bureautique et synthese | Sonnet 4.6 / Gemini 3 Flash | Instructions stables, paliers accessibles |
| Assistance developpeur | V4 Flash / Sonnet 4.6 | Repo 1M vs qualite plus previsible |
| Agent multi-etapes | Kimi K2.6 / Hy3 / V4 Flash | Benchmarks code et terminal, poids ouverts |
| Budget minimal | Owl Alpha / Nemotron free | 0 $ ; Owl reserve aux donnees non sensibles |
| Image, video, schema | Gemini 3 Flash / Opus 4.7 | Ecosysteme Google vs vision fine |
| Self-host haut debit | Nemotron 3 Super / Hy3 / V4 Flash | Open weights, debit Nemotron |
Prerequis : cles OpenRouter ou fournisseurs directs, gateway macOS/Linux. Pour la syntaxe failover, voir la checklist multi-fournisseurs. Ci-dessous la couche strategie.
chat, code, agent-long, vision, bulk.code V4 Flash puis Sonnet 4.6.bulk et labos sans donnees personnelles.openclaw gateway probe pour basculer sur panne modele, pas sur veille portable.# Exemple : intention de routing par etiquette
routing:
code:
primary: deepseek/deepseek-v4-flash
fallback: [anthropic/claude-sonnet-4.6, google/gemini-3-flash-preview]
agent-long:
primary: moonshotai/kimi-k2.6
fallback: [deepseek/deepseek-v4-pro]
vision:
primary: google/gemini-3-flash-preview
fallback: [anthropic/claude-opus-4.7]
bulk-experimental:
primary: openrouter/owl-alpha
allow_sensitive: false
Le million de tokens, le MoE et les tool calls deviennent des commodites. La differentiation se joue sur le cout par pas agent, l ancrage IDE ou cloud, et la credibilite des poids ouverts face aux flagship fermes. Les equipes qui revisent leur routing trimestriellement surfent une phase favorable ; celles qui restent sur les defauts de 2025 paient encore le prix premium.
Faire tourner gateway, cron et plusieurs fournisseurs sur un portable qui se ferme cache trois couts : gel du routing, cascades 429 sur offres gratuites, logs 1M qui saturent le disque local. Pour industrialiser les huit etapes — sonde, replis, journaux longs — un Mac mini dedie MACCOME (M4 ou M4 Pro) reste souvent moins cher que de combattre la veille. Topologie SSH : runbook gateway SSH ; tarifs : tarifs location Mac Mini ; exploitation : centre d aide.
Questions frequentes
Difference avec l article OpenRouter du 25 mai ?
Mai : parts token et revenu, verticales, matrice. Juin : six tendances, six scenarios, huit etapes avec Hy3, Owl, Nemotron. Lire les deux — mai pour la structure du marche, juin pour choisir et deployer.
Owl Alpha en production avec donnees personnelles ?
Non en route par defaut : modele furtif, prompts potentiellement reutilises. Production : palier payant ou poids self-host, secrets isoles au gateway. Reseau et droits : centre d aide.
Frequence de revision du routing ?
Minimum trimestriel ; si agents >50 % des appels, controle mensuel type taches code. Apres sortie DeepSeek V4, regression failover immediate.