Classement OpenRouter 2026 expliqué : Kimi K2.6 en tete, 45 % de part chinoise et matrice de routage multi-modeles face a Claude/GPT-5/Gemini

Environ 19 min de lecture · MACCOME

Si vous concevez une couche de routage multi-modeles et que le classement OpenRouter montre Kimi K2.6 devant Claude Sonnet 4.6 avec des modeles chinois a 45 %+ des tokens, alors qu'Anthropic conserve 46,3 % du chiffre d'affaires sur seulement 12,3 % des tokens, cet article repond a quatre questions : (1) la realite est-elle une domination chinoise ou une simple cisaillement entre tokens et dollars ; (2) ou se placent reellement les modeles du Top 10 par prix et usage ; (3) comment lire les leaders verticaux en code, jeu de role, droit, sante/academie et marketing ; (4) comment deployer une strategie principal-plus-secours sur OpenClaw ou un gateway maison. Cet article complete le routage multi-fournisseurs OpenClaw et l'integration de modeles prives, en se concentrant sur les donnees, la concurrence des fournisseurs et les decisions de routage.

Six erreurs frequentes de lecture du classement OpenRouter

  1. Ne regarder que la part de tokens et oublier la part de chiffre d'affaires. Les fournisseurs chinois cumulent plus de 45 % des tokens, mais Anthropic capte 46,3 % du chiffre d'affaires avec 12,3 % des tokens au prix moyen de 7,95 USD/M ; OpenAI tient 24,2 % du CA avec 9,8 % des tokens a 5,25 USD/M. Reduire la decision a la seule part de tokens revient a ignorer la disposition a payer sur les usages strategiques.
  2. Considerer le numero 1 comme universellement meilleur. Kimi K2.6 (1,36 T tokens hebdomadaires) gagne sur les agents longs et le batch ; Claude Sonnet 4.6 (1,35 T) gagne sur le code et l'integration entreprise. Le sommet d'une semaine ne predit pas la pertinence sur vos workloads.
  3. Confondre score de benchmark et frontiere prix-performance. Sur SWE-bench Verified, GPT-5.5 atteint 88,7 %, Claude Opus 4.7 87,6 %, Gemini 3.1 Pro et DeepSeek V4 Pro 80,6 %, Kimi K2.6 80,2 %. L'ecart est faible, mais les prix varient de 5 a 10 fois. Trier par seul score detruit le budget.
  4. Extrapoler les vainqueurs verticaux a tous les usages. DeepSeek V3.2 domine le jeu de role a 40,2 %, Grok 4.1 Fast est numero 1 en droit, Gemini 3 Flash Preview en sante et academie, Gemini 2.5 Flash Lite tient le marketing pour 0,10/0,40 USD. Chaque champion vertical est local et ne se transfere pas automatiquement.
  5. Sous-estimer le basculement structurel des 18 derniers mois. La part chinoise est passee de 1,2 % en octobre 2024 a plus de 10 % en mars 2025, plus de 25 % au troisieme trimestre 2025, plus de 45 % en avril 2026 et 60 %+ selon certaines lectures de mai 2026. Il s'agit d'une restructuration et non d'un bruit ; vos strategies de routage doivent prevoir une elasticite pour les deux trimestres suivants.
  6. Prendre OpenRouter pour le miroir du marche entier. OpenRouter reflete le trafic de developpeurs passant par des routeurs tiers. Les canaux centraux d'OpenAI restent ChatGPT et les contrats API directs. Toute decision strategique doit superposer ces donnees publiques aux logs internes et aux contrats directs.

En 2026, le marche des LLM a quitte la narration du modele unique pour entrer dans un paysage de routage multipolaire avec une cisaille entre tokens et chiffre d'affaires. Anthropic defend les usages premium en conformite, finance et raisonnement complexe. OpenAI s'affaiblit sur OpenRouter mais reste fort sur ChatGPT et les contrats directs. Google couvre toute la gamme de prix avec Gemini Flash Lite jusqu'a Pro. xAI s'installe dans des verticaux comme le droit. Les acteurs chinois (Xiaomi MiMo, Moonshot Kimi, DeepSeek, Alibaba Qwen, MiniMax, Z.ai GLM, StepFun) capturent le code, le batch et le jeu de role en combinant prix 2,5 a 8 fois plus bas, strategie open-weight et fenetres de contexte longues. Cette lecture est le prerequis a toutes les decisions qui suivent.

Apple Silicon et les chaines creatives professionnelles ne sont pas absentes de la conversation : conception, audio, video et 3D s'appuient de plus en plus sur des pipelines pilotes par LLM, dont la stabilite depend de la couche de routage installee sur les machines de production.

Article connexe MACCOMECe que cet article apporteCe que cet article ne repete pas
Routage multi-fournisseurs OpenClaw et basculeMatrice strategique vue du classementSyntaxe provider, 429, journalisation
Modeles prives Ollama/vLLMModeles open-weight comme secoursBudget materiel et cycle de vie
Sondes de sante et mises a jour glissantesCouplage routage / gatewayParametres Compose / K8s complets
Gateway SSH sur Mac dedieValeur d'un hote stable pour le routageDetail port forwarding, launchd, autossh

Donnees de base : tokens, chiffre d'affaires et prix moyen sous trois angles

Chaque decision de routage doit reposer sur le meme jeu de donnees. La table suivante agrege les donnees publiques OpenRouter d'avril-mai 2026 par fournisseur : part hebdomadaire en tokens, part de chiffre d'affaires ponderee par le tarif officiel et prix moyen par million de tokens. Lire les trois colonnes ensemble permet d'identifier les modes "gros volume - faible prix", "petit volume - prix eleve" et "volume et prix croissants".

FournisseurPart tokensPart CAPrix moyen $/MModele phare
Anthropic12,3 %46,3 %$7,95Claude Opus 4.7 / Sonnet 4.6
Google13,3 %7,0 %$1,12Gemini 3 Flash Preview / 3.1 Pro
Xiaomi (CN)13,0 %9,0 %$1,47MiMo-V2-Pro
Alibaba / Qwen (CN)12,7 %4,6 %$0,77Qwen 3.6 Plus
OpenAI9,8 %24,2 %$5,25GPT-5.5 / GPT-5.4
MiniMax (CN)9,5 %2,1 %$0,48MiniMax M2.7 / M2.5
DeepSeek (CN)6,3 %0,9 %$0,30DeepSeek V3.2 / V4 Pro
Moonshot AI (CN)env. 5 %env. 2 %$1,50Kimi K2.6
Z.ai / Zhipu (CN)5,6 %$0,80-1,20GLM-5 / GLM-5 Turbo
StepFun (CN)5,3 %env. $0,50Step 3.5 Flash

Trois modes de competition apparaissent immediatement. (a) Volume et prix croissent ensemble : Anthropic transforme un prix moyen eleve en part de chiffre d'affaires dominante. (b) Gros volume a prix bas : DeepSeek et MiniMax balaient le batch a 0,30-0,50 USD/M. (c) Bande intermediaire : Google et Xiaomi occupent l'equilibre. OpenAI conserve 24,2 % du chiffre d'affaires mais perd des tokens, signe que son canal central est ChatGPT et les contrats directs.

Traduit en strategie : envoyez les tâches les plus payantes vers Anthropic et OpenAI, dirigez le batch vers les acteurs chinois, et utilisez Google comme balancier elastique au milieu.

Top 10 et leaders verticaux en un coup d'oeil

Les tables ci-dessous donnent le Top 10 hebdomadaire et les leaders dans cinq domaines verticaux. Ensemble, elles constituent la file d'attente par defaut et la liste de secours d'une couche de routage.

RangModeleFournisseurTokens / sem.Positionnement
1Kimi K2.6Moonshot (CN)1,36 TMoE 1T/32B, swarm d'agents longs
2Claude Sonnet 4.6Anthropic (US)1,35 TContexte 1M, code, entreprise
3DeepSeek V3.2DeepSeek (CN)1,31 TAttention sparse DSA, prix tres bas, roi du roleplay
4Claude Opus 4.7Anthropic (US)1,14 TVaisseau amiral Anthropic, raisonnement complexe
5Gemini 3 Flash PreviewGoogle (US)1,06 TContexte 1M, multimodal, sante/academie
6MiniMax M2.7MiniMax (CN)806 BRapport qualite-prix sur contextes longs
7Grok 4.1 FastxAI (US)721 BContexte 2M, droit #1
8Claude Opus 4.6Anthropic (US)699 BAncien amiral, secours stable
9MiniMax M2.5MiniMax (CN)698 BCode economique, $0,30/$1,20
10Step 3.5 FlashStepFun (CN)673 BRapide et bon marche, batch
DomaineLeader$/M (in/out)Cle du succes
CodeGPT-5.5 / Claude Opus 4.7$5/$30 ; $5/$25Scores SWE-bench les plus hauts
RoleplayDeepSeek V3.2 (40,2 %)env. $0,30Prix agressif et communaute
DroitGrok 4.1 FastIntermediaireContexte 2M pour documents longs
Sante/AcademieGemini 3 Flash Preview$0,30-$1Multimodal et graphe de connaissances
MarketingGemini 2.5 Flash Lite$0,10/$0,40Tres bas prix pour brouillons en masse

Frontiere prix-performance : SWE-bench et $/M token

Sur le code, prix et performance ne sont pas lineaires. La table place les modeles de mai 2026 sur deux axes : SWE-bench Verified et prix par million de tokens, ce qui rend visible le cout marginal de chaque point de precision supplementaire.

ModeleSWE-bench VerifiedInput $/MOutput $/MContexteCout marginal par 1 % (in/out)
GPT-5.588,7 %$5,00$30,00200KReference au sommet
Claude Opus 4.787,6 %$5,00$25,001M-17 % en sortie
Claude Opus 4.680,8 %$5,00$25,001M-7 pp, meme prix
Gemini 3.1 Pro80,6 %$2,00$12,001M-8 pp, 60 %/60 % economies
DeepSeek V4 Pro (Max)80,6 %$0,435$0,871M-8 pp, 91 %/97 %
MiniMax M2.580,2 %$0,30$1,201M-8,5 pp, 94 %/96 %
Kimi K2.680,2 %$0,75$3,50128K-8,5 pp, 85 %/88 %
GPT-5.478,2 %$2,50$15,00200K-10,5 pp, 50 %/50 %
MiMo-V2-Pro78,0 %$1,00$3,001M-10,7 pp, 80 %/90 %
DeepSeek V4 Flashenv. 79 %$0,14$0,281M-9,7 pp, 97 %/99 %
info

Lecture de la frontiere : passer de GPT-5.5 (88,7 %) a la bande des 80 % coute environ 8 pp de precision mais reduit le prix de sortie de 30 USD/M a 0,87-3,50 USD/M, soit 85-97 % d'economie. C'est la base donnees pour une strategie principal-plus-secours : modeles premium sur les chemins critiques, DeepSeek V4 Pro ou Kimi K2.6 pour le batch a un dixieme du prix.

Quatre strategies de routage : principal et secours par workload

La table organise le routage multi-modeles selon quatre priorites. Chaque ligne nomme le modele principal, le premier secours, le second secours et le declencheur. Elle peut servir telle quelle comme configuration de depart sur OpenRouter, OpenClaw ou un gateway maison.

StrategiePrincipal1er secours2e secoursDeclencheur
Qualite avant tout (entreprise, finance, raisonnement)Claude Opus 4.7GPT-5.5Gemini 3.1 ProRevue de conformite, decisions critiques, longues chaines
Cout avant tout (batch, outils internes)DeepSeek V4 ProMiniMax M2.5DeepSeek V4 FlashTickets, resumes, regression
Conformite avant tout (residence, regulation)Gemini / Claude regionalQwen / Kimi regionalOllama / vLLM auto-hebergesRGPD UE, finance regulee, donnees publiques
Contexte avant tout (codebase, rapports longs)Gemini 3.1 Pro (1M)Grok 4.1 Fast (2M)Claude Sonnet 4.6 (1M)Analyse de repo, contrats longs, rapports annuels

Ces strategies ne s'excluent pas : differents services peuvent vivre sur des lignes differentes. Le gateway etiquette chaque requete avec x-task-tier et choisit en consequence. Les assistants de developpement et les revues de code passent en qualite, la generation de messages de commit, les resumes et la recherche interne passent en cout. Les files de secours ne se declenchent que sur 429, 503 ou timeout du principal.

Six etapes pour deployer le routage multi-fournisseurs

  1. Profilez votre trafic. Exportez les tokens entree et sortie, la longueur moyenne de contexte et les buckets par service sur 30 jours. Dans la plupart des equipes, seulement 10 a 20 % du trafic est reellement a forte valeur.
  2. Etiquetez chaque requete. Ajoutez un en-tete x-task-tier (critical/standard/bulk/experimental) ; critical part en qualite, bulk en cout, experimental sert aux A/B.
  3. Configurez fournisseurs et files de secours. Reprenez le patron YAML du guide OpenClaw multi-provider. Sur OpenRouter, combinez le champ route et la liste fallback_models.
  4. Instrumentez les couts. Ecrivez les en-tetes x-provider-used et x-cost-cents ; rapprochez chaque jour pour eviter qu'un modele bon marche avec trois retries devienne plus cher qu'un modele premium en un seul appel.
  5. Entrainez le chemin malheureux. Injectez 429, 502 et timeouts pour verifier les bascules. Couplez avec les sondes de sante afin qu'un fournisseur defaillant n'entraine pas tout le gateway.
  6. Revue trimestrielle. Posez sur la meme table les tendances OpenRouter (part chinoise, prix, nouvelles sorties) et vos logs internes a 30 jours, puis decidez d'un changement de modele principal. C'est ainsi que la donnee publique devient decision.

Trois indicateurs eligibles aux OKR

  • Cout mele par million de tokens et par tier. Maintenez critical entre 5 et 10 USD/M sortie ; poussez bulk vers 0,5 a 2 USD/M sortie. Le trimestre suivant doit montrer une baisse d'au moins 15 %, sans quoi la strategie reste theorique.
  • Taux de declenchement des secours. Principal vers premier secours doit rester sous 5 %. Au-dela de 10 %, le quota du principal ou la stabilite du fournisseur sont en cause, et il faut ajuster les poids dans la configuration de secours.
  • Concentration sur un fournisseur unique. Aucun fournisseur ne doit depasser 60 % des tokens. Au-dela, une panne regionale (1,5 h en avril 2026 chez un fournisseur) touche tout le produit. Le principe rejoint celui des regions a meme prix pour les noeuds Mac, detaille dans la matrice meme-prix par region.

Perspectives et conclusion : la competition ne s'arrete pas a 45 %

Trois forces structurelles continueront a modeler la scene au second semestre 2026. (a) Les prix peuvent encore baisser : DeepSeek V4 Flash a positionne l'entree a 0,14 USD/M ; Step 3.5 Flash et GLM-5 Turbo testent des paliers encore plus agressifs. (b) Les fenetres de contexte continuent de croitre : Grok 4.1 Fast 2M, Claude et Gemini 1M, Kimi 128K. La rupture pour les analyses de repos et les contrats longs se situe entre 1M et 2M. (c) La frontiere ouvert / ferme penche vers l'ouvert : les sorties open-weight de DeepSeek, Qwen et Kimi permettent aux entreprises de basculer entre API OpenRouter et copies auto-hebergees. Couplee a l'enquete de CNBC en mai sur un ecart de cout neuf fois superieur, la pression sur les valorisations IPO d'Anthropic et OpenAI s'installe dans la duree.

Traduit en operations, tout cela se condense en quatre gestes : etiqueter, principal, secours, revue. Pour qu'ils tournent en continu, la couche de routage doit vivre sur un environnement qui ne tombe pas lorsque l'on referme un portable. C'est la ligne de base physique du routage 24 h sur 24, et elle a un effet direct sur la fiabilite des chaines creatives Apple Silicon qui dependent desormais du LLM.

Si votre gateway et votre routage tournent encore sur un ordinateur portable ou une station partagee, vous acceptez trois couts caches : interruptions des chemins critiques au sleep, fausses bascules dues a la gigue du reseau local, revues trimestrielles dispersees entre machines. Pour un gateway de production necessitant une disponibilite 24/7, du routage multi-fournisseurs et des runbooks operes par ticket, heberger OpenClaw ou un gateway maison sur un MACCOME Mac mini dedie (M4 ou M4 Pro) avec des locations flexibles dans six regions revient generalement moins cher que d'improviser sur un portable. Les tarifs publics sont detailles dans le guide des prix par region ; la topologie est decrite dans le runbook gateway SSH.

Questions frequentes

Une part de 45 %+ pour les modeles chinois signifie-t-elle qu'il faut migrer totalement vers des modeles bon marche ?

Non. Cette part s'appuie sur le code, le batch et les contextes longs, alors qu'Anthropic conserve 46,3 % du chiffre d'affaires avec 12,3 % des tokens. Adoptez une strategie duale : Claude Opus 4.7 ou GPT-5.5 sur les chemins critiques, Kimi K2.6 ou DeepSeek V4 Pro pour le bulk. Pour la topologie, consultez la page des tarifs de location.

Comment verifier la credibilite des donnees OpenRouter ?

Triangulez trois sources : OpenRouter Rankings, les analyses independantes (CodeSOTA, digitalapplied) et vos propres logs de gateway. Quand les trois convergent, la donnee est utilisable. Sinon, vos logs font foi. Pour l'accompagnement, consultez le centre d'aide.

Quels usages restent indispensables pour les modeles premium comme Claude Opus 4.7 ou GPT-5.5 ?

Trois categories : (1) raisonnement multi-etapes complexe et chaines longues d'outils ou 87 %+ de SWE-bench sont necessaires pour un premier essai fiable ; (2) conformite entreprise et audit financier avec les garde-fous Anthropic et SLA d'entreprise ; (3) usages multimodaux a 1M de contexte avec documents structures. Dans ces scenarios, le surcout par point de precision reste inferieur a la somme retries-bon-marche plus retravail d'ingenieurs.