Si vous concevez une couche de routage multi-modeles et que le classement OpenRouter montre Kimi K2.6 devant Claude Sonnet 4.6 avec des modeles chinois a 45 %+ des tokens, alors qu'Anthropic conserve 46,3 % du chiffre d'affaires sur seulement 12,3 % des tokens, cet article repond a quatre questions : (1) la realite est-elle une domination chinoise ou une simple cisaillement entre tokens et dollars ; (2) ou se placent reellement les modeles du Top 10 par prix et usage ; (3) comment lire les leaders verticaux en code, jeu de role, droit, sante/academie et marketing ; (4) comment deployer une strategie principal-plus-secours sur OpenClaw ou un gateway maison. Cet article complete le routage multi-fournisseurs OpenClaw et l'integration de modeles prives, en se concentrant sur les donnees, la concurrence des fournisseurs et les decisions de routage.
En 2026, le marche des LLM a quitte la narration du modele unique pour entrer dans un paysage de routage multipolaire avec une cisaille entre tokens et chiffre d'affaires. Anthropic defend les usages premium en conformite, finance et raisonnement complexe. OpenAI s'affaiblit sur OpenRouter mais reste fort sur ChatGPT et les contrats directs. Google couvre toute la gamme de prix avec Gemini Flash Lite jusqu'a Pro. xAI s'installe dans des verticaux comme le droit. Les acteurs chinois (Xiaomi MiMo, Moonshot Kimi, DeepSeek, Alibaba Qwen, MiniMax, Z.ai GLM, StepFun) capturent le code, le batch et le jeu de role en combinant prix 2,5 a 8 fois plus bas, strategie open-weight et fenetres de contexte longues. Cette lecture est le prerequis a toutes les decisions qui suivent.
Apple Silicon et les chaines creatives professionnelles ne sont pas absentes de la conversation : conception, audio, video et 3D s'appuient de plus en plus sur des pipelines pilotes par LLM, dont la stabilite depend de la couche de routage installee sur les machines de production.
| Article connexe MACCOME | Ce que cet article apporte | Ce que cet article ne repete pas |
|---|---|---|
| Routage multi-fournisseurs OpenClaw et bascule | Matrice strategique vue du classement | Syntaxe provider, 429, journalisation |
| Modeles prives Ollama/vLLM | Modeles open-weight comme secours | Budget materiel et cycle de vie |
| Sondes de sante et mises a jour glissantes | Couplage routage / gateway | Parametres Compose / K8s complets |
| Gateway SSH sur Mac dedie | Valeur d'un hote stable pour le routage | Detail port forwarding, launchd, autossh |
Chaque decision de routage doit reposer sur le meme jeu de donnees. La table suivante agrege les donnees publiques OpenRouter d'avril-mai 2026 par fournisseur : part hebdomadaire en tokens, part de chiffre d'affaires ponderee par le tarif officiel et prix moyen par million de tokens. Lire les trois colonnes ensemble permet d'identifier les modes "gros volume - faible prix", "petit volume - prix eleve" et "volume et prix croissants".
| Fournisseur | Part tokens | Part CA | Prix moyen $/M | Modele phare |
|---|---|---|---|---|
| Anthropic | 12,3 % | 46,3 % | $7,95 | Claude Opus 4.7 / Sonnet 4.6 |
| 13,3 % | 7,0 % | $1,12 | Gemini 3 Flash Preview / 3.1 Pro | |
| Xiaomi (CN) | 13,0 % | 9,0 % | $1,47 | MiMo-V2-Pro |
| Alibaba / Qwen (CN) | 12,7 % | 4,6 % | $0,77 | Qwen 3.6 Plus |
| OpenAI | 9,8 % | 24,2 % | $5,25 | GPT-5.5 / GPT-5.4 |
| MiniMax (CN) | 9,5 % | 2,1 % | $0,48 | MiniMax M2.7 / M2.5 |
| DeepSeek (CN) | 6,3 % | 0,9 % | $0,30 | DeepSeek V3.2 / V4 Pro |
| Moonshot AI (CN) | env. 5 % | env. 2 % | $1,50 | Kimi K2.6 |
| Z.ai / Zhipu (CN) | 5,6 % | — | $0,80-1,20 | GLM-5 / GLM-5 Turbo |
| StepFun (CN) | 5,3 % | — | env. $0,50 | Step 3.5 Flash |
Trois modes de competition apparaissent immediatement. (a) Volume et prix croissent ensemble : Anthropic transforme un prix moyen eleve en part de chiffre d'affaires dominante. (b) Gros volume a prix bas : DeepSeek et MiniMax balaient le batch a 0,30-0,50 USD/M. (c) Bande intermediaire : Google et Xiaomi occupent l'equilibre. OpenAI conserve 24,2 % du chiffre d'affaires mais perd des tokens, signe que son canal central est ChatGPT et les contrats directs.
Traduit en strategie : envoyez les tâches les plus payantes vers Anthropic et OpenAI, dirigez le batch vers les acteurs chinois, et utilisez Google comme balancier elastique au milieu.
Les tables ci-dessous donnent le Top 10 hebdomadaire et les leaders dans cinq domaines verticaux. Ensemble, elles constituent la file d'attente par defaut et la liste de secours d'une couche de routage.
| Rang | Modele | Fournisseur | Tokens / sem. | Positionnement |
|---|---|---|---|---|
| 1 | Kimi K2.6 | Moonshot (CN) | 1,36 T | MoE 1T/32B, swarm d'agents longs |
| 2 | Claude Sonnet 4.6 | Anthropic (US) | 1,35 T | Contexte 1M, code, entreprise |
| 3 | DeepSeek V3.2 | DeepSeek (CN) | 1,31 T | Attention sparse DSA, prix tres bas, roi du roleplay |
| 4 | Claude Opus 4.7 | Anthropic (US) | 1,14 T | Vaisseau amiral Anthropic, raisonnement complexe |
| 5 | Gemini 3 Flash Preview | Google (US) | 1,06 T | Contexte 1M, multimodal, sante/academie |
| 6 | MiniMax M2.7 | MiniMax (CN) | 806 B | Rapport qualite-prix sur contextes longs |
| 7 | Grok 4.1 Fast | xAI (US) | 721 B | Contexte 2M, droit #1 |
| 8 | Claude Opus 4.6 | Anthropic (US) | 699 B | Ancien amiral, secours stable |
| 9 | MiniMax M2.5 | MiniMax (CN) | 698 B | Code economique, $0,30/$1,20 |
| 10 | Step 3.5 Flash | StepFun (CN) | 673 B | Rapide et bon marche, batch |
| Domaine | Leader | $/M (in/out) | Cle du succes |
|---|---|---|---|
| Code | GPT-5.5 / Claude Opus 4.7 | $5/$30 ; $5/$25 | Scores SWE-bench les plus hauts |
| Roleplay | DeepSeek V3.2 (40,2 %) | env. $0,30 | Prix agressif et communaute |
| Droit | Grok 4.1 Fast | Intermediaire | Contexte 2M pour documents longs |
| Sante/Academie | Gemini 3 Flash Preview | $0,30-$1 | Multimodal et graphe de connaissances |
| Marketing | Gemini 2.5 Flash Lite | $0,10/$0,40 | Tres bas prix pour brouillons en masse |
Sur le code, prix et performance ne sont pas lineaires. La table place les modeles de mai 2026 sur deux axes : SWE-bench Verified et prix par million de tokens, ce qui rend visible le cout marginal de chaque point de precision supplementaire.
| Modele | SWE-bench Verified | Input $/M | Output $/M | Contexte | Cout marginal par 1 % (in/out) |
|---|---|---|---|---|---|
| GPT-5.5 | 88,7 % | $5,00 | $30,00 | 200K | Reference au sommet |
| Claude Opus 4.7 | 87,6 % | $5,00 | $25,00 | 1M | -17 % en sortie |
| Claude Opus 4.6 | 80,8 % | $5,00 | $25,00 | 1M | -7 pp, meme prix |
| Gemini 3.1 Pro | 80,6 % | $2,00 | $12,00 | 1M | -8 pp, 60 %/60 % economies |
| DeepSeek V4 Pro (Max) | 80,6 % | $0,435 | $0,87 | 1M | -8 pp, 91 %/97 % |
| MiniMax M2.5 | 80,2 % | $0,30 | $1,20 | 1M | -8,5 pp, 94 %/96 % |
| Kimi K2.6 | 80,2 % | $0,75 | $3,50 | 128K | -8,5 pp, 85 %/88 % |
| GPT-5.4 | 78,2 % | $2,50 | $15,00 | 200K | -10,5 pp, 50 %/50 % |
| MiMo-V2-Pro | 78,0 % | $1,00 | $3,00 | 1M | -10,7 pp, 80 %/90 % |
| DeepSeek V4 Flash | env. 79 % | $0,14 | $0,28 | 1M | -9,7 pp, 97 %/99 % |
Lecture de la frontiere : passer de GPT-5.5 (88,7 %) a la bande des 80 % coute environ 8 pp de precision mais reduit le prix de sortie de 30 USD/M a 0,87-3,50 USD/M, soit 85-97 % d'economie. C'est la base donnees pour une strategie principal-plus-secours : modeles premium sur les chemins critiques, DeepSeek V4 Pro ou Kimi K2.6 pour le batch a un dixieme du prix.
La table organise le routage multi-modeles selon quatre priorites. Chaque ligne nomme le modele principal, le premier secours, le second secours et le declencheur. Elle peut servir telle quelle comme configuration de depart sur OpenRouter, OpenClaw ou un gateway maison.
| Strategie | Principal | 1er secours | 2e secours | Declencheur |
|---|---|---|---|---|
| Qualite avant tout (entreprise, finance, raisonnement) | Claude Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro | Revue de conformite, decisions critiques, longues chaines |
| Cout avant tout (batch, outils internes) | DeepSeek V4 Pro | MiniMax M2.5 | DeepSeek V4 Flash | Tickets, resumes, regression |
| Conformite avant tout (residence, regulation) | Gemini / Claude regional | Qwen / Kimi regional | Ollama / vLLM auto-heberges | RGPD UE, finance regulee, donnees publiques |
| Contexte avant tout (codebase, rapports longs) | Gemini 3.1 Pro (1M) | Grok 4.1 Fast (2M) | Claude Sonnet 4.6 (1M) | Analyse de repo, contrats longs, rapports annuels |
Ces strategies ne s'excluent pas : differents services peuvent vivre sur des lignes differentes. Le gateway etiquette chaque requete avec x-task-tier et choisit en consequence. Les assistants de developpement et les revues de code passent en qualite, la generation de messages de commit, les resumes et la recherche interne passent en cout. Les files de secours ne se declenchent que sur 429, 503 ou timeout du principal.
x-task-tier (critical/standard/bulk/experimental) ; critical part en qualite, bulk en cout, experimental sert aux A/B.route et la liste fallback_models.x-provider-used et x-cost-cents ; rapprochez chaque jour pour eviter qu'un modele bon marche avec trois retries devienne plus cher qu'un modele premium en un seul appel.Trois forces structurelles continueront a modeler la scene au second semestre 2026. (a) Les prix peuvent encore baisser : DeepSeek V4 Flash a positionne l'entree a 0,14 USD/M ; Step 3.5 Flash et GLM-5 Turbo testent des paliers encore plus agressifs. (b) Les fenetres de contexte continuent de croitre : Grok 4.1 Fast 2M, Claude et Gemini 1M, Kimi 128K. La rupture pour les analyses de repos et les contrats longs se situe entre 1M et 2M. (c) La frontiere ouvert / ferme penche vers l'ouvert : les sorties open-weight de DeepSeek, Qwen et Kimi permettent aux entreprises de basculer entre API OpenRouter et copies auto-hebergees. Couplee a l'enquete de CNBC en mai sur un ecart de cout neuf fois superieur, la pression sur les valorisations IPO d'Anthropic et OpenAI s'installe dans la duree.
Traduit en operations, tout cela se condense en quatre gestes : etiqueter, principal, secours, revue. Pour qu'ils tournent en continu, la couche de routage doit vivre sur un environnement qui ne tombe pas lorsque l'on referme un portable. C'est la ligne de base physique du routage 24 h sur 24, et elle a un effet direct sur la fiabilite des chaines creatives Apple Silicon qui dependent desormais du LLM.
Si votre gateway et votre routage tournent encore sur un ordinateur portable ou une station partagee, vous acceptez trois couts caches : interruptions des chemins critiques au sleep, fausses bascules dues a la gigue du reseau local, revues trimestrielles dispersees entre machines. Pour un gateway de production necessitant une disponibilite 24/7, du routage multi-fournisseurs et des runbooks operes par ticket, heberger OpenClaw ou un gateway maison sur un MACCOME Mac mini dedie (M4 ou M4 Pro) avec des locations flexibles dans six regions revient generalement moins cher que d'improviser sur un portable. Les tarifs publics sont detailles dans le guide des prix par region ; la topologie est decrite dans le runbook gateway SSH.
Questions frequentes
Une part de 45 %+ pour les modeles chinois signifie-t-elle qu'il faut migrer totalement vers des modeles bon marche ?
Non. Cette part s'appuie sur le code, le batch et les contextes longs, alors qu'Anthropic conserve 46,3 % du chiffre d'affaires avec 12,3 % des tokens. Adoptez une strategie duale : Claude Opus 4.7 ou GPT-5.5 sur les chemins critiques, Kimi K2.6 ou DeepSeek V4 Pro pour le bulk. Pour la topologie, consultez la page des tarifs de location.
Comment verifier la credibilite des donnees OpenRouter ?
Triangulez trois sources : OpenRouter Rankings, les analyses independantes (CodeSOTA, digitalapplied) et vos propres logs de gateway. Quand les trois convergent, la donnee est utilisable. Sinon, vos logs font foi. Pour l'accompagnement, consultez le centre d'aide.
Quels usages restent indispensables pour les modeles premium comme Claude Opus 4.7 ou GPT-5.5 ?
Trois categories : (1) raisonnement multi-etapes complexe et chaines longues d'outils ou 87 %+ de SWE-bench sont necessaires pour un premier essai fiable ; (2) conformite entreprise et audit financier avec les garde-fous Anthropic et SLA d'entreprise ; (3) usages multimodaux a 1M de contexte avec documents structures. Dans ces scenarios, le surcout par point de precision reste inferieur a la somme retries-bon-marche plus retravail d'ingenieurs.