Entre un benchmark SWE-bench et une keynote, le choix de modeles pour un pipeline creatif ou agent manque souvent d un barometre financier. OpenRouter publie pour la semaine du 18 au 24 mai 2026 une photographie nette : ① 28,9 billions de tokens mondiaux (+7,4 %, cinquieme hausse consecutive) ; modeles chinois 9,223T, quatre semaines devant les Etats-Unis. ② DeepSeek-V4-Flash en tete a 3,43T ; serie DeepSeek 5,74T. ③ Part token vs revenus en dollars : la « double verite » Anthropic. ④ Huit etapes pour transformer le classement hebdo en strategie de routing — utile aussi pour les equipes Final Cut, motion et automatisation de scripts sur Mac. Ce texte complete la matrice de mai et le guide de tendances de juin en se concentrant sur la facture comme thermometre, les chiffres de la semaine, les surprises contre-intuitives.
La these est simple : le debit de tokens mesure l adoption reelle ; l argent depense ne ment pas. Il y a un an OpenRouter traitait environ 2,4 billions de tokens par semaine ; aujourd hui 28,9 billions — environ 12 fois plus. L inference n est plus une demo de laboratoire : c est de la production a l echelle. Pour un studio creatif Apple qui enchaîne transcription, storyboard assiste et exports batch, ces chiffres valent plus qu un score MMLU isole.
Dans les equipes post-production, le debat classique oppose « le meilleur modele » au « modele assez bon pour 10 000 variantes ». Le classement hebdo tranche : DeepSeek-V4-Flash et Step 3.5 Flash absorbent le volume parce que le cout marginal d une iteration est proche de zero. Reserver Sonnet ou Opus aux etapes de validation contractuelle ou aux scripts sensibles n est pas un compromis qualitatif — c est une allocation budgetaire alignee sur le marche.
La volatilite hebdomadaire compte autant que le niveau : +66 % pour V4-Flash ou sortie du top 10 pour Kimi K2.6 montrent que les narratifs de lancement vieillissent en quelques jours. Un workflow Final Cut ou Logic qui s appuie sur un agent de metadata doit donc prevoir un changement de modele primaire au moins une fois par trimestre, pas une fois par an.
OpenRouter est l un des plus grands agregateurs neutres d API de modeles : 300+ modeles, 60+ fournisseurs. Le tableau public sur openrouter.ai/rankings expose tokens hebdo, rang par modele, parts par editeur et revenus dollars vs part token — la ou la guerre des prix devient visible.
Date de reference 24 mai 2026 (fenetre 18–24 mai). Les rangs 1–2 et 5 du top 10 ont ete recoupees avec la presse du 25 mai ; le reste avec le snapshot OpenRouter et l analyse MACCOME. Consultez la plateforme pour les chiffres en direct.
Dans un workflow creatif sur Mac — scripts Automator, plugins Final Cut, agents de sous-titrage — le cout par million de tokens determine souvent si un projet reste rentable. Le classement hebdo donne la tendance marche ; vos logs gateway donnent la verite projet.
Triangulez trois sources : tableau public OpenRouter, recoupement presse (25 mai 2026) et export de vos couts sur sept jours. Si les trois convergent, vous pouvez ajuster le routing en confiance. Si votre mix differe — plus de multimodal, moins de code — le classement global reste un compass, pas une carte au kilometre pres.
Les modeles furtifs du top 10 (Owl Alpha) meritent une ligne dediee dans votre politique d usage : excellent pour prototyper un plugin ou un raccourci clavier, a tenir hors des rushes clients tant que les conditions d utilisation ne sont pas clarifiees.
| Indicateur | Valeur (18–24 mai) | Sem./sem. | Lecture |
|---|---|---|---|
| Tokens mondiaux / semaine | 28,9 billions | +7,4% | Cinquieme hausse consecutive |
| Modeles chinois | 9,223 billions | +19,89% | Quatre semaines devant les USA |
| Modeles americains | 4,93 billions | +16,27% | Croissance sous le rythme chinois |
| Reference il y a un an | environ 2,4 billions | — | environ 12× sur un an |
La semaine dessine des strates nettes : prix minimal et debit eleve (DeepSeek-V4-Flash, Step 3.5 Flash), croissance apres offre gratuite (Tencent Hy3 Preview), code enterprise (Claude Sonnet 4.6), agent gratuit specialise (Owl Alpha). Classement au 24 mai 2026 :
| Rang | Modele | Editeur | Tokens / semaine | Sem./sem. | Profil |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek (CN) | 3,43T | +66% | Workflows agent, prix tres bas |
| 2 | Tencent Hy3 Preview | Tencent (CN) | 3,07T | +16% | Forte croissance post-gratuit |
| 3 | Claude Sonnet 4.6 | Anthropic (US) | 1,35T | — | Contexte 1M, code enterprise |
| 4 | DeepSeek-V3.2 | DeepSeek (CN) | 1,31T | — | Long tail economique |
| 5 | Owl Alpha (anonyme) | OpenRouter | 1,15T | +29% | Agent gratuit, 1M contexte |
| 6 | Gemini 3 Flash Preview | Google (US) | 1,06T | — | Multimodal, academie/sante |
| 7 | DeepSeek-V4-Pro | DeepSeek (CN) | 1,00T | — | Flagship (serie 5,74T) |
| 8 | MiniMax M2.7 | MiniMax (CN) | 806B | — | Long contexte, rapport qualite/prix |
| 9 | Grok 4.1 Fast | xAI (US) | 721B | — | 2M contexte, juridique |
| 10 | Step 3.5 Flash | StepFun (CN) | 673B | — | Rapide, batch |
Note : Kimi K2.6 etait 6e la semaine precedente et quitte le top 10. Trois modeles DeepSeek dans les neuf premiers ; total serie 5,74 billions de tokens (+25,9 % sem./sem.), deux semaines consecutive devant Anthropic et Google — editeur n°1. Strategie matricielle : Flash pour le volume, Pro pour la qualite, V3.2 pour la longue traine.
Hy3 Preview a 3,07T illustre la persistance apres offre gratuite : la croissance +16 % sem./sem. n est pas un artefact promo. Pour un responsable technique, c est un signal d ajouter un canary a 5 % avant que le modele ne devienne le default implicite de l equipe creatif.
Claude Sonnet 4.6 (1,35T) reste le pilier « code enterprise » ; Gemini Flash et Grok Fast couvrent multimodal et contexte ultra-long — utiles pour analyser des dossiers de production ou des contrats de droits image sans eclater le budget sur chaque requete.
Trois couches de marche se dessinent :
Modeles chinois : moins de 2 % du trafic debut 2025, premiere place devant les USA en fevrier 2026, environ 45 %+ en mai et quatre semaines de leadership. Le paradoxe Anthropic : environ 12 % des tokens (contre environ 25 % il y a un an), environ 46 % des revenus dollars. Claude Opus 4.6 genere de l ordre de 25 M$ par mois avec un volume token bien inferieur a DeepSeek — l enterprise paie la prime, le volume appartient au segment economique.
Pour une equipe creative : router la generation de variantes publicitaires et les resumes de rushes vers V4-Flash, reserver Sonnet ou Opus aux scripts sensibles et aux revues contractuelles — la facture hebdo valide si ce decoupage tient dans le temps.
Le paradoxe Anthropic n est pas une contradiction : les taches ou une erreur coute plus cher qu un token premium continuent de payer Claude. DeepSeek gagne les boucles iteratives — generations multiples, tests de prompts, batch de metadonnees. Les deux coexistent ; l erreur est de croire qu une seule famille suffit pour tout un pipeline creatif.
Cote finance, la valorisation OpenRouter autour de 26× PS montre que les agregateurs captent la croissance du volume quel que soit le vainqueur de la semaine. Votre question operationnelle : le cout par livrable baisse-t-il plus vite que le volume de tokens monte ? Si oui, vous scalez sainement ; sinon, il faut resserrer le routing par scenario.
| Dimension | Matrice DeepSeek | Anthropic | Lecture |
|---|---|---|---|
| Tokens / semaine | Serie 5,74T, editeur #1 | Sonnet 1,35T etc. | Volume cote open source chinois |
| Tendance tokens | forte (V4-Flash +66%) | environ 12 %, en baisse | Modeles chers perdent la masse |
| Part revenus $ | prix minimal, faible CA | environ 46 % | Taches premium toujours payantes |
| Scenarios types | Agent, batch, regression code | Conformite, finance, revue code | Non interchangeables |
Le rapport OpenRouter × a16z 2025 sur environ 100 billions de tokens montre que le rang benchmark et la part de marche reelle correlent souvent negativement. Raisons :
Conclusion : les chiffres de facturation sont plus honnetes qu un classement de tests. Investisseurs, developpeurs et analystes s appuient desormais sur le debit token comme barometre economique du secteur.
Avec plus de 50 % du trafic marche lie au code, prixer comme pour le chat general fausse les decisions. Un ecart de 8 points SWE-bench peut disparaitre quand l output passe de 30 $/M a 0,28 $/M et que l equipe accepte une retry policy — typique des agents de build Xcode ou des scripts de conformite ASC.
Pesez explicitement les signaux : par exemple 70 % sur la tendance cout 30 jours, 30 % sur le plancher benchmark pour le tier critical. Les keynotes optimisent les titres ; les factures optimisent la marge.
Ces huit etapes sont volontairement executables : l etape 2 evite de copier le marche ; l etape 6 evite le piege « modele gratuit + trois replis » ; l etape 8 stabilise les revues hebdo pour les equipes qui enchainent montage et automatisation sur le meme Mac. Documentez chaque changement de primaire dans un changelog routing — utile quand la direction creative demande pourquoi le modele par defaut a change en semaine 21.
Le marche vote avec le portefeuille : les modeles open source chinois a bas cout redefinissent le volume mondial. Ce ne sont pas les keynotes qui fixent la hierarchie, mais 28,9 billions de tokens par semaine. Action pragmatique : lire la facture, pas seulement la presse — OpenRouter se met a jour chaque semaine ; ajuster le routing selon les scenarios et les deltas hebdo.
Un gateway sur MacBook partage entre montage et dev introduit trois couts caches : veille qui coupe les agents, reseau qui gonfle les replis, logs eparpilles qui empechent la revue hebdo. Pour routing multi-fournisseur 7×24, revue hebdomadaire et sortie agent stable dans un workflow creatif professionnel, un MACCOME Mac mini dedie (M4 / M4 Pro) coute souvent moins que de combattre la fermeture du capot. Tarifs : location Mac Mini ; matrice : article de mai.
A long terme, ce n est pas la keynote la plus brillante qui gagne, mais le modele le plus souvent appele sous votre charge. Le classement hebdo OpenRouter est le capteur gratuit de cette realite — consultez-le chaque semaine, reconciliez chaque mois, revisez chaque trimestre. Votre avantage n est pas de suivre chaque release, mais d aligner routing et facture avant vos concurrents.
Questions frequentes
Classement hebdo OpenRouter ou SWE-bench : lequel croire ?
Questions differentes. SWE-bench : plafond sur une tache ; classement hebdo : tokens API reels — vote par le portefeuille. Pool principal depuis le classement, seuil qualite depuis les benchmarks. Noeud dedie : tarifs MACCOME.
DeepSeek en tete — remplacer Claude partout ?
Non. V4-Flash pour agent/batch ; Anthropic environ 12 % tokens, 46 % dollars. Critical → Claude, bulk → DeepSeek. Config : OpenClaw multi-fournisseur.
Donnees au 24 mai — le classement de juin change-t-il beaucoup ?
Fenetre glissante 7 jours — reclassement chaque semaine. Ici : methodologie et donnees de fin mai ; top 10 actuel : tendances juin. Exploitation : centre d aide.