Classement hebdomadaire OpenRouter ou SWE-bench : lequel croire ?

Ils repondent a des questions differentes. SWE-bench mesure le plafond sur une tache ; le classement hebdo compte les tokens API reels sur sept jours. Utilisez le classement pour le pool principal et les benchmarks pour le seuil qualite des taches critiques.

DeepSeek en tete signifie-t-il qu on peut remplacer Claude partout ?

Non. DeepSeek-V4-Flash absorbe le trafic agent et batch a bas prix, mais Anthropic garde environ 12 pour cent des tokens pour environ 46 pour cent des revenus en dollars. Routez par niveau de tache plutot que par remplacement global.

Classement hebdomadaire OpenRouter mai 2026 : la facture ne ment pas

Environ 18 min de lecture · MACCOME

Entre un benchmark SWE-bench et une keynote, le choix de modeles pour un pipeline creatif ou agent manque souvent d un barometre financier. OpenRouter publie pour la semaine du 18 au 24 mai 2026 une photographie nette : ① 28,9 billions de tokens mondiaux (+7,4 %, cinquieme hausse consecutive) ; modeles chinois 9,223T, quatre semaines devant les Etats-Unis. ② DeepSeek-V4-Flash en tete a 3,43T ; serie DeepSeek 5,74T. ③ Part token vs revenus en dollars : la « double verite » Anthropic. ④ Huit etapes pour transformer le classement hebdo en strategie de routing — utile aussi pour les equipes Final Cut, motion et automatisation de scripts sur Mac. Ce texte complete la matrice de mai et le guide de tendances de juin en se concentrant sur la facture comme thermometre, les chiffres de la semaine, les surprises contre-intuitives.

Six erreurs quand on lit les classements sans regarder la facture

Placer le leader SWE-bench en production par defaut : un benchmark mesure le plafond sur une tache ; le classement OpenRouter additionne les appels API reels sur sept jours. Les questions ne sont pas les memes.
Oublier la fenetre glissante de 7 jours : le classement suit le debit hebdomadaire de tokens (entree + sortie). Confondre jour, semaine ou mois fausse l analyse des campagnes gratuites.
Ne regarder que le rang d un modele : trois modeles DeepSeek dans le top 10, 5,74T en serie — le rang unitaire sous-estime les editeurs a portefeuille.
Equivaloir part de tokens et part de revenus : Anthropic environ 12 % des tokens pour environ 46 % des dollars ; DeepSeek inonde le reseau a prix minimal. Le volume seul trompe sur qui monetise.
Preferer le recit keynote au delta hebdo : Kimi K2.6 etait 6e la semaine precedente, sort du top 10 — le comparatif semaine sur semaine est souvent plus lucide qu une scene de lancement.
Traiter OpenRouter comme le marche entier : 300+ modeles, 8 M+ utilisateurs, environ 100 billions de tokens par mois — mais surtout du trafic developpeur via routage tiers ; abonnements ChatGPT et API enterprise directes n y figurent pas.

La these est simple : le debit de tokens mesure l adoption reelle ; l argent depense ne ment pas. Il y a un an OpenRouter traitait environ 2,4 billions de tokens par semaine ; aujourd hui 28,9 billions — environ 12 fois plus. L inference n est plus une demo de laboratoire : c est de la production a l echelle. Pour un studio creatif Apple qui enchaîne transcription, storyboard assiste et exports batch, ces chiffres valent plus qu un score MMLU isole.

Dans les equipes post-production, le debat classique oppose « le meilleur modele » au « modele assez bon pour 10 000 variantes ». Le classement hebdo tranche : DeepSeek-V4-Flash et Step 3.5 Flash absorbent le volume parce que le cout marginal d une iteration est proche de zero. Reserver Sonnet ou Opus aux etapes de validation contractuelle ou aux scripts sensibles n est pas un compromis qualitatif — c est une allocation budgetaire alignee sur le marche.

La volatilite hebdomadaire compte autant que le niveau : +66 % pour V4-Flash ou sortie du top 10 pour Kimi K2.6 montrent que les narratifs de lancement vieillissent en quelques jours. Un workflow Final Cut ou Logic qui s appuie sur un agent de metadata doit donc prevoir un changement de modele primaire au moins une fois par trimestre, pas une fois par an.

Source et methode : pourquoi OpenRouter fait thermometre credible

OpenRouter est l un des plus grands agregateurs neutres d API de modeles : 300+ modeles, 60+ fournisseurs. Le tableau public sur openrouter.ai/rankings expose tokens hebdo, rang par modele, parts par editeur et revenus dollars vs part token — la ou la guerre des prix devient visible.

Date de reference 24 mai 2026 (fenetre 18–24 mai). Les rangs 1–2 et 5 du top 10 ont ete recoupees avec la presse du 25 mai ; le reste avec le snapshot OpenRouter et l analyse MACCOME. Consultez la plateforme pour les chiffres en direct.

Dans un workflow creatif sur Mac — scripts Automator, plugins Final Cut, agents de sous-titrage — le cout par million de tokens determine souvent si un projet reste rentable. Le classement hebdo donne la tendance marche ; vos logs gateway donnent la verite projet.

Triangulez trois sources : tableau public OpenRouter, recoupement presse (25 mai 2026) et export de vos couts sur sept jours. Si les trois convergent, vous pouvez ajuster le routing en confiance. Si votre mix differe — plus de multimodal, moins de code — le classement global reste un compass, pas une carte au kilometre pres.

Les modeles furtifs du top 10 (Owl Alpha) meritent une ligne dediee dans votre politique d usage : excellent pour prototyper un plugin ou un raccourci clavier, a tenir hors des rushes clients tant que les conditions d utilisation ne sont pas clarifiees.

Indicateur	Valeur (18–24 mai)	Sem./sem.	Lecture
Tokens mondiaux / semaine	28,9 billions	+7,4%	Cinquieme hausse consecutive
Modeles chinois	9,223 billions	+19,89%	Quatre semaines devant les USA
Modeles americains	4,93 billions	+16,27%	Croissance sous le rythme chinois
Reference il y a un an	environ 2,4 billions	—	environ 12× sur un an

Top 10 modeles : DeepSeek-V4-Flash couronne a 3,43T

La semaine dessine des strates nettes : prix minimal et debit eleve (DeepSeek-V4-Flash, Step 3.5 Flash), croissance apres offre gratuite (Tencent Hy3 Preview), code enterprise (Claude Sonnet 4.6), agent gratuit specialise (Owl Alpha). Classement au 24 mai 2026 :

Rang	Modele	Editeur	Tokens / semaine	Sem./sem.	Profil
1	DeepSeek-V4-Flash	DeepSeek (CN)	3,43T	+66%	Workflows agent, prix tres bas
2	Tencent Hy3 Preview	Tencent (CN)	3,07T	+16%	Forte croissance post-gratuit
3	Claude Sonnet 4.6	Anthropic (US)	1,35T	—	Contexte 1M, code enterprise
4	DeepSeek-V3.2	DeepSeek (CN)	1,31T	—	Long tail economique
5	Owl Alpha (anonyme)	OpenRouter	1,15T	+29%	Agent gratuit, 1M contexte
6	Gemini 3 Flash Preview	Google (US)	1,06T	—	Multimodal, academie/sante
7	DeepSeek-V4-Pro	DeepSeek (CN)	1,00T	—	Flagship (serie 5,74T)
8	MiniMax M2.7	MiniMax (CN)	806B	—	Long contexte, rapport qualite/prix
9	Grok 4.1 Fast	xAI (US)	721B	—	2M contexte, juridique
10	Step 3.5 Flash	StepFun (CN)	673B	—	Rapide, batch

Note : Kimi K2.6 etait 6e la semaine precedente et quitte le top 10. Trois modeles DeepSeek dans les neuf premiers ; total serie 5,74 billions de tokens (+25,9 % sem./sem.), deux semaines consecutive devant Anthropic et Google — editeur n°1. Strategie matricielle : Flash pour le volume, Pro pour la qualite, V3.2 pour la longue traine.

Hy3 Preview a 3,07T illustre la persistance apres offre gratuite : la croissance +16 % sem./sem. n est pas un artefact promo. Pour un responsable technique, c est un signal d ajouter un canary a 5 % avant que le modele ne devienne le default implicite de l equipe creatif.

Claude Sonnet 4.6 (1,35T) reste le pilier « code enterprise » ; Gemini Flash et Grok Fast couvrent multimodal et contexte ultra-long — utiles pour analyser des dossiers de production ou des contrats de droits image sans eclater le budget sur chaque requete.

Paysage editeurs : la double verite tokens vs dollars

Trois couches de marche se dessinent :

Haute valeur, faible volume : Anthropic Claude Opus — raisonnement complexe, forte volonte de payer
Milieu de gamme : Google Gemini Flash — multimodal, recherche
Prix plancher, gros volume : DeepSeek, MiniMax, StepFun — agents, code, batch

Modeles chinois : moins de 2 % du trafic debut 2025, premiere place devant les USA en fevrier 2026, environ 45 %+ en mai et quatre semaines de leadership. Le paradoxe Anthropic : environ 12 % des tokens (contre environ 25 % il y a un an), environ 46 % des revenus dollars. Claude Opus 4.6 genere de l ordre de 25 M$ par mois avec un volume token bien inferieur a DeepSeek — l enterprise paie la prime, le volume appartient au segment economique.

Pour une equipe creative : router la generation de variantes publicitaires et les resumes de rushes vers V4-Flash, reserver Sonnet ou Opus aux scripts sensibles et aux revues contractuelles — la facture hebdo valide si ce decoupage tient dans le temps.

Le paradoxe Anthropic n est pas une contradiction : les taches ou une erreur coute plus cher qu un token premium continuent de payer Claude. DeepSeek gagne les boucles iteratives — generations multiples, tests de prompts, batch de metadonnees. Les deux coexistent ; l erreur est de croire qu une seule famille suffit pour tout un pipeline creatif.

Cote finance, la valorisation OpenRouter autour de 26× PS montre que les agregateurs captent la croissance du volume quel que soit le vainqueur de la semaine. Votre question operationnelle : le cout par livrable baisse-t-il plus vite que le volume de tokens monte ? Si oui, vous scalez sainement ; sinon, il faut resserrer le routing par scenario.

Dimension	Matrice DeepSeek	Anthropic	Lecture
Tokens / semaine	Serie 5,74T, editeur #1	Sonnet 1,35T etc.	Volume cote open source chinois
Tendance tokens	forte (V4-Flash +66%)	environ 12 %, en baisse	Modeles chers perdent la masse
Part revenus $	prix minimal, faible CA	environ 46 %	Taches premium toujours payantes
Scenarios types	Agent, batch, regression code	Conformite, finance, revue code	Non interchangeables

Contre-intuition : score benchmark et part de marche quasi inverses

Le rapport OpenRouter × a16z 2025 sur environ 100 billions de tokens montre que le rang benchmark et la part de marche reelle correlent souvent negativement. Raisons :

Les equipes optimisent le cout d inference — passer de 30 $/M en sortie a 0,28 $/M absorbe souvent un ecart SWE-bench de 8 points via le process.
Les pipelines agent privilegient stabilite des tool calls et latence plutot qu un seul raisonnement maximal.
La part code est passee d environ 11 % debut 2025 a plus de 50 % — terrain de V4-Flash et Sonnet 4.6, y compris pour les outils de build iOS et les scripts de post-production.

info

Conclusion : les chiffres de facturation sont plus honnetes qu un classement de tests. Investisseurs, developpeurs et analystes s appuient desormais sur le debit token comme barometre economique du secteur.

Avec plus de 50 % du trafic marche lie au code, prixer comme pour le chat general fausse les decisions. Un ecart de 8 points SWE-bench peut disparaitre quand l output passe de 30 $/M a 0,28 $/M et que l equipe accepte une retry policy — typique des agents de build Xcode ou des scripts de conformite ASC.

Pesez explicitement les signaux : par exemple 70 % sur la tendance cout 30 jours, 30 % sur le plancher benchmark pour le tier critical. Les keynotes optimisent les titres ; les factures optimisent la marge.

Huit etapes : du classement hebdo a une strategie de routing

Rythme hebdomadaire : chaque lundi consulter OpenRouter Rankings — noter le top 10 sem./sem. et les entrees (Hy3 Preview, Owl Alpha).
Aligner votre facture : exporter tokens et dollars gateway sur 7 jours ; en cas d ecart, vos logs font foi.
Routing par scenario : agent/batch → DeepSeek-V4-Flash ; raisonnement complexe → Claude Opus ; multimodal → Gemini Flash — voir le guide de juin.
Primaire + replis : OpenClaw multi-fournisseur pour les chaines critical vs bulk.
5 % de trafic gris sur les nouveaux du top 10 avant montee en charge.
Deux KPI : cout par million de tokens et taux primaire→repli ; trois retries sur modele bon marche peuvent couter plus qu un appel premium.
Revue trimestrielle par editeur : sommes de serie, pas rang unitaire.
Hote gateway fixe : 7×24 sans fermeture de portable — runbook SSH gateway.

Ces huit etapes sont volontairement executables : l etape 2 evite de copier le marche ; l etape 6 evite le piege « modele gratuit + trois replis » ; l etape 8 stabilise les revues hebdo pour les equipes qui enchainent montage et automatisation sur le meme Mac. Documentez chaque changement de primaire dans un changelog routing — utile quand la direction creative demande pourquoi le modele par defaut a change en semaine 21.

Trois chiffres pour la revue d architecture

Croissance ×12 hebdo : de environ 2,4T a 28,9T en un an — l inference est en production.
Code >50 % : rapport a16z × OpenRouter — prixer les agents code, pas le chat general.
CN vs US : 9,223T vs 4,93T ; +19,89 % vs +16,27 % — defaut CN pour le bulk, US pour le critical.

Epilogue : ce n est pas qui parle le plus fort, c est qui est le plus appele

Le marche vote avec le portefeuille : les modeles open source chinois a bas cout redefinissent le volume mondial. Ce ne sont pas les keynotes qui fixent la hierarchie, mais 28,9 billions de tokens par semaine. Action pragmatique : lire la facture, pas seulement la presse — OpenRouter se met a jour chaque semaine ; ajuster le routing selon les scenarios et les deltas hebdo.

Un gateway sur MacBook partage entre montage et dev introduit trois couts caches : veille qui coupe les agents, reseau qui gonfle les replis, logs eparpilles qui empechent la revue hebdo. Pour routing multi-fournisseur 7×24, revue hebdomadaire et sortie agent stable dans un workflow creatif professionnel, un MACCOME Mac mini dedie (M4 / M4 Pro) coute souvent moins que de combattre la fermeture du capot. Tarifs : location Mac Mini ; matrice : article de mai.

A long terme, ce n est pas la keynote la plus brillante qui gagne, mais le modele le plus souvent appele sous votre charge. Le classement hebdo OpenRouter est le capteur gratuit de cette realite — consultez-le chaque semaine, reconciliez chaque mois, revisez chaque trimestre. Votre avantage n est pas de suivre chaque release, mais d aligner routing et facture avant vos concurrents.

Questions frequentes

Classement hebdo OpenRouter ou SWE-bench : lequel croire ?

Questions differentes. SWE-bench : plafond sur une tache ; classement hebdo : tokens API reels — vote par le portefeuille. Pool principal depuis le classement, seuil qualite depuis les benchmarks. Noeud dedie : tarifs MACCOME.

DeepSeek en tete — remplacer Claude partout ?

Non. V4-Flash pour agent/batch ; Anthropic environ 12 % tokens, 46 % dollars. Critical → Claude, bulk → DeepSeek. Config : OpenClaw multi-fournisseur.

Donnees au 24 mai — le classement de juin change-t-il beaucoup ?

Fenetre glissante 7 jours — reclassement chaque semaine. Ici : methodologie et donnees de fin mai ; top 10 actuel : tendances juin. Exploitation : centre d aide.

Classement hebdomadaire OpenRouter mai 2026 : la facture ne ment pas — qui domine vraiment ?

Six erreurs quand on lit les classements sans regarder la facture

Source et methode : pourquoi OpenRouter fait thermometre credible

Top 10 modeles : DeepSeek-V4-Flash couronne a 3,43T

Paysage editeurs : la double verite tokens vs dollars

Contre-intuition : score benchmark et part de marche quasi inverses

Huit etapes : du classement hebdo a une strategie de routing

Trois chiffres pour la revue d architecture

Epilogue : ce n est pas qui parle le plus fort, c est qui est le plus appele