OpenRouter Woechen-Token-Ranking Mai 2026: Rechnungsdaten luegen nicht — wer dominiert wirklich?

Ca. 18 Min. Lesezeit · MACCOME

Wer Multi-Model-Routing plant und gleichzeitig SWE-bench mit Keynote-Folien vergleicht, braucht eine andere Datenquelle: OpenRouter 18.–24. Mai 2026. ① Globale Wochen-Token: 28,9 Billionen (+7,4 %, fuenfte Steigerung in Folge); chinesische Modelle 9,223T, vier Wochen vor den USA. ② DeepSeek-V4-Flash fuehrt mit 3,43T; Serie gesamt 5,74T. ③ Token-Anteil und Dollar-Umsatz erzaehlen zwei Geschichten — Anthropic-Premium. ④ Acht Schritte, um Wochenrankings in Routing und FinOps zu uebersetzen. Ergaenzt die Mai-Entscheidungsmatrix und den Juni-Trendartikel — hier liegt der Fokus auf Rechnung als Thermometer, Wochen-Harddata, Gegenintuition.

Sechs Fehlannahmen, wenn man nur Benchmarks liest

  1. SWE-bench-Spitze als Produktions-Default: Benchmarks messen Einzelaufgaben-Obergrenzen; das OpenRouter-Wochenranking zaehlt echte API-Ausgaben der letzten sieben Tage. Das sind unterschiedliche Fragestellungen.
  2. 7-Tage-Rolling-Fenster ignorieren: OpenRouter rankt nach woechentlichem Token-Durchsatz (Input + Output), nicht nach Tages- oder Monatswerten. Falsche Zeitfenster verwechseln Gratis-Kampagnen mit Dauertrends.
  3. Nur Einzelmodell-Rang, nicht Anbieter-Matrix: Drei DeepSeek-Modelle in den Top 10, Serie 5,74T — Einzelplaetze unterschaetzen matrixorientierte Anbieter.
  4. Token-Anteil gleich Umsatz-Anteil: Anthropic etwa 12 % Token, rund 46 % Dollar; DeepSeek dominiert Volumen bei Mindestpreisen. Nur Menge verzerrt die Gewinnverteilung.
  5. Keynote-Narrative statt WoW-Delta: Kimi K2.6 war Vorwoche Rang 6, faellt aus den Top 10 — Wochenvergleiche sind oft ehrlicher als Buehnenpraesentationen.
  6. OpenRouter als Gesamtmarkt-Spiegel: 300+ Modelle, 8 Mio.+ Nutzer, ca. 100 Billionen Token monatlich — dennoch vor allem Developer-Traffic ueber Drittanbieter-Routing; ChatGPT-Abo und Enterprise-Direkt-API fehlen.

Kernthese: Token-Durchsatz ist das Thermometer realer AI-Adoption; ausgegebene Euro und Dollar luegen nicht. Vor einem Jahr lag OpenRouter bei ca. 2,4 Billionen Token pro Woche, jetzt 28,9 Billionen — etwa 12×. Das ist kein Labordemo mehr, sondern skalierte Produktion. Fuer EU-Teams bedeutet das zusaetzlich: jede Routing-Entscheidung beruehrt Datenschutz — Verarbeitungsort, AV-Vertrag und Loeschfristen muessen zum Modellpfad passen, nicht nur zum Benchmark-Score.

In deutschen Produktteams sehen wir regelmaessig dasselbe Muster: Der Architektur-Workshop endet mit «Claude als Default», waehrend FinOps drei Wochen spaeter feststellt, dass 70 % des Traffics ueber guenstige Flash-Modelle laufen wuerde — wenn Agent-Tasks korrekt getaggt waeren. Das Wochenranking liefert die Evidenz fuer diese Diskussion, noch bevor das erste Quartalsreview ansteht. Es ersetzt keine DPIA, aber es zeigt, welche Modelle der Markt unter Last wirklich traegt.

Wer nur Pressemitteilungen liest, verpasst zudem die Volatilitaet: Ein Modell kann innerhalb einer Woche 66 % Zuwachs (V4-Flash) oder den Ausstieg aus den Top 10 (Kimi) erleben. Benchmarks aktualisieren sich quartalsweise; Rechnungen taeglich. Fuer Multi-Model-Gateways ist die WoW-Delta-Beobachtung deshalb keine Neugier, sondern Betriebsroutine.

Datenquelle und Methodik: warum OpenRouter ein brauchbares Thermometer ist

OpenRouter gehoert zu den groessten neutralen LLM-API-Aggregatoren: 300+ Modelle, 60+ Anbieter von OpenAI bis DeepSeek. Oeffentliche Rankings unter openrouter.ai/rankings liefern Wochen-Token, Modell- und Anbieteranteile sowie Dollar-Umsatz vs. Token-Anteil — damit wird Preisdruck sichtbar.

Stichtag 24. Mai 2026 (Fenster 18.–24. Mai). Top-10-Positionen 1–2 und 5 wurden mit oeffentlicher Berichterstattung vom 25. Mai 2026 abgeglichen; weitere Eintraege gegen OpenRouter-Snapshot und MACCOME-Auswertung. Live-Werte bitte auf der Plattform pruefen.

Unter DSGVO ist diese Transparenz nur der erste Schritt: Gateway-Logs mit Prompt-Inhalten koennen personenbezogene Daten enthalten. Wer Wochenrankings mit internen Rechnungen abgleicht, sollte Pseudonymisierung, Aufbewahrungsfristen und Zugriffskontrolle auf dem Host dokumentieren — besonders wenn Routing-Metriken und Kundendaten auf demselben dedizierten Knoten landen.

Methodisch gilt: OpenRouter aggregiert anonymisierte Plattformdaten; Ihre Gateway-Logs sind die Ground Truth fuer Ihr Produkt. Triangulation aus drei Quellen — oeffentliches Ranking, Branchenberichte (z. B. Presse vom 25. Mai 2026) und eigene x-cost-cents-Header — reduziert das Risiko, eine Marketing-Kampagne als Dauertrend zu interpretieren. Bei Abweichungen zwischen Marktanteil und eigener Rechnung liegt oft ein Szenario-Mismatch vor: Vielleicht routen Sie mehr Compliance-Traffic als der Durchschnittsnutzer, oder Ihre Agent-Kette erzeugt laengere Kontexte als der Median.

Fuer Datenschutzbeauftragte: Stealth-Modelle wie Owl Alpha koennen in AGBs Training oder Analyse vorsehen. Ein Wochenplatz in den Top 10 bedeutet nicht «DSGVO-konform fuer Kundendaten». Taggen Sie solche Pfade als experimental und halten Sie sie aus Produktions-Buckets mit personenbezogenen Inhalten fern — unabhaengig vom Token-Rang.

Kennzahl Wert (18.–24.5.) WoW Einordnung
Globale Wochen-Token28,9 Billionen+7,4%Fuenfte Steigerung in Folge
Chinesische Modelle9,223 Billionen+19,89%Vier Wochen vor USA
US-Modelle4,93 Billionen+16,27%Wachstum unter China-Quote
Vorjahres-Baselineca. 2,4 Billionenca. 12× YoY

Modell-Top 10: DeepSeek-V4-Flash mit 3,43T an der Spitze

Die Woche zeigt klare Schichten: Extrem guenstig, hoher Durchsatz (DeepSeek-V4-Flash, Step 3.5 Flash), nach Gratisphase weiter stark (Tencent Hy3 Preview), Enterprise-Code (Claude Sonnet 4.6), kostenlose Agent-Spezialisierung (Owl Alpha). Stand 24. Mai 2026:

Rang Modell Anbieter Wochen-Token WoW Profil
1DeepSeek-V4-FlashDeepSeek (CN)3,43T+66%Agent-Workflows, Mindestpreis
2Tencent Hy3 PreviewTencent (CN)3,07T+16%Nach Gratisende weiter stark
3Claude Sonnet 4.6Anthropic (US)1,35T1M Kontext, Enterprise-Code
4DeepSeek-V3.2DeepSeek (CN)1,31TGuenstiges Long-Tail
5Owl Alpha (anonym)OpenRouter1,15T+29%Gratis Agent, 1M Kontext
6Gemini 3 Flash PreviewGoogle (US)1,06TMultimodal, Akademie/Medizin
7DeepSeek-V4-ProDeepSeek (CN)1,00TFlaggschiff (Serie 5,74T)
8MiniMax M2.7MiniMax (CN)806BLong-Context Preis-Leistung
9Grok 4.1 FastxAI (US)721B2M Kontext, Recht
10Step 3.5 FlashStepFun (CN)673BSchnell, guenstig, Batch

Hinweis: Kimi K2.6 war Vorwoche Rang 6, faellt aus den Top 10. Drei DeepSeek-Modelle unter den ersten neun Plaetzen; Seriensumme 5,74 Billionen Token (+25,9 % WoW), zwei Wochen in Folge vor Anthropic und Google — Anbieter-Rang 1. Das ist Matrix-Strategie: Flash fuer Volumen, Pro fuer Qualitaet, V3.2 fuer Long-Tail — kein Einzel-Hit.

Tencent Hy3 Preview mit 3,07T zeigt, dass Gratis-Kampagnen nicht automatisch «einmalige Spikes» sind: Nach Ende der Promophase blieb das Wachstum bei +16 % WoW. Fuer Einkauf bedeutet das: Neue Top-10-Einsteiger frueh in Canary-Pfade aufnehmen, aber Vertrags- und Datenschutzbedingungen separat pruefen. Claude Sonnet 4.6 haelt mit 1,35T die Enterprise-Code-Schicht — kein Wunder, dass er trotz Preisdruck in den Top 3 bleibt: lange Kontexte, stabile Tool-XML und etablierte Compliance-Narrative sprechen fuer sich.

Owl Alpha als anonymes Gratis-Modell mit 1,15T ist der Wildcard-Eintrag: attraktiv fuer Experimente, riskant fuer regulierte Daten. Gemini 3 Flash und Grok 4.1 Fast decken Multimodal- bzw. Ultra-Long-Context-Nischen ab — relevant, wenn Ihr Gateway nicht nur Code, sondern auch Dokument-Pipelines bedient.

Anbieterlandschaft: die zwei Wahrheiten Token vs. Dollar

Drei Marktschichten sind erkennbar:

  • Hoher Wert, wenig Volumen: Anthropic Claude Opus — komplexes Reasoning, starke Zahlungsbereitschaft
  • Mittelfeld: Google Gemini Flash — Multimodal, Forschung
  • Mindestpreis, hohes Volumen: DeepSeek, MiniMax, StepFun — Agent, Code, Batch

Chinesische Modelle: Anfang 2025 unter 2 % Traffic, Februar 2026 erstmals vor USA, Mai 2026 ca. 45 %+ und vier Wochen Spitze. Anthropics Paradox: Token-Anteil ca. 12 % (vor einem Jahr ca. 25 %), Dollar-Anteil ca. 46 %. Claude Opus 4.6 Monatsumsatz grob 25 Mio. USD, Token-Volumen ein Bruchteil von DeepSeek — Enterprise zahlt Premium, Volumenhoheit liegt beim guenstigen Lager.

Fuer deutsche Datenschutzbeauftragte: guenstige CN-API-Pfade erfordern oft Transfer Impact Assessment; Premium-US-Pfade AV-Vertrag und Region — beides laesst sich per Gateway-Tier trennen, wenn Logs und Keys auf einem auditierbaren Host liegen.

Die Schere zwischen Token- und Dollar-Anteil ist kein akademisches Detail. Sie erklaert, warum Anthropic trotz sinkendem Volumen weiterhin Umsatzstark bleibt: Unternehmen zahlen fuer Aufgaben, bei denen ein Fehler teurer ist als ein guenstiger Token. DeepSeek gewinnt die Masse der Iterationen — Agent-Schleifen, Regressionstests, Batch-Zusammenfassungen — wo Fehlerrate durch Retries absorbierbar ist. Beide Welten koexistieren; der Fehler ist, eine davon als «veraltet» zu behandeln.

Investoren lesen dieselben Zahlen anders: OpenRouter-Bewertungen im Bereich ~26× PS signalisieren, dass Aggregatoren vom Volumenboom profitieren, unabhaengig davon, welcher Einzelanbieter die Woche gewinnt. Fuer Sie als Betreiber zaehlt: Sinkt Ihr Dollar-Anteil pro geliefertem Feature schneller als die Token-Inflation steigt? Wenn ja, skaliert das Geschaeft; wenn nein, brauchen Sie aggressiveres Tier-Routing.

Dimension DeepSeek-Matrix Anthropic Lesart
Wochen-TokenSerie 5,74T, Anbieter #1Sonnet 1,35T u. a.Volumen bei CN Open Source
Token-Trendstark (V4-Flash +66%)ca. 12 %, ruecklaeufigTeueres Modell verliert Masse
Dollar-AnteilMindestpreis, wenig Umsatzca. 46 %Premium-Tasks zahlen weiter
Typische TasksAgent, Batch, Code-RegressionCompliance, Finanz, Code-ReviewNicht 1:1 austauschbar

Gegenintuition: Benchmark-Score und Marktanteil nahezu invertiert

Der OpenRouter-a16z-Bericht 2025 ueber ca. 100 Billionen Token zeigt: Benchmark-Rang und realer Marktanteil korrelieren oft negativ. Gruende:

  • Entwickler optimieren Inferenzkosten — von 30 USD/M Output auf 0,28 USD/M schrumpft ein SWE-bench-Abstand von 8 Punkten oft durch Engineering.
  • Agent-Pipelines brauchen stabile Tool-Calls und Latenz, nicht nur Spitzen-Reasoning.
  • Code-Anteil stieg von ca. 11 % Anfang 2025 auf ueber 50 % — Hauptkampfzone von V4-Flash und Sonnet 4.6.
info

Fazit: Rechnungszahlen sind ehrlicher als jede Rangliste. Investoren nutzen sie fuer Commercialization (OpenRouter-Bewertung grob 26× PS), Entwickler fuer Modellwahl, Analysten fuer Trends — Token-Durchsatz ist Wirtschaftsindikator geworden.

Konkret fuer Engineering: Wenn mehr als die Haelfte Ihres Traffics Code-bezogen ist, muessen Preislisten pro Million Output-Token wichtiger sein als MMLU. Ein Modell mit 8 Punkten weniger auf SWE-bench, aber 100× guenstigerem Output, gewinnt in Agent-Loops mit fuenf Iterationen — solange die Fehlerrate unter Ihrer Retry-Schwelle bleibt. Messen Sie deshalb nicht nur «Qualitaet pro Aufruf», sondern «Qualitaet pro Euro» und «Qualitaet pro Kalendertag» inklusive menschlicher Nacharbeit.

Der a16z-Befund erklaert auch, warum Keynotes selten den Wochenverlauf vorhersagen: Hersteller optimieren auf Benchmark-Headlines; Nutzer optimieren auf Rechnung und Latenz. Ihre Routing-Policy sollte beide Signale explizit gewichten — z. B. 70 % Gewicht auf 30-Tage-Kosten-Trend, 30 % auf Benchmark-Floor fuer Tier critical.

Acht Schritte: Wochenranking in Routing uebersetzen

  1. Wochenrhythmus: Montags OpenRouter Rankings — Top-10-WoW und Neueinsteiger (Hy3 Preview, Owl Alpha) notieren.
  2. Eigene Rechnung spiegeln: Gateway-Token und USD der letzten 7 Tage exportieren; bei Abweichung gelten eigene Logs. DSGVO: keine Roh-Prompts in unkontrollierten Exporten.
  3. Szenario-Buckets: Agent/Batch → DeepSeek-V4-Flash; komplexes Reasoning → Claude Opus; Multimodal → Gemini Flash — Details im Juni-Szenario-Guide.
  4. Primaer + Fallback: OpenClaw Multi-Provider fuer critical vs. bulk Ketten.
  5. Neue Top-10 mit 5 % Grau: Owl Alpha, Hy3 Preview — Latenz und Fehlerrate messen vor Vollrollout.
  6. Zwei KPIs: Kosten pro Million Token und Primaer→Fallback-Rate; drei Retries auf Billigmodell koennen teurer sein als ein Premium-Call.
  7. Quartalsreview Anbieter-Matrix: Seriensummen statt Einzelmodell-Rang — DeepSeek-Logik.
  8. Fester Gateway-Host: 7×24 ohne Notebook-Sleep; Topologie im SSH-Gateway-Runbook.

Die acht Schritte sind absichtlich operativ formuliert. Schritt 2 (eigene Rechnung) verhindert, dass Sie ein globales Ranking blind kopieren. Schritt 6 (Dual-KPI) verhindert den klassischen Fehler «guenstiges Modell + drei Retries». Schritt 8 (fester Host) ist unter DSGVO-Gesichtspunkten relevant: zentrale Logs auf einem dedizierten System erleichtern Zugriffskontrolle, Schluesselrotation und Loeschkonzept — im Gegensatz zu verteilten Laptop-Logs, die bei Audit-Luecken enden.

Verknuepfen Sie das Woechenritual mit Ihrem Change-Management: Ein neuer Top-10-Eintrag ist kein automatisches Go fuer Production, aber ein Trigger fuer einen Eintrag im Routing-Changelog. So bleibt nachvollziehbar, warum Sie in Woche 21 Hy3 auf 5 % Canary gesetzt haben — wichtig, wenn der Datenschutzbeauftragte Monate spaeter nachfragt.

Drei harte Zahlen fuer das Architektur-Review

  • 12× Wochenwachstum: von ca. 2,4T auf 28,9T in einem Jahr — Inference ist Produktion.
  • Code >50 %: a16z × OpenRouter — Preiskurven fuer Code-Agenten, nicht Chat.
  • CN vs. US Wochenvolumen: 9,223T vs. 4,93T; CN +19,89 % vs. US +16,27 % — Routing: CN-Default fuer Bulk, US fuer critical, kein Single-Vendor.

Diese drei Kennzahlen eignen sich fuer ein Architektur-Review ohne Marketingfolien. 12× belegt, dass Kapazitaetsplanung fuer Gateway und Log-Retention keine Zukunftsmusik ist. Ueber 50 % Code-Anteil bedeutet: Wer noch Chat-Preise als Default nutzt, ueberzahlt systematisch. Die CN/US-Schere erinnert daran, Single-Vendor-Risiken zu vermeiden — Regionenausfaelle und Rate-Limits aendern sich schneller als Jahresvertraege.

Fazit: nicht wer am schlauesten wirbt, sondern wer am meisten aufgerufen wird

Der Markt stimmt mit dem Geldbeutel ab: chinesische Open-Source-Modelle verschieben das globale Volumen bei Mindestpreisen. Nicht die lauteste Keynote, sondern 28,9 Billionen Token pro Woche definieren die Hierarchie. Pragmatisch: Rechnung lesen, nicht nur Pressemitteilungen — OpenRouter aktualisiert woechentlich; Routing nach Task-Szenario und WoW-Delta anpassen.

Laeuft das Gateway auf Laptop oder geteiltem Rechner, entstehen drei versteckte Kosten: Sleep bricht Agent-Ketten, Jitter erhoeht Fallback-Rate, Logs verteilen sich — Wochenreview scheitert. Fuer 7×24 Multi-Provider, Wochenabgleich und stabile Agent-Exits lohnt oft ein dedizierter MACCOME Mac mini (M4 / M4 Pro); Tarife: Mietpreise, Routing: Mai-Matrix. Datenschutz-Dokumentation beim dedizierten Knoten vereinfacht Nachweise fuer Verarbeitungsverzeichnis und Loeschkonzept.

Langfristig gewinnt nicht das «intelligenteste» Modell der Keynote, sondern das oekonomisch tragfaehigste unter Ihrer Last. Das Wochenranking ist der kostenlose Sensor dafuer — nutzen Sie es woechentlich, reconcilieren Sie monatlich mit FinOps, und revisieren Sie quartalsweise die Vendor-Matrix. So wird aus oeffentlicher Marktdaten ein interner Wettbewerbsvorteil, ohne jedes Release blind zu folgen.

Haeufige Fragen

OpenRouter-Wochenranking oder SWE-bench — was ist verlaesslicher?

Unterschiedliche Fragen. SWE-bench: Einzelaufgaben-Obergrenze; Wochenranking: reale Token der letzten sieben Tage — Wallet-Vote der Entwickler. Primaer-Pool aus Ranking, Qualitaetsuntergrenze aus Benchmarks. Dedizierter Host: MACCOME Mietpreise.

DeepSeek-Spitze — Claude komplett ersetzen?

Nein. V4-Flash frisst Agent/Batch; Anthropic ~12 % Token, ~46 % Dollar. Critical → Claude, Bulk → DeepSeek. Syntax: OpenClaw Multi-Provider.

Daten bis 24. Mai — wie stark veraendert sich das Ranking im Juni?

7-Tage-Rolling — woechentlich neue Reihenfolge. Hier: Methodik und Mai-Harddata; aktuelle Top 10: Juni-Trendartikel. Betrieb: Hilfe-Center.