2026 OpenRouter Rankings im Detail: Kimi K2.6 an der Spitze, 45 % Marktanteil chinesischer Modelle und eine Entscheidungsmatrix fuer Multi-Modell-Routing gegen Claude/GPT-5/Gemini

Ca. 19 Min. Lesezeit · MACCOME

Wenn Sie ein Multi-Modell-Routing entwerfen und die OpenRouter Rankings Kimi K2.6 vor Claude Sonnet 4.6 setzen, waehrend chinesische Modelle bei 45%+ Token-Anteil stehen und Anthropic weiterhin 46,3 % Umsatz auf nur 12,3 % Token erzielt, beantwortet dieser Artikel vier Fragen: (1) Ist die Lage eine chinesische Vorherrschaft oder ein Schere-Effekt zwischen Token und Umsatz; (2) wo stehen die Top-10-Modelle praktisch nach Preis und Use Case; (3) wie sind die vertikalen Sieger in Coding, Roleplay, Recht, Health/Academia und Marketing zu lesen; (4) wie laesst sich eine Primaer-plus-Fallback-Strategie auf OpenClaw oder einem eigenen Gateway konkret konfigurieren. Der Beitrag ergaenzt OpenClaw Multi-Provider-Routing und private Modellintegration und konzentriert sich auf Daten, Wettbewerb und Routing-Entscheidungen.

Sechs typische Fehlinterpretationen der OpenRouter-Rangliste

  1. Wenn nur der Token-Anteil betrachtet wird und der Umsatzanteil aussen vor bleibt. Chinesische Anbieter halten 45%+ der Token, Anthropic allein bindet jedoch 46,3 % der Umsaetze auf 12,3 % der Token bei einem Mischpreis von 7,95 USD/M; OpenAI bewegt sich bei 9,8 % Token zu 24,2 % Umsatz und 5,25 USD/M. Wer Anteile als direktes Migrationssignal liest, ignoriert die Zahlungsbereitschaft fuer hochwertige Aufgaben.
  2. Wenn das Spitzenmodell als universell beste Loesung gilt. Kimi K2.6 (1,36 T Token wochentlich) gewinnt bei langen Agentenlaeufen und Batch-Workloads; Claude Sonnet 4.6 (1,35 T) gewinnt bei Coding und Enterprise-Integration. Ein einzelnes Chart-Ergebnis laesst sich nicht ohne Pruefung auf den eigenen Workload uebertragen.
  3. Wenn Benchmarkpunkte gleichgesetzt werden mit Preis-Leistung. SWE-bench Verified liefert 88,7 % fuer GPT-5.5, 87,6 % fuer Claude Opus 4.7, 80,6 % fuer Gemini 3.1 Pro und DeepSeek V4 Pro sowie 80,2 % fuer Kimi K2.6. Die Spannweite ist einstellig, die Preisspreizung erreicht jedoch das Fuenf- bis Zehnfache. Eine reine Score-Sortierung sprengt das Budget.
  4. Wenn vertikale Sieger auf alle Bereiche extrapoliert werden. DeepSeek V3.2 dominiert Roleplay mit 40,2 %, Grok 4.1 Fast fuehrt Legal, Gemini 3 Flash Preview bestimmt Health und Academia, Gemini 2.5 Flash Lite belegt Marketing mit 0,10/0,40 USD. Jeder vertikale Champion ist lokal; ein direkter Transfer ist ein klassisches Anti-Muster.
  5. Wenn die strukturelle Verschiebung der letzten 18 Monate unterschaetzt wird. Im Oktober 2024 lagen chinesische Modelle bei 1,2 %, im Maerz 2025 bei 10 %, im dritten Quartal 2025 ueber 25 %, im April 2026 ueber 45 %, im Mai 2026 berichten Beobachter teils 60%+. Es handelt sich nicht um Rauschen, sondern um eine Restrukturierung. Routing-Strategien benoetigen Elastizitaet fuer weitere Bewegungen in den naechsten zwei Quartalen.
  6. Wenn OpenRouter als Spiegel des Gesamtmarktes interpretiert wird. OpenRouter zeigt nur den Entwickler-Traffic ueber Drittparteien-Router. OpenAIs Kernkanaele sind ChatGPT und direkte Enterprise-APIs. Strategische Entscheidungen muessen die OpenRouter-Daten mit den eigenen Logs sowie direkten Vertraegen kombinieren.

Im Jahr 2026 hat sich der LLM-Markt von der Erzaehlung eines einzelnen Sieger entfernt und ist in eine Multipolare Routing-Landschaft mit einer Schere zwischen Token und Umsatz eingetreten. Anthropic verteidigt Enterprise-, Finanz- und Reasoning-Workloads zu Premiumpreisen. OpenAI ist auf OpenRouter geschwaecht, in ChatGPT und in Enterprise-Vertraegen jedoch stark. Google deckt mit Gemini Flash Lite bis Pro die gesamte Preisspanne ab. xAI etabliert sich in Verticals wie Legal. Die chinesischen Anbieter (Xiaomi MiMo, Moonshot Kimi, DeepSeek, Alibaba Qwen, MiniMax, Z.ai GLM, StepFun) verbinden 2,5- bis 8-fach guenstigere Preise mit offener oder Open-Weight-Strategie und langen Kontextfenstern und ziehen Coding-, Batch- und Roleplay-Workloads strukturell zu sich. Diese Landschaft korrekt zu lesen ist die Grundlage aller folgenden Entscheidungen.

Verwandter MACCOME-BeitragWas dieser Beitrag liefertWas dieser Beitrag nicht wiederholt
OpenClaw Multi-Provider-Routing und FailoverStrategiematrix aus Rangsichtprovider-Syntax, 429-Handling, Log-Felder
Private Modelle Ollama/vLLMPositionierung von Open-Weight-Modellen als FallbackHardware-Budgetierung und Lifecycle
Gateway Health-Probes und rollende UpdatesKopplung von Routing-Layer und Gateway-VerfuegbarkeitVollstaendige Probe-Parameter fuer Compose/K8s
SSH-Forwarded Gateway auf dediziertem MacWertbeitrag eines stabilen Hosts fuer RoutingPort-Forwarding, launchd, autossh-Details

Datengrundlage: Token, Umsatz und Mischpreis aus drei Blickwinkeln

Jede Routing-Entscheidung muss auf einer einheitlichen Datenbasis aufsetzen. Die folgende Tabelle aggregiert die OpenRouter-Daten fuer April und Mai 2026 nach Anbieter: woechentlicher Token-Anteil, mit offiziellem Preis gewichteter Umsatzanteil und Mischpreis pro Million Token. Wenn alle drei Spalten zusammen gelesen werden, lassen sich drei Wettbewerbsmodi unterscheiden: viel Volumen bei niedrigem Preis, wenig Volumen bei hohem Preis und gleichzeitiges Wachstum beider Groessen.

AnbieterToken-AnteilUmsatzanteilMischpreis $/MFlaggschiff
Anthropic12,3%46,3%$7.95Claude Opus 4.7 / Sonnet 4.6
Google13,3%7,0%$1.12Gemini 3 Flash Preview / 3.1 Pro
Xiaomi (CN)13,0%9,0%$1.47MiMo-V2-Pro
Alibaba/Qwen (CN)12,7%4,6%$0.77Qwen 3.6 Plus
OpenAI9,8%24,2%$5.25GPT-5.5 / GPT-5.4
MiniMax (CN)9,5%2,1%$0.48MiniMax M2.7 / M2.5
DeepSeek (CN)6,3%0,9%$0.30DeepSeek V3.2 / V4 Pro
Moonshot AI (CN)ca. 5%ca. 2%$1.50Kimi K2.6
Z.ai/Zhipu (CN)5,6%$0.80-1.20GLM-5 / GLM-5 Turbo
StepFun (CN)5,3%ca. $0.50Step 3.5 Flash

Drei Wettbewerbsmodi treten sofort zutage. (a) Volumen und Preis steigen gemeinsam: Anthropic uebersetzt einen hohen Mischpreis in einen ueberdurchschnittlich hohen Umsatzanteil. (b) Hohes Volumen zu niedrigem Preis: DeepSeek und MiniMax bedienen Batch-Workloads zu 0,30-0,50 USD pro Million Token. (c) Mittleres Band: Google und Xiaomi besetzen die Mitte. OpenAI haelt 24,2 % Umsatz, verliert aber Token (9,8 %) und verlagert sein Geschaeft sichtbar auf ChatGPT und Direktvertraege.

In Routing-Sprache uebersetzt: Wenn-Dann-Regeln senden zahlungsstarke Aufgaben zu Anthropic und OpenAI, Bulk-Last zu chinesischen Anbietern und nutzen Google als elastischen Balancer dazwischen.

Top 10 Modelle und vertikale Sieger im Ueberblick

Die folgenden Tabellen zeigen die wochentliche Top 10 nach Token und die jeweiligen Sieger in fuenf Kernverticals. Sie bilden den Startpunkt fuer eine Default-Queue und eine Fallback-Liste im Routing-Layer.

RangModellAnbieterWochentliche TokenProfil
1Kimi K2.6Moonshot (CN)1,36 TMoE 1T/32B, langlaufende Agent-Swarms
2Claude Sonnet 4.6Anthropic (US)1,35 T1M Kontext, Coding, Enterprise
3DeepSeek V3.2DeepSeek (CN)1,31 TDSA Sparse Attention, sehr niedriger Preis, Roleplay-Sieger
4Claude Opus 4.7Anthropic (US)1,14 TAnthropic-Flaggschiff, komplexes Reasoning
5Gemini 3 Flash PreviewGoogle (US)1,06 T1M Kontext, multimodal, Health/Academia
6MiniMax M2.7MiniMax (CN)806 BLong-Context-Preis-Leistung
7Grok 4.1 FastxAI (US)721 B2M Kontext, Legal #1
8Claude Opus 4.6Anthropic (US)699 BVoriges Flaggschiff, stabiler Fallback
9MiniMax M2.5MiniMax (CN)698 BCoding-Preis-Leistung, $0,30/$1,20
10Step 3.5 FlashStepFun (CN)673 BSchnell und guenstig, Batch
VerticalSieger$/M (in/out)Erfolgsfaktor
CodingGPT-5.5 / Claude Opus 4.7$5/$30; $5/$25Hoechste SWE-bench-Werte, hochwertige Aufgaben
RoleplayDeepSeek V3.2 (40,2 %)ca. $0.30Aggressive Preise plus Community
LegalGrok 4.1 FastMittlere Preise2M Kontext fuer lange Dokumente
Health/AcademiaGemini 3 Flash Preview$0.30-$1Multimodal plus Long-Context plus Wissensgraph
MarketingGemini 2.5 Flash Lite$0.10/$0.40Extrem niedriger Preis fuer Bulk-Entwuerfe

Preis-Leistungs-Grenze: SWE-bench gegen $/M Token

Im Coding-Bereich verlaufen Preis und Leistung nicht linear. Die folgende Tabelle setzt die wichtigsten Modelle vom Mai 2026 auf zwei Achsen: SWE-bench Verified und Mischpreis pro Million Token. So wird sichtbar, wie viel jeder zusaetzliche Prozentpunkt Genauigkeit kostet.

ModellSWE-bench VerifiedInput $/MOutput $/MKontextGrenzkosten je 1 % (in/out)
GPT-5.588,7%$5,00$30,00200KSpitzen-Baseline
Claude Opus 4.787,6%$5,00$25,001M17 % guenstiger im Output
Claude Opus 4.680,8%$5,00$25,001M-7pp, gleicher Preis
Gemini 3.1 Pro80,6%$2,00$12,001M-8pp, 60%/60% Ersparnis
DeepSeek V4 Pro (Max)80,6%$0,435$0,871M-8pp, 91%/97% Ersparnis
MiniMax M2.580,2%$0,30$1,201M-8,5pp, 94%/96% Ersparnis
Kimi K2.680,2%$0,75$3,50128K-8,5pp, 85%/88% Ersparnis
GPT-5.478,2%$2,50$15,00200K-10,5pp, 50%/50% Ersparnis
MiMo-V2-Pro78,0%$1,00$3,001M-10,7pp, 80%/90% Ersparnis
DeepSeek V4 Flashca. 79%$0,14$0,281M-9,7pp, 97%/99% Ersparnis
info

Lesweise der Grenze: Der Wechsel von GPT-5.5 (88,7 %) auf das 80%-Band kostet rund 8 Prozentpunkte Genauigkeit, reduziert den Output-Preis aber von 30 USD/M auf 0,87 bis 3,50 USD/M und bringt damit 85 bis 97 % Einsparung. Genau darin liegt die Datengrundlage fuer eine Primaer-plus-Fallback-Strategie: Premium-Modelle auf kritischen Pfaden, Bulk- und Regressionsarbeit auf DeepSeek V4 Pro oder Kimi K2.6 fuer rund ein Zehntel der Kosten.

Vier Routing-Strategien: Primaer plus Fallback je Workload

Die Tabelle organisiert Multi-Modell-Routing nach vier Geschaeftsprioritaeten. Jede Zeile nennt Primaer, ersten Fallback, zweiten Fallback und den jeweiligen Trigger. Sie laesst sich direkt als Startkonfiguration fuer OpenRouter, OpenClaw oder ein eigenes Gateway verwenden.

StrategiePrimaerErster FallbackZweiter FallbackTrigger
Qualitaet zuerst (Enterprise, Finanzen, Reasoning)Claude Opus 4.7GPT-5.5Gemini 3.1 ProCompliance-Reviews, kritische Entscheidungen, lange Ketten
Kosten zuerst (Batch, interne Tools)DeepSeek V4 ProMiniMax M2.5DeepSeek V4 FlashTickets, Zusammenfassungen, Regressionstests
Compliance zuerst (Datenlokalitaet, Aufsicht)Regionales Gemini / ClaudeRegionales Qwen / KimiSelbst gehostet Ollama / vLLMDSGVO, regulierte Finanzen, behoerdliche Daten
Kontextlaenge zuerst (Codebasen, lange Berichte)Gemini 3.1 Pro (1M)Grok 4.1 Fast (2M)Claude Sonnet 4.6 (1M)Repo-Analyse, lange Vertraege, Jahresberichte

Die vier Strategien schliessen sich nicht aus. Innerhalb desselben Teams duerfen verschiedene Services auf unterschiedlichen Zeilen liegen. Der Gateway taggt jeden Request mit x-task-tier und steuert daraufhin: Entwicklerassistenz und Code Review folgen der Qualitaetsspur, Commit-Messages, Zusammenfassungen und interne Suche der Kostenspur. Fallback-Queues feuern nur, wenn der Primaerpfad 429, 503 oder Timeouts liefert.

Sechs Schritte zur Inbetriebnahme

  1. Traffic-Profil erstellen. Exportieren Sie Prompt- und Response-Tokens, die durchschnittliche Kontextlaenge und Per-Service-Buckets fuer die letzten 30 Tage. In den meisten Teams sind nur 10 bis 20 % der Tokens wirklich hochwertig.
  2. Requests taggen. Setzen Sie einen Header x-task-tier (critical/standard/bulk/experimental). Critical laeuft auf der Qualitaetsspur, bulk auf der Kostenspur, experimental wird fuer A/B-Tests neuer Modelle reserviert.
  3. Provider und Fallbacks konfigurieren. Uebernehmen Sie die YAML-Beispiele aus dem OpenClaw Multi-Provider-Routing. In OpenRouter kombinieren Sie das Feld route mit einer fallback_models-Liste.
  4. Kostentelemetrie verankern. Schreiben Sie x-provider-used und x-cost-cents in die Antwortheader und reconcilieren Sie taeglich, denn ein guenstiges Modell mit drei Retries kann teurer sein als ein Premium-Modell mit einem Aufruf.
  5. Den unhappy path trainieren. Injizieren Sie 429, 502 und Timeouts und pruefen Sie zusammen mit Gateway Health Probes, ob Fallbacks korrekt feuern und die Verfuegbarkeit nicht durch einen einzelnen Provider faellt.
  6. Quartalsweiser Review. Legen Sie die Quartalstrends der OpenRouter Rankings (chinesische Quote, Preise, neue Releases) neben Ihre eigenen 30-Tage-Logs in derselben Sitzung und entscheiden Sie ueber Primaerwechsel. So werden oeffentliche Daten zu tatsaechlichen Entscheidungen.

Drei OKR-taugliche Metriken

  • Mischkosten pro Million Token je Tier. Halten Sie critical bei 5 bis 10 USD/M Output und druecken Sie bulk auf 0,5 bis 2 USD/M Output. Quartal fuer Quartal soll eine Reduktion von mindestens 15 % sichtbar sein; sonst bleibt die Strategie theoretisch.
  • Fallback-Triggerrate. Primaer zu erstem Fallback soll unter 5 % liegen. Mehr als 10 % deuten auf zu geringe Primaerquoten oder instabile Anbieter und erfordern eine Anpassung der Fallback-Gewichte.
  • Konzentration auf einen Anbieter. Ein einzelner Provider soll nicht mehr als 60 % der Tokens halten, sonst gefaehrden Regionsausfaelle (z. B. 1,5 Stunden Ausfall im April 2026) das gesamte Produkt. Das Prinzip entspricht dem Konzept Selber-Preis-mehrere-Regionen fuer Mac-Knoten und ist in der Selber-Preis-Matrix beschrieben.

Ausblick und Zusammenfassung: der Wettbewerb endet nicht bei 45 %

Drei strukturelle Kraefte werden die Routing-Landschaft im zweiten Halbjahr 2026 weiter formen. (a) Der Preisspielraum nach unten ist nicht ausgereizt. DeepSeek V4 Flash drueckte den Input auf 0,14 USD/M; Step 3.5 Flash und GLM-5 Turbo testen ebenfalls aggressivere Preise. (b) Die Kontextfenster wachsen weiter. Grok 4.1 Fast liegt bei 2M, Claude und Gemini bei 1M, Kimi noch bei 128K. Der Knickpunkt fuer Repo-Analysen und lange Vertraege liegt zwischen 1M und 2M. (c) Die Grenze zwischen offen und geschlossen neigt sich Richtung offen. Open-Weight-Veroeffentlichungen von DeepSeek, Qwen und Kimi erlauben Unternehmen, Workloads zwischen OpenRouter-API und selbst gehosteten Kopien zu verschieben. Zusammen mit der Mai-CNBC-Recherche zum neunfachen Kostenunterschied entsteht ein dauerhafter Druck auf die IPO-Bewertungen geschlossener Frontier-Anbieter.

In der Praxis komprimiert sich das auf vier Tatigkeiten: Tagging, Primaer, Fallback, Review. Damit das stabil laeuft, muss die Routing-Schicht selbst auf einer Umgebung leben, die nicht offline geht, wenn ein Notebook zuklappt. Genau das ist die physische Grundlinie eines 24/7-Multi-Modell-Routings und zugleich ein Datenschutz- und DSGVO-relevanter Punkt, weil viele Logs und Token-Spuren auf demselben Host gesammelt und beim Audit nachweisbar bleiben muessen.

Wenn das Gateway und das Provider-Routing weiterhin auf Notebooks oder gemischten Workstations laufen, akzeptieren Sie drei versteckte Kosten: kritische Pfade fallen im Sleep aus, lokales Netzwerkjittering loesst falsche Fallbacks aus und Quartalsreviews zerfallen ueber mehrere Maschinen. Fuer einen Produktions-Gateway mit 24/7-Verfuegbarkeit, Multi-Provider-Routing und runbookfaehigem Betrieb ist es in der Regel guenstiger und auditierbarer, OpenClaw oder einen eigenen Gateway auf einem dedizierten MACCOME Mac mini (M4 / M4 Pro) und flexiblen Mietzeiten in sechs Regionen zu betreiben. Tarife sind im Mehrregionen-Knotenpreis-Leitfaden aufgefuehrt; die Topologie ist im SSH-Forwarded Gateway Runbook beschrieben.

Haeufige Fragen

Bedeutet 45 %+ Token-Anteil chinesischer Modelle, dass wir komplett auf guenstige Modelle migrieren sollten?

Nein. Der 45-%-Anteil basiert auf Coding, Batch-Verarbeitung und Long-Context, waehrend Anthropic 46,3 % der Umsaetze auf 12,3 % Token erzielt. Sinnvoll ist eine duale Routing-Strategie: Critical-Pfade auf Claude Opus 4.7 oder GPT-5.5, Bulk-Pfade auf Kimi K2.6 oder DeepSeek V4 Pro. Topologische Details finden sich auf der Preisseite.

Wie pruefen wir die Belastbarkeit der OpenRouter-Daten?

Triangulation aus drei Quellen: OpenRouter Rankings, unabhaengige Analysen (CodeSOTA, digitalapplied) und die eigenen Gateway-Logs. Stimmen alle Trends, ist die Datenlage entscheidungsreif. Andernfalls sind die eigenen Logs Pflicht. Unterstuetzung beim Onboarding bietet das Hilfe-Center.

Wo bleiben Premium-Modelle wie Claude Opus 4.7 oder GPT-5.5 unverzichtbar?

Drei Bereiche: (1) komplexes mehrstufiges Reasoning und lange Toolketten, in denen 87 % SWE-bench fuer einen verlaesslichen Erstdurchlauf noetig sind; (2) Enterprise-Compliance und Finanzaudit mit Anthropic-Schutzschienen und SLA; (3) Multimodale Workflows mit 1M Kontext und strukturierten Dokumenten. In all diesen Faellen sind die Mehrkosten pro Prozentpunkt Genauigkeit niedriger als die Summe aus Retries guenstiger Modelle und Nacharbeit durch Engineering.