Bedeutet ein Marktanteil chinesischer Modelle von 45 %+ auf OpenRouter, dass eine vollstaendige Migration auf guenstige Modelle sinnvoll ist?

Nein. Der Token-Anteil von 45 % wird vor allem von Coding, Batch-Verarbeitung und Long-Context-Aufgaben getragen, waehrend Anthropic mit nur 12,3 % Token immer noch 46,3 % der Umsaetze stellt. Wert-orientierte Aufgaben gehoeren weiter zu Claude und GPT-5. Wir empfehlen ein duales Routing: Primaerpfade auf Claude Opus 4.7 oder GPT-5.5, Bulk-Pfade auf Kimi K2.6 oder DeepSeek V4 Pro.

Wie ueberpruefen wir die Belastbarkeit der OpenRouter-Daten?

Wir empfehlen eine Triangulation aus drei Quellen: die offizielle OpenRouter-Rankings-Seite, unabhaengige Analysen wie CodeSOTA oder digitalapplied sowie die eigenen Gateway-Logs. Stimmen alle drei in Trend und Groessenordnung ueberein, ist die Datenlage entscheidungsreif. Bei Abweichungen sind die eigenen Logs die letzte Wahrheit; die oeffentlichen Daten dienen der Budgetkalibrierung.

2026 OpenRouter Rankings im Detail: Kimi K2.6 an der Spitze, 45 % Marktanteil chinesischer Modelle und eine Entscheidungsmatrix fuer Multi-Modell-Routing gegen Claude/GPT-5/Gemini

Ca. 19 Min. Lesezeit · MACCOME

Wenn Sie ein Multi-Modell-Routing entwerfen und die OpenRouter Rankings Kimi K2.6 vor Claude Sonnet 4.6 setzen, waehrend chinesische Modelle bei 45%+ Token-Anteil stehen und Anthropic weiterhin 46,3 % Umsatz auf nur 12,3 % Token erzielt, beantwortet dieser Artikel vier Fragen: (1) Ist die Lage eine chinesische Vorherrschaft oder ein Schere-Effekt zwischen Token und Umsatz; (2) wo stehen die Top-10-Modelle praktisch nach Preis und Use Case; (3) wie sind die vertikalen Sieger in Coding, Roleplay, Recht, Health/Academia und Marketing zu lesen; (4) wie laesst sich eine Primaer-plus-Fallback-Strategie auf OpenClaw oder einem eigenen Gateway konkret konfigurieren. Der Beitrag ergaenzt OpenClaw Multi-Provider-Routing und private Modellintegration und konzentriert sich auf Daten, Wettbewerb und Routing-Entscheidungen.

Sechs typische Fehlinterpretationen der OpenRouter-Rangliste

Wenn nur der Token-Anteil betrachtet wird und der Umsatzanteil aussen vor bleibt. Chinesische Anbieter halten 45%+ der Token, Anthropic allein bindet jedoch 46,3 % der Umsaetze auf 12,3 % der Token bei einem Mischpreis von 7,95 USD/M; OpenAI bewegt sich bei 9,8 % Token zu 24,2 % Umsatz und 5,25 USD/M. Wer Anteile als direktes Migrationssignal liest, ignoriert die Zahlungsbereitschaft fuer hochwertige Aufgaben.
Wenn das Spitzenmodell als universell beste Loesung gilt. Kimi K2.6 (1,36 T Token wochentlich) gewinnt bei langen Agentenlaeufen und Batch-Workloads; Claude Sonnet 4.6 (1,35 T) gewinnt bei Coding und Enterprise-Integration. Ein einzelnes Chart-Ergebnis laesst sich nicht ohne Pruefung auf den eigenen Workload uebertragen.
Wenn Benchmarkpunkte gleichgesetzt werden mit Preis-Leistung. SWE-bench Verified liefert 88,7 % fuer GPT-5.5, 87,6 % fuer Claude Opus 4.7, 80,6 % fuer Gemini 3.1 Pro und DeepSeek V4 Pro sowie 80,2 % fuer Kimi K2.6. Die Spannweite ist einstellig, die Preisspreizung erreicht jedoch das Fuenf- bis Zehnfache. Eine reine Score-Sortierung sprengt das Budget.
Wenn vertikale Sieger auf alle Bereiche extrapoliert werden. DeepSeek V3.2 dominiert Roleplay mit 40,2 %, Grok 4.1 Fast fuehrt Legal, Gemini 3 Flash Preview bestimmt Health und Academia, Gemini 2.5 Flash Lite belegt Marketing mit 0,10/0,40 USD. Jeder vertikale Champion ist lokal; ein direkter Transfer ist ein klassisches Anti-Muster.
Wenn die strukturelle Verschiebung der letzten 18 Monate unterschaetzt wird. Im Oktober 2024 lagen chinesische Modelle bei 1,2 %, im Maerz 2025 bei 10 %, im dritten Quartal 2025 ueber 25 %, im April 2026 ueber 45 %, im Mai 2026 berichten Beobachter teils 60%+. Es handelt sich nicht um Rauschen, sondern um eine Restrukturierung. Routing-Strategien benoetigen Elastizitaet fuer weitere Bewegungen in den naechsten zwei Quartalen.
Wenn OpenRouter als Spiegel des Gesamtmarktes interpretiert wird. OpenRouter zeigt nur den Entwickler-Traffic ueber Drittparteien-Router. OpenAIs Kernkanaele sind ChatGPT und direkte Enterprise-APIs. Strategische Entscheidungen muessen die OpenRouter-Daten mit den eigenen Logs sowie direkten Vertraegen kombinieren.

Im Jahr 2026 hat sich der LLM-Markt von der Erzaehlung eines einzelnen Sieger entfernt und ist in eine Multipolare Routing-Landschaft mit einer Schere zwischen Token und Umsatz eingetreten. Anthropic verteidigt Enterprise-, Finanz- und Reasoning-Workloads zu Premiumpreisen. OpenAI ist auf OpenRouter geschwaecht, in ChatGPT und in Enterprise-Vertraegen jedoch stark. Google deckt mit Gemini Flash Lite bis Pro die gesamte Preisspanne ab. xAI etabliert sich in Verticals wie Legal. Die chinesischen Anbieter (Xiaomi MiMo, Moonshot Kimi, DeepSeek, Alibaba Qwen, MiniMax, Z.ai GLM, StepFun) verbinden 2,5- bis 8-fach guenstigere Preise mit offener oder Open-Weight-Strategie und langen Kontextfenstern und ziehen Coding-, Batch- und Roleplay-Workloads strukturell zu sich. Diese Landschaft korrekt zu lesen ist die Grundlage aller folgenden Entscheidungen.

Verwandter MACCOME-Beitrag	Was dieser Beitrag liefert	Was dieser Beitrag nicht wiederholt
OpenClaw Multi-Provider-Routing und Failover	Strategiematrix aus Rangsicht	provider-Syntax, 429-Handling, Log-Felder
Private Modelle Ollama/vLLM	Positionierung von Open-Weight-Modellen als Fallback	Hardware-Budgetierung und Lifecycle
Gateway Health-Probes und rollende Updates	Kopplung von Routing-Layer und Gateway-Verfuegbarkeit	Vollstaendige Probe-Parameter fuer Compose/K8s
SSH-Forwarded Gateway auf dediziertem Mac	Wertbeitrag eines stabilen Hosts fuer Routing	Port-Forwarding, launchd, autossh-Details

Datengrundlage: Token, Umsatz und Mischpreis aus drei Blickwinkeln

Jede Routing-Entscheidung muss auf einer einheitlichen Datenbasis aufsetzen. Die folgende Tabelle aggregiert die OpenRouter-Daten fuer April und Mai 2026 nach Anbieter: woechentlicher Token-Anteil, mit offiziellem Preis gewichteter Umsatzanteil und Mischpreis pro Million Token. Wenn alle drei Spalten zusammen gelesen werden, lassen sich drei Wettbewerbsmodi unterscheiden: viel Volumen bei niedrigem Preis, wenig Volumen bei hohem Preis und gleichzeitiges Wachstum beider Groessen.

Anbieter	Token-Anteil	Umsatzanteil	Mischpreis $/M	Flaggschiff
Anthropic	12,3%	46,3%	$7.95	Claude Opus 4.7 / Sonnet 4.6
Google	13,3%	7,0%	$1.12	Gemini 3 Flash Preview / 3.1 Pro
Xiaomi (CN)	13,0%	9,0%	$1.47	MiMo-V2-Pro
Alibaba/Qwen (CN)	12,7%	4,6%	$0.77	Qwen 3.6 Plus
OpenAI	9,8%	24,2%	$5.25	GPT-5.5 / GPT-5.4
MiniMax (CN)	9,5%	2,1%	$0.48	MiniMax M2.7 / M2.5
DeepSeek (CN)	6,3%	0,9%	$0.30	DeepSeek V3.2 / V4 Pro
Moonshot AI (CN)	ca. 5%	ca. 2%	$1.50	Kimi K2.6
Z.ai/Zhipu (CN)	5,6%	—	$0.80-1.20	GLM-5 / GLM-5 Turbo
StepFun (CN)	5,3%	—	ca. $0.50	Step 3.5 Flash

Drei Wettbewerbsmodi treten sofort zutage. (a) Volumen und Preis steigen gemeinsam: Anthropic uebersetzt einen hohen Mischpreis in einen ueberdurchschnittlich hohen Umsatzanteil. (b) Hohes Volumen zu niedrigem Preis: DeepSeek und MiniMax bedienen Batch-Workloads zu 0,30-0,50 USD pro Million Token. (c) Mittleres Band: Google und Xiaomi besetzen die Mitte. OpenAI haelt 24,2 % Umsatz, verliert aber Token (9,8 %) und verlagert sein Geschaeft sichtbar auf ChatGPT und Direktvertraege.

In Routing-Sprache uebersetzt: Wenn-Dann-Regeln senden zahlungsstarke Aufgaben zu Anthropic und OpenAI, Bulk-Last zu chinesischen Anbietern und nutzen Google als elastischen Balancer dazwischen.

Top 10 Modelle und vertikale Sieger im Ueberblick

Die folgenden Tabellen zeigen die wochentliche Top 10 nach Token und die jeweiligen Sieger in fuenf Kernverticals. Sie bilden den Startpunkt fuer eine Default-Queue und eine Fallback-Liste im Routing-Layer.

Rang	Modell	Anbieter	Wochentliche Token	Profil
1	Kimi K2.6	Moonshot (CN)	1,36 T	MoE 1T/32B, langlaufende Agent-Swarms
2	Claude Sonnet 4.6	Anthropic (US)	1,35 T	1M Kontext, Coding, Enterprise
3	DeepSeek V3.2	DeepSeek (CN)	1,31 T	DSA Sparse Attention, sehr niedriger Preis, Roleplay-Sieger
4	Claude Opus 4.7	Anthropic (US)	1,14 T	Anthropic-Flaggschiff, komplexes Reasoning
5	Gemini 3 Flash Preview	Google (US)	1,06 T	1M Kontext, multimodal, Health/Academia
6	MiniMax M2.7	MiniMax (CN)	806 B	Long-Context-Preis-Leistung
7	Grok 4.1 Fast	xAI (US)	721 B	2M Kontext, Legal #1
8	Claude Opus 4.6	Anthropic (US)	699 B	Voriges Flaggschiff, stabiler Fallback
9	MiniMax M2.5	MiniMax (CN)	698 B	Coding-Preis-Leistung, $0,30/$1,20
10	Step 3.5 Flash	StepFun (CN)	673 B	Schnell und guenstig, Batch

Vertical	Sieger	$/M (in/out)	Erfolgsfaktor
Coding	GPT-5.5 / Claude Opus 4.7	$5/$30; $5/$25	Hoechste SWE-bench-Werte, hochwertige Aufgaben
Roleplay	DeepSeek V3.2 (40,2 %)	ca. $0.30	Aggressive Preise plus Community
Legal	Grok 4.1 Fast	Mittlere Preise	2M Kontext fuer lange Dokumente
Health/Academia	Gemini 3 Flash Preview	$0.30-$1	Multimodal plus Long-Context plus Wissensgraph
Marketing	Gemini 2.5 Flash Lite	$0.10/$0.40	Extrem niedriger Preis fuer Bulk-Entwuerfe

Preis-Leistungs-Grenze: SWE-bench gegen $/M Token

Im Coding-Bereich verlaufen Preis und Leistung nicht linear. Die folgende Tabelle setzt die wichtigsten Modelle vom Mai 2026 auf zwei Achsen: SWE-bench Verified und Mischpreis pro Million Token. So wird sichtbar, wie viel jeder zusaetzliche Prozentpunkt Genauigkeit kostet.

Modell	SWE-bench Verified	Input $/M	Output $/M	Kontext	Grenzkosten je 1 % (in/out)
GPT-5.5	88,7%	$5,00	$30,00	200K	Spitzen-Baseline
Claude Opus 4.7	87,6%	$5,00	$25,00	1M	17 % guenstiger im Output
Claude Opus 4.6	80,8%	$5,00	$25,00	1M	-7pp, gleicher Preis
Gemini 3.1 Pro	80,6%	$2,00	$12,00	1M	-8pp, 60%/60% Ersparnis
DeepSeek V4 Pro (Max)	80,6%	$0,435	$0,87	1M	-8pp, 91%/97% Ersparnis
MiniMax M2.5	80,2%	$0,30	$1,20	1M	-8,5pp, 94%/96% Ersparnis
Kimi K2.6	80,2%	$0,75	$3,50	128K	-8,5pp, 85%/88% Ersparnis
GPT-5.4	78,2%	$2,50	$15,00	200K	-10,5pp, 50%/50% Ersparnis
MiMo-V2-Pro	78,0%	$1,00	$3,00	1M	-10,7pp, 80%/90% Ersparnis
DeepSeek V4 Flash	ca. 79%	$0,14	$0,28	1M	-9,7pp, 97%/99% Ersparnis

info

Lesweise der Grenze: Der Wechsel von GPT-5.5 (88,7 %) auf das 80%-Band kostet rund 8 Prozentpunkte Genauigkeit, reduziert den Output-Preis aber von 30 USD/M auf 0,87 bis 3,50 USD/M und bringt damit 85 bis 97 % Einsparung. Genau darin liegt die Datengrundlage fuer eine Primaer-plus-Fallback-Strategie: Premium-Modelle auf kritischen Pfaden, Bulk- und Regressionsarbeit auf DeepSeek V4 Pro oder Kimi K2.6 fuer rund ein Zehntel der Kosten.

Vier Routing-Strategien: Primaer plus Fallback je Workload

Die Tabelle organisiert Multi-Modell-Routing nach vier Geschaeftsprioritaeten. Jede Zeile nennt Primaer, ersten Fallback, zweiten Fallback und den jeweiligen Trigger. Sie laesst sich direkt als Startkonfiguration fuer OpenRouter, OpenClaw oder ein eigenes Gateway verwenden.

Strategie	Primaer	Erster Fallback	Zweiter Fallback	Trigger
Qualitaet zuerst (Enterprise, Finanzen, Reasoning)	Claude Opus 4.7	GPT-5.5	Gemini 3.1 Pro	Compliance-Reviews, kritische Entscheidungen, lange Ketten
Kosten zuerst (Batch, interne Tools)	DeepSeek V4 Pro	MiniMax M2.5	DeepSeek V4 Flash	Tickets, Zusammenfassungen, Regressionstests
Compliance zuerst (Datenlokalitaet, Aufsicht)	Regionales Gemini / Claude	Regionales Qwen / Kimi	Selbst gehostet Ollama / vLLM	DSGVO, regulierte Finanzen, behoerdliche Daten
Kontextlaenge zuerst (Codebasen, lange Berichte)	Gemini 3.1 Pro (1M)	Grok 4.1 Fast (2M)	Claude Sonnet 4.6 (1M)	Repo-Analyse, lange Vertraege, Jahresberichte

Die vier Strategien schliessen sich nicht aus. Innerhalb desselben Teams duerfen verschiedene Services auf unterschiedlichen Zeilen liegen. Der Gateway taggt jeden Request mit x-task-tier und steuert daraufhin: Entwicklerassistenz und Code Review folgen der Qualitaetsspur, Commit-Messages, Zusammenfassungen und interne Suche der Kostenspur. Fallback-Queues feuern nur, wenn der Primaerpfad 429, 503 oder Timeouts liefert.

Sechs Schritte zur Inbetriebnahme

Traffic-Profil erstellen. Exportieren Sie Prompt- und Response-Tokens, die durchschnittliche Kontextlaenge und Per-Service-Buckets fuer die letzten 30 Tage. In den meisten Teams sind nur 10 bis 20 % der Tokens wirklich hochwertig.
Requests taggen. Setzen Sie einen Header x-task-tier (critical/standard/bulk/experimental). Critical laeuft auf der Qualitaetsspur, bulk auf der Kostenspur, experimental wird fuer A/B-Tests neuer Modelle reserviert.
Provider und Fallbacks konfigurieren. Uebernehmen Sie die YAML-Beispiele aus dem OpenClaw Multi-Provider-Routing. In OpenRouter kombinieren Sie das Feld route mit einer fallback_models-Liste.
Kostentelemetrie verankern. Schreiben Sie x-provider-used und x-cost-cents in die Antwortheader und reconcilieren Sie taeglich, denn ein guenstiges Modell mit drei Retries kann teurer sein als ein Premium-Modell mit einem Aufruf.
Den unhappy path trainieren. Injizieren Sie 429, 502 und Timeouts und pruefen Sie zusammen mit Gateway Health Probes, ob Fallbacks korrekt feuern und die Verfuegbarkeit nicht durch einen einzelnen Provider faellt.
Quartalsweiser Review. Legen Sie die Quartalstrends der OpenRouter Rankings (chinesische Quote, Preise, neue Releases) neben Ihre eigenen 30-Tage-Logs in derselben Sitzung und entscheiden Sie ueber Primaerwechsel. So werden oeffentliche Daten zu tatsaechlichen Entscheidungen.

Drei OKR-taugliche Metriken

Mischkosten pro Million Token je Tier. Halten Sie critical bei 5 bis 10 USD/M Output und druecken Sie bulk auf 0,5 bis 2 USD/M Output. Quartal fuer Quartal soll eine Reduktion von mindestens 15 % sichtbar sein; sonst bleibt die Strategie theoretisch.
Fallback-Triggerrate. Primaer zu erstem Fallback soll unter 5 % liegen. Mehr als 10 % deuten auf zu geringe Primaerquoten oder instabile Anbieter und erfordern eine Anpassung der Fallback-Gewichte.
Konzentration auf einen Anbieter. Ein einzelner Provider soll nicht mehr als 60 % der Tokens halten, sonst gefaehrden Regionsausfaelle (z. B. 1,5 Stunden Ausfall im April 2026) das gesamte Produkt. Das Prinzip entspricht dem Konzept Selber-Preis-mehrere-Regionen fuer Mac-Knoten und ist in der Selber-Preis-Matrix beschrieben.

Ausblick und Zusammenfassung: der Wettbewerb endet nicht bei 45 %

Drei strukturelle Kraefte werden die Routing-Landschaft im zweiten Halbjahr 2026 weiter formen. (a) Der Preisspielraum nach unten ist nicht ausgereizt. DeepSeek V4 Flash drueckte den Input auf 0,14 USD/M; Step 3.5 Flash und GLM-5 Turbo testen ebenfalls aggressivere Preise. (b) Die Kontextfenster wachsen weiter. Grok 4.1 Fast liegt bei 2M, Claude und Gemini bei 1M, Kimi noch bei 128K. Der Knickpunkt fuer Repo-Analysen und lange Vertraege liegt zwischen 1M und 2M. (c) Die Grenze zwischen offen und geschlossen neigt sich Richtung offen. Open-Weight-Veroeffentlichungen von DeepSeek, Qwen und Kimi erlauben Unternehmen, Workloads zwischen OpenRouter-API und selbst gehosteten Kopien zu verschieben. Zusammen mit der Mai-CNBC-Recherche zum neunfachen Kostenunterschied entsteht ein dauerhafter Druck auf die IPO-Bewertungen geschlossener Frontier-Anbieter.

In der Praxis komprimiert sich das auf vier Tatigkeiten: Tagging, Primaer, Fallback, Review. Damit das stabil laeuft, muss die Routing-Schicht selbst auf einer Umgebung leben, die nicht offline geht, wenn ein Notebook zuklappt. Genau das ist die physische Grundlinie eines 24/7-Multi-Modell-Routings und zugleich ein Datenschutz- und DSGVO-relevanter Punkt, weil viele Logs und Token-Spuren auf demselben Host gesammelt und beim Audit nachweisbar bleiben muessen.

Wenn das Gateway und das Provider-Routing weiterhin auf Notebooks oder gemischten Workstations laufen, akzeptieren Sie drei versteckte Kosten: kritische Pfade fallen im Sleep aus, lokales Netzwerkjittering loesst falsche Fallbacks aus und Quartalsreviews zerfallen ueber mehrere Maschinen. Fuer einen Produktions-Gateway mit 24/7-Verfuegbarkeit, Multi-Provider-Routing und runbookfaehigem Betrieb ist es in der Regel guenstiger und auditierbarer, OpenClaw oder einen eigenen Gateway auf einem dedizierten MACCOME Mac mini (M4 / M4 Pro) und flexiblen Mietzeiten in sechs Regionen zu betreiben. Tarife sind im Mehrregionen-Knotenpreis-Leitfaden aufgefuehrt; die Topologie ist im SSH-Forwarded Gateway Runbook beschrieben.

Haeufige Fragen

Bedeutet 45 %+ Token-Anteil chinesischer Modelle, dass wir komplett auf guenstige Modelle migrieren sollten?

Nein. Der 45-%-Anteil basiert auf Coding, Batch-Verarbeitung und Long-Context, waehrend Anthropic 46,3 % der Umsaetze auf 12,3 % Token erzielt. Sinnvoll ist eine duale Routing-Strategie: Critical-Pfade auf Claude Opus 4.7 oder GPT-5.5, Bulk-Pfade auf Kimi K2.6 oder DeepSeek V4 Pro. Topologische Details finden sich auf der Preisseite.

Wie pruefen wir die Belastbarkeit der OpenRouter-Daten?

Triangulation aus drei Quellen: OpenRouter Rankings, unabhaengige Analysen (CodeSOTA, digitalapplied) und die eigenen Gateway-Logs. Stimmen alle Trends, ist die Datenlage entscheidungsreif. Andernfalls sind die eigenen Logs Pflicht. Unterstuetzung beim Onboarding bietet das Hilfe-Center.

Wo bleiben Premium-Modelle wie Claude Opus 4.7 oder GPT-5.5 unverzichtbar?

Drei Bereiche: (1) komplexes mehrstufiges Reasoning und lange Toolketten, in denen 87 % SWE-bench fuer einen verlaesslichen Erstdurchlauf noetig sind; (2) Enterprise-Compliance und Finanzaudit mit Anthropic-Schutzschienen und SLA; (3) Multimodale Workflows mit 1M Kontext und strukturierten Dokumenten. In all diesen Faellen sind die Mehrkosten pro Prozentpunkt Genauigkeit niedriger als die Summe aus Retries guenstiger Modelle und Nacharbeit durch Engineering.