Datenbasis: OpenRouter Rankings vom 4. Juni 2026 — DeepSeek V4 Flash bei ca. 10,9T Token vor Tencent Hy3 Preview, Owl Alpha und Nemotron 3 Super mit $0-Preis in den Top 10. Zielgruppe: Teams mit Agent-Gateways und Multi-Provider-Routing. Lieferumfang: sechs strukturelle Trends, Top-10-Tabelle, Faehigkeiten- und Preismatrix, sechs Szenario-Empfehlungen, achtstufiges Runbook — ergaenzt die Mai-Matrix zu Token- und Umsatzanteilen um Trend- und Auswahllogik, ohne die Token×Euro-Schere erneut voll auszurollen.
OpenRouter misst reale Token ueber eine einheitliche API — naeher am Markt als Hersteller-Benchmarks. Gegenueber Mai 2026 verdichten sich drei Verschiebungen: chinesische MoE-Open-Source treibt Wachstum, westliche Closed-Source bleibt umsatzstark bei langsamerer Token-Dynamik, Plattform- und Chip-Hersteller-Gratis-Modelle rutschen in die Top 10. Die folgenden Tabellen und Trends uebersetzen diese Struktur in messbare Auswahlregeln fuer Engineering und Einkauf.
Fuer deutsche und EU-Teams ist die Kombination aus Ranking-Transparenz und Datenschutz entscheidend: ein Modell kann technisch fuehren und trotzdem fuer personenbezogene Produktionsdaten ungeeignet sein, wenn Verarbeitung, Logging oder Stealth-Nutzungsbedingungen nicht zum Verarbeitungsverzeichnis passen. Deshalb trennen wir in diesem Artikel durchgaengig technische Eignung, Preis pro Million Token und Compliance-Pfad.
Werte aus OpenRouter-Snapshot und oeffentlichen Berichten; Wachstumsraten gemaess Plattformanzeige — live auf der Ranking-Seite pruefen.
| Rang | Modell | Anbieter | Volumen (ca.) | Trend | Kurzprofil |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 10,9T | ↑995% | 1M-Kontext, MoE ~13B aktiv, starke API-Preise |
| 2 | Hy3 Preview | Tencent | 10,7T | ↑>999% | Open MoE, +40 % Effizienz, Agent-Coding |
| 3 | Claude Opus 4.7 | Anthropic | 7,48T | ↑197% | Flaggschiff-Reasoning, Vision, lange Agent-Laeufe |
| 4 | Claude Sonnet 4.6 | Anthropic | 7,45T | ↑34% | Produktions-Allrounder, Free-Tier, Balance |
| 5 | Owl Alpha | OpenRouter | 5,03T | ↑>999% | $0, ~1,05M Kontext, agent-freundlich |
| 6 | Gemini 3 Flash Preview | 4,6T | ↑3% | Multimodal, SWE-bench ~78 %, Google-Stack | |
| 7 | DeepSeek V4 Pro | DeepSeek | 4,54T | ↑739% | Flaggschiff-MoE, komplexes Reasoning |
| 8 | DeepSeek V3.2 | DeepSeek | 4,31T | ↓14% | Vorgaenger, wird von V4 abgeloest |
| 9 | Kimi K2.6 | Moonshot | 3,72T | ↑1% | 1T MoE, Agent Swarm, Langlauf |
| 10 | Nemotron 3 Super (free) | NVIDIA | 2,65T | ↑3% | Gratis, Hybrid Mamba-Transformer, Durchsatz |
| Modell | Alltag | Code | Langtext | Reasoning | Multimodal | Agent |
|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | — | ★★★★★ |
| Hy3 Preview | ★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | — | ★★★★★ |
| Claude Opus 4.7 | ★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ |
| Claude Sonnet 4.6 | ★★★★★ | ★★★★ | ★★★★★ | ★★★★ | ★★★★ | ★★★★ |
| Owl Alpha | ★★★ | ★★★★ | ★★★★ | ★★★★ | — | ★★★★★ |
| Gemini 3 Flash | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★ | ★★★★★ | ★★★★★ |
| Kimi K2.6 | ★★★★ | ★★★★★ | ★★★★ | ★★★★ | ★★★★ | ★★★★★ |
| Nemotron 3 Super | ★★★★ | ★★★★ | ★★★★★ | ★★★★ | — | ★★★★★ |
| Modell | Input $/M | Output $/M | Kontext | Gesamt | Open Source |
|---|---|---|---|---|---|
| DeepSeek V4 Flash | ~0,10 | ~0,40 | 1M | 284B MoE | ja |
| DeepSeek V4 Pro | ~0,27 | ~1,10 | 1M | 1,6T MoE | ja |
| Hy3 Preview | Self-Host | Self-Host | 256K | 295B MoE | ja |
| Claude Opus 4.7 | 5,00 | 25,00 | 1M β | n. a. | nein |
| Claude Sonnet 4.6 | 3,00 | 15,00 | 200K/1M β | n. a. | nein |
| Owl Alpha | 0 | 0 | 1,05M | n. a. | nein |
| Gemini 3 Flash | 0,50 | 3,00 | 1M+ | n. a. | nein |
| Kimi K2.6 | niedrig | niedrig | 256K | 1T MoE | ja |
| Nemotron 3 Super | 0 | 0 | 1M | 120B MoE | ja |
Preis- und Datenschutz-Hinweis: Oeffentliche API-Preise aendern sich woechentlich. Produktion: Rechnung + Gateway-Logs. Budget-Alerts gegen 429-Kaskaden. Fuer personenbezogene Daten: keine Default-Route auf Stealth-Gratis ohne DPIA und dokumentierte Rechtsgrundlage.
DeepSeek V4, Claude Opus 4.7, Owl Alpha, Gemini 3 Flash und Nemotron 3 Super liefern Millionen-Token-Fenster serienmaessig. Engineering-Teams koennen ganze Repos und Vertragsbaende in einen Lauf legen — RAG vereinfacht sich teilweise, aber Gateway braucht Redaktion, Secret-Scrubbing und Aufbewahrungslogik. Unter DSGVO gilt: je groesser das Kontextfenster, desto wichtiger technische und organisatorische Massnahmen gegen unbeabsichtigte Weitergabe personenbezogener Inhalte an Dritt-APIs.
DeepSeek (drei Plaetze), Tencent Hy3 und Moonshot Kimi mit Wachstumsraten von 700–999 % zeigen strukturelle Verschiebung, nicht kurzfristige Kampagnen. Wer im Mai noch „45 % Token-Anteil“ diskutierte, sieht im Juni die Wachstumsfuehrer klar in der chinesischen MoE-Liga — Routing-Defaults aus 2025 (nur Sonnet) verursachen oft 5–10× hoehere Rechnungen ohne Qualitaetsgewinn im Agent-Pfad.
SWE-bench Verified, Terminal-Bench und stabile Tool-Calls ersetzen MMLU als Einkaufsargument. Kimi K2.6 mit Agent Swarm (bis ~300 Sub-Agenten, ~4.000 Schritte) verschiebt Wettbewerb in die Orchestrierungsschicht. Frage fuer Ihr Team: dominiert Chat oder Tool-Kette? Die Antwort bestimmt Primary und Fallback in der Routing-Tabelle.
Top 10 = MoE oder Mamba-Transformer-Hybrid. Nemotron 3 Super zielt auf lineare Sequenzkosten fuer private Agent-Fabriken; DeepSeek V4 Flash nutzt gemischte FP4/FP8-Praezision fuer guenstiges Langkontext-Inferenz. Dichte Billion-Parameter-Modelle ohne Sparsity fallen aus der Spitzengruppe der realen Nutzung.
Owl Alpha und Nemotron (free) senken Einstiegshuerden fuer Prototypen. Enterprise muss trotzdem SLA, Logging, Datenfluss und DSGVO-Konformitaet bewerten — $0 pro Token bedeutet nicht $0 Risiko.
Gemini 3 Flash (Text/Bild/Audio/Video/PDF) und Opus 4.7 (hochaufloesende Vision) decken Enterprise-Search, Design-zu-Code und Ops-Screenshots ab. Reine Text-Modelle bleiben volumenstark, verlieren aber in beschaffungsrelevanten Checklisten an Boden.
| Szenario | Primary | Begruendung (datenbasiert) |
|---|---|---|
| Buero (Dokumente, Uebersetzung) | Sonnet 4.6 / Gemini 3 Flash | Stabile Instruction-Following, Free- oder Guenstig-Tier |
| Entwickler-Copilot | V4 Flash / Sonnet 4.6 | 1M Repo-Kontext vs. hoehere Qualitaetssicherheit |
| Multi-Step-Agent | Kimi K2.6 / Hy3 / V4 Flash | Starke SWE-bench / Terminal-Bench, Open Weights |
| Extrem knappes Budget | Owl Alpha / Nemotron free | $0 API; Owl nur ohne sensible Daten |
| Bild/Video/Diagramme | Gemini 3 Flash / Opus 4.7 | Oekosystem vs. praezise Vision |
| Private High-Throughput | Nemotron 3 Super / Hy3 / V4 Flash | Open Source, Nemotron-Durchsatz |
Voraussetzung: OpenRouter- oder Direkt-API-Keys, Gateway auf macOS/Linux. Syntax und Failover-Details: Multi-Provider-Checkliste. Hier die Policy-Ebene.
chat, code, agent-long, vision, bulk — kein Ein-Modell-fuer-alles.code V4 Flash → Sonnet 4.6; vision Gemini 3 Flash → Opus 4.7.max_tokens und Secret-Filter am Gateway.bulk und nicht-personenbezogene Experimente; Produktion ohne Stealth-Default.openclaw gateway probe — Failover bei Modellausfall, nicht bei Laptop-Sleep.# Beispiel: Routing nach Task-Tag (Feldnamen je Gateway-Version)
routing:
code:
primary: deepseek/deepseek-v4-flash
fallback: [anthropic/claude-sonnet-4.6, google/gemini-3-flash-preview]
agent-long:
primary: moonshotai/kimi-k2.6
fallback: [deepseek/deepseek-v4-pro]
vision:
primary: google/gemini-3-flash-preview
fallback: [anthropic/claude-opus-4.7]
bulk-experimental:
primary: openrouter/owl-alpha
allow_sensitive: false
1M-Kontext, MoE und Tool-Calls sind Commodity. Differenzierung: (1) Kosten pro Agent-Schritt, (2) IDE/Cloud-Einbindung (Cursor/Claude Code vs. Workspace vs. Hugging Face), (3) Open Source auf Augenhoehe mit westlichen Flaggschiffen im Token-Wachstum. Teams in einer Preis-Leistungs-Phase gewinnen — wenn Routing quartalsweise nicht angepasst wird, zahlen sie weiter Sonnet-2025-Preise.
Gateway, Cron und Multi-Provider auf einem zuklappbaren Laptop erzeugen drei versteckte Kosten: Routing-Freeze im Sleep, 429-Kaskaden auf Gratis-Tiers, 1M-Logs auf lokaler SSD. Wer die acht Schritte produktiv betreibt, braucht einen Host ohne Sleep — typischerweise dedizierter Mac mini (M4/M4 Pro) bei MACCOME, SSH-Topologie laut SSH-Gateway-Runbook, Tarife: Mac-Mini-Mietpreise. Bei personenbezogenen Prompts: Verarbeitungsort, Zugriff und Loeschkonzept in der DPIA festhalten; Betriebshilfe: Hilfe & FAQ.
FAQ
Unterschied zu dem OpenRouter-Artikel vom 25. Mai?
Mai: Token×Umsatz, Vertikalen, Entscheidungsmatrix. Juni: sechs Trends, Szenario-Tabelle, acht Runbook-Schritte inkl. Hy3, Owl, Nemotron. Beide lesen — Mai fuer Marktanteile, Juni fuer operative Modellwahl.
Owl Alpha in Produktion mit personenbezogenen Daten?
Nein als Default fuer PII: Stealth-Nutzung kann Prompt-Verbesserung erlauben. Produktion: bezahlte oder self-hosted Open-Weights-Route, Gateway-Trennung fuer Secrets. Netzwerk und Berechtigungen: Hilfe-Center.
Wie oft Routing an Rankings anpassen?
Mindestens quartalsweise; bei Agent-Anteil >50 % monatlich Stichproben mit coding-agent Tasks. Nach DeepSeek-V4-Releases sofort Failover-Regression.