GPT-5.6 Sol, Terra & Luna: Benchmarks, Preise und Zugang — vollstaendige Analyse (2026)

ca. 18 Min. Lesezeit · MACCOME

Fuer wen? Tech-Leads und Plattform-Teams, die GPT-5.6 gegen Claude Mythos 5, API-Budgets und Agent-Architektur bewerten. Kernbotschaft: Am 26. Juni 2026 veroeffentlichte OpenAI GPT-5.6 Sol, Terra und Luna — erstmals mit Sonnensystem-Namen. Sol erreicht 91,9% auf TerminalBench 2.1 und 96,7% CTF-Trefferquote, doch nur etwa 20 Partner-Organisationen haben Zugang. Aufbau: Modellmatrix → Benchmarks → Cerebras 750 token/s → Regierungspruefung → Mythos-5-Vergleich → sechs Schritte, FAQ und DSGVO-Hinweise.

GPT-5.6 Kernuebersicht: Sol, Terra, Luna im Vergleich

OpenAI fuehrte mit GPT-5.6 erstmals eine dreistufige Namenskonvention ein: Sol (Sonne, Flaggschiff), Terra (Erde, ausgewogen) und Luna (Mond, leichtgewichtig). Alle drei Modelle erreichen OpenAIs interne «High»-Cybersecurity-Bewertung — ein Novum fuer eine gesamte Produktlinie, einschliesslich des Einstiegsmodells Luna.

Die Veroeffentlichung erfolgte unter ungewoehnlichen Rahmenbedingungen: Auf Anfrage der US-Regierung ist der breite Zugang vorerst auf etwa 20 genehmigte Partner beschraenkt. OpenAI-CEO Sam Altman erklaerte die Kooperation, warnte aber:

«Wir glauben nicht, dass dieser Art von staatlichem Zugangsprozess zur langfristigen Norm werden sollte. Er haelt die besten Werkzeuge von Nutzern, Entwicklern, Unternehmen und globalen Partnern fern, die sie brauchen.»

ModellPositionierungInputOutputKontextHighlight
SolFlaggschiff$5 / 1M Token$30 / 1M Token~1,5MTerminalBench 91,9%, Ultra-Multi-Agent
TerraAusgewogen$2,50 / 1M Token$15 / 1M Token~1,5MGPT-5.5-Niveau, 50% guenstiger
LunaLeichtgewicht$1 / 1M Token$6 / 1M Token~1,5M80% guenstiger als Sol, High-Cyber-Rating
warning

Status Juni 2026: Breite Verfuegbarkeit in ChatGPT und oeffentlicher API steht aus. Polymarket weist einer Veroeffentlichung bis 31. Juli 2026 eine Wahrscheinlichkeit von etwa 87% zu. Hintergrund: Leaks und Timeline.

Drei Modelle im Detail: Max, Ultra und Preislogik

GPT-5.6 Sol — Flaggschiff mit zwei neuen Reasoning-Modi

Sol ist OpenAIs leistungsfaehigstes Modell fuer komplexes Coding, mehrstufige Cybersecurity-Forschung und autonome Agent-Workflows. Neu sind:

  • Max-Modus: Zusaetzliche Reasoning-Zeit vor der Antwort — Latenz gegen Genauigkeit. Fuer Szenarien, in denen Korrektheit wichtiger ist als Geschwindigkeit.
  • Ultra-Modus: Multi-Agenten-Architektur — Sol zerlegt Aufgaben, verteilt sie an parallele Sub-Agenten und synthetisiert das Ergebnis. Kern des TerminalBench-Rekords; deutlich hoeherer Token-Verbrauch.

GPT-5.6 Terra — Enterprise-Workhorse

Terra zielt auf volumenstarke Business-Workloads: Dokumentenanalyse, Kundenservice, interne Tools. Performance nahe GPT-5.5 bei 50% niedrigeren Kosten — die wirtschaftlich attraktivste Wahl fuer Massen-API-Deployments.

GPT-5.6 Luna — Schnell und guenstig

Luna optimiert fuer hochfrequente, latenzarme Tasks: Zusammenfassungen, Entwuerfe, Routine-Automatisierung. Bemerkenswert: Luna ist das erste Nicht-Flaggschiff-Modell von OpenAI mit gleichzeitig High-Bewertung in Cybersecurity und Biologie.

Benchmark-Daten: TerminalBench, CTF, ExploitBench und Life Sciences

TerminalBench 2.1 — Coding-Agenten

89 komplexe CLI-Planungsaufgaben testen mehrstufige Tool-Nutzung, iterative Fehlerbehebung und Koordination — naeher an realen Agent-Tasks als klassische Code-Completion-Benchmarks.

ModellScoreModus
GPT-5.6 Sol91,9%Ultra (Multi-Agent)
GPT-5.6 Sol88,8%Standard
Claude Mythos 588,0%Standard
GPT-5.583,4%Standard
Gemini 3.1 Pro Preview70,7%Standard

Claude Mythos 5 hatte die Spitzenposition nur 17 Tage (seit 9. Juni) inne, bevor Sol ueberholte.

Agent's Last Exam — Langzeit-Agenten

Sol erreicht 50,9% Task-Completion (Code-Modus) — als einziges Modell ueber der 50%-Marke. Luna liegt leicht ueber GPT-5.5.

Cybersecurity: CTF und ExploitBench

ModellCTF-Trefferquote
Sol96,7%
Terra91,84%
Luna85,19%

Auf ExploitBench gleicht Sol Anthropics Mythos Preview, verbraucht aber nur etwa ein Drittel der Output-Token — gleiche Security-Research-Faehigkeit bei deutlich niedrigeren API-Kosten.

Life Sciences

  • GeneBench v1: Sol erreicht oder uebertrifft GPT-5.5 mit weniger Token.
  • HealthBench Professional: Sol 60,5 Punkte — +8,7 gegenueber GPT-5.5.
info

Sicherheitshinweis: OpenAIs Red-Teaming bestaetigt: Sol kann Schwachstellen in Chromium- und Firefox-Codebasen erkennen, aber keine vollstaendigen, funktionsfaehigen Exploit-Ketten autonom konstruieren. Unterhalb der «Cyber Critical»-Schwelle.

Cerebras-Beschleunigung: 750 Token pro Sekunde ab Juli

Ab Juli 2026 wird GPT-5.6 Sol ueber die Cerebras-Hardware-Plattform fuer ausgewaehlte Enterprise-Kunden bereitgestellt — mit bis zu 750 token/s.

  • Typische Frontier-Modelle heute: 50–150 token/s
  • Sol auf Cerebras: 5× bis 15× schneller
  • Praxis: Eine 10-Sekunden-Antwort koennte in unter 1 Sekunde fertig sein — relevant fuer Echtzeit-Coding-Assistenten und Streaming-Agenten.

Erster Zugang limitiert auf Enterprise-Kunden, waehrend Cerebras Kapazitaet ausbaut. Kontext: OpenAIs Jalapeño-ASIC adressiert parallel die Inferenz-Kostenbasis.

Regierungspruefung: Executive Order und blockierte Frontier-Releases

Am 2. Juni 2026 unterzeichnete Praesident Trump eine Executive Order, die US-Behoerden bis zu 30 Tage Vorab-Zugang zu Frontier-Modellen fuer Sicherheitspruefungen ermoeglicht. Am 26. Juni limitierte OpenAI auf Anfrage von OSTP und ONCD den Launch auf etwa 20 «Trusted Partner»-Organisationen.

Das ist das erste Mal, dass die US-Regierung formal eine eingeschraenkte Veroeffentlichung eines Frontier-Modells verlangt — ein Praezedenzfall mit globaler Auswirkung auf API-Verfuegbarkeit und Modellrouting.

AnbieterModellStatus Juni 2026
OpenAIGPT-5.6 Sol/Terra/LunaLimitierte Preview (~20 Orgs)
AnthropicClaude Fable 5 / Mythos 5Offline seit 12.06. (Exportkontrolle)
GoogleGemini 3.5 ProVerschoben auf Juli

Juni 2026 sollte der groesste AI-Release-Monat werden — stattdessen blockierten Regulierung und Exportkontrolle alle drei Frontier-Flaggschiffe. Fuer EU-Teams: API-Aufrufe mit personenbezogenen Daten erfordern unabhaengig vom Modellzugang dokumentierte Verarbeitungsorte und AV-Vertraege — siehe Datenschutz und DSGVO-TOMs.

GPT-5.6 Sol vs. Claude Mythos 5: Matrix, Zugang und Anwendungsfaelle

DimensionGPT-5.6 SolClaude Mythos 5
TerminalBench 2.191,9% (Ultra) / 88,8%88,0%
ExploitBenchNahezu gleich, ~1/3 TokenStark (offline)
Input-Preis$5 / M$10 / M (offline)
VerfuegbarkeitPreview → breiter Zugang JuliExportkontrolle offline
Kontext~1,5M Token200K Token

Fazit der Daten: Sol fuehrt bei TerminalBench und bietet vergleichbare Security-Research-Faehigkeit zum halben Preis. Mythos 5 kann auf SWE-Bench Pro weiterhin fuehren; vollstaendige GPT-5.6-System-Card-Daten stehen aus. Hintergrund: Fable-5-Exportkontrolle.

Zugangs-Timeline

  • Juni 2026: ~20 Partner via API und Codex; ChatGPT fuer Endnutzer noch nicht.
  • Juli 2026 (erwartet): ChatGPT (Plus/Pro zuerst), oeffentliche API, Cerebras-Sol fuer Enterprise.

Szenario-Empfehlungen

  • Sol: Komplexe Coding-Agenten, Cybersecurity-Forschung, Langzeit-Autonomie, Genauigkeit vor Kosten.
  • Terra: Volumen-Workloads, GPT-5.5-Niveau bei halbem Preis, Produktions-APIs.
  • Luna: Zusammenfassung, Klassifikation, Millionen leichter API-Calls.
  • Sol on Cerebras (ab Juli): Latenzkritische Echtzeit-Anwendungen.

Safety-Stack bei OpenAI

  • Echtzeit-Missbrauchs-Klassifikatoren auf jedem Output
  • Account-Level-Review fuer sensible Workflows
  • 700.000 A100-aequivalente GPU-Stunden automatisiertes Red-Teaming
  • Universal-Jailbreak-Tests und spezialisiertes Reasoning-Filtermodell

Sechs Schritte: So reagieren Technikteams auf GPT-5.6

  1. Modell-Routing vorbereiten. Terra/Luna fuer Volumen, Sol nur fuer komplexe Agent-Tasks — siehe Coding-Assistenten-Matrix.
  2. Ultra-Modus budgetieren. TerminalBench-Gewinne kosten Token; Max/Ultra nur fuer echte Frontier-Tasks aktivieren.
  3. Fallback bei Exportkontrolle. Mythos 5 offline — LiteLLM/OpenRouter-Fallbacks und Opus 4.8 dokumentieren.
  4. DSGVO vor API-Migration. US-Preview-Partner bedeuten moegliche US-Verarbeitung; AV-Vertrag, Verarbeitungsort und TOMs pruefen.
  5. Cerebras-Latenz einplanen. Ab Juli Enterprise-Pfade evaluieren; bis dahin lokale Agent-Compute als Hedge.
  6. 7×24-Agent-Betrieb absichern. API-Zugang allein reicht nicht — Cursor, Codex und Gateway brauchen stabile Compute-Egress. Dedizierter MACCOME Mac mini (M4/M4 Pro) haelt Agent-Pipelines online, waehrend Modellzugang rolliert.

Fazit: Leistung, Effizienz und ein neues Release-Praezedenz

GPT-5.6 markiert drei Durchbrueche: Ultra-Multi-Agent setzt TerminalBench-Rekorde, ein Drittel Token bei gleicher Security-Research-Leistung, und 750 token/s via Cerebras ab Juli. Gleichzeitig etabliert die US-Regierungspruefung ein neues Normal — mit direkter Auswirkung auf, wann EU-Teams produktiv zugreifen koennen.

Fuer stabile Agent-Produktion unterhalb der Hyperscaler-API: Mac-Mini-Mietpreise; CLI-Routing: OpenRouter-CLI-Ranking; Hilfe: Hilfe-Center.

Haeufige Fragen

Ist GPT-5.6 bereits in ChatGPT verfuegbar?

Fuer die breite Oeffentlichkeit noch nicht. Stand Juni 2026 nur fuer etwa 20 genehmigte Partner ueber API und Codex. Breite ChatGPT-Verfuegbarkeit wird fuer Juli 2026 erwartet (Polymarket ~87% bis 31.07.).

Ist GPT-5.6 Sol besser als Claude Fable 5 fuer Coding?

Sol fuehrt TerminalBench 2.1 (91,9% vs. Mythos 5 88%). Fable 5 kann auf SWE-Bench Pro fuehren; offizielle GPT-5.6-SWE-Bench-Scores stehen aus. Sol bietet vergleichbare oder bessere Leistung zum niedrigeren Preis.

Was ist der Ultra-Modus?

Ultra verteilt Aufgaben auf mehrere parallele Sub-Agenten und synthetisiert Ergebnisse. Stark bei komplexen Tasks, aber mit deutlich hoeherem Token-Verbrauch.

Warum ist GPT-5.6 eingeschraenkt?

US-Regierung (OSTP/ONCD) nach Executive Order vom 2. Juni 2026. OpenAI limitierte Zugang waehrend Sicherheitspruefung, lehnte aber eine dauerhafte Norm ab.

Wie schnell ist GPT-5.6 auf Cerebras?

Bis zu 750 token/s — 5× bis 15× schneller als typische Frontier-Modelle. Start Juli 2026 fuer ausgewaehlte Enterprise-Kunden.

Sind alle drei Modelle fuer Cybersecurity-Arbeit geeignet?

Alle tragen «High»-Cybersecurity-Rating. OpenAI hat Schutzschichten eingebaut und bestaetigt: keine autonomen vollstaendigen Exploit-Ketten gegen gehaertete Ziele.

Wie plane ich Agent-Compute waehrend des Preview-Fensters?

API-Preview aendert nichts an Laptop-Sleep oder Session-Stabilitaet. MACCOME M4/M4 Pro fuer 7×24 Coding-Agenten. Mietpreise, Hilfe-Center.