Was ist der Ultra-Modus bei GPT-5.6 Sol?

Ultra verteilt komplexe Aufgaben auf mehrere parallele Sub-Agenten und fuehrt Ergebnisse zusammen. Das erklaert den TerminalBench-Rekord, verbraucht aber deutlich mehr Token.

Wie gross ist das Kontextfenster?

Berichtet werden etwa 1,5 Mio. Token, gegenueber 1 Mio. bei GPT-5.5. Offizielle Bestaetigung mit vollstaendiger System Card erwartet.

GPT-5.6 Sol, Terra & Luna: Benchmarks, Preise und Zugang — vollstaendige Analyse (2026)

Q: Ist GPT-5.6 Sol besser als Claude Mythos 5 fuer Coding?

Sol fuehrt TerminalBench 2.1 mit 91,9% (Ultra) gegen 88,0% bei Mythos 5. Mythos 5 kann auf SWE-Bench Pro weiterhin fuehren; vollstaendige GPT-5.6-System-Card-Daten stehen aus. Sol bietet vergleichbare Security-Research-Faehigkeit bei etwa halbem Preis.

Q: Warum ist GPT-5.6 eingeschraenkt?

Auf Anfrage der US-Regierung (OSTP/ONCD) nach Trumps Executive Order vom 2. Juni 2026 limitierte OpenAI den Zugang waehrend einer Sicherheitspruefung auf etwa 20 vertrauenswuerdige Partner.

Q: Wie schnell ist GPT-5.6 auf Cerebras?

Bis zu 750 Token pro Sekunde — etwa 5- bis 15-mal schneller als typische Frontier-Modelle (50-150 token/s). Geplanter Start Juli 2026 fuer ausgewaehlte Enterprise-Kunden.

ca. 18 Min. Lesezeit · MACCOME

Fuer wen? Tech-Leads und Plattform-Teams, die GPT-5.6 gegen Claude Mythos 5, API-Budgets und Agent-Architektur bewerten. Kernbotschaft: Am 26. Juni 2026 veroeffentlichte OpenAI GPT-5.6 Sol, Terra und Luna — erstmals mit Sonnensystem-Namen. Sol erreicht 91,9% auf TerminalBench 2.1 und 96,7% CTF-Trefferquote, doch nur etwa 20 Partner-Organisationen haben Zugang. Aufbau: Modellmatrix → Benchmarks → Cerebras 750 token/s → Regierungspruefung → Mythos-5-Vergleich → sechs Schritte, FAQ und DSGVO-Hinweise.

GPT-5.6 Kernuebersicht: Sol, Terra, Luna im Vergleich

OpenAI fuehrte mit GPT-5.6 erstmals eine dreistufige Namenskonvention ein: Sol (Sonne, Flaggschiff), Terra (Erde, ausgewogen) und Luna (Mond, leichtgewichtig). Alle drei Modelle erreichen OpenAIs interne «High»-Cybersecurity-Bewertung — ein Novum fuer eine gesamte Produktlinie, einschliesslich des Einstiegsmodells Luna.

Die Veroeffentlichung erfolgte unter ungewoehnlichen Rahmenbedingungen: Auf Anfrage der US-Regierung ist der breite Zugang vorerst auf etwa 20 genehmigte Partner beschraenkt. OpenAI-CEO Sam Altman erklaerte die Kooperation, warnte aber:

«Wir glauben nicht, dass dieser Art von staatlichem Zugangsprozess zur langfristigen Norm werden sollte. Er haelt die besten Werkzeuge von Nutzern, Entwicklern, Unternehmen und globalen Partnern fern, die sie brauchen.»

Modell	Positionierung	Input	Output	Kontext	Highlight
Sol	Flaggschiff	$5 / 1M Token	$30 / 1M Token	~1,5M	TerminalBench 91,9%, Ultra-Multi-Agent
Terra	Ausgewogen	$2,50 / 1M Token	$15 / 1M Token	~1,5M	GPT-5.5-Niveau, 50% guenstiger
Luna	Leichtgewicht	$1 / 1M Token	$6 / 1M Token	~1,5M	80% guenstiger als Sol, High-Cyber-Rating

warning

Status Juni 2026: Breite Verfuegbarkeit in ChatGPT und oeffentlicher API steht aus. Polymarket weist einer Veroeffentlichung bis 31. Juli 2026 eine Wahrscheinlichkeit von etwa 87% zu. Hintergrund: Leaks und Timeline.

Drei Modelle im Detail: Max, Ultra und Preislogik

GPT-5.6 Sol — Flaggschiff mit zwei neuen Reasoning-Modi

Sol ist OpenAIs leistungsfaehigstes Modell fuer komplexes Coding, mehrstufige Cybersecurity-Forschung und autonome Agent-Workflows. Neu sind:

Max-Modus: Zusaetzliche Reasoning-Zeit vor der Antwort — Latenz gegen Genauigkeit. Fuer Szenarien, in denen Korrektheit wichtiger ist als Geschwindigkeit.
Ultra-Modus: Multi-Agenten-Architektur — Sol zerlegt Aufgaben, verteilt sie an parallele Sub-Agenten und synthetisiert das Ergebnis. Kern des TerminalBench-Rekords; deutlich hoeherer Token-Verbrauch.

GPT-5.6 Terra — Enterprise-Workhorse

Terra zielt auf volumenstarke Business-Workloads: Dokumentenanalyse, Kundenservice, interne Tools. Performance nahe GPT-5.5 bei 50% niedrigeren Kosten — die wirtschaftlich attraktivste Wahl fuer Massen-API-Deployments.

GPT-5.6 Luna — Schnell und guenstig

Luna optimiert fuer hochfrequente, latenzarme Tasks: Zusammenfassungen, Entwuerfe, Routine-Automatisierung. Bemerkenswert: Luna ist das erste Nicht-Flaggschiff-Modell von OpenAI mit gleichzeitig High-Bewertung in Cybersecurity und Biologie.

Benchmark-Daten: TerminalBench, CTF, ExploitBench und Life Sciences

TerminalBench 2.1 — Coding-Agenten

89 komplexe CLI-Planungsaufgaben testen mehrstufige Tool-Nutzung, iterative Fehlerbehebung und Koordination — naeher an realen Agent-Tasks als klassische Code-Completion-Benchmarks.

Modell	Score	Modus
GPT-5.6 Sol	91,9%	Ultra (Multi-Agent)
GPT-5.6 Sol	88,8%	Standard
Claude Mythos 5	88,0%	Standard
GPT-5.5	83,4%	Standard
Gemini 3.1 Pro Preview	70,7%	Standard

Claude Mythos 5 hatte die Spitzenposition nur 17 Tage (seit 9. Juni) inne, bevor Sol ueberholte.

Agent's Last Exam — Langzeit-Agenten

Sol erreicht 50,9% Task-Completion (Code-Modus) — als einziges Modell ueber der 50%-Marke. Luna liegt leicht ueber GPT-5.5.

Cybersecurity: CTF und ExploitBench

Modell	CTF-Trefferquote
Sol	96,7%
Terra	91,84%
Luna	85,19%

Auf ExploitBench gleicht Sol Anthropics Mythos Preview, verbraucht aber nur etwa ein Drittel der Output-Token — gleiche Security-Research-Faehigkeit bei deutlich niedrigeren API-Kosten.

Life Sciences

GeneBench v1: Sol erreicht oder uebertrifft GPT-5.5 mit weniger Token.
HealthBench Professional: Sol 60,5 Punkte — +8,7 gegenueber GPT-5.5.

info

Sicherheitshinweis: OpenAIs Red-Teaming bestaetigt: Sol kann Schwachstellen in Chromium- und Firefox-Codebasen erkennen, aber keine vollstaendigen, funktionsfaehigen Exploit-Ketten autonom konstruieren. Unterhalb der «Cyber Critical»-Schwelle.

Cerebras-Beschleunigung: 750 Token pro Sekunde ab Juli

Ab Juli 2026 wird GPT-5.6 Sol ueber die Cerebras-Hardware-Plattform fuer ausgewaehlte Enterprise-Kunden bereitgestellt — mit bis zu 750 token/s.

Typische Frontier-Modelle heute: 50–150 token/s
Sol auf Cerebras: 5× bis 15× schneller
Praxis: Eine 10-Sekunden-Antwort koennte in unter 1 Sekunde fertig sein — relevant fuer Echtzeit-Coding-Assistenten und Streaming-Agenten.

Erster Zugang limitiert auf Enterprise-Kunden, waehrend Cerebras Kapazitaet ausbaut. Kontext: OpenAIs Jalapeño-ASIC adressiert parallel die Inferenz-Kostenbasis.

Regierungspruefung: Executive Order und blockierte Frontier-Releases

Am 2. Juni 2026 unterzeichnete Praesident Trump eine Executive Order, die US-Behoerden bis zu 30 Tage Vorab-Zugang zu Frontier-Modellen fuer Sicherheitspruefungen ermoeglicht. Am 26. Juni limitierte OpenAI auf Anfrage von OSTP und ONCD den Launch auf etwa 20 «Trusted Partner»-Organisationen.

Das ist das erste Mal, dass die US-Regierung formal eine eingeschraenkte Veroeffentlichung eines Frontier-Modells verlangt — ein Praezedenzfall mit globaler Auswirkung auf API-Verfuegbarkeit und Modellrouting.

Anbieter	Modell	Status Juni 2026
OpenAI	GPT-5.6 Sol/Terra/Luna	Limitierte Preview (~20 Orgs)
Anthropic	Claude Fable 5 / Mythos 5	Offline seit 12.06. (Exportkontrolle)
Google	Gemini 3.5 Pro	Verschoben auf Juli

Juni 2026 sollte der groesste AI-Release-Monat werden — stattdessen blockierten Regulierung und Exportkontrolle alle drei Frontier-Flaggschiffe. Fuer EU-Teams: API-Aufrufe mit personenbezogenen Daten erfordern unabhaengig vom Modellzugang dokumentierte Verarbeitungsorte und AV-Vertraege — siehe Datenschutz und DSGVO-TOMs.

GPT-5.6 Sol vs. Claude Mythos 5: Matrix, Zugang und Anwendungsfaelle

Dimension	GPT-5.6 Sol	Claude Mythos 5
TerminalBench 2.1	91,9% (Ultra) / 88,8%	88,0%
ExploitBench	Nahezu gleich, ~1/3 Token	Stark (offline)
Input-Preis	$5 / M	$10 / M (offline)
Verfuegbarkeit	Preview → breiter Zugang Juli	Exportkontrolle offline
Kontext	~1,5M Token	200K Token

Fazit der Daten: Sol fuehrt bei TerminalBench und bietet vergleichbare Security-Research-Faehigkeit zum halben Preis. Mythos 5 kann auf SWE-Bench Pro weiterhin fuehren; vollstaendige GPT-5.6-System-Card-Daten stehen aus. Hintergrund: Fable-5-Exportkontrolle.

Zugangs-Timeline

Juni 2026: ~20 Partner via API und Codex; ChatGPT fuer Endnutzer noch nicht.
Juli 2026 (erwartet): ChatGPT (Plus/Pro zuerst), oeffentliche API, Cerebras-Sol fuer Enterprise.

Szenario-Empfehlungen

Sol: Komplexe Coding-Agenten, Cybersecurity-Forschung, Langzeit-Autonomie, Genauigkeit vor Kosten.
Terra: Volumen-Workloads, GPT-5.5-Niveau bei halbem Preis, Produktions-APIs.
Luna: Zusammenfassung, Klassifikation, Millionen leichter API-Calls.
Sol on Cerebras (ab Juli): Latenzkritische Echtzeit-Anwendungen.

Safety-Stack bei OpenAI

Echtzeit-Missbrauchs-Klassifikatoren auf jedem Output
Account-Level-Review fuer sensible Workflows
700.000 A100-aequivalente GPU-Stunden automatisiertes Red-Teaming
Universal-Jailbreak-Tests und spezialisiertes Reasoning-Filtermodell

Sechs Schritte: So reagieren Technikteams auf GPT-5.6

Modell-Routing vorbereiten. Terra/Luna fuer Volumen, Sol nur fuer komplexe Agent-Tasks — siehe Coding-Assistenten-Matrix.
Ultra-Modus budgetieren. TerminalBench-Gewinne kosten Token; Max/Ultra nur fuer echte Frontier-Tasks aktivieren.
Fallback bei Exportkontrolle. Mythos 5 offline — LiteLLM/OpenRouter-Fallbacks und Opus 4.8 dokumentieren.
DSGVO vor API-Migration. US-Preview-Partner bedeuten moegliche US-Verarbeitung; AV-Vertrag, Verarbeitungsort und TOMs pruefen.
Cerebras-Latenz einplanen. Ab Juli Enterprise-Pfade evaluieren; bis dahin lokale Agent-Compute als Hedge.
7×24-Agent-Betrieb absichern. API-Zugang allein reicht nicht — Cursor, Codex und Gateway brauchen stabile Compute-Egress. Dedizierter MACCOME Mac mini (M4/M4 Pro) haelt Agent-Pipelines online, waehrend Modellzugang rolliert.

Fazit: Leistung, Effizienz und ein neues Release-Praezedenz

GPT-5.6 markiert drei Durchbrueche: Ultra-Multi-Agent setzt TerminalBench-Rekorde, ein Drittel Token bei gleicher Security-Research-Leistung, und 750 token/s via Cerebras ab Juli. Gleichzeitig etabliert die US-Regierungspruefung ein neues Normal — mit direkter Auswirkung auf, wann EU-Teams produktiv zugreifen koennen.

Fuer stabile Agent-Produktion unterhalb der Hyperscaler-API: Mac-Mini-Mietpreise; CLI-Routing: OpenRouter-CLI-Ranking; Hilfe: Hilfe-Center.

Haeufige Fragen

Ist GPT-5.6 bereits in ChatGPT verfuegbar?

Fuer die breite Oeffentlichkeit noch nicht. Stand Juni 2026 nur fuer etwa 20 genehmigte Partner ueber API und Codex. Breite ChatGPT-Verfuegbarkeit wird fuer Juli 2026 erwartet (Polymarket ~87% bis 31.07.).

Ist GPT-5.6 Sol besser als Claude Fable 5 fuer Coding?

Sol fuehrt TerminalBench 2.1 (91,9% vs. Mythos 5 88%). Fable 5 kann auf SWE-Bench Pro fuehren; offizielle GPT-5.6-SWE-Bench-Scores stehen aus. Sol bietet vergleichbare oder bessere Leistung zum niedrigeren Preis.

Was ist der Ultra-Modus?

Ultra verteilt Aufgaben auf mehrere parallele Sub-Agenten und synthetisiert Ergebnisse. Stark bei komplexen Tasks, aber mit deutlich hoeherem Token-Verbrauch.

Warum ist GPT-5.6 eingeschraenkt?

US-Regierung (OSTP/ONCD) nach Executive Order vom 2. Juni 2026. OpenAI limitierte Zugang waehrend Sicherheitspruefung, lehnte aber eine dauerhafte Norm ab.

Wie schnell ist GPT-5.6 auf Cerebras?

Bis zu 750 token/s — 5× bis 15× schneller als typische Frontier-Modelle. Start Juli 2026 fuer ausgewaehlte Enterprise-Kunden.

Sind alle drei Modelle fuer Cybersecurity-Arbeit geeignet?

Alle tragen «High»-Cybersecurity-Rating. OpenAI hat Schutzschichten eingebaut und bestaetigt: keine autonomen vollstaendigen Exploit-Ketten gegen gehaertete Ziele.

Wie plane ich Agent-Compute waehrend des Preview-Fensters?

API-Preview aendert nichts an Laptop-Sleep oder Session-Stabilitaet. MACCOME M4/M4 Pro fuer 7×24 Coding-Agenten. Mietpreise, Hilfe-Center.