Sol лучше Claude Mythos 5 для coding?

Sol лидирует на TerminalBench 2.1: 91,9% (Ultra) vs 88,0% у Mythos 5. На SWE-Bench Pro Mythos 5 может оставаться впереди; полная system card GPT-5.6 ещё не вышла. Sol даёт сопоставимый security research за ~полцены.

Размер context window?

Около 1,5M tokens против 1M у GPT-5.5. Официальное подтверждение — с полной system card.

GPT-5.6 Sol, Terra и Luna: полный обзор, бенчмарки и цены (2026)

Q: GPT-5.6 уже в ChatGPT?

Для широкой публики — нет. В июне 2026 доступ только у ~20 approved partner orgs через API и Codex. Массовый rollout ChatGPT ожидается в июле 2026.

Q: Что такое Ultra mode?

Ultra mode спавнит несколько sub-agent'ов, параллелит части задачи и мержит результат. Резкий буст на complex tasks, но token burn заметный.

Q: Почему GPT-5.6 под lock?

По запросу US government (OSTP/ONCD) после executive order от 2 июня 2026 OpenAI ограничил доступ на период security review.

Q: Скорость на Cerebras?

До 750 tok/s — примерно в 5–15 раз быстрее типичных frontier-моделей (50–150 tok/s). Старт в июле 2026 для select enterprise.

~18 мин чтения · MACCOME

Для кого: tech leads и platform-команды, которые сравнивают GPT-5.6 с Claude Mythos 5, считают API burn и проектируют agent stack. Суть: 26 июня 2026 OpenAI выкатил GPT-5.6 Sol, Terra и Luna — первый tiered lineup с солнечной номенклатурой. Sol бьёт 91,9% на TerminalBench 2.1 и 96,7% в CTF, но доступ сейчас у ~20 trusted partner orgs. Структура: матрица моделей → бенчмарки → Cerebras 750 tok/s → government lock → vs Mythos 5 → 6 шагов и FAQ.

GPT-5.6: Sol, Terra, Luna — сводная матрица

OpenAI впервые разложил frontier lineup по солнечной схеме: Sol (Солнце, max capability), Terra (Земля, баланс), Luna (Луна, lightweight tier). Все три модели пробили внутренний порог «High» по cybersecurity — впервые для целой продуктовой линейки, включая entry-tier Luna.

Релиз вышел под government lock: по запросу US administration широкий доступ временно урезан до ~20 pre-approved partners. Sam Altman публично заявил:

«Мы не считаем, что такой government access process должен стать долгосрочной нормой. Он отрезает лучшие инструменты от dev'ов, enterprise и global partners, которым они нужны.»

Модель	Tier	Input	Output	Context	Highlight
Sol	Flagship	$5 / 1M tok	$30 / 1M tok	~1,5M	TerminalBench 91,9%, Ultra multi-agent
Terra	Balanced	$2,50 / 1M tok	$15 / 1M tok	~1,5M	~GPT-5.5 perf, −50% cost
Luna	Light	$1 / 1M tok	$6 / 1M tok	~1,5M	−80% vs Sol, High cyber rating

warning

Статус июнь 2026: массовый ChatGPT и public API — ещё нет. Polymarket даёт ~87% на broad release до 31 июля. Бэкграунд: утечки и timeline.

Три модели: Max mode, Ultra mode и pricing logic

GPT-5.6 Sol — flagship с двумя новыми inference modes

Sol — самый мощный релиз OpenAI для hardcore coding, multi-step cyber research и long-horizon agentic workflows. Новинки:

Max mode: больше reasoning time перед ответом — latency ради accuracy. Когда важнее correctness, а не speed-to-first-token.
Ultra mode: multi-agent architecture — Sol декомпозит задачу, спавнит parallel sub-agents, мержит output. Именно это дало рекорд на TerminalBench; token burn ощутимый.

GPT-5.6 Terra — enterprise workhorse

Terra заточен под high-volume workloads: doc analysis, support tickets, internal tooling. Performance близок к GPT-5.5 при 50% lower API cost — sweet spot для production-scale routing.

GPT-5.6 Luna — fast & cheap tier

Luna — для high-frequency, low-latency tasks: summarization, drafting, routine automation. Факт: первый non-flagship OpenAI с одновременным High в cyber и biology capability ratings.

Бенчмарки: TerminalBench, CTF, ExploitBench, life sciences

TerminalBench 2.1 — coding agents

89 complex CLI planning challenges — тестируют multi-step tool use, iterative fix loops и coordination. Ближе к real agent tasks, чем classic code completion benches.

Модель	Score	Mode
GPT-5.6 Sol	91,9%	Ultra (multi-agent)
GPT-5.6 Sol	88,8%	Standard
Claude Mythos 5	88,0%	Standard
GPT-5.5	83,4%	Standard
Gemini 3.1 Pro Preview	70,7%	Standard

Claude Mythos 5 держал #1 всего 17 дней (с 9 июня) — Sol снял с трона быстрее, чем многие ожидали.

Agent's Last Exam — long-horizon agents

Sol: 50,9% task completion (code mode) — единственная модель выше 50% bar. Luna чуть выше GPT-5.5.

Cybersecurity: CTF & ExploitBench

Модель	CTF hit rate
Sol	96,7%
Terra	91,84%
Luna	85,19%

На ExploitBench Sol матчит Anthropic Mythos Preview, но жрёт ~⅓ output tokens — тот же security research capability при сильно ниже $/run.

Life sciences

GeneBench v1: Sol matches/exceeds GPT-5.5 с меньшим token budget.
HealthBench Professional: Sol 60,5 — +8,7 к GPT-5.5.

info

Safety note: red-teaming OpenAI подтверждает: Sol находит vulns в Chromium/Firefox codebases, но не собирает autonomously полноценные working exploit chains. Ниже порога «Cyber Critical».

Cerebras acceleration: 750 tok/s с июля

С июля 2026 GPT-5.6 Sol пойдёт на Cerebras hardware для select enterprise — headline number: 750 tokens/sec.

Типичные frontier models сейчас: 50–150 tok/s
Sol on Cerebras: 5×–15× faster
Реальный эффект: response, который сейчас 10 секунд, может уложиться в <1 сек — game changer для real-time coding assistants и streaming agents.

Initial access — enterprise-only, пока Cerebras наращивает capacity. Параллельно OpenAI крутит Jalapeño ASIC для inference economics.

Government lock: executive order и заблокированный «супер-релизный» июнь

2 июня 2026 — Trump executive order: US agencies получают до 30 дней pre-release access к frontier models для national security review. 26 июня по запросу OSTP/ONCD OpenAI ограничил launch ~20 trusted partner orgs.

Это первый раз, когда US government формально требует restricted release frontier model — precedent с глобальным impact на API availability и model routing.

Vendor	Model	Status июнь 2026
OpenAI	GPT-5.6 Sol/Terra/Luna	Limited preview (~20 orgs)
Anthropic	Claude Fable 5 / Mythos 5	Offline с 12.06 (export control)
Google	Gemini 3.5 Pro	Slip to July

Июнь 2026 должен был быть biggest AI release month — вместо этого regulation и export control застопорили все три frontier flagship. Для non-US команд: учитывайте export control risk и fallback routing независимо от GPT-5.6 access window.

Sol vs Claude Mythos 5: head-to-head, access timeline, use cases

Dimension	GPT-5.6 Sol	Claude Mythos 5
TerminalBench 2.1	91,9% (Ultra) / 88,8%	88,0%
ExploitBench	Near-parity, ~⅓ tokens	Strong (offline)
Input price	$5 / M	$10 / M (offline)
Availability	Preview → GA July	Export control kill
Context	~1,5M tokens	200K tokens

Bottom line по цифрам: Sol лидирует на TerminalBench и даёт comparable security research за fraction of cost. Mythos 5 может оставаться ahead на SWE-Bench Pro — полная GPT-5.6 system card ещё не out. Контекст: Fable 5 export ban breakdown.

Access timeline

Июнь 2026: ~20 partners via API + Codex; ChatGPT для masses — нет.
Июль 2026 (expected): ChatGPT (Plus/Pro first), public API, Cerebras Sol для enterprise.

Кому какой tier

Sol: complex coding agents, cyber research, long-horizon autonomy, accuracy > cost.
Terra: volume workloads, GPT-5.5-level perf at half price, production APIs.
Luna: summarization, classification, millions of lightweight calls/day.
Sol on Cerebras (July+): latency-critical realtime apps.

Safety stack

Real-time misuse classifiers на каждом output
Account-level review для sensitive workflows
700K A100-equivalent GPU hours automated red-teaming
Universal jailbreak testing + specialized reasoning filter model

6 шагов: как dev-командам затащить GPT-5.6 в production planning

Model routing заранее. Terra/Luna на volume, Sol только на hard agent tasks — см. матрицу coding assistants.
Ultra mode в budget. TerminalBench wins стоят tokens; Max/Ultra — только для реально frontier workloads.
Fallback под export control. Mythos 5 offline — документируйте LiteLLM/OpenRouter fallbacks и Opus 4.8 path.
Data residency. US preview partners = potential US processing; для regulated workloads — routing policy и contract review.
Cerebras latency в roadmap. Enterprise paths с июля; до того — local agent compute как hedge.
7×24 agent uptime. API access ≠ stable egress. Dedicated MACCOME Mac mini (M4/M4 Pro) держит Cursor, Codex и gateway online, пока model access раскатывается волнами.

Итог: capability jump, token efficiency и новый release precedent

GPT-5.6 — три breakthrough: Ultra multi-agent и TerminalBench records, ⅓ tokens на том же security research tier, 750 tok/s via Cerebras с июля. Параллельно government review задаёт новую норму — с прямым impact на то, когда non-partner команды реально получат GA access.

Для стабильного agent layer под hyperscaler API: цены аренды Mac Mini; CLI routing: OpenRouter CLI ranking; onboarding: центр помощи.

FAQ

GPT-5.6 уже в ChatGPT?

Для широкой публики — нет. Июнь 2026: ~20 partners через API и Codex. Массовый ChatGPT rollout ожидается в июле (Polymarket ~87% до 31.07).

Sol лучше Claude Fable 5 для coding?

Sol лидирует TerminalBench 2.1 (91,9% vs Mythos 5 88%). Fable 5 может быть ahead на SWE-Bench Pro; официальные GPT-5.6 SWE scores не опубликованы. Sol — better value при сопоставимой или лучшей perf.

Что такое Ultra mode?

Несколько sub-agent'ов параллелят части задачи и мержат результат. Сильный буст на complex tasks, заметный token burn.

Почему GPT-5.6 под lock?

US government (OSTP/ONCD) после executive order 2 июня 2026. OpenAI ограничил access на security review, но публично против permanent norm.

Скорость на Cerebras?

До 750 tok/s — 5×–15× быстрее типичных frontier models. Старт июль 2026 для select enterprise.

Все три модели ок для cyber work?

Все с «High» cyber rating. OpenAI встроил safeguard layers и подтвердил: no autonomous full exploit chains против hardened targets.

Как планировать agent compute в preview window?

API preview не чинит laptop sleep и session stability. MACCOME M4/M4 Pro для 7×24 coding agents. Цены, центр помощи.