GPT-5.6 Sol, Terra и Luna: полный обзор, бенчмарки и цены (2026)

~18 мин чтения · MACCOME

Для кого: tech leads и platform-команды, которые сравнивают GPT-5.6 с Claude Mythos 5, считают API burn и проектируют agent stack. Суть: 26 июня 2026 OpenAI выкатил GPT-5.6 Sol, Terra и Luna — первый tiered lineup с солнечной номенклатурой. Sol бьёт 91,9% на TerminalBench 2.1 и 96,7% в CTF, но доступ сейчас у ~20 trusted partner orgs. Структура: матрица моделей → бенчмарки → Cerebras 750 tok/s → government lock → vs Mythos 5 → 6 шагов и FAQ.

GPT-5.6: Sol, Terra, Luna — сводная матрица

OpenAI впервые разложил frontier lineup по солнечной схеме: Sol (Солнце, max capability), Terra (Земля, баланс), Luna (Луна, lightweight tier). Все три модели пробили внутренний порог «High» по cybersecurity — впервые для целой продуктовой линейки, включая entry-tier Luna.

Релиз вышел под government lock: по запросу US administration широкий доступ временно урезан до ~20 pre-approved partners. Sam Altman публично заявил:

«Мы не считаем, что такой government access process должен стать долгосрочной нормой. Он отрезает лучшие инструменты от dev'ов, enterprise и global partners, которым они нужны.»

МодельTierInputOutputContextHighlight
SolFlagship$5 / 1M tok$30 / 1M tok~1,5MTerminalBench 91,9%, Ultra multi-agent
TerraBalanced$2,50 / 1M tok$15 / 1M tok~1,5M~GPT-5.5 perf, −50% cost
LunaLight$1 / 1M tok$6 / 1M tok~1,5M−80% vs Sol, High cyber rating
warning

Статус июнь 2026: массовый ChatGPT и public API — ещё нет. Polymarket даёт ~87% на broad release до 31 июля. Бэкграунд: утечки и timeline.

Три модели: Max mode, Ultra mode и pricing logic

GPT-5.6 Sol — flagship с двумя новыми inference modes

Sol — самый мощный релиз OpenAI для hardcore coding, multi-step cyber research и long-horizon agentic workflows. Новинки:

  • Max mode: больше reasoning time перед ответом — latency ради accuracy. Когда важнее correctness, а не speed-to-first-token.
  • Ultra mode: multi-agent architecture — Sol декомпозит задачу, спавнит parallel sub-agents, мержит output. Именно это дало рекорд на TerminalBench; token burn ощутимый.

GPT-5.6 Terra — enterprise workhorse

Terra заточен под high-volume workloads: doc analysis, support tickets, internal tooling. Performance близок к GPT-5.5 при 50% lower API cost — sweet spot для production-scale routing.

GPT-5.6 Luna — fast & cheap tier

Luna — для high-frequency, low-latency tasks: summarization, drafting, routine automation. Факт: первый non-flagship OpenAI с одновременным High в cyber и biology capability ratings.

Бенчмарки: TerminalBench, CTF, ExploitBench, life sciences

TerminalBench 2.1 — coding agents

89 complex CLI planning challenges — тестируют multi-step tool use, iterative fix loops и coordination. Ближе к real agent tasks, чем classic code completion benches.

МодельScoreMode
GPT-5.6 Sol91,9%Ultra (multi-agent)
GPT-5.6 Sol88,8%Standard
Claude Mythos 588,0%Standard
GPT-5.583,4%Standard
Gemini 3.1 Pro Preview70,7%Standard

Claude Mythos 5 держал #1 всего 17 дней (с 9 июня) — Sol снял с трона быстрее, чем многие ожидали.

Agent's Last Exam — long-horizon agents

Sol: 50,9% task completion (code mode) — единственная модель выше 50% bar. Luna чуть выше GPT-5.5.

Cybersecurity: CTF & ExploitBench

МодельCTF hit rate
Sol96,7%
Terra91,84%
Luna85,19%

На ExploitBench Sol матчит Anthropic Mythos Preview, но жрёт ~⅓ output tokens — тот же security research capability при сильно ниже $/run.

Life sciences

  • GeneBench v1: Sol matches/exceeds GPT-5.5 с меньшим token budget.
  • HealthBench Professional: Sol 60,5 — +8,7 к GPT-5.5.
info

Safety note: red-teaming OpenAI подтверждает: Sol находит vulns в Chromium/Firefox codebases, но не собирает autonomously полноценные working exploit chains. Ниже порога «Cyber Critical».

Cerebras acceleration: 750 tok/s с июля

С июля 2026 GPT-5.6 Sol пойдёт на Cerebras hardware для select enterprise — headline number: 750 tokens/sec.

  • Типичные frontier models сейчас: 50–150 tok/s
  • Sol on Cerebras: 5×–15× faster
  • Реальный эффект: response, который сейчас 10 секунд, может уложиться в <1 сек — game changer для real-time coding assistants и streaming agents.

Initial access — enterprise-only, пока Cerebras наращивает capacity. Параллельно OpenAI крутит Jalapeño ASIC для inference economics.

Government lock: executive order и заблокированный «супер-релизный» июнь

2 июня 2026 — Trump executive order: US agencies получают до 30 дней pre-release access к frontier models для national security review. 26 июня по запросу OSTP/ONCD OpenAI ограничил launch ~20 trusted partner orgs.

Это первый раз, когда US government формально требует restricted release frontier model — precedent с глобальным impact на API availability и model routing.

VendorModelStatus июнь 2026
OpenAIGPT-5.6 Sol/Terra/LunaLimited preview (~20 orgs)
AnthropicClaude Fable 5 / Mythos 5Offline с 12.06 (export control)
GoogleGemini 3.5 ProSlip to July

Июнь 2026 должен был быть biggest AI release month — вместо этого regulation и export control застопорили все три frontier flagship. Для non-US команд: учитывайте export control risk и fallback routing независимо от GPT-5.6 access window.

Sol vs Claude Mythos 5: head-to-head, access timeline, use cases

DimensionGPT-5.6 SolClaude Mythos 5
TerminalBench 2.191,9% (Ultra) / 88,8%88,0%
ExploitBenchNear-parity, ~⅓ tokensStrong (offline)
Input price$5 / M$10 / M (offline)
AvailabilityPreview → GA JulyExport control kill
Context~1,5M tokens200K tokens

Bottom line по цифрам: Sol лидирует на TerminalBench и даёт comparable security research за fraction of cost. Mythos 5 может оставаться ahead на SWE-Bench Pro — полная GPT-5.6 system card ещё не out. Контекст: Fable 5 export ban breakdown.

Access timeline

  • Июнь 2026: ~20 partners via API + Codex; ChatGPT для masses — нет.
  • Июль 2026 (expected): ChatGPT (Plus/Pro first), public API, Cerebras Sol для enterprise.

Кому какой tier

  • Sol: complex coding agents, cyber research, long-horizon autonomy, accuracy > cost.
  • Terra: volume workloads, GPT-5.5-level perf at half price, production APIs.
  • Luna: summarization, classification, millions of lightweight calls/day.
  • Sol on Cerebras (July+): latency-critical realtime apps.

Safety stack

  • Real-time misuse classifiers на каждом output
  • Account-level review для sensitive workflows
  • 700K A100-equivalent GPU hours automated red-teaming
  • Universal jailbreak testing + specialized reasoning filter model

6 шагов: как dev-командам затащить GPT-5.6 в production planning

  1. Model routing заранее. Terra/Luna на volume, Sol только на hard agent tasks — см. матрицу coding assistants.
  2. Ultra mode в budget. TerminalBench wins стоят tokens; Max/Ultra — только для реально frontier workloads.
  3. Fallback под export control. Mythos 5 offline — документируйте LiteLLM/OpenRouter fallbacks и Opus 4.8 path.
  4. Data residency. US preview partners = potential US processing; для regulated workloads — routing policy и contract review.
  5. Cerebras latency в roadmap. Enterprise paths с июля; до того — local agent compute как hedge.
  6. 7×24 agent uptime. API access ≠ stable egress. Dedicated MACCOME Mac mini (M4/M4 Pro) держит Cursor, Codex и gateway online, пока model access раскатывается волнами.

Итог: capability jump, token efficiency и новый release precedent

GPT-5.6 — три breakthrough: Ultra multi-agent и TerminalBench records, ⅓ tokens на том же security research tier, 750 tok/s via Cerebras с июля. Параллельно government review задаёт новую норму — с прямым impact на то, когда non-partner команды реально получат GA access.

Для стабильного agent layer под hyperscaler API: цены аренды Mac Mini; CLI routing: OpenRouter CLI ranking; onboarding: центр помощи.

FAQ

GPT-5.6 уже в ChatGPT?

Для широкой публики — нет. Июнь 2026: ~20 partners через API и Codex. Массовый ChatGPT rollout ожидается в июле (Polymarket ~87% до 31.07).

Sol лучше Claude Fable 5 для coding?

Sol лидирует TerminalBench 2.1 (91,9% vs Mythos 5 88%). Fable 5 может быть ahead на SWE-Bench Pro; официальные GPT-5.6 SWE scores не опубликованы. Sol — better value при сопоставимой или лучшей perf.

Что такое Ultra mode?

Несколько sub-agent'ов параллелят части задачи и мержат результат. Сильный буст на complex tasks, заметный token burn.

Почему GPT-5.6 под lock?

US government (OSTP/ONCD) после executive order 2 июня 2026. OpenAI ограничил access на security review, но публично против permanent norm.

Скорость на Cerebras?

До 750 tok/s — 5×–15× быстрее типичных frontier models. Старт июль 2026 для select enterprise.

Все три модели ок для cyber work?

Все с «High» cyber rating. OpenAI встроил safeguard layers и подтвердил: no autonomous full exploit chains против hardened targets.

Как планировать agent compute в preview window?

API preview не чинит laptop sleep и session stability. MACCOME M4/M4 Pro для 7×24 coding agents. Цены, центр помощи.