GPT-5.6 Sol, Terra et Luna : test complet, benchmarks et tarifs (2026)

environ 18 min de lecture · MACCOME

Public cible : responsables techniques et equipes plateforme evaluant GPT-5.6 face a Claude Mythos 5, budgets API et architectures d'agents. Message cle : le 26 juin 2026, OpenAI a lance GPT-5.6 Sol, Terra et Luna — premiere famille nommee d'apres le systeme solaire. Sol atteint 91,9 % sur TerminalBench 2.1 et 96,7 % en CTF, mais seules environ 20 organisations partenaires y ont acces. Plan : matrice des modeles, benchmarks, Cerebras 750 tok/s, restriction gouvernementale, comparaison Mythos 5, six etapes et FAQ.

Vue d'ensemble GPT-5.6 : Sol, Terra et Luna comparees

OpenAI introduit pour la premiere fois une nomenclature a trois niveaux inspiree du systeme solaire : Sol (Soleil, flagship), Terra (Terre, equilibre) et Luna (Lune, leger). Les trois modeles franchissent la classification interne « High » en cybersecurite — une premiere pour une gamme complete, y compris le niveau d'entree Luna.

La sortie s'inscrit dans un contexte inedit : a la demande du gouvernement americain, l'acces general est provisoirement limite a une vingtaine de partenaires approuves. Sam Altman a exprime sa cooperation tout en avertissant :

« Nous ne pensons pas que ce type de processus d'acces gouvernemental devrait devenir la norme a long terme. Il eloigne les meilleurs outils des utilisateurs, developpeurs, entreprises et partenaires mondiaux qui en ont besoin. »

ModelePositionnementEntreeSortieContextePoint fort
SolFlagship5 $ / 1M tokens30 $ / 1M tokens~1,5MTerminalBench 91,9 %, Ultra multi-agents
TerraEquilibre2,50 $ / 1M tokens15 $ / 1M tokens~1,5MNiveau GPT-5.5, -50 % de cout
LunaLeger1 $ / 1M tokens6 $ / 1M tokens~1,5M-80 % vs Sol, rating cyber High
warning

Statut juin 2026 : disponibilite ChatGPT et API publique en attente. Polymarket attribue environ 87 % de probabilite a une sortie large avant le 31 juillet 2026. Contexte : fuites et chronologie.

Les trois modeles en detail : Max, Ultra et logique tarifaire

GPT-5.6 Sol — flagship et nouveaux modes de raisonnement

Sol est le modele le plus capable d'OpenAI pour le code complexe, la recherche cybersecurite et les workflows agents autonomes. Deux innovations :

  • Mode Max : temps de raisonnement supplementaire avant reponse — latence contre precision. Ideal lorsque l'exactitude prime sur la vitesse.
  • Mode Ultra : architecture multi-agents — decomposition de la tache, execution parallele par sous-agents, synthese finale. Moteur du record TerminalBench ; consommation de tokens elevee.

GPT-5.6 Terra — pilier enterprise

Terra cible les workloads volumineux : analyse documentaire, support client, outils internes. Performance proche de GPT-5.5 a 50 % de cout en moins — choix economique pour les deploiements API a grande echelle.

GPT-5.6 Luna — rapide et abordable

Luna optimise les taches a haute frequence et faible latence : resumes, redaction, automatisation courante. Premier modele non-flagship d'OpenAI avec notation High simultanee en cybersecurite et biologie.

Benchmarks : TerminalBench, CTF, ExploitBench et sciences du vivant

TerminalBench 2.1 — agents de code

89 defis de planification CLI complexes evaluent l'usage d'outils multi-etapes, la correction iterative et la coordination — plus proche des taches agents reelles que les benchmarks de completion classiques.

ModeleScoreMode
GPT-5.6 Sol91,9 %Ultra (multi-agents)
GPT-5.6 Sol88,8 %Standard
Claude Mythos 588,0 %Standard
GPT-5.583,4 %Standard
Gemini 3.1 Pro Preview70,7 %Standard

Claude Mythos 5 n'avait occupe la premiere place que 17 jours (depuis le 9 juin) avant d'etre depasse.

Agent's Last Exam — agents longue duree

Sol atteint 50,9 % de completion (mode code) — seul modele au-dessus de 50 %. Luna depasse legerement GPT-5.5.

Cybersecurite : CTF et ExploitBench

ModeleTaux CTF
Sol96,7 %
Terra91,84 %
Luna85,19 %

Sur ExploitBench, Sol egale le Mythos Preview d'Anthropic en n'utilisant qu'environ un tiers des tokens de sortie — capacite comparable en recherche securite a cout nettement inferieur.

Sciences du vivant

  • GeneBench v1 : Sol egale ou depasse GPT-5.5 avec moins de tokens.
  • HealthBench Professional : Sol 60,5 points — +8,7 par rapport a GPT-5.5.
info

Note de securite : le red-teaming d'OpenAI confirme que Sol peut identifier des vulnerabilites dans Chromium et Firefox, mais ne construit pas de chaines d'exploit completes et fonctionnelles de maniere autonome. Sous le seuil « Cyber Critical ».

Acceleration Cerebras : 750 tokens par seconde des juillet

A partir de juillet 2026, GPT-5.6 Sol sera deploye via la plateforme materielle Cerebras pour certains clients enterprise — jusqu'a 750 tok/s.

  • Modeles frontier typiques : 50–150 tok/s
  • Sol sur Cerebras : 5× a 15× plus rapide
  • En pratique : une reponse de 10 secondes pourrait se completer en moins d'une seconde — pertinent pour assistants de code temps reel et agents interactifs.

Acces initial limite aux clients enterprise pendant l'extension des capacites Cerebras. Contexte : l'ASIC Jalapeño d'OpenAI adresse parallelement le cout d'inference.

Restriction gouvernementale : executive order et releases frontier bloquees

Le 2 juin 2026, le president Trump a signe une executive order accordant aux agences americaines jusqu'a 30 jours d'acces prealable aux modeles frontier pour examen de securite. Le 26 juin, a la demande de l'OSTP et de l'ONCD, OpenAI a limite le lancement a environ 20 organisations « trusted partner ».

C'est la premiere fois que le gouvernement americain impose formellement une publication restreinte d'un modele frontier — un precedent avec impact global sur la disponibilite API et le routage de modeles.

EditeurModeleStatut juin 2026
OpenAIGPT-5.6 Sol/Terra/LunaPreview limitee (~20 orgs)
AnthropicClaude Fable 5 / Mythos 5Hors ligne depuis le 12/06 (export control)
GoogleGemini 3.5 ProReporte a juillet

Juin 2026 devait etre le plus grand mois de releases IA — regulation et export control ont bloque les trois flagship frontier. Pour les equipes europeennes : documenter lieux de traitement et contrats lors des appels API contenant des donnees personnelles.

GPT-5.6 Sol vs Claude Mythos 5 : matrice, acces et cas d'usage

DimensionGPT-5.6 SolClaude Mythos 5
TerminalBench 2.191,9 % (Ultra) / 88,8 %88,0 %
ExploitBenchQuasi identique, ~1/3 tokensFort (hors ligne)
Prix entree5 $ / M10 $ / M (hors ligne)
DisponibilitePreview → acces large juilletExport control hors ligne
Contexte~1,5M tokens200K tokens

Synthese : Sol mene sur TerminalBench et offre une recherche securite comparable a moitie prix. Mythos 5 peut rester en tete sur SWE-Bench Pro ; la fiche systeme complete de GPT-5.6 reste a publier. Voir analyse export control Fable 5.

Chronologie d'acces

  • Juin 2026 : ~20 partenaires via API et Codex ; ChatGPT pas encore pour le grand public.
  • Juillet 2026 (attendu) : ChatGPT (Plus/Pro en priorite), API publique, Sol Cerebras pour enterprise.

Recommandations par scenario

  • Sol : agents de code complexes, recherche cyber, autonomie longue duree, precision avant cout.
  • Terra : workloads volumineux, niveau GPT-5.5 a moitie prix, APIs de production.
  • Luna : resumes, classification, millions d'appels API legers.
  • Sol on Cerebras (des juillet) : applications temps reel sensibles a la latence.

Couche securite OpenAI

  • Classificateurs de mauvais usage en temps reel sur chaque sortie
  • Revue au niveau compte pour workflows sensibles
  • 700 000 heures GPU A100-equivalent de red-teaming automatise
  • Tests universal jailbreak et modele de filtrage reasonne specialise

Six etapes : comment reagir en equipe technique

  1. Preparer le routage de modeles. Terra/Luna pour le volume, Sol pour les agents complexes — voir matrice assistants code.
  2. Budgeter le mode Ultra. Les gains TerminalBench coutent des tokens ; activer Max/Ultra uniquement pour les vrais cas frontier.
  3. Fallback export control. Mythos 5 hors ligne — documenter fallbacks LiteLLM/OpenRouter et Opus 4.8.
  4. Conformite avant migration API. La preview US implique un traitement potentiel aux Etats-Unis ; verifier contrats et localisation des donnees.
  5. Anticiper la latence Cerebras. Evaluer les pistes enterprise des juillet ; en attendant, compute agent local comme couverture.
  6. Securiser le fonctionnement 7×24. L'acces API ne suffit pas — Cursor, Codex et gateway exigent un egress compute stable. Un MACCOME Mac mini (M4/M4 Pro) maintient les pipelines agents en ligne pendant le deploiement progressif des modeles.

Conclusion : performance, efficacite et un nouveau precedent de publication

GPT-5.6 marque trois avancees : multi-agents Ultra et records TerminalBench, un tiers de tokens pour une recherche securite equivalente, et 750 tok/s via Cerebras des juillet. Parallelement, l'examen gouvernemental etablit une nouvelle norme — avec impact direct sur l'acces productif des equipes europeennes.

Pour une production agent stable sous l'API hyperscaler : tarifs location Mac mini ; routage CLI : classement OpenRouter CLI ; aide : centre d'aide.

Questions frequentes

GPT-5.6 est-il disponible sur ChatGPT ?

Pas encore pour le grand public. En juin 2026, acces limite a environ 20 partenaires via API et Codex. Deploiement ChatGPT attendu en juillet 2026 (Polymarket ~87 % avant le 31/07).

GPT-5.6 Sol est-il meilleur que Claude Fable 5 pour le code ?

Sol mene TerminalBench 2.1 (91,9 % vs Mythos 5 88 %). Fable 5 peut rester en tete sur SWE-Bench Pro ; scores SWE-Bench GPT-5.6 non publies. Sol offre performance comparable ou superieure a prix inferieur.

Qu'est-ce que le mode Ultra ?

Ultra deploie plusieurs sous-agents en parallele, puis synthetise les resultats. Fort sur les taches complexes, consommation de tokens elevee.

Pourquoi GPT-5.6 est-il restreint ?

Gouvernement americain (OSTP/ONCD) apres executive order du 2 juin 2026. OpenAI a limite l'acces pendant l'examen de securite tout en s'opposant a une norme permanente.

Quelle vitesse sur Cerebras ?

Jusqu'a 750 tok/s — 5× a 15× plus rapide que les modeles frontier typiques. Lancement juillet 2026 pour clients enterprise selectionnes.

Les trois modeles conviennent-ils au travail cybersecurite ?

Tous portent le rating « High ». OpenAI a deploye des couches de protection et confirme l'absence de chaines d'exploit completes autonomes contre cibles durcies.

Comment planifier le compute agent pendant la preview ?

La preview API ne resout pas le sleep du portable ni la stabilite des sessions. MACCOME M4/M4 Pro pour agents code 7×24. Tarifs, centre d'aide.