Quelle taille de fenetre de contexte ?

Environ 1,5 million de tokens, contre 1 million pour GPT-5.5. Confirmation officielle attendue avec la fiche systeme complete.

GPT-5.6 Sol, Terra et Luna : test complet, benchmarks et tarifs (2026)

Q: GPT-5.6 Sol est-il meilleur que Claude Mythos 5 pour le code ?

Sol mene TerminalBench 2.1 avec 91,9 % (Ultra) contre 88,0 % pour Mythos 5. Mythos 5 peut rester en tete sur SWE-Bench Pro ; la fiche systeme complete de GPT-5.6 reste a publier. Sol offre une capacite comparable en recherche securite a moitie prix.

Q: Qu'est-ce que le mode Ultra ?

Le mode Ultra deploie plusieurs sous-agents en parallele sur differentes parties d'une tache, puis synthetise le resultat. Performance elevee sur les taches complexes, consommation de tokens significative.

Q: Pourquoi GPT-5.6 est-il restreint ?

A la demande du gouvernement americain (OSTP/ONCD) apres l'executive order du 2 juin 2026, OpenAI a limite l'acces pendant une periode d'examen de securite.

Q: Quelle vitesse sur Cerebras ?

Jusqu'a 750 tokens par seconde — environ 5 a 15 fois plus rapide que la plupart des modeles frontier actuels. Lancement prevu en juillet 2026 pour certains clients enterprise.

environ 18 min de lecture · MACCOME

Public cible : responsables techniques et equipes plateforme evaluant GPT-5.6 face a Claude Mythos 5, budgets API et architectures d'agents. Message cle : le 26 juin 2026, OpenAI a lance GPT-5.6 Sol, Terra et Luna — premiere famille nommee d'apres le systeme solaire. Sol atteint 91,9 % sur TerminalBench 2.1 et 96,7 % en CTF, mais seules environ 20 organisations partenaires y ont acces. Plan : matrice des modeles, benchmarks, Cerebras 750 tok/s, restriction gouvernementale, comparaison Mythos 5, six etapes et FAQ.

Vue d'ensemble GPT-5.6 : Sol, Terra et Luna comparees

OpenAI introduit pour la premiere fois une nomenclature a trois niveaux inspiree du systeme solaire : Sol (Soleil, flagship), Terra (Terre, equilibre) et Luna (Lune, leger). Les trois modeles franchissent la classification interne « High » en cybersecurite — une premiere pour une gamme complete, y compris le niveau d'entree Luna.

La sortie s'inscrit dans un contexte inedit : a la demande du gouvernement americain, l'acces general est provisoirement limite a une vingtaine de partenaires approuves. Sam Altman a exprime sa cooperation tout en avertissant :

« Nous ne pensons pas que ce type de processus d'acces gouvernemental devrait devenir la norme a long terme. Il eloigne les meilleurs outils des utilisateurs, developpeurs, entreprises et partenaires mondiaux qui en ont besoin. »

Modele	Positionnement	Entree	Sortie	Contexte	Point fort
Sol	Flagship	5 $ / 1M tokens	30 $ / 1M tokens	~1,5M	TerminalBench 91,9 %, Ultra multi-agents
Terra	Equilibre	2,50 $ / 1M tokens	15 $ / 1M tokens	~1,5M	Niveau GPT-5.5, -50 % de cout
Luna	Leger	1 $ / 1M tokens	6 $ / 1M tokens	~1,5M	-80 % vs Sol, rating cyber High

warning

Statut juin 2026 : disponibilite ChatGPT et API publique en attente. Polymarket attribue environ 87 % de probabilite a une sortie large avant le 31 juillet 2026. Contexte : fuites et chronologie.

Les trois modeles en detail : Max, Ultra et logique tarifaire

GPT-5.6 Sol — flagship et nouveaux modes de raisonnement

Sol est le modele le plus capable d'OpenAI pour le code complexe, la recherche cybersecurite et les workflows agents autonomes. Deux innovations :

Mode Max : temps de raisonnement supplementaire avant reponse — latence contre precision. Ideal lorsque l'exactitude prime sur la vitesse.
Mode Ultra : architecture multi-agents — decomposition de la tache, execution parallele par sous-agents, synthese finale. Moteur du record TerminalBench ; consommation de tokens elevee.

GPT-5.6 Terra — pilier enterprise

Terra cible les workloads volumineux : analyse documentaire, support client, outils internes. Performance proche de GPT-5.5 a 50 % de cout en moins — choix economique pour les deploiements API a grande echelle.

GPT-5.6 Luna — rapide et abordable

Luna optimise les taches a haute frequence et faible latence : resumes, redaction, automatisation courante. Premier modele non-flagship d'OpenAI avec notation High simultanee en cybersecurite et biologie.

Benchmarks : TerminalBench, CTF, ExploitBench et sciences du vivant

TerminalBench 2.1 — agents de code

89 defis de planification CLI complexes evaluent l'usage d'outils multi-etapes, la correction iterative et la coordination — plus proche des taches agents reelles que les benchmarks de completion classiques.

Modele	Score	Mode
GPT-5.6 Sol	91,9 %	Ultra (multi-agents)
GPT-5.6 Sol	88,8 %	Standard
Claude Mythos 5	88,0 %	Standard
GPT-5.5	83,4 %	Standard
Gemini 3.1 Pro Preview	70,7 %	Standard

Claude Mythos 5 n'avait occupe la premiere place que 17 jours (depuis le 9 juin) avant d'etre depasse.

Agent's Last Exam — agents longue duree

Sol atteint 50,9 % de completion (mode code) — seul modele au-dessus de 50 %. Luna depasse legerement GPT-5.5.

Cybersecurite : CTF et ExploitBench

Modele	Taux CTF
Sol	96,7 %
Terra	91,84 %
Luna	85,19 %

Sur ExploitBench, Sol egale le Mythos Preview d'Anthropic en n'utilisant qu'environ un tiers des tokens de sortie — capacite comparable en recherche securite a cout nettement inferieur.

Sciences du vivant

GeneBench v1 : Sol egale ou depasse GPT-5.5 avec moins de tokens.
HealthBench Professional : Sol 60,5 points — +8,7 par rapport a GPT-5.5.

info

Note de securite : le red-teaming d'OpenAI confirme que Sol peut identifier des vulnerabilites dans Chromium et Firefox, mais ne construit pas de chaines d'exploit completes et fonctionnelles de maniere autonome. Sous le seuil « Cyber Critical ».

Acceleration Cerebras : 750 tokens par seconde des juillet

A partir de juillet 2026, GPT-5.6 Sol sera deploye via la plateforme materielle Cerebras pour certains clients enterprise — jusqu'a 750 tok/s.

Modeles frontier typiques : 50–150 tok/s
Sol sur Cerebras : 5× a 15× plus rapide
En pratique : une reponse de 10 secondes pourrait se completer en moins d'une seconde — pertinent pour assistants de code temps reel et agents interactifs.

Acces initial limite aux clients enterprise pendant l'extension des capacites Cerebras. Contexte : l'ASIC Jalapeño d'OpenAI adresse parallelement le cout d'inference.

Restriction gouvernementale : executive order et releases frontier bloquees

Le 2 juin 2026, le president Trump a signe une executive order accordant aux agences americaines jusqu'a 30 jours d'acces prealable aux modeles frontier pour examen de securite. Le 26 juin, a la demande de l'OSTP et de l'ONCD, OpenAI a limite le lancement a environ 20 organisations « trusted partner ».

C'est la premiere fois que le gouvernement americain impose formellement une publication restreinte d'un modele frontier — un precedent avec impact global sur la disponibilite API et le routage de modeles.

Editeur	Modele	Statut juin 2026
OpenAI	GPT-5.6 Sol/Terra/Luna	Preview limitee (~20 orgs)
Anthropic	Claude Fable 5 / Mythos 5	Hors ligne depuis le 12/06 (export control)
Google	Gemini 3.5 Pro	Reporte a juillet

Juin 2026 devait etre le plus grand mois de releases IA — regulation et export control ont bloque les trois flagship frontier. Pour les equipes europeennes : documenter lieux de traitement et contrats lors des appels API contenant des donnees personnelles.

GPT-5.6 Sol vs Claude Mythos 5 : matrice, acces et cas d'usage

Dimension	GPT-5.6 Sol	Claude Mythos 5
TerminalBench 2.1	91,9 % (Ultra) / 88,8 %	88,0 %
ExploitBench	Quasi identique, ~1/3 tokens	Fort (hors ligne)
Prix entree	5 $ / M	10 $ / M (hors ligne)
Disponibilite	Preview → acces large juillet	Export control hors ligne
Contexte	~1,5M tokens	200K tokens

Synthese : Sol mene sur TerminalBench et offre une recherche securite comparable a moitie prix. Mythos 5 peut rester en tete sur SWE-Bench Pro ; la fiche systeme complete de GPT-5.6 reste a publier. Voir analyse export control Fable 5.

Chronologie d'acces

Juin 2026 : ~20 partenaires via API et Codex ; ChatGPT pas encore pour le grand public.
Juillet 2026 (attendu) : ChatGPT (Plus/Pro en priorite), API publique, Sol Cerebras pour enterprise.

Recommandations par scenario

Sol : agents de code complexes, recherche cyber, autonomie longue duree, precision avant cout.
Terra : workloads volumineux, niveau GPT-5.5 a moitie prix, APIs de production.
Luna : resumes, classification, millions d'appels API legers.
Sol on Cerebras (des juillet) : applications temps reel sensibles a la latence.

Couche securite OpenAI

Classificateurs de mauvais usage en temps reel sur chaque sortie
Revue au niveau compte pour workflows sensibles
700 000 heures GPU A100-equivalent de red-teaming automatise
Tests universal jailbreak et modele de filtrage reasonne specialise

Six etapes : comment reagir en equipe technique

Preparer le routage de modeles. Terra/Luna pour le volume, Sol pour les agents complexes — voir matrice assistants code.
Budgeter le mode Ultra. Les gains TerminalBench coutent des tokens ; activer Max/Ultra uniquement pour les vrais cas frontier.
Fallback export control. Mythos 5 hors ligne — documenter fallbacks LiteLLM/OpenRouter et Opus 4.8.
Conformite avant migration API. La preview US implique un traitement potentiel aux Etats-Unis ; verifier contrats et localisation des donnees.
Anticiper la latence Cerebras. Evaluer les pistes enterprise des juillet ; en attendant, compute agent local comme couverture.
Securiser le fonctionnement 7×24. L'acces API ne suffit pas — Cursor, Codex et gateway exigent un egress compute stable. Un MACCOME Mac mini (M4/M4 Pro) maintient les pipelines agents en ligne pendant le deploiement progressif des modeles.

Conclusion : performance, efficacite et un nouveau precedent de publication

GPT-5.6 marque trois avancees : multi-agents Ultra et records TerminalBench, un tiers de tokens pour une recherche securite equivalente, et 750 tok/s via Cerebras des juillet. Parallelement, l'examen gouvernemental etablit une nouvelle norme — avec impact direct sur l'acces productif des equipes europeennes.

Pour une production agent stable sous l'API hyperscaler : tarifs location Mac mini ; routage CLI : classement OpenRouter CLI ; aide : centre d'aide.

Questions frequentes

GPT-5.6 est-il disponible sur ChatGPT ?

Pas encore pour le grand public. En juin 2026, acces limite a environ 20 partenaires via API et Codex. Deploiement ChatGPT attendu en juillet 2026 (Polymarket ~87 % avant le 31/07).

GPT-5.6 Sol est-il meilleur que Claude Fable 5 pour le code ?

Sol mene TerminalBench 2.1 (91,9 % vs Mythos 5 88 %). Fable 5 peut rester en tete sur SWE-Bench Pro ; scores SWE-Bench GPT-5.6 non publies. Sol offre performance comparable ou superieure a prix inferieur.

Qu'est-ce que le mode Ultra ?

Ultra deploie plusieurs sous-agents en parallele, puis synthetise les resultats. Fort sur les taches complexes, consommation de tokens elevee.

Pourquoi GPT-5.6 est-il restreint ?

Gouvernement americain (OSTP/ONCD) apres executive order du 2 juin 2026. OpenAI a limite l'acces pendant l'examen de securite tout en s'opposant a une norme permanente.

Quelle vitesse sur Cerebras ?

Jusqu'a 750 tok/s — 5× a 15× plus rapide que les modeles frontier typiques. Lancement juillet 2026 pour clients enterprise selectionnes.

Les trois modeles conviennent-ils au travail cybersecurite ?

Tous portent le rating « High ». OpenAI a deploye des couches de protection et confirme l'absence de chaines d'exploit completes autonomes contre cibles durcies.

Comment planifier le compute agent pendant la preview ?

La preview API ne resout pas le sleep du portable ni la stabilite des sessions. MACCOME M4/M4 Pro pour agents code 7×24. Tarifs, centre d'aide.