À qui s'adresse cet article ? Responsables techniques, équipes produit et studios créatifs qui suivent l'infrastructure IA et le coût d'inférence. Conclusion : le 24 juin 2026, OpenAI et Broadcom ont dévoilé Jalapeño, premier ASIC custom dédié à l'inférence LLM — gravé en 3 nm chez TSMC, développé en 9 mois, avec une revendication d'environ 50 % d'économie sur l'inférence. Structure : cinq contraintes sectorielles, matrice concurrentielle, chaîne Tomahawk/Celestica, feuille de route 2026–2029, six étapes, chiffres clés, FAQ et chronologie.
L'annonce redessine le paysage sans modifier vos factures API demain matin. Voici ce que les équipes doivent intégrer dès maintenant :
Richard Ho, responsable hardware chez OpenAI, décrit une conception from scratch : chaque décision suit les kernels, les mouvements mémoire, le réseau et les schémas de serving des modèles frontier. L'analogie tient : le GPU Nvidia est un outil polyvalent ; Jalapeño est un instrument chirurgical pour l'inférence LLM à l'échelle hyperscale.
Les échantillons d'ingénierie font déjà tourner GPT-5.3-Codex-Spark — modèle phare pour le codage assisté — à la fréquence et la consommation cibles. Pour les workflows créatifs sur écosystème Apple (Final Cut, Logic, pipelines 3D), la baisse potentielle du coût d'inférence API se traduirait, à terme, par des services IA plus abordables en aval — même si le silicium lui-même ne touche pas directement le Metal local.
| Acteur | Rôle | Contribution |
|---|---|---|
| OpenAI | Architecture | Optimisation inférence LLM, co-design logiciel |
| Broadcom | Silicium & réseau | Implémentation puce, Tomahawk, support volume |
| TSMC | Foundry | Gravure 3 nm |
| Celestica | Intégration | Cartes mères, racks, systèmes serveurs |
| Microsoft Azure | Premier client | Déploiement datacenter fin 2026 |
| Dimension | Jalapeño | Nvidia Blackwell | Google TPU | Meta MTIA / MS Maia |
|---|---|---|---|---|
| Usage principal | Inférence LLM | GPU généraliste | Train + inférence | Inférence interne |
| Entraînement frontier | Non | Oui (dominant) | Oui | Limité / non |
| Revendication coût | ~50 % (labo) | Référence marché | Optimisé GCP | Optimisé interne |
| Écosystème logiciel | Stack propriétaire | CUDA | Stack TPU | PyTorch interne |
| Interconnexion | Tomahawk | NVLink | ICI / OCS | Réseau DC dédié |
| Disponibilité | Fin 2026 (Azure) | Immédiate | Clients GCP | Usage interne |
Contexte marché : Broadcom conçoit déjà les ASIC de Google (TPU v5/v6) et Meta (MTIA). AVGO affiche ~+18 % en 2026 et près de ×7 depuis fin 2022 — le « fondeur de puces custom IA » sort gagnant quelle que soit la cliente.
OpenAI affirme le cycle le plus rapide jamais observé pour un ASIC haute performance de cette catégorie. Trois leviers expliquent cette vélocité : co-développement modèles/silicium, utilisation des propres modèles OpenAI pour accélérer certaines phases de design, et bibliothèque IP mature de Broadcom. Greg Brockman souligne que l'IA a participé à l'optimisation — un signal fort pour l'ère « full-stack » où la frontière entre recherche modèle et ingénierie silicium s'efface.
| Date | Événement |
|---|---|
| Oct. 2025 | Annonce partenariat OpenAI–Broadcom |
| Fév. 2026 | Nvidia investit 30 Md$ dans OpenAI (accord Vera Rubin) |
| 24 juin 2026 | Lancement public Jalapeño ; échantillons en labo |
| Fin 2026 | Premier déploiement commercial (Azure + partenaires) |
| 2027 | Production de masse ; déploiement >1,3 GW |
| ~2028 | Deuxième génération ; itérations annuelles ensuite |
| 2029 (objectif) | 10 GW de compute sur silicium propriétaire |
La question « Nvidia est-il fini ? » mérite nuance. Le fossé CUDA, l'entraînement et l'investissement croisé préservent le partenariat. Jalapeño apporte surtout un levier de négociation : même 20–30 % de l'inférence sur silicium maison économise des centaines de millions et réduit la dépendance aux cycles de livraison Nvidia. Comme l'a résumé un analyste cité par CNN : « Nobody wants to be beholden to Nvidia. »
Si les 50 % se confirment en production, l'économie des API IA — ChatGPT, Codex, tiers développeurs — change de registre. OpenAI revendique explicitement le contrôle de la pile : puces, kernels, mémoire, réseau, scheduling, déploiement. La concurrence ne se joue plus seulement sur la qualité du modèle, mais sur l'efficacité bout en bout. Croisez cette lecture avec le supercycle de financement IA et le guide des baisses de prix de juin.
Jalapeño est tangible — il exécute déjà GPT-5.3-Codex-Spark en labo — mais l'impact produit arrive fin 2026. En attendant, trois limites persistent pour les équipes qui s'appuient sur un MacBook personnel ou une machine de dev partagée : fermeture du capot interrompant les longues sessions Agent, hausses API sans repli local, et absence de workflow créatif ou de codage assisté véritablement 7×24. Pour ancrer Cursor, Claude Code ou OpenClaw sur un environnement Mac stable — particulièrement pertinent pour les pipelines Apple où la continuité de session compte autant que le débit — un nœud MACCOME Mac mini M4 / M4 Pro dédié reste souvent plus prévisible qu'un portable en veille. Consultez les tarifs de location et le guide OpenRouter CLI.
Questions fréquentes
Jalapeño remplace-t-il les GPU Nvidia ?
Non à court terme. ASIC inférence uniquement ; l'entraînement reste sur Nvidia. Investissement croisé de 30 Md$ en février 2026 — complémentarité, pas substitution.
Les 50 % d'économie sont-ils réels ?
Chiffre de Hock Tan (Bloomberg) sur tests labo précoces. Benchmarks tiers et déploiement Azure à grande échelle restent à confirmer.
Quand sera-t-il déployé ?
Fin 2026 chez Microsoft Azure ; volume 2027 ; objectif 10 GW de compute propriétaire d'ici 2029.
Jalapeño sera-t-il ouvert à d'autres sociétés IA ?
Formulation officielle : conçu « pour les LLM actuels et futurs de l'industrie ». Priorité actuelle : infrastructure OpenAI (ChatGPT, API, Codex).
Comment stabiliser mes Agents pendant cette transition ?
Le silicium hyperscaler ne résout pas la veille du portable. MACCOME propose des nœuds Mac cloud M4/M4 Pro pour agents de codage et OpenClaw 7×24. Tarifs sur la page tarifs ; aide via le centre d'aide.