Кому читать: инженерам inference/serving, platform lead и тем, кто считает $/1M tokens и GPU burn. Вывод: 24 июня 2026 OpenAI и Broadcom представили Jalapeño — custom ASIC только для LLM inference на TSMC 3nm, tape-out за 9 месяцев, заявлено ~50% снижение стоимости vs GPU baseline. Структура: пять bottlenecks → microarchitecture и supply chain → сравнение с Nvidia/TPU/MTIA → roadmap 2026–2029 → шесть шагов, три метрики, FAQ, timeline.
Новость не меняет ваш CUDA-кластер завтра, но сдвигает границы unit economics на горизонте 12–36 месяцев:
Это не GPU. ASIC = один job — LLM inference (prefill/decode serving patterns). Richard Ho (OpenAI hardware): blank-slate design с co-design модельных kernel'ов, memory movement, networking и batching/scheduling.
Engineering samples уже крутят GPT-5.3-Codex-Spark на target frequency и power envelope — не synthetic microbench, а production-class coding model.
| Слой | Вендор | Функция |
|---|---|---|
| Architecture | OpenAI | Kernel/serving insights, full-stack co-design |
| Silicon + network | Broadcom | Physical design, Tomahawk, volume |
| Foundry | TSMC | 3nm (same node class as Blackwell, Apple M4) |
| System integration | Celestica | Boards, racks, server SKUs |
| First deploy | Microsoft Azure | DC rollout end of 2026 |
| Параметр | Jalapeño | Nvidia Blackwell | Google TPU | Meta MTIA / MS Maia |
|---|---|---|---|---|
| Класс | Inference ASIC | General GPU | Custom ASIC | Inference ASIC (internal) |
| Training frontier | Нет | Да (dominant) | Да | Нет / limited |
| Cost claim | ~50% vs GPU (lab) | Market baseline | GCP-internal | Internal |
| Software moat | Proprietary stack | CUDA ecosystem | TPU + XLA/JAX | PyTorch internal |
| Interconnect | Tomahawk | NVLink / Spectrum | ICI | Meta DC net |
| Availability | EOY 2026 (Azure) | Now | GCP tenants | Internal only |
| Strategy | Leverage + Opex cut | Train + invest $30B in OpenAI | Vertical cloud | Ad inference TCO |
Sanity check: «On par with Blackwell and Google TPU» (Reuters, Hock Tan) и 50% cost — vendor lab. Independent MLPerf-style bench и Azure production telemetry ещё не публичны.
Заявленный рекорд для high-performance ASIC. Драйверы:
Greg Brockman: часть design decisions проходила через собственные AI models — meta-loop: AI проектирует железо для AI inference.
| Фаза | Срок | Событие |
|---|---|---|
| Partnership | Окт. 2025 | OpenAI + Broadcom announce custom chip |
| Nvidia tie-in | Фев. 2026 | Nvidia $30 млрд direct into OpenAI (Vera Rubin compute deal) |
| Launch | 24.06.2026 | Jalapeño public; engineering samples in lab |
| Pilot DC | Конец 2026 | Azure + partner datacenters |
| Volume | 2027 | Mass production; deploy >1.3 GW (Broadcom forecast) |
| Gen 2 | ~2028 | Next silicon; annual cadence after |
| Scale target | 2029 | 10 GW on custom silicon |
Nvidia не «мертв»: CUDA moat, training monopoly, Vera Rubin roadmap, $30B stake. Jalapeño = diversification, not divorce. Даже 20–30% inference на own ASIC даёт сотни миллионов savings и bargaining power на GPU закупки. Broadcom одновременно делает TPU (Google) и MTIA (Meta) — AVGO ~+18% YTD 2026, ~7× с конца 2022.
Валидация 50% в production сдвинет API pricing floor, free-tier limits и margin path OpenAI (burn $34B при revenue $13B в 2025). OpenAI формулирует full-stack: chips → kernels → memory → network → scheduler → product. Конкуренция смещается с «лучшая модель» на «лучший $/token end-to-end». См. также суперцикл финансирования и июньский price-cut guide.
Jalapeño real — samples бегут GPT-5.3-Codex-Spark — но production impact с конца 2026. Три hidden costs остаются у команд на sleeping laptop / shared dev box: lid-close рвёт long Agent sessions, API spikes без local fallback, нет true 7×24 coding-Agent pipeline. Для production, который должен переварить toolchain этого silicon shift, Agents и Gateway на dedicated MACCOME Mac mini (M4 / M4 Pro) node обычно ниже TCO, чем борьба с sleep policy consumer hardware. Тарифы: аренда Mac Mini; CLI: рейтинг OpenRouter CLI.
FAQ
Jalapeño заменяет GPU Nvidia?
Нет в краткосрочной перспективе. Pure inference ASIC; training на Nvidia. Фев. 2026 — $30 млрд direct investment Nvidia в OpenAI.
Подтверждена ли экономия 50%?
Hock Tan (Bloomberg): ~50% в early lab vs typical AI GPUs. Independent bench и Azure production data — впереди.
Когда commercial deploy?
Конец 2026 — Microsoft Azure. Volume 2027; 10 GW custom compute к 2029.
Будет ли Jalapeño доступен внешним AI-компаниям?
Официально: «built for current and future LLMs across the industry». Приоритет — OpenAI inference (ChatGPT, API, Codex).
Как стабильно деплоить Agent на фоне silicon transition?
Hyperscaler ASIC не чинит laptop sleep. MACCOME M4/M4 Pro cloud Mac для 7×24 OpenClaw и coding Agent. Тарифы: аренда Mac Mini; onboarding: центр помощи.