OpenAI × 博通联合发布首款自研 AI 芯片 Jalapeño:推理成本直降 50%,剑指英伟达

约 18 分钟阅读 · MACCOME

如果你负责 AI 产品成本或 Agent 基础设施预算——2026 年 6 月 24 日 OpenAI 与博通联合发布的 Jalapeño 可能是今年最重要的硬件新闻。本文面向开发者、技术负责人与算力观察者,给出完整结论:首款定制 LLM 推理 ASIC、早期测试推理成本约降 50%、台积电 3nm、9 个月流片、年底部署微软 Azure、2029 年目标 10 GW 算力。结构涵盖:背景痛点 → 技术架构 → 性能数据 → 开发周期 → 产业链 → 部署路线图 → 竞争格局 → 行业影响 → 六步落地 → FAQ。

OpenAI 为什么要造自己的芯片?六种推理算力痛点

OpenAI 是全球最大的 GPU 消耗方之一。每当用户向 ChatGPT 提问,背后服务器群组就需要持续消耗大量算力完成「推理」(Inference)——模型根据输入生成回答的过程。随着 GPT-4、GPT-5 系列能力升级,推理成本已成为 OpenAI 盈利路径上最重的一块石头。同一周,2026 AI 融资超级周期把 hyperscaler capex 推过 8300 亿美元,推理——而非训练——是产品团队最先感到压力的地方:

  1. 通用 GPU 推理经济学结构性错配。 英伟达 H100、H200、Blackwell 为训练灵活性设计,在高度同质化的 LLM 推理场景里,大量算力开销实际上是浪费。类比来说:英伟达 GPU 是瑞士军刀,Jalapeño 是专业手术刀。
  2. 单一供应商依赖。 过去 OpenAI 几乎完全依赖英伟达 GPU。即便 2026 年 2 月英伟达以 300 亿美元直接投资 OpenAI(含 Vera Rubin 算力协议),供货周期与议价空间仍是瓶颈。
  3. 延迟与成本双重挤压。 编程 Agent 与实时助手需要高并发下的低 TTFT;全量跑 B200 集群优化的是峰值吞吐,不是每 token 经济性。
  4. 网络成为隐性税。 多卡协同推理超大模型时,节点间通信至关重要。博通 Tomahawk 网络互联使 Jalapeño 在大规模集群部署时具备强大 east-west 能力——没有协同设计的交换 fabric,ASIC 节省可能被网络开销吃掉。
  5. Hyperscaler ASIC 是 walled garden。 Google TPU、Amazon Inferentia、Microsoft Maia、Meta MTIA 只在其自有云内运行。OpenAI 需要映射自身模型编译图形的 ASIC,而非可采购的 merchant 替代品。
  6. 传统 ASIC 周期跟不上模型迭代。 常规定制芯片开发 18–24 个月,模型却按季度发布。Jalapeño 9 个月从设计到流片,是对这一错位的直接回应。

竞争对手早已入局

公司自研芯片用途备注
GoogleTPU训练 + 推理v5/v6,Broadcom 参与封装
AmazonTrainium / Inferentia训练 + 推理Trainium2 扩展中
MicrosoftMaia 100推理Azure AI 专用
MetaMTIA推理Gen 2 量产,Broadcom 合作
OpenAIJalapeño(2026)推理Azure 首发;GPT-5.3-Codex-Spark 验证中

OpenAI 是大厂中入局最晚的,但步子迈得很快。

Jalapeño 是什么?ASIC 技术架构详解

2026 年 6 月 24 日,OpenAI 与博通(Broadcom)联合发布名为 Jalapeño 的首款定制 AI 推理芯片。它是专为大语言模型(LLM)推理场景打造的 ASIC(Application-Specific Integrated Circuit,专用集成电路)——只做 LLM 推理,不玩游戏、不跑训练、不做通用计算。高度专一带来的好处是:在它专攻的领域,效率极高。

核心架构亮点

  • 从零设计(Blank-slate Design): 以现代 LLM 推理为出发点重新设计,每一个设计决策都围绕 Transformer 架构的运算模式,而非在老 GPU 架构上打补丁。
  • 最小化数据搬运(Minimize Data Movement): LLM 推理瓶颈往往在内存带宽——数据在内存与计算单元之间反复搬运消耗大量能量和时间。Jalapeño 专门减少这种无效搬运。
  • 计算 / 内存 / 网络均衡设计: 针对 LLM 实际负载特征做专项平衡,使实际利用率更接近理论峰值。
  • 博通 Tomahawk 网络互联: 大规模集群部署时具备强大的节点间通信能力,多卡协同推理超大模型至关重要。
  • Celestica 板卡 / 机架集成: 负责将芯片集成进服务器主板、机架系统,提供规模化量产能力。
info

OpenAI 硬件负责人 Richard Ho:「Jalapeño 从零开始,专为 LLM 推理设计,融入了我们对前沿模型在内核执行、内存移动、网络通信和服务模式方面的深刻洞察。早期测试证明,它能在接近硬件理论极限的状态下高效运行我们最重要的工作负载。」

制造工艺与实验室验证

制造商为台积电(TSMC),工艺节点 3nm(与苹果 M4、英伟达 Blackwell 同代)。工程样品已在 OpenAI 实验室中以目标频率和功耗运行 ML 工作负载,包括面向编程场景的旗舰推理模型 GPT-5.3-Codex-Spark

性能与成本:关键数据一览

以下数据来自博通 CEO 陈福阳及 OpenAI 官方声明,均为早期测试结果,完整技术报告将于数月后发布。需以「官方自测数字」看待,独立第三方验证尚未完成。

指标Jalapeño(早期测试)对比基准
推理成本节省50%相比当前主流 AI GPU
每瓦性能显著优于当前最先进水平OpenAI 官方声明
性能绝对值与英伟达 Blackwell、谷歌 TPU 相当博通 CEO 接受路透社采访
热耗散表现优于预期OpenAI 内部测试
warning

博通 CEO 陈福阳(Hock Tan,Bloomberg 采访):「到目前为止,Jalapeño 相比典型 AI GPU 展现出约 50% 的成本节省。」正式量产后的实际效果需等待:OpenAI 完整技术报告、微软等合作伙伴数据中心实际部署、第三方独立基准测试。

Jalapeño vs GPU 推理:决策矩阵

维度英伟达 GPU 集群OpenAI Jalapeño ASIC
主要 workload训练 + 推理(通用)仅推理(OpenAI 模型图)
软件生态CUDA(数百万开发者、海量优化库)OpenAI 专有编译器 + runtime
供应模式Merchant 硅,多租户采购OpenAI + Azure 专用容量
网络NVLink / InfiniBand 附加Tomahawk 协同设计 in-rack fabric
$/token(声明)基准(100%)约 50%(博通声明)
训练适用性

9 个月流片:史上最快 ASIC 开发周期之一

Jalapeño 从初始设计到制造流片(Tape-out)仅用了 9 个月。OpenAI 和博通声称这是高性能先进半导体领域有史以来最快的 ASIC 开发周期之一

Greg Brockman(OpenAI 联合创始人 & 总裁)的定性描述:「Jalapeño 从初始设计到流片只用了 9 个月,部分设计和优化过程还使用了 OpenAI 自己的 AI 模型。」VentureBeat 援引知情人士称使用了前代 OpenAI 模型加速芯片设计决策。

为什么这么快?

  1. 软硬件深度协同开发: 模型团队与芯片团队深度协作,避免传统 ASIC 开发中「硬件工程师猜测软件需求」的大量返工。
  2. AI 辅助芯片设计: OpenAI 自己的 AI 模型被用于加速芯片设计的部分决策和优化过程。
  3. 博通成熟 IP 库: 在芯片实现、网络互联等方面有大量可复用 IP,显著缩短从逻辑设计到物理实现的周期。

产业链与合作伙伴

角色公司负责内容
芯片架构设计OpenAILLM 推理优化方向、全栈架构设计
芯片实现 & 网络博通(Broadcom)硅片实现、Tomahawk 网络芯片、量产支持
晶圆代工台积电(TSMC)3nm 工艺制造
系统集成Celestica主板、机架、服务器系统集成、量产
首批部署客户微软 Azure数据中心部署(2026 年底开始)

博通正在成为「AI 定制芯片界的代工皇」——同时为 Google(TPU v5/v6)、Meta(MTIA)和 OpenAI(Jalapeño)设计定制 ASIC。2026 年前 5 个月,博通股价年涨幅约 18%;自 2022 年底以来累计涨幅接近 7 倍。 SK 海力士 / 三星(HBM 内存供应)同样是产业链赢家。

部署计划与商业路线图(2026–2029)

  • 近期(2026 年底): 工程样品已在实验室测试;年底前正式部署至微软及其他数据中心合作伙伴;优先服务 ChatGPT、Codex、API 内部推理需求。
  • 中期(2027 年): 大规模量产;博通 CEO 预测部署规模将超过此前预测的 1.3 吉瓦(GW);可能向外部 AI 公司开放(官方描述该芯片「为全行业当前和未来 LLM 而建」)。
  • 长期(至 2029 年): OpenAI 目标用自研芯片支撑 10 吉瓦(10 GW) 算力(约 10 座核电站发电量级别);下一代芯片预计 2028 年推出,此后每年迭代;未来可能扩展至训练芯片(目前仅覆盖推理)。

时间线梳理

时间里程碑
2025 年 10 月OpenAI 与博通正式宣布合作开发定制芯片
2026 年 2 月英伟达向 OpenAI 直接投资 300 亿美元(含 Vera Rubin 算力协议)
2026 年 6 月 24 日Jalapeño 芯片公开发布,工程样品在实验室运行
2026 年底首批商用部署(微软 Azure 及其他合作伙伴数据中心)
2027 年大规模量产,部署规模超 1.3 GW
2028 年(预计)第二代芯片发布
2029 年(目标)自研芯片支撑 10 GW 算力规模

竞争格局:Jalapeño 能「替代」英伟达吗?

短期内:不能。 原因如下:

  1. 只做推理,不做训练: 训练前沿大模型仍高度依赖英伟达 GPU。OpenAI 明确表示英伟达依然是其训练阶段的核心伙伴。
  2. CUDA 软件生态: 英伟达用十余年构建的 CUDA 开发者生态是最难跨越的护城河,Jalapeño 目前无法替代。
  3. ASIC 灵活性局限: 若未来 LLM 架构发生根本性改变(如不再是 Transformer),专用芯片的适配成本很高。

那 Jalapeño 的战略意义是什么?「分散供应,谈判筹码」才是核心。哪怕 Jalapeño 只承担 OpenAI 20%–30% 的推理负载,也意味着真实节约大量成本、获得与英伟达谈判采购价格的底气、不再受单一供应商约束。这与谷歌、亚马逊、微软的策略如出一辙:不是「抛弃英伟达」,而是「不再完全依赖英伟达」。

Quilter Cheviot 全球科技研究主管 Ben Barringer 的原话:「Nobody wants to be beholden to Nvidia.(没人想被英伟达绑死。)」

英伟达并非没有察觉:其 Vera Rubin 平台(下一代旗舰 GPU 系统)已与多家公司签署大规模部署协议;CUDA 生态护城河仍在;且与 OpenAI 本身就有 300 亿美元投资绑定——双方既是竞争者,又是深度利益共同体。

对 AI 行业的深远影响

  1. 推理经济学(Inference Economics)将重塑 AI 商业模式。 若 50% 成本节省在生产环境验证,ChatGPT / API 调用成本可能进一步下降,OpenAI 盈利路径更清晰,「AI 价格战」底线进一步拉低。详见6 月降价盘点
  2. 「全栈 AI 公司」成为新标准。 OpenAI 官方博客:「OpenAI 不仅在开发前沿模型或在其上构建产品;它正在设计其下方的基础设施:芯片架构、内核、内存系统、网络、调度、部署系统和产品体验。」竞争维度从「谁的模型更好」演变为「谁的全栈效率更高」。
  3. 半导体格局加速分化。 赢家:博通、台积电、SK 海力士 / 三星;承压方:英伟达(推理市场份额可能被逐步蚕食)、AMD(在推理 ASIC 浪潮中存在感弱)。

关键人物

姓名职位在此事件中的角色
Greg BrockmanOpenAI 联合创始人 & 总裁公开宣布发布,定性为「全栈基础设施战略」
Richard HoOpenAI 硬件项目负责人技术架构领导者
Hock Tan(陈福阳)博通 CEO公开声称性能媲美 Blackwell、成本节省 50%
Sam AltmanOpenAI CEO整体战略推动者(曾公开表示希望 OpenAI 掌控算力命脉)

六步落地:工程团队现在应该做什么?

  1. 拆分训练与推理预算。 Jalapeño 确认行业分工:GPU 训练、ASIC 推理。不要只用 GPU 假设建模未来 API 成本——同步跟踪 hyperscaler ASIC 路线图与 8300 亿 capex 浪潮
  2. 重跑编程 Agent 选型矩阵。 更便宜的 OpenAI 推理可能改变 Codex 相对 Claude Code / Cursor 的性价比。用四巨头对比文在 Jalapeño 节省传导到 API 账单前重新评估锁定风险。
  3. 建立多模型路由。6 月降价指南在 providers 间路由任务——hyperscaler 层 ASIC 经济学不会第一天就反映在你的发票上。
  4. 不要等待可采购的 Jalapeño 硬件。 Jalapeño 不是可购买的 GPU 替代品。需要 on-prem 或专用推理的团队应规划现有 GPU、Apple Silicon 或今日可得的云 ASIC 选项。
  5. 跟踪 Azure 区域公告。 若 workload 跑在 Azure OpenAI Service 上,映射哪些区域优先获得 Jalapeño 机架——2026 H2 配额与延迟可能因地域变化。
  6. 为 Agent 控制面 保障 稳定算力。 推理 ASIC 优化的是 hyperscaler 层 token 经济学;OpenClaw Gateway、CI 触发器与 API 限流时的本地 fallback 仍需要 7×24 在线节点。

三条硬核数据(EEAT)

  • 约 50% 推理成本节省(博通声明)——陈福阳 6 月 24 日对比典型 AI GPU 的早期实验室数据;独立验证待 Azure 生产遥测。
  • 9 个月设计到流片——Greg Brockman 披露的 TSMC 3nm 周期,约为传统定制 ASIC 18–24 个月的一半,AI 辅助设计是核心加速器。
  • 10 GW / 2029——OpenAI 自研芯片算力目标;对照 2026 年 2 月英伟达 300 亿美元直接投资 OpenAI 的训练 GPU 绑定关系,可见「推理 ASIC + 训练 GPU」双轨战略。

结论:分散供应,而非与英伟达「离婚」

Jalapeño 是 OpenAI 的赌注:与 Broadcom 协同设计、Celestica 集成、Tomahawk 组网、在 GPT-5.3-Codex-Spark 上验证——这是 ChatGPT 规模下 serving margin 的最快路径。它加入 Google TPU、Amazon Inferentia、Microsoft Maia、Meta MTIA 的 hyperscaler ASIC 时代,但仍是 inference-only、Azure-first。

对今日正在交付编程 Agent 与 API 产品的团队,Jalapeño 量产爬坡期间仍有三处缺口:无法采购 Jalapeño 硬件、API 价格滞后 hyperscaler COGS 改善数个季度、控制面 workload 仍须 7×24 在线。把一切都押在笔记本易睡眠中断的开发机或单一供应商 API 路由上,会让你暴露于 Jalapeño 想解决的同一推理经济学——却拿不到那块硅。对须穿越降价与 quota 事件仍保持在线的生产 Agent 与 Gateway 环境,MACCOME Mac mini(M4 / M4 Pro)独占云主机通常是模型 API 栈之下更稳定的层。公开档位见租赁价格说明,接入见帮助中心

常见问题

Jalapeño 是英伟达 GPU 的替代品吗?

不是,至少现在不是。它只做 LLM 推理,不做训练。英伟达在训练阶段的地位短期内无法撼动,双方更多是互补关系。

50% 的成本节省是真实数据吗?

这是博通 CEO 陈福阳接受彭博社采访时公布的早期实验室测试数据,尚未经过第三方独立验证。完整技术报告数月后才会发布。需谨慎看待。

普通用户会感受到什么变化?

若成本节省验证成功,最直接的影响是 ChatGPT / API 调用费用进一步降低,响应速度可能更快。长期来看,AI 服务将变得更便宜、更普及。

为什么叫「Jalapeño」(墨西哥辣椒)?

官方未作说明。OpenAI 内部有以食物命名项目的传统,「辣椒」可能暗示这款芯片的「辛辣」性能或对市场格局的刺激效果。

Jalapeño 会向其他 AI 公司开放吗?

OpenAI 和博通的官方表述是该芯片「为全行业当前和未来 LLM 而建」,暗示未来可能向外部公司开放。但目前首要任务是满足 OpenAI 自身需求。

下一代 Jalapeño 什么时候发布?

博通和 OpenAI 已规划多代路线图,下一代芯片预计 2028 年推出,之后逐年迭代。

这对英伟达股价有影响吗?工程团队在此期间怎么办?

消息公布后英伟达股价反应有限。市场普遍认为训练领域优势短期不受威胁,但大客户自研芯片构成结构性压力。团队应做多模型路由并为 Agent 控制面保障稳定算力——见MACCOME 租赁方案