대상 독자: AI 인프라·추론 비용을 추적하는 기술 책임자, API 가격 변동에 민감한 개발팀, 반도체·연산 시장 관찰자입니다.핵심 결론: 2026년 6월 24일 OpenAI·Broadcom이 공개한 추론 전용 ASIC Jalapeño는 GPU 대비 약 50% 추론 비용 절감을 주장하며, TSMC 3nm·9개월 tape-out·2026년 말 Azure 배포로 업계 지형을 재편합니다.구성: 추론 비용 페인포인트 → ASIC 기술 심층 → 성능·경쟁 비교표 → 배포 로드맵 → 산업 파급 → 6단계 실행·FAQ.
칩 발표는 데이터센터 이야기처럼 보이지만, 엔지니어링 책상에서는 다음 제약으로 직결됩니다.
2026년 6월 24일 OpenAI와 Broadcom(博通)은 LLM 추론 전용 커스텀 ASIC Jalapeño를 공동 발표했습니다. 게임·학습·범용 연산 없이 Transformer 추론만 최적화한 전용 집적회로입니다.
OpenAI 하드웨어 책임자 Richard Ho는 다음과 같이 밝혔습니다.
「Jalapeño는 제로베이스로 LLM 추론을 위해 설계되었으며, 커널 실행·메모리 이동·네트워크 통신·서빙 패턴에 대한 깊은 인사이트가 내재되어 있습니다. 초기 테스트에서 핵심 워크로드를 하드웨어 이론 한계에 근접한 효율로 실행함을 입증했습니다.」
| 지표 | Jalapeño(초기 테스트) | 비교 기준 |
|---|---|---|
| 추론 비용 | 약 50% 절감 | 현행 주류 AI GPU(Broadcom CEO 공표) |
| 성능/와트 | 현행 SOTA 대비 대폭 우위 | OpenAI 공식 블로그 |
| 절대 성능 | Blackwell·Google TPU 동급 | Broadcom CEO(Reuters) |
| 열 특성 | 예상 상회 | OpenAI 내부 테스트 |
| 개발 기간 | 9개월(설계→tape-out) | 고성능 ASIC 역대 최속 주장 |
| 제조 | TSMC 3nm | Apple M4·Blackwell 동세대 |
데이터 해석 주의: 상기 수치는 Broadcom·OpenAI 공식 자체 측정입니다. 완전한 기술 보고서는 수개월 후 공개 예정이며, Microsoft 등 본격 배포·제3자 벤치마크가 나올 때까지 50% 절감은 「목표치」로 다루는 것이 타당합니다.
OpenAI는 대기업 중 가장 늦게 커스텀 실리콘에 진입했으나 9개월 tape-out 속도로 추격 중입니다.
| 기업 | 자체 칩 | 용도 | 파트너/제조 | 2026 상태 |
|---|---|---|---|---|
| TPU v5/v6 | 학습+추론 | 자체+Broadcom 협력 | 본격 가동·세대 갱신 | |
| Amazon | Trainium/Inferentia | 학습/추론 | 자체 설계 | AWS 제공 중 |
| Microsoft | Maia 100 | 추론 | 자체 설계 | Azure 배포 중 |
| Meta | MTIA | 추론 | Broadcom 협력 | 본격 가동·세대 갱신 |
| OpenAI | Jalapeño | 추론 전용 | Broadcom+TSMC 3nm | 랩 가동, 2026년 말 Azure |
| NVIDIA | Blackwell/Vera Rubin | 학습+추론(범용) | 자체+TSMC | 시장 지배, CUDA 생태 |
| 역할 | 기업 | 담당 |
|---|---|---|
| 아키텍처 설계 | OpenAI | LLM 추론 최적화, 풀스택 설계 방향 |
| 실리콘 구현·네트워크 | Broadcom | 칩 구현, Tomahawk, 양산 지원 |
| 웨이퍼 파운드리 | TSMC | 3nm 제조 |
| 시스템 통합 | Celestica | 메인보드·랙·서버 통합 |
| 최초 배포처 | Microsoft Azure | 2026년 말 데이터센터 배포 |
Jalapeño가 단기간 NVIDIA를 대체하지는 않습니다. 이유는 명확합니다.
Quilter Cheviot 글로벌 테크 연구 책임자 Ben Barringer의 말이 본질을 짚습니다. 「누구도 NVIDIA에 완전히 종속되고 싶지 않다(Nobody wants to be beholden to Nvidia).」
추론 부하 20–30%만 Jalapeño로 옮겨도 연간 수억 달러 절감·조달 가격 협상력을 확보합니다. Google·Amazon·Microsoft와 동일한 전략입니다.
Broadcom은 Google TPU·Meta MTIA·OpenAI Jalapeño 커스텀 ASIC을 동시 설계하는 「AI 커스텀 실리콘 대리왕」이 되고 있습니다. 2026년 상반기 주가 YoY 약 18% 상승, 2022년 말 이후 누적 약 7배입니다.
50% 비용 절감이 본격 검증되면 ChatGPT/API 가격 추가 하락, OpenAI 흑자화 경로 명확화, 「AI 가격전쟁」 하한선 추가 인하가 가속됩니다. 6월 AI 할인 총정리와 함께 읽으면 칩 효율이 엔드유저 가격에 전달되는 경로가 보입니다.
OpenAI 공식 블로그: 「OpenAI는 프론티어 모델 개발·그 위 제품 구축뿐 아니라, 그 아래 인프라——칩 아키텍처, 커널, 메모리 시스템, 네트워크, 스케줄링, 배포 시스템, 제품 경험——을 설계합니다.」
경쟁 축이 「어떤 모델이 우수한가」에서 「풀스택 효율이 얼마나 높은가」로 이동합니다.
| 시점 | 이벤트 |
|---|---|
| 2025년 10월 | OpenAI·Broadcom 커스텀 칩 공동 개발 공식 발표 |
| 2026년 2월 | NVIDIA OpenAI에 $300억 직접 투자(Vera Rubin 연산 계약 포함) |
| 2026년 6월 24일 | Jalapeño 공개, 랩에서 엔지니어링 샘플 가동 |
| 2026년 말 | Microsoft Azure 등 파트너 DC 최초 상용 배포 |
| 2027년 | 대량 양산, 배포 1.3GW 초과 전망 |
| 2028년(예정) | 2세대 Jalapeño 칩 |
| 2029년(목표) | 자체 칩 10GW 연산 |
| 인물 | 직책 | 본건 역할 |
|---|---|---|
| Greg Brockman | OpenAI 공동창업자·사장 | 공개 발표, 풀스택 인프라 전략 포지셔닝 |
| Richard Ho | OpenAI 하드웨어 책임 | 기술 아키텍처 주도 |
| Hock Tan(陳福陽) | Broadcom CEO | Blackwell 동급·50% 비용 절감 공표 |
| Sam Altman | OpenAI CEO | 연산 생명선 장악 전략 추진 |
Jalapeño는 NVIDIA 지배의 끝이 아닙니다. 그러나 실재하며 GPT-5.3-Codex-Spark를 실제 가동하고 있어, 「AI 기업은 최고 입찰자에게 연산을 사기만 한다」는 시대의 종료를 알립니다. OpenAI는 Google·Amazon·Microsoft·Meta에 이어 자체 실리콘을 보유하며, 완전 대체가 아닌 레버리지·비용 절감·풀스택 소유를 추구합니다.
한편 로컬 노트북·공유 개발기에서 Cursor·Claude Code·OpenClaw를 계속 돌리면 덮개로 장세션·Agent 상태 중단, API 인상 시 로컬 다운그레이드 불가, 7×24 코딩 Agent 워크플로 유지 불가라는 3가지 숨은 비용이 남습니다. Jalapeño가 DC 추론을 효율화하는 동안 엣지 Agent 안정 운영은 별개 과제입니다. 더 안정적이고 AI Agent 자동화 프로덕션에 적합한 선택으로 MACCOME Mac 클라우드 호스트(M4/M4 Pro 독점 노드)에 Agent·Gateway를 두는 편이 슬립 정책과 씨름하는 것보다 총비용이 낮은 경우가 많습니다. 공개 요금은대여 가격, CLI 배경은OpenRouter CLI 순위를 참고하십시오.
자주 묻는 질문
Jalapeño가 NVIDIA GPU 대체품입니까?
현재는 아닙니다. LLM 추론 전용이며 학습에는 쓰이지 않습니다. 2026년 2월 NVIDIA $300억 직접 투자가 보여 주듯 학습 단계에서는 NVIDIA가 핵심 파트너입니다. 공급 분산·비용 협상력이 전략 목적입니다.
추론 비용 50% 절감을 믿을 수 있습니까?
Broadcom CEO가 Bloomberg에서 공표한 초기 랩 테스트 수치입니다. OpenAI는 수개월 내 기술 보고서 공개 예정이며 제3자 벤치마크는 없습니다. 50%의 절반이어도 OpenAI 규모에서는 거액 절감이나, 본격 검증 전까지 신중히 다루십시오.
일반 사용자는 무엇을 체감합니까?
비용 절감이 본격 검증되면 ChatGPT·API 요금 추가 하락·응답 속도 개선이 기대됩니다. 다만 2026년 말 Azure 최초 배포 후 2027년 양산까지 가격 파급에는 시간이 걸릴 전망입니다.
왜 「Jalapeño(할라페뇨)」라는 이름입니까?
공식 설명은 없습니다. OpenAI에는 음식명으로 프로젝트를 명명하는 내부 전통이 있으며, 시장에 대한 「자극적」 임팩트를 암시한다는 분석이 있습니다.