초장 계약서·코드베이스 처리, 자주 통제 컴플라이언스, 어센드 환경 배포를 위해 대규모 언어 모델을 고르고 있다면——2026년 6월 30일 화웨이는 HDC 2026 약속을 이행하여 openPangu-2.0-Flash 가중치, 추론 코드, 학습·추론 연산자를 GitCode Ascend Tribe에 공개했습니다. 본문은 공식 발표와 조사 자료를 바탕으로 ① 타임라인과 Pro/Flash 핵심 사양, ② 7대 OSS 컴포넌트 가치, ③ mHC/Muon/ModAttn/DSA+SWA 아키텍처 혁신, ④ NVIDIA 비의존 최전선 학습의 의미, ⑤ DeepSeek/Qwen/Kimi 경쟁 비교, ⑥ ModelArts API와 GitCode 6단계 자체 배포, ⑦ 전략적 의미·HarmonyOS Agent·라이선스를 다룹니다. 독립 제3자 벤치마크는 평가 중이며, 능력 평가는 아키텍처 기반 추정으로 표기합니다.
| 시점 | 이벤트 |
|---|---|
| 2026-06-12 | HDC 2026 동관 송산호, 위청동 기조연설로 openPangu 2.0 공식 발표 |
| 2026-06-30 | openPangu-2.0-Flash 가중치, 기본 추론 코드, 학습·추론 연산자 GitCode OSS 공개 |
| 2026-07(예정) | openPangu-2.0-Pro 모델 가중치와 추론 코드 공개 |
| 2026 하반기(예정) | 사전학습 코드, 사후학습 코드, 학습 연산자 등 추가 컴포넌트 순차 공개 |
| 항목 | openPangu 2.0 Pro | openPangu 2.0 Flash |
|---|---|---|
| 총 파라미터 | 505B | 92B |
| 활성 파라미터 | 18B | 6B |
| 희소 비율 | 약 28:1 | 약 15:1 |
| 컨텍스트 윈도 | 512K | 512K |
| 이용 상태 | 7월 공개 예정 | 2026-06-30 공개됨 |
| 학습 하드웨어 | 화웨이 어센드 910B NPU(NVIDIA 미사용) | |
| 라이선스 | openPangu License(관대한 상용, 로열티 프리, 비독점) | |
512K 컨텍스트란? 약 『삼체』 1부 8권 분량 텍스트에 해당합니다. 완전한 계약서, 대규모 코드베이스, 초장 대화 이력을 단일 프롬프트로 투입할 수 있으며, 현행 OSS 모델 중 최장급 컨텍스트입니다.
대부분 OSS 대규모 모델은 가중치와 추론 코드만 공개합니다. openPangu 2.0은 7대 컴포넌트 OSS를 계획하며, 후반 3개는 초대규모 MoE에서 극히 드뭅니다:
| 컴포넌트 | 상태 |
|---|---|
| 1. 모델 구조(아키텍처 정의) | 공개됨 |
| 2. 모델 가중치(Flash 6/30 공개, Pro 7월) | Flash 공개 / Pro 예정 |
| 3. 기술 보고서 | 가중치와 동시 공개 |
| 4. 추론 코드 + 학습·추론 연산자 | 공개됨 |
| 5. 사전학습 코드 | 하반기 예정 |
| 6. 사후학습 코드(SFT/RLHF) | 하반기 예정 |
| 7. 학습 연산자(어센드 고성능 커스텀 연산자) | 하반기 예정 |
연구자는 학습 파이프라인 전체를 재현할 수 있고, 기업은 독점 데이터로 수직 도메인 2차 사전학습이 가능합니다——진정한 의미의 풀스택 OSS입니다.
소프트웨어 스택은 CANN(CUDA 유사)과 torch_npu(PyTorch 어댑터) 기반입니다. 표준 PyTorch 코드는 import torch_npu로 어센드 백엔드 전환이 가능합니다. 배포 경로: 화웨이 클라우드 ModelArts API, GitCode 자체 배포, HarmonyOS 네이티브 통합.
| 모델 | 총 파라미터 | 활성 | 컨텍스트 | 학습 HW | OSS 범위 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | 어센드 NPU | 풀스택(7 컴포넌트) |
| openPangu 2.0 Flash | 92B | 6B | 512K | 어센드 NPU | 풀스택(7 컴포넌트) |
| DeepSeek V4 Pro | 1.6T | 약 200B | 128K | NVIDIA | 가중치+추론 |
| Qwen 3.7 Max | 약 400B+ | varies | 128K | NVIDIA | 가중치+추론+일부 학습 |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | 가중치+추론 |
| Llama 4 405B | 405B | — | 128K | NVIDIA | 가중치+추론 |
| 능력 축 | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| 코드 생성 | ★★★ | ★★★★★ | ★★★★ | ★★★★ |
| 복잡 추론 | ★★★ | ★★★★★ | ★★★★★ | ★★★★ |
| 도구 호출/Agent | ★★★★ | ★★★★ | ★★★★ | ★★★★★ |
| 초장 컨텍스트 | ★★★★★ | ★★★ | ★★★ | ★★★★ |
| 추론 효율(어센드) | ★★★★★ | ★★ | ★★ | ★★★★ |
| 자주 통제 | ★★★★★ | ★ | ★ | ★ |
| 풀스택 OSS | ★★★★★ | ★★★ | ★★★ | ★★★ |
6월 OpenRouter 랭킹 분석과 상호 보완합니다. DeepSeek은 사용량·가성비, openPangu는 컨텍스트 길이·어센드 스택 심층 결합에서 우위입니다.
openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op.finetune.py --method lora --lora_rank 16 사용 가능. 하반기 사전학습 코드 공개 후 2차 사전학습 가능.curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "안녕하세요, 자기소개 부탁드립니다"}],
"max_tokens": 1024,
"temperature": 0.7
}'
python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16
| 버전 | 권장 HW | 최소 구성 | 비고 |
|---|---|---|---|
| Flash(6B 활성) | 단카드 어센드 910B | 약 96GB 통합 메모리 | 대용량 메모리 시스템 시도 가능 |
| Flash-Int8 | 단카드 Atlas A2 | 약 48GB VRAM | W4A8, 정밀도 손실 <10% |
| Pro(18B 활성) | 4+카드 어센드 910B | 멀티카드 클러스터 | 7월 가중치 공개 후 검증 |
미국의 A100/H100 대중 수출 규제 하에서 화웨이는 어센드 910B로 505B MoE를 학습하고 풀스택 OSS화했습니다——「NVIDIA 없이는 대규모 모델 불가」 주장에 대한 유력한 반증입니다. 위청동은 HDC 2026에서 「내 여생 사전에 둘째는 없고 첫째만 있다」고 밝혔습니다.
openPangu 2.0은 현 단계 종합 능력 최강 OSS 대규모 모델은 아니지만, 다음 축에서는 거의 대체 불가능합니다:
openPangu와 DeepSeek/Qwen을 멀티모델 라우팅할 때, 노트북 Gateway는 덮개 닫힘 시 끊기고 로그 분산으로 512K 장컨텍스트 Agent 7×24 안정 운영이 어렵습니다. 안정 스케줄링 + 다중 프로바이더 강등이 필요한 프로덕션 환경에서는 Gateway를 MACCOME 전용 Mac mini 노드에 두는 편이 로컬 운영보다 총비용을 절감합니다. 프라이빗 모델 배포 Runbook과 조합하고, 공개 요금은 대여 가격 안내를 참고하십시오.
면책 조항: 본문 일부 벤치마크와 능력 평가는 아키텍처 기반 추정입니다. 독립 제3자 테스트 결과 공개 후 업데이트합니다. 게시일: 2026년 7월 1일.
참고 링크: GitCode Ascend Tribe · 화웨이 클라우드 ModelArts · HDC 2026
자주 묻는 질문
openPangu 2.0 Flash와 Pro는 어떻게 선택합니까?
Flash(92B/6B 활성)는 공개되어 저비용 고동시 API·단카드 추론에 적합합니다. Pro(505B/18B)는 7월 공개 예정이며 초장 계약서·대규모 코드베이스·2차 사전학습에 맞습니다. 두 버전 모두 512K 컨텍스트를 지원합니다.
openPangu 2.0과 DeepSeek V4 Pro 중 어느 것이 더 낫습니까?
코드·복잡 추론은 DeepSeek V4 Pro가 우위(약 200B 활성). 512K 컨텍스트, 자주 통제 컴플라이언스, 어센드 배포, 풀스택 학습 코드는 openPangu를 선택하십시오. 6월 OpenRouter 선정 분석 참고.
openPangu 2.0 가중치는 어떻게 다운로드합니까?
gitcode.com/org/ascend-tribe에 접속하십시오. 저장소에 openPangu-2.0-Flash, Flash-Int8, Infer, Op가 포함됩니다. 하드웨어 없는 클라우드 체험은 화웨이 클라우드 ModelArts API를 이용하십시오.
자주 통제 프로젝트에서 openPangu 2.0을 사용할 수 있습니까?
가능합니다. openPangu 2.0은 어센드 전용 학습 최전선 OSS 대규모 모델로 NVIDIA 비의존입니다. openPangu License 상용 조항과 함께 자주 통제 컴플라이언스 시나리오에 적합합니다. Agent Gateway 배포는 MACCOME 대여 플랜을 참고하십시오.