화웨이 openPangu 2.0 오픈소스 공개: 505B MoE, 512K 컨텍스트, 어센드 풀스택 OSS

약 24분 소요 · MACCOME

초장 계약서·코드베이스 처리, 자주 통제 컴플라이언스, 어센드 환경 배포를 위해 대규모 언어 모델을 고르고 있다면——2026년 6월 30일 화웨이는 HDC 2026 약속을 이행하여 openPangu-2.0-Flash 가중치, 추론 코드, 학습·추론 연산자를 GitCode Ascend Tribe에 공개했습니다. 본문은 공식 발표와 조사 자료를 바탕으로 ① 타임라인과 Pro/Flash 핵심 사양, ② 7대 OSS 컴포넌트 가치, ③ mHC/Muon/ModAttn/DSA+SWA 아키텍처 혁신, ④ NVIDIA 비의존 최전선 학습의 의미, ⑤ DeepSeek/Qwen/Kimi 경쟁 비교, ⑥ ModelArts API와 GitCode 6단계 자체 배포, ⑦ 전략적 의미·HarmonyOS Agent·라이선스를 다룹니다. 독립 제3자 벤치마크는 평가 중이며, 능력 평가는 아키텍처 기반 추정으로 표기합니다.

openPangu 2.0 선정 6가지 오해(배포 전 확인)

  1. 「종합 능력 최강 OSS 모델」로 오인: 코드 생성·복잡 추론에서는 DeepSeek V4 Pro(약 200B 활성)가 여전히 우위입니다. openPangu 2.0의 대체 불가성은 512K 컨텍스트, 어센드 네이티브 효율, 풀스택 OSS에 있습니다.
  2. 「NVIDIA 비학습」의 지정학·기술적 의미 간과: openPangu 2.0은 비 NVIDIA 하드웨어로 최전선 규모 학습을 완료한 세계 최초 OSS 대규모 모델이며, 어센드 910B만 사용하고 A100/H100은 사용하지 않습니다.
  3. 가중치만 받고 하반기 학습 코드 무시: 업계 대부분은 가중치+추론만 공개합니다. openPangu는 사전학습 코드, 사후학습 코드(SFT/RLHF), 학습 연산자 공개를 계획하며, 초대규모 MoE에서는 극히 드뭅니다.
  4. NVIDIA GPU에서 2배 처리량 기대: 단카드 2배 우위는 어센드 친화 아키텍처 대상입니다. 순수 CUDA 환경에서는 커뮤니티 대용량 메모리 테스트를 참고하고 공식 최적 수치를 그대로 적용하지 마십시오.
  5. Flash 희소 비율 데이터 혼동: Pro 약 28:1, Flash 약 15:1(DSA+SWA 극한 추론 효율). 두 버전 모두 512K 컨텍스트로 통일됩니다.
  6. 엣지·HarmonyOS 생태계 간과: 네이티브 30B 엣지 모델은 추론 50% 가속, 메모리 20% 절감. 기린 칩 스마트폰 오프라인 실행 지원. HarmonyOS 7 Agent 네이티브 엔진이 openPangu 2.0입니다.

이벤트 타임라인과 핵심 데이터 요약

시점이벤트
2026-06-12HDC 2026 동관 송산호, 위청동 기조연설로 openPangu 2.0 공식 발표
2026-06-30openPangu-2.0-Flash 가중치, 기본 추론 코드, 학습·추론 연산자 GitCode OSS 공개
2026-07(예정)openPangu-2.0-Pro 모델 가중치와 추론 코드 공개
2026 하반기(예정)사전학습 코드, 사후학습 코드, 학습 연산자 등 추가 컴포넌트 순차 공개

Pro vs Flash: 2버전, 512K 통일

항목openPangu 2.0 ProopenPangu 2.0 Flash
총 파라미터505B92B
활성 파라미터18B6B
희소 비율약 28:1약 15:1
컨텍스트 윈도512K512K
이용 상태7월 공개 예정2026-06-30 공개됨
학습 하드웨어화웨이 어센드 910B NPU(NVIDIA 미사용)
라이선스openPangu License(관대한 상용, 로열티 프리, 비독점)
info

512K 컨텍스트란?『삼체』 1부 8권 분량 텍스트에 해당합니다. 완전한 계약서, 대규모 코드베이스, 초장 대화 이력을 단일 프롬프트로 투입할 수 있으며, 현행 OSS 모델 중 최장급 컨텍스트입니다.

7대 OSS 컴포넌트: 이번 공개 가치가 높은 이유

대부분 OSS 대규모 모델은 가중치와 추론 코드만 공개합니다. openPangu 2.0은 7대 컴포넌트 OSS를 계획하며, 후반 3개는 초대규모 MoE에서 극히 드뭅니다:

컴포넌트상태
1. 모델 구조(아키텍처 정의)공개됨
2. 모델 가중치(Flash 6/30 공개, Pro 7월)Flash 공개 / Pro 예정
3. 기술 보고서가중치와 동시 공개
4. 추론 코드 + 학습·추론 연산자공개됨
5. 사전학습 코드하반기 예정
6. 사후학습 코드(SFT/RLHF)하반기 예정
7. 학습 연산자(어센드 고성능 커스텀 연산자)하반기 예정

연구자는 학습 파이프라인 전체를 재현할 수 있고, 기업은 독점 데이터로 수직 도메인 2차 사전학습이 가능합니다——진정한 의미의 풀스택 OSS입니다.

기술 아키텍처 심층 분석: MoE 혁신 4키워드

  • mHC(Multi-Head Combinatorial) 라우팅: 전문가 라우팅 효율을 개선하고 MoE 부하 불균형을 완화합니다.
  • Muon 옵티마이저: Microsoft 제안 2차 모멘텀 최적화로 대규모 학습 안정성을 높입니다.
  • ModAttn(Modular Attention): 모듈형 어텐션으로 512K 초장 컨텍스트에 적응하며 효율을 유지합니다.
  • DSA+SWA 초희소 어텐션(Flash 전용): 극한 희소 추론 구현. 6B 활성으로 92B 지식 풀 호출, 연산 요구는 밀집 6B 모델에 근접합니다.

어센드 하드웨어 적응과 학습 돌파

  • 학습 하드웨어: 어센드 910B NPU 전 과정 학습. 비 NVIDIA 하드웨어로 전 규모 학습 완료한 최초 최전선 대규모 모델
  • 추론 최적화: 어센드 친화 아키텍처, 단카드 처리량은 주류 OSS의 2배. 추론 지연은 동급 대비 1.2배 우위
  • 슈퍼노드 학습 효율: +30%. 512K 장시퀀스 학습 처리량: +50%
  • 학습·추론 일관성: 분포 일치율 >99%(MoE 난제, 극히 가치 높음)
  • 양자화: Flash-Int8 공개. W4A8 양자화로 메모리 40% 절감, 정밀도 손실 <10%
  • 엣지: 30B 엣지 모델 추론 50% 가속, 메모리 20% 절감. 기린 칩 스마트폰 오프라인 실행

개발자 생태계: CANN + torch_npu

소프트웨어 스택은 CANN(CUDA 유사)과 torch_npu(PyTorch 어댑터) 기반입니다. 표준 PyTorch 코드는 import torch_npu로 어센드 백엔드 전환이 가능합니다. 배포 경로: 화웨이 클라우드 ModelArts API, GitCode 자체 배포, HarmonyOS 네이티브 통합.

DeepSeek, Qwen, Kimi, Llama 경쟁 비교

모델총 파라미터활성컨텍스트학습 HWOSS 범위
openPangu 2.0 Pro505B18B512K어센드 NPU풀스택(7 컴포넌트)
openPangu 2.0 Flash92B6B512K어센드 NPU풀스택(7 컴포넌트)
DeepSeek V4 Pro1.6T약 200B128KNVIDIA가중치+추론
Qwen 3.7 Max약 400B+varies128KNVIDIA가중치+추론+일부 학습
Kimi K2.71T32B256KNVIDIA가중치+추론
Llama 4 405B405B128KNVIDIA가중치+추론
능력 축openPangu 2.0 ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
코드 생성★★★★★★★★★★★★★★★★
복잡 추론★★★★★★★★★★★★★★★★★
도구 호출/Agent★★★★★★★★★★★★★★★★★
초장 컨텍스트★★★★★★★★★★★★★★★
추론 효율(어센드)★★★★★★★★★★★★★
자주 통제★★★★★
풀스택 OSS★★★★★★★★★★★★★★

시나리오별 선정 결정 트리

  • 코드 생성 / 복잡 추론 → DeepSeek V4 Pro(200B 활성, 성능 우위)
  • Agent / 멀티툴 협업 → Kimi K2.7(MCP 생태계 완비)
  • 초장 문서(>256K 토큰) → openPangu 2.0 Pro(512K 1순위)
  • 자주화 / 컴플라이언스 / NVIDIA 비의존 → openPangu 2.0(유일한 최전선 선택)
  • 어센드 / 화웨이 클라우드 환경 → openPangu 2.0(네이티브 2배 처리량)
  • 엣지 / 스마트폰 배포 → openPangu Embedded(30B 엣지)
  • 저비용 로컬 추론 → openPangu 2.0 Flash(6B 활성, 약 96GB 실행 가능)

6월 OpenRouter 랭킹 분석과 상호 보완합니다. DeepSeek은 사용량·가성비, openPangu는 컨텍스트 길이·어센드 스택 심층 결합에서 우위입니다.

6단계 구현: ModelArts API에서 GitCode 자체 배포까지

  1. 시나리오·버전 명확화: 초장 문서·자주 통제는 Pro(7월). 즉시 이용·고동시 API는 Flash(공개됨).
  2. 클라우드 최단 경로: 화웨이 클라우드 ModelArts: 계정 등록 → ModelArts → AI Gallery → openPangu 2.0 검색 → 구독 후 API 엔드포인트 획득.
  3. API 호출 검증: Chat Completions 형식으로 테스트 요청 전송(아래 curl 예시).
  4. GitCode에서 가중치·코드 다운로드: Ascend Tribe——openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op.
  5. 어센드 단카드/멀티카드 추론: Flash 단카드 910B. Pro 멀티카드 분산(8카드 클러스터). Int8 버전 약 48GB VRAM.
  6. 도메인 미세조정(LoRA): 가중치 공개 후 finetune.py --method lora --lora_rank 16 사용 가능. 하반기 사전학습 코드 공개 후 2차 사전학습 가능.
bash — ModelArts API
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "안녕하세요, 자기소개 부탁드립니다"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'
bash — Flash 단카드 어센드 추론
python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16
버전권장 HW최소 구성비고
Flash(6B 활성)단카드 어센드 910B약 96GB 통합 메모리대용량 메모리 시스템 시도 가능
Flash-Int8단카드 Atlas A2약 48GB VRAMW4A8, 정밀도 손실 <10%
Pro(18B 활성)4+카드 어센드 910B멀티카드 클러스터7월 가중치 공개 후 검증

전략적 의미: 지정학 배경, HarmonyOS Agent, 라이선스

지정학과 역사적 의미

미국의 A100/H100 대중 수출 규제 하에서 화웨이는 어센드 910B로 505B MoE를 학습하고 풀스택 OSS화했습니다——「NVIDIA 없이는 대규모 모델 불가」 주장에 대한 유력한 반증입니다. 위청동은 HDC 2026에서 「내 여생 사전에 둘째는 없고 첫째만 있다」고 밝혔습니다.

HarmonyOS Agent 시대의 AI 기반

  • HarmonyOS 7은 Agent 지능 시대로 전면 진입. openPangu 2.0은 Agent 작업 네이티브 AI 엔진입니다
  • HarmonyOS 에이전트 프레임워크 2.0 복잡 작업 실행 성공률 >90%
  • 엣지 30B 모델로 스마트폰 로컬 대규모 모델 구현. 네트워크 불필요

openPangu License 요점

  • 상용 이용 가능(Commercial Use Permitted)
  • 로열티 프리, 비독점
  • 세부 조항은 GitCode 저장소 기준

OSS 로드맵과 3가지 핵심 데이터

  • 2026-06-30 Flash 가중치 + 추론 코드 + 학습·추론 연산자(공개됨)
  • 2026-07 Pro 가중치 + 추론 코드(예정)
  • 2026 하반기 사전학습 코드, 사후학습 코드, 추가 연산자, 데이터 처리 도구(예정)
  • 컨텍스트 길이 차이: openPangu 512K vs DeepSeek/Qwen 128K vs Kimi 256K——초장 문서 시나리오 4배 이상 우위.
  • 어센드 처리량: 단카드 추론 처리량은 어센드 상 주류 OSS의 2배. 학습·추론 일치율 >99%.
  • Flash 활성 효율: 92B 총 파라미터 중 6B만 활성(약 6.5%/토큰). 추론 비용은 밀집 6B에 근접, 지식 풀은 92B 규모.

요약: openPangu 2.0은 누구에게 적합한가

openPangu 2.0은 현 단계 종합 능력 최강 OSS 대규모 모델은 아니지만, 다음 축에서는 거의 대체 불가능합니다:

  1. 512K 초장 컨텍스트——OSS 모델 최상위 수준
  2. 자주화 / 자주 통제——NVIDIA 학습에 전혀 의존하지 않는 유일한 최전선 모델
  3. 어센드 네이티브 최적화——화웨이 클라우드/어센드 환경 2배 처리량
  4. 풀스택 OSS——학습 코드 공개 계획 포함, 업계 극히 드묾
  5. 엣지 + HarmonyOS——기린 칩 로컬 실행과 Agent 네이티브 통합

openPangu와 DeepSeek/Qwen을 멀티모델 라우팅할 때, 노트북 Gateway는 덮개 닫힘 시 끊기고 로그 분산으로 512K 장컨텍스트 Agent 7×24 안정 운영이 어렵습니다. 안정 스케줄링 + 다중 프로바이더 강등이 필요한 프로덕션 환경에서는 Gateway를 MACCOME 전용 Mac mini 노드에 두는 편이 로컬 운영보다 총비용을 절감합니다. 프라이빗 모델 배포 Runbook과 조합하고, 공개 요금은 대여 가격 안내를 참고하십시오.

면책 조항: 본문 일부 벤치마크와 능력 평가는 아키텍처 기반 추정입니다. 독립 제3자 테스트 결과 공개 후 업데이트합니다. 게시일: 2026년 7월 1일.

참고 링크: GitCode Ascend Tribe · 화웨이 클라우드 ModelArts · HDC 2026

자주 묻는 질문

openPangu 2.0 Flash와 Pro는 어떻게 선택합니까?

Flash(92B/6B 활성)는 공개되어 저비용 고동시 API·단카드 추론에 적합합니다. Pro(505B/18B)는 7월 공개 예정이며 초장 계약서·대규모 코드베이스·2차 사전학습에 맞습니다. 두 버전 모두 512K 컨텍스트를 지원합니다.

openPangu 2.0과 DeepSeek V4 Pro 중 어느 것이 더 낫습니까?

코드·복잡 추론은 DeepSeek V4 Pro가 우위(약 200B 활성). 512K 컨텍스트, 자주 통제 컴플라이언스, 어센드 배포, 풀스택 학습 코드는 openPangu를 선택하십시오. 6월 OpenRouter 선정 분석 참고.

openPangu 2.0 가중치는 어떻게 다운로드합니까?

gitcode.com/org/ascend-tribe에 접속하십시오. 저장소에 openPangu-2.0-Flash, Flash-Int8, Infer, Op가 포함됩니다. 하드웨어 없는 클라우드 체험은 화웨이 클라우드 ModelArts API를 이용하십시오.

자주 통제 프로젝트에서 openPangu 2.0을 사용할 수 있습니까?

가능합니다. openPangu 2.0은 어센드 전용 학습 최전선 OSS 대규모 모델로 NVIDIA 비의존입니다. openPangu License 상용 조항과 함께 자주 통제 컴플라이언스 시나리오에 적합합니다. Agent Gateway 배포는 MACCOME 대여 플랜을 참고하십시오.