Huawei openPangu 2.0: open source, MoE 505B, контекст 512K и полный стек Ascend

~24 мин чтения · MACCOME

Если вам нужен 512K context window под контракты/монорепы, деплой на Ascend без NVIDIA или полный training stack в open source — 30 июня 2026 Huawei выкатил на GitCode Ascend Tribe веса openPangu-2.0-Flash, inference code и training ops. Разбор по пунктам: (1) timeline + Pro/Flash specs; (2) почему 7 компонентов — редкость; (3) mHC, Muon, ModAttn, DSA+SWA; (4) первый frontier MoE без NVIDIA training; (5) матрица vs DeepSeek/Qwen/Kimi; (6) ModelArts API + GitCode self-host за 6 шагов; (7) стратегия, HarmonyOS Agent, license. Benchmarks от третьих сторон ещё не вышли — performance claims помечены как architecture inference.

Шесть типичных ошибок перед deploy

  1. «Самая сильная open-source модель» — нет. Code + hard reasoning всё ещё у DeepSeek V4 Pro (~200B active). openPangu выигрывает на 512K, Ascend efficiency и full-stack open source.
  2. Игнор «no NVIDIA training» — openPangu 2.0: первый frontier-scale open LLM, обученный целиком на Ascend 910B, zero A100/H100.
  3. Скачал weights — и всё — в roadmap: pretrain code, post-train (SFT/RLHF), custom Ascend ops. На MoE такого масштаба почти никто не открывает.
  4. Ждать 2x throughput на чистом CUDA — цифра для Ascend-affine arch; на NVIDIA смотрите community big-RAM тесты.
  5. Перепутать sparsity — Pro ~28:1, Flash ~15:1 (DSA+SWA); оба: 512K context.
  6. Забыть edge/HarmonyOS — 30B on-device (+50% inference, -20% RAM), offline на Kirin; HarmonyOS 7 Agent engine = openPangu 2.0.

Timeline и core specs

ДатаСобытие
2026-06-12HDC 2026 Dongguan: официальный релиз openPangu 2.0 (Richard Yu)
2026-06-30openPangu-2.0-Flash: weights, base inference, training ops на GitCode
2026-07 (plan)openPangu-2.0-Pro: weights + inference code
H2 2026 (plan)pretrain/post-train code, доп. ops

Pro vs Flash: две версии, один 512K

ПараметрopenPangu 2.0 ProopenPangu 2.0 Flash
Total params505B92B
Active params18B6B
Sparsity~28:1~15:1
Context512K512K
Statusиюль (plan)live с 30.06.2026
Training HWHuawei Ascend 910B NPU (без NVIDIA)
LicenseopenPangu License (commercial, royalty-free, non-exclusive)
info

512K в цифрах: ~8 полноразмерных романов в одном prompt — целый контракт, крупный repo или длинная chat history. Один из самых длинных context window среди open-source моделей.

7 open-source компонентов: почему это редкость

Большинство open LLM отдают только weights + inference. openPangu 2.0 планирует 7 компонентов; последние три на MoE такого размера — почти unicorn:

КомпонентСтатус
1. Model architecturereleased
2. Weights (Flash live, Pro июль)Flash live / Pro plan
3. Tech reportс weights
4. Inference + training opsreleased
5. Pretrain codeH2 2026 plan
6. Post-train (SFT/RLHF)H2 2026 plan
7. Ascend custom training opsH2 2026 plan

Исследователи смогут воспроизвести full training pipeline; enterprise — domain second-pretrain на proprietary data. Это full-stack open source, не marketing slide.

Архитектура: четыре ключевых tech

  • mHC (Multi-Head Combinatorial) routing — эффективнее expert routing, меньше load imbalance в MoE.
  • Muon optimizer — second-order momentum (Microsoft), стабильнее на large-scale train.
  • ModAttn (Modular Attention) — modular attention под 512K без полного O(n^2) collapse.
  • DSA+SWA ultra-sparse (Flash only) — 6B active из 92B knowledge pool; compute близок к dense 6B.

Ascend HW и training breakthroughs

  • Training: Ascend 910B end-to-end — первый frontier LLM без NVIDIA full training
  • Inference: Ascend-native arch, 2x throughput vs mainstream open models на Ascend; latency 1.2x лучше
  • Supernode efficiency: +30%; 512K sequence train throughput: +50%
  • Train-infer consistency: >99% (боль MoE, решена)
  • Quant: Flash-Int8 released, W4A8, -40% memory, <10% accuracy loss
  • Edge: 30B on-device, +50% inference, -20% RAM, offline на Kirin phones

Dev stack: CANN + torch_npu

Software stack: CANN (CUDA-like) + torch_npu. Обычный PyTorch: import torch_npu — и backend на Ascend. Deploy paths: Huawei Cloud ModelArts API, GitCode self-host, HarmonyOS native.

Конкуренты: DeepSeek, Qwen, Kimi, Llama

ModelTotalActiveContextTrainingOpen source
openPangu 2.0 Pro505B18B512KAscend NPUfull stack (7)
openPangu 2.0 Flash92B6B512KAscend NPUfull stack (7)
DeepSeek V4 Pro1.6T~200B128KNVIDIAweights+infer
Qwen 3.7 Max~400B+varies128KNVIDIAweights+infer+partial train
Kimi K2.71T32B256KNVIDIAweights+infer
Llama 4 405B405B128KNVIDIAweights+infer
CapabilityopenPangu 2.0 ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
Code genmidtophighhigh
Hard reasoningmidtoptophigh
Tool/Agenthighhighhightop
Ultra-long contexttopmidmidhigh
Infer (Ascend)toplowlowhigh
Sovereigntytoplowlowlow
Full-stack OSStopmidmidmid

Decision tree по сценарию

  • Code / hard reasoning → DeepSeek V4 Pro (~200B active)
  • Agent / MCP ecosystem → Kimi K2.7
  • Docs >256K tokens → openPangu 2.0 Pro (512K)
  • No NVIDIA / sovereignty stack → openPangu 2.0 (единственный frontier option)
  • Ascend / Huawei Cloud → openPangu 2.0 (native 2x throughput)
  • Edge / phone → openPangu Embedded (30B)
  • Cheap local infer → openPangu 2.0 Flash (6B active, ~96GB)

Дополняет OpenRouter июньский разбор: DeepSeek — volume/cost; openPangu — context length + Ascend stack depth.

6 шагов: ModelArts API → GitCode self-host

  1. Scenario + version: ultra-long docs/sovereignty → Pro (июль); API now/high QPS → Flash (live).
  2. Fast path: Huawei Cloud ModelArts: account → ModelArts → AI Gallery → openPangu 2.0 → subscribe API endpoint.
  3. API smoke test: Chat Completions (curl ниже).
  4. GitCode download: Ascend TribeopenPangu-2.0-Flash, Flash-Int8, Infer, Op.
  5. Ascend inference: Flash single 910B; Pro multi-card (8+ cluster); Int8 ~48GB VRAM.
  6. Fine-tune (LoRA): finetune.py --method lora --lora_rank 16; после H2 — second pretrain с full training code.
bash — ModelArts API
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "Кратко представься"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'
bash — Flash single NPU
python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16
VersionHWMin specNote
Flash (6B active)1x Ascend 910B~96GB unified memorycommunity big-RAM systems ok
Flash-Int81x Atlas A2~48GBW4A8, <10% loss
Pro (18B active)4+ Ascend 910Bmulti-card clusterverify after июль weights

Стратегия: геополитика, HarmonyOS Agent, license

Геополитический контекст

При US export controls на A100/H100 Huawei обучила 505B MoE на Ascend 910B и open-source'нула full stack — прямой ответ на тезис «без NVIDIA frontier LLM невозможен». Richard Yu на HDC 2026: «В оставшейся жизни у меня нет второго места — только первое.»

HarmonyOS Agent era

  • HarmonyOS 7 → Agent era; openPangu 2.0 = native AI engine для agent tasks
  • HarmonyOS Agent Framework 2.0: success rate сложных задач >90%
  • 30B on-device: local LLM на телефоне, без сети

openPangu License highlights

  • Commercial use permitted
  • Royalty-free, non-exclusive
  • Детали — в GitCode repo

Roadmap + три hard numbers

  • 30.06.2026: Flash weights + inference + ops
  • Июль 2026: Pro weights + inference
  • H2 2026: pre/post-train code, extra ops, data tools
  • Context gap: openPangu 512K vs DeepSeek/Qwen 128K vs Kimi 256K — 4x+ на ultra-long docs.
  • Ascend throughput: 2x vs mainstream OSS на Ascend; train-infer consistency >99%.
  • Flash efficiency: 92B total, 6B active (~6.5%/token) — infer cost как у dense 6B, knowledge pool 92B.

Итог: кому нужен openPangu 2.0?

openPangu 2.0 — не top all-around open LLM сегодня, но почти без альтернатив по:

  1. 512K ultra-long context — top tier в OSS
  2. Sovereignty — единственный frontier без NVIDIA training
  3. Ascend-native optimization — 2x throughput в Huawei/Ascend env
  4. Full-stack open source — включая planned training code
  5. Edge + HarmonyOS — Kirin offline + native Agent integration

Multi-model routing openPangu + DeepSeek/Qwen на ноутбуке ломается на sleep/Wi-Fi jitter и размазанных логах — для stable 7x24 scheduling + multi-provider failover дешевле dedicated MACCOME Mac mini node; combo с private model runbook; тарифы: цены аренды.

Disclaimer: часть performance оценок — architecture inference; обновим после independent benchmarks. Дата: 1 июля 2026.

Ссылки: GitCode Ascend Tribe · Huawei Cloud ModelArts · HDC 2026

FAQ

Flash или Pro?

Flash (92B/6B active) live — cheap high-QPS API и single-card infer. Pro (505B/18B) в июле — ultra contracts, big repos, second pretrain. Оба: 512K context.

openPangu 2.0 vs DeepSeek V4 Pro?

Code/reasoning: DeepSeek V4 Pro (~200B active). 512K, sovereignty, Ascend, full training stack: openPangu. См. OpenRouter июнь.

Где скачать weights?

gitcode.com/org/ascend-tribeopenPangu-2.0-Flash, Flash-Int8, Infer, Op. Cloud без железа: ModelArts API.

Подходит для sovereignty/regulated проектов?

Да — первый frontier OSS LLM, обученный только на Ascend, zero NVIDIA. Agent gateway: тарифы MACCOME.