Чем отличаются openPangu 2.0 Flash и Pro?

Flash (92B total / 6B active) доступен с 30.06.2026 — дешёвый high-QPS inference. Pro (505B / 18B active) планируется на июль — ultra-long docs и domain pretrain. Оба: контекст 512K, обучение на Ascend 910B.

openPangu 2.0 или DeepSeek V4 Pro?

Code/reasoning — DeepSeek V4 Pro (~200B active). 512K context, суверенитет без NVIDIA, Ascend deploy, full training stack — openPangu 2.0 почти без альтернатив.

Huawei openPangu 2.0: open source, MoE 505B, контекст 512K и полный стек Ascend

~24 мин чтения · MACCOME

Если вам нужен 512K context window под контракты/монорепы, деплой на Ascend без NVIDIA или полный training stack в open source — 30 июня 2026 Huawei выкатил на GitCode Ascend Tribe веса openPangu-2.0-Flash, inference code и training ops. Разбор по пунктам: (1) timeline + Pro/Flash specs; (2) почему 7 компонентов — редкость; (3) mHC, Muon, ModAttn, DSA+SWA; (4) первый frontier MoE без NVIDIA training; (5) матрица vs DeepSeek/Qwen/Kimi; (6) ModelArts API + GitCode self-host за 6 шагов; (7) стратегия, HarmonyOS Agent, license. Benchmarks от третьих сторон ещё не вышли — performance claims помечены как architecture inference.

Шесть типичных ошибок перед deploy

«Самая сильная open-source модель» — нет. Code + hard reasoning всё ещё у DeepSeek V4 Pro (~200B active). openPangu выигрывает на 512K, Ascend efficiency и full-stack open source.
Игнор «no NVIDIA training» — openPangu 2.0: первый frontier-scale open LLM, обученный целиком на Ascend 910B, zero A100/H100.
Скачал weights — и всё — в roadmap: pretrain code, post-train (SFT/RLHF), custom Ascend ops. На MoE такого масштаба почти никто не открывает.
Ждать 2x throughput на чистом CUDA — цифра для Ascend-affine arch; на NVIDIA смотрите community big-RAM тесты.
Перепутать sparsity — Pro ~28:1, Flash ~15:1 (DSA+SWA); оба: 512K context.
Забыть edge/HarmonyOS — 30B on-device (+50% inference, -20% RAM), offline на Kirin; HarmonyOS 7 Agent engine = openPangu 2.0.

Timeline и core specs

Дата	Событие
2026-06-12	HDC 2026 Dongguan: официальный релиз openPangu 2.0 (Richard Yu)
2026-06-30	openPangu-2.0-Flash: weights, base inference, training ops на GitCode
2026-07 (plan)	openPangu-2.0-Pro: weights + inference code
H2 2026 (plan)	pretrain/post-train code, доп. ops

Pro vs Flash: две версии, один 512K

Параметр	openPangu 2.0 Pro	openPangu 2.0 Flash
Total params	505B	92B
Active params	18B	6B
Sparsity	~28:1	~15:1
Context	512K	512K
Status	июль (plan)	live с 30.06.2026
Training HW	Huawei Ascend 910B NPU (без NVIDIA)
License	openPangu License (commercial, royalty-free, non-exclusive)

info

512K в цифрах: ~8 полноразмерных романов в одном prompt — целый контракт, крупный repo или длинная chat history. Один из самых длинных context window среди open-source моделей.

7 open-source компонентов: почему это редкость

Большинство open LLM отдают только weights + inference. openPangu 2.0 планирует 7 компонентов; последние три на MoE такого размера — почти unicorn:

Компонент	Статус
1. Model architecture	released
2. Weights (Flash live, Pro июль)	Flash live / Pro plan
3. Tech report	с weights
4. Inference + training ops	released
5. Pretrain code	H2 2026 plan
6. Post-train (SFT/RLHF)	H2 2026 plan
7. Ascend custom training ops	H2 2026 plan

Исследователи смогут воспроизвести full training pipeline; enterprise — domain second-pretrain на proprietary data. Это full-stack open source, не marketing slide.

Архитектура: четыре ключевых tech

mHC (Multi-Head Combinatorial) routing — эффективнее expert routing, меньше load imbalance в MoE.
Muon optimizer — second-order momentum (Microsoft), стабильнее на large-scale train.
ModAttn (Modular Attention) — modular attention под 512K без полного O(n^2) collapse.
DSA+SWA ultra-sparse (Flash only) — 6B active из 92B knowledge pool; compute близок к dense 6B.

Ascend HW и training breakthroughs

Training: Ascend 910B end-to-end — первый frontier LLM без NVIDIA full training
Inference: Ascend-native arch, 2x throughput vs mainstream open models на Ascend; latency 1.2x лучше
Supernode efficiency: +30%; 512K sequence train throughput: +50%
Train-infer consistency: >99% (боль MoE, решена)
Quant: Flash-Int8 released, W4A8, -40% memory, <10% accuracy loss
Edge: 30B on-device, +50% inference, -20% RAM, offline на Kirin phones

Dev stack: CANN + torch_npu

Software stack: CANN (CUDA-like) + torch_npu. Обычный PyTorch: import torch_npu — и backend на Ascend. Deploy paths: Huawei Cloud ModelArts API, GitCode self-host, HarmonyOS native.

Конкуренты: DeepSeek, Qwen, Kimi, Llama

Model	Total	Active	Context	Training	Open source
openPangu 2.0 Pro	505B	18B	512K	Ascend NPU	full stack (7)
openPangu 2.0 Flash	92B	6B	512K	Ascend NPU	full stack (7)
DeepSeek V4 Pro	1.6T	~200B	128K	NVIDIA	weights+infer
Qwen 3.7 Max	~400B+	varies	128K	NVIDIA	weights+infer+partial train
Kimi K2.7	1T	32B	256K	NVIDIA	weights+infer
Llama 4 405B	405B	—	128K	NVIDIA	weights+infer

Capability	openPangu 2.0 Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
Code gen	mid	top	high	high
Hard reasoning	mid	top	top	high
Tool/Agent	high	high	high	top
Ultra-long context	top	mid	mid	high
Infer (Ascend)	top	low	low	high
Sovereignty	top	low	low	low
Full-stack OSS	top	mid	mid	mid

Decision tree по сценарию

Code / hard reasoning → DeepSeek V4 Pro (~200B active)
Agent / MCP ecosystem → Kimi K2.7
Docs >256K tokens → openPangu 2.0 Pro (512K)
No NVIDIA / sovereignty stack → openPangu 2.0 (единственный frontier option)
Ascend / Huawei Cloud → openPangu 2.0 (native 2x throughput)
Edge / phone → openPangu Embedded (30B)
Cheap local infer → openPangu 2.0 Flash (6B active, ~96GB)

Дополняет OpenRouter июньский разбор: DeepSeek — volume/cost; openPangu — context length + Ascend stack depth.

6 шагов: ModelArts API → GitCode self-host

Scenario + version: ultra-long docs/sovereignty → Pro (июль); API now/high QPS → Flash (live).
Fast path: Huawei Cloud ModelArts: account → ModelArts → AI Gallery → openPangu 2.0 → subscribe API endpoint.
API smoke test: Chat Completions (curl ниже).
GitCode download: Ascend Tribe — openPangu-2.0-Flash, Flash-Int8, Infer, Op.
Ascend inference: Flash single 910B; Pro multi-card (8+ cluster); Int8 ~48GB VRAM.
Fine-tune (LoRA): finetune.py --method lora --lora_rank 16; после H2 — second pretrain с full training code.

bash — ModelArts API

curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "Кратко представься"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

bash — Flash single NPU

python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

Version	HW	Min spec	Note
Flash (6B active)	1x Ascend 910B	~96GB unified memory	community big-RAM systems ok
Flash-Int8	1x Atlas A2	~48GB	W4A8, <10% loss
Pro (18B active)	4+ Ascend 910B	multi-card cluster	verify after июль weights

Стратегия: геополитика, HarmonyOS Agent, license

Геополитический контекст

При US export controls на A100/H100 Huawei обучила 505B MoE на Ascend 910B и open-source'нула full stack — прямой ответ на тезис «без NVIDIA frontier LLM невозможен». Richard Yu на HDC 2026: «В оставшейся жизни у меня нет второго места — только первое.»

HarmonyOS Agent era

HarmonyOS 7 → Agent era; openPangu 2.0 = native AI engine для agent tasks
HarmonyOS Agent Framework 2.0: success rate сложных задач >90%
30B on-device: local LLM на телефоне, без сети

openPangu License highlights

Commercial use permitted
Royalty-free, non-exclusive
Детали — в GitCode repo

Roadmap + три hard numbers

30.06.2026: Flash weights + inference + ops
Июль 2026: Pro weights + inference
H2 2026: pre/post-train code, extra ops, data tools

Context gap: openPangu 512K vs DeepSeek/Qwen 128K vs Kimi 256K — 4x+ на ultra-long docs.
Ascend throughput: 2x vs mainstream OSS на Ascend; train-infer consistency >99%.
Flash efficiency: 92B total, 6B active (~6.5%/token) — infer cost как у dense 6B, knowledge pool 92B.

Итог: кому нужен openPangu 2.0?

openPangu 2.0 — не top all-around open LLM сегодня, но почти без альтернатив по:

512K ultra-long context — top tier в OSS
Sovereignty — единственный frontier без NVIDIA training
Ascend-native optimization — 2x throughput в Huawei/Ascend env
Full-stack open source — включая planned training code
Edge + HarmonyOS — Kirin offline + native Agent integration

Multi-model routing openPangu + DeepSeek/Qwen на ноутбуке ломается на sleep/Wi-Fi jitter и размазанных логах — для stable 7x24 scheduling + multi-provider failover дешевле dedicated MACCOME Mac mini node; combo с private model runbook; тарифы: цены аренды.

Disclaimer: часть performance оценок — architecture inference; обновим после independent benchmarks. Дата: 1 июля 2026.

Ссылки: GitCode Ascend Tribe · Huawei Cloud ModelArts · HDC 2026

FAQ

Flash или Pro?

Flash (92B/6B active) live — cheap high-QPS API и single-card infer. Pro (505B/18B) в июле — ultra contracts, big repos, second pretrain. Оба: 512K context.

openPangu 2.0 vs DeepSeek V4 Pro?

Code/reasoning: DeepSeek V4 Pro (~200B active). 512K, sovereignty, Ascend, full training stack: openPangu. См. OpenRouter июнь.

Где скачать weights?

gitcode.com/org/ascend-tribe — openPangu-2.0-Flash, Flash-Int8, Infer, Op. Cloud без железа: ModelArts API.

Подходит для sovereignty/regulated проектов?

Да — первый frontier OSS LLM, обученный только на Ascend, zero NVIDIA. Agent gateway: тарифы MACCOME.