Wenn Ihr Use Case Ultra-Long-Context-Vertraege, grosse Codebasen, Datenschutz bei On-Prem-Deployment oder Ascend-native Infrastruktur erfordert, liefert Huawei auf HDC 2026 die harten Daten: Am 30. Juni 2026 sind openPangu-2.0-Flash-Gewichte, Inferenzcode und Trainingsoperatoren auf GitCode Ascend Tribe live. Dieser Artikel beantwortet datenbasiert: (1) Zeitplan und Pro/Flash-Kernparameter; (2) warum 7 Open-Source-Komponenten selten sind; (3) mHC, Muon, ModAttn und DSA+SWA; (4) Bedeutung des ersten frontier MoE ohne NVIDIA; (5) Wettbewerbsmatrix vs. DeepSeek/Qwen/Kimi; (6) ModelArts API und GitCode-Self-Hosting in 6 Schritten; (7) Strategie, HarmonyOS Agent und Lizenz. Unabhaengige Benchmarks stehen noch aus; Leistungsaussagen sind als Architektur-Inferenz gekennzeichnet.
| Datum | Ereignis |
|---|---|
| 2026-06-12 | HDC 2026 Dongguan: Richard Yu stellt openPangu 2.0 offiziell vor |
| 2026-06-30 | openPangu-2.0-Flash: Gewichte, Basis-Inferenzcode und Operatoren auf GitCode |
| 2026-07 (geplant) | openPangu-2.0-Pro: Gewichte und Inferenzcode |
| H2 2026 (geplant) | Pre-Training-Code, Post-Training-Code, weitere Operatoren |
| Dimension | openPangu 2.0 Pro | openPangu 2.0 Flash |
|---|---|---|
| Gesamtparameter | 505B | 92B |
| Aktive Parameter | 18B | 6B |
| Sparsity | ~28:1 | ~15:1 |
| Kontextfenster | 512K | 512K |
| Status | Juli geplant | Live seit 30.06.2026 |
| Trainingshardware | Huawei Ascend 910B NPU (ohne NVIDIA) | |
| Lizenz | openPangu License (kommerziell, royalty-free, nicht-exklusiv) | |
512K Kontext in Zahlen: Entspricht etwa dem Textumfang von 8 Buechern — Vertraege, grosse Repositories oder lange Chat-Historien in einem Prompt. Fuer EU-Teams mit Datenschutz-Anforderungen reduziert On-Prem-Inferenz mit langem Kontext externe API-Exposition.
Die meisten Open-Source-LLMs liefern nur Gewichte + Inferenzcode. openPangu 2.0 plant 7 Komponenten; die letzten drei sind bei MoE dieser Groesse aussergewoehnlich:
| Komponente | Status |
|---|---|
| 1. Modellarchitektur | Verfuegbar |
| 2. Gewichte (Flash live, Pro Juli) | Flash live / Pro geplant |
| 3. Technischer Report | Mit Gewichten veroeffentlicht |
| 4. Inferenzcode + Trainingsoperatoren | Verfuegbar |
| 5. Pre-Training-Code | H2 2026 geplant |
| 6. Post-Training-Code (SFT/RLHF) | H2 2026 geplant |
| 7. Trainingsoperatoren (Ascend Custom Ops) | H2 2026 geplant |
Forscher koennen den Trainingsablauf reproduzieren; Unternehmen koennen vertikale Zweit-Pre-Trainings auf proprietaren Daten aufsetzen — echtes Vollstack-Open-Source.
Software-Stack: CANN (CUDA-Aequivalent) + torch_npu. Standard-PyTorch mit import torch_npu auf Ascend. Pfade: Huawei Cloud ModelArts API, GitCode Self-Hosting, HarmonyOS Native Integration.
| Modell | Gesamt | Aktiv | Kontext | Training | Open Source |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | Vollstack (7) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | Vollstack (7) |
| DeepSeek V4 Pro | 1,6T | ~200B | 128K | NVIDIA | Gewichte+Inferenz |
| Qwen 3.7 Max | ~400B+ | variiert | 128K | NVIDIA | Gewichte+Inferenz+teilw. Training |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | Gewichte+Inferenz |
| Llama 4 405B | 405B | — | 128K | NVIDIA | Gewichte+Inferenz |
| Faehigkeit | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| Code-Generierung | Mittel | Sehr hoch | Hoch | Hoch |
| Komplexes Reasoning | Mittel | Sehr hoch | Sehr hoch | Hoch |
| Tool/Agent | Hoch | Hoch | Hoch | Sehr hoch |
| Ultra-Long-Context | Sehr hoch | Mittel | Mittel | Hoch |
| Inferenz (Ascend) | Sehr hoch | Niedrig | Niedrig | Hoch |
| Souveraenitaet | Sehr hoch | Niedrig | Niedrig | Niedrig |
| Vollstack-Open-Source | Sehr hoch | Mittel | Mittel | Mittel |
Ergänzt die OpenRouter-Juni-Analyse: DeepSeek gewinnt Volumen/Preis, openPangu gewinnt Kontextlaenge und Ascend-Bindung.
openPangu-2.0-Flash, Flash-Int8, Infer, Op.finetune.py --method lora --lora_rank 16; ab H2 Pre-Training-Code fuer Domain-Pre-Training.curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "Stelle dich kurz vor"}],
"max_tokens": 1024,
"temperature": 0.7
}'
python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16
| Version | Hardware | Minimum | Hinweis |
|---|---|---|---|
| Flash (6B aktiv) | 1x Ascend 910B | ~96 GB Unified Memory | Community gross-RAM-Systeme moeglich |
| Flash-Int8 | 1x Atlas A2 | ~48 GB | W4A8, <10 % Genauigkeitsverlust |
| Pro (18B aktiv) | 4+ Ascend 910B | Multi-Card-Cluster | Nach Juli-Gewichte verifizieren |
Unter US-Exportbeschraenkungen fuer A100/H100 trainiert Huawei ein 505B-MoE auf Ascend 910B und open-sourcet den Vollstack — ein Gegenargument zu „ohne NVIDIA kein frontier LLM“. Richard Yu auf HDC 2026: „In meinem restlichen Leben gibt es kein Zweites, nur Erstes.“
openPangu 2.0 ist nicht das staerkste Allround-Open-Source-Modell, aber in diesen Dimensionen nahezu alternativlos:
Wenn openPangu mit DeepSeek/Qwen geroutet wird und der Gateway auf einem Laptop laeuft, brechen Sleep-Modus und verteilte Logs 512K-Agenten ab. Fuer stabile 7x24-Scheduling + Multi-Provider-Failover lohnt ein dedizierter MACCOME Mac-mini-Knoten; kombinierbar mit dem Private-Model-Runbook; Tarife: Mietpreise.
Hinweis: Teile der Leistungsbewertung basieren auf Architektur-Inferenz; unabhaengige Benchmarks werden nach Veroeffentlichung aktualisiert. Stand: 1. Juli 2026.
Referenzen: GitCode Ascend Tribe · Huawei Cloud ModelArts · HDC 2026
FAQ
Flash oder Pro?
Flash (92B/6B aktiv) ist live — API-Hochlast und Single-Card-Inferenz. Pro (505B/18B) ab Juli — Ultra-Vertraege, grosse Repos, Zweit-Pre-Training. Beide: 512K Kontext.
openPangu 2.0 oder DeepSeek V4 Pro?
Code/Reasoning: DeepSeek V4 Pro (~200B aktiv). 512K, Souveraenitaet, Ascend, Vollstack-Training: openPangu. Siehe OpenRouter-Juni-Analyse.
Woher die Gewichte?
gitcode.com/org/ascend-tribe — openPangu-2.0-Flash, Flash-Int8, Infer, Op. Cloud-Test ohne Hardware: ModelArts API.
Fuer regulierte/souveraene Projekte geeignet?
Ja — erstes frontier Open-Source-Modell rein auf Ascend trainiert, ohne NVIDIA. Bei Datenschutz-sensiblen Agent-Gateways: MACCOME Mietpreise fuer dedizierte Routing-Knoten.