Wenn Retrieval, Reasoning, Generierung und Review in einem LLM-Agenten landen und bei Skalierung Context-Overflow, serielle Timeouts und Single Points of Failure auftreten, liefert dieser Artikel einen architektur-tauglichen Pfad fuer Entwickler und IT-Leitung: ① warum ein Einzel-Agent skaliert nicht und welche drei Steuerungsmodi Multi-Agent-Systeme (MAS) nutzen; ② sechs Orchestrierungs-Design-Patterns fuer ueber 95 % der Produktionsszenarien (mit LangGraph-/AutoGen-Code); ③ LangGraph-vs.-CrewAI-vs.-AutoGen-Matrix plus MCP+A2A-Doppelschicht; ④ State-Persistenz, Observability, fuenf typische Fehler, Wenn/Dann-Entscheidungsbaum und DSGVO-relevante Guardrails. Ergaenzt den MCP Deep Dive und das MCP-Server-Tutorial — Fokus hier: Multi-Agent-Orchestrierung → Framework-Wahl → Produktions-Rollout.
Laut MLflow-Bericht 2026 zeigte Googles internes Agent Bake-Off: verteilte Multi-Agent-Architektur reduzierte die Bearbeitungszeit von 1 Stunde auf 10 Minuten — mehr als Faktor 6. AdaptOrch (2026) belegt zusaetzlich: In MAS beeinflusst die Orchestrierungs-Topologie die Performance staerker als die Modellwahl; die richtige Topologie liefert auf SWE-bench und aehnlichen Benchmarks 12–23 % Gewinn.
Ein Multi-Agent-System (MAS) ist ein System unabhaengiger KI-Agenten, die ueber definierte Kommunikationsprotokolle und Orchestrierung zusammenarbeiten, um komplexe Aufgaben zu loesen, die ein Einzel-Agent nicht effizient bewaeltigen kann.
| Merkmal | Spezifikation | Produktionsrelevanz |
|---|---|---|
| Rollenfokus | Genau eine definierte Subtask (Retrieval, Reasoning, Generierung, Validierung) | Ermoeglicht unabhaengige Tests und SLA pro Agent |
| Tool-Zugriff | Eigenes, minimales Tool-Set fuer die Rolle | Least-Privilege; relevant fuer Datenschutz und Audit |
| State-Isolation | Eigener Kontext und Speicher, keine Cross-Pollution | Reduziert Halluzinations-Kettenreaktionen |
| Austauschbarkeit | Upgrade oder Swap ohne System-Neustart | Verfuegbarkeit: ein Agent faellt nicht das ganze System |
| Modus | Steuerung | Vorteil | Nachteil | Typischer Einsatz |
|---|---|---|---|---|
| Zentral | Orchestrator plant alles | Auditierbar, kontrollierbar | Engpass beim Orchestrator | Compliance, kleine Teams |
| Dezentral | Peer-to-Peer zwischen Agenten | Hohe Elastizitaet, niedrige Latenz | Schwer debugbar, non-deterministisch | Forschung, Prototypen |
| Hierarchisch | Top-Orchestrator → Team Lead → Worker | Balance Kontrolle/Elastizitaet | Mehr Schichten = mehr Latenz | Haeufigste Produktionswahl |
Output von Agent A wird Input von Agent B — strikt linear. Wenn Schritte harte Abhaengigkeiten haben und kein dynamisches Routing noetig ist, dann Pipeline (Content-Pipelines, Code-Review-Flows).
from langgraph.graph import StateGraph, START, END
from typing import TypedDict
class PipelineState(TypedDict):
query: str
retrieved_docs: str
analysis: str
final_report: str
def retrieval_agent(state):
return {"retrieved_docs": search_knowledge_base(state["query"])}
def analysis_agent(state):
result = llm.invoke(f"Analyse: {state['retrieved_docs']}")
return {"analysis": result.content}
builder = StateGraph(PipelineState)
builder.add_node("retriever", retrieval_agent)
builder.add_node("analyzer", analysis_agent)
builder.add_edge(START, "retriever")
builder.add_edge("retriever", "analyzer")
builder.add_edge("analyzer", END)
pipeline = builder.compile()
Trade-off: einfach, vorhersagbar, audit-tauglich. Gesamtzeit = Summe der Schritte; ein Fehler blockiert alles; dynamische Verzweigungen fehlen.
Mehrere Agenten bearbeiten unabhaengige Subtasks parallel; ein Merge-Knoten buendelt Ergebnisse. Gesamtzeit = max(T1, T2, ..., Tn), nicht die Summe. Wenn Subtasks unabhaengig sind (Multi-Source-Research, mehrdimensionale Risikoanalyse), dann Fan-out/Fan-in.
from langgraph.types import Send
from typing import Annotated
import operator
class ResearchState(TypedDict):
query: str
research_results: Annotated[list, operator.add]
final_synthesis: str
def supervisor(state):
return [Send("research_worker", {"query": state["query"], "source": s})
for s in ("academic", "industry", "news")]
def research_worker(state):
return {"research_results": [search_by_source(state["query"], state["source"])]}
Technischer Kern: LangGraphs Send API liefert eine Liste von Send-Objekten; Subgraphen laufen wirklich parallel. Mit Annotated[list, operator.add] als Reducer aggregieren parallele Zweige automatisch — ohne manuelle Locks oder Sync-Logik.
Supervisor fuer Intent-Erkennung, Task-Zerlegung und Routing; Worker fuer Fachdomaenen; Supervisor aggregiert. Wenn Aufgaben domaenenspezifisch sind und dynamisches Routing noetig ist (Code-Assistent, Support), dann Supervisor-Worker.
Zwei-Schicht-Routing: Schicht 1 Keyword-Fast-Path (<1 ms, kein LLM); Schicht 2 LLM-Routing fuer komplexe oder mehrdeutige Intents.
Peer-to-Peer ohne zentralen Koordinator; Stopp ueber Rundenlimit, Konsens oder Timeout. Fuer Mehr-Runden-Debatten (Code-Review, Optionsbewertung). Warnung: hohe Non-Deterministik — in Produktion vorsichtig; hierarchisches Muster bevorzugen. AutoGen GroupChat: max_round=6 als harte Obergrenze gegen Endlosschleifen.
Gemeinsamer strukturierter Arbeitsraum; Agenten lesen/schreiben bei erfuellten Praedikaten ohne expliziten Scheduler. Fuer stunden- oder tagelange async Tasks, heterogene Services, komplexe Bedingungen ohne vorab festgelegtes Routing.
Kombination mehrerer Muster — typisch Supervisor plus Pipeline. Beispiel: Intent-Agent routet einfache Queries direkt; komplexe Reports → Supervisor-Hierarchie → paralleles Research-Fan-out → Qualitaets-Pipeline (Review → Human Review → Publish).
| Dimension | LangGraph | CrewAI | AutoGen (Microsoft) |
|---|---|---|---|
| Architektur-Paradigma | State-Machine-Graph | Rollenbasiertes Team | Konversationelles Multi-Agent |
| Sprachen | Python / JS/TS | Python | Python / .NET |
| Lernkurve | Steil | Flach | Mittel |
| State-Management | Nativ | Selbst implementieren | Begrenzt |
| Human-in-the-Loop | Nativ | Selbst implementieren | Unterstuetzt |
| Observability | LangSmith (kommerziell) | Begrenzt | Azure Monitor |
| Produktionsreife | Sehr hoch | Mittel | Hoch |
| Schneller Prototyp | Mittel | Sehr hoch | Hoch |
| Azure-Integration | Mittel | Niedrig | Sehr hoch |
| Typischer Einsatz | Komplexe Stateful-Workflows | Rollenbasierte Content-Pipelines | Konversationelle Kollaboration |
| Wenn … | Dann Framework | Begruendung |
|---|---|---|
| Finanz, Medizin, lange Stateful-Tasks, feine HITL-Kontrolle | LangGraph | Checkpointing, interrupt(), praezise Verzweigungen |
| 1–2 Tage Idea-Validierung, Team denkt in «Rollen» | CrewAI | Schnelle rollenbasierte Prototypen |
| Microsoft/Azure-Stack, Mehr-Runden-Debatten | AutoGen | Azure Monitor, GroupChat-Patterns |
2026 standardisiert Multi-Agent-Kommunikation in zwei komplementaere Schichten — beide unter der Linux Foundation Agentic AI Foundation:
Jeder A2A-Agent veroeffentlicht eine Agent Card unter /.well-known/agent.json; der Orchestrator delegiert per JSON-RPC 2.0. Details: MCP Deep Dive und MCP-Server-Tutorial.
PostgresSaver als LangGraph-Checkpoint-Store: nach Prozess-Neustart Fortsetzung ab letztem State (thread_id ueber Sessions). Fuer Verfuegbarkeit und Audit: Checkpoints in EU-Region mit dokumentierten Backup-RPO/RTO betreiben.
LangGraph interrupt() pausiert vor Hochrisiko-Ops (z. B. Produktions-DB-Aenderung) bis zur menschlichen Freigabe — relevant fuer EU AI Act und interne Vier-Augen-Prinzipien.
Circuit Breaker (CLOSED / OPEN / HALF_OPEN) auf externe Agent-Aufrufe; Schwellwert verhindert Kaskadenfehler und stabilisiert die Systemverfuegbarkeit.
TokenBudgetManager prueft Restbudget vor jedem Agent-Call; Ueberschreitung wirft BudgetExceededException; Verbrauch pro Agent fuer FinOps und Kostendeckel.
Wenn Agenten personenbezogene Daten verarbeiten, dann vor Go-Live: PII-Filter an Handoff-Punkten, Pseudonymisierung in Logs, AV-Vertrag mit LLM-Anbietern, dokumentierte Loeschfristen. ProductionGuardrails ab Tag eins — nicht erst nach dem ersten Vorfall.
MAST-Forscher analysierten 1.642 Ausfuehrungs-Traces. Fehlerverteilung in Multi-Agent-Systemen:
| Fehlertyp | Anteil | Beschreibung |
|---|---|---|
| Systemdesign | 41,77 % | Wiederholte Schritte, falsche Tool-Wahl, Context-Overflow, fehlende Terminierung |
| Inter-Agent-Mismatch | 36,94 % | Kontextverlust beim Handoff; Halluzination wird «Fakt» fuer naechsten Agent |
| Task-Validierung | 21,30 % | Vorzeitiger Abbruch, unvollstaendige Pruefung |
Alarmierend: 57 % der Organisationen betreiben Agenten in Produktion, nur 8 % haben LLM-Observability implementiert. Viele Fehler liefern HTTP 200 — Dashboards gruen, Output falsch. Unter DSGVO und EU AI Act fehlen dann nachvollziehbare Entscheidungsketten.
Distributed Tracing: jeder Agent-Call traegt correlation_id; OpenTelemetry-Spans mit agent.name, tokens_used, status.
Kernmetriken (Sollwerte):
| Metrik | Zielwert | Relevanz |
|---|---|---|
| End-to-End Task Completion Rate | >85 % | SLA-Erfuellung |
| P95-Latenz | <30 s | Nutzer- und Batch-Performance |
| Fehlerrate pro Agent | <5 % | Fruehwarnung vor Kaskaden |
| Token-Kosten / Retry-Count | Budget-Cap | FinOps |
| LLM-as-a-Judge-Score | Stichproben >Schwellwert | Qualitaet trotz HTTP 200 |
Agent A halluziniert; Fehler wandert zu B und C; Output basiert auf falscher Praemisse — HTTP 200 ueberall. Gegenmassnahme: Schema-Validierung an jedem Handoff, Konfidenz <0,7 ablehnen, Pflichtfelder pruefen.
Retry-Schleifen; Token-Kosten in Minuten auf das 100-fache. Gegenmassnahme: MAX_ITERATIONS=10, MAX_TOOL_CALLS_PER_AGENT=20, MAX_TOTAL_TOKENS=50_000; LangGraph interrupt_before bei teuren Ops.
Zwei-Schritt-LLM-Kette in acht Agenten zerlegt — Debugging exponentiell schwerer. Prinzip: mit Pipeline starten; Agent nur bei Evidenz (Parallelitaet, Context-Overflow, unabhaengige Spezialisierung). Sweet Spot in Produktion: 3–8 Agenten.
Interne Demo stark; Edge-Inputs in Produktion brechen. Gegenmassnahme: Input-Laengenlimits, Prompt-Injection-Erkennung, PII-Filter, Harmful-Content-Detection — ProductionGuardrails ab Tag eins; DSGVO-Art.-32-TOMs dokumentieren.
Nach Send-API-Dispatch laeuft Supervisor erneut, bevor langsame Zweige fertig sind — Doppelausfuehrung. Gegenmassnahme: builder.add_node("supervisor", supervisor_node, defer=True) als explizite Sync-Barriere.
thread_id fuer Resume und HITL.Kernpunkte: ① Orchestrierungs-Topologie > Modellwahl; ② mit einfacher Pipeline starten; ③ MCP + A2A als Standard; ④ Observability Pflicht; ⑤ 3–8 Agenten Sweet Spot — darueber hierarchisch staffeln.
2026 beobachten: föderierte Orchestrierung (Sub-Orchestratoren teilen Routing-Policy), multimodale Multi-Agent-Systeme, adaptive Topologie (AdaptOrch-Richtung), EU AI Act mit vollstaendiger Entscheidungs-Audit-Kette und DSGVO-konformen Logs.
LangGraph-Orchestrierung, MCP Server und A2A-Gateway auf schlafendem Laptop oder geteiltem Dev-Rechner erzeugen drei versteckte Kosten: Checkpoints und Sessions brechen beim Zuklappen, Environment-Drift verursacht Handoff-Fehler, 7×24-Mehrschritt-Workflows sind nicht haltbar. Fuer stabile Multi-Agent-Orchestrierung und MCP/A2A-Long-Lived-Connections: Gateway und State auf dediziertem MACCOME Mac mini (M4 / M4 Pro) — oft guenstiger als lokaler Sleep-Kampf. Tarife: Mac-Mini-Mietpreise.
FAQ
LangGraph, CrewAI oder AutoGen — wie waehlen?
Wenn produktionsreifes State-Management, Human-in-the-Loop und komplexe Verzweigungen noetig sind, dann LangGraph. Wenn schnelle rollenbasierte Prototypen, dann CrewAI. Wenn Microsoft/Azure-Stack und Mehr-Runden-Debatten, dann AutoGen. Siehe Vergleichsmatrix oben.
Was machen MCP und A2A in Multi-Agent-Systemen?
MCP ist die vertikale Schicht (Agent ↔ Tools); A2A die horizontale (Agent ↔ Agent). Details: MCP Deep Dive.
Wie viele Agenten in Produktion?
Empirischer Sweet Spot: 3–8. Darueber oft mehr Koordinations-Overhead als Nutzen — hierarchische Sub-Teams statt flacher Swarms.
Auf welcher Hardware Multi-Agent-Systeme betreiben?
Laptop-Sleep bricht Long-Lived-Connections und Checkpoints. MACCOME bietet dedizierte M4/M4 Pro-Cloud-Mac-Knoten fuer 7×24 LangGraph-Gateway und MCP Server. Tarife: Mac-Mini-Mietpreise; Onboarding: Hilfe-Center.