Auf einem gemieteten oder selbst verwalteten Remote-Mac scheitert das Co-Hosting von OpenClaw Gateway mit Ollama oder lokalem vLLM selten an «falschem Modellnamen». Typisch sind Ports, Probenreihenfolge, Unified-Memory- und CPU-Wettbewerb sowie Start-/Stopp-Disziplin. Dieser Text ergänzt den Offline-Modell-Triage-Artikel: dort API-Brücken, Kontext, No-Reply—hier nur die Topologie auf einem Host. Ziel: Listener sauber trennen, wissen, welche Schicht vor healthz grün sein muss, und unter Last zuerst das Modell stutzen, nicht Gateway blind drehen.
11434, vLLM oft 8000, OpenClaw Control UI häufig 18789; ein zweiter lokaler Proxy besetzt schnell doppelt.200, der Provider zeigt jedoch auf einen kalten Endpunkt—UI offen, Chat leer.baseURL, Token und echte Listener divergieren. Docker: offizielles Docker und Control UI.Die Tabelle ins Review packen, damit «wir meinen alle 8000» nicht in Woche drei scheitert.
| Komponente | Typischer Default | Berührung mit OpenClaw |
|---|---|---|
| Ollama | HTTP meist 127.0.0.1:11434; LAN nur mit explizitem Bind und Firewall-Konzept |
Provider-baseURL zur OpenAI-kompatiblen Fläche; kein blinder Proxy ohne Upstream-Health |
| vLLM (lokal) | Oft 8000 oder frei; mehrere Instanzen brauchen getrennte Ports und GPU-Threads |
Wie Ollama: /v1/models und Minimal-Completion vor Gateway-Verweis verifizieren |
| OpenClaw Gateway | Control UI oft 18789; echte openclaw-Config maßgeblich |
Zuerst healthz/readyz, dann Provider; siehe Gateway-/Modell-Triage |
chat/completions-curl, danach Gateway starten oder reloaden—kein dauerhaftes «not ready».127.0.0.1. Containerbrücke? Firewall-Verantwortliche dokumentieren.healthz, Schicht 3 Chat-E2E. Irgendwo rot—kein Produktivverkehr.# Minimale Probenreihenfolge (Host/Port anpassen) curl -sS "http://127.0.0.1:11434/api/tags" > /dev/null # Ollama lebt # curl -sS "http://127.0.0.1:8000/v1/models" > /dev/null # vLLM curl -fsS "http://127.0.0.1:18789/healthz" # Gateway # Danach kürzester Chat oder openclaw doctor laut Doku
Sleep/Wake, Consumer-Uplink und unberechenbare Nachbarn machen reproducible Probes zur Lotterie. Ollama plus Gateway braucht stabile thermische Grenzen und planbares I/O. Agent und Inferenz in eine dedizierte, 24/7-fähige Umgebung mit vertraglich fassbarem RAM und Storage zu legen, senkt MTTR oft schneller als endloses Tuning. Für produktionsreife Runbooks liefern MACCOME Cloud-Macs dediziertes Apple Silicon und FinOps-taugliche Mietmodelle—Sie streiten über Ressourcentabellen und Change-Tickets, nicht über Glück. Klare Runbooks verbessern zugleich die Nachvollziehbarkeit unter DSGVO und allgemeinem Datenschutz gegenüber improvisierten Einzelgeräten.
Gateway-Parallelität nicht hochdrehen, bevor ein einzelner Completion-Pfad bewiesen ist. Gateway-Version nicht heben, bevor klar ist, dass der Inferenz-Port frei bleibt. Zwei saubere Schnitte schlagen zehn Seiten Tribal Knowledge.
FAQ
Abgrenzung zum Offline-Ollama/vLLM-Artikel?
Dort API, Kontext, No-Reply. Hier Ports, Proben, Ressourcen, Startfolge auf einem Host. Offline-Triage plus Gateway-Triage.
Gateway in Docker, Ollama nativ—co-hosted?
Logisch ja, Netz explizit: host.docker.internal oder Bridge-IP, firewall-seitig abnahmefähig. Start bei Docker-Produktions-Runbook und offiziellem Docker-Guide.