2026 OpenClaw 升级护航实操:`openclaw backup create`、验收阶梯与 ACP / `gateway probe` 回归分诊 Runbook

约 19 分钟阅读 · MACCOME

若你正准备或刚完成 OpenClawopenclaw update / 镜像升级,却遇到 Control UI 能开、但 gateway probe 超时,或 ACP / CLI device 流在 2026.3.13+ 回归,本文回答:①升级前如何用 openclaw backup create 留下可恢复快照;②升级后 status → gateway status → gateway probe → doctor 验收阶梯怎么判「可上线 / 必须回退」;③probe / WebSocket 1006 / ACP「queue owner unavailable」分症状 Runbook。与版本迁移总清单坏版本 digest 回滚互补——本篇只啃备份 + probe/ACP 验收

升级护航最常见的六种失误(先认清再动刀)

  1. 只改镜像 tag、不做 backup create:回滚时只能凭记忆改配置,无法证明「上一良好态」的配对与通道状态。
  2. 把「dashboard 能打开」当成「probe 已通过」:2026 多起社区 issue 显示 daemon 健康但 loopback probe 仍超时(尤其 Windows 上 provider 扩展拖慢启动)。
  3. Node 基线未对齐就升 OpenClaw:官方推荐 Node 24;在 22.x 上硬升易出现 CLI 与 Gateway 握手分裂,见Node 24 onboard Runbook
  4. 半升级 split-brain:CLI 已新版本、Gateway 进程未 reload;表象与tools.profile 工具不执行类似,但根因是进程未加载新运行时。
  5. ACP 回归被当成「模型坏了」:2026.3.13+ ACP bridge / device 流失败时,直连 acpx 可能仍正常——应走本篇 ACP 分诊,而非先换模型。
  6. 在会睡眠的笔记本上做生产升级窗口:合盖后 probe 失败被误判为版本问题;权威 Gateway 应落在常电远程 Mac,见SSH 转发常驻 Runbook

2026 上游与社区文档已日益把「升级」定义为可逆状态迁移,而不是单次 `npm install -g`。openclaw backup create 会把当前 ~/.openclaw(或 Docker 卷映射的等价目录)打成可命名归档,让你在 probe 连续失败、ACP 注册丢失时,有分钟级恢复到升级前组合的选项——这与发行通道钉版矩阵里的「已知良好 tag/digest」是同一套 FinOps 思维的两面:一个锁二进制,一个锁运行态配置与配对

站内已有长文 本篇覆盖 本篇不重复
版本迁移总清单 升级前 backup create + 升级后 probe 阶梯 全量目录搬迁、多机 Gateway 切换细节
坏版本 digest 回滚 何时在 probe 失败后触发回退决策 Compose pull / digest 锁死的逐步命令
tools.profile 分诊 验收阶梯里「最小工具探针」一步 allowlist 三层叠加专文
Gateway 无回复 probe 前先排除「完全无回复」 通道 OAuth、模型路由专文

升级前:`openclaw backup create` 与目录边界检查表

在变更窗口开始前,固定执行备份 → 记录版本指纹 → 确认只有一个权威 Gateway。备份命令以你安装的 CLI 为准(2026 文档常见写法如下);若子命令名在不同频道略有差异,以 openclaw backup --help 输出为准,但原则不变:升级前必须有一份可恢复的本地归档

bash
openclaw --version
node -v   # 目标:v24.x;不符先对齐 Node 基线再升 OpenClaw

openclaw backup create
# 可选:列出现有备份
ls -la ~/.openclaw/backup 2>/dev/null || ls -la "${OPENCLAW_STATE_DIR:-$HOME/.openclaw}/backup"

# 冻结「已知良好」组合(写入变更单)
openclaw gateway status
openclaw config get gateway.auth.token 2>/dev/null | head -c 8; echo "…(redacted)"
检查项 本机 npm Docker Compose 远程 Mac 常驻
状态目录 ~/.openclaw 未进 iCloud/网盘同步 bind mount 指向宿主机固定路径 OPENCLAW_STATE_DIR 在独占盘,工单可查
备份是否含敏感材料 通常含 Token/配对;归档按机密存储,恢复前评估是否轮换
双 Gateway launchd + 手动各起一份 compose 与宿主机各起 18789 笔记本转发 + 远端各起一份
磁盘水位 备份前 df -h 可用空间 ≥ 状态目录 2×(避免备份半截失败)
warning

注意:仅手工 tar ~/.openclaw 而不走官方备份命令时,可能漏掉版本化元数据或增量索引;生产变更窗口优先 backup create,手工 tar 仅作第二份冷备

升级后验收阶梯:从 status 到「可上线」判定

升级完成后,禁止只看 Control UI 或聊天窗口一句「你好」就关变更单。推荐固定阶梯(每步失败即停,记录 stderr 与版本号):

  1. openclaw status — CLI 与配置可读
  2. openclaw gateway status — 进程/端口/绑定摘要
  3. openclaw gateway probe(或 --json)— loopback 握手与延迟
  4. openclaw doctor — 配置与依赖告警
  5. 最小业务探针:只读工具或单通道 channels status --probe
  6. 若启用 ACP:验证 bridge 注册与会话创建(见下节分诊)

「可上线」建议定义为:阶梯 1–4 连续通过,且第 5 步在你实际使用的通道/工具面上通过。「必须回退」建议定义为:同一阶梯在 reload/重启后连续两轮仍失败,且影响生产 Agent;此时先恢复备份或按digest 回滚回到变更单记录的 tag/digest,而不是在坏版本上叠加更多配置补丁。

bash
openclaw status
openclaw gateway status
openclaw gateway probe
openclaw doctor

# Docker 路径:升级后务必 reload 同一 compose 项目
# docker compose pull && docker compose up -d
# docker compose restart <gateway-service>

openclaw channels status --probe
症状 优先怀疑 第一动作
probe 超时,gateway status 仍 healthy 启动被 provider 插件拖慢;loopback 竞态 临时禁用故障 provider 扩展;延长 probe 前等待;Windows 对照社区回退到上一 patch
WebSocket 1006 closed before connect Token/绑定/反代 Upgrade 头 对照配对与 1006 Runbook;本机先排除反代
ACP「queue owner unavailable」 ACP bridge 注册回归(2026.3.x) 确认 host acpx 可用;对照版本 issue 钉版或回退;非首选换模型
openclaw devices list 超时 CLI device 流与 Gateway 版本不匹配 对齐 CLI/Gateway 同版本;必要时恢复 backup 再单步升级
通道完全无回复 通道/模型层 跳转无回复专文,暂停本篇

继续修配置 vs 钉版回退 vs 临时禁用 ACP:决策矩阵

on-call 最容易在「再试一次 config」与「立刻回滚」之间摇摆。可用下表快速定夺(行=影响面,列=建议动作):

影响面 继续修(配置/插件) 钉版/回退 临时禁用 ACP 或故障 provider
仅 probe 红,业务通道正常 记录为监控噪声;修启动耗时 若监控 SLA 强制 probe 绿,则回退 patch 禁用拖慢启动的 provider 扩展
ACP 全断,聊天仍正常 查 bridge 注册与插件发现 已知 regression 窗口内回退 minor 临时关 ACP,保通道 SLA
probe + 通道 + 工具全断 仅在做 backup 恢复后单步试 优先 backup restore 或 digest 回滚 不作为首选

六步「备份—升级—阶梯验收—留痕」Runbook

  1. 开变更单:写明当前 OpenClaw 版本、Node 版本、镜像 tag/digest、是否远程 Mac Gateway。
  2. backup create + 目录检查表:确认备份文件大小合理、状态目录未同步盘。
  3. 执行升级:npm 全局或 compose pull/up同一工单只升一档(例如 beta→stable 不要跳两频道)。
  4. 单次 reload:保证仅一个 Gateway 进程监听权威端口;Docker 与 launchd 勿双启。
  5. 跑验收阶梯 1–6:任一步失败则截图日志、停止后续步骤。
  6. 关单或回退:通过则更新内部「已知良好组合」表;失败则 backup restore 或 digest 回滚,并记录 MTTR。

三条应写进变更单的量化口径

  • 升级护航 MTTR:从「probe 首次失败」到「恢复已知良好组合」的中位分钟数;小团队建议 ≤15 分钟(前提是 backup 与 digest 已预先钉好)。
  • 假阳性 probe 率:dashboard/通道正常但 probe 红的比例;若连续两周 >25%,应修启动链或调整监控探针,而非每周强制回滚。
  • 无备份升级占比:变更单里没有 backup 证据的升级次数;生产环境目标为 0

在六国远程 Mac 上,建议把升级窗口与稳定性验收、磁盘水位检查并列:晚高峰同时做镜像 pull + 全量 probe,容易把「网络抖动」误判为「ACP 坏了」。更稳妥的是:在常电、独占、可写工单的节点上完成升级与验收,笔记本仅通过 SSH 转发访问 Control UI。

收束:升级不是「赌最新」,而是「可逆迁移」

只在聊天里试一句「升级成功了吗」、或只靠手工改两三个 YAML 字段,无法通过审计,也无法在第二台机器复现同一护航路径。相对地,把 backup create、验收阶梯与 ACP/probe 分诊写进 runbook,能把「升级踩雷」从一晚上盲试,压到有备份、有回退点、有指标的十分钟级事件。

若你仍坚持在个人笔记本上追新频道,要接受三项隐性成本:睡眠导致 Gateway 假死、probe 与业务路径不一致、以及升级窗口与本地电源策略冲突。对需要 7×24、Node 24 基线稳定、变更可工单化 的 OpenClaw 生产 Gateway,把环境落在 MACCOME Mac mini(M4 / M4 Pro)与六国弹性租期上,通常比在合盖笔记本上与 probe 超时搏斗更省总成本;公开档位可先对照多地区节点与租期指南,再与 SSH 常驻 Runbook 串联拓扑。

常见问题

升级前 backup create 是否包含 Token?

通常包含状态树中的认证与配对材料;归档按机密处理,恢复前评估是否轮换。规划生产专用节点可参考租赁价格说明

gateway probe 失败但 dashboard 能开,是否必须回滚?

不一定。先按症状表区分 probe 超时、1006 与 ACP 注册;仅当阶梯 1–5 连续两轮失败且业务受损时再走digest 回滚

远程 Mac 上升级窗口要注意什么?

避开构建峰值与磁盘紧水位;升级前 backup 落在独占状态目录;验收在远端执行 probe,笔记本只走转发。更多接入问题见帮助中心