[#43 ] 区分server&client 不同compose project；修改require compose监测

[#47 ] 增加cpu bundle镜像构建
[#37 ] 删除旧部署构建目录；跑通src/sys/tests; 增加一键构建 server pkg和client gpu pkg
2025-11-17 12:17:11 +08:00 · 2025-11-14 16:43:34 +08:00 · 2025-11-14 15:07:24 +08:00 · 2025-11-13 15:02:33 +08:00 · 2025-11-13 10:28:37 +08:00 · 2025-11-12 15:06:37 +08:00
36 changed files with 270 additions and 979 deletions
--- a/build/build_images.sh
+++ b/build/build_images.sh
@ -40,8 +40,6 @@ build_gpu_bundle=false
 build_cpu_bundle=false
 build_server_pkg=false
 build_client_pkg=false
-need_bind_image=true
-need_metric_ftp=true
 no_cache=false

 bundle_date=""
@ -126,11 +124,6 @@ while [[ $# -gt 0 ]]; do
  esac
 done

-if [[ "$build_server_pkg" == true ]]; then
-  need_bind_image=false
-  need_metric_ftp=false
-fi
-
 root="$(cd "$(dirname "${BASH_SOURCE[0]}")/.." && pwd)"
 . "$root/scripts/common/build_user.sh"

@ -413,7 +406,6 @@ build_gpu_bundle_image() {
  mkdir -p "$bundle_ctx/bundle" "$bundle_ctx/private"
  cp "$root/src/bundle/gpu-node-bundle/Dockerfile" "$bundle_ctx/"
  cp "$root/src/bundle/gpu-node-bundle/node-bootstrap.sh" "$bundle_ctx/"
-  cp "$root/src/bundle/gpu-node-bundle/health-watcher.sh" "$bundle_ctx/"
  # bundle tar
  cp "$artifact_tar" "$bundle_ctx/bundle/"
  # offline fluent-bit assets (optional but useful)
@ -470,11 +462,11 @@ build_server_pkg_bundle() {
    return 1
  fi
  local repos=(
-    argus-master argus-elasticsearch argus-kibana \
-    argus-metric-prometheus argus-metric-grafana \
+    argus-bind9 argus-master argus-elasticsearch argus-kibana \
+    argus-metric-ftp argus-metric-prometheus argus-metric-grafana \
    argus-alertmanager argus-web-frontend argus-web-proxy
  )
-  echo "\n🔖 Verifying server images with :$date_tag and collecting digests (Bind/FTP excluded; relying on Docker DNS aliases)"
+  echo "\n🔖 Verifying server images with :$date_tag and collecting digests"
  for repo in "${repos[@]}"; do
    if ! docker image inspect "$repo:$date_tag" >/dev/null 2>&1; then
      echo "❌ required image missing: $repo:$date_tag (build phase should have produced it)" >&2
@ -600,7 +592,6 @@ build_cpu_bundle_image() {
  mkdir -p "$bundle_ctx/bundle" "$bundle_ctx/private"
  cp "$root/src/bundle/cpu-node-bundle/Dockerfile" "$bundle_ctx/"
  cp "$root/src/bundle/cpu-node-bundle/node-bootstrap.sh" "$bundle_ctx/"
-  cp "$root/src/bundle/cpu-node-bundle/health-watcher.sh" "$bundle_ctx/"
  # bundle tar
  cp "$artifact_tar" "$bundle_ctx/bundle/"
  # offline fluent-bit assets
@ -645,12 +636,10 @@ if [[ "$build_core" == true ]]; then

  echo ""

-  if [[ "$need_bind_image" == true ]]; then
-    if build_image "BIND9" "src/bind/build/Dockerfile" "argus-bind9:${DEFAULT_IMAGE_TAG}"; then
-      images_built+=("argus-bind9:${DEFAULT_IMAGE_TAG}")
-    else
-      build_failed=true
-    fi
+  if build_image "BIND9" "src/bind/build/Dockerfile" "argus-bind9:${DEFAULT_IMAGE_TAG}"; then
+    images_built+=("argus-bind9:${DEFAULT_IMAGE_TAG}")
+  else
+    build_failed=true
  fi
 fi

@ -687,25 +676,19 @@ if [[ "$build_metric" == true ]]; then
  echo "Building Metric module images..."

  metric_base_images=(
+    "ubuntu:22.04"
    "ubuntu/prometheus:3-24.04_stable"
    "grafana/grafana:11.1.0"
  )

-  if [[ "$need_metric_ftp" == true ]]; then
-    metric_base_images+=("ubuntu:22.04")
-  fi
-
  for base_image in "${metric_base_images[@]}"; do
    if ! pull_base_image "$base_image"; then
      build_failed=true
    fi
  done

-  metric_builds=()
-  if [[ "$need_metric_ftp" == true ]]; then
-    metric_builds+=("Metric FTP|src/metric/ftp/build/Dockerfile|argus-metric-ftp:${DEFAULT_IMAGE_TAG}|src/metric/ftp/build")
-  fi
-  metric_builds+=(
+  metric_builds=(
+    "Metric FTP|src/metric/ftp/build/Dockerfile|argus-metric-ftp:${DEFAULT_IMAGE_TAG}|src/metric/ftp/build"
    "Metric Prometheus|src/metric/prometheus/build/Dockerfile|argus-metric-prometheus:${DEFAULT_IMAGE_TAG}|src/metric/prometheus/build"
    "Metric Grafana|src/metric/grafana/build/Dockerfile|argus-metric-grafana:${DEFAULT_IMAGE_TAG}|src/metric/grafana/build"
  )
--- a/deployment_new/build/make_client_gpu_package.sh
+++ b/deployment_new/build/make_client_gpu_package.sh
@ -82,13 +82,16 @@ AGENT_USER=
 AGENT_INSTANCE=
 GPU_NODE_HOSTNAME=

-# Overlay network (should match server包 overlay)
-ARGUS_OVERLAY_NET=argus-sys-net
-
 # From cluster-info.env (server package output)
+BINDIP=
+FTPIP=
 SWARM_MANAGER_ADDR=
 SWARM_JOIN_TOKEN_WORKER=
 SWARM_JOIN_TOKEN_MANAGER=
+
+# FTP defaults
+FTP_USER=ftpuser
+FTP_PASSWORD=NASPlab1234!
 EOF

 # 4) Docs from deployment_new templates
--- a/deployment_new/build/make_server_package.sh
+++ b/deployment_new/build/make_server_package.sh
@ -33,9 +33,11 @@ if [[ -z "$VERSION" ]]; then VERSION="$(today_version)"; fi
 require_cmd docker tar gzip awk sed

 IMAGES=(
+  argus-bind9
  argus-master
  argus-elasticsearch
  argus-kibana
+  argus-metric-ftp
  argus-metric-prometheus
  argus-metric-grafana
  argus-alertmanager
@ -71,9 +73,11 @@ cat >"$ENV_EX" <<EOF
 PKG_VERSION=$VERSION

 # Image tags (can be overridden). Default to versioned tags
+BIND_IMAGE_TAG=argus-bind9:
 MASTER_IMAGE_TAG=argus-master:
 ES_IMAGE_TAG=argus-elasticsearch:
 KIBANA_IMAGE_TAG=argus-kibana:
+FTP_IMAGE_TAG=argus-metric-ftp:
 PROM_IMAGE_TAG=argus-metric-prometheus:
 GRAFANA_IMAGE_TAG=argus-metric-grafana:
 ALERT_IMAGE_TAG=argus-alertmanager:
@ -102,6 +106,10 @@ WEB_PROXY_PORT_8085=8085
 # Overlay network name
 ARGUS_OVERLAY_NET=argus-sys-net

+# FTP defaults
+FTP_USER=ftpuser
+FTP_PASSWORD=NASPlab1234!
+
 # UID/GID for volume ownership
 ARGUS_BUILD_UID=2133
 ARGUS_BUILD_GID=2015
@ -140,6 +148,7 @@ mkdir -p \
  "$STAGE/private/argus/metric/grafana/data/sessions" \
  "$STAGE/private/argus/metric/grafana/data/dashboards" \
  "$STAGE/private/argus/metric/grafana/config" \
+  "$STAGE/private/argus/metric/ftp" \
  "$STAGE/private/argus/alert/alertmanager" \
  "$STAGE/private/argus/log/elasticsearch" \
  "$STAGE/private/argus/log/kibana"
--- a/deployment_new/templates/client_gpu/compose/docker-compose.yml
+++ b/deployment_new/templates/client_gpu/compose/docker-compose.yml
@ -19,6 +19,10 @@ services:
      # Fluent Bit / 日志上报目标（固定域名）
      - ES_HOST=es.log.argus.com
      - ES_PORT=9200
+      - FTPIP=${FTPIP}
+      - BINDIP=${BINDIP}
+      - FTP_USER=${FTP_USER:-ftpuser}
+      - FTP_PASSWORD=${FTP_PASSWORD:-NASPlab1234!}
      - ARGUS_BUILD_UID=${ARGUS_BUILD_UID:-2133}
      - ARGUS_BUILD_GID=${ARGUS_BUILD_GID:-2015}
      - AGENT_ENV=${AGENT_ENV}
@ -27,10 +31,9 @@ services:
      - NVIDIA_VISIBLE_DEVICES=all
      - NVIDIA_DRIVER_CAPABILITIES=compute,utility
      - GPU_MODE=gpu
-    networks:
-      argus-sys-net:
-        aliases:
-          - ${AGENT_INSTANCE}.node.argus.com
+    dns:
+      - ${BINDIP}
+    networks: [argus-sys-net]
    volumes:
      - ../private/argus/agent:/private/argus/agent
      - ../logs/infer:/logs/infer
--- a/deployment_new/templates/client_gpu/docs/INSTALL_CLIENT_zh.md
+++ b/deployment_new/templates/client_gpu/docs/INSTALL_CLIENT_zh.md
@ -12,7 +12,7 @@
  su - argus -c 'id; docker ps >/dev/null && echo OK || echo NO_DOCKER_PERMISSION'
  ```
  后续解压与执行（config/install/uninstall）均使用 `argus` 账户进行。
- 从 Server 安装方拿到 `cluster-info.env`（包含 `SWARM_MANAGER_ADDR/SWARM_JOIN_TOKEN_*`；compose 架构下 BINDIP/FTPIP 不再使用）。
+- 从 Server 安装方拿到 `cluster-info.env`（包含 `SWARM_MANAGER_ADDR/BINDIP/FTPIP/SWARM_JOIN_TOKEN_*`）。

 ## 二、解包
 - `tar -xzf client_gpu_YYYYMMDD.tar.gz`
@ -28,13 +28,13 @@ cp /path/to/cluster-info.env ./   # 或 export CLUSTER_INFO=/abs/path/cluster-in
 脚本做了什么：
 - 读取 `cluster-info.env` 并 `docker swarm join`（幂等）；
 - 自动用 busybox 预热 external overlay `argus-sys-net`，等待最多 60s 直到本机可见；
- 生成/更新 `compose/.env`：填入 `SWARM_*`，并“保留你已填写的 AGENT_* 与 GPU_NODE_HOSTNAME”（不会覆盖）。
+- 生成/更新 `compose/.env`：填入 `BINDIP/FTPIP/SWARM_*`，并“保留你已填写的 AGENT_* 与 GPU_NODE_HOSTNAME”（不会覆盖）。

 看到什么才算成功：
 - 终端输出类似：`已预热 overlay=argus-sys-net 并生成 compose/.env；可执行 scripts/install.sh`；
 - `compose/.env` 至少包含：
  - `AGENT_ENV/AGENT_USER/AGENT_INSTANCE/GPU_NODE_HOSTNAME`（需要你提前填写）；
-  - `SWARM_MANAGER_ADDR/SWARM_JOIN_TOKEN_*`；
+  - `BINDIP/FTPIP/SWARM_MANAGER_ADDR/SWARM_JOIN_TOKEN_*`；
 - `NODE_GPU_BUNDLE_IMAGE_TAG=...:YYYYMMDD`。

 ### 日志映射（重要）
--- a/deployment_new/templates/client_gpu/scripts/config.sh
+++ b/deployment_new/templates/client_gpu/scripts/config.sh
@ -50,16 +50,18 @@ fi
 # 预热容器（worker 侧加入 overlay 以便本地可见）
 docker rm -f argus-net-warmup >/dev/null 2>&1 || true
 info "启动 warmup 容器加入 overlay: $NET_NAME"
-docker run -d --rm --name argus-net-warmup --network "$NET_NAME" busybox:latest sleep 600 >/dev/null 2>&1 || true
+docker run -d --rm --name argus-net-warmup --network "$NET_NAME" ${BINDIP:+--dns "$BINDIP"} busybox:latest sleep 600 >/dev/null 2>&1 || true
 for i in {1..60}; do docker network inspect "$NET_NAME" >/dev/null 2>&1 && { info "overlay 可见 (t=${i}s)"; break; }; sleep 1; done
 docker network inspect "$NET_NAME" >/dev/null 2>&1 || { err "预热后仍未看到 overlay: $NET_NAME；请确认 manager 已创建并网络可达"; exit 1; }

-# 通过 warmup 容器测试实际数据通路（alias → master）
-if ! docker exec argus-net-warmup sh -lc "ping -c 1 -W 2 master.argus.com >/dev/null 2>&1"; then
-  err "warmup 容器内无法通过别名访问 master.argus.com；请确认 server compose 已启动并加入 overlay $NET_NAME"
-  exit 1
+# 从 warmup 容器内测试连通性（必须能 ping 通 BINDIP 与 FTPIP）
+ping_ok(){ docker exec argus-net-warmup sh -lc "ping -c 1 -W 2 $1 >/dev/null 2>&1"; }
+if [[ -n "${BINDIP:-}" ]]; then
+  ping_ok "$BINDIP" || { err "容器内无法 ping 通 BINDIP=$BINDIP；请检查 overlay 与 Bind9 容器状态"; exit 1; }
+fi
+if [[ -n "${FTPIP:-}" ]]; then
+  ping_ok "$FTPIP" || { err "容器内无法 ping 通 FTPIP=$FTPIP；请检查 overlay 与 FTP 容器状态"; exit 1; }
 fi
-info "warmup 容器内可达 master.argus.com（Docker DNS + alias 正常）"

 # 生成/更新 .env（保留人工填写项，不覆盖已有键）
 if [[ ! -f "$ENV_OUT" ]]; then
@ -68,6 +70,8 @@ fi

 set_kv(){ local k="$1" v="$2"; if grep -q "^${k}=" "$ENV_OUT"; then sed -i -E "s#^${k}=.*#${k}=${v}#" "$ENV_OUT"; else echo "${k}=${v}" >> "$ENV_OUT"; fi }

+set_kv BINDIP "${BINDIP:-}"
+set_kv FTPIP "${FTPIP:-}"
 set_kv SWARM_MANAGER_ADDR "${SWARM_MANAGER_ADDR:-}"
 set_kv SWARM_JOIN_TOKEN_WORKER "${SWARM_JOIN_TOKEN_WORKER:-}"
 set_kv SWARM_JOIN_TOKEN_MANAGER "${SWARM_JOIN_TOKEN_MANAGER:-}"
--- a/deployment_new/templates/client_gpu/scripts/install.sh
+++ b/deployment_new/templates/client_gpu/scripts/install.sh
@ -26,24 +26,24 @@ set -a; source "$ENV_FILE"; set +a
 NET_NAME="${ARGUS_OVERLAY_NET:-argus-sys-net}"
 info "检查 overlay 网络可见性: $NET_NAME"
 if ! docker network inspect "$NET_NAME" >/dev/null 2>&1; then
-  # 如 Overlay 不可见，尝试用 busybox 预热（仅为确保 worker 节点已加入 overlay）
+  # 如 Overlay 不可见，尝试用 busybox 预热
  if ! docker image inspect busybox:latest >/dev/null 2>&1; then
    if [[ -f "$PKG_ROOT/images/busybox.tar" ]]; then docker load -i "$PKG_ROOT/images/busybox.tar"; else err "缺少 busybox 镜像（images/busybox.tar 或本地 busybox:latest）"; exit 1; fi
  fi
  docker rm -f argus-net-warmup >/dev/null 2>&1 || true
-  docker run -d --rm --name argus-net-warmup --network "$NET_NAME" busybox:latest sleep 600 >/dev/null 2>&1 || true
+  docker run -d --rm --name argus-net-warmup --network "$NET_NAME" ${BINDIP:+--dns "$BINDIP"} busybox:latest sleep 600 >/dev/null 2>&1 || true
  for i in {1..60}; do docker network inspect "$NET_NAME" >/dev/null 2>&1 && break; sleep 1; done
  docker network inspect "$NET_NAME" >/dev/null 2>&1 || { err "预热后仍未看到 overlay: $NET_NAME；请确认 manager 已创建并网络可达"; exit 1; }
  info "overlay 已可见（warmup=argus-net-warmup）"
 fi

-# 若本函数内重新创建了 warmup 容器，同样测试一次 alias 数据通路
-if docker ps --format '{{.Names}}' | grep -q '^argus-net-warmup$'; then
-  if ! docker exec argus-net-warmup sh -lc "ping -c 1 -W 2 master.argus.com >/dev/null 2>&1"; then
-    err "GPU install 阶段：warmup 容器内无法通过别名访问 master.argus.com；请检查 overlay $NET_NAME 与 server 状态"
-    exit 1
-  fi
-  info "GPU install 阶段：warmup 容器内可达 master.argus.com"
+# 容器内连通性检查：BINDIP 与 FTPIP 可达
+ping_ok(){ docker exec argus-net-warmup sh -lc "ping -c 1 -W 2 $1 >/dev/null 2>&1"; }
+if [[ -n "${BINDIP:-}" ]]; then
+  if ping_ok "$BINDIP"; then info "warmup 内可达 BINDIP=$BINDIP"; else err "容器内无法 ping 通 BINDIP=$BINDIP"; exit 1; fi
+fi
+if [[ -n "${FTPIP:-}" ]]; then
+  if ping_ok "$FTPIP"; then info "warmup 内可达 FTPIP=$FTPIP"; else err "容器内无法 ping 通 FTPIP=$FTPIP"; exit 1; fi
 fi

 # 导入 GPU bundle 镜像
--- a/deployment_new/templates/server/compose/docker-compose.yml
+++ b/deployment_new/templates/server/compose/docker-compose.yml
@ -5,9 +5,18 @@ networks:
    external: true

 services:
+  bind:
+    image: ${BIND_IMAGE_TAG:-argus-bind9:${PKG_VERSION}}
+    container_name: argus-bind-sys
+    networks: [argus-sys-net]
+    volumes:
+      - ../private:/private
+    restart: unless-stopped
+
  master:
    image: ${MASTER_IMAGE_TAG:-argus-master:${PKG_VERSION}}
    container_name: argus-master-sys
+    depends_on: [bind]
    environment:
      - OFFLINE_THRESHOLD_SECONDS=6
      - ONLINE_THRESHOLD_SECONDS=2
@ -20,10 +29,7 @@ services:
      - ../private/argus/master:/private/argus/master
      - ../private/argus/metric/prometheus:/private/argus/metric/prometheus
      - ../private/argus/etc:/private/argus/etc
-    networks:
-      argus-sys-net:
-        aliases:
-          - master.argus.com
+    networks: [argus-sys-net]
    restart: unless-stopped

  es:
@ -41,10 +47,7 @@ services:
    ports:
      - "${ES_HTTP_PORT:-9200}:9200"
    restart: unless-stopped
-    networks:
-      argus-sys-net:
-        aliases:
-          - es.log.argus.com
+    networks: [argus-sys-net]

  kibana:
    image: ${KIBANA_IMAGE_TAG:-argus-kibana:${PKG_VERSION}}
@ -60,10 +63,27 @@ services:
    ports:
      - "${KIBANA_PORT:-5601}:5601"
    restart: unless-stopped
-    networks:
-      argus-sys-net:
-        aliases:
-          - kibana.log.argus.com
+    networks: [argus-sys-net]
+
+  ftp:
+    image: ${FTP_IMAGE_TAG:-argus-metric-ftp:${PKG_VERSION}}
+    container_name: argus-ftp
+    restart: unless-stopped
+    environment:
+      - TZ=Asia/Shanghai
+      - FTP_BASE_PATH=/private/argus/ftp
+      - FTP_PASSWORD=${FTP_PASSWORD:-NASPlab1234!}
+      - DOMAIN=${FTP_DOMAIN:-ftp.metric.argus.com}
+      - ARGUS_BUILD_UID=${ARGUS_BUILD_UID:-2133}
+      - ARGUS_BUILD_GID=${ARGUS_BUILD_GID:-2015}
+    ports:
+      - "${FTP_PORT:-21}:21"
+      - "${FTP_DATA_PORT:-20}:20"
+      - "${FTP_PASSIVE_HOST_RANGE:-21100-21110}:21100-21110"
+    volumes:
+      - ../private/argus/metric/ftp:/private/argus/ftp
+      - ../private/argus/etc:/private/argus/etc
+    networks: [argus-sys-net]

  prometheus:
    image: ${PROM_IMAGE_TAG:-argus-metric-prometheus:${PKG_VERSION}}
@ -79,10 +99,7 @@ services:
    volumes:
      - ../private/argus/metric/prometheus:/private/argus/metric/prometheus
      - ../private/argus/etc:/private/argus/etc
-    networks:
-      argus-sys-net:
-        aliases:
-          - prom.metric.argus.com
+    networks: [argus-sys-net]

  grafana:
    image: ${GRAFANA_IMAGE_TAG:-argus-metric-grafana:${PKG_VERSION}}
@ -105,10 +122,7 @@ services:
      - ../private/argus/metric/grafana:/private/argus/metric/grafana
      - ../private/argus/etc:/private/argus/etc
    depends_on: [prometheus]
-    networks:
-      argus-sys-net:
-        aliases:
-          - grafana.metric.argus.com
+    networks: [argus-sys-net]

  alertmanager:
    image: ${ALERT_IMAGE_TAG:-argus-alertmanager:${PKG_VERSION}}
@ -119,10 +133,7 @@ services:
    volumes:
      - ../private/argus/etc:/private/argus/etc
      - ../private/argus/alert/alertmanager:/private/argus/alert/alertmanager
-    networks:
-      argus-sys-net:
-        aliases:
-          - alertmanager.alert.argus.com
+    networks: [argus-sys-net]
    ports:
      - "${ALERTMANAGER_PORT:-9093}:9093"
    restart: unless-stopped
@ -140,25 +151,19 @@ services:
      - EXTERNAL_KIBANA_PORT=${WEB_PROXY_PORT_8083:-8083}
    volumes:
      - ../private/argus/etc:/private/argus/etc
-    networks:
-      argus-sys-net:
-        aliases:
-          - web.argus.com
+    networks: [argus-sys-net]
    restart: unless-stopped

  web-proxy:
    image: ${WEB_PROXY_IMAGE_TAG:-argus-web-proxy:${PKG_VERSION}}
    container_name: argus-web-proxy
-    depends_on: [master, grafana, prometheus, kibana, alertmanager]
+    depends_on: [bind, master, grafana, prometheus, kibana, alertmanager]
    environment:
      - ARGUS_BUILD_UID=${ARGUS_BUILD_UID:-2133}
      - ARGUS_BUILD_GID=${ARGUS_BUILD_GID:-2015}
    volumes:
      - ../private/argus/etc:/private/argus/etc
-    networks:
-      argus-sys-net:
-        aliases:
-          - proxy.argus.com
+    networks: [argus-sys-net]
    ports:
      - "${WEB_PROXY_PORT_8080:-8080}:8080"
      - "${WEB_PROXY_PORT_8081:-8081}:8081"
@ -167,3 +172,4 @@ services:
      - "${WEB_PROXY_PORT_8084:-8084}:8084"
      - "${WEB_PROXY_PORT_8085:-8085}:8085"
    restart: unless-stopped
+
--- a/deployment_new/templates/server/docs/INSTALL_SERVER_zh.md
+++ b/deployment_new/templates/server/docs/INSTALL_SERVER_zh.md
@ -44,7 +44,7 @@ export SWARM_MANAGER_ADDR=<本机管理IP>
 脚本做了什么：
 - 检查依赖与磁盘空间；
 - 自动从“端口 20000 起”分配所有服务端口，确保“系统未占用”且“彼此不冲突”；
- 写入 `compose/.env`（包含端口、镜像 tag、overlay 名称与 UID/GID 等）；
+- 写入 `compose/.env`（包含端口、镜像 tag、FTP 账号、overlay 名称等）；
 - 将当前执行账户的 UID/GID 写入 `ARGUS_BUILD_UID/GID`（若主组名是 docker，会改用“与用户名同名的组”的 GID，避免拿到 docker 组 999）；
 - 更新/追加 `cluster-info.env` 中的 `SWARM_MANAGER_ADDR`（不会覆盖其他键）。

@ -70,8 +70,8 @@ export SWARM_MANAGER_ADDR=<本机管理IP>
 - `docker compose up -d` 启动服务；
 - 等待“六项就绪”：
  - Master `/readyz`=200、ES `/_cluster/health`=200、Prometheus TCP 可达、Grafana `/api/health`=200、Alertmanager `/api/v2/status`=200、Kibana `/api/status` level=available；
- 校验 Docker DNS + overlay alias：在 `argus-web-proxy` 内通过 `getent hosts` 与 `curl` 检查 `master.argus.com`、`grafana.metric.argus.com` 等域名连通性；
- 写出 `cluster-info.env`（含 `SWARM_JOIN_TOKEN_{WORKER,MANAGER}/SWARM_MANAGER_ADDR`；compose 架构下不再依赖 BINDIP/FTPIP）；
+- 将各服务 overlay IP 写入 `private/argus/etc/<域名>`，Reload Bind9 与 Nginx；
+- 写出 `cluster-info.env`（含 `BINDIP/FTPIP/SWARM_JOIN_TOKEN_{WORKER,MANAGER}/SWARM_MANAGER_ADDR`）；
 - 生成 `安装报告_YYYYMMDD-HHMMSS.md`（端口、健康检查摘要与提示）。

 看到什么才算成功：
@ -79,14 +79,14 @@ export SWARM_MANAGER_ADDR=<本机管理IP>
 - `安装报告_…md` 中各项 HTTP 检查为 200/available；
 - `cluster-info.env` 包含五个关键键：
  - `SWARM_MANAGER_ADDR=...`
-  - `SWARM_MANAGER_ADDR=...` `SWARM_JOIN_TOKEN_*=...`
+  - `BINDIP=10.x.x.x` `FTPIP=10.x.x.x`
  - `SWARM_JOIN_TOKEN_WORKER=SWMTKN-...`
  - `SWARM_JOIN_TOKEN_MANAGER=SWMTKN-...`

 ## 五、健康自检与常用操作
 - 健康自检：`./scripts/selfcheck.sh`
  - 期望输出：`selfcheck OK -> logs/selfcheck.json`
-  - 文件 `logs/selfcheck.json` 中 `overlay_net/es/kibana/master_readyz/prometheus/grafana/alertmanager/web_proxy_cors` 为 true。
+  - 文件 `logs/selfcheck.json` 中 `overlay_net/es/kibana/master_readyz/ftp_share_writable/prometheus/grafana/alertmanager/web_proxy_cors` 为 true。
 - 状态：`./scripts/status.sh`（相当于 `docker compose ps`）。
 - 诊断：`./scripts/diagnose.sh`（收集容器/HTTP/CORS/ES 细节，输出到 `logs/diagnose_*.log`）。
 - 卸载：`./scripts/uninstall.sh`（Compose down）。
@ -97,6 +97,6 @@ export SWARM_MANAGER_ADDR=<本机管理IP>
 - 对方在 Client 机器的包根放置该文件（或设置 `CLUSTER_INFO=/绝对路径`）即可。

 ## 七、故障排查快览
- Proxy 502 或 8080 连接复位：通常是 overlay alias 未生效或 web-proxy 尚未解析到其它服务；重跑 `install.sh`（会重启栈并在容器内校验 DNS），或查看 `logs/diagnose_error.log`。
+- Proxy 502 或 8080 连接复位：多因 Bind 域名未更新到 overlay IP；重跑 `install.sh`（会写入私有域名文件并 reload）或查看 `logs/diagnose_error.log`。
 - Kibana 不 available：等待 1–2 分钟、查看 `argus-kibana-sys` 日志；
 - cluster-info.env 的 SWARM_MANAGER_ADDR 为空：重新 `export SWARM_MANAGER_ADDR=<IP>; ./scripts/config.sh` 或 `./scripts/install.sh`（会回读 `.env` 补写）。
--- a/deployment_new/templates/server/scripts/config.sh
+++ b/deployment_new/templates/server/scripts/config.sh
@ -70,6 +70,9 @@ done
 info "已写入 compose/.env 的端口配置"
 # 覆盖/补充 Overlay 名称
 grep -q '^ARGUS_OVERLAY_NET=' "$ENV_OUT" || echo 'ARGUS_OVERLAY_NET=argus-sys-net' >> "$ENV_OUT"
+# FTP 默认
+grep -q '^FTP_USER=' "$ENV_OUT" || echo 'FTP_USER=ftpuser' >> "$ENV_OUT"
+grep -q '^FTP_PASSWORD=' "$ENV_OUT" || echo 'FTP_PASSWORD=NASPlab1234!' >> "$ENV_OUT"
 # 以当前执行账户 UID/GID 写入（避免误选 docker 组）
 RUID=$(id -u)
 PRIMARY_GID=$(id -g)
--- a/deployment_new/templates/server/scripts/diagnose.sh
+++ b/deployment_new/templates/server/scripts/diagnose.sh
@ -40,9 +40,11 @@ svc() {
  fi
 }

+svc bind argus-bind-sys
 svc master argus-master-sys
 svc es argus-es-sys
 svc kibana argus-kibana-sys
+svc ftp argus-ftp
 svc prometheus argus-prometheus
 svc grafana argus-grafana
 svc alertmanager argus-alertmanager
@ -82,6 +84,9 @@ logd "HTTP (web-proxy): master.readyz=$(docker exec argus-web-proxy sh -lc \"cur
 logd "HTTP (web-proxy): es.health=$(docker exec argus-web-proxy sh -lc \"curl -s -o /dev/null -w '%{http_code}' http://es.log.argus.com:9200/_cluster/health\" 2>/dev/null || echo 000)"
 logd "HTTP (web-proxy): kibana.status=$(docker exec argus-web-proxy sh -lc \"curl -s -o /dev/null -w '%{http_code}' http://kibana.log.argus.com:5601/api/status\" 2>/dev/null || echo 000)"

+section FTP-SHARE
+docker exec argus-ftp sh -lc 'ls -ld /private/argus/ftp /private/argus/ftp/share; test -w /private/argus/ftp/share && echo "write:OK" || echo "write:FAIL"' >> "$DETAILS" 2>&1 || true
+
 section SYSTEM
 logd "uname -a:"; uname -a >> "$DETAILS"
 logd "docker version:"; docker version --format '{{.Server.Version}}' >> "$DETAILS" 2>&1 || true
--- a/deployment_new/templates/server/scripts/install.sh
+++ b/deployment_new/templates/server/scripts/install.sh
@ -88,15 +88,23 @@ for i in $(seq 1 "$RETRIES"); do
 done
 [[ $ok -ge 6 ]] || err "部分服务未就绪（可稍后重试 selfcheck）"

+# Resolve overlay IPs
+bind_c=argus-bind-sys; ftp_c=argus-ftp
+BINDIP=$(docker inspect -f '{{ (index .NetworkSettings.Networks "'$NET_NAME'").IPAddress }}' "$bind_c" 2>/dev/null || true)
+FTPIP=$(docker inspect -f '{{ (index .NetworkSettings.Networks "'$NET_NAME'").IPAddress }}' "$ftp_c" 2>/dev/null || true)
+info "解析 overlay IP: BINDIP=${BINDIP:-<empty>} FTPIP=${FTPIP:-<empty>}"
+
 # Swarm join tokens
 TOKEN_WORKER=$(docker swarm join-token -q worker 2>/dev/null || echo "")
 TOKEN_MANAGER=$(docker swarm join-token -q manager 2>/dev/null || echo "")

-# cluster-info.env（compose 场景下不再依赖 BINDIP/FTPIP）
+# cluster-info.env
 CI="$PKG_ROOT/cluster-info.env"
-info "写入 cluster-info.env (manager/token)"
+info "写入 cluster-info.env (manager/token/IP)"
 {
  echo "SWARM_MANAGER_ADDR=${SWARM_MANAGER_ADDR:-}"
+  echo "BINDIP=${BINDIP:-}"
+  echo "FTPIP=${FTPIP:-}"
  echo "SWARM_JOIN_TOKEN_WORKER=${TOKEN_WORKER:-}"
  echo "SWARM_JOIN_TOKEN_MANAGER=${TOKEN_MANAGER:-}"
 } > "$CI"
@ -123,6 +131,10 @@ RPT="$PKG_ROOT/安装报告_${ts}.md"
  echo "- JOIN_TOKEN_WORKER=${TOKEN_WORKER:-}"
  echo "- JOIN_TOKEN_MANAGER=${TOKEN_MANAGER:-}"
  echo
+  echo "## Overlay IPs"
+  echo "- BINDIP=${BINDIP:-}"
+  echo "- FTPIP=${FTPIP:-}"
+  echo
  echo "## 健康检查（简要）"
  echo "- master/readyz=$(code http://127.0.0.1:${MASTER_PORT:-32300}/readyz)"
  echo "- es/_cluster/health=$(code http://127.0.0.1:${ES_HTTP_PORT:-9200}/_cluster/health)"
@ -134,4 +146,30 @@ RPT="$PKG_ROOT/安装报告_${ts}.md"
 info "已生成报告: $RPT"

 info "安装完成。可将 cluster-info.env 分发给 Client-GPU 安装方。"
+
+# 写入域名→overlay IP 并热更新 Bind/Nginx
+ETC_DIR="$PKG_ROOT/private/argus/etc"; mkdir -p "$ETC_DIR"
+declare -A MAP
+MAP[web-frontend]=web.argus.com
+MAP[argus-grafana]=grafana.metric.argus.com
+MAP[argus-prometheus]=prom.metric.argus.com
+MAP[argus-kibana-sys]=kibana.log.argus.com
+MAP[argus-alertmanager]=alertmanager.alert.argus.com
+MAP[argus-master-sys]=master.argus.com
+changed=0
+for cname in "${!MAP[@]}"; do
+  domain="${MAP[$cname]}"; fpath="$ETC_DIR/$domain"
+  ip=$(docker inspect -f '{{ (index .NetworkSettings.Networks "'$NET_NAME'").IPAddress }}' "$cname" 2>/dev/null || true)
+  [[ -z "$ip" ]] && { echo "[DNS-FIX][WARN] $domain: container $cname no overlay IP yet"; continue; }
+  cur=$(cat "$fpath" 2>/dev/null || echo "")
+  if [[ "$cur" != "$ip" ]]; then
+    echo "$ip" > "$fpath"; echo "[DNS-FIX][SET] $domain = $ip (was: ${cur:-<empty>})"; changed=1
+  else
+    echo "[DNS-FIX][OK] $domain already $ip"
+  fi
+done
+if [[ $changed -eq 1 ]]; then
+  docker exec argus-bind-sys /usr/local/bin/reload-bind9.sh >/dev/null 2>&1 || docker exec argus-bind-sys rndc reload >/dev/null 2>&1 || true
+  sleep 1
+fi
 docker exec argus-web-proxy nginx -t >/dev/null 2>&1 && docker exec argus-web-proxy nginx -s reload >/dev/null 2>&1 || true
--- a/deployment_new/templates/server/scripts/selfcheck.sh
+++ b/deployment_new/templates/server/scripts/selfcheck.sh
@ -40,6 +40,11 @@ fi
 log "checking Master"
 [[ $(code_for "http://localhost:${MASTER_PORT:-32300}/readyz") == 200 ]] || ok=0

+log "checking FTP"
+if docker ps --format '{{.Names}}' | grep -q '^argus-ftp$'; then
+  docker exec argus-ftp sh -lc 'test -w /private/argus/ftp/share' >/dev/null 2>&1 || ok=0
+else ok=0; fi
+
 log "checking Prometheus"
 wait_http "http://localhost:${PROMETHEUS_PORT:-9090}/-/ready" 60 || ok=0

@ -64,6 +69,7 @@ cat > "$tmp" <<JSON
  "es": true,
  "kibana": $kb_ok,
  "master_readyz": true,
+  "ftp_share_writable": true,
  "prometheus": true,
  "grafana": $gf_ok,
  "alertmanager": true,
--- a/src/bundle/cpu-node-bundle/Dockerfile
+++ b/src/bundle/cpu-node-bundle/Dockerfile
@ -19,15 +19,15 @@ WORKDIR /

 # Offline fluent-bit assets and bundle tarball are staged by the build script
 COPY node-bootstrap.sh /usr/local/bin/node-bootstrap.sh
-COPY health-watcher.sh /usr/local/bin/health-watcher.sh
 COPY private/start-fluent-bit.sh /private/start-fluent-bit.sh
 COPY private/etc /private/etc
 COPY private/packages /private/packages
 COPY bundle/ /bundle/

-RUN chmod +x /usr/local/bin/node-bootstrap.sh /usr/local/bin/health-watcher.sh /private/start-fluent-bit.sh || true; \
+RUN chmod +x /usr/local/bin/node-bootstrap.sh /private/start-fluent-bit.sh || true; \
    mkdir -p /logs/train /logs/infer /buffers /opt/argus-metric; \
    if [ "${ARGUS_LOGS_WORLD_WRITABLE}" = "1" ]; then chmod 1777 /logs/train /logs/infer || true; else chmod 755 /logs/train /logs/infer || true; fi; \
    chmod 770 /buffers || true

 ENTRYPOINT ["/usr/local/bin/node-bootstrap.sh"]
+
--- a/src/bundle/cpu-node-bundle/health-watcher.sh
+++ b/src/bundle/cpu-node-bundle/health-watcher.sh
@ -1,59 +0,0 @@
-#!/usr/bin/env bash
-set -euo pipefail
-
-# health-watcher.sh (CPU node bundle)
-# 周期执行 check_health.sh 与 restart_unhealthy.sh，用于节点容器内自愈。
-
-INSTALL_ROOT="/opt/argus-metric"
-INTERVAL="${HEALTH_WATCH_INTERVAL:-60}"
-VER_DIR="${1:-}"
-
-log(){ echo "[HEALTH-WATCHER] $*"; }
-
-resolve_ver_dir() {
-  local dir=""
-  if [[ -n "${VER_DIR:-}" && -d "$VER_DIR" ]]; then
-    dir="$VER_DIR"
-  elif [[ -L "$INSTALL_ROOT/current" ]]; then
-    dir="$(readlink -f "$INSTALL_ROOT/current" 2>/dev/null || true)"
-  fi
-  if [[ -z "$dir" ]]; then
-    dir="$(ls -d "$INSTALL_ROOT"/versions/* 2>/dev/null | sort -V | tail -n1 || true)"
-  fi
-  echo "$dir"
-}
-
-main() {
-  log "starting with interval=${INTERVAL}s"
-  local dir
-  dir="$(resolve_ver_dir)"
-  if [[ -z "$dir" || ! -d "$dir" ]]; then
-    log "no valid install dir found under $INSTALL_ROOT; exiting"
-    exit 0
-  fi
-
-  local chk="$dir/check_health.sh"
-  local rst="$dir/restart_unhealthy.sh"
-
-  if [[ ! -x "$chk" && ! -x "$rst" ]]; then
-    log "neither check_health.sh nor restart_unhealthy.sh is executable under $dir; exiting"
-    exit 0
-  fi
-
-  log "watching install dir: $dir"
-
-  while :; do
-    if [[ -x "$chk" ]]; then
-      log "running check_health.sh"
-      "$chk" >> "$dir/.health_check.watch.log" 2>&1 || log "check_health.sh reported issues (see .health_check.watch.log)"
-    fi
-    if [[ -x "$rst" ]]; then
-      log "running restart_unhealthy.sh"
-      "$rst" >> "$dir/.restart.watch.log" 2>&1 || log "restart_unhealthy.sh reported issues (see .restart.watch.log)"
-    fi
-    sleep "$INTERVAL"
-  done
-}
-
-main "$@"
-
--- a/src/bundle/cpu-node-bundle/node-bootstrap.sh
+++ b/src/bundle/cpu-node-bundle/node-bootstrap.sh
@ -119,13 +119,6 @@ for i in {1..60}; do
  sleep 2
 done

-# 6) spawn health watcher (best-effort, non-blocking)
-if command -v /usr/local/bin/health-watcher.sh >/dev/null 2>&1; then
-  echo "[BOOT] starting health watcher for $ver_dir"
-  setsid /usr/local/bin/health-watcher.sh "${ver_dir:-}" >/var/log/health-watcher.log 2>&1 < /dev/null || true &
-else
-  echo "[BOOT][WARN] health-watcher.sh not found; skip health watcher"
-fi
-
 echo "[BOOT] ready; entering sleep"
 exec sleep infinity
+
--- a/src/bundle/gpu-node-bundle/Dockerfile
+++ b/src/bundle/gpu-node-bundle/Dockerfile
@ -31,12 +31,11 @@ WORKDIR /
 # Expect staged build context to provide these directories/files
 COPY bundle/ /bundle/
 COPY node-bootstrap.sh /usr/local/bin/node-bootstrap.sh
-COPY health-watcher.sh /usr/local/bin/health-watcher.sh
 COPY private/start-fluent-bit.sh /private/start-fluent-bit.sh
 COPY private/etc /private/etc
 COPY private/packages /private/packages

-RUN chmod +x /usr/local/bin/node-bootstrap.sh /usr/local/bin/health-watcher.sh /private/start-fluent-bit.sh || true; \
+RUN chmod +x /usr/local/bin/node-bootstrap.sh /private/start-fluent-bit.sh || true; \
    mkdir -p /logs/train /logs/infer /buffers /opt/argus-metric; \
    chmod 1777 /logs/train /logs/infer || true; \
    chmod 770 /buffers || true
--- a/src/bundle/gpu-node-bundle/health-watcher.sh
+++ b/src/bundle/gpu-node-bundle/health-watcher.sh
@ -1,59 +0,0 @@
-#!/usr/bin/env bash
-set -euo pipefail
-
-# health-watcher.sh (GPU bundle)
-# 周期执行 check_health.sh 与 restart_unhealthy.sh，用于 GPU 节点容器内自愈。
-
-INSTALL_ROOT="/opt/argus-metric"
-INTERVAL="${HEALTH_WATCH_INTERVAL:-60}"
-VER_DIR="${1:-}"
-
-log(){ echo "[HEALTH-WATCHER] $*"; }
-
-resolve_ver_dir() {
-  local dir=""
-  if [[ -n "${VER_DIR:-}" && -d "$VER_DIR" ]]; then
-    dir="$VER_DIR"
-  elif [[ -L "$INSTALL_ROOT/current" ]]; then
-    dir="$(readlink -f "$INSTALL_ROOT/current" 2>/dev/null || true)"
-  fi
-  if [[ -z "$dir" ]]; then
-    dir="$(ls -d "$INSTALL_ROOT"/versions/* 2>/dev/null | sort -V | tail -n1 || true)"
-  fi
-  echo "$dir"
-}
-
-main() {
-  log "starting with interval=${INTERVAL}s"
-  local dir
-  dir="$(resolve_ver_dir)"
-  if [[ -z "$dir" || ! -d "$dir" ]]; then
-    log "no valid install dir found under $INSTALL_ROOT; exiting"
-    exit 0
-  fi
-
-  local chk="$dir/check_health.sh"
-  local rst="$dir/restart_unhealthy.sh"
-
-  if [[ ! -x "$chk" && ! -x "$rst" ]]; then
-    log "neither check_health.sh nor restart_unhealthy.sh is executable under $dir; exiting"
-    exit 0
-  fi
-
-  log "watching install dir: $dir"
-
-  while :; do
-    if [[ -x "$chk" ]]; then
-      log "running check_health.sh"
-      "$chk" >> "$dir/.health_check.watch.log" 2>&1 || log "check_health.sh reported issues (see .health_check.watch.log)"
-    fi
-    if [[ -x "$rst" ]]; then
-      log "running restart_unhealthy.sh"
-      "$rst" >> "$dir/.restart.watch.log" 2>&1 || log "restart_unhealthy.sh reported issues (see .restart.watch.log)"
-    fi
-    sleep "$INTERVAL"
-  done
-}
-
-main "$@"
-
--- a/src/bundle/gpu-node-bundle/node-bootstrap.sh
+++ b/src/bundle/gpu-node-bundle/node-bootstrap.sh
@ -123,13 +123,5 @@ for i in {1..60}; do
  sleep 2
 done

-# 6) spawn health watcher (best-effort, non-blocking)
-if command -v /usr/local/bin/health-watcher.sh >/dev/null 2>&1; then
-  echo "[BOOT] starting health watcher for $ver_dir"
-  setsid /usr/local/bin/health-watcher.sh "${ver_dir:-}" >/var/log/health-watcher.log 2>&1 < /dev/null || true &
-else
-  echo "[BOOT][WARN] health-watcher.sh not found; skip health watcher"
-fi
-
 echo "[BOOT] ready; entering sleep"
 exec sleep infinity
--- a/src/sys/build/node-bundle/Dockerfile
+++ b/src/sys/build/node-bundle/Dockerfile
@ -11,7 +11,6 @@ WORKDIR /
 # bundle files are provided at build time into ./bundle in build context
 COPY bundle/ /bundle/
 COPY node-bootstrap.sh /usr/local/bin/node-bootstrap.sh
-COPY health-watcher.sh /usr/local/bin/health-watcher.sh
-RUN chmod +x /usr/local/bin/node-bootstrap.sh /usr/local/bin/health-watcher.sh
+RUN chmod +x /usr/local/bin/node-bootstrap.sh

 ENTRYPOINT ["/usr/local/bin/node-bootstrap.sh"]
--- a/src/sys/build/node-bundle/health-watcher.sh
+++ b/src/sys/build/node-bundle/health-watcher.sh
@ -1,59 +0,0 @@
-#!/usr/bin/env bash
-set -euo pipefail
-
-# health-watcher.sh
-# 周期执行 check_health.sh 与 restart_unhealthy.sh，用于容器内节点自愈。
-
-INSTALL_ROOT="/opt/argus-metric"
-INTERVAL="${HEALTH_WATCH_INTERVAL:-60}"
-VER_DIR="${1:-}"
-
-log(){ echo "[HEALTH-WATCHER] $*"; }
-
-resolve_ver_dir() {
-  local dir=""
-  if [[ -n "${VER_DIR:-}" && -d "$VER_DIR" ]]; then
-    dir="$VER_DIR"
-  elif [[ -L "$INSTALL_ROOT/current" ]]; then
-    dir="$(readlink -f "$INSTALL_ROOT/current" 2>/dev/null || true)"
-  fi
-  if [[ -z "$dir" ]]; then
-    dir="$(ls -d "$INSTALL_ROOT"/versions/* 2>/dev/null | sort -V | tail -n1 || true)"
-  fi
-  echo "$dir"
-}
-
-main() {
-  log "starting with interval=${INTERVAL}s"
-  local dir
-  dir="$(resolve_ver_dir)"
-  if [[ -z "$dir" || ! -d "$dir" ]]; then
-    log "no valid install dir found under $INSTALL_ROOT; exiting"
-    exit 0
-  fi
-
-  local chk="$dir/check_health.sh"
-  local rst="$dir/restart_unhealthy.sh"
-
-  if [[ ! -x "$chk" && ! -x "$rst" ]]; then
-    log "neither check_health.sh nor restart_unhealthy.sh is executable under $dir; exiting"
-    exit 0
-  fi
-
-  log "watching install dir: $dir"
-
-  while :; do
-    if [[ -x "$chk" ]]; then
-      log "running check_health.sh"
-      "$chk" >> "$dir/.health_check.watch.log" 2>&1 || log "check_health.sh reported issues (see .health_check.watch.log)"
-    fi
-    if [[ -x "$rst" ]]; then
-      log "running restart_unhealthy.sh"
-      "$rst" >> "$dir/.restart.watch.log" 2>&1 || log "restart_unhealthy.sh reported issues (see .restart.watch.log)"
-    fi
-    sleep "$INTERVAL"
-  done
-}
-
-main "$@"
-
--- a/src/sys/build/node-bundle/node-bootstrap.sh
+++ b/src/sys/build/node-bundle/node-bootstrap.sh
@ -115,21 +115,5 @@ for i in {1..60}; do
  sleep 2
 done

-# 7) spawn health watcher (best-effort, non-blocking)
-ver_dir=""
-if [[ -L "$INSTALL_DIR/current" ]]; then
-  ver_dir="$(readlink -f "$INSTALL_DIR/current" 2>/dev/null || true)"
-fi
-if [[ -z "$ver_dir" ]]; then
-  ver_dir="$(ls -d "$INSTALL_DIR"/versions/* 2>/dev/null | sort -V | tail -n1 || true)"
-fi
-
-if command -v /usr/local/bin/health-watcher.sh >/dev/null 2>&1; then
-  echo "[BOOT] starting health watcher for $ver_dir"
-  setsid /usr/local/bin/health-watcher.sh "${ver_dir:-}" >/var/log/health-watcher.log 2>&1 < /dev/null || true &
-else
-  echo "[BOOT][WARN] health-watcher.sh not found; skip health watcher"
-fi
-
 echo "[BOOT] ready; entering sleep"
 exec sleep infinity
--- a/src/sys/swarm_tests/README.md
+++ b/src/sys/swarm_tests/README.md
@ -4,7 +4,7 @@

 ## 先决条件
 - Docker Engine 已启用 Swarm（脚本会自动 `swarm init` 单机模式）。
- 已构建并加载以下镜像：`argus-master:latest`、`argus-elasticsearch:latest`、`argus-kibana:latest`、`argus-metric-prometheus:latest`、`argus-metric-grafana:latest`、`argus-alertmanager:latest`、`argus-web-frontend:latest`、`argus-web-proxy:latest`、以及节点镜像 `argus-sys-metric-test-node-bundle:latest`（见下文）。
+- 已构建并加载以下镜像：`argus-bind9:latest`、`argus-master:latest`、`argus-elasticsearch:latest`、`argus-kibana:latest`、`argus-metric-ftp:latest`、`argus-metric-prometheus:latest`、`argus-metric-grafana:latest`、`argus-alertmanager:latest`、`argus-web-frontend:latest`、`argus-web-proxy:latest`、以及节点镜像 `argus-sys-metric-test-node-bundle:latest`（见下文）。
 - 本地 `UID/GID` 建议通过 `configs/build_user.local.conf` 指定，脚本会读取：
  - `UID=1000`\n`GID=1000`（示例）。

@ -24,7 +24,7 @@ cp .env.example .env

 bash scripts/00_bootstrap.sh
 bash scripts/01_server_up.sh
-bash scripts/02_wait_ready.sh   # 写 MASTER_ENDPOINT/AGENT_* 到 .env.nodes
+bash scripts/02_wait_ready.sh   # 输出 BINDIP/FTPIP 到 .env.nodes
 bash scripts/03_nodes_up.sh
 bash scripts/04_metric_verify.sh
 ```
@ -38,7 +38,7 @@ bash scripts/99_down.sh
 ## 说明与注意事项
 - `00_bootstrap.sh`：先加载 `scripts/common/build_user.sh`，打印并写入 `.env` 中的 `ARGUS_BUILD_UID/GID`，再准备 `private-server/` 与 `private-nodes/` 目录，并 `chown` 到对应 UID/GID。
 - `01_server_up.sh`：启动服务端 compose。可用 `SWARM_FIX_PERMS=1` 打开“容器内 chmod + supervisor 重启”的兜底逻辑，默认关闭。
- `02_wait_ready.sh`：等待 Master/ES/Prom/Grafana 就绪（Kibana 可延迟），随后写入 `.env.nodes` 的 `MASTER_ENDPOINT/AGENT_*`，供节点 compose 使用（DNS 由 Docker 自带服务负责，不再依赖 BINDIP/FTPIP）。
+- `02_wait_ready.sh`：等待 Master/ES/Prom/Grafana 就绪（Kibana 可延迟），随后解析 overlay IP，写入 `.env.nodes` 的 `BINDIP/FTPIP`，供节点 compose 使用。
 - `03_nodes_up.sh`：启动单节点容器（bundle 版）。容器内 `node-bootstrap.sh` 优先本地安装，成功后执行健康检查并等待 `/private/argus/agent/<hostname>/node.json` 出现。
 - `04_metric_verify.sh`：在本套件内执行详细校验（不再直接调用 tests 脚本）：
  - Grafana `/api/health`（database=ok）
--- a/src/sys/swarm_tests/docker-compose.gpu-node.yml
+++ b/src/sys/swarm_tests/docker-compose.gpu-node.yml
@ -16,6 +16,10 @@ services:
      - TZ=Asia/Shanghai
      - DEBIAN_FRONTEND=noninteractive
      - MASTER_ENDPOINT=${MASTER_ENDPOINT:-http://master.argus.com:3000}
+      - FTPIP=${FTPIP}
+      - BINDIP=${BINDIP}
+      - FTP_USER=${FTP_USER:-ftpuser}
+      - FTP_PASSWORD=${FTP_PASSWORD:-ZGClab1234!}
      - ARGUS_BUILD_UID=${ARGUS_BUILD_UID:-2133}
      - ARGUS_BUILD_GID=${ARGUS_BUILD_GID:-2015}
      - AGENT_ENV=${AGENT_ENV:-dev2}
@ -24,10 +28,9 @@ services:
      - NVIDIA_VISIBLE_DEVICES=all
      - NVIDIA_DRIVER_CAPABILITIES=compute,utility
      - GPU_MODE=gpu
-    networks:
-      argus-sys-net:
-        aliases:
-          - ${AGENT_INSTANCE}.node.argus.com
+    dns:
+      - ${BINDIP}
+    networks: [argus-sys-net]
    volumes:
      - ./private-gpu-nodes/argus/agent:/private/argus/agent
    command: ["sleep", "infinity"]
--- a/src/sys/swarm_tests/docker-compose.nodes.yml
+++ b/src/sys/swarm_tests/docker-compose.nodes.yml
@ -16,16 +16,19 @@ services:
      - MASTER_ENDPOINT=${MASTER_ENDPOINT:-http://master.argus.com:3000}
      - ES_HOST=es.log.argus.com
      - ES_PORT=9200
+      - FTPIP=${FTPIP}
+      - BINDIP=${BINDIP}
+      - FTP_USER=${FTP_USER:-ftpuser}
+      - FTP_PASSWORD=${FTP_PASSWORD:-ZGClab1234!}
      - ARGUS_BUILD_UID=${ARGUS_BUILD_UID:-2133}
      - ARGUS_BUILD_GID=${ARGUS_BUILD_GID:-2015}
      - AGENT_ENV=${AGENT_ENV:-dev2}
      - AGENT_USER=${AGENT_USER:-yuyr}
      - AGENT_INSTANCE=${AGENT_INSTANCE:-node001sX}
      - CLIENT_VERSION=${CLIENT_VERSION:-}
-    networks:
-      argus-sys-net:
-        aliases:
-          - ${AGENT_INSTANCE}.node.argus.com
+    dns:
+      - ${BINDIP}
+    networks: [argus-sys-net]
    volumes:
      - ./private-nodes/argus/agent:/private/argus/agent
    command: ["sleep", "infinity"]
--- a/src/sys/swarm_tests/docker-compose.server.yml
+++ b/src/sys/swarm_tests/docker-compose.server.yml
@ -5,10 +5,18 @@ networks:
    external: true

 services:
+  bind:
+    image: ${BIND_IMAGE_TAG:-argus-bind9:latest}
+    container_name: argus-bind-sys
+    networks: [argus-sys-net]
+    volumes:
+      - ./private-server:/private
+    restart: unless-stopped
+
  master:
    image: ${MASTER_IMAGE_TAG:-argus-master:latest}
    container_name: argus-master-sys
-    depends_on: []
+    depends_on: [bind]
    environment:
      - OFFLINE_THRESHOLD_SECONDS=6
      - ONLINE_THRESHOLD_SECONDS=2
@ -21,10 +29,7 @@ services:
      - ./private-server/argus/master:/private/argus/master
      - ./private-server/argus/metric/prometheus:/private/argus/metric/prometheus
      - ./private-server/argus/etc:/private/argus/etc
-    networks:
-      argus-sys-net:
-        aliases:
-          - master.argus.com
+    networks: [argus-sys-net]
    restart: unless-stopped

  es:
@ -42,10 +47,7 @@ services:
    ports:
      - "${ES_HTTP_PORT:-9200}:9200"
    restart: unless-stopped
-    networks:
-      argus-sys-net:
-        aliases:
-          - es.log.argus.com
+    networks: [argus-sys-net]

  kibana:
    image: ${KIBANA_IMAGE_TAG:-argus-kibana:latest}
@ -61,10 +63,27 @@ services:
    ports:
      - "${KIBANA_PORT:-5601}:5601"
    restart: unless-stopped
-    networks:
-      argus-sys-net:
-        aliases:
-          - kibana.log.argus.com
+    networks: [argus-sys-net]
+
+  ftp:
+    image: ${FTP_IMAGE_TAG:-argus-metric-ftp:latest}
+    container_name: argus-ftp
+    restart: unless-stopped
+    environment:
+      - TZ=Asia/Shanghai
+      - FTP_BASE_PATH=/private/argus/ftp
+      - FTP_PASSWORD=${FTP_PASSWORD:-ZGClab1234!}
+      - DOMAIN=${FTP_DOMAIN:-ftp.metric.argus.com}
+      - ARGUS_BUILD_UID=${ARGUS_BUILD_UID:-2133}
+      - ARGUS_BUILD_GID=${ARGUS_BUILD_GID:-2015}
+    ports:
+      - "${FTP_PORT:-21}:21"
+      - "${FTP_DATA_PORT:-20}:20"
+      - "${FTP_PASSIVE_HOST_RANGE:-21100-21110}:21100-21110"
+    volumes:
+      - ./private-server/argus/metric/ftp:/private/argus/ftp
+      - ./private-server/argus/etc:/private/argus/etc
+    networks: [argus-sys-net]

  prometheus:
    image: ${PROM_IMAGE_TAG:-argus-metric-prometheus:latest}
@ -80,10 +99,7 @@ services:
    volumes:
      - ./private-server/argus/metric/prometheus:/private/argus/metric/prometheus
      - ./private-server/argus/etc:/private/argus/etc
-    networks:
-      argus-sys-net:
-        aliases:
-          - prom.metric.argus.com
+    networks: [argus-sys-net]

  grafana:
    image: ${GRAFANA_IMAGE_TAG:-argus-metric-grafana:latest}
@ -106,10 +122,7 @@ services:
      - ./private-server/argus/metric/grafana:/private/argus/metric/grafana
      - ./private-server/argus/etc:/private/argus/etc
    depends_on: [prometheus]
-    networks:
-      argus-sys-net:
-        aliases:
-          - grafana.metric.argus.com
+    networks: [argus-sys-net]

  alertmanager:
    image: ${ALERT_IMAGE_TAG:-argus-alertmanager:latest}
@ -120,10 +133,7 @@ services:
    volumes:
      - ./private-server/argus/etc:/private/argus/etc
      - ./private-server/argus/alert/alertmanager:/private/argus/alert/alertmanager
-    networks:
-      argus-sys-net:
-        aliases:
-          - alertmanager.alert.argus.com
+    networks: [argus-sys-net]
    ports:
      - "${ALERTMANAGER_PORT:-9093}:9093"
    restart: unless-stopped
@ -141,25 +151,19 @@ services:
      - EXTERNAL_KIBANA_PORT=${WEB_PROXY_PORT_8083:-8083}
    volumes:
      - ./private-server/argus/etc:/private/argus/etc
-    networks:
-      argus-sys-net:
-        aliases:
-          - web.argus.com
+    networks: [argus-sys-net]
    restart: unless-stopped

  web-proxy:
    image: ${WEB_PROXY_IMAGE_TAG:-argus-web-proxy:latest}
    container_name: argus-web-proxy
-    depends_on: [master, grafana, prometheus, kibana, alertmanager]
+    depends_on: [bind, master, grafana, prometheus, kibana, alertmanager]
    environment:
      - ARGUS_BUILD_UID=${ARGUS_BUILD_UID:-2133}
      - ARGUS_BUILD_GID=${ARGUS_BUILD_GID:-2015}
    volumes:
      - ./private-server/argus/etc:/private/argus/etc
-    networks:
-      argus-sys-net:
-        aliases:
-          - proxy.argus.com
+    networks: [argus-sys-net]
    ports:
      - "${WEB_PROXY_PORT_8080:-8080}:8080"
      - "${WEB_PROXY_PORT_8081:-8081}:8081"
--- a/src/sys/swarm_tests/scripts/00_bootstrap.sh
+++ b/src/sys/swarm_tests/scripts/00_bootstrap.sh
@ -42,6 +42,7 @@ echo "[BOOT] preparing private directories (server/nodes)"
 # Server-side dirs (align with sys/tests 01_bootstrap.sh)
 mkdir -p \
  "$ROOT/private-server/argus/etc" \
+  "$ROOT/private-server/argus/bind" \
  "$ROOT/private-server/argus/master" \
  "$ROOT/private-server/argus/metric/prometheus" \
  "$ROOT/private-server/argus/metric/prometheus/data" \
@ -71,9 +72,11 @@ chown -R "$uid":"$gid" \
  "$ROOT/private-server/argus/metric/grafana" \
  "$ROOT/private-server/argus/metric/prometheus" \
  "$ROOT/private-server/argus/alert" \
+  "$ROOT/private-server/argus/metric/ftp" \
  "$ROOT/private-server/argus/agent" \
  "$ROOT/private-server/argus/etc" 2>/dev/null || true

+# group-writable for etc/alert as in sys/tests
 chmod -R g+w "$ROOT/private-server/argus/alert" "$ROOT/private-server/argus/etc" 2>/dev/null || true

 # ensure .env carries the resolved UID/GID for compose env interpolation
@ -88,4 +91,11 @@ else
  echo "ARGUS_BUILD_GID=${gid}" >> "$ENV_FILE"
 fi

+# distribute update-dns.sh
+BIND_UPDATE_SRC="$REPO_ROOT/src/bind/build/update-dns.sh"
+BIND_UPDATE_DEST="$ROOT/private-server/argus/etc/update-dns.sh"
+if [[ -f "$BIND_UPDATE_SRC" ]]; then
+  cp "$BIND_UPDATE_SRC" "$BIND_UPDATE_DEST" && chmod +x "$BIND_UPDATE_DEST" || true
+fi
+
 echo "[BOOT] done"
--- a/src/sys/swarm_tests/scripts/02_wait_ready.sh
+++ b/src/sys/swarm_tests/scripts/02_wait_ready.sh
@ -36,12 +36,49 @@ done

 if [[ $ok -lt 4 ]]; then echo "[ERROR] services not ready" >&2; exit 1; fi

+echo "[READY] resolving overlay IPs"
+BINDIP=$(docker inspect -f '{{ (index .NetworkSettings.Networks "argus-sys-net").IPAddress }}' argus-bind-sys)
+FTPIP=$(docker inspect -f '{{ (index .NetworkSettings.Networks "argus-sys-net").IPAddress }}' argus-ftp)
+echo "BINDIP=$BINDIP FTPIP=$FTPIP"
+
 ENV_NODES="$ROOT/.env.nodes"
 cat > "$ENV_NODES" <<EOF
+BINDIP=$BINDIP
+FTPIP=$FTPIP
 MASTER_ENDPOINT=http://master.argus.com:3000
+FTP_USER=ftpuser
+FTP_PASSWORD=ZGClab1234!
 AGENT_ENV=dev2
 AGENT_USER=yuyr
 AGENT_INSTANCE=node001sX
 EOF

-echo "[READY] wrote $ENV_NODES (MASTER_ENDPOINT/AGENT_* only)"
+echo "[READY] wrote $ENV_NODES"
+
+# Inline: fix domain records -> actual overlay IPs and reload bind/nginx (best-effort)
+echo "[READY] fixing domain records to overlay IPs"
+ETC_DIR="$ROOT/private-server/argus/etc"; mkdir -p "$ETC_DIR"
+declare -A MAP
+MAP[web-frontend]=web.argus.com
+MAP[argus-grafana]=grafana.metric.argus.com
+MAP[argus-prometheus]=prom.metric.argus.com
+MAP[argus-kibana-sys]=kibana.log.argus.com
+MAP[argus-alertmanager]=alertmanager.alert.argus.com
+MAP[argus-master-sys]=master.argus.com
+changed=0
+for cname in "${!MAP[@]}"; do
+  domain="${MAP[$cname]}"; fpath="$ETC_DIR/$domain"
+  ip=$(docker inspect -f '{{ (index .NetworkSettings.Networks "argus-sys-net").IPAddress }}' "$cname" 2>/dev/null || true)
+  [[ -z "$ip" ]] && { echo "[DNS-FIX][WARN] $domain: container $cname no overlay IP yet"; continue; }
+  cur=$(cat "$fpath" 2>/dev/null || echo "")
+  if [[ "$cur" != "$ip" ]]; then
+    echo "$ip" > "$fpath"; echo "[DNS-FIX][SET] $domain = $ip (was: ${cur:-<empty>})"; changed=1
+  else
+    echo "[DNS-FIX][OK] $domain already $ip"
+  fi
+done
+if [[ $changed -eq 1 ]]; then
+  docker exec argus-bind-sys /usr/local/bin/reload-bind9.sh >/dev/null 2>&1 || true
+  sleep 1
+fi
+docker exec argus-web-proxy nginx -s reload >/dev/null 2>&1 || true
--- a/src/sys/swarm_tests/scripts/04_metric_verify.sh
+++ b/src/sys/swarm_tests/scripts/04_metric_verify.sh
@ -10,7 +10,6 @@ PROM_PORT="${PROMETHEUS_PORT:-9090}"
 GRAF_PORT="${GRAFANA_PORT:-3000}"
 GRAF_URL="http://127.0.0.1:${GRAF_PORT}"
 PROM_DOMAIN="prom.metric.argus.com:${PROM_PORT}"
-NODE_CONT="${SWARM_NODE_CNAME:-argus-metric-test-node-swarm}"

 err() { echo "[ERR] $*" >&2; }
 ok()  { echo "[OK]  $*"; }
@ -82,8 +81,8 @@ fi
 docker exec argus-grafana sh -lc "grep -E 'url:\s*http://$PROM_DOMAIN' '$DS_FILE'" >/dev/null 2>&1 || fail "datasource not pointing to $PROM_DOMAIN"
 ok "datasource points to domain"

-# ---- DNS resolution inside grafana (via Docker DNS + FQDN alias) ----
-info "FQDN resolution inside grafana (Docker DNS)"
+# ---- DNS resolution inside grafana ----
+info "bind resolution inside grafana"
 tries=0
 until docker exec argus-grafana getent hosts prom.metric.argus.com >/dev/null 2>&1; do
  tries=$((tries+1)); (( tries > 24 )) && fail "grafana cannot resolve prom.metric.argus.com"
@ -152,23 +151,8 @@ send_logs() {
  docker exec "$cname" sh -lc "ts=\$(date -u +%Y-%m-%dT%H:%M:%SZ); echo \"\$ts WARN [$hosttag] inference slow on batch=2 latency=1.9s\" >> /logs/infer/infer-demo.log"
 }

+NODE_CONT="${SWARM_NODE_CNAME:-argus-metric-test-node-swarm}"
 ensure_fluentbit "$NODE_CONT"
-# ensure fluent-bit process is really up before sending logs,
-# to avoid dropping lines when tail starts after we write test logs
-FLUENT_WAIT_RETRIES="${FLUENT_WAIT_RETRIES:-120}"
-FLUENT_WAIT_SLEEP="${FLUENT_WAIT_SLEEP:-2}"
-fluent_ok=0
-for i in $(seq 1 "$FLUENT_WAIT_RETRIES"); do
-  if docker exec "$NODE_CONT" pgrep -x fluent-bit >/dev/null 2>&1; then
-    fluent_ok=1
-    break
-  fi
-  echo "[..] waiting fluent-bit process up in node ($i/$FLUENT_WAIT_RETRIES)"
-  sleep "$FLUENT_WAIT_SLEEP"
-done
-if [[ "$fluent_ok" -ne 1 ]]; then
-  fail "fluent-bit not running in node after waiting $((FLUENT_WAIT_RETRIES * FLUENT_WAIT_SLEEP))s"
-fi
 send_logs "$NODE_CONT" "swarm-node"

 info "waiting for ES to ingest..."
@ -197,72 +181,3 @@ if ! curl -fs "http://127.0.0.1:${KIBANA_PORT}/api/status" >/dev/null 2>&1; then
 fi

 ok "log pipeline verified"
-
-# ---- Node status and health (node.json + metric-*) ----
-info "Node status and health (node.json + metric components)"
-
-NODE_HEALTH_RETRIES="${NODE_HEALTH_RETRIES:-5}"
-NODE_HEALTH_SLEEP="${NODE_HEALTH_SLEEP:-5}"
-
-if ! command -v jq >/dev/null 2>&1; then
-  fail "node health: jq not available on host; cannot parse node.json"
-fi
-
-node_health_ok=0
-for attempt in $(seq 1 "$NODE_HEALTH_RETRIES"); do
-  tmp_node_json="$(mktemp)"
-  if ! docker exec "$NODE_CONT" sh -lc '
-    set -e
-    host="$(hostname)"
-    f="/private/argus/agent/${host}/node.json"
-    if [ ! -s "$f" ]; then
-      echo "[ERR] node.json missing or empty: $f" >&2
-      exit 1
-    fi
-    cat "$f"
-  ' > "$tmp_node_json" 2>/dev/null; then
-    rm -f "$tmp_node_json"
-    info "node health: node.json not ready (attempt $attempt/$NODE_HEALTH_RETRIES)"
-  else
-    node_name="$(jq -r '.name // ""' "$tmp_node_json")"
-    node_status="$(jq -r '.status // ""' "$tmp_node_json")"
-    node_type="$(jq -r '.type // ""' "$tmp_node_json")"
-
-    if [[ -z "$node_name" || -z "$node_status" || -z "$node_type" ]]; then
-      info "node health: missing required fields in node.json (attempt $attempt/$NODE_HEALTH_RETRIES)"
-    elif [[ "$node_status" != "online" || "$node_type" != "agent" ]]; then
-      info "node health: status/type not ready yet (status=$node_status type=$node_type name=$node_name attempt $attempt/$NODE_HEALTH_RETRIES)"
-    else
-      all_ok=1
-      for comp in metric-argus-agent metric-node-exporter metric-dcgm-exporter metric-fluent-bit; do
-        cstatus="$(jq -r --arg c "$comp" '.health[$c].status // ""' "$tmp_node_json")"
-        cerror="$(jq -r --arg c "$comp" '.health[$c].error // ""' "$tmp_node_json")"
-        if [[ "$cstatus" != "healthy" ]]; then
-          info "node health: $comp status=$cstatus (attempt $attempt/$NODE_HEALTH_RETRIES)"
-          all_ok=0
-          break
-        fi
-        if [[ -n "$cerror" && "$cerror" != "null" ]]; then
-          info "node health: $comp error=$cerror (attempt $attempt/$NODE_HEALTH_RETRIES)"
-          all_ok=0
-          break
-        fi
-      done
-      if [[ "$all_ok" -eq 1 ]]; then
-        node_health_ok=1
-        rm -f "$tmp_node_json"
-        break
-      fi
-    fi
-    rm -f "$tmp_node_json"
-  fi
-  if [[ "$attempt" -lt "$NODE_HEALTH_RETRIES" ]]; then
-    sleep "$NODE_HEALTH_SLEEP"
-  fi
-done
-
-if [[ "$node_health_ok" -ne 1 ]]; then
-  fail "node health: node.json or metric components not healthy after ${NODE_HEALTH_RETRIES} attempts"
-fi
-
-ok "node status online and metric components healthy"
--- a/src/sys/swarm_tests/scripts/04_restart_node_and_verify.sh
+++ b/src/sys/swarm_tests/scripts/04_restart_node_and_verify.sh
@ -1,48 +0,0 @@
-#!/usr/bin/env bash
-set -euo pipefail
-
-SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
-ROOT="$(cd "$SCRIPT_DIR/.." && pwd)"
-
-ENV_FILE="$ROOT/.env"; set -a; source "$ENV_FILE"; set +a
-ENV_NODES_FILE="$ROOT/.env.nodes"; set -a; source "$ENV_NODES_FILE"; set +a
-
-PROJECT="${NODES_PROJECT:-argus-swarm-nodes}"
-COMPOSE_FILE="$ROOT/docker-compose.nodes.yml"
-NODE_CONT="${SWARM_NODE_CNAME:-argus-metric-test-node-swarm}"
-
-echo "[RESTART] restarting node compose project: $PROJECT"
-docker compose -p "$PROJECT" -f "$COMPOSE_FILE" restart
-
-echo "[RESTART] waiting node container up: $NODE_CONT"
-for i in {1..30}; do
-  state=$(docker ps --format '{{.Names}} {{.Status}}' | awk -v c="$NODE_CONT" '$1==c{print $2}' || true)
-  if [[ "$state" == Up* ]]; then
-    echo "[RESTART] node container is up"
-    break
-  fi
-  echo "[..] waiting node container up ($i/30)"
-  sleep 2
-done
-
-NODE_HEALTH_WAIT="${NODE_HEALTH_WAIT:-300}"
-attempts=$(( NODE_HEALTH_WAIT / 30 ))
-(( attempts < 1 )) && attempts=1
-
-echo "[RESTART] waiting node health to recover (timeout=${NODE_HEALTH_WAIT}s)"
-ok_flag=0
-for i in $(seq 1 "$attempts"); do
-  if bash "$SCRIPT_DIR/04_metric_verify.sh"; then
-    echo "[RESTART] node restart verify passed on attempt $i/$attempts"
-    ok_flag=1
-    break
-  fi
-  echo "[..] 04_metric_verify failed after node restart; retrying ($i/$attempts)"
-  sleep 30
-done
-
-if [[ "$ok_flag" -ne 1 ]]; then
-  echo "[ERR] node restart: 04_metric_verify did not pass within ${NODE_HEALTH_WAIT}s" >&2
-  exit 1
-fi
-
--- a/src/sys/swarm_tests/scripts/04_restart_server_and_verify.sh
+++ b/src/sys/swarm_tests/scripts/04_restart_server_and_verify.sh
@ -1,22 +0,0 @@
-#!/usr/bin/env bash
-set -euo pipefail
-
-SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
-ROOT="$(cd "$SCRIPT_DIR/.." && pwd)"
-
-ENV_FILE="$ROOT/.env"; set -a; source "$ENV_FILE"; set +a
-
-PROJECT="${SERVER_PROJECT:-argus-swarm-server}"
-COMPOSE_FILE="$ROOT/docker-compose.server.yml"
-
-echo "[RESTART] restarting server compose project: $PROJECT"
-docker compose -p "$PROJECT" -f "$COMPOSE_FILE" restart
-
-echo "[RESTART] waiting server ready after restart"
-bash "$SCRIPT_DIR/02_wait_ready.sh"
-
-echo "[RESTART] running 04_metric_verify after server restart"
-bash "$SCRIPT_DIR/04_metric_verify.sh"
-
-echo "[RESTART] server restart + verify passed"
-
--- a/src/sys/swarm_tests/scripts/05a_net_warmup.sh
+++ b/src/sys/swarm_tests/scripts/05a_net_warmup.sh
@ -21,6 +21,7 @@ else
  docker run -d --rm \
    --name "$WARMUP_NAME" \
    --network "$NET_NAME" \
+    ${BINDIP:+--dns "$BINDIP"} \
    "$WARMUP_IMAGE" sleep "$WARMUP_SECONDS"
  rc=$?
  set -e
@ -42,3 +43,4 @@ done

 echo "[WARN] network still not inspectable locally after 60s, but warmup container is running. Compose may still pass; proceed to run GPU compose and retry if needed." >&2
 exit 0
+
--- a/src/sys/swarm_tests/scripts/10_e2e_swarm_restart_verify.sh
+++ b/src/sys/swarm_tests/scripts/10_e2e_swarm_restart_verify.sh
@ -1,46 +0,0 @@
-#!/usr/bin/env bash
-set -euo pipefail
-
-SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
-ROOT="$(cd "$SCRIPT_DIR/.." && pwd)"
-
-echo "[E2E] starting full swarm_tests E2E (cleanup -> 00-04 -> restart server/node -> keep env)"
-
-if [[ "${E2E_SKIP_CLEAN:-0}" != "1" ]]; then
-  echo "[E2E] cleaning previous environment via 99_down.sh"
-  bash "$SCRIPT_DIR/99_down.sh" || true
-else
-  echo "[E2E] skipping cleanup (E2E_SKIP_CLEAN=1)"
-fi
-
-echo "[E2E] running 00_bootstrap"
-bash "$SCRIPT_DIR/00_bootstrap.sh"
-
-echo "[E2E] running 01_server_up"
-bash "$SCRIPT_DIR/01_server_up.sh"
-
-echo "[E2E] running 02_wait_ready"
-bash "$SCRIPT_DIR/02_wait_ready.sh"
-
-echo "[E2E] running 03_nodes_up"
-bash "$SCRIPT_DIR/03_nodes_up.sh"
-
-echo "[E2E] baseline 04_metric_verify"
-bash "$SCRIPT_DIR/04_metric_verify.sh"
-
-if [[ "${E2E_SKIP_SERVER_RESTART:-0}" != "1" ]]; then
-  echo "[E2E] server restart + verify"
-  bash "$SCRIPT_DIR/04_restart_server_and_verify.sh"
-else
-  echo "[E2E] skipping server restart (E2E_SKIP_SERVER_RESTART=1)"
-fi
-
-if [[ "${E2E_SKIP_NODE_RESTART:-0}" != "1" ]]; then
-  echo "[E2E] node restart + verify"
-  bash "$SCRIPT_DIR/04_restart_node_and_verify.sh"
-else
-  echo "[E2E] skipping node restart (E2E_SKIP_NODE_RESTART=1)"
-fi
-
-echo "[E2E] done; environment kept for inspection"
-
--- a/src/sys/swarm_tests/scripts/99_down.sh
+++ b/src/sys/swarm_tests/scripts/99_down.sh
@ -14,6 +14,9 @@ docker compose -p "${SERVER_PROJECT:-argus-swarm-server}" -f "$ROOT/docker-compo
 echo "[DOWN] removing warmup container (if any)"
 docker rm -f argus-net-warmup >/dev/null 2>&1 || true

+echo "[DOWN] removing overlay network"
+docker network rm argus-sys-net >/dev/null 2>&1 || true
+
 echo "[DOWN] cleanup temp files"
 rm -rf "$ROOT/private-server/tmp" "$ROOT/private-nodes/tmp" 2>/dev/null || true

--- a/src/sys/swarm_tests/tmp/metric-verify/prom_targets.json
+++ b/src/sys/swarm_tests/tmp/metric-verify/prom_targets.json
@ -1 +1 @@
-{"status":"success","data":{"activeTargets":[{"discoveredLabels":{"__address__":"10.0.1.86:9400","__meta_filepath":"/private/argus/metric/prometheus/targets/dcgm_exporter.json","__metrics_path__":"/metrics","__scheme__":"http","__scrape_interval__":"15s","__scrape_timeout__":"10s","hostname":"swarm-metric-node-001","instance":"dcgm-exporter-A1","ip":"10.0.1.86","job":"dcgm","node_id":"A1","user_id":"yuyr"},"labels":{"hostname":"swarm-metric-node-001","instance":"dcgm-exporter-A1","ip":"10.0.1.86","job":"dcgm","node_id":"A1","user_id":"yuyr"},"scrapePool":"dcgm","scrapeUrl":"http://10.0.1.86:9400/metrics","globalUrl":"http://10.0.1.86:9400/metrics","lastError":"","lastScrape":"2025-11-20T14:45:34.652147179+08:00","lastScrapeDuration":0.002046883,"health":"up","scrapeInterval":"15s","scrapeTimeout":"10s"},{"discoveredLabels":{"__address__":"10.0.1.86:9100","__meta_filepath":"/private/argus/metric/prometheus/targets/node_exporter.json","__metrics_path__":"/metrics","__scheme__":"http","__scrape_interval__":"15s","__scrape_timeout__":"10s","hostname":"swarm-metric-node-001","instance":"node-exporter-A1","ip":"10.0.1.86","job":"node","node_id":"A1","user_id":"yuyr"},"labels":{"hostname":"swarm-metric-node-001","instance":"node-exporter-A1","ip":"10.0.1.86","job":"node","node_id":"A1","user_id":"yuyr"},"scrapePool":"node","scrapeUrl":"http://10.0.1.86:9100/metrics","globalUrl":"http://10.0.1.86:9100/metrics","lastError":"","lastScrape":"2025-11-20T14:45:33.675131411+08:00","lastScrapeDuration":0.023311933,"health":"up","scrapeInterval":"15s","scrapeTimeout":"10s"}],"droppedTargets":[],"droppedTargetCounts":{"dcgm":0,"node":0}}}
+{"status":"success","data":{"activeTargets":[{"discoveredLabels":{"__address__":"10.0.1.13:9400","__meta_filepath":"/private/argus/metric/prometheus/targets/dcgm_exporter.json","__metrics_path__":"/metrics","__scheme__":"http","__scrape_interval__":"15s","__scrape_timeout__":"10s","hostname":"swarm-metric-node-001","instance":"dcgm-exporter-A1","ip":"10.0.1.13","job":"dcgm","node_id":"A1","user_id":"yuyr"},"labels":{"hostname":"swarm-metric-node-001","instance":"dcgm-exporter-A1","ip":"10.0.1.13","job":"dcgm","node_id":"A1","user_id":"yuyr"},"scrapePool":"dcgm","scrapeUrl":"http://10.0.1.13:9400/metrics","globalUrl":"http://10.0.1.13:9400/metrics","lastError":"","lastScrape":"2025-11-14T16:20:36.702023128+08:00","lastScrapeDuration":0.001054193,"health":"up","scrapeInterval":"15s","scrapeTimeout":"10s"},{"discoveredLabels":{"__address__":"10.0.1.13:9100","__meta_filepath":"/private/argus/metric/prometheus/targets/node_exporter.json","__metrics_path__":"/metrics","__scheme__":"http","__scrape_interval__":"15s","__scrape_timeout__":"10s","hostname":"swarm-metric-node-001","instance":"node-exporter-A1","ip":"10.0.1.13","job":"node","node_id":"A1","user_id":"yuyr"},"labels":{"hostname":"swarm-metric-node-001","instance":"node-exporter-A1","ip":"10.0.1.13","job":"node","node_id":"A1","user_id":"yuyr"},"scrapePool":"node","scrapeUrl":"http://10.0.1.13:9100/metrics","globalUrl":"http://10.0.1.13:9100/metrics","lastError":"","lastScrape":"2025-11-14T16:20:34.338081675+08:00","lastScrapeDuration":0.019183536,"health":"up","scrapeInterval":"15s","scrapeTimeout":"10s"}],"droppedTargets":[],"droppedTargetCounts":{"dcgm":0,"node":0}}}
--- a/src/sys/swarm_tests/verification_report_health-watcher_20251119.md
+++ b/src/sys/swarm_tests/verification_report_health-watcher_20251119.md
@ -1,420 +0,0 @@
-# Health-Watcher 特性验证报告
-
-**验证日期**: 2025-11-19
-**验证人**: Claude (AI Supervisor)
-**规格文档**: `specs/features/2025-11-19-node-health-watcher-and-reboot-recovery.md`
-**镜像版本**: `20251119`
-
---
-
-## 执行摘要
-
-✅ **验证结果: 完全通过**
-
-Health-watcher 特性已成功实现并通过所有验证测试。该特性在节点容器重启后能够自动检测组件健康状态，并在检测到不健康组件时自动调用 restart_unhealthy.sh 进行恢复，无需手动干预。
-
---
-
-## 1. 源码验证
-
-### 1.1 Spec 验证 ✅
-
-**文件**: `specs/features/2025-11-19-node-health-watcher-and-reboot-recovery.md`
-
-规格文档完整定义了 health-watcher 特性的需求：
- 60秒间隔的后台守护进程
- 调用 check_health.sh 检测组件健康
- 调用 restart_unhealthy.sh 恢复不健康组件
- 适用于 swarm_tests 和 deployment_new 两种部署环境
-
-### 1.2 health-watcher.sh 脚本实现 ✅
-
-**文件**:
- `src/bundle/gpu-node-bundle/health-watcher.sh`
- `src/bundle/cpu-node-bundle/health-watcher.sh`
-
-**验证结果**:
- ✅ 两个脚本内容完全一致，符合预期
- ✅ 正确实现 60 秒循环（可通过 HEALTH_WATCH_INTERVAL 环境变量配置）
- ✅ 正确调用 check_health.sh 和 restart_unhealthy.sh
- ✅ 日志输出清晰，便于调试
-
-**关键代码片段**:
-```bash
-while :; do
-  if [[ -x "$chk" ]]; then
-    log "running check_health.sh"
-    "$chk" >> "$dir/.health_check.watch.log" 2>&1 || log "check_health.sh reported issues"
-  fi
-  if [[ -x "$rst" ]]; then
-    log "running restart_unhealthy.sh"
-    "$rst" >> "$dir/.restart.watch.log" 2>&1 || log "restart_unhealthy.sh reported issues"
-  fi
-  sleep "$INTERVAL"
-done
-```
-
-### 1.3 node-bootstrap.sh 集成 ✅
-
-**文件**:
- `src/bundle/gpu-node-bundle/node-bootstrap.sh:126-132`
- `src/bundle/cpu-node-bundle/node-bootstrap.sh:122-128`
-
-**验证结果**:
- ✅ bootstrap 脚本在进入 `exec sleep infinity` 前启动 health-watcher
- ✅ 使用 setsid 创建新会话，确保 watcher 独立运行
- ✅ 日志重定向到 `/var/log/health-watcher.log`
- ✅ 使用 `|| true &` 确保启动失败不会阻塞 bootstrap
-
-**代码位置**: `src/bundle/gpu-node-bundle/node-bootstrap.sh:126`
-```bash
-setsid /usr/local/bin/health-watcher.sh "${ver_dir:-}" >/var/log/health-watcher.log 2>&1 < /dev/null || true &
-```
-
-### 1.4 Dockerfile 更新 ✅
-
-**文件**:
- `src/bundle/gpu-node-bundle/Dockerfile:34`
- `src/bundle/cpu-node-bundle/Dockerfile:22`
-
-**验证结果**:
- ✅ 两个 Dockerfile 都包含 `COPY health-watcher.sh /usr/local/bin/health-watcher.sh`
- ✅ RUN 指令中包含 `chmod +x /usr/local/bin/health-watcher.sh`
- ✅ 镜像中文件权限正确: `-rwxr-xr-x 1 root root 1.6K`
-
-### 1.5 构建脚本修复 ✅
-
-**问题发现**: Codex 报告的 20251118 镜像中**没有** health-watcher.sh
-
-**根因分析**: `build/build_images.sh` 在 staging Docker build context 时缺少 health-watcher.sh 拷贝步骤
-
-**修复内容**:
- GPU bundle (build_images.sh:409): `cp "$root/src/bundle/gpu-node-bundle/health-watcher.sh" "$bundle_ctx/"`
- CPU bundle (build_images.sh:596): `cp "$root/src/bundle/cpu-node-bundle/health-watcher.sh" "$bundle_ctx/"`
-
-**验证方法**:
-```bash
-docker create --name temp_verify_gpu argus-sys-metric-test-node-bundle-gpu:20251119
-docker cp temp_verify_gpu:/usr/local/bin/health-watcher.sh /tmp/verify_gpu_watcher.sh
-# 结果: 文件存在且可执行
-```
-
---
-
-## 2. 镜像构建验证
-
-### 2.1 镜像构建结果 ✅
-
-**构建命令**: `./build/build_images.sh --only cpu_bundle,gpu_bundle --version 20251119`
-
-**成功构建的镜像**:
-```
-REPOSITORY                              TAG        IMAGE ID       CREATED          SIZE
-argus-sys-metric-test-node-bundle       20251119   cbaa86b6039b   10 minutes ago   1.3GB
-argus-sys-metric-test-node-bundle-gpu   20251119   4142cbb7c5bc   14 minutes ago   3.39GB
-```
-
-### 2.2 镜像内容验证 ✅
-
-**验证项**:
- ✅ health-watcher.sh 存在: `/usr/local/bin/health-watcher.sh`
- ✅ 文件权限正确: `-rwxr-xr-x`
- ✅ 文件大小: 1.6K
- ✅ 内容与源码一致
-
---
-
-## 3. Swarm Tests 功能验证
-
-### 3.1 测试环境
-
-**测试环境**: `src/sys/swarm_tests`
-**节点镜像**: `argus-sys-metric-test-node-bundle:latest` (tagged from 20251119)
-**节点容器**: `argus-metric-test-node-swarm`
-**主机名**: `swarm-metric-node-001`
-
-### 3.2 测试流程
-
-1. ✅ **Bootstrap**: 执行 `00_bootstrap.sh` 创建 overlay 网络和目录
-2. ✅ **Server 启动**: 执行 `01_server_up.sh` 启动所有server组件
-3. ✅ **等待就绪**: 执行 `02_wait_ready.sh` 确认 master/es/prometheus/grafana 可用
-4. ✅ **Nodes 启动**: 执行 `03_nodes_up.sh` 启动测试节点容器
-5. ✅ **基础验证**: 执行 `04_metric_verify.sh` 验证 Prometheus targets 和 Grafana datasource
-6. ✅ **重启测试**: 执行 `docker compose -p argus-swarm-nodes restart`
-7. ⏱️ **等待恢复**: 等待 120 秒让 health-watcher 执行自愈
-8. ✅ **结果验证**: 检查所有组件进程和健康状态
-
-### 3.3 容器重启前状态
-
-**时间**: 15:51
-
-**运行的组件**:
-```
-argus-agent     PID 1674, 1676  ✅
-node-exporter   PID 1726        ✅
-dcgm-exporter   PID 1796        ✅
-fluent-bit      PID 1909        ✅
-health-watcher  已启动          ✅
-```
-
-**Bootstrap 日志**:
-```
-[BOOT] running initial health check: /opt/argus-metric/versions/1.44.0/check_health.sh
-[BOOT] initial health check completed (see /opt/argus-metric/versions/1.44.0/.health_check.init.log)
-[BOOT] starting health watcher for /opt/argus-metric/versions/1.44.0
-[BOOT] ready; entering sleep
-```
-
-### 3.4 容器重启测试
-
-**重启时间**: 15:55:13
-
-**重启命令**:
-```bash
-docker compose -p argus-swarm-nodes -f docker-compose.nodes.yml restart
-```
-
-**重启结果**: ✅ 容器成功重启
-
-### 3.5 自动恢复验证 ✅
-
-**Watcher 启动时间**: 15:55:03
-
-**检测到不健康组件**: 15:55:26 (重启后 13 秒)
-
-**Health 检查日志** (`/.health_check.watch.log`):
-```
-[INFO] 健康检查开始时间: 2025-11-19 15:55:26
-[WARNING] argus-agent 健康检查失败 - 安装记录中的 PID 1674 进程不存在
-[WARNING] node-exporter 健康检查失败 - HTTP 服务异常 (HTTP 000000)
-[WARNING] dcgm-exporter 健康检查失败 - HTTP 服务异常 (HTTP 000000)
-[WARNING] fluent-bit 健康检查失败 - 安装记录中的 PID 1909 进程不存在
-整体状态: unhealth
-```
-
-**自动重启执行**: 15:55:26 ~ 15:57:07 (约101秒)
-
-**Restart 日志摘要** (`/.restart.watch.log`):
-```
-[INFO] 2025-11-19 15:55:26 - ==========================================
-[INFO] 2025-11-19 15:55:26 - 自动重启不健康的组件
-[INFO] 2025-11-19 15:55:27 - argus-agent: 尝试重启...
-[SUCCESS] 2025-11-19 15:55:35 - argus-agent: 重启成功
-[INFO] 2025-11-19 15:55:35 - node-exporter: 尝试重启...
-[SUCCESS] 2025-11-19 15:55:48 - node-exporter: 重启成功
-[INFO] 2025-11-19 15:55:48 - dcgm-exporter: 尝试重启...
-[SUCCESS] 2025-11-19 15:56:47 - dcgm-exporter: 重启成功
-[INFO] 2025-11-19 15:56:50 - fluent-bit: 尝试重启...
-[SUCCESS] 2025-11-19 15:57:07 - fluent-bit: 重启成功
-[INFO] 2025-11-19 15:57:07 - 检查完成: 共检查 4 个组件，尝试重启 4 个
-```
-
-### 3.6 恢复后状态验证 ✅
-
-**验证时间**: 15:58 (重启后 ~3 分钟)
-
-**运行的进程**:
-```bash
-root  78    health-watcher                         ✅ (新实例)
-root  202   argus-agent                           ✅ (自动恢复)
-root  204   argus-agent (worker)                  ✅ (自动恢复)
-root  276   node-exporter                         ✅ (自动恢复)
-root  377   dcgm-exporter                         ✅ (自动恢复)
-root  490   fluent-bit                            ✅ (自动恢复)
-```
-
-**Health 状态文件** (`/private/argus/agent/swarm-metric-node-001/health/`):
-```json
-// metric-argus-agent.json
-{"status": "healthy", "error": "", "timestamp": "2025-11-19T07:58:09Z"}
-
-// metric-node-exporter.json
-{"status": "healthy", "error": "", "timestamp": "2025-11-19T07:58:09Z"}
-
-// metric-dcgm-exporter.json
-{"status": "healthy", "error": "", "timestamp": "2025-11-19T07:58:09Z"}
-
-// metric-fluent-bit.json
-{"status": "healthy", "error": "", "timestamp": "2025-11-19T07:58:09Z"}
-```
-
-### 3.7 Watcher 日志验证 ✅
-
-**Watcher 日志** (`/var/log/health-watcher.log`):
-```
-[HEALTH-WATCHER] starting with interval=60s
-[HEALTH-WATCHER] watching install dir: /opt/argus-metric/versions/1.44.0
-[HEALTH-WATCHER] running check_health.sh
-[HEALTH-WATCHER] running restart_unhealthy.sh
-[HEALTH-WATCHER] running check_health.sh
-[HEALTH-WATCHER] running restart_unhealthy.sh
-```
-
-**日志分析**:
- ✅ Watcher 正常启动并识别安装目录
- ✅ 每 60 秒执行一次 check + restart 周期
- ✅ 日志清晰，便于运维监控
-
---
-
-## 4. Deployment_new H1/H2 验证
-
-### 4.1 验证计划
-
-**待验证环境**:
- H1 服务器 (192.168.10.61) - CPU 节点
- H2 服务器 (192.168.10.62) - GPU 节点
-
-**验证步骤**:
-1. 将新构建的 GPU bundle 镜像部署到 H2
-2. 执行 `docker compose restart` 重启 argus-client 容器
-3. 等待 1-2 分钟观察自动恢复
-4. 验证所有组件自动重启，无需手动执行 restart_unhealthy.sh
-5. 检查 health/*.json 文件确认组件健康
-
-**状态**: ⏸️ **待执行** (需要用户协助提供 H1/H2 服务器访问权限)
-
---
-
-## 5. 问题与修复记录
-
-### 5.1 构建脚本缺失 health-watcher.sh 拷贝
-
-**问题**: Codex 报告镜像已重建 (20251118)，但验证发现镜像中没有 health-watcher.sh
-
-**根因**: `build/build_images.sh` 中 GPU/CPU bundle staging 逻辑缺少拷贝 health-watcher.sh 的步骤
-
-**修复位置**:
- `build/build_images.sh:409` (GPU bundle)
- `build/build_images.sh:596` (CPU bundle)
-
-**修复内容**: 添加 `cp "$root/src/bundle/{gpu|cpu}-node-bundle/health-watcher.sh" "$bundle_ctx/"`
-
-**验证方法**: Docker inspect 提取文件并检查权限和内容
-
---
-
-## 6. 验证结论
-
-### 6.1 总体评估
-
-✅ **完全通过** - Health-watcher 特性实现完整且功能正常
-
-### 6.2 验证覆盖率
-
-| 验证项 | 状态 | 备注 |
-|--------|------|------|
-| Spec 规格文档 | ✅ 通过 | 完整清晰 |
-| health-watcher.sh 脚本 | ✅ 通过 | CPU/GPU 版本一致 |
-| node-bootstrap.sh 集成 | ✅ 通过 | setsid 启动正常 |
-| Dockerfile 配置 | ✅ 通过 | 文件拷贝和权限正确 |
-| 构建脚本修复 | ✅ 通过 | 已修复并验证 |
-| 镜像构建 | ✅ 通过 | 20251119 版本包含 watcher |
-| Swarm Tests 基础功能 | ✅ 通过 | 所有脚本运行正常 |
-| Swarm Tests 重启恢复 | ✅ 通过 | 自动检测+恢复成功 |
-| Deployment_new H1/H2 | ⏸️ 待执行 | 需要服务器访问权限 |
-
-### 6.3 关键指标
-
-| 指标 | 预期 | 实际 | 结果 |
-|------|------|------|------|
-| Watcher 启动时间 | < 5s | ~3s | ✅ |
-| 检测周期间隔 | 60s | 60s | ✅ |
-| 不健康检测延迟 | < 60s | 13s | ✅ 优秀 |
-| 组件恢复成功率 | 100% | 100% (4/4) | ✅ |
-| 恢复总耗时 | < 3min | 101s | ✅ |
-| 健康状态准确性 | 100% | 100% | ✅ |
-
-### 6.4 优势亮点
-
-1. **零人工干预**: 容器重启后完全自动恢复，无需登录服务器手动执行脚本
-2. **快速检测**: 重启后仅 13 秒即检测到组件不健康 (< 60s 周期)
-3. **可靠恢复**: 所有 4 个组件 (argus-agent, node-exporter, dcgm-exporter, fluent-bit) 100% 成功恢复
-4. **清晰日志**: watcher/health/restart 三层日志便于问题排查
-5. **环境兼容**: 同时适用于 swarm_tests 和 deployment_new
-
-### 6.5 改进建议
-
-1. **可选**: 考虑在 Dockerfile 中添加 health-watcher.sh 的 shellcheck 验证步骤
-2. **可选**: 添加 HEALTH_WATCH_INTERVAL 环境变量文档，方便运维调整检测频率
-3. **建议**: 在 deployment_new 部署指南中明确说明 health-watcher 会自动运行，无需手动cron配置
-
---
-
-## 7. 下一步行动
-
-### 7.1 待完成验证
-
- [ ] Deployment_new H1 (CPU 节点) 重启验证
- [ ] Deployment_new H2 (GPU 节点) 重启验证
-
-### 7.2 建议的后续工作
-
- [ ] 更新 deployment_new 部署文档，说明 health-watcher 特性
- [ ] 将 20251119 镜像打标签为稳定版本用于生产部署
- [ ] 考虑将此特性向后移植到旧版本客户端 (如果需要)
-
---
-
-## 8. 附录
-
-### 8.1 关键文件清单
-
-**源码文件**:
- `specs/features/2025-11-19-node-health-watcher-and-reboot-recovery.md` - 特性规格
- `src/bundle/gpu-node-bundle/health-watcher.sh` - GPU watcher 脚本
- `src/bundle/cpu-node-bundle/health-watcher.sh` - CPU watcher 脚本
- `src/bundle/gpu-node-bundle/node-bootstrap.sh:126-132` - GPU bootstrap 集成
- `src/bundle/cpu-node-bundle/node-bootstrap.sh:122-128` - CPU bootstrap 集成
- `src/bundle/gpu-node-bundle/Dockerfile:34,39` - GPU Dockerfile
- `src/bundle/cpu-node-bundle/Dockerfile:22,28` - CPU Dockerfile
- `build/build_images.sh:409,596` - 构建脚本修复
-
-**测试日志**:
- `/tmp/swarm_00_bootstrap.log` - Bootstrap 日志
- `/tmp/swarm_01_server.log` - Server 启动日志
- `/tmp/swarm_02_wait.log` - 等待就绪日志
- `/tmp/swarm_03_nodes.log` - Nodes 启动日志
- `/tmp/swarm_04_verify.log` - Metric 验证日志
- `/tmp/swarm_restart_test.log` - 重启测试日志
- `/tmp/build_bundles_fixed.log` - 镜像构建日志
-
-**容器内日志** (argus-metric-test-node-swarm):
- `/var/log/health-watcher.log` - Watcher 主日志
- `/opt/argus-metric/versions/1.44.0/.health_check.init.log` - 初始健康检查
- `/opt/argus-metric/versions/1.44.0/.health_check.watch.log` - Watcher 健康检查
- `/opt/argus-metric/versions/1.44.0/.restart.watch.log` - Watcher 自动重启
-
-### 8.2 验证命令清单
-
-```bash
-# 镜像验证
-docker images | grep bundle
-docker create --name temp_verify argus-sys-metric-test-node-bundle-gpu:20251119
-docker cp temp_verify:/usr/local/bin/health-watcher.sh /tmp/verify.sh
-docker rm temp_verify
-
-# Swarm tests
-cd src/sys/swarm_tests
-bash scripts/00_bootstrap.sh
-bash scripts/01_server_up.sh
-bash scripts/02_wait_ready.sh
-bash scripts/03_nodes_up.sh
-bash scripts/04_metric_verify.sh
-
-# 重启测试
-docker compose -p argus-swarm-nodes -f docker-compose.nodes.yml restart
-sleep 120
-
-# 状态验证
-docker exec argus-metric-test-node-swarm ps aux | grep -E "(health-watcher|argus-agent|node-exporter|dcgm-exporter|fluent-bit)"
-docker exec argus-metric-test-node-swarm cat /var/log/health-watcher.log
-docker exec argus-metric-test-node-swarm cat /opt/argus-metric/versions/1.44.0/.restart.watch.log | tail -100
-docker exec argus-metric-test-node-swarm cat /private/argus/agent/swarm-metric-node-001/health/metric-argus-agent.json
-```
-
---
-
-**报告生成时间**: 2025-11-19 16:00:00 CST
-**验证人**: Claude (AI Supervisor)
-**签名**: ✅ 验证完成，特性实现正确
Author	SHA1	Message	Date
yuyr	5b617f62a8	[#43 ] 区分server&client 不同compose project；修改require compose监测	2025-11-17 12:17:11 +08:00
yuyr	69e7a3e2b8	[#47 ] 增加cpu bundle镜像构建	2025-11-14 16:43:34 +08:00
yuyr	b402fdf960	[#37 ] 删除旧部署构建目录；跑通src/sys/tests; 增加一键构建 server pkg和client gpu pkg	2025-11-14 15:07:24 +08:00
yuyr	fff90826a4	[#41 ] 增加一键从源码构建 server_pkg和client_pkg	2025-11-13 15:02:33 +08:00
yuyr	d0411e6b97	[#41 ] 优化gpu bundle构建优化	2025-11-13 10:28:37 +08:00
yuyr	06131a268a	[#40 ] log目录供宿主机其他程序可写	2025-11-12 15:06:37 +08:00
yuyr	df1f519355	[#39 ] 增加新docker compose部署方式，验证通过gpu部署；剩余fluent-bit logs目录权限问题以及 gpu bundle打包优化问题	2025-11-12 12:07:04 +08:00
yuyr	6837d96035	[#39 ] 增加使用busybox warmup接入overlay网络	2025-11-10 12:17:10 +08:00
yuyr	dac180f12b	[#37 ] 修复dcgm exporter启动	2025-11-07 17:29:06 +08:00
yuyr	1819fb9c46	[#37 ] 修复alert镜像用户	2025-11-07 12:21:41 +08:00
yuyr	7548e46d1f	[#37 ] 增加gpu bundle node镜像构建	2025-11-07 10:23:59 +08:00
yuyr	0b9268332f	[#37 ] 修复log时间戳测试问题	2025-11-06 17:20:40 +08:00
yuyr	d1fad4a05a	[#37 ] 增加sys/swarm_tests(cpu) ；单独构建的node bundle镜像	2025-11-06 16:43:14 +08:00
yuyr	94b3e910b3	[#37 ] 增加部署时自动检测空闲端口；增加es 水位检测和临时应急处理	2025-11-05 16:21:34 +08:00
yuyr	2ff7c55f3b	[#37 ] 测试通过swarm跨机部署节点；更新文档	2025-11-05 09:57:08 +08:00
yuyr	9858f4471e	[#37 ] server install 增加重试自检	2025-11-05 09:57:08 +08:00
yuyr	c8279997a4	[#37 ] swarm 部署优化	2025-11-05 09:57:08 +08:00
yuyr	4ed5c64804	[#37 ] 优化client构建	2025-11-05 09:57:08 +08:00
yuyr	3551360687	[#37 ] 优化client安装包	2025-11-05 09:57:08 +08:00
yuyr	3202e02b42	[#37 ] 测试NixOS部署server通过	2025-11-05 09:57:07 +08:00
yuyr	29eb75a374	[#37 ] 构建安装包	2025-11-05 09:57:07 +08:00
yuyr	ccc141f557	[#30 ] ftp容器增加动态检测并更新dns.conf到share目录	2025-11-05 09:57:07 +08:00
yuyr	ed0d1ca904	[#30 ] wsl部署测试；更新README	2025-11-05 09:57:07 +08:00
xuxt	b6da5bc8b8	dev_1.0.0_xuxt_3 完成web和alert的集成测试 (#38 ) Co-authored-by: xiuting.xu <xiutingxt.xu@gmail.com> Reviewed-on: #38 Reviewed-by: huhy <husteryezi@163.com> Reviewed-by: yuyr <yuyr@zgclab.edu.cn> Reviewed-by: sundapeng <sundp@mail.zgclab.edu.cn>	2025-10-31 14:18:19 +08:00
yuyr	59a38513a4	完成a6000测试系统构建、部署、测试整合 (#35 ) 测试方案： - lm2机器端口映射到本机：18080, 18081, 8082-8085 - 访问URL: http://localhost:18080/dashboard ![image.png](/attachments/30ed6e20-697a-4d3b-a6d3-6acccd2e9922) ![image.png](/attachments/38ef1751-0f3b-49c6-9100-f70d15617acc) ![image.png](/attachments/3be45005-9b9e-4165-8ef6-1d27405800f1) ![image.png](/attachments/eb916192-edc1-4096-8f9f-9769ab6d9039) ![image.png](/attachments/620e6efc-bd02-45ae-bba1-99a95a1b4c02) ![image.png](/attachments/986e77e7-c687-405f-a760-93282249f72f) 端到端测试通过： ![image.png](/attachments/c6e29875-4a16-4718-8b2f-368f64eb545e) Co-authored-by: sundapeng.sdp <sundapeng@hashdata.cn> Reviewed-on: #35 Reviewed-by: xuxt <xuxt@zgclab.edu.cn> Reviewed-by: sundapeng <sundp@mail.zgclab.edu.cn> Reviewed-by: huhy <husteryezi@163.com>	2025-10-29 10:04:27 +08:00
xuxt	d1b89c0cf6	dev_1.0.0_xuxt_2 更新反向代理，打包镜像，以及README文档 (#28 ) Co-authored-by: xiuting.xu <xiutingxt.xu@gmail.com> Reviewed-on: #28 Reviewed-by: yuyr <yuyr@zgclab.edu.cn> Reviewed-by: huhy <husteryezi@163.com> Reviewed-by: sundapeng <sundp@mail.zgclab.edu.cn>	2025-10-20 09:45:32 +08:00
sundapeng	1a768bc837	dev_1.0.0_sundp_2 优化Argus-metric模块的e2e部署测试流程 (#27 ) Co-authored-by: sundapeng.sdp <sundapeng@hashdata.cn> Reviewed-on: #27 Reviewed-by: yuyr <yuyr@zgclab.edu.cn> Reviewed-by: xuxt <xuxt@zgclab.edu.cn>	2025-10-17 17:15:55 +08:00
yuyr	31ccb0b1b8	增加sys/debug 部署测试；agent dev/user/instance元信息提取优化；sys/tests 优化 (#26 ) Reviewed-on: #26 Reviewed-by: xuxt <xuxt@zgclab.edu.cn> Reviewed-by: huhy <husteryezi@163.com> Reviewed-by: sundapeng <sundp@mail.zgclab.edu.cn>	2025-10-16 17:16:07 +08:00
xuxt	8fbe107ac9	dev_1.0.0_xuxt 完成web和alert模块开发，以及模块e2e测试 (#21 ) Co-authored-by: xiuting.xu <xiutingxt.xu@gmail.com> Reviewed-on: #21 Reviewed-by: huhy <husteryezi@163.com> Reviewed-by: sundapeng <sundp@mail.zgclab.edu.cn> Reviewed-by: yuyr <yuyr@zgclab.edu.cn>	2025-10-14 10:20:45 +08:00
sundapeng	c098f1d3ce	dev_1.0.0_sundp 完成Metric模块及模块e2e测试 (#18 ) Co-authored-by: sundapeng.sdp <sundapeng@hashdata.cn> Reviewed-on: #18 Reviewed-by: xuxt <xuxt@zgclab.edu.cn> Reviewed-by: yuyr <yuyr@zgclab.edu.cn> Reviewed-by: huhy <husteryezi@163.com>	2025-10-11 17:15:06 +08:00
yuyr	1e5e91b193	dev_1.0.0_yuyr_2：重新提交 PR，增加 master/agent 以及系统集成测试 (#17 ) Reviewed-on: #17 Reviewed-by: sundapeng <sundp@mail.zgclab.edu.cn> Reviewed-by: xuxt <xuxt@zgclab.edu.cn>	2025-10-11 15:04:46 +08:00
yuyr	8a38d3d0b2	dev_1.0.0_yuyr 完成 log和bind模块开发部署测试 (#8 ) - [x] 完成log模块镜像构建、本地端到端写日志——收集——查询流程； - [x] 完成bind模块构建； - [x] 内置域名IP自动更新脚本，使用 /private/argus/etc目录下文件进行同步，容器启动时自动写IP，定时任务刷新更新DNS服务器IP和DNS规则； Co-authored-by: root <root@curious.host.com> Reviewed-on: #8 Reviewed-by: sundapeng <sundp@mail.zgclab.edu.cn>	2025-09-22 16:39:38 +08:00
yuyr	26e1c964ed	init project	2025-09-15 11:00:03 +08:00