[#49] 优化swarm test支持自动reboot和verify

2025-11-20 15:21:18 +08:00 · 2025-11-20 15:21:18 +08:00 · 2caf0fa214
commit 2caf0fa214
parent d4e0dc1511
6 changed files with 203 additions and 5 deletions
--- a/src/sys/swarm_tests/scripts/04_metric_verify.sh
+++ b/src/sys/swarm_tests/scripts/04_metric_verify.sh
@ -10,6 +10,7 @@ PROM_PORT="${PROMETHEUS_PORT:-9090}"
 GRAF_PORT="${GRAFANA_PORT:-3000}"
 GRAF_URL="http://127.0.0.1:${GRAF_PORT}"
 PROM_DOMAIN="prom.metric.argus.com:${PROM_PORT}"
 NODE_CONT="${SWARM_NODE_CNAME:-argus-metric-test-node-swarm}"
 err() { echo "[ERR] $*" >&2; }
 ok()  { echo "[OK]  $*"; }
@ -151,8 +152,23 @@ send_logs() {
  docker exec "$cname" sh -lc "ts=\$(date -u +%Y-%m-%dT%H:%M:%SZ); echo \"\$ts WARN [$hosttag] inference slow on batch=2 latency=1.9s\" >> /logs/infer/infer-demo.log"
 }
 NODE_CONT="${SWARM_NODE_CNAME:-argus-metric-test-node-swarm}"
 ensure_fluentbit "$NODE_CONT"
 # ensure fluent-bit process is really up before sending logs,
 # to avoid dropping lines when tail starts after we write test logs
 FLUENT_WAIT_RETRIES="${FLUENT_WAIT_RETRIES:-120}"
 FLUENT_WAIT_SLEEP="${FLUENT_WAIT_SLEEP:-2}"
 fluent_ok=0
 for i in $(seq 1 "$FLUENT_WAIT_RETRIES"); do
  if docker exec "$NODE_CONT" pgrep -x fluent-bit >/dev/null 2>&1; then
    fluent_ok=1
    break
  fi
  echo "[..] waiting fluent-bit process up in node ($i/$FLUENT_WAIT_RETRIES)"
  sleep "$FLUENT_WAIT_SLEEP"
 done
 if [[ "$fluent_ok" -ne 1 ]]; then
  fail "fluent-bit not running in node after waiting $((FLUENT_WAIT_RETRIES * FLUENT_WAIT_SLEEP))s"
 fi
 send_logs "$NODE_CONT" "swarm-node"
 info "waiting for ES to ingest..."
@ -181,3 +197,72 @@ if ! curl -fs "http://127.0.0.1:${KIBANA_PORT}/api/status" >/dev/null 2>&1; then
 fi
 ok "log pipeline verified"
 # ---- Node status and health (node.json + metric-*) ----
 info "Node status and health (node.json + metric components)"
 NODE_HEALTH_RETRIES="${NODE_HEALTH_RETRIES:-5}"
 NODE_HEALTH_SLEEP="${NODE_HEALTH_SLEEP:-5}"
 if ! command -v jq >/dev/null 2>&1; then
  fail "node health: jq not available on host; cannot parse node.json"
 fi
 node_health_ok=0
 for attempt in $(seq 1 "$NODE_HEALTH_RETRIES"); do
  tmp_node_json="$(mktemp)"
  if ! docker exec "$NODE_CONT" sh -lc '
    set -e
    host="$(hostname)"
    f="/private/argus/agent/${host}/node.json"
    if [ ! -s "$f" ]; then
      echo "[ERR] node.json missing or empty: $f" >&2
      exit 1
    fi
    cat "$f"
  ' > "$tmp_node_json" 2>/dev/null; then
    rm -f "$tmp_node_json"
    info "node health: node.json not ready (attempt $attempt/$NODE_HEALTH_RETRIES)"
  else
    node_name="$(jq -r '.name // ""' "$tmp_node_json")"
    node_status="$(jq -r '.status // ""' "$tmp_node_json")"
    node_type="$(jq -r '.type // ""' "$tmp_node_json")"
    if [[ -z "$node_name" || -z "$node_status" || -z "$node_type" ]]; then
      info "node health: missing required fields in node.json (attempt $attempt/$NODE_HEALTH_RETRIES)"
    elif [[ "$node_status" != "online" || "$node_type" != "agent" ]]; then
      info "node health: status/type not ready yet (status=$node_status type=$node_type name=$node_name attempt $attempt/$NODE_HEALTH_RETRIES)"
    else
      all_ok=1
      for comp in metric-argus-agent metric-node-exporter metric-dcgm-exporter metric-fluent-bit; do
        cstatus="$(jq -r --arg c "$comp" '.health[$c].status // ""' "$tmp_node_json")"
        cerror="$(jq -r --arg c "$comp" '.health[$c].error // ""' "$tmp_node_json")"
        if [[ "$cstatus" != "healthy" ]]; then
          info "node health: $comp status=$cstatus (attempt $attempt/$NODE_HEALTH_RETRIES)"
          all_ok=0
          break
        fi
        if [[ -n "$cerror" && "$cerror" != "null" ]]; then
          info "node health: $comp error=$cerror (attempt $attempt/$NODE_HEALTH_RETRIES)"
          all_ok=0
          break
        fi
      done
      if [[ "$all_ok" -eq 1 ]]; then
        node_health_ok=1
        rm -f "$tmp_node_json"
        break
      fi
    fi
    rm -f "$tmp_node_json"
  fi
  if [[ "$attempt" -lt "$NODE_HEALTH_RETRIES" ]]; then
    sleep "$NODE_HEALTH_SLEEP"
  fi
 done
 if [[ "$node_health_ok" -ne 1 ]]; then
  fail "node health: node.json or metric components not healthy after ${NODE_HEALTH_RETRIES} attempts"
 fi
 ok "node status online and metric components healthy"
--- a/src/sys/swarm_tests/scripts/04_restart_node_and_verify.sh
+++ b/src/sys/swarm_tests/scripts/04_restart_node_and_verify.sh
@ -0,0 +1,48 @@
 #!/usr/bin/env bash
 set -euo pipefail
 SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
 ROOT="$(cd "$SCRIPT_DIR/.." && pwd)"
 ENV_FILE="$ROOT/.env"; set -a; source "$ENV_FILE"; set +a
 ENV_NODES_FILE="$ROOT/.env.nodes"; set -a; source "$ENV_NODES_FILE"; set +a
 PROJECT="${NODES_PROJECT:-argus-swarm-nodes}"
 COMPOSE_FILE="$ROOT/docker-compose.nodes.yml"
 NODE_CONT="${SWARM_NODE_CNAME:-argus-metric-test-node-swarm}"
 echo "[RESTART] restarting node compose project: $PROJECT"
 docker compose -p "$PROJECT" -f "$COMPOSE_FILE" restart
 echo "[RESTART] waiting node container up: $NODE_CONT"
 for i in {1..30}; do
  state=$(docker ps --format '{{.Names}} {{.Status}}' | awk -v c="$NODE_CONT" '$1==c{print $2}' || true)
  if [[ "$state" == Up* ]]; then
    echo "[RESTART] node container is up"
    break
  fi
  echo "[..] waiting node container up ($i/30)"
  sleep 2
 done
 NODE_HEALTH_WAIT="${NODE_HEALTH_WAIT:-300}"
 attempts=$(( NODE_HEALTH_WAIT / 30 ))
 (( attempts < 1 )) && attempts=1
 echo "[RESTART] waiting node health to recover (timeout=${NODE_HEALTH_WAIT}s)"
 ok_flag=0
 for i in $(seq 1 "$attempts"); do
  if bash "$SCRIPT_DIR/04_metric_verify.sh"; then
    echo "[RESTART] node restart verify passed on attempt $i/$attempts"
    ok_flag=1
    break
  fi
  echo "[..] 04_metric_verify failed after node restart; retrying ($i/$attempts)"
  sleep 30
 done
 if [[ "$ok_flag" -ne 1 ]]; then
  echo "[ERR] node restart: 04_metric_verify did not pass within ${NODE_HEALTH_WAIT}s" >&2
  exit 1
 fi
--- a/src/sys/swarm_tests/scripts/04_restart_server_and_verify.sh
+++ b/src/sys/swarm_tests/scripts/04_restart_server_and_verify.sh
@ -0,0 +1,22 @@
 #!/usr/bin/env bash
 set -euo pipefail
 SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
 ROOT="$(cd "$SCRIPT_DIR/.." && pwd)"
 ENV_FILE="$ROOT/.env"; set -a; source "$ENV_FILE"; set +a
 PROJECT="${SERVER_PROJECT:-argus-swarm-server}"
 COMPOSE_FILE="$ROOT/docker-compose.server.yml"
 echo "[RESTART] restarting server compose project: $PROJECT"
 docker compose -p "$PROJECT" -f "$COMPOSE_FILE" restart
 echo "[RESTART] waiting server ready after restart"
 bash "$SCRIPT_DIR/02_wait_ready.sh"
 echo "[RESTART] running 04_metric_verify after server restart"
 bash "$SCRIPT_DIR/04_metric_verify.sh"
 echo "[RESTART] server restart + verify passed"
--- a/src/sys/swarm_tests/scripts/10_e2e_swarm_restart_verify.sh
+++ b/src/sys/swarm_tests/scripts/10_e2e_swarm_restart_verify.sh
@ -0,0 +1,46 @@
 #!/usr/bin/env bash
 set -euo pipefail
 SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
 ROOT="$(cd "$SCRIPT_DIR/.." && pwd)"
 echo "[E2E] starting full swarm_tests E2E (cleanup -> 00-04 -> restart server/node -> keep env)"
 if [[ "${E2E_SKIP_CLEAN:-0}" != "1" ]]; then
  echo "[E2E] cleaning previous environment via 99_down.sh"
  bash "$SCRIPT_DIR/99_down.sh" || true
 else
  echo "[E2E] skipping cleanup (E2E_SKIP_CLEAN=1)"
 fi
 echo "[E2E] running 00_bootstrap"
 bash "$SCRIPT_DIR/00_bootstrap.sh"
 echo "[E2E] running 01_server_up"
 bash "$SCRIPT_DIR/01_server_up.sh"
 echo "[E2E] running 02_wait_ready"
 bash "$SCRIPT_DIR/02_wait_ready.sh"
 echo "[E2E] running 03_nodes_up"
 bash "$SCRIPT_DIR/03_nodes_up.sh"
 echo "[E2E] baseline 04_metric_verify"
 bash "$SCRIPT_DIR/04_metric_verify.sh"
 if [[ "${E2E_SKIP_SERVER_RESTART:-0}" != "1" ]]; then
  echo "[E2E] server restart + verify"
  bash "$SCRIPT_DIR/04_restart_server_and_verify.sh"
 else
  echo "[E2E] skipping server restart (E2E_SKIP_SERVER_RESTART=1)"
 fi
 if [[ "${E2E_SKIP_NODE_RESTART:-0}" != "1" ]]; then
  echo "[E2E] node restart + verify"
  bash "$SCRIPT_DIR/04_restart_node_and_verify.sh"
 else
  echo "[E2E] skipping node restart (E2E_SKIP_NODE_RESTART=1)"
 fi
 echo "[E2E] done; environment kept for inspection"
--- a/src/sys/swarm_tests/scripts/99_down.sh
+++ b/src/sys/swarm_tests/scripts/99_down.sh
@ -14,9 +14,6 @@ docker compose -p "${SERVER_PROJECT:-argus-swarm-server}" -f "$ROOT/docker-compo
 echo "[DOWN] removing warmup container (if any)"
 docker rm -f argus-net-warmup >/dev/null 2>&1 || true
 echo "[DOWN] removing overlay network"
 docker network rm argus-sys-net >/dev/null 2>&1 || true
 echo "[DOWN] cleanup temp files"
 rm -rf "$ROOT/private-server/tmp" "$ROOT/private-nodes/tmp" 2>/dev/null || true
--- a/src/sys/swarm_tests/tmp/metric-verify/prom_targets.json
+++ b/src/sys/swarm_tests/tmp/metric-verify/prom_targets.json
@ -1 +1 @@
-{"status":"success","data":{"activeTargets":[{"discoveredLabels":{"__address__":"10.0.1.12:9400","__meta_filepath":"/private/argus/metric/prometheus/targets/dcgm_exporter.json","__metrics_path__":"/metrics","__scheme__":"http","__scrape_interval__":"15s","__scrape_timeout__":"10s","hostname":"swarm-metric-node-001","instance":"dcgm-exporter-A1","ip":"10.0.1.12","job":"dcgm","node_id":"A1","user_id":"yuyr"},"labels":{"hostname":"swarm-metric-node-001","instance":"dcgm-exporter-A1","ip":"10.0.1.12","job":"dcgm","node_id":"A1","user_id":"yuyr"},"scrapePool":"dcgm","scrapeUrl":"http://10.0.1.12:9400/metrics","globalUrl":"http://10.0.1.12:9400/metrics","lastError":"","lastScrape":"2025-11-19T17:22:07.119337307+08:00","lastScrapeDuration":0.001359079,"health":"up","scrapeInterval":"15s","scrapeTimeout":"10s"},{"discoveredLabels":{"__address__":"10.0.1.12:9100","__meta_filepath":"/private/argus/metric/prometheus/targets/node_exporter.json","__metrics_path__":"/metrics","__scheme__":"http","__scrape_interval__":"15s","__scrape_timeout__":"10s","hostname":"swarm-metric-node-001","instance":"node-exporter-A1","ip":"10.0.1.12","job":"node","node_id":"A1","user_id":"yuyr"},"labels":{"hostname":"swarm-metric-node-001","instance":"node-exporter-A1","ip":"10.0.1.12","job":"node","node_id":"A1","user_id":"yuyr"},"scrapePool":"node","scrapeUrl":"http://10.0.1.12:9100/metrics","globalUrl":"http://10.0.1.12:9100/metrics","lastError":"","lastScrape":"2025-11-19T17:22:13.427955955+08:00","lastScrapeDuration":0.020847396,"health":"up","scrapeInterval":"15s","scrapeTimeout":"10s"}],"droppedTargets":[],"droppedTargetCounts":{"dcgm":0,"node":0}}}
+{"status":"success","data":{"activeTargets":[{"discoveredLabels":{"__address__":"10.0.1.86:9400","__meta_filepath":"/private/argus/metric/prometheus/targets/dcgm_exporter.json","__metrics_path__":"/metrics","__scheme__":"http","__scrape_interval__":"15s","__scrape_timeout__":"10s","hostname":"swarm-metric-node-001","instance":"dcgm-exporter-A1","ip":"10.0.1.86","job":"dcgm","node_id":"A1","user_id":"yuyr"},"labels":{"hostname":"swarm-metric-node-001","instance":"dcgm-exporter-A1","ip":"10.0.1.86","job":"dcgm","node_id":"A1","user_id":"yuyr"},"scrapePool":"dcgm","scrapeUrl":"http://10.0.1.86:9400/metrics","globalUrl":"http://10.0.1.86:9400/metrics","lastError":"","lastScrape":"2025-11-20T14:45:34.652147179+08:00","lastScrapeDuration":0.002046883,"health":"up","scrapeInterval":"15s","scrapeTimeout":"10s"},{"discoveredLabels":{"__address__":"10.0.1.86:9100","__meta_filepath":"/private/argus/metric/prometheus/targets/node_exporter.json","__metrics_path__":"/metrics","__scheme__":"http","__scrape_interval__":"15s","__scrape_timeout__":"10s","hostname":"swarm-metric-node-001","instance":"node-exporter-A1","ip":"10.0.1.86","job":"node","node_id":"A1","user_id":"yuyr"},"labels":{"hostname":"swarm-metric-node-001","instance":"node-exporter-A1","ip":"10.0.1.86","job":"node","node_id":"A1","user_id":"yuyr"},"scrapePool":"node","scrapeUrl":"http://10.0.1.86:9100/metrics","globalUrl":"http://10.0.1.86:9100/metrics","lastError":"","lastScrape":"2025-11-20T14:45:33.675131411+08:00","lastScrapeDuration":0.023311933,"health":"up","scrapeInterval":"15s","scrapeTimeout":"10s"}],"droppedTargets":[],"droppedTargetCounts":{"dcgm":0,"node":0}}}
		`@ -1 +1 @@`
			{"status":"success","data":{"activeTargets":[{"discoveredLabels":{"__address__":"10.0.1.12:9400","__meta_filepath":"/private/argus/metric/prometheus/targets/dcgm_exporter.json","__metrics_path__":"/metrics","__scheme__":"http","__scrape_interval__":"15s","__scrape_timeout__":"10s","hostname":"swarm-metric-node-001","instance":"dcgm-exporter-A1","ip":"10.0.1.12","job":"dcgm","node_id":"A1","user_id":"yuyr"},"labels":{"hostname":"swarm-metric-node-001","instance":"dcgm-exporter-A1","ip":"10.0.1.12","job":"dcgm","node_id":"A1","user_id":"yuyr"},"scrapePool":"dcgm","scrapeUrl":"http://10.0.1.12:9400/metrics","globalUrl":"http://10.0.1.12:9400/metrics","lastError":"","lastScrape":"2025-11-19T17:22:07.119337307+08:00","lastScrapeDuration":0.001359079,"health":"up","scrapeInterval":"15s","scrapeTimeout":"10s"},{"discoveredLabels":{"__address__":"10.0.1.12:9100","__meta_filepath":"/private/argus/metric/prometheus/targets/node_exporter.json","__metrics_path__":"/metrics","__scheme__":"http","__scrape_interval__":"15s","__scrape_timeout__":"10s","hostname":"swarm-metric-node-001","instance":"node-exporter-A1","ip":"10.0.1.12","job":"node","node_id":"A1","user_id":"yuyr"},"labels":{"hostname":"swarm-metric-node-001","instance":"node-exporter-A1","ip":"10.0.1.12","job":"node","node_id":"A1","user_id":"yuyr"},"scrapePool":"node","scrapeUrl":"http://10.0.1.12:9100/metrics","globalUrl":"http://10.0.1.12:9100/metrics","lastError":"","lastScrape":"2025-11-19T17:22:13.427955955+08:00","lastScrapeDuration":0.020847396,"health":"up","scrapeInterval":"15s","scrapeTimeout":"10s"}],"droppedTargets":[],"droppedTargetCounts":{"dcgm":0,"node":0}}}				{"status":"success","data":{"activeTargets":[{"discoveredLabels":{"__address__":"10.0.1.86:9400","__meta_filepath":"/private/argus/metric/prometheus/targets/dcgm_exporter.json","__metrics_path__":"/metrics","__scheme__":"http","__scrape_interval__":"15s","__scrape_timeout__":"10s","hostname":"swarm-metric-node-001","instance":"dcgm-exporter-A1","ip":"10.0.1.86","job":"dcgm","node_id":"A1","user_id":"yuyr"},"labels":{"hostname":"swarm-metric-node-001","instance":"dcgm-exporter-A1","ip":"10.0.1.86","job":"dcgm","node_id":"A1","user_id":"yuyr"},"scrapePool":"dcgm","scrapeUrl":"http://10.0.1.86:9400/metrics","globalUrl":"http://10.0.1.86:9400/metrics","lastError":"","lastScrape":"2025-11-20T14:45:34.652147179+08:00","lastScrapeDuration":0.002046883,"health":"up","scrapeInterval":"15s","scrapeTimeout":"10s"},{"discoveredLabels":{"__address__":"10.0.1.86:9100","__meta_filepath":"/private/argus/metric/prometheus/targets/node_exporter.json","__metrics_path__":"/metrics","__scheme__":"http","__scrape_interval__":"15s","__scrape_timeout__":"10s","hostname":"swarm-metric-node-001","instance":"node-exporter-A1","ip":"10.0.1.86","job":"node","node_id":"A1","user_id":"yuyr"},"labels":{"hostname":"swarm-metric-node-001","instance":"node-exporter-A1","ip":"10.0.1.86","job":"node","node_id":"A1","user_id":"yuyr"},"scrapePool":"node","scrapeUrl":"http://10.0.1.86:9100/metrics","globalUrl":"http://10.0.1.86:9100/metrics","lastError":"","lastScrape":"2025-11-20T14:45:33.675131411+08:00","lastScrapeDuration":0.023311933,"health":"up","scrapeInterval":"15s","scrapeTimeout":"10s"}],"droppedTargets":[],"droppedTargetCounts":{"dcgm":0,"node":0}}}