yuyr 59a38513a4 完成a6000测试系统构建、部署、测试整合 (#35)
测试方案:

- lm2机器端口映射到本机:18080, 18081, 8082-8085
- 访问URL: http://localhost:18080/dashboard

![image.png](/attachments/30ed6e20-697a-4d3b-a6d3-6acccd2e9922)

![image.png](/attachments/38ef1751-0f3b-49c6-9100-f70d15617acc)

![image.png](/attachments/3be45005-9b9e-4165-8ef6-1d27405800f1)

![image.png](/attachments/eb916192-edc1-4096-8f9f-9769ab6d9039)

![image.png](/attachments/620e6efc-bd02-45ae-bba1-99a95a1b4c02)

![image.png](/attachments/986e77e7-c687-405f-a760-93282249f72f)

端到端测试通过:

![image.png](/attachments/c6e29875-4a16-4718-8b2f-368f64eb545e)

Co-authored-by: sundapeng.sdp <sundapeng@hashdata.cn>
Reviewed-on: #35
Reviewed-by: xuxt <xuxt@zgclab.edu.cn>
Reviewed-by: sundapeng <sundp@mail.zgclab.edu.cn>
Reviewed-by: huhy <husteryezi@163.com>
2025-10-29 10:04:27 +08:00

背景保障大规模GPU智算集群以下简称“集群”能够稳定、高效、安全地运行需构建一个自动化、可视化、智能化的全方位运维体系。 一期目标实现“看得见”能收到关键告警解决从无到有的问题完成GPU集群机器各种性能指标、日志数据以及告警集中监控。 项目暂定名字ARGUSAI Reliable and GPU Unified Supervision希腊神话中百眼巨人阿耳戈斯代表着警惕与守护。

项目文档【腾讯文档】GPU集群运维系统 https://docs.qq.com/doc/DQUxDdmhIZ1dpeERk

构建账号配置

镜像构建和运行账号的 UID/GID 可通过 configs/build_user.conf 配置,详细说明见 doc/build-user-config.md

本地端口占用提示

如需运行 BIND 模块端到端测试且宿主机 53 端口已占用,可通过环境变量 HOST_DNS_PORT(默认 1053指定对外映射端口例如 HOST_DNS_PORT=12053 ./scripts/00_e2e_test.sh

Description
GPU集群运维系统
Readme 1.5 GiB