argus/README.md
yuyr 1e5e91b193 dev_1.0.0_yuyr_2:重新提交 PR,增加 master/agent 以及系统集成测试 (#17)
Reviewed-on: #17
Reviewed-by: sundapeng <sundp@mail.zgclab.edu.cn>
Reviewed-by: xuxt <xuxt@zgclab.edu.cn>
2025-10-11 15:04:46 +08:00

996 B
Raw Blame History

背景保障大规模GPU智算集群以下简称“集群”能够稳定、高效、安全地运行需构建一个自动化、可视化、智能化的全方位运维体系。 一期目标实现“看得见”能收到关键告警解决从无到有的问题完成GPU集群机器各种性能指标、日志数据以及告警集中监控。 项目暂定名字ARGUSAI Reliable and GPU Unified Supervision希腊神话中百眼巨人阿耳戈斯代表着警惕与守护。

项目文档【腾讯文档】GPU集群运维系统 https://docs.qq.com/doc/DQUxDdmhIZ1dpeERk

构建账号配置

镜像构建和运行账号的 UID/GID 可通过 configs/build_user.conf 配置,详细说明见 doc/build-user-config.md

本地端口占用提示

如需运行 BIND 模块端到端测试且宿主机 53 端口已占用,可通过环境变量 HOST_DNS_PORT(默认 1053指定对外映射端口例如 HOST_DNS_PORT=12053 ./scripts/00_e2e_test.sh