当前部署情况 - h1: 部署server & client - h2: 部署client - 部署2025-11-25 - 部署目录: /home2/argus/server , /home2/argus/client - 部署使用账号:argus 网络拓扑: - h1 作为docker swarm manager - h2 作为worker加入docker swarm - docker swarm 上创建overlay network 访问方式: - 通过ssh到h1服务器,端口转发 20006-20011 端口到笔记本本地; - 门户网址:http://localhost:20006/dashboard 部署截图:    注意事项: - server各容器使用域名作为overlay network上alias别名,实现域名访问,当前版本禁用bind作为域名解析,原因是容器重启后IP变化场景bind机制复杂且不稳定。 - client 构建是内置安装包,容器启动时执行安装流程,后续重启容器跳过安装步骤。 - UID/GID:部署使用 argus账号 uid=2133, gid=2015。 Reviewed-on: #51 Reviewed-by: sundapeng <sundp@mail.zgclab.edu.cn> Reviewed-by: xuxt <xuxt@zgclab.edu.cn> Reviewed-by: huhy <husteryezi@163.com>
背景:保障大规模GPU智算集群(以下简称“集群”)能够稳定、高效、安全地运行,需构建一个自动化、可视化、智能化的全方位运维体系。 一期目标:实现“看得见”,能收到关键告警,解决从无到有的问题,完成GPU集群机器各种性能指标、日志数据以及告警集中监控。 项目暂定名字:ARGUS,AI Reliable and GPU Unified Supervision,希腊神话中百眼巨人,阿耳戈斯代表着警惕与守护。
项目文档:【腾讯文档】GPU集群运维系统 https://docs.qq.com/doc/DQUxDdmhIZ1dpeERk
构建账号配置
镜像构建和运行账号的 UID/GID 可通过 configs/build_user.conf 配置,详细说明见 doc/build-user-config.md。
本地端口占用提示
如需运行 BIND 模块端到端测试且宿主机 53 端口已占用,可通过环境变量 HOST_DNS_PORT(默认 1053)指定对外映射端口,例如 HOST_DNS_PORT=12053 ./scripts/00_e2e_test.sh。
Description
H20集群部署版本,容器重启自动恢复
Latest
Languages
Shell
81.6%
Python
7.8%
JavaScript
5.2%
Dockerfile
3.8%
TypeScript
1.2%
Other
0.3%