15 lines
996 B
Markdown
15 lines
996 B
Markdown
背景:保障大规模GPU智算集群(以下简称“集群”)能够稳定、高效、安全地运行,需构建一个自动化、可视化、智能化的全方位运维体系。
|
||
一期目标:实现“看得见”,能收到关键告警,解决从无到有的问题,完成GPU集群机器各种性能指标、日志数据以及告警集中监控。
|
||
项目暂定名字:ARGUS,AI Reliable and GPU Unified Supervision,希腊神话中百眼巨人,阿耳戈斯代表着警惕与守护。
|
||
|
||
项目文档:【腾讯文档】GPU集群运维系统
|
||
https://docs.qq.com/doc/DQUxDdmhIZ1dpeERk
|
||
|
||
## 构建账号配置
|
||
|
||
镜像构建和运行账号的 UID/GID 可通过 `configs/build_user.conf` 配置,详细说明见 `doc/build-user-config.md`。
|
||
|
||
## 本地端口占用提示
|
||
|
||
如需运行 BIND 模块端到端测试且宿主机 53 端口已占用,可通过环境变量 `HOST_DNS_PORT`(默认 1053)指定对外映射端口,例如 `HOST_DNS_PORT=12053 ./scripts/00_e2e_test.sh`。
|