yuyr 8a38d3d0b2 dev_1.0.0_yuyr 完成 log和bind模块开发部署测试 (#8)
- [x] 完成log模块镜像构建、本地端到端写日志——收集——查询流程;
- [x] 完成bind模块构建;
- [x] 内置域名IP自动更新脚本,使用 /private/argus/etc目录下文件进行同步,容器启动时自动写IP,定时任务刷新更新DNS服务器IP和DNS规则;

Co-authored-by: root <root@curious.host.com>
Reviewed-on: #8
Reviewed-by: sundapeng <sundp@mail.zgclab.edu.cn>
2025-09-22 16:39:38 +08:00
2025-09-15 10:44:49 +08:00

背景保障大规模GPU智算集群以下简称“集群”能够稳定、高效、安全地运行需构建一个自动化、可视化、智能化的全方位运维体系。 一期目标实现“看得见”能收到关键告警解决从无到有的问题完成GPU集群机器各种性能指标、日志数据以及告警集中监控。 项目暂定名字ARGUSAI Reliable and GPU Unified Supervision希腊神话中百眼巨人阿耳戈斯代表着警惕与守护。

项目文档【腾讯文档】GPU集群运维系统 https://docs.qq.com/doc/DQUxDdmhIZ1dpeERk

Description
GPU集群运维系统
Readme 332 MiB