From 9e1336d13e73398defa5fdefa93436ce3dfa0d35 Mon Sep 17 00:00:00 2001 From: yuyr Date: Mon, 15 Sep 2025 10:44:49 +0800 Subject: [PATCH] =?UTF-8?q?=E5=A2=9E=E5=8A=A0=E9=A1=B9=E7=9B=AE=E4=BB=8B?= =?UTF-8?q?=E7=BB=8D=E5=92=8C=E6=96=87=E6=A1=A3=E9=93=BE=E6=8E=A5?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 7 +++++++ 1 file changed, 7 insertions(+) diff --git a/README.md b/README.md index e69de29..253aded 100644 --- a/README.md +++ b/README.md @@ -0,0 +1,7 @@ +背景:保障大规模GPU智算集群(以下简称“集群”)能够稳定、高效、安全地运行,需构建一个自动化、可视化、智能化的全方位运维体系。 +一期目标:实现“看得见”,能收到关键告警,解决从无到有的问题,完成GPU集群机器各种性能指标、日志数据以及告警集中监控。 +项目暂定名字:ARGUS,AI Reliable and GPU Unified Supervision,希腊神话中百眼巨人,阿耳戈斯代表着警惕与守护。 + +项目文档:【腾讯文档】GPU集群运维系统 +https://docs.qq.com/doc/DQUxDdmhIZ1dpeERk +