argus-cluster/requirements.md at main

yuyr aff97f8643 mvp v1 finish, 跑通docker 3容器ppo on ray cluster

2025-12-22 10:51:49 +08:00

1.5 KiB

Raw Permalink Blame History

目标：设计一套AI任务调度和管理系统环境：在K8S集群（商业化封装的算力平台）上运行若干个GPU容器和CPU容器约束：CPU容器可以暴露端口供desktop访问，CPU容器可以通过ssh访问GPU容器，容器的生命周期在单独的算力平台控制台上管理；所有容器有共享的NFS文件系统目标：在CPU容器上部署一个web server 向desktop提供服务，后端运行一个类似skypilot的程序，能够注册和管理GPU容器实例进来。 - 用户在desktop上通过网站提交执行模型训练的任务，任务管理程序会将任务加入调度队列，等资源池有空闲资源的时候，就会调度任务到对应的GPU节点上执行任务。任务有单节点任务，和多节点任务两类，预先的节点也提前配置好了，多节点任务的容器之间是专门走的IB网络。任务：完成技术选型，主要是普通的skypilot不支持现成的ssh节点管理。你调研是否有节点满足需求的任务调度管理方案。补充：运行的任务一般是 verl / skyRL 强化学习训练框架，以及llamafactory 框架等。GPU节点容器假设是已经预先安装好了对应的环境依赖，任务管理器只需要调度和查看任务执行情况，还有监控任务是否健康，有没有任务中断。未来规划：

统一数据集管理，包括模型库、数据集库
统一日志采集&规范
统一容器GPU/CPU指标采集
统一的 weight & bias 指标服务器结构图：见附件

1.5 KiB Raw Permalink Blame History Unescape Escape

1.5 KiB

Raw Permalink Blame History