argus-cluster/doc/requirements.md


目标：设计一套AI任务调度和管理系统
环境：在K8S集群（商业化封装的算力平台）上运行若干个GPU容器和CPU容器
约束：CPU容器可以暴露端口供desktop访问，CPU容器可以通过ssh访问GPU容器，容器的生命周期在单独的算力平台控制台上管理；所有容器
     有共享的NFS文件系统
目标：在CPU容器上部署一个web server 向desktop提供服务，后端运行一个类似skypilot的程序，能够注册和管理GPU容器实例进来。
     - 用户在desktop上通过网站提交执行模型训练的任务，任务管理程序会将任务加入调度队列，等资源池有空闲资源的时候，就会调度任务到对应的GPU节点上执行任务。任务有单节点任务，和多节点任务两类，预先的节点也提前配置好了，多节点任务的容器之间是专门
     走的IB网络。
任务：完成技术选型，主要是普通的skypilot不支持现成的ssh节点管理。你调研是否有节点满足需求的任务调度管理方案。
补充：运行的任务一般是 verl / skyRL 强化学习训练框架，以及llamafactory 框架等。GPU节点容器假设是已经预先安装好了对应的环境依赖，任务管理器只需要调度和查看任务执行情况，还有监控任务是否健康，有没有任务中断。
未来规划：
  - 统一数据集管理，包括模型库、数据集库
  - 统一日志采集&规范
  - 统一容器GPU/CPU指标采集
  - 统一的 weight & bias 指标服务器
结构图：见附件