argus-cluster/doc/requirements.md

1.5 KiB
Raw Permalink Blame History

目标设计一套AI任务调度和管理系统 环境在K8S集群商业化封装的算力平台上运行若干个GPU容器和CPU容器 约束CPU容器可以暴露端口供desktop访问CPU容器可以通过ssh访问GPU容器容器的生命周期在单独的算力平台控制台上管理所有容器 有共享的NFS文件系统 目标在CPU容器上部署一个web server 向desktop提供服务后端运行一个类似skypilot的程序能够注册和管理GPU容器实例进来。 - 用户在desktop上通过网站提交执行模型训练的任务任务管理程序会将任务加入调度队列等资源池有空闲资源的时候就会调度任务到对应的GPU节点上执行任务。任务有单节点任务和多节点任务两类预先的节点也提前配置好了多节点任务的容器之间是专门 走的IB网络。 任务完成技术选型主要是普通的skypilot不支持现成的ssh节点管理。你调研是否有节点满足需求的任务调度管理方案。 补充:运行的任务一般是 verl / skyRL 强化学习训练框架以及llamafactory 框架等。GPU节点容器假设是已经预先安装好了对应的环境依赖任务管理器只需要调度和查看任务执行情况还有监控任务是否健康有没有任务中断。 未来规划:

  • 统一数据集管理,包括模型库、数据集库
  • 统一日志采集&规范
  • 统一容器GPU/CPU指标采集
  • 统一的 weight & bias 指标服务器 结构图:见附件