19 lines
1.5 KiB
Markdown
19 lines
1.5 KiB
Markdown
|
||
目标:设计一套AI任务调度和管理系统
|
||
环境:在K8S集群(商业化封装的算力平台)上运行若干个GPU容器和CPU容器
|
||
约束:CPU容器可以暴露端口供desktop访问,CPU容器可以通过ssh访问GPU容器,容器的生命周期在单独的算力平台控制台上管理;所有容器
|
||
有共享的NFS文件系统
|
||
目标:在CPU容器上部署一个web server 向desktop提供服务,后端运行一个类似skypilot的程序,能够注册和管理GPU容器实例进来。
|
||
- 用户在desktop上通过网站提交执行模型训练的任务,任务管理程序会将任务加入调度队列,等资源池有空闲资源的时候,就会调度任务到对应的GPU节点上执行任务。任务有单节点任务,和多节点任务两类,预先的节点也提前配置好了,多节点任务的容器之间是专门
|
||
走的IB网络。
|
||
任务:完成技术选型,主要是普通的skypilot不支持现成的ssh节点管理。你调研是否有节点满足需求的任务调度管理方案。
|
||
补充:运行的任务一般是 verl / skyRL 强化学习训练框架,以及llamafactory 框架等。GPU节点容器假设是已经预先安装好了对应的环境依赖,任务管理器只需要调度和查看任务执行情况,还有监控任务是否健康,有没有任务中断。
|
||
未来规划:
|
||
- 统一数据集管理,包括模型库、数据集库
|
||
- 统一日志采集&规范
|
||
- 统一容器GPU/CPU指标采集
|
||
- 统一的 weight & bias 指标服务器
|
||
结构图:见附件
|
||
|
||
|