milestones

通过以下几个里程碑来梳理和分析确认可行性，最终目标是产出一套基于Native Ray集群（无k8s底座）的verl 训练平台，支持多用户，运行各类verl任务，提高整体集群的资源利用效率，并且能够通过监测系统进行观察和资源统计，监控报警。未来形成运维SOP后，接入运维智能体，执行自动化运维。

Workload
- ppo on ray
- grpo on ray
- sft on ray 可行性
- model serving on ray
- customize code 自定义代码，任意verl example 提交代码
- 自定义reward function
- 同时多verl版本支持，同时跑不同的ray任务，但是使用不同版本的verl，甚至是用户魔改版本
Ray Job管理
- 通过python api提交，而不是通过ray cli提交
- 任务排队机制。无优先级，多个pending job谁先满足资源就谁先执行。
- 【确认支持】gang scheduling (all or nothing), 指定好trainer.nnodes和trainer.n_gpus_per_node参数，不满足就pending。
- 无配额管理、公平调度等特性。
- Ray本身不支持任务超时参数，需要单独job监控，发现超时才停止。
- Pipeline管理【高级, 暂不实现】
  - 提供对Ray Job进一步封装，串联多个Ray Job，自动完成训练，模型合并等job串联
可观测性 Observability
- 测试本地部署 weight and bias server 可行性，如何集成现有job流程
- 测试部署 prometheus & grafana，对ray节点进行监测
- job监控，哪些job使用了多少资源，跑了多长时间，资源利用率是否充分，是否空占着GPU
数据、模型存储管理
- shared dataset管理：所有用户共享的hf数据集
- hf 模型管理：所有用户共享的hf 基座模型库
- user dataset 管理: 用户独自的数据集管理
- user 模型管理：用户独自的模型管理，保存训练好的模型
- job 作业数据管理，作业产出物，临时目录数据
- user management：用户可以通过统一界面来管理自己是user dataset/model space和自己运行的job的临时目录，从而灵活组织任务流水线，提供灵活的文件查看方式
网络
- 确认是否支持IB(H100环境)，以及RoCEv2（H20环境），需要怎样配置

2.3 KiB Raw Blame History Unescape Escape

milestones

2.3 KiB

Raw Blame History