# milestones 通过以下几个里程碑来梳理和分析确认可行性,最终目标是产出一套基于Native Ray集群(无k8s底座)的verl 训练平台,支持多用户,运行各类verl任务,提高整体集群的资源利用效率,并且能够通过监测系统进行观察和资源统计,监控报警。未来形成运维SOP后,接入运维智能体,执行自动化运维。 - Workload - ppo on ray - grpo on ray - sft on ray 可行性 - model serving on ray - customize code 自定义代码,任意verl example 提交代码 - 自定义reward function - 同时多verl版本支持,同时跑不同的ray任务,但是使用不同版本的verl,甚至是用户魔改版本 - Ray Job管理 - 通过python api提交,而不是通过ray cli提交 - 任务排队机制。无优先级,多个pending job谁先满足资源就谁先执行。 - 【确认支持】gang scheduling (all or nothing), 指定好trainer.nnodes和trainer.n_gpus_per_node参数,不满足就pending。 - 无配额管理、公平调度等特性。 - Ray本身不支持任务超时参数,需要单独job监控,发现超时才停止。 - Pipeline管理【高级, 暂不实现】 - 提供对Ray Job进一步封装,串联多个Ray Job,自动完成训练,模型合并等job串联 - 可观测性 Observability - 测试本地部署 weight and bias server 可行性,如何集成现有job流程 - 测试部署 prometheus & grafana,对ray节点进行监测 - job监控,哪些job使用了多少资源,跑了多长时间,资源利用率是否充分,是否空占着GPU - 数据、模型存储管理 - shared dataset管理:所有用户共享的hf数据集 - hf 模型管理:所有用户共享的hf 基座模型库 - user dataset 管理: 用户独自的数据集管理 - user 模型管理:用户独自的模型管理,保存训练好的模型 - job 作业数据管理,作业产出物,临时目录数据 - user management:用户可以通过统一界面来管理自己是user dataset/model space和自己运行的job的临时目录,从而灵活组织任务流水线,提供灵活的文件查看方式 - 网络 - 确认是否支持IB(H100环境),以及RoCEv2(H20环境),需要怎样配置