argus-cluster/specs/mvp/milestones.md
2025-12-23 14:22:15 +08:00

2.3 KiB
Raw Blame History

milestones

通过以下几个里程碑来梳理和分析确认可行性最终目标是产出一套基于Native Ray集群无k8s底座的verl 训练平台支持多用户运行各类verl任务提高整体集群的资源利用效率并且能够通过监测系统进行观察和资源统计监控报警。未来形成运维SOP后接入运维智能体执行自动化运维。

  • Workload
    • ppo on ray
    • grpo on ray
    • sft on ray 可行性
    • model serving on ray
    • customize code 自定义代码任意verl example 提交代码
    • 自定义reward function
    • 同时多verl版本支持同时跑不同的ray任务但是使用不同版本的verl甚至是用户魔改版本
  • Ray Job管理
    • 通过python api提交而不是通过ray cli提交
    • 任务排队机制。无优先级多个pending job谁先满足资源就谁先执行。
    • 【确认支持】gang scheduling (all or nothing), 指定好trainer.nnodes和trainer.n_gpus_per_node参数不满足就pending。
    • 无配额管理、公平调度等特性。
    • Ray本身不支持任务超时参数需要单独job监控发现超时才停止。
    • Pipeline管理【高级, 暂不实现】
      • 提供对Ray Job进一步封装串联多个Ray Job自动完成训练模型合并等job串联
  • 可观测性 Observability
    • 测试本地部署 weight and bias server 可行性如何集成现有job流程
    • 测试部署 prometheus & grafana对ray节点进行监测
    • job监控哪些job使用了多少资源跑了多长时间资源利用率是否充分是否空占着GPU
  • 数据、模型存储管理
    • shared dataset管理所有用户共享的hf数据集
    • hf 模型管理所有用户共享的hf 基座模型库
    • user dataset 管理: 用户独自的数据集管理
    • user 模型管理:用户独自的模型管理,保存训练好的模型
    • job 作业数据管理,作业产出物,临时目录数据
    • user management用户可以通过统一界面来管理自己是user dataset/model space和自己运行的job的临时目录从而灵活组织任务流水线提供灵活的文件查看方式
  • 网络
    • 确认是否支持IB(H100环境)以及RoCEv2H20环境需要怎样配置