argus-cluster/specs/mvp/mvp_roadmap_v2.md
2025-12-24 15:18:48 +08:00

5.2 KiB
Raw Blame History

渐进的 AI Infrastructure 演进路线图。从最初的单机脚本执行,到最终的智能化运维平台

对应架构演进图,设计基于 Native Ray Cluster 与 Verl 框架的 AI Infra Roadmap 设计文档


项目代号AI Infra Roadmap (Native Ray + Verl)

阶段一:核心内核构建 (Foundation & Core Execution)

这一阶段主要解决“能不能跑”的问题,聚焦于核心计算引擎的对接和基础任务调度。

  • v1.1: 原型验证 (Verl Task Spec & Ray Job)

    • 核心功能:实现了最基础的任务提交链路。

    • 组件

      • Ray Job Tool (Ray Client):作为客户端工具。
      • VerlTaskSpec YAML:定义任务的标准配置文件。
      • Multi-Verl Code Path:支持多代码路径。
    • 基础设施Handmade Ray Cluster手工搭建的 Ray 集群)。

    • 目标:验证 Verl 框架与 Ray 的基本交互。

  • v2.0: 任务管理层 (Task Management)

    • 核心功能:引入了服务化管理,不再单纯依赖命令行工具。

    • 新增组件

      • API Server:提供统一的接口层。
      • Task Management:实现了任务队列 (Queue)、映射 (Map) 和重试/重新提交 (Resubmit) 机制。
    • 基础设施:仍运行在 Handmade Ray Cluster 上。

  • v2.5: 资源与用户管理 (User & Node Management)

    • 核心功能:从“手工集群”迈向“自动化集群”,并增加了多租户基础。

    • 新增组件

      • User Management:用户权限与身份管理。
      • Node Management:核心升级点。支持通过 SSH 管理节点池,实现 Auto-managed Ray Cluster自动管理的 Ray 集群),不再手动维护。
    • 演进:基础设施层由 Handmade 变为 SSH Node (Auto Managed)。


阶段二:产品化与服务化 (Productization & Serving)

这一阶段主要解决“好不好用”的问题,发布了第一个正式版本,并扩展了业务场景。

  • v3.0: 正式发布版 (Frontend & Data Management) * 里程碑1st Version to Release!! (首个对外发布版本)

    • 核心功能:完整的前后端分离,闭环了用户的数据流。

    • 新增组件

      • WebUI:提供可视化的用户界面。
      • Data Management (SFTPGo):集成了 SFTPGo解决用户训练数据、代码的上传与下载问题。
    • 价值:用户可以通过 Web 界面完成从数据上传到任务提交的全流程。

  • v3.5: 定制化与推理服务 (Customized Task & Serving)

    • 核心功能:支持更复杂的训练需求和模型推理。

    • 新增组件

      • Model Serving:不仅能训练,还能部署模型服务。
      • Customized VerlTaskSpec YAML:支持自定义参数 (Param)、奖励函数 (Reward)、Verl 代码等。
    • 价值:从单一的训练平台扩展为“训练+推理”的一体化平台,且支持算法工程师深度定制实验参数。


阶段三:可观测性体系 (Observability)

这一阶段主要解决“看得清”的问题,确保系统的稳定性和模型训练的可追踪性。

  • v4.0: 系统级可观测性 (System Observability)

    • 核心功能:建立完整的基础设施监控。

    • 新增组件

      • Prometheus:指标采集。
      • Grafana:监控大盘展示。
      • Alert:告警系统。
      • ELK:日志收集与分析 (Elasticsearch, Logstash, Kibana)。
    • 基础设施升级:在 SSH Node 上部署了 Exporter,用于采集节点层面的 metrics。

  • v4.5: 实验级可观测性 (ML Observability)

    • 核心功能:专注于模型训练过程的指标追踪。
    • 新增组件
      • Weight & Bias (WanB):集成专业的 ML 实验追踪工具,用于记录 Loss、Accuracy 等训练指标。

阶段四:智能化运维 (Operability & Intelligence)

这一阶段主要解决“自动化”的问题,引入 AI 来管理 AI 平台。

  • v5.0: 智能运维闭环 (Statistics, SOP, Agent)
    • 核心功能:通过数据统计和 Agent 实现平台的自动化治理。

    • 新增组件

      • Statistics:平台维度的统计分析(资源利用率、任务成功率等)。
      • SOP Tools:标准作业程序工具化(自动化运维脚本)。
      • Agent:智能体。可能用于自动故障诊断、资源自动调度优化或交互式助手。
    • 愿景:打造一个具备自我管理、自我修复能力的 AI 基础设施平台。


架构层级总结

层级 关键组件/技术
接入层 (Frontend/API) WebUI, API Server, User Management
调度与编排 (Orchestration) Task Management, Ray Job Tool (Client), Node Management
计算引擎 (Compute) Native Ray Cluster, Verl Framework (TaskSpec YAML)
数据与存储 (Data) SFTPGo (Data Management), Model Serving
可观测性 (Observability) Prometheus, Grafana, ELK, Weights & Bias
运维与智能 (Ops) Exporters, Statistics, SOP Tools, Agent