渐进的 AI Infrastructure 演进路线图。从最初的单机脚本执行，到最终的智能化运维平台

对应架构演进图，设计**基于 Native Ray Cluster 与 Verl 框架的 AI Infra Roadmap 设计文档**。

---

### **项目代号：AI Infra Roadmap (Native Ray + Verl)**

#### **阶段一：核心内核构建 (Foundation & Core Execution)**

这一阶段主要解决“能不能跑”的问题，聚焦于核心计算引擎的对接和基础任务调度。

* **v1.1: 原型验证 (Verl Task Spec & Ray Job)**
    * **核心功能**：实现了最基础的任务提交链路。
    * **组件**：
        * **Ray Job Tool (Ray Client)**：作为客户端工具。
        * **VerlTaskSpec YAML**：定义任务的标准配置文件。
        * **Multi-Verl Code Path**：支持多代码路径。

    * **基础设施**：Handmade Ray Cluster（手工搭建的 Ray 集群）。
    * **目标**：验证 Verl 框架与 Ray 的基本交互。


* **v2.0: 任务管理层 (Task Management)**
    * **核心功能**：引入了服务化管理，不再单纯依赖命令行工具。
    * **新增组件**：
        * **API Server**：提供统一的接口层。
        * **Task Management**：实现了任务队列 (Queue)、映射 (Map) 和重试/重新提交 (Resubmit) 机制。


    * **基础设施**：仍运行在 Handmade Ray Cluster 上。


* **v2.5: 资源与用户管理 (User & Node Management)**
    * **核心功能**：从“手工集群”迈向“自动化集群”，并增加了多租户基础。
    * **新增组件**：
        * **User Management**：用户权限与身份管理。
        * **Node Management**：核心升级点。支持通过 SSH 管理节点池，实现 Auto-managed Ray Cluster（自动管理的 Ray 集群），不再手动维护。


    * **演进**：基础设施层由 Handmade 变为 SSH Node (Auto Managed)。


---

### **阶段二：产品化与服务化 (Productization & Serving)**

这一阶段主要解决“好不好用”的问题，发布了第一个正式版本，并扩展了业务场景。

* **v3.0: 正式发布版 (Frontend & Data Management)**     * **里程碑**：**1st Version to Release!!** (首个对外发布版本)
    * **核心功能**：完整的前后端分离，闭环了用户的数据流。
    * **新增组件**：
        * **WebUI**：提供可视化的用户界面。
        * **Data Management (SFTPGo)**：集成了 SFTPGo，解决用户训练数据、代码的上传与下载问题。


    * **价值**：用户可以通过 Web 界面完成从数据上传到任务提交的全流程。


* **v3.5: 定制化与推理服务 (Customized Task & Serving)**
    * **核心功能**：支持更复杂的训练需求和模型推理。
    * **新增组件**：
        * **Model Serving**：不仅能训练，还能部署模型服务。
        * **Customized VerlTaskSpec YAML**：支持自定义参数 (Param)、奖励函数 (Reward)、Verl 代码等。


    * **价值**：从单一的训练平台扩展为“训练+推理”的一体化平台，且支持算法工程师深度定制实验参数。


---

### **阶段三：可观测性体系 (Observability)**

这一阶段主要解决“看得清”的问题，确保系统的稳定性和模型训练的可追踪性。

* **v4.0: 系统级可观测性 (System Observability)**
    * **核心功能**：建立完整的基础设施监控。
    * **新增组件**：
        * **Prometheus**：指标采集。
        * **Grafana**：监控大盘展示。
        * **Alert**：告警系统。
        * **ELK**：日志收集与分析 (Elasticsearch, Logstash, Kibana)。


    * **基础设施升级**：在 SSH Node 上部署了 **Exporter**，用于采集节点层面的 metrics。


* **v4.5: 实验级可观测性 (ML Observability)**
    * **核心功能**：专注于模型训练过程的指标追踪。
    * **新增组件**：
        * **Weight & Bias (WanB)**：集成专业的 ML 实验追踪工具，用于记录 Loss、Accuracy 等训练指标。


---

### **阶段四：智能化运维 (Operability & Intelligence)**

这一阶段主要解决“自动化”的问题，引入 AI 来管理 AI 平台。

* **v5.0: 智能运维闭环 (Statistics, SOP, Agent)**
    * **核心功能**：通过数据统计和 Agent 实现平台的自动化治理。
    * **新增组件**：
        * **Statistics**：平台维度的统计分析（资源利用率、任务成功率等）。
        * **SOP Tools**：标准作业程序工具化（自动化运维脚本）。
        * **Agent**：智能体。可能用于自动故障诊断、资源自动调度优化或交互式助手。


    * **愿景**：打造一个具备自我管理、自我修复能力的 AI 基础设施平台。


---

### **架构层级总结**

| 层级 | 关键组件/技术 |
| --- | --- |
| **接入层 (Frontend/API)** | WebUI, API Server, User Management |
| **调度与编排 (Orchestration)** | Task Management, Ray Job Tool (Client), Node Management |
| **计算引擎 (Compute)** | Native Ray Cluster, Verl Framework (TaskSpec YAML) |
| **数据与存储 (Data)** | SFTPGo (Data Management), Model Serving |
| **可观测性 (Observability)** | Prometheus, Grafana, ELK, Weights & Bias |
| **运维与智能 (Ops)** | Exporters, Statistics, SOP Tools, Agent |

---