渐进的 AI Infrastructure 演进路线图。从最初的单机脚本执行,到最终的智能化运维平台 对应架构演进图,设计**基于 Native Ray Cluster 与 Verl 框架的 AI Infra Roadmap 设计文档**。 --- ### **项目代号:AI Infra Roadmap (Native Ray + Verl)** #### **阶段一:核心内核构建 (Foundation & Core Execution)** 这一阶段主要解决“能不能跑”的问题,聚焦于核心计算引擎的对接和基础任务调度。 * **v1.1: 原型验证 (Verl Task Spec & Ray Job)** * **核心功能**:实现了最基础的任务提交链路。 * **组件**: * **Ray Job Tool (Ray Client)**:作为客户端工具。 * **VerlTaskSpec YAML**:定义任务的标准配置文件。 * **Multi-Verl Code Path**:支持多代码路径。 * **基础设施**:Handmade Ray Cluster(手工搭建的 Ray 集群)。 * **目标**:验证 Verl 框架与 Ray 的基本交互。 * **v2.0: 任务管理层 (Task Management)** * **核心功能**:引入了服务化管理,不再单纯依赖命令行工具。 * **新增组件**: * **API Server**:提供统一的接口层。 * **Task Management**:实现了任务队列 (Queue)、映射 (Map) 和重试/重新提交 (Resubmit) 机制。 * **基础设施**:仍运行在 Handmade Ray Cluster 上。 * **v2.5: 资源与用户管理 (User & Node Management)** * **核心功能**:从“手工集群”迈向“自动化集群”,并增加了多租户基础。 * **新增组件**: * **User Management**:用户权限与身份管理。 * **Node Management**:核心升级点。支持通过 SSH 管理节点池,实现 Auto-managed Ray Cluster(自动管理的 Ray 集群),不再手动维护。 * **演进**:基础设施层由 Handmade 变为 SSH Node (Auto Managed)。 --- ### **阶段二:产品化与服务化 (Productization & Serving)** 这一阶段主要解决“好不好用”的问题,发布了第一个正式版本,并扩展了业务场景。 * **v3.0: 正式发布版 (Frontend & Data Management)** * **里程碑**:**1st Version to Release!!** (首个对外发布版本) * **核心功能**:完整的前后端分离,闭环了用户的数据流。 * **新增组件**: * **WebUI**:提供可视化的用户界面。 * **Data Management (SFTPGo)**:集成了 SFTPGo,解决用户训练数据、代码的上传与下载问题。 * **价值**:用户可以通过 Web 界面完成从数据上传到任务提交的全流程。 * **v3.5: 定制化与推理服务 (Customized Task & Serving)** * **核心功能**:支持更复杂的训练需求和模型推理。 * **新增组件**: * **Model Serving**:不仅能训练,还能部署模型服务。 * **Customized VerlTaskSpec YAML**:支持自定义参数 (Param)、奖励函数 (Reward)、Verl 代码等。 * **价值**:从单一的训练平台扩展为“训练+推理”的一体化平台,且支持算法工程师深度定制实验参数。 --- ### **阶段三:可观测性体系 (Observability)** 这一阶段主要解决“看得清”的问题,确保系统的稳定性和模型训练的可追踪性。 * **v4.0: 系统级可观测性 (System Observability)** * **核心功能**:建立完整的基础设施监控。 * **新增组件**: * **Prometheus**:指标采集。 * **Grafana**:监控大盘展示。 * **Alert**:告警系统。 * **ELK**:日志收集与分析 (Elasticsearch, Logstash, Kibana)。 * **基础设施升级**:在 SSH Node 上部署了 **Exporter**,用于采集节点层面的 metrics。 * **v4.5: 实验级可观测性 (ML Observability)** * **核心功能**:专注于模型训练过程的指标追踪。 * **新增组件**: * **Weight & Bias (WanB)**:集成专业的 ML 实验追踪工具,用于记录 Loss、Accuracy 等训练指标。 --- ### **阶段四:智能化运维 (Operability & Intelligence)** 这一阶段主要解决“自动化”的问题,引入 AI 来管理 AI 平台。 * **v5.0: 智能运维闭环 (Statistics, SOP, Agent)** * **核心功能**:通过数据统计和 Agent 实现平台的自动化治理。 * **新增组件**: * **Statistics**:平台维度的统计分析(资源利用率、任务成功率等)。 * **SOP Tools**:标准作业程序工具化(自动化运维脚本)。 * **Agent**:智能体。可能用于自动故障诊断、资源自动调度优化或交互式助手。 * **愿景**:打造一个具备自我管理、自我修复能力的 AI 基础设施平台。 --- ### **架构层级总结** | 层级 | 关键组件/技术 | | --- | --- | | **接入层 (Frontend/API)** | WebUI, API Server, User Management | | **调度与编排 (Orchestration)** | Task Management, Ray Job Tool (Client), Node Management | | **计算引擎 (Compute)** | Native Ray Cluster, Verl Framework (TaskSpec YAML) | | **数据与存储 (Data)** | SFTPGo (Data Management), Model Serving | | **可观测性 (Observability)** | Prometheus, Grafana, ELK, Weights & Bias | | **运维与智能 (Ops)** | Exporters, Statistics, SOP Tools, Agent | ---