5.2 KiB
渐进的 AI Infrastructure 演进路线图。从最初的单机脚本执行,到最终的智能化运维平台
对应架构演进图,设计基于 Native Ray Cluster 与 Verl 框架的 AI Infra Roadmap 设计文档。
项目代号:AI Infra Roadmap (Native Ray + Verl)
阶段一:核心内核构建 (Foundation & Core Execution)
这一阶段主要解决“能不能跑”的问题,聚焦于核心计算引擎的对接和基础任务调度。
-
v1.1: 原型验证 (Verl Task Spec & Ray Job)
-
核心功能:实现了最基础的任务提交链路。
-
组件:
- Ray Job Tool (Ray Client):作为客户端工具。
- VerlTaskSpec YAML:定义任务的标准配置文件。
- Multi-Verl Code Path:支持多代码路径。
-
基础设施:Handmade Ray Cluster(手工搭建的 Ray 集群)。
-
目标:验证 Verl 框架与 Ray 的基本交互。
-
-
v2.0: 任务管理层 (Task Management)
-
核心功能:引入了服务化管理,不再单纯依赖命令行工具。
-
新增组件:
- API Server:提供统一的接口层。
- Task Management:实现了任务队列 (Queue)、映射 (Map) 和重试/重新提交 (Resubmit) 机制。
-
基础设施:仍运行在 Handmade Ray Cluster 上。
-
-
v2.5: 资源与用户管理 (User & Node Management)
-
核心功能:从“手工集群”迈向“自动化集群”,并增加了多租户基础。
-
新增组件:
- User Management:用户权限与身份管理。
- Node Management:核心升级点。支持通过 SSH 管理节点池,实现 Auto-managed Ray Cluster(自动管理的 Ray 集群),不再手动维护。
-
演进:基础设施层由 Handmade 变为 SSH Node (Auto Managed)。
-
阶段二:产品化与服务化 (Productization & Serving)
这一阶段主要解决“好不好用”的问题,发布了第一个正式版本,并扩展了业务场景。
-
v3.0: 正式发布版 (Frontend & Data Management) * 里程碑:1st Version to Release!! (首个对外发布版本)
-
核心功能:完整的前后端分离,闭环了用户的数据流。
-
新增组件:
- WebUI:提供可视化的用户界面。
- Data Management (SFTPGo):集成了 SFTPGo,解决用户训练数据、代码的上传与下载问题。
-
价值:用户可以通过 Web 界面完成从数据上传到任务提交的全流程。
-
-
v3.5: 定制化与推理服务 (Customized Task & Serving)
-
核心功能:支持更复杂的训练需求和模型推理。
-
新增组件:
- Model Serving:不仅能训练,还能部署模型服务。
- Customized VerlTaskSpec YAML:支持自定义参数 (Param)、奖励函数 (Reward)、Verl 代码等。
-
价值:从单一的训练平台扩展为“训练+推理”的一体化平台,且支持算法工程师深度定制实验参数。
-
阶段三:可观测性体系 (Observability)
这一阶段主要解决“看得清”的问题,确保系统的稳定性和模型训练的可追踪性。
-
v4.0: 系统级可观测性 (System Observability)
-
核心功能:建立完整的基础设施监控。
-
新增组件:
- Prometheus:指标采集。
- Grafana:监控大盘展示。
- Alert:告警系统。
- ELK:日志收集与分析 (Elasticsearch, Logstash, Kibana)。
-
基础设施升级:在 SSH Node 上部署了 Exporter,用于采集节点层面的 metrics。
-
-
v4.5: 实验级可观测性 (ML Observability)
- 核心功能:专注于模型训练过程的指标追踪。
- 新增组件:
- Weight & Bias (WanB):集成专业的 ML 实验追踪工具,用于记录 Loss、Accuracy 等训练指标。
阶段四:智能化运维 (Operability & Intelligence)
这一阶段主要解决“自动化”的问题,引入 AI 来管理 AI 平台。
- v5.0: 智能运维闭环 (Statistics, SOP, Agent)
-
核心功能:通过数据统计和 Agent 实现平台的自动化治理。
-
新增组件:
- Statistics:平台维度的统计分析(资源利用率、任务成功率等)。
- SOP Tools:标准作业程序工具化(自动化运维脚本)。
- Agent:智能体。可能用于自动故障诊断、资源自动调度优化或交互式助手。
-
愿景:打造一个具备自我管理、自我修复能力的 AI 基础设施平台。
-
架构层级总结
| 层级 | 关键组件/技术 |
|---|---|
| 接入层 (Frontend/API) | WebUI, API Server, User Management |
| 调度与编排 (Orchestration) | Task Management, Ray Job Tool (Client), Node Management |
| 计算引擎 (Compute) | Native Ray Cluster, Verl Framework (TaskSpec YAML) |
| 数据与存储 (Data) | SFTPGo (Data Management), Model Serving |
| 可观测性 (Observability) | Prometheus, Grafana, ELK, Weights & Bias |
| 运维与智能 (Ops) | Exporters, Statistics, SOP Tools, Agent |