update roadmap v2
This commit is contained in:
parent
64558c8cea
commit
45b6a5f05e
130
specs/mvp/mvp_roadmap_v2.md
Normal file
130
specs/mvp/mvp_roadmap_v2.md
Normal file
@ -0,0 +1,130 @@
|
||||
渐进的 AI Infrastructure 演进路线图。从最初的单机脚本执行,到最终的智能化运维平台
|
||||
|
||||
对应架构演进图,设计**基于 Native Ray Cluster 与 Verl 框架的 AI Infra Roadmap 设计文档**。
|
||||
|
||||
---
|
||||
|
||||
### **项目代号:AI Infra Roadmap (Native Ray + Verl)**
|
||||
|
||||
#### **阶段一:核心内核构建 (Foundation & Core Execution)**
|
||||
|
||||
这一阶段主要解决“能不能跑”的问题,聚焦于核心计算引擎的对接和基础任务调度。
|
||||
|
||||
* **v1.1: 原型验证 (Verl Task Spec & Ray Job)**
|
||||
* **核心功能**:实现了最基础的任务提交链路。
|
||||
* **组件**:
|
||||
* **Ray Job Tool (Ray Client)**:作为客户端工具。
|
||||
* **VerlTaskSpec YAML**:定义任务的标准配置文件。
|
||||
* **Multi-Verl Code Path**:支持多代码路径。
|
||||
|
||||
* **基础设施**:Handmade Ray Cluster(手工搭建的 Ray 集群)。
|
||||
* **目标**:验证 Verl 框架与 Ray 的基本交互。
|
||||
|
||||
|
||||
* **v2.0: 任务管理层 (Task Management)**
|
||||
* **核心功能**:引入了服务化管理,不再单纯依赖命令行工具。
|
||||
* **新增组件**:
|
||||
* **API Server**:提供统一的接口层。
|
||||
* **Task Management**:实现了任务队列 (Queue)、映射 (Map) 和重试/重新提交 (Resubmit) 机制。
|
||||
|
||||
|
||||
* **基础设施**:仍运行在 Handmade Ray Cluster 上。
|
||||
|
||||
|
||||
* **v2.5: 资源与用户管理 (User & Node Management)**
|
||||
* **核心功能**:从“手工集群”迈向“自动化集群”,并增加了多租户基础。
|
||||
* **新增组件**:
|
||||
* **User Management**:用户权限与身份管理。
|
||||
* **Node Management**:核心升级点。支持通过 SSH 管理节点池,实现 Auto-managed Ray Cluster(自动管理的 Ray 集群),不再手动维护。
|
||||
|
||||
|
||||
* **演进**:基础设施层由 Handmade 变为 SSH Node (Auto Managed)。
|
||||
|
||||
|
||||
|
||||
---
|
||||
|
||||
### **阶段二:产品化与服务化 (Productization & Serving)**
|
||||
|
||||
这一阶段主要解决“好不好用”的问题,发布了第一个正式版本,并扩展了业务场景。
|
||||
|
||||
* **v3.0: 正式发布版 (Frontend & Data Management)** * **里程碑**:**1st Version to Release!!** (首个对外发布版本)
|
||||
* **核心功能**:完整的前后端分离,闭环了用户的数据流。
|
||||
* **新增组件**:
|
||||
* **WebUI**:提供可视化的用户界面。
|
||||
* **Data Management (SFTPGo)**:集成了 SFTPGo,解决用户训练数据、代码的上传与下载问题。
|
||||
|
||||
|
||||
* **价值**:用户可以通过 Web 界面完成从数据上传到任务提交的全流程。
|
||||
|
||||
|
||||
* **v3.5: 定制化与推理服务 (Customized Task & Serving)**
|
||||
* **核心功能**:支持更复杂的训练需求和模型推理。
|
||||
* **新增组件**:
|
||||
* **Model Serving**:不仅能训练,还能部署模型服务。
|
||||
* **Customized VerlTaskSpec YAML**:支持自定义参数 (Param)、奖励函数 (Reward)、Verl 代码等。
|
||||
|
||||
|
||||
* **价值**:从单一的训练平台扩展为“训练+推理”的一体化平台,且支持算法工程师深度定制实验参数。
|
||||
|
||||
|
||||
|
||||
---
|
||||
|
||||
### **阶段三:可观测性体系 (Observability)**
|
||||
|
||||
这一阶段主要解决“看得清”的问题,确保系统的稳定性和模型训练的可追踪性。
|
||||
|
||||
* **v4.0: 系统级可观测性 (System Observability)**
|
||||
* **核心功能**:建立完整的基础设施监控。
|
||||
* **新增组件**:
|
||||
* **Prometheus**:指标采集。
|
||||
* **Grafana**:监控大盘展示。
|
||||
* **Alert**:告警系统。
|
||||
* **ELK**:日志收集与分析 (Elasticsearch, Logstash, Kibana)。
|
||||
|
||||
|
||||
* **基础设施升级**:在 SSH Node 上部署了 **Exporter**,用于采集节点层面的 metrics。
|
||||
|
||||
|
||||
* **v4.5: 实验级可观测性 (ML Observability)**
|
||||
* **核心功能**:专注于模型训练过程的指标追踪。
|
||||
* **新增组件**:
|
||||
* **Weight & Bias (WanB)**:集成专业的 ML 实验追踪工具,用于记录 Loss、Accuracy 等训练指标。
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
---
|
||||
|
||||
### **阶段四:智能化运维 (Operability & Intelligence)**
|
||||
|
||||
这一阶段主要解决“自动化”的问题,引入 AI 来管理 AI 平台。
|
||||
|
||||
* **v5.0: 智能运维闭环 (Statistics, SOP, Agent)**
|
||||
* **核心功能**:通过数据统计和 Agent 实现平台的自动化治理。
|
||||
* **新增组件**:
|
||||
* **Statistics**:平台维度的统计分析(资源利用率、任务成功率等)。
|
||||
* **SOP Tools**:标准作业程序工具化(自动化运维脚本)。
|
||||
* **Agent**:智能体。可能用于自动故障诊断、资源自动调度优化或交互式助手。
|
||||
|
||||
|
||||
* **愿景**:打造一个具备自我管理、自我修复能力的 AI 基础设施平台。
|
||||
|
||||
|
||||
|
||||
---
|
||||
|
||||
### **架构层级总结**
|
||||
|
||||
| 层级 | 关键组件/技术 |
|
||||
| --- | --- |
|
||||
| **接入层 (Frontend/API)** | WebUI, API Server, User Management |
|
||||
| **调度与编排 (Orchestration)** | Task Management, Ray Job Tool (Client), Node Management |
|
||||
| **计算引擎 (Compute)** | Native Ray Cluster, Verl Framework (TaskSpec YAML) |
|
||||
| **数据与存储 (Data)** | SFTPGo (Data Management), Model Serving |
|
||||
| **可观测性 (Observability)** | Prometheus, Grafana, ELK, Weights & Bias |
|
||||
| **运维与智能 (Ops)** | Exporters, Statistics, SOP Tools, Agent |
|
||||
|
||||
---
|
||||
8294
specs/mvp/sw_arch.excalidraw
Normal file
8294
specs/mvp/sw_arch.excalidraw
Normal file
File diff suppressed because it is too large
Load Diff
Loading…
x
Reference in New Issue
Block a user