argus-cluster/specs/mvp/mvp_roadmap_v2.md

133 lines
5.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

这一版的设计采用了 **Overlay 架构 + GPFS 核心存储 + 无状态Stateless节点池** 的模式,逻辑非常自洽且具备极高的云原生弹性。
---
### **项目代号AI Infra Overlay Platform (Stateless Ray + GPFS)**
#### **阶段一:内核构建与验证 (Kernel & Verification)**
*目标:验证核心计算逻辑,跑通“提交-执行”的最小闭环。*
* **v1.1: 原型验证 (Verl Task Spec & Ray Job)**
* **核心功能**:实现基础的任务定义与提交。
* **组件**
* `Ray Job Tool (Ray Client)`:客户端工具。
* `VerlTaskSpec YAML`:定义多代码路径 (Multi-Verl Code Path) 和任务参数。
* **基础设施**Handmade Ray Cluster手工搭建的集群用于验证核心代码。
* **v2.0: 任务管理层 (Task Management)**
* **核心功能**:引入服务端,管理任务生命周期。
* **新增组件**
* `API Server`:统一接口层。
* `Task Management`:实现任务的队列 (Queue)、映射 (Map) 和重试 (Resubmit) 机制。
* **基础设施**:仍运行在手工集群上,但控制面开始服务化。
---
### **阶段二:架构质变 - 无状态节点池 (The Stateless Shift)**
*目标:通过 GPFS 实现控制反转 (IoC),彻底解耦平台层与计算节点层。这是本架构最关键的转折点。*
* **v2.5: 用户管理 & 无状态 Ray 节点池 (User Mgmt & Stateless Ray Node Pool)** * **核心机制:基于 GPFS 的服务发现 (Service Discovery)**
* **Ray Head (有状态)**:由 `Node Management` 启动(通常通过 SSH 或 K8s StatefulSet。启动后将自身的 IP 地址写入 GPFS 中的 `Head IP File`
* **Ray Worker (无状态)**
* **Stateless**Worker 容器启动时不依赖平台指令。
* **Auto Connect**:启动脚本读取 GPFS 中的 `Head IP File`,获得 Head 地址并自动加入集群。
* **Watchdog**Worker 内部运行看门狗进程,监控 Head IP 变化。如果 Head 变动Worker 自动重启或重连,实现自愈。
* **新增组件**
* `User Management`:多用户隔离。
* `GPFS`:取代了之前的 JuiceFS作为唯一的共享存储和元数据交换媒介。
---
### **阶段三:产品化与高级能力 (Productization & Advanced Features)**
*目标:发布首个正式版本,并支持大模型训练所需的复杂网络与推理能力。*
* **v3.0: 正式发布版 (Release v1.0)** * **里程碑****1st Version to Release!!**
* **核心功能**:闭环用户数据流。
* **新增组件**
* `WebUI`:可视化操作界面。
* `Data Management (SFTPGo)`:用户上传数据/代码 -> SFTPGo -> 写入 GPFS -> Ray Worker 可见。
* **基础设施**:全量切换到 `Ray Worker Node` (Stateless) + `GPFS` 的架构。
* **v3.5: 高级定制与训推一体 (Advanced Task & Serving)** * **核心功能**:支持复杂的科研需求。
* **新增组件**
* `Model Serving`:支持模型推理服务。
* `Advanced VerlTaskSpec`:支持自定义 Reward Function、自定义代码、Checkpoint 断点续训 (Resubmit from last checkpoint)。
* **网络增强**
* **IB Network Supporting**:支持 InfiniBand 网络,确保多机训练的高性能互联。
---
### **阶段四:全链路可观测性 (Full-Stack Observability)**
*目标:打开黑盒,监控基础设施与业务指标。*
* **v4.0: 系统级可观测性 (System Observability)** * **核心功能**:监控集群“活着”且“健康”。
* **新增组件**
* `Prometheus` + `Grafana` + `ELK`:指标与日志平台。
* `Exporter`:部署在 Ray Worker Node 中的监控探针(采集 GPU/CPU/GPFS IO 指标)。
* **v4.5: 算法级可观测性 (ML Observability)** * **核心功能**:监控模型“练得好不好”。
* **新增组件**
* `Weights & Bias (WanB)`:集成实验追踪工具,记录 Loss 曲线和训练参数。
---
### **阶段五:智能化运维 (AIOps)**
*目标:迈向自动化与自治。*
* **v5.0: 智能运维闭环 (Operability)** * **核心功能**:降低运维成本,提升稳定性。
* **新增组件**
* `Statistics`:集群资源利用率统计报表。
* `SOP Tools`:标准运维工具(如自动清理 GPFS 垃圾文件、僵尸节点检测)。
* `Agent`:智能运维助手(基于 LLM 的日志分析与故障诊断)。
---
### **新架构核心亮点总结**
1. **极简的节点管理**
* 利用 v2.5 的 **Head IP File + Watchdog** 机制,平台层不再需要维护复杂的 Worker IP 列表和 SSH 连接池。
* **扩缩容极其简单**只需在底层K8s/Docker增加 Worker 副本数,它们就会自动通过 GPFS 找到 Head 并加入战斗。
2. **统一的数据平面 (GPFS)**
* 从 v2.5 开始GPFS 承担了 **数据存储** (Code/Data)、**状态同步** (Head IP) 和 **检查点存储** (Checkpoints) 三大职责,架构非常收敛。
3. **高弹性 (Resilience)**
* Worker 的 **Watchdog** 机制确保了当 Head 重启或网络抖动时,集群具备自我修复能力,无需人工干预。