argus-cluster/specs/mvp/mvp_roadmap_v2.md

这一版的设计采用了 **Overlay 架构 + GPFS 核心存储 + 无状态（Stateless）节点池** 的模式，逻辑非常自洽且具备极高的云原生弹性。

---

### **项目代号：AI Infra Overlay Platform (Stateless Ray + GPFS)**

#### **阶段一：内核构建与验证 (Kernel & Verification)**

*目标：验证核心计算逻辑，跑通“提交-执行”的最小闭环。*

* **v1.1: 原型验证 (Verl Task Spec & Ray Job)**
* **核心功能**：实现基础的任务定义与提交。
* **组件**：
* `Ray Job Tool (Ray Client)`：客户端工具。
* `VerlTaskSpec YAML`：定义多代码路径 (Multi-Verl Code Path) 和任务参数。


* **基础设施**：Handmade Ray Cluster（手工搭建的集群），用于验证核心代码。


* **v2.0: 任务管理层 (Task Management)**
* **核心功能**：引入服务端，管理任务生命周期。
* **新增组件**：
* `API Server`：统一接口层。
* `Task Management`：实现任务的队列 (Queue)、映射 (Map) 和重试 (Resubmit) 机制。


* **基础设施**：仍运行在手工集群上，但控制面开始服务化。


---

### **阶段二：架构质变 - 无状态节点池 (The Stateless Shift)**

*目标：通过 GPFS 实现控制反转 (IoC)，彻底解耦平台层与计算节点层。这是本架构最关键的转折点。*

* **v2.5: 用户管理 & 无状态 Ray 节点池 (User Mgmt & Stateless Ray Node Pool)**     * **核心机制：基于 GPFS 的服务发现 (Service Discovery)**
* **Ray Head (有状态)**：由 `Node Management` 启动（通常通过 SSH 或 K8s StatefulSet）。启动后，将自身的 IP 地址写入 GPFS 中的 `Head IP File`。
* **Ray Worker (无状态)**：
* **Stateless**：Worker 容器启动时不依赖平台指令。
* **Auto Connect**：启动脚本读取 GPFS 中的 `Head IP File`，获得 Head 地址并自动加入集群。
* **Watchdog**：Worker 内部运行看门狗进程，监控 Head IP 变化。如果 Head 变动，Worker 自动重启或重连，实现自愈。
* **新增组件**：
* `User Management`：多用户隔离。
* `GPFS`：取代了之前的 JuiceFS，作为唯一的共享存储和元数据交换媒介。


---

### **阶段三：产品化与高级能力 (Productization & Advanced Features)**

*目标：发布首个正式版本，并支持大模型训练所需的复杂网络与推理能力。*

* **v3.0: 正式发布版 (Release v1.0)**     * **里程碑**：**1st Version to Release!!**
* **核心功能**：闭环用户数据流。
* **新增组件**：
* `WebUI`：可视化操作界面。
* `Data Management (SFTPGo)`：用户上传数据/代码 -> SFTPGo -> 写入 GPFS -> Ray Worker 可见。


* **基础设施**：全量切换到 `Ray Worker Node` (Stateless) + `GPFS` 的架构。


* **v3.5: 高级定制与训推一体 (Advanced Task & Serving)**     * **核心功能**：支持复杂的科研需求。
* **新增组件**：
* `Model Serving`：支持模型推理服务。
* `Advanced VerlTaskSpec`：支持自定义 Reward Function、自定义代码、Checkpoint 断点续训 (Resubmit from last checkpoint)。


* **网络增强**：
* **IB Network Supporting**：支持 InfiniBand 网络，确保多机训练的高性能互联。


---

### **阶段四：全链路可观测性 (Full-Stack Observability)**

*目标：打开黑盒，监控基础设施与业务指标。*

* **v4.0: 系统级可观测性 (System Observability)**     * **核心功能**：监控集群“活着”且“健康”。
* **新增组件**：
* `Prometheus` + `Grafana` + `ELK`：指标与日志平台。
* `Exporter`：部署在 Ray Worker Node 中的监控探针（采集 GPU/CPU/GPFS IO 指标）。


* **v4.5: 算法级可观测性 (ML Observability)**     * **核心功能**：监控模型“练得好不好”。
* **新增组件**：
* `Weights & Bias (WanB)`：集成实验追踪工具，记录 Loss 曲线和训练参数。


---

### **阶段五：智能化运维 (AIOps)**

*目标：迈向自动化与自治。*

* **v5.0: 智能运维闭环 (Operability)**     * **核心功能**：降低运维成本，提升稳定性。
* **新增组件**：
* `Statistics`：集群资源利用率统计报表。
* `SOP Tools`：标准运维工具（如自动清理 GPFS 垃圾文件、僵尸节点检测）。
* `Agent`：智能运维助手（基于 LLM 的日志分析与故障诊断）。


---

### **新架构核心亮点总结**

1. **极简的节点管理**：
* 利用 v2.5 的 **Head IP File + Watchdog** 机制，平台层不再需要维护复杂的 Worker IP 列表和 SSH 连接池。
* **扩缩容极其简单**：只需在底层（K8s/Docker）增加 Worker 副本数，它们就会自动通过 GPFS 找到 Head 并加入战斗。


2. **统一的数据平面 (GPFS)**：
* 从 v2.5 开始，GPFS 承担了 **数据存储** (Code/Data)、**状态同步** (Head IP) 和 **检查点存储** (Checkpoints) 三大职责，架构非常收敛。


3. **高弹性 (Resilience)**：
* Worker 的 **Watchdog** 机制确保了当 Head 重启或网络抖动时，集群具备自我修复能力，无需人工干预。