argus-cluster/mvp_roadmap_v2.md at ce8c2128b485aef6287688dc6ad755d690a6f1e7

yuyr ce8c2128b4 v2.0 补充单元测试，行覆盖90以上

2025-12-26 10:50:33 +08:00

这一版的设计采用了 Overlay 架构 + GPFS 核心存储 + 无状态（Stateless）节点池 的模式，逻辑非常自洽且具备极高的云原生弹性。

目标：验证核心计算逻辑，跑通“提交-执行”的最小闭环。

目标：通过 GPFS 实现控制反转 (IoC)，彻底解耦平台层与计算节点层。这是本架构最关键的转折点。

v2.5: 用户管理 & 无状态 Ray 节点池 (User Mgmt & Stateless Ray Node Pool) * 核心机制：基于 GPFS 的服务发现 (Service Discovery)
Ray Head (有状态)：由 Node Management 启动（通常通过 SSH 或 K8s StatefulSet）。启动后，将自身的 IP 地址写入 GPFS 中的 Head IP File。
Ray Worker (无状态)：
Stateless：Worker 容器启动时不依赖平台指令。
Auto Connect：启动脚本读取 GPFS 中的 Head IP File，获得 Head 地址并自动加入集群。
Watchdog：Worker 内部运行看门狗进程，监控 Head IP 变化。如果 Head 变动，Worker 自动重启或重连，实现自愈。
新增组件：
User Management：多用户隔离。
GPFS：取代了之前的 JuiceFS，作为唯一的共享存储和元数据交换媒介。

目标：发布首个正式版本，并支持大模型训练所需的复杂网络与推理能力。

v3.0: 正式发布版 (Release v1.0) * 里程碑：1st Version to Release!!
核心功能：闭环用户数据流。
新增组件：
WebUI：可视化操作界面。
Data Management (SFTPGo)：用户上传数据/代码 -> SFTPGo -> 写入 GPFS -> Ray Worker 可见。
基础设施：全量切换到 Ray Worker Node (Stateless) + GPFS 的架构。
v3.5: 高级定制与训推一体 (Advanced Task & Serving) * 核心功能：支持复杂的科研需求。
新增组件：
Model Serving：支持模型推理服务。
Advanced VerlTaskSpec：支持自定义 Reward Function、自定义代码、Checkpoint 断点续训 (Resubmit from last checkpoint)。
网络增强：
IB Network Supporting：支持 InfiniBand 网络，确保多机训练的高性能互联。

目标：打开黑盒，监控基础设施与业务指标。

目标：迈向自动化与自治。

从 v2.5 开始，GPFS 承担了 数据存储 (Code/Data)、状态同步 (Head IP) 和 检查点存储 (Checkpoints) 三大职责，架构非常收敛。