argus-cluster/specs/mvp/mvp_roadmap_v2.md

5.0 KiB
Raw Blame History

这一版的设计采用了 Overlay 架构 + GPFS 核心存储 + 无状态Stateless节点池 的模式,逻辑非常自洽且具备极高的云原生弹性。


项目代号AI Infra Overlay Platform (Stateless Ray + GPFS)

阶段一:内核构建与验证 (Kernel & Verification)

目标:验证核心计算逻辑,跑通“提交-执行”的最小闭环。

  • v1.1: 原型验证 (Verl Task Spec & Ray Job)

  • 核心功能:实现基础的任务定义与提交。

  • 组件

  • Ray Job Tool (Ray Client):客户端工具。

  • VerlTaskSpec YAML:定义多代码路径 (Multi-Verl Code Path) 和任务参数。

  • 基础设施Handmade Ray Cluster手工搭建的集群用于验证核心代码。

  • v2.0: 任务管理层 (Task Management)

  • 核心功能:引入服务端,管理任务生命周期。

  • 新增组件

  • API Server:统一接口层。

  • Task Management:实现任务的队列 (Queue)、映射 (Map) 和重试 (Resubmit) 机制。

  • 基础设施:仍运行在手工集群上,但控制面开始服务化。


阶段二:架构质变 - 无状态节点池 (The Stateless Shift)

目标:通过 GPFS 实现控制反转 (IoC),彻底解耦平台层与计算节点层。这是本架构最关键的转折点。

  • v2.5: 用户管理 & 无状态 Ray 节点池 (User Mgmt & Stateless Ray Node Pool) * 核心机制:基于 GPFS 的服务发现 (Service Discovery)
  • Ray Head (有状态):由 Node Management 启动(通常通过 SSH 或 K8s StatefulSet。启动后将自身的 IP 地址写入 GPFS 中的 Head IP File
  • Ray Worker (无状态)
  • StatelessWorker 容器启动时不依赖平台指令。
  • Auto Connect:启动脚本读取 GPFS 中的 Head IP File,获得 Head 地址并自动加入集群。
  • WatchdogWorker 内部运行看门狗进程,监控 Head IP 变化。如果 Head 变动Worker 自动重启或重连,实现自愈。
  • 新增组件
  • User Management:多用户隔离。
  • GPFS:取代了之前的 JuiceFS作为唯一的共享存储和元数据交换媒介。

阶段三:产品化与高级能力 (Productization & Advanced Features)

目标:发布首个正式版本,并支持大模型训练所需的复杂网络与推理能力。

  • v3.0: 正式发布版 (Release v1.0) * 里程碑1st Version to Release!!

  • 核心功能:闭环用户数据流。

  • 新增组件

  • WebUI:可视化操作界面。

  • Data Management (SFTPGo):用户上传数据/代码 -> SFTPGo -> 写入 GPFS -> Ray Worker 可见。

  • 基础设施:全量切换到 Ray Worker Node (Stateless) + GPFS 的架构。

  • v3.5: 高级定制与训推一体 (Advanced Task & Serving) * 核心功能:支持复杂的科研需求。

  • 新增组件

  • Model Serving:支持模型推理服务。

  • Advanced VerlTaskSpec:支持自定义 Reward Function、自定义代码、Checkpoint 断点续训 (Resubmit from last checkpoint)。

  • 网络增强

  • IB Network Supporting:支持 InfiniBand 网络,确保多机训练的高性能互联。


阶段四:全链路可观测性 (Full-Stack Observability)

目标:打开黑盒,监控基础设施与业务指标。

  • v4.0: 系统级可观测性 (System Observability) * 核心功能:监控集群“活着”且“健康”。

  • 新增组件

  • Prometheus + Grafana + ELK:指标与日志平台。

  • Exporter:部署在 Ray Worker Node 中的监控探针(采集 GPU/CPU/GPFS IO 指标)。

  • v4.5: 算法级可观测性 (ML Observability) * 核心功能:监控模型“练得好不好”。

  • 新增组件

  • Weights & Bias (WanB):集成实验追踪工具,记录 Loss 曲线和训练参数。


阶段五:智能化运维 (AIOps)

目标:迈向自动化与自治。

  • v5.0: 智能运维闭环 (Operability) * 核心功能:降低运维成本,提升稳定性。
  • 新增组件
  • Statistics:集群资源利用率统计报表。
  • SOP Tools:标准运维工具(如自动清理 GPFS 垃圾文件、僵尸节点检测)。
  • Agent:智能运维助手(基于 LLM 的日志分析与故障诊断)。

新架构核心亮点总结

  1. 极简的节点管理
  • 利用 v2.5 的 Head IP File + Watchdog 机制,平台层不再需要维护复杂的 Worker IP 列表和 SSH 连接池。
  • 扩缩容极其简单只需在底层K8s/Docker增加 Worker 副本数,它们就会自动通过 GPFS 找到 Head 并加入战斗。
  1. 统一的数据平面 (GPFS)
  • 从 v2.5 开始GPFS 承担了 数据存储 (Code/Data)、状态同步 (Head IP) 和 检查点存储 (Checkpoints) 三大职责,架构非常收敛。
  1. 高弹性 (Resilience)
  • Worker 的 Watchdog 机制确保了当 Head 重启或网络抖动时,集群具备自我修复能力,无需人工干预。