5.0 KiB
这一版的设计采用了 Overlay 架构 + GPFS 核心存储 + 无状态(Stateless)节点池 的模式,逻辑非常自洽且具备极高的云原生弹性。
项目代号:AI Infra Overlay Platform (Stateless Ray + GPFS)
阶段一:内核构建与验证 (Kernel & Verification)
目标:验证核心计算逻辑,跑通“提交-执行”的最小闭环。
-
v1.1: 原型验证 (Verl Task Spec & Ray Job)
-
核心功能:实现基础的任务定义与提交。
-
组件:
-
Ray Job Tool (Ray Client):客户端工具。 -
VerlTaskSpec YAML:定义多代码路径 (Multi-Verl Code Path) 和任务参数。 -
基础设施:Handmade Ray Cluster(手工搭建的集群),用于验证核心代码。
-
v2.0: 任务管理层 (Task Management)
-
核心功能:引入服务端,管理任务生命周期。
-
新增组件:
-
API Server:统一接口层。 -
Task Management:实现任务的队列 (Queue)、映射 (Map) 和重试 (Resubmit) 机制。 -
基础设施:仍运行在手工集群上,但控制面开始服务化。
阶段二:架构质变 - 无状态节点池 (The Stateless Shift)
目标:通过 GPFS 实现控制反转 (IoC),彻底解耦平台层与计算节点层。这是本架构最关键的转折点。
- v2.5: 用户管理 & 无状态 Ray 节点池 (User Mgmt & Stateless Ray Node Pool) * 核心机制:基于 GPFS 的服务发现 (Service Discovery)
- Ray Head (有状态):由
Node Management启动(通常通过 SSH 或 K8s StatefulSet)。启动后,将自身的 IP 地址写入 GPFS 中的Head IP File。 - Ray Worker (无状态):
- Stateless:Worker 容器启动时不依赖平台指令。
- Auto Connect:启动脚本读取 GPFS 中的
Head IP File,获得 Head 地址并自动加入集群。 - Watchdog:Worker 内部运行看门狗进程,监控 Head IP 变化。如果 Head 变动,Worker 自动重启或重连,实现自愈。
- 新增组件:
User Management:多用户隔离。GPFS:取代了之前的 JuiceFS,作为唯一的共享存储和元数据交换媒介。
阶段三:产品化与高级能力 (Productization & Advanced Features)
目标:发布首个正式版本,并支持大模型训练所需的复杂网络与推理能力。
-
v3.0: 正式发布版 (Release v1.0) * 里程碑:1st Version to Release!!
-
核心功能:闭环用户数据流。
-
新增组件:
-
WebUI:可视化操作界面。 -
Data Management (SFTPGo):用户上传数据/代码 -> SFTPGo -> 写入 GPFS -> Ray Worker 可见。 -
基础设施:全量切换到
Ray Worker Node(Stateless) +GPFS的架构。 -
v3.5: 高级定制与训推一体 (Advanced Task & Serving) * 核心功能:支持复杂的科研需求。
-
新增组件:
-
Model Serving:支持模型推理服务。 -
Advanced VerlTaskSpec:支持自定义 Reward Function、自定义代码、Checkpoint 断点续训 (Resubmit from last checkpoint)。 -
网络增强:
-
IB Network Supporting:支持 InfiniBand 网络,确保多机训练的高性能互联。
阶段四:全链路可观测性 (Full-Stack Observability)
目标:打开黑盒,监控基础设施与业务指标。
-
v4.0: 系统级可观测性 (System Observability) * 核心功能:监控集群“活着”且“健康”。
-
新增组件:
-
Prometheus+Grafana+ELK:指标与日志平台。 -
Exporter:部署在 Ray Worker Node 中的监控探针(采集 GPU/CPU/GPFS IO 指标)。 -
v4.5: 算法级可观测性 (ML Observability) * 核心功能:监控模型“练得好不好”。
-
新增组件:
-
Weights & Bias (WanB):集成实验追踪工具,记录 Loss 曲线和训练参数。
阶段五:智能化运维 (AIOps)
目标:迈向自动化与自治。
- v5.0: 智能运维闭环 (Operability) * 核心功能:降低运维成本,提升稳定性。
- 新增组件:
Statistics:集群资源利用率统计报表。SOP Tools:标准运维工具(如自动清理 GPFS 垃圾文件、僵尸节点检测)。Agent:智能运维助手(基于 LLM 的日志分析与故障诊断)。
新架构核心亮点总结
- 极简的节点管理:
- 利用 v2.5 的 Head IP File + Watchdog 机制,平台层不再需要维护复杂的 Worker IP 列表和 SSH 连接池。
- 扩缩容极其简单:只需在底层(K8s/Docker)增加 Worker 副本数,它们就会自动通过 GPFS 找到 Head 并加入战斗。
- 统一的数据平面 (GPFS):
- 从 v2.5 开始,GPFS 承担了 数据存储 (Code/Data)、状态同步 (Head IP) 和 检查点存储 (Checkpoints) 三大职责,架构非常收敛。
- 高弹性 (Resilience):
- Worker 的 Watchdog 机制确保了当 Head 重启或网络抖动时,集群具备自我修复能力,无需人工干预。