133 lines
5.0 KiB
Markdown
133 lines
5.0 KiB
Markdown
这一版的设计采用了 **Overlay 架构 + GPFS 核心存储 + 无状态(Stateless)节点池** 的模式,逻辑非常自洽且具备极高的云原生弹性。
|
||
|
||
---
|
||
|
||
### **项目代号:AI Infra Overlay Platform (Stateless Ray + GPFS)**
|
||
|
||
#### **阶段一:内核构建与验证 (Kernel & Verification)**
|
||
|
||
*目标:验证核心计算逻辑,跑通“提交-执行”的最小闭环。*
|
||
|
||
* **v1.1: 原型验证 (Verl Task Spec & Ray Job)**
|
||
* **核心功能**:实现基础的任务定义与提交。
|
||
* **组件**:
|
||
* `Ray Job Tool (Ray Client)`:客户端工具。
|
||
* `VerlTaskSpec YAML`:定义多代码路径 (Multi-Verl Code Path) 和任务参数。
|
||
|
||
|
||
* **基础设施**:Handmade Ray Cluster(手工搭建的集群),用于验证核心代码。
|
||
|
||
|
||
* **v2.0: 任务管理层 (Task Management)**
|
||
* **核心功能**:引入服务端,管理任务生命周期。
|
||
* **新增组件**:
|
||
* `API Server`:统一接口层。
|
||
* `Task Management`:实现任务的队列 (Queue)、映射 (Map) 和重试 (Resubmit) 机制。
|
||
|
||
|
||
* **基础设施**:仍运行在手工集群上,但控制面开始服务化。
|
||
|
||
|
||
|
||
---
|
||
|
||
### **阶段二:架构质变 - 无状态节点池 (The Stateless Shift)**
|
||
|
||
*目标:通过 GPFS 实现控制反转 (IoC),彻底解耦平台层与计算节点层。这是本架构最关键的转折点。*
|
||
|
||
* **v2.5: 用户管理 & 无状态 Ray 节点池 (User Mgmt & Stateless Ray Node Pool)** * **核心机制:基于 GPFS 的服务发现 (Service Discovery)**
|
||
* **Ray Head (有状态)**:由 `Node Management` 启动(通常通过 SSH 或 K8s StatefulSet)。启动后,将自身的 IP 地址写入 GPFS 中的 `Head IP File`。
|
||
* **Ray Worker (无状态)**:
|
||
* **Stateless**:Worker 容器启动时不依赖平台指令。
|
||
* **Auto Connect**:启动脚本读取 GPFS 中的 `Head IP File`,获得 Head 地址并自动加入集群。
|
||
* **Watchdog**:Worker 内部运行看门狗进程,监控 Head IP 变化。如果 Head 变动,Worker 自动重启或重连,实现自愈。
|
||
* **新增组件**:
|
||
* `User Management`:多用户隔离。
|
||
* `GPFS`:取代了之前的 JuiceFS,作为唯一的共享存储和元数据交换媒介。
|
||
|
||
|
||
|
||
|
||
|
||
---
|
||
|
||
### **阶段三:产品化与高级能力 (Productization & Advanced Features)**
|
||
|
||
*目标:发布首个正式版本,并支持大模型训练所需的复杂网络与推理能力。*
|
||
|
||
* **v3.0: 正式发布版 (Release v1.0)** * **里程碑**:**1st Version to Release!!**
|
||
* **核心功能**:闭环用户数据流。
|
||
* **新增组件**:
|
||
* `WebUI`:可视化操作界面。
|
||
* `Data Management (SFTPGo)`:用户上传数据/代码 -> SFTPGo -> 写入 GPFS -> Ray Worker 可见。
|
||
|
||
|
||
* **基础设施**:全量切换到 `Ray Worker Node` (Stateless) + `GPFS` 的架构。
|
||
|
||
|
||
* **v3.5: 高级定制与训推一体 (Advanced Task & Serving)** * **核心功能**:支持复杂的科研需求。
|
||
* **新增组件**:
|
||
* `Model Serving`:支持模型推理服务。
|
||
* `Advanced VerlTaskSpec`:支持自定义 Reward Function、自定义代码、Checkpoint 断点续训 (Resubmit from last checkpoint)。
|
||
|
||
|
||
* **网络增强**:
|
||
* **IB Network Supporting**:支持 InfiniBand 网络,确保多机训练的高性能互联。
|
||
|
||
|
||
|
||
|
||
|
||
---
|
||
|
||
### **阶段四:全链路可观测性 (Full-Stack Observability)**
|
||
|
||
*目标:打开黑盒,监控基础设施与业务指标。*
|
||
|
||
* **v4.0: 系统级可观测性 (System Observability)** * **核心功能**:监控集群“活着”且“健康”。
|
||
* **新增组件**:
|
||
* `Prometheus` + `Grafana` + `ELK`:指标与日志平台。
|
||
* `Exporter`:部署在 Ray Worker Node 中的监控探针(采集 GPU/CPU/GPFS IO 指标)。
|
||
|
||
|
||
|
||
|
||
* **v4.5: 算法级可观测性 (ML Observability)** * **核心功能**:监控模型“练得好不好”。
|
||
* **新增组件**:
|
||
* `Weights & Bias (WanB)`:集成实验追踪工具,记录 Loss 曲线和训练参数。
|
||
|
||
|
||
|
||
|
||
|
||
---
|
||
|
||
### **阶段五:智能化运维 (AIOps)**
|
||
|
||
*目标:迈向自动化与自治。*
|
||
|
||
* **v5.0: 智能运维闭环 (Operability)** * **核心功能**:降低运维成本,提升稳定性。
|
||
* **新增组件**:
|
||
* `Statistics`:集群资源利用率统计报表。
|
||
* `SOP Tools`:标准运维工具(如自动清理 GPFS 垃圾文件、僵尸节点检测)。
|
||
* `Agent`:智能运维助手(基于 LLM 的日志分析与故障诊断)。
|
||
|
||
|
||
|
||
|
||
|
||
---
|
||
|
||
### **新架构核心亮点总结**
|
||
|
||
1. **极简的节点管理**:
|
||
* 利用 v2.5 的 **Head IP File + Watchdog** 机制,平台层不再需要维护复杂的 Worker IP 列表和 SSH 连接池。
|
||
* **扩缩容极其简单**:只需在底层(K8s/Docker)增加 Worker 副本数,它们就会自动通过 GPFS 找到 Head 并加入战斗。
|
||
|
||
|
||
2. **统一的数据平面 (GPFS)**:
|
||
* 从 v2.5 开始,GPFS 承担了 **数据存储** (Code/Data)、**状态同步** (Head IP) 和 **检查点存储** (Checkpoints) 三大职责,架构非常收敛。
|
||
|
||
|
||
3. **高弹性 (Resilience)**:
|
||
* Worker 的 **Watchdog** 机制确保了当 Head 重启或网络抖动时,集群具备自我修复能力,无需人工干预。 |