argus-cluster/specs/mvp/v2.0/v2_plan.md

# MVP v2.0 开发计划（服务化入口 + 队列调度 + Ray Jobs SDK）

目标：在 v1.1（脚本 + Ray Jobs SDK）已验收通过的基础上，交付一个**可独立运行的最小“服务层”**：
- 用户通过 **HTTP API** 提交训练任务（PPO/GRPO/SFT）。
- 服务层分配一个**人类易读的任务 ID**（`task_id`），并把任务放入队列。
- 后台调度器在资源满足时再向 Ray 集群提交 Ray Job，并持续追踪 Ray Job 状态。
- 针对 `verl` 的 **fail-fast 资源预检查**（资源不足直接 `ValueError` 失败）做“服务级重试/排队”，避免用户反复手工提交。

> 约束继承 v1.1：head 不跑训练；driver 必须落到 worker；共享存储只考虑 NFS（容器内 `/private`）。

---

## 1. 背景：为什么 v2.0 需要“服务层调度”

在 v1.1 中我们通过 Ray Job 提交 `verl` 训练任务。`verl` PPO/GRPO 在初始化 worker 时会创建资源池，并做一次 fail-fast 的资源检查：
- 触发点：`ResourcePoolManager.create_resource_pool()` 末尾调用 `_check_resource_available()`
- `_check_resource_available()` 使用 `ray._private.state.available_resources_per_node()` 统计“可用 GPU/NPU”，如果不足则直接抛异常：
  - `ValueError: Total available GPUs 0 is less than total desired GPUs 8`

这是一种合理的选择（避免 Ray 层面无限 pending/卡死），但会带来一个平台侧问题：
- 当集群暂时没有足够资源时，用户提交会“立刻失败”，需要手动重试。

因此 v2.0 的服务层要提供：
- **队列 + gang 约束**：资源不满足则任务在服务层 pending（不提交到 Ray）。
- **状态追踪**：一旦提交到 Ray，持续获取 Ray Job 状态并回传给用户。
- **资源不足的“自动重试”**：即使发生 race（提交时资源够、启动时被抢走），也能识别该类失败并延迟重试。

---

## 2. v2.0 交付范围（Scope）

### 2.1 必做（MVP v2.0）

1) **HTTP API**（内部 token）：
   - 提交任务、查询任务、取消任务、拉取日志（最小可用）。
2) **任务队列与调度器**：
   - FIFO（先到先服务），无配额/公平性（留给 v3+）。
   - gang：按 `nnodes` + `n_gpus_per_node` 的固定资源需求“全有才提交”。
3) **Ray Jobs SDK 集成**（不使用 `requests` 自己拼 HTTP）：
   - 通过 `ray.job_submission.JobSubmissionClient` submit/status/stop/logs。
4) **可观测/可排障最小集**：
   - 每个 task/attempt 落盘配置、提交载荷、Ray 返回的 `submission_id`、关键日志。
5) **失败策略**：
   - 识别 “资源不足 fail-fast” 类失败 → 转为 `PENDING_RESOURCES` 并延迟重试。
   - 其他失败保持 `FAILED`（不自动重试，避免掩盖错误）。

### 2.2 不做（v2.0 不实现）

- 多租户/配额/优先级/公平性调度（v3）。
- Pipeline（多 job 串联）（v3+）。
- 完整 UI（v3+，v2.0 可只提供 OpenAPI/Swagger）。
- K8s 编排（明确不做，仍是 Native Ray）。

---

## 2.3 工程原则（开闭原则 / 复用 v1.1）

v2.0 研发遵循开闭原则（Open/Closed Principle）：
- **对扩展开放**：新增“服务层（API + scheduler + SQLite）”能力以支持排队、重试、状态聚合。
- **对修改关闭**：尽量不改动 v1.1 已经稳定可用的 Ray Jobs SDK 提交链路代码。

落地方式：
- 将 `src/mvp/v1.1/py/mvp_v11/` 作为“成熟可用提交层”，原样拷贝到 `src/mvp/v2.0/py/mvp_v11/` 供 v2.0 复用。
- v2.0 的新增功能全部在新模块实现（例如 `src/mvp/v2.0/py/mvp_v2/`），通过组合/封装来调用 `mvp_v11`，避免在旧代码中掺杂平台逻辑。

---

## 3. 总体架构（v2.0）

### 3.1 组件

- **mvp-api**（HTTP Server）
  - 接收 JobSpec（结构化字段保持与 v1.1 一致的语义）
  - 生成 `task_id` 并写入持久化
  - 提供 query/cancel/logs

- **mvp-scheduler**（后台调度器，可与 api 同进程也可拆进程）
  - 轮询队列：对 `PENDING_RESOURCES` 的任务做资源判断
  - 资源满足 → 调用 Ray Jobs SDK 提交 → 记录 `ray_submission_id`
  - 对 `SUBMITTED/RUNNING` 的任务持续同步 Ray Job 状态
  - 如果 Ray Job 失败且命中资源不足模式 → 延迟重试

> 部署建议：v2.0 先在 **head 容器**内运行该服务（dev/prod 行为一致；生产环境只能 ssh 进入容器纳管）。

### 3.4 dev 环境目录约定（示例）

以当前远程开发机为例（`argus@h1`）：
- 宿主机目录：`/home2/argus/infra/mvp/v2/`
- 容器内挂载：`/workspace/mvp/v2/`
- 共享 NFS：容器内统一为 `/private/`（与 v1.1 保持一致）

> 注意：服务脚本（`v2/scripts/*.sh`）应在**宿主机**执行，通过 `docker exec` 控制 head 容器；训练 driver 仍通过 Ray entrypoint_resources 强制落到 worker。

### 3.2 与 Ray/容器的关系

- 服务进程运行在 head（或等价能访问 head 的 Job server 地址）。
- 提交时仍使用 v1.1 的强约束：
  - head：`--num-cpus=0 --num-gpus=0`
  - worker：`--resources='{\"worker_node\": 100}'`
  - job entrypoint：`entrypoint_resources={\"worker_node\": 1}` 强制 driver 落 worker

---

## 3.3 配置约定（复用 v1.1 dev.yaml 并扩展）

v2.0 的服务层（API + scheduler）建议复用 v1.1 已存在的 RayConfig 文件：
- `src/mvp/v1.1/py/configs/dev.yaml`

原因：
- 其中已包含 v1.1 运行所需的 Ray 基础配置（Ray Job server address、entrypoint_resources、runtime_env 等），v2.0 也需要同样的信息来提交 Ray Jobs。

扩展方式：
- 在该 YAML 中新增一个顶层 `v2:` section，存放 v2 服务专属配置（API 监听、SQLite 路径、scheduler 间隔等）。
- v1.1 submitter 只读取 `address/shared_root/entrypoint_* /runtime_env/user_code_path`，会忽略 `v2:` 之类的额外字段；因此不会破坏 v1.1。

最小新增项建议（示例）：
- `v2.api.host` / `v2.api.port`
- `v2.auth.token_env`（内部 token 环境变量名）
- `v2.sqlite.db_path`（建议 `/private/common/db/mvp_v2.sqlite3`）
- `v2.scheduler.tick_s` / `v2.scheduler.retry_interval_s` / `v2.scheduler.max_running_tasks`

---

## 4. 核心数据模型（Task / Attempt）

### 4.1 Task（用户视角的任务）

- `task_id`：**人类易读**且唯一，例如：
  - `mvp2-ppo-20251223-143201-7f3a`
- `workload`：`ppo|grpo|sft`
- `jobspec`：提交参数（**保持 v1.1 的 jobspec YAML 字段与语义**；服务端解析 YAML 后入库）
- `state`：见第 5 节状态机
- `created_at` / `updated_at`
- `latest_attempt`：指向当前 attempt
- `attempts[]`：历史尝试列表
- `error_summary`：面向用户的简短错误（最后一次失败原因）

### 4.2 Attempt（一次真实的 Ray Job 提交）

- `attempt_no`：从 1 开始递增
- `ray_submission_id`：建议派生自 task_id：
  - `ray_submission_id = <task_id>--a01`
  - 好处：Ray 侧输出目录天然可读、可追溯
- `status`：Ray Job 状态（PENDING/RUNNING/SUCCEEDED/FAILED/STOPPED）
- `start_time` / `end_time`
- `exit_code`（如可取）
- `failure_kind`（枚举）：
  - `INSUFFICIENT_RESOURCES`（匹配 “Total available GPUs … less than total desired …”）
  - `USER_ERROR`（配置/数据路径错误等）
  - `RUNTIME_ERROR`（代码异常）
  - `UNKNOWN`

---

## 5. 状态机（服务侧）

建议最小状态集：

- `QUEUED`：已入队，尚未进行资源判断
- `PENDING_RESOURCES`：资源不足，等待（服务侧 pending，不提交 Ray）
- `SUBMITTING`：正在向 Ray 提交 attempt
- `SUBMITTED`：Ray 已接受 submission（拿到 `ray_submission_id`）
- `RUNNING`：Ray Job RUNNING
- `SUCCEEDED`：任务成功（终态）
- `FAILED`：任务失败（终态，除非命中“资源不足重试策略”）
- `CANCELED`：用户取消（终态）

关键转换：
- `QUEUED -> PENDING_RESOURCES`：资源不足
- `QUEUED/PENDING_RESOURCES -> SUBMITTING`：资源满足
- `SUBMITTING -> SUBMITTED`：提交成功
- `SUBMITTED -> RUNNING`：Ray 状态推进
- `SUBMITTED/RUNNING -> SUCCEEDED|FAILED`：Ray 终态
- `FAILED (INSUFFICIENT_RESOURCES) -> PENDING_RESOURCES`：进入延迟重试（attempt_no+1）

---

## 6. 调度策略（v2.0）

### 6.1 资源计算（对齐 verl 的“可用资源”口径）

由于 verl 使用 `ray._private.state.available_resources_per_node()` 做“可用资源”统计，
v2.0 的 scheduler 应该尽量使用相同口径，避免：
- 我们认为够了 → 实际 verl 认为不够（仍 fail-fast）
- 我们认为不够 → 实际够了（浪费）

策略（建议）：
1) scheduler 周期性获取 per-node 可用 GPU
2) 计算 total_available_gpus = sum(node_gpu_available)
3) 任务需求 total_required_gpus = nnodes * n_gpus_per_node
4) 如果 `total_available_gpus < total_required_gpus` → `PENDING_RESOURCES`

注意：v2.0 先只做总量判断；节点级分配（保证每个 node 恰好 n_gpus_per_node）可作为 v2.1+（资源池/标签/节点纳管）增强点。

### 6.2 排队与并发

- 默认 FIFO。
- 并发度：允许同时跑多个任务，但必须保证资源足够。
  - 简化实现：如果任务默认都吃满 8 卡，则 scheduler 实际上一次只能跑一个。
  - 若未来支持小任务（1*1、1*4），可以自然并发。

### 6.3 重试策略（资源不足）

当出现下面模式时判定为 `INSUFFICIENT_RESOURCES`：
- Ray Job `status=FAILED`
- `JobDetails.message` 或 `job logs` 中匹配：
  - `Total available GPUs` 且 `less than total desired`

处理：
- 将 task 置为 `PENDING_RESOURCES`
- `next_run_at = now + 60s`（固定间隔；v2.1 可改指数退避）
- attempt_no++ 后重提（新 submission id）

---

## 7. SQLite 持久化（队列/状态/attempt）

v2.0 引入一个**最小但可恢复的持久化层**：使用 SQLite 保存任务队列与状态，确保：
- api/scheduler 进程重启后，队列不丢；
- task/attempt 历史可追溯；
- 能实现“服务侧 pending + 延迟重试”的确定性行为。

### 7.1 存放位置

建议路径（容器内）：
- `DB_PATH=/private/common/db/mvp_v2.sqlite3`

说明：
- v2.0 默认单实例服务（单 writer），SQLite 足够。
- 生产环境若 NFS 上的 SQLite 有锁/性能风险，v2.1+ 再演进到 Postgres/Redis；v2.0 先以“可回放/可恢复”为第一目标。

### 7.2 表设计（建议最小集合）

- `tasks`
  - `task_id` (PK)
  - `workload`
  - `state`（服务侧状态机）
  - `jobspec_yaml`（原始 YAML 文本，原样落盘便于审计/复现）
  - `created_at`, `updated_at`
  - `next_run_at`（用于 `PENDING_RESOURCES` 的延迟重试）
  - `error_summary`
  - `latest_attempt_no`

- `attempts`
  - `task_id` (FK)
  - `attempt_no`
  - `ray_submission_id`
  - `ray_status`
  - `failure_kind`
  - `message`（截断后的关键信息）
  - `start_time`, `end_time`

- `events`（可选，但非常利于排障）
  - `id` (PK)
  - `task_id`
  - `ts`
  - `event_type`（STATE_TRANSITION / SUBMIT / RAY_STATUS_SYNC / RETRY_SCHEDULED 等）
  - `payload_json`

### 7.3 调度循环（与 SQLite 的交互）

scheduler 每个 tick 做三件事：
1) **挑选可运行任务**（FIFO + next_run_at）：
   - `state IN ('QUEUED','PENDING_RESOURCES') AND next_run_at <= now`
2) **资源判断**（对齐 verl 的可用资源口径）：
   - 不满足：更新 `state='PENDING_RESOURCES'`，并写入 `next_run_at=now+60s`
3) **提交 Ray Job 并追踪**：
   - 提交成功：写入 `attempts` 并更新 `tasks.latest_attempt_no`、`state='SUBMITTED'`
   - 周期性同步 Ray 状态：`SUBMITTED/RUNNING -> SUCCEEDED/FAILED`
   - 若失败命中资源不足模式：`FAILED -> PENDING_RESOURCES` + 计划下次重试

---

## 8. 接口与验收（DoD）

### 8.1 API 能力（最小集合）

详见 `specs/mvp/v2.0/v2_api.md`。

### 8.2 验收口径（DoD）

1) API 提交 PPO/GRPO/SFT，返回 `task_id`，并在 NFS 上创建任务目录。
2) 当集群忙（GPU 不足）时：
   - task 状态为 `PENDING_RESOURCES`（不是 FAILED）
   - 一旦资源释放，任务自动变为 `SUBMITTED/RUNNING`
3) 当 race 导致触发 verl fail-fast：
   - attempt 标记为 `INSUFFICIENT_RESOURCES`
   - task 回到 `PENDING_RESOURCES`，并在 60s 后自动重试
4) 通过 API 查询 task 能看到：
   - 当前 state
   - 最新 attempt 的 `ray_submission_id`
   - attempt 历史（至少包含开始/结束/失败原因）
5) Cancel 能停止正在运行的 Ray Job（调用 Ray Jobs SDK stop）

---

## 9. v2.0 交付物建议（目录）

`specs/mvp/v2.0/`（本目录）：
- `v2_plan.md`：总体设计与开发计划（本文件）
- `v2_api.md`：API 详细定义（请求/响应/字段/错误码）

代码建议位置（后续实现时）：
- `src/mvp/v2.0/`
  - `py/`：API server + scheduler
  - `scripts/`：启动/停止/查看状态（仍沿用 v1.1 的 compose/cluster 逻辑）