yuyr 686739fea2 v3.8 model serving 部署成功

2026-01-06 22:43:29 +08:00

10 KiB

Raw Blame History

MVP v3.8 开发计划（TDD，细化版）

目标：在 v3.7 基础上引入 Ray Serve（vLLM）模型动态部署与管理（多模型单 app），并提供 WebUI + API 管理闭环。
约束（已确认）：

推理端口固定 8000（Serve HTTP）。

推理侧不接入现有 token 鉴权（对外 OpenAI endpoint 无鉴权）。

对外 model_id 统一加前缀：<user_id>-<YYYYMMDDHHMM>-<suffix>（用户只填 suffix）。

LLMConfig.accelerator_type 从 dev.yaml 读取（dev/h1: H20）。

本计划按“测试先行 → 实现 → 回归”的节奏拆分到可验证粒度；每个 milestone 都能单独验收。

M0 - 基线与依赖探测（不改行为）

目的：确认 v3.7 baseline 稳定，并明确 Ray Serve LLM 依赖是否已具备（否则后续会卡在镜像/依赖）。

M0.1 本地回归

.venv/bin/python -m pytest 通过（coverage ≥ 90%）

M0.2 远端回归（h1）

src/mvp/scripts/run_all_v30_api.sh 可跑通（确认训练闭环未回退）

M0.3 head 容器内依赖探测（记录结论）

python3 -c "import ray; import ray.serve; print(ray.__version__)"
python3 -c "from ray.serve.llm import LLMConfig, build_openai_app; print('serve_llm_ok')"
若失败（例如缺 gymnasium）：记录缺失项，并在 M6 通过补齐 ray[llm] 解决

M0.4 配置探测

configs/dev.yaml 中存在：
- serving.llm.accelerator_type: H20
- serving.serve.http_port: 8000
- serving.serve.proxy_location: HeadOnly

验收：

baseline 无回退；依赖探测结论明确（可用/不可用）

M1 - ServingSpec（解析/校验/宏替换/路径校验）（单测驱动）

目的：先把“输入”这层彻底固化（API/UI 复用），避免后期反复改 schema。

M1.1 新增/扩展数据模型

ServingSpec（输入）
- model_id（suffix）
- model_source（支持 $HOME 宏）
- num_replicas（default=1）
- gpus_per_replica（default=1）
- engine_kwargs（可选 dict，先原样存 DB；实现阶段再做白名单/黑名单）
ResolvedServingSpec（内部）
- model_id_suffix
- model_id_prefix（由平台生成：user_id-YYYYMMDDHHMM）
- model_id（对外：<prefix>-<suffix>）
- model_source（resolved path）

M1.2 规则（写成纯函数，便于测）

validate_model_id_suffix(suffix)：长度/字符集限制（建议：[a-zA-Z0-9][a-zA-Z0-9._-]{0,63}）
$HOME 宏替换：$HOME、$HOME/common/hf、$HOME/common/datasets
路径校验（强制本地路径）：
- 允许：/private/hf/...、/private/users/<user_id>/...
- 拒绝：..、空、其它用户路径、非 /private 路径
make_model_id_prefix(user_id, now_utc)：YYYYMMDDHHMM（UTC）+ user_id

M1.3 单测（先写失败用例，再补实现）

test_serving_spec_validation.py
- suffix 合法/非法
- replicas/gpus 边界：0、负数、小数、超大值（按实现决定是否限制上限）
test_serving_spec_paths.py
- $HOME 替换正确
- 越权路径返回 403/ValueError（按接口层映射）
- /private/hf 与 /private/users/<user> 均可
test_serving_model_id_prefix.py
- 固定时间输入 → prefix 输出一致（避免时区/格式问题）

验收：

输入 spec 规则稳定；核心校验/替换均有单测覆盖

M2 - SQLite 表结构与 Db 接口（单测驱动）

目的：Serving 的声明式状态必须持久化，可审计、可恢复。

M2.1 DB schema

serve_models
- 主键：model_key（平台生成）
- unique：(user_id, model_id_suffix)（实现 upsert）
- 存储：resolved spec（包含 prefix/full model_id、resolved model_source）
- 状态：QUEUED/DEPLOYING/RUNNING/FAILED/DELETING/DELETED
- error_summary
serve_events（append-only）

M2.2 Db 方法

upsert_serve_model(user_id, spec_yaml, now) → (model_key, state)
list_serve_models(user_id, include_deleted=False, limit/offset?)
get_serve_model(model_key)
set_serve_model_state(model_key, state, error_summary=None)
append_serve_event(model_key, event_type, payload_json=None)
pick_next_runnable_serve_change()（给 reconciler 用）

M2.3 单测

test_db_serving.py
- upsert 行为（同 suffix 更新不产生新 model_key 或产生新版本——此处需在实现前明确策略）
- state 流转 + 事件记录
- list 的过滤与排序（按 updated_at）

验收：

DB 行为可预测；upsert/unique 语义确定并测试覆盖

M3 - Serving 管理 API（FastAPI）（单测驱动）

目的：先把管理 API 跑通，Ray Serve 先不接真实（reconciler 之后再接）。

M3.1 API 路由（用户）

POST /api/v2/serve/models（Content-Type: application/yaml）
- 入参：ServingSpec YAML
- 出参：{model_key,state}（202）
GET /api/v2/serve/models
- 返回 items + openai_base_url=http://<host>:8000/v1
GET /api/v2/serve/models/{model_key}
- 返回 model + resolved_spec_yaml + events（分页可后置）+ serve_status（先空/占位）
PATCH /api/v2/serve/models/{model_key}（JSON）
- 支持 num_replicas（最小闭环）
DELETE /api/v2/serve/models/{model_key}

M3.2 API 路由（admin，可选）

GET /api/v2/serve/status（仅 admin token）

M3.3 错误映射（必须测试）

YAML 解析失败：400
spec 校验失败：422
越权路径：403
不存在 model_key：404

M3.4 单测

test_app_serving_api.py
- happy path：create → list → get → patch → delete
- 多用户隔离：用户只能看到自己的 model
- 错误码覆盖：400/403/404/422

验收：

API reference (v3.8_api.md) 中所有管理接口可返回预期结构（Serve 未接入也能工作）

M4 - ServeClient 抽象 + LLMConfig builder（单测驱动）

目的：将“如何从 ResolvedServingSpec 构造 LLMConfig”固化，并把 Ray Serve 的依赖隔离到 client 里，便于 mock。

M4.1 `ServeClient` 接口（可 mock）

ensure_started(http_port=8000, proxy_location="HeadOnly")
apply_app(app_name, llm_configs)（multi-model）
get_status()（serve.status 摘要）

M4.2 `build_llm_config(resolved_spec, accelerator_type, runtime_env_defaults)` 纯函数

写入 LLMConfig.accelerator_type（来自 dev.yaml：H20）
deployment_config.num_replicas
engine_kwargs.tensor_parallel_size = gpus_per_replica
placement_group_config bundles 按 GPU 张数生成
runtime_env.env_vars 注入（至少包含 HF cache + HF_HUB_OFFLINE=1）

M4.3 单测

test_llm_config_builder.py
- gpus_per_replica=1/2/4 → tensor_parallel_size 与 bundles 数量正确
- accelerator_type 注入正确
- runtime_env 含 HF_HUB_OFFLINE 等关键 env

验收：

从平台 spec 到 Ray Serve LLMConfig 的映射规则稳定，有单测锁定

M5 - Serving Reconciler（状态机 + 资源预检查）（单测驱动）

目的：实现声明式对齐：DB → Serve；同时提供可解释的 QUEUED/FAILED 状态。

M5.1 状态机（最小闭环）

QUEUED：等待 apply
DEPLOYING：已触发 apply，等待 Serve running/healthy
RUNNING：Serve status running
FAILED：apply 或 status 失败（写 error_summary + event）
DELETING：等待从 app 中移除
DELETED：完成删除（可选保留记录）

M5.2 资源预检查

needed_total_gpus = sum(num_replicas*gpus_per_replica)（最小可用预检查）
ray.available_resources()["GPU"]（或更稳健的 per-node 统计）不足时：
- 保持 QUEUED
- 记录 PENDING_RESOURCES event

M5.3 reconcile 策略（multi-model app）

tick 读取 active models，构建全量 llm_configs
处理 deleting：从 configs 中移除对应 model，再 apply

M5.4 单测（mock ServeClient + mock ray resources）

test_serving_reconciler.py
- 新增模型：apply_app 被调用；state 进入 DEPLOYING
- 删除模型：apply_app configs 不包含该模型
- GPU 不足：不 apply；state 仍 QUEUED；event 写入
- apply 抛异常：state FAILED；error_summary 写入

验收：

reconciler 行为在纯单测环境可验证；失败可解释

M6 - 真实集成（h1）：Ray Serve 启动 + 推理闭环（E2E）

目的：在 dev/h1 环境真正跑通：部署模型 → /v1/models 可见 → chat/completions 成功 → 删除后消失。

M6.1 compose/端口

src/mvp/docker-compose.yaml：ray_head 增加 8000:8000

M6.2 镜像依赖（若 M0 发现缺失）

在 argus-ray-node 镜像中补齐 ray[serve,llm]（版本与现有 Ray 对齐，避免升级 Ray 导致不兼容）
- 推荐优先补齐 ray[llm]（包含 ray.serve.llm 依赖闭包，如 gymnasium），再按需补 ray[serve]
- 验证点：python3 -c "from ray.serve.llm import LLMConfig, build_openai_app; print('serve_llm_ok')"

M6.3 E2E 脚本（幂等）

新增 scripts/run_all_v38_serving.sh：
- 起 compose（确保 Serve 端口可用）
- 起 API
- 创建 user + token
- POST /api/v2/serve/models 创建 1GPU 模型
- 轮询模型 state 到 RUNNING
- curl http://127.0.0.1:8000/v1/models 验证包含 <prefix>-<suffix>
- curl http://127.0.0.1:8000/v1/chat/completions 进行最小推理
- DELETE /api/v2/serve/models/{model_key} 下线
- 再轮询 /v1/models 不包含

验收：

E2E 可重复跑通（至少两次连续跑不需要人工清理）

M7 - WebUI（Serving 页面）（单测驱动）

目的：给用户可视化的模型管理页面（最小必要功能）。

M7.1 页面

Sidebar 增加 Serving
/ui/serving：列表 + 状态 + 操作（delete/scale）
/ui/serving/new：YAML 输入 + submit
/ui/serving/{model_key}：详情（resolved spec、events、OpenAI 调用示例）

M7.2 单测

test_ui_serving.py：路由 200、关键链接存在、包含 openai_base_url=8000

验收：

WebUI 覆盖 create/list/detail/scale/delete 的主链路

M8 - 文档与验收用例（交付）

目的：给用户/运维一套可复用的运行方式与排障路径。

更新 specs/mvp/v3.8/v3.8_progress.md（按 milestone 记录）
补充 README（可选）：端口说明、推理 API 无鉴权警示、模型路径约定
验收清单（checklist）：
- 单测通过
- h1 E2E 通过
- UI 主链路可操作

10 KiB Raw Blame History Unescape Escape