argus-cluster/specs/mvp/v3.6/v3.6_progress.md

43 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# MVP v3.6 进度记录
> 基线v3.5 已完成Advanced TaskSpec + Custom reward方式A+ WebUI + SFTPGo + stateless ray node pool
> 本文件用于记录 v3.6 每个 milestone 的完成情况与关键改动点。
## M1完成
- 新增 `tracking.wandb` 配置解析与校验enabled/base_url/api_key_env
## M2完成
- Ray job 维度注入 `WANDB_*` env`WANDB_BASE_URL/WANDB_API_KEY/WANDB_MODE/WANDB_DIR`),缺少 key 时降级并记录 warning。
## M3完成
- PPO/GRPO/SFT 内置训练任务在 wandb 可用时自动追加 overrides
- `trainer.logger=[console,wandb]`
- `trainer.project_name=<user_id>_project`
- `trainer.experiment_name=<ray_submission_id>`
## M4完成
- API 输出增加 W&B 定位信息:
- `/api/v2/me` 返回 `wandb.{enabled,base_url,project_name}`
- `/api/v2/tasks/{task_id}``latest_attempt.wandb` 返回 `{base_url,project_name,run_name}`
- WebUI
- Login 页面增加 W&B 区块(跳转 8090、copy project
- Task detail 页面增加 W&B 区块copy run
## M5完成
- WebUI New Task 增加 Evaluation 模板Advanced
- 使用 `python3 -m verl.trainer.main_eval ... +ray_kwargs.ray_init.address=auto`
- 以占位符路径示例(用户替换 `<RAY_SUBMISSION_ID>/<EVAL_PARQUET>`
## M6完成
- `docker-compose.yaml` 集成 W&B local server
- host 端口 `8090`
- 持久化目录 `/private/common/wandb`(容器内 `/vol`
- dev 配置新增 `tracking.wandb` 默认开启(缺 key 自动降级并记录 warning
- API 启动脚本支持把 `WANDB_API_KEY` 从宿主机透传到 head 容器中的 API server。