1.6 KiB
1.6 KiB
MVP v3.6 进度记录
基线:v3.5 已完成(Advanced TaskSpec + Custom reward(方式A)+ WebUI + SFTPGo + stateless ray node pool)。 本文件用于记录 v3.6 每个 milestone 的完成情况与关键改动点。
M1(完成)
- 新增
tracking.wandb配置解析与校验(enabled/base_url/api_key_env)。
M2(完成)
- Ray job 维度注入
WANDB_*env(含WANDB_BASE_URL/WANDB_API_KEY/WANDB_MODE/WANDB_DIR),缺少 key 时降级并记录 warning。
M3(完成)
- PPO/GRPO/SFT 内置训练任务在 wandb 可用时自动追加 overrides:
trainer.logger=[console,wandb]trainer.project_name=<user_id>_projecttrainer.experiment_name=<ray_submission_id>
M4(完成)
- API 输出增加 W&B 定位信息:
/api/v2/me返回wandb.{enabled,base_url,project_name}/api/v2/tasks/{task_id}在latest_attempt.wandb返回{base_url,project_name,run_name}
- WebUI:
- Login 页面增加 W&B 区块(跳转 8090、copy project)
- Task detail 页面增加 W&B 区块(copy run)
M5(完成)
- WebUI New Task 增加 Evaluation 模板(Advanced):
- 使用
python3 -m verl.trainer.main_eval ... +ray_kwargs.ray_init.address=auto - 以占位符路径示例(用户替换
<RAY_SUBMISSION_ID>/<EVAL_PARQUET>)
- 使用
M6(完成)
docker-compose.yaml集成 W&B local server:- host 端口
8090 - 持久化目录
/private/common/wandb(容器内/vol)
- host 端口
- dev 配置新增
tracking.wandb默认开启(缺 key 自动降级并记录 warning)。 - API 启动脚本支持把
WANDB_API_KEY从宿主机透传到 head 容器中的 API server。