argus-cluster/specs/mvp/v3.6/v3.6_progress.md

1.6 KiB
Raw Blame History

MVP v3.6 进度记录

基线v3.5 已完成Advanced TaskSpec + Custom reward方式A+ WebUI + SFTPGo + stateless ray node pool。 本文件用于记录 v3.6 每个 milestone 的完成情况与关键改动点。

M1完成

  • 新增 tracking.wandb 配置解析与校验enabled/base_url/api_key_env

M2完成

  • Ray job 维度注入 WANDB_* envWANDB_BASE_URL/WANDB_API_KEY/WANDB_MODE/WANDB_DIR),缺少 key 时降级并记录 warning。

M3完成

  • PPO/GRPO/SFT 内置训练任务在 wandb 可用时自动追加 overrides
    • trainer.logger=[console,wandb]
    • trainer.project_name=<user_id>_project
    • trainer.experiment_name=<ray_submission_id>

M4完成

  • API 输出增加 W&B 定位信息:
    • /api/v2/me 返回 wandb.{enabled,base_url,project_name}
    • /api/v2/tasks/{task_id}latest_attempt.wandb 返回 {base_url,project_name,run_name}
  • WebUI
    • Login 页面增加 W&B 区块(跳转 8090、copy project
    • Task detail 页面增加 W&B 区块copy run

M5完成

  • WebUI New Task 增加 Evaluation 模板Advanced
    • 使用 python3 -m verl.trainer.main_eval ... +ray_kwargs.ray_init.address=auto
    • 以占位符路径示例(用户替换 <RAY_SUBMISSION_ID>/<EVAL_PARQUET>

M6完成

  • docker-compose.yaml 集成 W&B local server
    • host 端口 8090
    • 持久化目录 /private/common/wandb(容器内 /vol
  • dev 配置新增 tracking.wandb 默认开启(缺 key 自动降级并记录 warning
  • API 启动脚本支持把 WANDB_API_KEY 从宿主机透传到 head 容器中的 API server。