argus-cluster/specs/mvp/remain_problems.md

1.6 KiB
Raw Blame History

v3.6

wandb 映射目录是/vol 固定问题: 查过官方文档/公开资料后结论是wandb/localW&B local server 容器)没有提供“把服务端持 久化根目录从 /vol 改成别的路径”的官方环境变量/启动参数。官方用法一直是假设你把持久化卷 挂到容器内的固定路径 /vol例如 -v :/vol。(github.com (https://github.com/ wandb/server))

需要注意区分两类“目录”:

  • 服务端wandb/local 容器):持久化目录是容器内固定 /vol用于保存实例元数据、账号/初 始化信息等license 也可以用 env 配,但数据目录仍是 /vol。(github.com (https:// github.com/wandb/server))
  • 训练侧wandb Python SDK / VERL 任务WANDB_DIR、WANDB_DATA_DIR 等环境变量只影响“客 户端本地生成文件/缓存”,不改变服务端容器的数据落盘路径。(docs.wandb.ai (https:// docs.wandb.ai/platform/hosting/env-vars))

所以如果你现在的约束是“只能挂 ../../shared:/private不能再额外挂 ../../shared/common/ wandb:/vol”要把 W&B 服务端数据落到 shared 下面,现实可行的路子是:

  • 自定义 W&B 容器 entrypoint或 wrapper在启动前做一次 ln -s /private/common/wandb / vol或 bind-mount 到 /vol让服务仍然写 /vol但实际落到 /private/common/wandb。 这属于“容器层改造”,不是 W&B 官方参数。

如果你允许 compose 再加一条 volume那最简单仍是保留 ../../shared:/private再额外 加 ../../shared/common/wandb:/vol服务端就无需任何改造