argus-cluster/specs/mvp/remain_problems.md

28 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# v3.6
wandb 映射目录是/vol 固定问题:
查过官方文档/公开资料后结论是wandb/localW&B local server 容器)没有提供“把服务端持
久化根目录从 /vol 改成别的路径”的官方环境变量/启动参数。官方用法一直是假设你把持久化卷
挂到容器内的固定路径 /vol例如 -v <something>:/vol。(github.com (https://github.com/
wandb/server))
需要注意区分两类“目录”:
- 服务端wandb/local 容器):持久化目录是容器内固定 /vol用于保存实例元数据、账号/初
始化信息等license 也可以用 env 配,但数据目录仍是 /vol。(github.com (https://
github.com/wandb/server))
- 训练侧wandb Python SDK / VERL 任务WANDB_DIR、WANDB_DATA_DIR 等环境变量只影响“客
户端本地生成文件/缓存”,不改变服务端容器的数据落盘路径。(docs.wandb.ai (https://
docs.wandb.ai/platform/hosting/env-vars))
所以如果你现在的约束是“只能挂 ../../shared:/private不能再额外挂 ../../shared/common/
wandb:/vol”要把 W&B 服务端数据落到 shared 下面,现实可行的路子是:
- 自定义 W&B 容器 entrypoint或 wrapper在启动前做一次 ln -s /private/common/wandb /
vol或 bind-mount 到 /vol让服务仍然写 /vol但实际落到 /private/common/wandb。
这属于“容器层改造”,不是 W&B 官方参数。
如果你允许 compose 再加一条 volume那最简单仍是保留 ../../shared:/private再额外
加 ../../shared/common/wandb:/vol服务端就无需任何改造