swift_test/direct_stepwise_train

试验使用swift 对qwen3-8b进行grpo训练

  • 数据集: webarena lite successfuly trace, mock trace use one trace and duplicated 51 times
  • 启动方法external模式因为在a6000上使用colocate方式启动会报内存不足因此使用1张卡跑vllm1张卡跑训练基本都跑满
# start server
sh swift_server.sh  # 要等到看到vllm服务启动

# start client
sh swift_client.sh # 启动训练任务