webrlvr/README.md
2025-06-17 14:23:59 +08:00

19 lines
956 B
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 方法
- 设计了三种构造方法分别基于a)静态workflowb)Agent + tool_call 和c)数据库条目随机抽样,
* 方法a **static_workflow**: 缺少动态调整能力,答案与问题一致性不足;
* 方法b **agent_toocall**: 思维链长自动根据工具结果调整问题设计,擅长构造高难度多步任务;
* 方法c **random_sample**: 适用于构建大量相对简单QA任务。
# 工具
- `scripts`
* portforward.sh 将电商网站的mysql端口映射到本机, 测试连接 mysql -u root -P 23306 -p 1234567890
# conda幻觉
- qa311
# 当前进展:
- 对电商后台网站使用方法c构造1k条问答对数据集cms1k转换成WebArena任务描述规范可以对WebRL 模型进行rollout评测
- 内网算力平台新H100环境搭建中依赖缺失较多算力平台上暂时没法连ubuntu软件源已经提网络打通需求给平台部。预计本周内跑通测试。