方法
- 设计了三种构造方法,分别基于a)静态workflow,b)Agent + tool_call 和c)数据库条目随机抽样,
- 方法a static_workflow: 缺少动态调整能力,答案与问题一致性不足;
- 方法b agent_toocall: 思维链长自动根据工具结果调整问题设计,擅长构造高难度多步任务;
- 方法c random_sample: 适用于构建大量相对简单QA任务。
工具
scripts
:- portforward.sh: 将电商网站的mysql端口映射到本机
当前进展:
- 对电商后台网站使用方法c构造1k条问答对数据集cms1k,转换成WebArena任务描述规范,可以对WebRL 模型进行rollout评测;
- 内网算力平台新H100环境搭建中,依赖缺失较多,算力平台上暂时没法连ubuntu软件源,已经提网络打通需求给平台部。预计本周内跑通测试。
Description
Languages
Python
99.9%