19 lines
956 B
Markdown
19 lines
956 B
Markdown
|
||
# 方法
|
||
- 设计了三种构造方法,分别基于a)静态workflow,b)Agent + tool_call 和c)数据库条目随机抽样,
|
||
* 方法a **static_workflow**: 缺少动态调整能力,答案与问题一致性不足;
|
||
* 方法b **agent_toocall**: 思维链长自动根据工具结果调整问题设计,擅长构造高难度多步任务;
|
||
* 方法c **random_sample**: 适用于构建大量相对简单QA任务。
|
||
|
||
# 工具
|
||
- `scripts`:
|
||
* portforward.sh: 将电商网站的mysql端口映射到本机, 测试连接 mysql -u root -P 23306 -p 1234567890
|
||
|
||
# conda幻觉
|
||
- qa311
|
||
|
||
# 当前进展:
|
||
- 对电商后台网站使用方法c构造1k条问答对数据集cms1k,转换成WebArena任务描述规范,可以对WebRL 模型进行rollout评测;
|
||
- 内网算力平台新H100环境搭建中,依赖缺失较多,算力平台上暂时没法连ubuntu软件源,已经提网络打通需求给平台部。预计本周内跑通测试。
|
||
|