2025-06-17 09:53:40 +00:00
2025-06-11 17:30:06 +08:00
2025-06-11 17:30:06 +08:00
2025-06-17 09:53:40 +00:00
2025-06-17 09:53:40 +00:00
2025-06-11 17:30:06 +08:00
2025-06-11 17:30:06 +08:00
2025-06-17 14:23:59 +08:00

方法

  • 设计了三种构造方法分别基于a)静态workflowb)Agent + tool_call 和c)数据库条目随机抽样,
    • 方法a static_workflow: 缺少动态调整能力,答案与问题一致性不足;
    • 方法b agent_toocall: 思维链长自动根据工具结果调整问题设计,擅长构造高难度多步任务;
    • 方法c random_sample: 适用于构建大量相对简单QA任务。

工具

  • scripts
    • portforward.sh 将电商网站的mysql端口映射到本机, 测试连接 mysql -u root -P 23306 -p 1234567890

conda幻觉

  • qa311

当前进展:

  • 对电商后台网站使用方法c构造1k条问答对数据集cms1k转换成WebArena任务描述规范可以对WebRL 模型进行rollout评测
  • 内网算力平台新H100环境搭建中依赖缺失较多算力平台上暂时没法连ubuntu软件源已经提网络打通需求给平台部。预计本周内跑通测试。
Description
No description provided
Readme 1.4 MiB
Languages
Python 99.9%