Go to file
yuyr a84d51a101 1. 增加r1生成综合策略代码和输出;
2. 增加tasks;
3. 增加analysis部分,对策略进行归纳分类,然后进行评测。
2025-04-17 17:40:15 +08:00
analysis 1. 增加r1生成综合策略代码和输出; 2025-04-17 17:40:15 +08:00
summary 1. 增加r1生成综合策略代码和输出; 2025-04-17 17:40:15 +08:00
tasks 1. 增加r1生成综合策略代码和输出; 2025-04-17 17:40:15 +08:00
toy 1. 增加r1生成综合策略代码和输出; 2025-04-17 17:40:15 +08:00
.gitignore 1. 增加r1生成综合策略代码和输出; 2025-04-17 17:40:15 +08:00
final_summarize.py 1. 增加r1生成综合策略代码和输出; 2025-04-17 17:40:15 +08:00
qwen_vl_process.py 1. 增加r1生成综合策略代码和输出; 2025-04-17 17:40:15 +08:00
README.md 1. 增加r1生成综合策略代码和输出; 2025-04-17 17:40:15 +08:00
summarize_design.md 1. 增加r1生成综合策略代码和输出; 2025-04-17 17:40:15 +08:00
trace_action_extract_url.py init 2025-04-15 22:44:08 +08:00
trace_server.py init 2025-04-15 22:44:08 +08:00
video_gen.py 1. 增加r1生成综合策略代码和输出; 2025-04-17 17:40:15 +08:00

文件结构

  • video_gen.py使用ffmpeg 将trace中的jpeg 合成视频webm按30秒分片
  • qwen_vl_process.py 使用qwen-vl-max-latest去解读视频中的动作
  • trace_server.py本地http 服务器用来给playwright网页应用来加载trace.zip文件
  • trace_action_extract_url.py通过playwright去读取trace.zip文件保存pw动作列表以及每个动作前后的url。
  • summarize_design.md使用r1进行综合策略总结的设计文档
  • final_summarize.py: 使用r1推理出合理的策略-子策略-动作指令三级结构。
  • trace 存放webarena 项目提供的179个人类操作轨迹zip
  • video: 存放每个trace转成视频的文件目前转的视频只有167和506输出最后一个视频给qwen分析会报错已经人工确认视频本身存在很大的稀疏性。未来可以进一步优化检测逻辑。现在先人工确认不影响。
  • trace_extract存放从trace文件提取的动作、url信息
  • analysis: 存放基于summary中strategy总结的通用策略以及评测r1和r1-distill去生成策略组合的效果。
    • universal_strategy_v2.md根据summary总结的一级策略给gemini-2.5-pro去归纳总结了11条通用策略模板以及映射
    • task_strategy_path.py 得到179个任务的策略组合以及通用策略ID组合
    • task_output.json执行stask_strategy_path.jpy 输出
    • evaluation.py拿task_output.json 去测试r1和r1-distill-7b对比输出的 US ID path与期望的匹配率
    • evaluation_result.json和evaluation_result_r1_7b.json
    • prompt evaluation.py使用的prompt需要把通用策略模板定义描述告诉模型
  • toy存放测试实验脚本
  • summary执行final_summarize.py 输出的179个任务的策略总结三层结构。

TODO

  • 最终综合调用r1对视频解读以及动作/url列表信息进行综合分析通过推理还原出strategy和low level action

存在问题

2025-4-16 16:54:38

发现几个问题,

  • 一个提取动作逻辑部分输出文件中idx序号是乱且不连续有遗漏
  • trace.zip记录了多个tab的截图时间戳有交错不能直接拼接成一个视频现在拼在一起会串
  • r1总结没有强调要他忽略掉一些与任务无用无关的动作
  • r1 应该还要识别出trace 有没有完成任务,进行判定
  • 还需要从trace.zip中提取axtree 作为上下文

基于现有产出数据,是否可以进行训练:

  • summary数据有部分task提取json出错需要进行一定的清洗
  • summary数据包含任务、动作描述、动作指令、以及总结的策略

训练目标:

  • 先对所有strategy和substrategy进行语义分析看是否存在某些通用的策略/子策略进行抽象和聚类和编码策略用SID子策略用sid
  • 抽象策略集合 {S},子策略集合 {s}
  • 重新组织数据:
    • task -> (S, S, S)
    • task & S -> (s, s, s) 未来增加上下文后:
    • task & S & s & context -> (a, a, a), context 包含网页内容网页url

微调训练目标:

  • 使用qwen2.5vl-7b-instruct 微调,
  • prompt:
  • query: task
  • response: strategy -

使用gemini去对策略进行归纳 附件是GUI Agent执行网页任务进行任务策略拆解得到的策略你的任务是去对这些策略进行抽象和归纳提炼出一组粒度适中的通用策略要求原有的每一个策略都能够映射到通用策略中的唯一一个策略。要求给出两个表格一个是 | universal strategy ID | universal strategy | ,第二个表格, |task id (number) | original strategy | universal strategy | universal strategy ID |