Go to file

yuyr a84d51a101 1. 增加r1生成综合策略代码和输出； 2. 增加tasks; 3. 增加analysis部分，对策略进行归纳分类，然后进行评测。		2025-04-17 17:40:15 +08:00
analysis	1. 增加r1生成综合策略代码和输出；	2025-04-17 17:40:15 +08:00
summary	1. 增加r1生成综合策略代码和输出；	2025-04-17 17:40:15 +08:00
tasks	1. 增加r1生成综合策略代码和输出；	2025-04-17 17:40:15 +08:00
toy	1. 增加r1生成综合策略代码和输出；	2025-04-17 17:40:15 +08:00
.gitignore	1. 增加r1生成综合策略代码和输出；	2025-04-17 17:40:15 +08:00
final_summarize.py	1. 增加r1生成综合策略代码和输出；	2025-04-17 17:40:15 +08:00
qwen_vl_process.py	1. 增加r1生成综合策略代码和输出；	2025-04-17 17:40:15 +08:00
README.md	1. 增加r1生成综合策略代码和输出；	2025-04-17 17:40:15 +08:00
summarize_design.md	1. 增加r1生成综合策略代码和输出；	2025-04-17 17:40:15 +08:00
trace_action_extract_url.py	init	2025-04-15 22:44:08 +08:00
trace_server.py	init	2025-04-15 22:44:08 +08:00
video_gen.py	1. 增加r1生成综合策略代码和输出；	2025-04-17 17:40:15 +08:00

README.md

文件结构

video_gen.py：使用ffmpeg 将trace中的jpeg 合成视频webm，按30秒分片；
qwen_vl_process.py：使用qwen-vl-max-latest，去解读视频中的动作；
trace_server.py：本地http 服务器，用来给playwright网页应用来加载trace.zip文件
trace_action_extract_url.py：通过playwright去读取trace.zip文件，保存pw动作列表，以及每个动作前后的url。
summarize_design.md：使用r1进行综合策略总结的设计文档
final_summarize.py: 使用r1推理出合理的策略-子策略-动作指令三级结构。
trace：存放webarena 项目提供的179个人类操作轨迹zip
video: 存放每个trace转成视频的文件，目前转的视频只有167和506输出最后一个视频给qwen分析会报错，已经人工确认视频本身存在很大的稀疏性。未来可以进一步优化检测逻辑。现在先人工确认不影响。
trace_extract：存放从trace文件提取的动作、url信息
analysis: 存放基于summary中strategy总结的通用策略，以及评测r1和r1-distill去生成策略组合的效果。
- universal_strategy_v2.md，根据summary总结的一级策略，给gemini-2.5-pro去归纳总结了11条通用策略模板，以及映射
- task_strategy_path.py：得到179个任务的策略组合，以及通用策略ID组合，
- task_output.json：执行stask_strategy_path.jpy 输出
- evaluation.py：拿task_output.json 去测试r1和r1-distill-7b，对比输出的 US ID path与期望的匹配率
- evaluation_result.json和evaluation_result_r1_7b.json
- prompt： evaluation.py使用的prompt，需要把通用策略模板定义描述告诉模型
toy：存放测试实验脚本
summary：执行final_summarize.py 输出的179个任务的策略总结，三层结构。

TODO

最终综合：调用r1对视频解读以及动作/url列表信息进行综合分析，通过推理还原出strategy和low level action；

存在问题

2025-4-16 16:54:38 ：

发现几个问题，

一个提取动作逻辑，部分输出文件中idx序号是乱且不连续，有遗漏；
trace.zip记录了多个tab的截图，时间戳有交错，不能直接拼接成一个视频，现在拼在一起会串；
r1总结没有强调要他忽略掉一些与任务无用无关的动作，
r1 应该还要识别出trace 有没有完成任务，进行判定
还需要从trace.zip中提取axtree 作为上下文

基于现有产出数据，是否可以进行训练：

summary数据，有部分task提取json出错，需要进行一定的清洗；
summary数据，包含任务、动作描述、动作指令、以及总结的策略；

训练目标：

先对所有strategy和substrategy进行语义分析，看是否存在某些通用的策略/子策略，进行抽象和聚类和编码，策略用SID，子策略用sid；
抽象策略集合 {S}，子策略集合 {s}
重新组织数据：
- task -> (S, S, S)
- task & S -> (s, s, s) 未来增加上下文后：
- task & S & s & context -> (a, a, a), context 包含网页内容，网页url

微调训练目标：

使用qwen2.5vl-7b-instruct 微调，
prompt:
query: task
response: strategy -

README.md Unescape Escape

文件结构

TODO

存在问题

2025-4-16 16:54:38 ：

README.md