58 lines
3.6 KiB
Markdown
58 lines
3.6 KiB
Markdown
|
||
# 文件结构
|
||
- video_gen.py:使用ffmpeg 将trace中的jpeg 合成视频webm,按30秒分片;
|
||
- qwen_vl_process.py: 使用qwen-vl-max-latest,去解读视频中的动作;
|
||
- trace_server.py:本地http 服务器,用来给playwright网页应用来加载trace.zip文件
|
||
- trace_action_extract_url.py:通过playwright去读取trace.zip文件,保存pw动作列表,以及每个动作前后的url。
|
||
- summarize_design.md:使用r1进行综合策略总结的设计文档
|
||
- final_summarize.py: 使用r1推理出合理的策略-子策略-动作指令三级结构。
|
||
- trace: 存放webarena 项目提供的179个人类操作轨迹zip
|
||
- video: 存放每个trace转成视频的文件,目前转的视频只有167和506输出最后一个视频给qwen分析会报错,已经人工确认视频本身存在很大的稀疏性。未来可以进一步优化检测逻辑。现在先人工确认不影响。
|
||
- trace_extract:存放从trace文件提取的动作、url信息
|
||
- analysis: 存放基于summary中strategy总结的通用策略,以及评测r1和r1-distill去生成策略组合的效果。
|
||
- universal_strategy_v2.md,根据summary总结的一级策略,给gemini-2.5-pro去归纳总结了11条通用策略模板,以及映射
|
||
- task_strategy_path.py: 得到179个任务的策略组合,以及通用策略ID组合,
|
||
- task_output.json:执行stask_strategy_path.jpy 输出
|
||
- evaluation.py:拿task_output.json 去测试r1和r1-distill-7b,对比输出的 US ID path与期望的匹配率
|
||
- evaluation_result.json和evaluation_result_r1_7b.json
|
||
- prompt: evaluation.py使用的prompt,需要把通用策略模板定义描述告诉模型
|
||
- toy:存放测试实验脚本
|
||
- summary:执行final_summarize.py 输出的179个任务的策略总结,三层结构。
|
||
|
||
|
||
# TODO
|
||
- 最终综合:调用r1对视频解读以及动作/url列表信息进行综合分析,通过推理还原出strategy和low level action;
|
||
-
|
||
|
||
# 存在问题
|
||
## 2025-4-16 16:54:38 :
|
||
发现几个问题,
|
||
- 一个提取动作逻辑,部分输出文件中idx序号是乱且不连续,有遗漏;
|
||
- trace.zip记录了多个tab的截图,时间戳有交错,不能直接拼接成一个视频,现在拼在一起会串;
|
||
- r1总结没有强调要他忽略掉一些与任务无用无关的动作,
|
||
- r1 应该还要识别出trace 有没有完成任务,进行判定
|
||
- 还需要从trace.zip中提取axtree 作为上下文
|
||
|
||
|
||
基于现有产出数据,是否可以进行训练:
|
||
- summary数据,有部分task提取json出错,需要进行一定的清洗;
|
||
- summary数据,包含任务、动作描述、动作指令、以及总结的策略;
|
||
|
||
训练目标:
|
||
- 先对所有strategy和substrategy进行语义分析,看是否存在某些通用的策略/子策略,进行抽象和聚类和编码,策略用SID,子策略用sid;
|
||
- 抽象策略集合 {S},子策略集合 {s}
|
||
- 重新组织数据:
|
||
- task -> (S, S, S)
|
||
- task & S -> (s, s, s)
|
||
未来增加上下文后:
|
||
- task & S & s & context -> (a, a, a), context 包含网页内容,网页url
|
||
|
||
微调训练目标:
|
||
- 使用qwen2.5vl-7b-instruct 微调,
|
||
- prompt:
|
||
- query: task
|
||
- response: strategy -
|
||
|
||
|
||
使用gemini去对策略进行归纳
|
||
附件是GUI Agent执行网页任务进行任务策略拆解得到的策略,你的任务是去对这些策略进行抽象和归纳,提炼出一组粒度适中的通用策略,要求原有的每一个策略都能够映射到通用策略中的唯一一个策略。要求给出两个表格,一个是 | universal strategy ID | universal strategy | ,第二个表格, |task id (number) | original strategy | universal strategy | universal strategy ID | |