765 B
765 B
文件结构
- video_gen.py:使用ffmpeg 将trace中的jpeg 合成视频webm,按30秒分片;
- qwen_vl_process.py: 使用qwen-vl-max-latest,去解读视频中的动作;
- trace_server.py:本地http 服务器,用来给playwright网页应用来加载trace.zip文件
- trace_action_extract_url.py:通过playwright去读取trace.zip文件,保存pw动作列表,以及每个动作前后的url。
- trace: 存放webarena 项目提供的179个人类操作轨迹zip
- video: 存放每个trace转成视频的文件
- trace_extract:存放从trace文件提取的动作、url信息
TODO
- 最终综合:调用r1对视频解读以及动作/url列表信息进行综合分析,通过推理还原出strategy和low level action;