crawlee/README.md
2025-04-23 12:14:50 +08:00

36 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 1. 运行环境
安装nodejs v18.7.1
# 2. 运行数据飞轮
```bash
sh run_crawler.sh
```
- 修改入口URL修改crawl_grafana_v18.js中所有play.grafana.org的网址。
- 停止任务:目前程序不会自动停止,需要手工杀进程;程序维持一个任务队列,队列为空就不再继续爬。
# 3. 产出物
运行数据飞轮以后会自动创建axtrees, pages, path, screenshots, storage等目录
- storage运行状态数据crawlee框架运行过程记录任务。
- 其中`storage/key_value_stores/default/SDK_CRAWLER_STATISTICS_0.json`中记录
- "requestsFinished": 4136, // 记录完成多少个请求(即遍历了多少个网页)
- "requestsFailed": 14, // 记录失败数
- `storage/request_queues/default`目录下记录爬到并且加入队列的的链接其中里边的json.userData字段记录了从首页到当前页面的路径等轨迹元数据
- page/screenshots/axtree快照数据: 记录遍历的网页的html, 截图和axtree
- path轨迹数据: 记录每个网页父节点到子节点的边(child目录)以及processedutlToPath记录到达某个网页地址的路径/最短路径。
# 4. 分析轨迹数据
停止数据飞轮以后,使用 `analysis_v18.js` 可以对轨迹数据进行进一步的处理按照最短路径长度分组保存在path目录下。
# 5. 可视化展示
- vscode安装Live Server插件。右键点击`index.html`,选择"Open with Live Server"。在浏览器中查看轨迹数据。
- 归档的产出物在`archive_artifact_v18.tar.gz`中,可以解压缩,然后测试可视化展示。
# 6. 其他
在`misc`目录下有对轨迹进行总结的测试,以及使用模型和总结后的任务,评估模型每一步正确率 temp_analysis。