doc | ||
misc | ||
.gitignore | ||
analysis_v18.js | ||
archive_artifact_v18.tar.gz | ||
crawl_grafana_v18.js | ||
index.html | ||
package-lock.json | ||
package.json | ||
README.md | ||
requirements.txt | ||
run_crawler.sh | ||
show_path.js |
1. 运行环境
安装nodejs v18.7.1
2. 运行数据飞轮
sh run_crawler.sh
- 修改入口URL:修改crawl_grafana_v18.js中所有play.grafana.org的网址。
- 停止任务:目前程序不会自动停止,需要手工杀进程;程序维持一个任务队列,队列为空就不再继续爬。
3. 产出物
运行数据飞轮以后,会自动创建axtrees, pages, path, screenshots, storage等目录:
- storage:(运行状态数据)crawlee框架运行过程记录任务。
- 其中
storage/key_value_stores/default/SDK_CRAWLER_STATISTICS_0.json
中记录- "requestsFinished": 4136, // 记录完成多少个请求(即遍历了多少个网页)
- "requestsFailed": 14, // 记录失败数
storage/request_queues/default
目录下记录爬到并且加入队列的的链接,其中里边的json.userData字段记录了从首页到当前页面的路径等轨迹元数据
- 其中
- page/screenshots/axtree(快照数据): 记录遍历的网页的html, 截图和axtree
- path(轨迹数据): 记录每个网页父节点到子节点的边(child目录),以及processedutlToPath记录到达某个网页地址的路径/最短路径。
4. 分析轨迹数据
停止数据飞轮以后,使用 analysis_v18.js
可以对轨迹数据进行进一步的处理,按照最短路径长度分组,保存在path目录下。
5. 可视化展示
- vscode安装Live Server插件。右键点击
index.html
,选择"Open with Live Server"。在浏览器中查看轨迹数据。 - 归档的产出物在
archive_artifact_v18.tar.gz
中,可以解压缩,然后测试可视化展示。
6. 其他
在misc
目录下有对轨迹进行总结的测试,以及使用模型和总结后的任务,评估模型每一步正确率 temp_analysis。