Go to file
2025-04-23 12:16:45 +08:00
doc 初始化 2025-04-23 12:14:50 +08:00
misc 初始化 2025-04-23 12:14:50 +08:00
.gitignore 初始化 2025-04-23 12:14:50 +08:00
analysis_v18.js 初始化 2025-04-23 12:14:50 +08:00
archive_artifact_v18.tar.gz add archive 2025-04-23 12:16:45 +08:00
crawl_grafana_v18.js 初始化 2025-04-23 12:14:50 +08:00
index.html 初始化 2025-04-23 12:14:50 +08:00
package-lock.json 初始化 2025-04-23 12:14:50 +08:00
package.json 初始化 2025-04-23 12:14:50 +08:00
README.md 初始化 2025-04-23 12:14:50 +08:00
requirements.txt 初始化 2025-04-23 12:14:50 +08:00
run_crawler.sh 初始化 2025-04-23 12:14:50 +08:00
show_path.js 初始化 2025-04-23 12:14:50 +08:00

1. 运行环境

安装nodejs v18.7.1

2. 运行数据飞轮

sh run_crawler.sh
  • 修改入口URL修改crawl_grafana_v18.js中所有play.grafana.org的网址。
  • 停止任务:目前程序不会自动停止,需要手工杀进程;程序维持一个任务队列,队列为空就不再继续爬。

3. 产出物

运行数据飞轮以后会自动创建axtrees, pages, path, screenshots, storage等目录

  • storage运行状态数据crawlee框架运行过程记录任务。
    • 其中storage/key_value_stores/default/SDK_CRAWLER_STATISTICS_0.json中记录
      • "requestsFinished": 4136, // 记录完成多少个请求(即遍历了多少个网页)
      • "requestsFailed": 14, // 记录失败数
    • storage/request_queues/default目录下记录爬到并且加入队列的的链接其中里边的json.userData字段记录了从首页到当前页面的路径等轨迹元数据
  • page/screenshots/axtree快照数据: 记录遍历的网页的html, 截图和axtree
  • path轨迹数据: 记录每个网页父节点到子节点的边(child目录)以及processedutlToPath记录到达某个网页地址的路径/最短路径。

4. 分析轨迹数据

停止数据飞轮以后,使用 analysis_v18.js 可以对轨迹数据进行进一步的处理按照最短路径长度分组保存在path目录下。

5. 可视化展示

  • vscode安装Live Server插件。右键点击index.html,选择"Open with Live Server"。在浏览器中查看轨迹数据。
  • 归档的产出物在archive_artifact_v18.tar.gz中,可以解压缩,然后测试可视化展示。

6. 其他

misc目录下有对轨迹进行总结的测试,以及使用模型和总结后的任务,评估模型每一步正确率 temp_analysis。