36 lines
1.7 KiB
Markdown
36 lines
1.7 KiB
Markdown
|
||
# 1. 运行环境
|
||
安装nodejs v18.7.1
|
||
|
||
# 2. 运行数据飞轮
|
||
|
||
```bash
|
||
sh run_crawler.sh
|
||
```
|
||
|
||
- 修改入口URL:修改crawl_grafana_v18.js中所有play.grafana.org的网址。
|
||
- 停止任务:目前程序不会自动停止,需要手工杀进程;程序维持一个任务队列,队列为空就不再继续爬。
|
||
|
||
|
||
|
||
# 3. 产出物
|
||
运行数据飞轮以后,会自动创建axtrees, pages, path, screenshots, storage等目录:
|
||
- storage:(运行状态数据)crawlee框架运行过程记录任务。
|
||
- 其中`storage/key_value_stores/default/SDK_CRAWLER_STATISTICS_0.json`中记录
|
||
- "requestsFinished": 4136, // 记录完成多少个请求(即遍历了多少个网页)
|
||
- "requestsFailed": 14, // 记录失败数
|
||
- `storage/request_queues/default`目录下记录爬到并且加入队列的的链接,其中里边的json.userData字段记录了从首页到当前页面的路径等轨迹元数据
|
||
- page/screenshots/axtree(快照数据): 记录遍历的网页的html, 截图和axtree
|
||
- path(轨迹数据): 记录每个网页父节点到子节点的边(child目录),以及processedutlToPath记录到达某个网页地址的路径/最短路径。
|
||
|
||
# 4. 分析轨迹数据
|
||
停止数据飞轮以后,使用 `analysis_v18.js` 可以对轨迹数据进行进一步的处理,按照最短路径长度分组,保存在path目录下。
|
||
|
||
# 5. 可视化展示
|
||
- vscode安装Live Server插件。右键点击`index.html`,选择"Open with Live Server"。在浏览器中查看轨迹数据。
|
||
- 归档的产出物在`archive_artifact_v18.tar.gz`中,可以解压缩,然后测试可视化展示。
|
||
|
||
|
||
# 6. 其他
|
||
在`misc`目录下有对轨迹进行总结的测试,以及使用模型和总结后的任务,评估模型每一步正确率 temp_analysis。
|