与现有系统集成
本平台提供了许多HTTP接口可供开发人员调用,这些开发接口基本上涵盖了大多数的数据需求,使得开发人员可以通过HTTP接口直接获取数据,避免从底层取数据的麻烦。
单个网页数据的获取与删除
接口名称:/commons/webpage/getWebpageById
参数:
- id:网页id
接口名称:/commons/webpage/deleteById
参数:
- id:网页id
按任务ID获取该任务的所有数据
接口名称:/commons/webpage/
参数:
获取库中全部数据
接口名称:/commons/webpage/startScroll
参数:
返回值含义:
返回值是一个ResultBundle滚动ID
,需要记下来。right是第一批数据。
接口名称:/commons/webpage/scrollAllWebpage
参数:
- scrollId:就是从上面一个接口得到的
滚动ID
返回值含义: 返回值即使第二批数据,之后每次调用接口将获取下一批数据,直至数据获取完毕。
按域名删除数据
接口名称:/commons/webpage/deleteByDomain
参数:
- domain:域名
导出数据成文本文件
接口名称:
/commons/webpage/exportWebpageJSONBySpiderUUID
参数:
- uuid:任务id
- includeRaw:是否在导出的文件中包含原始网页快照