与现有系统集成

本平台提供了许多HTTP接口可供开发人员调用,这些开发接口基本上涵盖了大多数的数据需求,使得开发人员可以通过HTTP接口直接获取数据,避免从底层取数据的麻烦。

单个网页数据的获取与删除

接口名称:/commons/webpage/getWebpageById

参数:

  • id:网页id

接口名称:/commons/webpage/deleteById

参数:

  • id:网页id

按任务ID获取该任务的所有数据

接口名称:/commons/webpage/

参数:

  • 获取库中全部数据

接口名称:/commons/webpage/startScroll

参数: 返回值含义: 返回值是一个ResultBundle>>类型,Pair.left是一个滚动ID,需要记下来。right是第一批数据。

接口名称:/commons/webpage/scrollAllWebpage

参数:

  • scrollId:就是从上面一个接口得到的滚动ID 返回值含义: 返回值即使第二批数据,之后每次调用接口将获取下一批数据,直至数据获取完毕。

按域名删除数据

接口名称:/commons/webpage/deleteByDomain

参数:

  • domain:域名

导出数据成文本文件

接口名称: /commons/webpage/exportWebpageJSONBySpiderUUID 参数:

  • uuid:任务id
  • includeRaw:是否在导出的文件中包含原始网页快照

results matching ""

    No results matching ""