采集配置

采集配置主要是指的爬虫的一些行为,例如线程,睡眠时间等等。

thread一栏可以设置爬虫的线程数量,数量越多,采集越快。但是如果数量太大可能对被采集的网站造成过大压力,可能导致触发网站的反爬虫策略。

sleep一栏设置的是睡眠时间,是指一个线程在抓取完成一个网页之后睡眠多久,单位为毫秒,主要是用来防止抓取过快,导致触发反爬虫策略。

timeout一栏是指超时时间,如果爬虫在下载网页时,超过这个时间仍然无法下载网页,则判定这个网页超时。

retry一栏是设置重试次数,如果爬虫下载一个网页时出现问题,例如超时等等,会根据设置的重试次数进行再次的尝试。

userAgent是指爬虫的对于自身的描述,可以将自己描述为一个普通的浏览器以防止被原网站封杀。

callbackURL是指当爬虫执行完成之后通知哪些HTTP接口。

循环任务

循环任务是定时的循环执行某个模板的采集。

在导航栏中打开模板列表,在每个模板后面有一个创建定时任务按钮。

点击这个按钮,到任务定义界面,在2号输入框中输入任务的循环时间间隔。

编辑模板

然后点击提交即开始了一个循环任务。

之后可在导航栏中选择定时任务管理,查看定时任务监控界面。

results matching ""

    No results matching ""