采集配置
采集配置主要是指的爬虫的一些行为,例如线程,睡眠时间等等。
thread一栏可以设置爬虫的线程数量,数量越多,采集越快。但是如果数量太大可能对被采集的网站造成过大压力,可能导致触发网站的反爬虫策略。
sleep一栏设置的是睡眠时间,是指一个线程在抓取完成一个网页之后睡眠多久,单位为毫秒,主要是用来防止抓取过快,导致触发反爬虫策略。
timeout一栏是指超时时间,如果爬虫在下载网页时,超过这个时间仍然无法下载网页,则判定这个网页超时。
retry一栏是设置重试次数,如果爬虫下载一个网页时出现问题,例如超时等等,会根据设置的重试次数进行再次的尝试。
userAgent是指爬虫的对于自身的描述,可以将自己描述为一个普通的浏览器以防止被原网站封杀。
callbackURL是指当爬虫执行完成之后通知哪些HTTP接口。
循环任务
循环任务是定时的循环执行某个模板的采集。
在导航栏中打开模板列表
,在每个模板后面有一个创建定时任务
按钮。
点击这个按钮,到任务定义界面,在2号输入框中输入任务的循环时间间隔。
然后点击提交即开始了一个循环任务。
之后可在导航栏中选择定时任务管理
,查看定时任务监控界面。