使用进阶

动态字段和静态字段

在配置网页模板时,有一个 添加动态字段 按钮,这个功能是为了抓取那些不在预设字段里的其他字段所设计.举例来说,目前爬虫模板可以配置的预设字段有:标题,正文,发布时间等等.如果我们想抓取文章的作者或者文章的发布文号,这时就需要使用动态字段来实现.

动态字段

点击 添加动态字段 按钮,在弹出的输入框中输入要抓取的字段名称,我们以要抓取文章的作者为例,在框中输入author. 注意这个动态字段的名称必须使用英文名称.之后再模板编辑页面就多出来的两个输入框,一个是author Reg,一个是author XPath,其中一个是配置作者字段的正则表达式,另一个是配置作者字段的XPath表达式,这两个选其一即可.

静态字段使用方法与动态字段类似,但是与动态字段不同的是,静态字段相对于爬虫模板来说是静态的.也就是说这个值在配置模板的阶段就是预设好的,通过这个模板抓取的所有数据里面都会带有这个字段和预设的这个值.这个功能主要是方便二次开发人员在数据存储于搜索时的使用.

使用Lucene Query进行数据查询

在数据查询页面进行数据查询时,在关键词输入框中输入的检索词默认是在文章正文中进行检索.如果在这个框中输入 title: 中国 的含义是在所以文章的标题中检索带有中国的网页.支持的字段名称有(括号前为字段名称,括号内为字段的含义):

  • content(正文)
  • title(标题)
  • url(网页链接)
  • domain(网页域名)
  • spiderUUID(爬虫id)
  • keywords(文章关键词)
  • summary(文章摘要)
  • publishTime(文章发布时间)
  • category(文章类别)
  • dynamic_fields(动态字段)

同一网站不同模板的情况

针对同一网站可以有不同的抽取模板的问题,可以通过配置另外的模板进行解决.

results matching ""

    No results matching ""