# 演示平台配置步骤

# 配置基本信息

输入图片说明

此步骤主要是配置爬虫的基本信息,在配置过程中,各个配置参数的说明如下:

  1. 爬虫名字 :必填参数,用于标识爬虫,进行识别,因此最好保证爬虫名字唯一
  2. 爬虫描述 :选填参数,爬虫信息描述
  3. 间隔时间 :必填参数,单位为秒,默认值是10秒。表示爬虫每次发起爬取网站的请求的平均间隔时间为10秒。在默认情况下,爬虫爬取网页抓取的间隔时间为0到间隔时间的两倍之间的一个数字。
  4. 超时时间 : 必填参数,单位为秒,默认为300秒。表示爬虫实例在连续经过多长时间后仍然没有新的爬取命令过来时会自动停止该实例,爬取任务完成。

# 配置链接信息

配置链接信息

如图所示,在此步骤中主要分为以下两步

配置起始链接

起始链接是风铃虫的种子链接,风铃虫会首先请求这个链接地址,并下载此网页内容,然后根据 链接提取规则 从下载的网页内容里提取出所有符合要求的链接,并把提取出来的链接放入资源池,然后再从资源里获取下次需要请求的网站,再提取链接。风铃虫会一直这样循环下去,知道爬虫任务完成。

风铃虫可以配置多个起始链接,多个起始链接之间用 半角逗号 隔开

链接提取规则

风铃虫是根据正则表达式来提取链接的。用户也可以直接配置为/**,标识提取出所有的链接

风铃可以配置多个提取链接,多个提取链接规则之间是 的关系,也就是最后总的链接数量是根据多个链接规则提取出来的链接数量之和。

对于正则表达式不熟练的同学,可以配置多个提取规则,一个规则只提取一类链接即可。

# 配置站点信息

配置站点信息

在默认情况下,此步骤可以省略,直接跳过即可

在缺省配置的情况,风铃虫会自动进行以下工作

  1. 每次发起爬起请求时,风铃虫会自动从浏览器标识符池中随机获取一个浏览器标识符,将自己伪装成该类型的浏览器
  2. 首次发起请求时,默认的cookie信息为空,在后续的请求中,会自动根据上次请求的信息更新请求的cookie信息
  3. 首次请求时,默认Referer 值为当前的目标网页地址,在后续的请求中,会自动将该Referer的值设置为上次给他请求地址

虽然风铃虫在缺省情况下几乎就能满足大多数网站的抓取要求,但是对于某些要求比较严格的网站,就需要用户设置这些信息,当用用户设置这些信息以后,风铃虫会使用用户配置的数据而不会使用缺省设置了。

# 配置提取项

配置提取项

既然配置了风铃虫,肯定是需要提取信息了,风铃虫支持配置多个提取项,即一次性提取多个要素。

为了提高爬虫的提取效率,风铃虫特地设置 内容页规则 ,只要当目标网站的网页地址地址符合该规则时,风铃虫才会从该网页里提取数据信息,防止浪费系统和提高提取效率。

内容页规则主要是根据正则表达式进行配置的,当用户不熟悉正则时,可以配置此值为/**,此时,风铃虫会尝试从所有的抓取的网页里提取数据信息。

最后,风铃虫默认提取网页SEO信息里的 **title ** 、 keywordsdescription,请用户设置其他提取项主要不要冲突。

# 提取项配置

提取项配置规则

如图所示,首先需要配置提取项的名字等信息,然后配置提取规则,这些参数的作用如下

提取项名字: 可以是汉字,用来表示提取项的意义 提取项代码 :提取项的唯一标识符,在同一个爬虫实例里,每个提取项的提取项代码一定要是唯一的 提取项描述:选填参数,可以不填

提取规则 :风铃虫内置多个提取规则,在使用提取规则,多个提取规则之间可以自由排列组合,允许重复。

在使用提取规则时,多个提取规则之间有先后顺序要求,上一个提取规则的输出参数就是下一个提取规则输入参数

第一个提取规则的输入参数就是所请求的目标网页的原始文本

以上图为例, 原始文本提取器 的输入参数为所请求的目标网页的原始文本,由他对该本进行处理,处理后的数据作为 XPATH提取器 的输入参数,在 _XPATH提取器_进行处理后,输出的数据作为 正则提取器 的输入参数,在 正则提取器 处理后的数据直接输出

最后,为了校验经过提取规则提取出来的数据是否需要,用户可以点击下面的 测试按钮 ,输入参数测试网址进行测试,即可知道配置是否符合预期要求,并根据输出结果对提取规则进行调整。

Last Updated: 1/6/2020, 9:47:00 PM