# 提取模拟器
测试接口主要用于用户在配置风铃虫定义规则时测试使用,请勿将此作为正式抓取功能使用。
所有测试接口的返回数据都是同一种数据结构,该数据结构的定义如下:
public class SimulatorData implements Serializable {
/**
*
*/
private static final long serialVersionUID = 3200425841448559923L;
/**
* 测试是否否成功,true表示成功,false表示失败
*/
private Boolean success;
/**
* 提示信息
*/
private String msg;
/**
* 结果数据
*/
private Object data;
}
# 网页下载功能测试
该接口主要是为了测试站点规则
的配置是否正确以及目标网站能否访问。
测试接口如下:
/**
* 测试网页下载器<br/>
* 使用自定义下载器
*
* @param url 测试网页的地址
* @param siteRule 站点规则
* @param downloader 网页下载器,可以为null
* @return 测试结果
*/
SimulatorData data=Crawler.testDown(SiteRule siteRule, LinkRule linkRule);
# 链接抓取功能测试
该接口主要是为了测试链接解析规则
是否配置正确,在该返回结果的结果数据属性中会包含所有提取出来的链接,通过对比预期值和实际值,用户可以不断调整链接解析规则
配置参数。
测试接口如下:
/**
* 测试链接提取规则<br/>
* 使用自定义下载器
*
* @param url 测试目标地址
* @param siteRule 站点规则
* @param linkRule 链接提取规则
* @param downloader 网页下载器,可以为null
* @return 测试结果
*/
SimulatorData data=Crawler.testLink(String url, SiteRule siteRule, LinkRule linkRule,Downloader downloader);
# 内容匹配功能测试
该接口主要是为了测试内容解析规则
是否配置正确,内容解析规则
的目的是标识那些页面是内容页,在该返回结果的提示信息属性会告知用户匹配通过与否的原因。
测试接口使用方法如下:
/**
* 内容匹配测试
*
* @param url 测试目标地址
* @param siteRule 站点规则
* @param content 内容解析规则
* @param downloader 网页下载器,可以为null
* @return 测试结果
*/
SimulatorData data =
Crawler.testMatcher(String url, SiteRule siteRule, ContentRule content,
Downloader downloader);
# 内容提取功能测试
该接口主要是为了测试内容提取规则
是否配置正确,若内容提取规则
配置正确,在结果数据中会包含预期的结果数据
测试接口使用方法如下:
/**
* 测试内容提取规则<br/>
* 使用自定义下载器
*
* @param url 测试网页的地址
* @param siteRule 站点规则
* @param contentExtractRule 内容提取规则
* @param downloader 网页下载器
* @return 测试结果
*/
SimulatorData data =
Crawler.testContent(String url, SiteRule siteRule, ExtractRule contentExtractRule,
Downloader downloader;