CN103761330A

CN103761330A - 基于模版配置实现互联网信息自动提取的系统及方法

Info

Publication number: CN103761330A
Application number: CN201410046071.5A
Authority: CN
Inventors: 逯利军; 钱培专; 管路永; 任静; 林强; 王浩; 汪金忠; 张树民
Original assignee: CERTUSNET CORP
Current assignee: BEIJING CERTUSNET INFORMATION TECHNOLOGY CO., LTD.
Priority date: 2014-02-10
Filing date: 2014-02-10
Publication date: 2014-04-30

Abstract

本发明涉及一种基于模版配置实现互联网信息自动提取的系统及方法，其中包括模版管理模块，用以创建领域模型、分析待抽取的网页并创建与领域模型绑定的模版以及对创建的模版进行配置，所述的领域模型用以保存用户关心的数据；网页爬虫模块，用以根据选择的模版匹配待抓取的网页并根据匹配的模版的配置提取网页元信息封闭到所对应的领域模型的对象中。采用该种结构的基于模版配置实现互联网信息自动提取的系统及方法，实现了网页元信息的提取，对每个符合网页过滤规则的网页进行条件判断，符合条件的将会被提取元数据，并且对大部分相似的网页，其差异部分可以使用条件表达式进行微处理，达到模板通用最大化，具有更广泛的应用范围。

Description

基于模版配置实现互联网信息自动提取的系统及方法

技术领域

本发明涉及互联网信息处理技术领域，尤其涉及互联网信息自动提取技术领域，具体是指一种基于模版配置实现互联网信息自动提取的系统及方法。

背景技术

现代互联网发展迅猛，信息量庞大，因此产生了有针对性的抓取网页元信息并对结果进行分析的业务需求。例如：某市场调查人员，想周期性的调查网络上其它卖家的价格，以方便根据自己的情况制订合理的商品价格，则需要定时去网络查找相关产品的价格浮动情况。

目前已经存在一些网页元信息抽取相关的应用，但它们都有各自的不足。一、对网页抓取比较死板，没有丰富的数据处理逻辑，例如：根据某个Xpath（XML Path Language，XML路径语言）抓取网页上对应的数据，不能对网页内的内容做诸如条件判断、循环处理、变量替换、抓取内容再处理等更灵活操作；二、抓取内容没有做集合化、并保存处理，例如：需要抓取视频类节目信息，则提炼出视频的一些属性信息（链接、名称、分类、海报等），将网页内抓取到的元数据封装到集合的各个字段，并将这些数据保存或更新到数据库，方便后期处理。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种能够实现网页元信息的提取、符合网页过滤规则条件网页的将会被提取元数据、达到模板通用最大化、具有更广泛应用范围的基于模版配置实现互联网信息自动提取的系统及方法。

为了实现上述目的，本发明的基于模版配置实现互联网信息自动提取的系统及方法具有如下构成：

该基于模版配置实现互联网信息自动提取的系统，其主要特点是，所述的系统包括：

模版管理模块，用以创建领域模型、分析待抽取的网页并创建与领域模型绑定的模版以及对创建的模版进行配置，所述的领域模型用以保存用户关心的数据；

网页爬虫模块，用以根据选择的模版匹配待抓取的网页并根据匹配的模版的配置提取网页元信息封闭到所对应的领域模型的对象中。

较佳地，所述的系统还包括：

任务管理模块，用以获取用户对模版的选择并将所对应的模版发送至所述的网页爬虫模块。

较佳地，所述的系统还包括：

自动化测试模块，用以定时运行设置了测试规则的模版中的测试用例以及当模版不能正确提取需要的信息时通知用户。

本发明还涉及一种通过所述的系统基于模版配置实现互联网信息自动提取的方法，其主要特点是，所述的方法包括以下步骤：

（1）所述的模版管理模块创建领域模型；

（2）所述的模版管理模块分析待抽取的网页并创建与所述的领域模型绑定的模版；

（3）所述的模版管理模块对所述的模版进行配置；

（4）所述的网页爬虫模块根据选择的模版匹配待抓取的网页；

（5）所述的网页爬虫模块根据匹配的模版的配置提取网页元信息；

（6）所述的网页爬虫模块将提取的网页元信息封闭到所对应的领域模型的对象中并将得到的领域模型保存至数据库。

较佳地，所述的模版管理模块对所述的模版进行配置，包括以下步骤：

（31）所述的模版管理模块设置网页过滤规则；

（32）所述的模版管理模块设置网页分析引擎为Htmlunitdriver或Webdriver；

（33）所述的模版管理模块设置Javascript是否启用、设置种子并设置网页抓取深度；

（34）所述的模版管理模块设置Xpath路径及处理方式。

更佳地，所述的网页爬虫模块根据选择的模版匹配待抓取的网页，具体为：

所述的网页爬虫模块根据选择的模版对应的网页过滤规则匹配待抓取的网页，如果所有选择的模版均不能匹配待抓取的网页，则结束退出，否则，继续步骤（5）。

更佳地，所述的网页爬虫模块根据匹配的模版的配置提取网页元信息，包括以下步骤：

（51）所述的网页爬虫模块采用匹配的模版配置的网页分析引擎对待抓取网页进行分析；

（52）所述的网页爬虫模块根据匹配的模版的Xpath路径及处理方式提取网页元信息。

较佳地，所述的系统还包括任务管理模块，所述的步骤（3）和（4）之间，还包括以下步骤：

（35）所述的任务管理模块获取用户对模版的选择并将所对应的选择的模版发送至所述的网页爬虫模块。

采用了该发明中的基于模版配置实现互联网信息自动提取的系统及方法，具有如下有益效果：

采用了该发明中的基于模版配置实现互联网信息自动提取的系统及方法，实现了网页元信息的提取。它构建在“一个模板可以处理所有具有相似HTML结构的网页”的理论基础上，对每个符合网页过滤规则的网页进行条件判断，符合条件的将会被提取元数据，并且对大部分相似的网页，其差异部分可以使用条件表达式进行微处理，达到模板通用最大化，具有更广泛的应用范围。

附图说明

图1为本发明的基于模版配置实现互联网信息自动提取的系统的结构示意图。

图2为本发明的基于模版配置实现互联网信息自动提取的方法的流程图。

图3为本发明的网页元信息提取的流程图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明主要是采用“面向模版的可视化网页元信息提取技术”解决方案，实现网页元信息的提取。

如图1所示，本系统包括以下组成部分：

一、模版管理模块

本系统提供了一套B/S（浏览器/服务器）结构的应用程序，可在系统内配置模版。模版配置可在B/S架构中进行可视化的配置。

（1）首先需要业务建模，创建一个领域、并在此领域下建立领域模型，领域模型为用户关心的数据，同时也将保存网页内抽取出来的元数据。

（2）然后创建模版，在用户创建模版之前，需要去分析将要抽取的网页，将相似的网页归到同一个模版。

创建模版时需要绑定一个领域模型，即将抽取到的数据绑定到领域模型。

（3）对模版进行配置。

（31）模版需要配置URL过滤规则即网页过滤规则，只有符合网页过滤规则的网页才会被模版抽取元数据，也可以通过条件判断，进一步过滤网页。

（32）设置网页分析引擎，当前提供2种引擎（Htmlunitdriver，Webdriver）分析网页，Htmlunitdriver比较轻量，运行速度快；Webdriver会启用本地机器上的浏览器，速度相对较慢，适用于处理一些复杂的网页。开启Javascript将会使得网页分析效率降低，不必要的时候可以不开启此选项；

（33）设置Javascript（基于对象和事件驱动的客户端脚本语言）是否启用；配置种子，从种子发散，抓取网页；设置网页抓取深度。以上四个选项将会控制网页元信息提取与网页爬虫的运行。

（34）使用Xpath抽取网页元信息，即使用网页元数据的Xpath路径作为抽取元数据的基本表达式，对于不能使用Xpath路径的复杂页面，可以使用条件判断、循环处理、Java表达式等处理Xpath。系统提供了常用的内置函数及常量。

可以选取一个网页进行单元测试，并保存单元测试结果。

二、网页爬虫模块

网页爬虫模块负责网页URL的发现与扩散，将新发现的URL放入队列，等待模版处理。

本系统使用Heritrix作为网页爬虫的实现，并对其做了一定量的扩展与配置。Heritrix是一个开源的纯Java的搜索引擎，以任务（Job）形式运行搜索引擎，支持多个任务同时运行。它提供了简洁的Web管理界面，可启动、停止任务，支持备份、还原操作，查看日志，调整配置文件等操作。

URL发散。以预设定的种子地址URL为基础，获取页面上所有URL并将其加入队列中等待下一轮发散

网页处理。采用正则匹配的方法将待处理的URL与模板中的URL规则进行匹配；符合了某个模板中URL规则的页面，将其从待分析队列中加载至内存，使用对应的处理器读模板中的各个步骤进行处理；对于不符合任一模板的URL，将其废弃。

系统对Heritrix源代码进行了扩展，增加网页元信息提取功能，流程如下：

（4）根据模版的网页过滤规则匹配当前抓取的URL，若所有模版都不匹配则放弃该URL的元信息提取工作。

（51）使用匹配到的模版的网页分析引擎分析URL。

（52）使用模版设置的Xpath以及流程控制（循环，条件，点击事件，Javascript脚本等），来提取网页元信息；

（6）将提取的网页元信息封闭到领域模型对象当中。如：提取某个视频列表页面，使用循环流程迭代所有的视频，再对每个视频提取元信息。

将得到的领域模型对象保存、更新到数据库。

三、任务管理模块

任务管理模块让用户选择模版、并将模版交给后台网页爬虫模块处理，提取网页元信息。

任务运行结束之后，可以通过系统查询出本次任务的提取结果。

四、自动化测试模块

由于有些网站的网页会改版，导致Xpath取不到数据，系统提供了自动化测试功能，即定时测试创建模版时使用的单元测试URL，并与单元测试时的数据进行比较，有差异信息将会给出警报信息，提示用户模版可能需要修改。

测试规则由用户指定，用户对领域模型中的属性做非空、相等、大于等规则限定，只有设定了测试规则的领域模型才会被自动化测试。

以下结合一个对电商产品信息进行抓取并整合的例子，详细描述本发明的具体实施方式。

如图2～3所示为本发明的基于模版配置实现互联网信息自动提取的方法的流程图。

本具体实施方式描述的是对互联网上的电商网站中各种各样产品信息数据的抽取及整合方法。对电商网站中电商产品信息进行整合的工作，可以为需要网购、或者线下购买的采购人员提供一个相对全面的产品信息的集成平台，通过该平台可以快速了解产品在过去一段时间内不同电商商家的价格、折扣等信息，为消费者进行购买提供参考信息。

本具体实施方式中，为了实现对电商产品信息的抽取及整合，需经历以下几个步骤：

1、建立“电商产品”的领域模型

（1）在“领域管理”模块中新建领域，名称为“电商产品”。

（2）对“电商产品”领域模型进行编辑。在本“电商产品”领域内，需要关心的信息有商品名称、商品编号、商品类别、商品链接地址、商品图片海报地址、商品当前价格、商品促销或折扣信息、已购买人数、商品评分、商品好评度等属性，可以对各个属性的类型和展示效果进行设置。

2、建立网站信息

当前电商网站众多，本具体实施方式中选取京东网作为示例。在“网站管理”中新建网站“京东网，”并填写网站的顶级域名信息。

3、网站分析

结合“电商产品”领域模型中预设的一些需要抽取的商品信息，对京东网的页面进行初步的预览分析。要想在抽取过程中尽可能简便、快速的得到所需的信息，关于商品的哪些页面是必须要进行抽取的。根据网站首页的分类导航，可以得到一个类型的商品的分类列表页，列表页面中列举了商品的名称、价格、评价数，还可以看到商品的海报图片，点击至单个商品的详情页面后，还可以看到商品编号、促销信息和好评度等信息，因此，针对京东网的商品，只需要分别对商品列表页面和商品详情页面进行抽取即可。

网站分析的质量直接决定了模版配置的有效性和效率，完成网站分析后就可以在“模版管理”模块进行具体的模版配置工作了。

4、模版配置及模版测试

（1）列表页面的模版配置及模版测试

①模版配置

a、模版基本信息填写。模版名称为“京东列表页面模版”，所属网站中选择“京东网”，模型选择“电商产品”，模版描述中可适当填写该模版的分析对象等信息；

b、页面解析。页面解析方式默认是“HtmlUnit抓取”方式，在此方式下不能抽取到信息时，可以修改解析方式，如增加“开启JS解析”或者采用webDriver的解析方式。

c、URL规则设置。总结列表页面的URL地址特征，将其中可变换的部分采用正则表达式代替，其余部分不动，得到结果：

http://list.jd.com/\d+-\d+-\d+-0-0-0-0-0-0-0-1-\d+-1-1-1-\d+-\d+-\d+.html

d、种子地址。种子地址中填写作为发散的原始URL地址，可以填多个，本处只填写一个为http://list.jd.com/737-738-749-0-0-0-0-0-0-0-1-1-1-1-1-72-4137-0.html

e、深度选择。对于列表页面，不限制其深度。

f、循环处理。循环处理中的Xpath路径为必填项，使用插件，得到列表页商品列表信息的Xpath路径为：//*[id=′plist′]/ul/li

g、提取独立属性。对列表中单个商品进行解析，选择要抽取的属性名称，并在其后的表达式中填写Xpath路径及处理方式，如对于“商品名称”属性，表达式中需填写“xpathAttr(“./div/div[2]/a”，“title”)”，对于“商品海报”属性，则要填写“xpathAttr(“./dic/div[1]/a/img”，“src”)”。

②模版测试

本模版配置完成后，为了验证列表页中的这一组商品的信息是否能正确的抽取到，可以利用模版中的单元测试功能进行检测。

a、在“测试URL”栏中填入一个符合模版配置中URL规则的分类列表页地址信息。

b、点击测试，等待结果

c、测试完成后，可以看到抽取的商品各项属性信息值，与页面实际值进行比对，与页面上展示的一致说明模版配置中这一属性的Xpath路径及处理方式是正确可用的；若是某一属性未能抽取到信息或者抽取到的属性值与页面中的实际展示值不一致，则说明在模版配置中这一属性的Xpath错误或者处理方式不彻底，则需要对模版配置进行修改，并再次进行测试，直至测试结果通过。通过测试时，将本条测试URL及其结果共同置为测试用例。

（2）详情页面的模版配置及模版测试

①模版配置

a、模版基本信息填写。模版名称为“京东商品简介页面模版”，所属网站中选择“京东网”，模型选择“电商产品”，模版描述中可适当填写该模版的分析对象等信息；

b、页面解析。同样，有限选择默认值“HtmlUnit抓取”的解析方式。

c、URL规则设置。简介页面的URL地址使用正则表达式表述为：

http://item.jd.com/\d+.html

d、种子地址。在列表页面的模版中已经配置过种子地址，因此在本模版中可以不设置种子地址。

e、深度选择。本模版中采用默认的“限制深度”为5层，避免在本页面中进行过度抓取。

f、提取独立属性。对页面中需要抓取的属性及其表达式进行配置。在本页面中，对于“商品编号”这一属性，表达式为“xpath://*[id=′summary-market′]/div[2]/span”，属性“商品促销及折扣信息”，表达式为“xpath://*[id=′product-promotions′]/em[2]”

②模版测试

步骤与上列表页面的模版测试类似。对于通过测试的模版进行测试用例的指定和模版发布，不能通过的继续分析配置和测试，直至通过。

5、建立任务，对网站的产品信息进行抽取整合。

领域模型、网站以及抽取网站信息所需的模版均配置完成并测试通过后，可以在任务管理模块中建立任务并运行，任务运行过程中即可看到已经抽取到的商品信息。

6、自动化测试

自动化测试模块启动后，每天都将已经发布的“京东列表页面模版”和“京东商品简介页面模版”两个正式模版信息进行加载，并自动运行其中的测试用例。若页面结构发生变化，原先的模版已经不能正确抽取需要的信息，其测试详情则会在报告中体现出来，测试完成后通过邮件及短信发出测试报告，以提醒相关人员对模版进行完善和修正，若测试报告中无任何异常，说明原先的模版依然有效，可以继续利用其进行网页元信息信息的抽取工作。

采用了该发明中的基于模版配置实现互联网信息自动提取的系统及方法，实现了网页元信息的提取。它构建在“一个模板可以处理所有具有相似html结构的网页”的理论基础上，对每个符合URL匹配规则的网页进行条件判断，符合条件的将会被提取元数据，并且对大部分相似的网页，其差异部分可以使用条件表达式进行微处理，达到模板通用最大化，具有更广泛的应用范围。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于模版配置实现互联网信息自动提取的系统，其特征在于，所述的系统包括：

2.根据权利要求1所述的基于模版配置实现互联网信息自动提取的系统，其特征在于，所述的系统还包括：

3.根据权利要求1所述的基于模版配置实现互联网信息自动提取的系统，其特征在于，所述的系统还包括：

4.一种通过权利要求1至3中任一项所述的系统基于模版配置实现互联网信息自动提取的方法，其特征在于，所述的方法包括以下步骤：

（1）所述的模版管理模块创建领域模型；

（3）所述的模版管理模块对所述的模版进行配置；

5.根据权利要求4所述的基于模版配置实现互联网信息自动提取的方法，其特征在于，所述的模版管理模块对所述的模版进行配置，包括以下步骤：

（31）所述的模版管理模块设置网页过滤规则；

（34）所述的模版管理模块设置Xpath路径及Xpath处理方式。

6.根据权利要求5所述的基于模版配置实现互联网信息自动提取的方法，其特征在于，所述的网页爬虫模块根据选择的模版匹配待抓取的网页，具体为：

7.根据权利要求5所述的基于模版配置实现互联网信息自动提取的方法，其特征在于，所述的网页爬虫模块根据匹配的模版的配置提取网页元信息，包括以下步骤：

（52）所述的网页爬虫模块根据匹配的模版的Xpath路径及Xpath处理方式提取网页元信息。

8.根据权利要求4所述的基于模版配置实现互联网信息自动提取的方法，其特征在于，所述的系统还包括任务管理模块，所述的步骤（3）和（4）之间，还包括以下步骤：