CN107256274A - 网页的智能采集方法及系统 - Google Patents
网页的智能采集方法及系统 Download PDFInfo
- Publication number
- CN107256274A CN107256274A CN201710512435.8A CN201710512435A CN107256274A CN 107256274 A CN107256274 A CN 107256274A CN 201710512435 A CN201710512435 A CN 201710512435A CN 107256274 A CN107256274 A CN 107256274A
- Authority
- CN
- China
- Prior art keywords
- rule
- computer equipment
- collection rule
- collection
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网页的智能采集方法,所述方法包括如下步骤:计算机设备获取添加任务以及添加网址;计算机设备添加网页的采集规则,对该采集规则智能解析;计算机设备测试采集规则,在该采集规则测试通过后,发布任务;计算机设备依据该采集规则开始采集网页,并将采集的网页数据发布。本发明提供的技术方案具有效率高的优点。
Description
技术领域
本发明涉及软件及计算机领域,尤其涉及一种网页的智能采集方法及系统。
背景技术
在传统采集中,用户需要具备基本的网页代码阅读能力,这样就局限住了那些需要使用采集功能而不会配置的用户,并且对于拥有配置能力的用户也会消耗大量的配置时间。由此大量的采集源配置工作,采集效率、采集数量的压力日益增大,市面普通的采集器已经不满足我们的业务需求,所以研发部门需要实现以围绕业务为核心的高性能、高可用性的智能型采集器及采集方法。
现有的网页的采集方法性能低,效率低。
发明内容
本申请提供一种网页的智能采集方法。其解决现有技术的技术方案性能低,效率低的缺点。
一方面,提供一种网页的智能采集方法,所述方法包括如下步骤:
计算机设备获取添加任务以及添加网址;
计算机设备添加网页的采集规则,对该采集规则智能解析;
计算机设备测试采集规则,在该采集规则测试通过后,发布任务;
计算机设备依据该采集规则开始采集网页,并将采集的网页数据发布。
可选的,所述方法在发任务之后还包括:
将所述发布任务同步到数据库中。
可选的,所述方法在对该采集规则智能解析之前还包括:
人工制定规则,具体的:用户通过对网址数据结构的分析,制定出提取元素数据的规则;计算机设备自动定位网页元素,使用户点击即可获取元素内容,并由计算机设备生成采集规则。
可选的,所述对该采集规则智能解析具体,包括:
对所述采集规则进行语义算法解析识别出所述采集规则的有效内容,计算出该数据的提取规则。
可选的,所述对该采集规则智能解析具体,包括:
从规则库中查找所述添加网址对应的采集规则,如规则库存所述添加网址,则将所述添加网址对应的采集规则提取复用。
第二方面,提供一种计算机设备,所述计算机设备包括:
获取单元,用于获取添加任务以及添加网址;
处理单元,用于添加网页的采集规则,对该采集规则智能解析,测试采集规则,在该采集规则测试通过后,发布任务,依据该采集规则开始采集网页,并将采集的网页数据发布。
可选的,所述处理单元,还用于将所述发布任务同步到数据库中。
可选的,处理单元,还用于人工制定规则,具体的:用户通过对网址数据结构的分析,制定出提取元素数据的规则;计算机设备自动定位网页元素,使用户点击即可获取元素内容,并由计算机设备生成采集规则。
可选的,所述处理单元,具体用于对所述采集规则进行语义算法解析识别出所述采集规则的有效内容,计算出该数据的提取规则。
第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面提供的网页的智能采集方法。
本发明提供的技术方案通过自动解析采集规则,实现网页的自动采集,所以其具有效率高、成本低的优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一较佳实施方式提供的一种网页的智能采集方法的流程图;
图2为本发明第二较佳实施方式提供的一种计算机设备的结构图。
图3为本发明第二较佳实施方式提供的一种计算机设备的硬件结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1是本发明第一较佳实施方式提出的一种网页的智能采集方法,该方法由计算机设备执行,该方法如图1所示,包括如下步骤:
步骤S101、计算机设备获取添加任务以及添加网址。
步骤S102、计算机设备添加网页的采集规则,对该采集规则智能解析。
步骤S103、计算机设备测试采集规则,在该采集规则测试通过后,发布任务。
步骤S104、计算机设备依据该采集规则开始采集网页,并将采集的网页数据发布。
可选的,上述方法在步骤S103与步骤S104之间还可以包括:
计算机设备将发布的任务存储在数据库。
可选的,上述方法中对该采集规则进行智能解析的流程如图2A所示,其中,图2A一种网页的智能解析方法的示意图,通过智能提取采集规则,可大大减少用户配置采集规则所需的时间,并且可帮助普通用户快速实现规则提取。该解析方案包含:元素定位提取、规则数据库匹配、模型数据库匹配、语义算法。其中元素定位提取可最大限度的方便大众,直接点击网页中的某元素,系统便可自动提取出该元素对应的提取规则(XPath地址、正则参数提取);然后规则数据库匹配作为智能解析的第一步操作,若添加的网址类似于规则库中网址,则自动提取规则并校验,不通过时使用模型数据库,通过语义分析标题的动词、介词或副词组合概率以判断网址类型,从模型库中提取该类型的模型规则进行数据提取测验,将有效的前三个规则提示给用户选择,在用户进行选择或修改时,对该规则进行修正或记录以达到规则库越来越充实、精确。语义算法作为补充功能,当规则库和模型库无法提取出规则时,对所需类型元素进行统一提取,根据内容进行计算并筛选出可用规则。
元素规则提取:通过对网页元素的点击,系统自动提取出该元素的提取规则,包括XPath地址、正则参数提取;
规则数据库匹配:作为智能解析的第一步,根据主域名进行匹配(例如:GD.*.CN类似于SZ.*.CN)。找到对应的规则进行后台解析,如果其规则能有效提取数据,则推荐该规则。
模型数据库匹配/语义分析:作为智能解析的第二步,模型库字段由采集源类型决定。由语义分析确认采集源类型,并提取库中属于该类型的模型,如果其规则能有效提取数据,则推荐该规则(当多个规则均采集到数据时,同时推荐,取字符长度大小的前3个)。当用户对规则进行调整,并进行有效测试之后,记录新规则(增加修正计数、未调整则仅记录引用计数),当源规则包含新规则时,直接进行修正。当用户新增字段时,则系统对该类型的模型库添加该字段及初始规则。
语义算法:语义分析通过对标题、内容的动词/介词/副词组合概率以判断网址类型;语义算法通过对内容进行计算并筛选出可用规则(例如新闻类型的内容字段:通过对内容长度的反向推算,取不包含DIV的内容(文字)长度最大的底层DIV以确认包含内容的元素并生成提取规则)。
智能解析规则
1、语义算法:通过对采集数据的语义分析过滤无效内容,识别出有效内容,并计算出该数据的提取规则。
2、规则库:存储已有网址的采集规则,当出现相同或相似的新增采集网址时可以提取复用。
3、模型库:存储主流数据采集模型(支持模型扩展),从而使计算机设备快速识别出所需要提取的元素及生成规则。
例如:新闻模型,当采集一篇新闻详情页网址时,系统可根据新闻模型自动提取出″标题″、″作者″、″来源″、″发布时间″、″内容″等字段)。
4、自我修正:当通过自动解析生成规则,用户变更规则并进行有效测试(或有效采集)时,计算机设备会自动更新模型库。
可选的,上述方法在对该规则智能解析之前还可以包括:
人工制定规则,具体的:
1、用户通过对网址数据结构的分析,制定出提取元素数据的规则。
2、元素定位:计算机设备自动定位网页元素,使用户点击即可获取元素内容,并由计算机设备生成采集规则。
参阅图2B,图2B提供一种计算机设备,所述计算机设备包括:
获取单元201,用于获取添加任务以及添加网址;
处理单元202,用于添加网页的采集规则,对该采集规则智能解析,测试采集规则,在该采集规则测试通过后,发布任务,依据该采集规则开始采集网页,并将采集的网页数据发布。
可选的,处理单元202,还用于将所述发布任务同步到数据库中。
可选的,处理单元202,还用于人工制定规则,具体的:用户通过对网址数据结构的分析,制定出提取元素数据的规则;计算机设备自动定位网页元素,使用户点击即可获取元素内容,并由计算机设备生成采集规则。
可选的,处理单元202,具体用于对所述采集规则进行语义算法解析识别出所述采集规则的有效内容,计算出该数据的提取规则。
参阅图3,图3为一种计算机设备30,包括:处理器301、收发器302、存储器303和总线304,收发器302用于与外部设备之间收发数据。处理器301的数量可以是一个或多个。本申请的一些实施例中,处理器301、存储器302和收发器303可通过总线304或其他方式连接。计算机设备30可以用于执行图1的步骤。关于本实施例涉及的术语的含义以及举例,可以参考图1对应的实施例。此处不再赘述。
其中,存储器303中存储程序代码。处理器301用于调用存储器303中存储的程序代码,用于执行以下操作:
处理器301,用于在启动后,接收位置传感器发送的多个位置信息,对多个位置信息进行识别得到第一运动趋势,查询第一运动趋势对应的第一操作,执行该第一操作。
需要说明的是,这里的处理器301可以是一个处理元件,也可以是多个处理元件的统称。例如,该处理元件可以是中央处理器(Central Processing Unit,CPU),也可以是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成本申请实施例的一个或多个集成电路,例如:一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)。
存储器303可以是一个存储装置,也可以是多个存储元件的统称,且用于存储可执行程序代码或应用程序运行装置运行所需要参数、数据等。且存储器303可以包括随机存储器(RAM),也可以包括非易失性存储器(non-volatile memory),例如磁盘存储器,闪存(Flash)等。
总线304可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
该终端还可以包括输入输出装置,连接于总线304,以通过总线与处理器301等其它部分连接。该输入输出装置可以为操作人员提供一输入界面,以便操作人员通过该输入界面选择布控项,还可以是其它接口,可通过该接口外接其它设备。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种网页的智能采集方法,其特征在于,所述方法包括如下步骤:
计算机设备获取添加任务以及添加网址;
计算机设备添加网页的采集规则,对该采集规则智能解析;
计算机设备测试采集规则,在该采集规则测试通过后,发布任务;
计算机设备依据该采集规则开始采集网页,并将采集的网页数据发布。
2.根据权利要求1所述的方法,其特征在于,所述方法在发任务之后还包括:
将所述发布任务同步到数据库中。
3.根据权利要求1所述的方法,其特征在于,所述方法在对该采集规则智能解析之前还包括:
人工制定规则,具体的:用户通过对网址数据结构的分析,制定出提取元素数据的规则;计算机设备自动定位网页元素,使用户点击即可获取元素内容,并由计算机设备生成采集规则。
4.根据权利要求1所述的方法,其特征在于,所述对该采集规则智能解析具体,包括:
对所述采集规则进行语义算法解析识别出所述采集规则的有效内容,计算出该数据的提取规则。
5.根据权利要求1所述的方法,其特征在于,所述对该采集规则智能解析具体,包括:
从规则库中查找所述添加网址对应的采集规则,如规则库存所述添加网址,则将所述添加网址对应的采集规则提取复用。
6.一种计算机设备,其特征在于,所述计算机设备包括:
获取单元,用于获取添加任务以及添加网址;
处理单元,用于添加网页的采集规则,对该采集规则智能解析,测试采集规则,在该采集规则测试通过后,发布任务,依据该采集规则开始采集网页,并将采集的网页数据发布。
7.根据权利要求6所述的计算机设备,其特征在于,所述处理单元,还用于将所述发布任务同步到数据库中。
8.根据权利要求6所述的计算机设备,其特征在于,处理单元,还用于人工制定规则,具体的:用户通过对网址数据结构的分析,制定出提取元素数据的规则;计算机设备自动定位网页元素,使用户点击即可获取元素内容,并由计算机设备生成采集规则。
9.根据权利要求6所述的计算机设备,其特征在于,所述处理单元,具体用于对所述采集规则进行语义算法解析识别出所述采集规则的有效内容,计算出该数据的提取规则。
10.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-5任意一项所述的网页的智能采集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710512435.8A CN107256274A (zh) | 2017-06-29 | 2017-06-29 | 网页的智能采集方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710512435.8A CN107256274A (zh) | 2017-06-29 | 2017-06-29 | 网页的智能采集方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107256274A true CN107256274A (zh) | 2017-10-17 |
Family
ID=60023637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710512435.8A Pending CN107256274A (zh) | 2017-06-29 | 2017-06-29 | 网页的智能采集方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107256274A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657117A (zh) * | 2018-11-12 | 2019-04-19 | 厦门市美亚柏科信息股份有限公司 | 一种网页要素的自动提取方法、系统及计算机存储介质 |
CN109829096A (zh) * | 2019-03-15 | 2019-05-31 | 北京金山数字娱乐科技有限公司 | 一种数据采集方法、装置、电子设备及存储介质 |
CN112100495A (zh) * | 2020-09-14 | 2020-12-18 | 山东亿云信息技术有限公司 | 一种基于分布式的一站式采集方法及采集系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561802A (zh) * | 2008-04-18 | 2009-10-21 | 上海复旦光华信息科技股份有限公司 | 网页结构化数据提取方法与系统 |
CN101582075A (zh) * | 2009-06-24 | 2009-11-18 | 大连海事大学 | Web信息抽取系统 |
CN103761330A (zh) * | 2014-02-10 | 2014-04-30 | 赛特斯信息科技股份有限公司 | 基于模版配置实现互联网信息自动提取的系统及方法 |
CN105468664A (zh) * | 2015-05-12 | 2016-04-06 | 北京众标网络科技有限公司 | 一种信息采集方法及装置 |
-
2017
- 2017-06-29 CN CN201710512435.8A patent/CN107256274A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561802A (zh) * | 2008-04-18 | 2009-10-21 | 上海复旦光华信息科技股份有限公司 | 网页结构化数据提取方法与系统 |
CN101582075A (zh) * | 2009-06-24 | 2009-11-18 | 大连海事大学 | Web信息抽取系统 |
CN103761330A (zh) * | 2014-02-10 | 2014-04-30 | 赛特斯信息科技股份有限公司 | 基于模版配置实现互联网信息自动提取的系统及方法 |
CN105468664A (zh) * | 2015-05-12 | 2016-04-06 | 北京众标网络科技有限公司 | 一种信息采集方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657117A (zh) * | 2018-11-12 | 2019-04-19 | 厦门市美亚柏科信息股份有限公司 | 一种网页要素的自动提取方法、系统及计算机存储介质 |
CN109829096A (zh) * | 2019-03-15 | 2019-05-31 | 北京金山数字娱乐科技有限公司 | 一种数据采集方法、装置、电子设备及存储介质 |
CN109829096B (zh) * | 2019-03-15 | 2021-11-26 | 北京金山数字娱乐科技有限公司 | 一种数据采集方法、装置、电子设备及存储介质 |
CN112100495A (zh) * | 2020-09-14 | 2020-12-18 | 山东亿云信息技术有限公司 | 一种基于分布式的一站式采集方法及采集系统 |
CN112100495B (zh) * | 2020-09-14 | 2024-04-16 | 山东亿云信息技术有限公司 | 一种基于分布式的一站式采集方法及采集系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107688618B (zh) | 数据对比方法、装置、计算机设备和存储介质 | |
KR102317535B1 (ko) | 소프트웨어 개발 키트로 데이터 추적을 구현하는 방법 및 시스템 | |
CN108363602B (zh) | 智能ui界面布局方法、装置、终端设备及存储介质 | |
CN111241389B (zh) | 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 | |
CN111290956B (zh) | 基于脑图的测试方法、装置、电子设备及存储介质 | |
CN110472068A (zh) | 基于异构分布式知识图谱的大数据处理方法、设备及介质 | |
CN109002483A (zh) | 文档管理方法、装置、计算机设备及存储介质 | |
CN110221968A (zh) | 软件测试方法及相关产品 | |
CN108366096A (zh) | 一种信息订阅方法、终端及计算机可读存储介质 | |
CN109298882A (zh) | 接口的管理方法、计算机可读存储介质和终端设备 | |
CN107256274A (zh) | 网页的智能采集方法及系统 | |
CN102196478A (zh) | 一种网管系统故障的诊断方法和系统 | |
CN108037967A (zh) | 一种基于多父子结构的菜单加载方法以及电子设备 | |
CN109885744A (zh) | 网页数据爬取方法、装置、系统、计算机设备及存储介质 | |
CN109766206A (zh) | 一种日志采集方法及系统 | |
CN107368500B (zh) | 数据抽取方法及系统 | |
CN107404486A (zh) | 解析Http数据的方法、装置、终端设备及存储介质 | |
CN105550179A (zh) | 一种网页收藏方法和浏览器插件 | |
CN107766036A (zh) | 一种模块的构建方法、构建装置及终端设备 | |
KR19990070968A (ko) | 인터넷 자료 검색 및 데이터베이스화 방법 | |
Xie et al. | A t/k diagnosis algorithm on hypercube‐like networks | |
CN107943912B (zh) | 一种响应式资源目录数据可视化管理方法、终端及装置 | |
CN112579454B (zh) | 一种任务数据的处理方法、装置以及设备 | |
CN109697281A (zh) | 在线合并文档的方法、装置及电子设备 | |
CN102708195B (zh) | 一种表单数据共享方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171017 |