Nothing Special   »   [go: up one dir, main page]

CN109299392A - 一种网络爬虫抓取数据的优化方法 - Google Patents

一种网络爬虫抓取数据的优化方法 Download PDF

Info

Publication number
CN109299392A
CN109299392A CN201811391944.0A CN201811391944A CN109299392A CN 109299392 A CN109299392 A CN 109299392A CN 201811391944 A CN201811391944 A CN 201811391944A CN 109299392 A CN109299392 A CN 109299392A
Authority
CN
China
Prior art keywords
data
template
url
page
web crawlers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811391944.0A
Other languages
English (en)
Inventor
胡翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Cloud Finance Information Technology Co Ltd
Original Assignee
Anhui Cloud Finance Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Cloud Finance Information Technology Co Ltd filed Critical Anhui Cloud Finance Information Technology Co Ltd
Priority to CN201811391944.0A priority Critical patent/CN109299392A/zh
Publication of CN109299392A publication Critical patent/CN109299392A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网络爬虫抓取数据的优化方法,涉及网络数据传输领域。本发明包括如下步骤:步骤S01:建立高质量模板资源库及模板匹配算法;步骤S02:通过深度优先遍历策略及反向链接数策略筛选符合目标数据URL,建立初级URL队列;步骤S03:将初级URL队列数据通过宽度优先算法策略抓取相应目标网站数据;步骤S04:根据模板匹配算法,将目标数据同模板存储资源库中的模板数据进行匹配;步骤S05:匹配成功的模板数据存储至资源库。本发明通过深度优化遍历策略和反向链接数策略建立初级URL队列,利用模板匹配算法将模板库中的模板与抓取的数据进行匹配,提高了网络爬虫抓取数据的精确性和效率,避免了无效数据冗余和存储资源浪费。

Description

一种网络爬虫抓取数据的优化方法
技术领域
本发明属于网络数据传输领域,特别是涉及一种网络爬虫抓取数据的优化方法。
背景技术
随着互联网的发展,互联网中包含的信息内容越来越多,搜索引擎可以帮助人们在海量信息中寻找自己感兴趣的内容,一般的搜索引擎,如百度、Google和Bing等,都是面向所有用户提供互联网内容搜索服务。这些搜索引擎需要通过爬虫技术不断地从互联网上获取信息,并将这些信息保存起来,以便人们方便地检索这些信息。由于需要爬取的数据量巨大,因此大规模的搜索引擎往往采取分布式处理机制,即建立分布式爬虫服务系统。这些爬虫从统一的下载队列中获取目标URL,然后将目标网页下载存储到指定的位置。
搜索引擎越来越多,这些搜索引擎的爬虫不断地获取网站的内容,网站系统的压力越来越大,1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即Robots协议。Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(RobotsExclusionProtocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
因此,如今网络爬虫存在如下缺点:
1、大量重复URL被解析出来反馈给调度中心,给调度中心URL去重模块带来了很大的压力,而且大量重复的URL回传花费了不少不必要的网络流量,降低了爬虫系统的工作效率;
2、网页被抓取后回传给数据仓库,然后在页面解析时再进行分析,而此过程中大量没有更新的网页也在其中,给爬虫系统浪费了很多时间和流量。
发明内容
本发明的目的在于提供一种网络爬虫抓取数据的优化方法,通过深度优化遍历策略和反向链接数策略建立初级URL队列,利用模板匹配算法将模板库中的模板与抓取的数据进行匹配,解决了现有的网络爬虫抓取数据的精确性及效率不足和系统工作效率低的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种网络爬虫抓取数据的优化方法,包括如下步骤:
步骤S01:建立高质量模板资源库及模板匹配算法;
步骤S02:通过深度优先遍历策略及反向链接数策略筛选符合目标数据URL,建立初级URL队列;
步骤S03:将初级URL队列数据通过宽度优先算法策略抓取相应目标网站数据;
步骤S04:根据模板匹配算法,将目标数据同模板存储资源库中的模板数据进行匹配;
步骤S05:匹配成功的模板数据存储至资源库。
优选地,所述步骤S02中,深度优先遍历策略用以提取下载网页中的连接,并插入待抓取URL队列的末尾。
优选地,所述步骤S02中,反向链接数策略用以获取下载网页中其他网页链接的数量,根据网页链接数量的由高到低排列至页面待抓取队列。
优选地,所述下载网页提取的信息包括:目标URL、页面类型、下载页面保存路径、动态页面延迟加载所使用的JavaScript函数名、页面分析类型。
优选地,所述步骤S04中,模板匹配算法通过过滤器将抓取的目标数据与资源库中的模板进行比对去重,过滤器中建立有一白名单模块,白名单对不确定URL地址进行存储。
优选地,所述步骤S05中,资源库采用HDFS的分布式储存方式。
本发明具有以下有益效果:
本发明通过深度优化遍历策略和反向链接数策略建立初级URL队列,利用模板匹配算法将模板库中的模板与抓取的数据进行匹配,提高了网络爬虫抓取数据的精确性和效率,避免了无效数据冗余和存储资源浪费。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种网络爬虫抓取数据的优化方法步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种网络爬虫抓取数据的优化方法,包括如下步骤:
步骤S01:建立高质量模板资源库及模板匹配算法;
步骤S02:通过深度优先遍历策略及反向链接数策略筛选符合目标数据URL,建立初级URL队列;
步骤S03:将初级URL队列数据通过宽度优先算法策略抓取相应目标网站数据;
步骤S04:根据模板匹配算法,将目标数据同模板存储资源库中的模板数据进行匹配;
步骤S05:匹配成功的模板数据存储至资源库。
其中,步骤S02中,深度优先遍历策略用以提取下载网页中的连接,并插入待抓取URL队列的末尾;深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。
其中,步骤S02中,反向链接数策略用以获取下载网页中其他网页链接的数量,根据网页链接数量的由高到低排列至页面待抓取队列;反向链接数表示的是一个网页的内容受到其他人的推荐的程度;因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。
其中,下载网页提取的信息包括:目标URL、页面类型、下载页面保存路径、动态页面延迟加载所使用的JavaScript函数名、页面分析类型。
其中,步骤S04中,模板匹配算法通过过滤器将抓取的目标数据与资源库中的模板进行比对去重,过滤器中建立有一白名单模块,白名单对不确定URL地址进行存储,当出现不确定的URL地址时,系统将不确定的URL地址存储至白名单,用户可以根据实际需求选择是否调用白名单内的URL地址。
其中,步骤S05中,资源库采用HDFS的分布式储存方式。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (6)

1.一种网络爬虫抓取数据的优化方法,其特征在于,包括如下步骤:
步骤S01:建立高质量模板资源库及模板匹配算法;
步骤S02:通过深度优先遍历策略及反向链接数策略筛选符合目标数据URL,建立初级URL队列;
步骤S03:将初级URL队列数据通过宽度优先算法策略抓取相应目标网站数据;
步骤S04:根据模板匹配算法,将目标数据同模板存储资源库中的模板数据进行匹配;
步骤S05:匹配成功的模板数据存储至资源库。
2.根据权利要求1所述的一种网络爬虫抓取数据的优化方法,其特征在于,所述步骤S02中,深度优先遍历策略用以提取下载网页中的连接,并插入待抓取URL队列的末尾。
3.根据权利要求1所述的一种网络爬虫抓取数据的优化方法,其特征在于,所述步骤S02中,反向链接数策略用以获取下载网页中其他网页链接的数量,根据网页链接数量的由高到低排列至页面待抓取队列。
4.根据权利要求2所述的一种网络爬虫抓取数据的优化方法,其特征在于,所述下载网页提取的信息包括:目标URL、页面类型、下载页面保存路径、动态页面延迟加载所使用的JavaScript函数名、页面分析类型。
5.根据权利要求1所述的一种网络爬虫抓取数据的优化方法,其特征在于,所述步骤S04中,模板匹配算法通过过滤器将抓取的目标数据与资源库中的模板进行比对去重,过滤器中建立有一白名单模块,白名单对不确定URL地址进行存储。
6.根据权利要求1所述的一种网络爬虫抓取数据的优化方法,其特征在于,所述步骤S05中,资源库采用HDFS的分布式储存方式。
CN201811391944.0A 2018-11-21 2018-11-21 一种网络爬虫抓取数据的优化方法 Pending CN109299392A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811391944.0A CN109299392A (zh) 2018-11-21 2018-11-21 一种网络爬虫抓取数据的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811391944.0A CN109299392A (zh) 2018-11-21 2018-11-21 一种网络爬虫抓取数据的优化方法

Publications (1)

Publication Number Publication Date
CN109299392A true CN109299392A (zh) 2019-02-01

Family

ID=65143260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811391944.0A Pending CN109299392A (zh) 2018-11-21 2018-11-21 一种网络爬虫抓取数据的优化方法

Country Status (1)

Country Link
CN (1) CN109299392A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060277175A1 (en) * 2000-08-18 2006-12-07 Dongming Jiang Method and Apparatus for Focused Crawling
US20130204981A1 (en) * 2010-06-24 2013-08-08 Amazon Technologies, Inc. Url rescue by identifying information related to an item referenced in an invalid url
CN103761330A (zh) * 2014-02-10 2014-04-30 赛特斯信息科技股份有限公司 基于模版配置实现互联网信息自动提取的系统及方法
CN105045838A (zh) * 2015-07-01 2015-11-11 华东师范大学 基于分布式存储系统的网络爬虫系统
CN107025296A (zh) * 2017-04-17 2017-08-08 山东辰华科技信息有限公司 基于科技服务信息智能抓取系统数据收集方法
CN108121706A (zh) * 2016-11-28 2018-06-05 央视国际网络无锡有限公司 一种分布式爬虫的优化方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060277175A1 (en) * 2000-08-18 2006-12-07 Dongming Jiang Method and Apparatus for Focused Crawling
US20130204981A1 (en) * 2010-06-24 2013-08-08 Amazon Technologies, Inc. Url rescue by identifying information related to an item referenced in an invalid url
CN103761330A (zh) * 2014-02-10 2014-04-30 赛特斯信息科技股份有限公司 基于模版配置实现互联网信息自动提取的系统及方法
CN105045838A (zh) * 2015-07-01 2015-11-11 华东师范大学 基于分布式存储系统的网络爬虫系统
CN108121706A (zh) * 2016-11-28 2018-06-05 央视国际网络无锡有限公司 一种分布式爬虫的优化方法
CN107025296A (zh) * 2017-04-17 2017-08-08 山东辰华科技信息有限公司 基于科技服务信息智能抓取系统数据收集方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李松: "基于Hadoop的分布式网络爬虫研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Similar Documents

Publication Publication Date Title
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN102073683A (zh) 一种分布式的实时新闻信息采集系统
CN107885777A (zh) 一种基于协作式爬虫的抓取网页数据的控制方法及系统
CN103970788A (zh) 一种基于网页爬取的爬虫技术
US8739024B2 (en) Method and apparatus for processing world wide web page
CN104516982A (zh) 一种基于Nutch的Web信息提取方法和系统
US20130132439A1 (en) Organizing versioning according to permissions
CN107391775A (zh) 一种通用的网络爬虫模型实现方法及系统
CN105260388A (zh) 一种分布式垂直爬虫服务系统的优化方法
CN106776983B (zh) 搜索引擎优化装置和方法
CN102270331A (zh) 基于可视化搜索的网络购物导航方法
CN109600385B (zh) 一种访问控制方法及装置
CN106033428B (zh) 统一资源定位符的选择方法和统一资源定位符的选择装置
CN103745006A (zh) 一种互联网信息搜索系统及方法
Mehta et al. A comparative study of various approaches to adaptive web scraping
CN103258017A (zh) 一种并行的垂直交叉网络数据采集方法及系统
CN105721519B (zh) 一种网页数据采集方法、装置及系统
CN109783471A (zh) 企业画像小程序化方法、装置、计算机设备及存储介质
CN105426407A (zh) 一种基于内容分析的web数据采集方法
Shimpi et al. An overview of graph databases
CN105930385A (zh) 一种数据爬取方法及系统
CN109299392A (zh) 一种网络爬虫抓取数据的优化方法
Leng et al. PyBot: an algorithm for web crawling
CN112579853A (zh) 一种对爬取链接排序的方法、装置及存储介质
Tugaonkar et al. Survey on recent methodologies used for recommender system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190201