CN110046295A - 网页结构变更检测方法、装置及计算机可读存储介质 - Google Patents
网页结构变更检测方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110046295A CN110046295A CN201910185344.7A CN201910185344A CN110046295A CN 110046295 A CN110046295 A CN 110046295A CN 201910185344 A CN201910185344 A CN 201910185344A CN 110046295 A CN110046295 A CN 110046295A
- Authority
- CN
- China
- Prior art keywords
- data
- web page
- web
- check value
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 230000004075 alteration Effects 0.000 title claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 65
- 238000000605 extraction Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012986 modification Methods 0.000 claims abstract description 22
- 230000004048 modification Effects 0.000 claims abstract description 22
- 230000008859 change Effects 0.000 claims abstract description 16
- 239000012634 fragment Substances 0.000 claims description 32
- 239000000284 extract Substances 0.000 claims description 11
- 238000007689 inspection Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000013075 data extraction Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及UI设计技术领域,揭露了一种网页结构变更检测方法,该方法包括:按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置;按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理;利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比;根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化。本发明还提出一种网页结构变更检测装置以及一种计算机可读存储介质。本发明实现了一种采用抽样数据比较的方法主动检测网页结构是否发生变化的网页结构变更主动探测技术。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种网页结构变更检测方法、装置及计算机可读存储介质。
背景技术
随着互联网技术的飞速发展,人们使用网页来获取信息的方式也基本得以普及。网页内容的布局会直接影响该网页页面的用户体验以及相关性,且在一定程度上影响网站的整体结构以及页面被收录的数量;而网页结构实际上就是对导航栏、栏目以及正文内容这三大页面基本组成元素所进行的组织和布局。
通常情况下,网页结构都会根据网页的内容进行调整,不同的网页内容决定不同的网页结构;当目标网站对应的网页内容发生变化时,其网页结构通常也会跟着进行调整。若目标网站的网页结构发生了改变,则数据抓取系统(即爬虫系统)在运行时,将无法抓取到正确的数据,或者数据抓取系统直接发生异常,从而被动地感知到网页结构已经发生了改变。这种被动感知网页结构发生改变后再采取相应的措施,通常会耽误较长的时间。因此,如何主动检测网页结构是否发生变化以便提前采取相应的应对措施,成为目前亟待解决的问题之一。
发明内容
本发明提供一种网页结构变更检测方法、装置及计算机可读存储介质,旨在采用抽样数据比较的方法主动检测网页结构是否发生变化。
为实现上述目的,本发明提供了一种网页结构变更检测方法,该方法包括:
按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置;
按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理;
利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比;
根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化。
可选地,所述按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置,包括:
针对待检测目标网站的网页结构,将所述网页结构分成两层,得到第一层网页结构对应的模块,以及所述模块对应的第二层网页结构中的网页样例;
对第一层网页结构对应的各个模块分别配置需要探测的XML路径语言,对第二层网页结构,基于所述模块对应的网页样例配置所述模块对应的实际网页URL地址。
可选地,所述按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理,包括:
按照预设周期,根据配置的网页URL地址,提取分层后每个所述模块包含的网页样例对应的网页片段内容;
按照预设算法,对获取的所述网页片段内容进行数据处理,得到数据处理后所述网页片段内容对应的校验值。
可选地,所述利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比,包括:
按照预设算法,计算所述本次网页数据对应的校验值M11,再按照相同的所述预设算法,计算与本次提取相同位置处的、相邻前一次提取的所述上次网页数据的校验值M12;
计算n个不同位置处分别对应的所述本次网页数据对应的校验值Mn1,以及与本次提取相同位置处的所述上次网页数据对应的校验值Mn2,得到n组所述本次网页数据以及上次网页数据分别对应的校验值;
将得到的n组所述校验值分别进行对比,识别n组校验值中的Mn1与Mn2是否相同,并记录每组数据识别结果。
可选地,所述根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化,包括:
若一个或者多个网页片段对应的所述本次网页数据的校验值与所述上次网页数据的校验值一致,则判断所述网页结构没有发生变化;
若抽取的n个位置处的所述本次网页数据的校验值与所述上次网页数据的校验值,全都不一致,则判断网页结构发生了变化。
此外,为实现上述目的,本发明还提供一种网页结构变更检测装置,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的网页结构变更检测程序,所述网页结构变更检测程序被所述处理器执行时实现如下步骤:
按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置;
按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理;
利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比;
根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化。
可选地,所述网页结构变更检测程序还可被所述处理器执行,以在按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置,包括:
针对待检测目标网站的网页结构,将所述网页结构分成两层,得到第一层网页结构对应的模块,以及所述模块对应的第二层网页结构中的网页样例;
对第一层网页结构对应的各个模块分别配置需要探测的XML路径语言,对第二层网页结构,基于所述模块对应的网页样例配置所述模块对应的实际网页URL地址。
可选地,所述网页结构变更检测程序还可被所述处理器执行,以在按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理,包括:
按照预设周期,根据配置的网页URL地址,提取分层后每个所述模块包含的网页样例对应的网页片段内容;
按照预设算法,对获取的所述网页片段内容进行数据处理,得到数据处理后所述网页片段内容对应的校验值。
可选地,所述网页结构变更检测程序还可被所述处理器执行,以在利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比,包括:
按照预设算法,计算所述本次网页数据对应的校验值M11,再按照相同的所述预设算法,计算与本次提取相同位置处的、相邻前一次提取的所述上次网页数据的校验值M12;
计算n个不同位置处分别对应的所述本次网页数据对应的校验值Mn1,以及与本次提取相同位置处的所述上次网页数据对应的校验值Mn2,得到n组所述本次网页数据以及上次网页数据分别对应的校验值;
将得到的n组所述校验值分别进行对比,识别n组校验值中的Mn1与Mn2是否相同,并记录每组数据识别结果。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有网页结构变更检测程序,所述网页结构变更检测程序可被一个或者多个处理器执行,以实现如上所述的网页结构变更检测方法的步骤。
本发明提出的网页结构变更检测方法、装置及计算机可读存储介质,按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置;按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理;利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比;根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化;达到了采用抽样数据比较的方法主动检测网页结构是否发生变化的目的,能够尽早发现及时应对,实现了对网页结构变更的快速检查,使用范围广且准确率高。
附图说明
图1为本发明一实施例提供的网页结构变更检测方法的流程示意图;
图2为本发明一实施例提供的网页结构变更检测装置的内部结构示意图;
图3为本发明一实施例提供的网页结构变更检测装置中网页结构变更检测程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种网页结构变更检测方法。如图1所示,图1为本发明一实施例提供的网页结构变更检测方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,网页结构变更检测方法可以实施为图1描述的步骤S10-S40:
步骤S10,按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置。
在对网页结构是否发生变化进行主动检测时,对待检测目标网站的网页结构进行分层,比如,对其中一个目标网站对应的网页结构分为两层;并按照分层配置的方式,对分层后得到的每层网页结构进行相应的配置。比如,针对每层后的每层网页结构,根据其具体的网页结构内容,分别对分层得到的每一层网页结构进行针对性地配置;比如,针对分层后的某一层网页结构配置待检测的路径语言等。
具体的分层数量和分层依据可以根据目标网站对应的具体内容、具体网页结构以及检测需求来确定,本发明实施例对待检测目标网站的网页结构的分层数量和分层依据不进行限定;在对分层后的网页结构进行配置时,可以根据具体的分层数量以及分层后得到的网页结构对应的内容来配置,本发明实施例对分层后网页结构的配置方式不进行具体限定。
步骤S20,按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理。
针对分层配置后的网页数据进行数据提取时,预设周期的具体时长可以根据对目标网站网页结构的具体依赖程度来确定,对网页结构的依赖程度越高,检测越频繁,对应的预设周期设置的越短。例如,按照每天定时任务探测一次的频率,针对分层配置后目标网站对应的网页数据进行提取。
为了便于准确地判断网页结构是否发生变化,在一个实施例中,对提取的网页数据进行数据处理时,将提取的网页数据转换为比较直观的校验值。
步骤S30,利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比。
步骤S40,根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化。
在判断目标网站的网页结构是否发生变化时,采用抽样数据比较法进行确定。针对相同位置处的网页数据,将经过处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次提取的上次网页数据,进行数据对比。由于在步骤S20中,针对提取的网页数据进行数据处理后得到对应的校验值,因此,可以通过比较相同位置处本次提取的所述本次网页数据对应的校验值,与上次提取的所述上次网页数据对应的校验值,进行数据对比,通过本次网页数据与上次网页数据的比较结果,判断该网页结构是否发生变化。
由于在进行数据比较时,提取的比较对象为分层后的目标网站对应的网页数据,即提取的是目标网站的网页片段,因此,当所述本次网页数据对应的校验值与所述上次网页数据对应的校验值不同时,可能是该目标网站的网页结构发生了变化,也可能是该目标网站对应的网页内容发生了变化。针对提取的多个不同位置处网页数据,若每个位置处的所述本次网页数据与所述上次网页数据全部不一致,则判断网页结构发生了变化;若只有一个或者多个位置处的所述本次网页数据与所述上次网页数据不一致,则判断仅是该目标网站中网页内容的数据发生了变化。
进一步地,在一个实施例中,当判断出网页结构发生了变化时,向技术人员的监控客户端发送提示信息,以便提醒技术人员确定是否需要人工介入。
本实施例提出的网页结构变更检测方法,按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置;按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理;利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比;根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化;达到了采用抽样数据比较的方法主动检测网页结构是否发生变化的目的,能够尽早发现及时应对,实现了对网页结构变更的快速检查,使用范围广且准确率高。
进一步地,在本发明方法的一实施例中,图1实施例中的“步骤S10,按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置”可以通过如下方式实施:
针对待检测目标网站的网页结构,将所述网页结构分成两层,得到第一层网页结构对应的模块,以及所述模块对应的第二层网页结构中的网页样例;
对第一层网页结构对应的各个模块分别配置需要探测的XML路径语言,对第二层网页结构,基于所述模块对应的网页样例配置实际网页URL地址。
比如,对目标网站的网页结构进行检测时,直接分两层配置,第一层为模块,针对第一层模块配置需要探测的XML路径语言(XML Path Language,xpath);比如,将目标网站的第一层划分为20个模块。第二层为网页样例,比如目标网站对应这20个该模块下的实际网页URL(Uniform Resource Locator,统一资源定位符)地址。
本发明实施例通过对目标网站的网页结构进行分层,并针对分层后的网页结构进行配置,这种处理方式简单好用,准确率高;且分层后的网页结构不局限于现有的目标网站本身的结构特征,适用性强;因此在实际应用中,通过编写统一网页结构探测程序即可以对所有的源网站/源网页实现探测功能,应用范围广。
进一步地,在本发明方法的一实施例中,图1实施例中的“步骤S20,按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理”可以通过如下方式实施:
按照预设周期,根据配置的网页URL地址,提取分层后每个所述模块下网页样例对应的网页片段的内容;
按照预设算法,对获取的所述网页片段的内容进行数据处理,得到数据处理后所述网页片段对应的校验值。
本发明实施例中描述的预设算法包括但不限于:MD5;比如,利用MD5算法对提取的网页数据进行数据处理,得到数据处理后提取的网页片段对应的校验值。
在本发明实施例中,图1实施例中的“步骤S30,利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比”可以通过如下方式实施:
按照预设算法,计算所述本次网页数据对应的校验值M11,再按照相同的所述预设算法,计算与本次提取相同位置处的、相邻前一次提取的所述上次网页数据的校验值M12;
计算n个不同位置处分别对应的所述本次网页数据对应的校验值Mn1,以及与本次提取相同位置处的所述上次网页数据对应的校验值Mn2,得到n组所述本次网页数据以及上次网页数据分别对应的校验值;
将得到的n组所述校验值分别进行对比,识别n组校验值中的Mn1与Mn2是否相同;也可以理解为:逐个识别n组校验值,比如:识别n组校验值中的M11与M12是否相同,直至识别到Mn1与Mn2是否相同,并记录每组数据识别结果。
本发明实施例中,在对目标网站的网页结构进行分层配置时,为第一层网页结构中的各个模块分别配置了需要探测的XML路径语言,因此,根据配置的XML路径语言,能够确保提取的所述本次网页数据与上一次提取的网页数据在目标网站中对应的网页位置相同。
在判断目标网站的网页结构是否发生变化时,若一个或者多个网页片段本次的校验值与前一次的校验值一致,则认为网页结构没有发生变动;若抽取的n个位置处的本次校验值与前一次校验值,全部不一致,则判断网页结构发生了变化。
在一个具体的应用场景中,比如,利用本发明描述的网页结构变更检测方法对目标网站的网页结构进行探测时,首先对目标网站分两层,得到的第一层为模块,针对第一层中的各个模块,配置需要每个模块分别需要探测的Xpath(即XML路径语言);分层得到的第二层为网页样例,比如20个第一层模块下的实际网页URL地址。在执行任务探测时,系统每天定时执行一次任务探测,根据配置的URL地址,取回上述20个网页;再根据Xpath获取取回的上述20个网页的网页片段内容;按照MD5算法,针对取回的上述20个网页的网页片段内容执行md5计算;由于考虑到如果md5不同也有可能是数据变化引起的,当然,也有可能是网页结构变化引起的;因此,当一个或多个网页片段的md5值和上次相同位置处的md5值一致,则认为网页结构没有发生变动,如果所有的网页片段的md5全部不一致,则认为该目标网站的网页结构发生了变化,必要时,向技术人员的监控客户端发送提示信息,以便技术人员确定是否需要人工介入。
通过本发明实施例描述的网页结构变更检测方法,针对目标网站的网页结构是否发生变化能够尽早发现及时应对,实现了对网页结构变更的快速检查,使用范围广且准确率高。
本发明还提供一种网页结构变更检测装置。参照图2所示,为本发明一实施例提供的网页结构变更检测装置的内部结构示意图。
在本实施例中,网页结构变更检测装置1可以是PC(PersonalComputer,个人电脑),也可以是智能手机、平板电脑、便携计算机等终端设备。该网页结构变更检测装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是网页结构变更检测装置1的内部存储单元,例如该网页结构变更检测装置1的硬盘。存储器11在另一些实施例中也可以是网页结构变更检测装置1的外部存储设备,例如网页结构变更检测装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括网页结构变更检测装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于网页结构变更检测装置1的应用软件及各类数据,例如网页结构变更检测程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行网页结构变更检测程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该网页结构变更检测装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在网页结构变更检测装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及网页结构变更检测程序01的网页结构变更检测装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对网页结构变更检测装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有网页结构变更检测程序01;处理器12执行存储器11中存储的网页结构变更检测程序01时实现如下步骤:
按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置。
在对网页结构是否发生变化进行主动检测时,对待检测目标网站的网页结构进行分层,比如,对其中一个目标网站对应的网页结构分为两层;并按照分层配置的方式,对分层后得到的每层网页结构进行相应的配置。比如,针对每层后的每层网页结构,根据其具体的网页结构内容,分别对分层得到的每一层网页结构进行针对性地配置;比如,针对分层后的某一层网页结构配置待检测的路径语言等。
具体的分层数量和分层依据可以根据目标网站对应的具体内容、具体网页结构以及检测需求来确定,本发明实施例对待检测目标网站的网页结构的分层数量和分层依据不进行限定;在对分层后的网页结构进行配置时,可以根据具体的分层数量以及分层后得到的网页结构对应的内容来配置,本发明实施例对分层后网页结构的配置方式不进行具体限定。
按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理。
针对分层配置后的网页数据进行数据提取时,预设周期的具体时长可以根据对目标网站网页结构的具体依赖程度来确定,对网页结构的依赖程度越高,检测越频繁,对应的预设周期设置的越短。例如,按照每天定时任务探测一次的频率,针对分层配置后目标网站对应的网页数据进行提取。
为了便于准确地判断网页结构是否发生变化,在一个实施例中,对提取的网页数据进行数据处理时,将提取的网页数据转换为比较直观的校验值。
利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比。
根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化。
在判断目标网站的网页结构是否发生变化时,采用抽样数据比较法进行确定。针对相同位置处的网页数据,将经过处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次提取的上次网页数据,进行数据对比。由于在步骤S20中,针对提取的网页数据进行数据处理后得到对应的校验值,因此,可以通过比较相同位置处本次提取的所述本次网页数据对应的校验值,与上次提取的所述上次网页数据对应的校验值,进行数据对比,通过本次网页数据与上次网页数据的比较结果,判断该网页结构是否发生变化。
由于在进行数据比较时,提取的比较对象为分层后的目标网站对应的网页数据,即提取的是目标网站的网页片段,因此,当所述本次网页数据对应的校验值与所述上次网页数据对应的校验值不同时,可能是该目标网站的网页结构发生了变化,也可能是该目标网站对应的网页内容发生了变化。针对提取的多个不同位置处网页数据,若每个位置处的所述本次网页数据与所述上次网页数据全部不一致,则判断网页结构发生了变化;若只有一个或者多个位置处的所述本次网页数据与所述上次网页数据不一致,则判断仅是该目标网站中网页内容的数据发生了变化。
进一步地,在一个实施例中,当判断出网页结构发生了变化时,向技术人员的监控客户端发送提示信息,以便提醒技术人员确定是否需要人工介入。
本实施例提出的网页结构变更检测方法,按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置;按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理;利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比;根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化;达到了采用抽样数据比较的方法主动检测网页结构是否发生变化的目的,能够尽早发现及时应对,实现了对网页结构变更的快速检查,使用范围广且准确率高。
进一步地,在本发明一个实施例中,所述网页结构变更检测程序01还可被所述处理器12执行,以在按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置,包括:
针对待检测目标网站的网页结构,将所述网页结构分成两层,得到第一层网页结构对应的模块,以及所述模块对应的第二层网页结构中的网页样例;
对第一层网页结构对应的各个模块分别配置需要探测的XML路径语言,对第二层网页结构,基于所述模块对应的网页样例配置实际网页URL地址。
比如,对目标网站的网页结构进行检测时,直接分两层配置,第一层为模块,针对第一层模块配置需要探测的XML路径语言(XML Path Language,xpath);比如,将目标网站的第一层划分为20个模块。第二层为网页样例,比如目标网站对应这20个该模块下的实际网页URL(Uniform Resource Locator,统一资源定位符)地址。
本发明实施例通过对目标网站的网页结构进行分层,并针对分层后的网页结构进行配置,这种处理方式简单好用,准确率高;且分层后的网页结构不局限于现有的目标网站本身的结构特征,适用性强;因此在实际应用中,通过编写统一网页结构探测程序即可以对所有的源网站/源网页实现探测功能,应用范围广。
进一步地,在本发明一个实施例中,所述网页结构变更检测程序01还可被所述处理器12执行,以在按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理,包括:
按照预设周期,根据配置的网页URL地址,提取分层后每个所述模块下网页样例对应的网页片段的内容;
按照预设算法,对获取的所述网页片段的内容进行数据处理,得到数据处理后所述网页片段对应的校验值。
本发明实施例中描述的预设算法包括但不限于:MD5;比如,利用MD5算法对提取的网页数据进行数据处理,得到数据处理后提取的网页片段对应的校验值。
在本发明实施例中,所述网页结构变更检测程序01还可被所述处理器12执行,以在利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比,包括:
按照预设算法,计算所述本次网页数据对应的校验值M11,再按照相同的所述预设算法,计算与本次提取相同位置处的、相邻前一次提取的所述上次网页数据的校验值M12;
计算n个不同位置处分别对应的所述本次网页数据对应的校验值Mn1,以及与本次提取相同位置处的所述上次网页数据对应的校验值Mn2,得到n组所述本次网页数据以及上次网页数据分别对应的校验值;
将得到的n组所述校验值分别进行对比,识别n组校验值中的Mn1与Mn2是否相同;也可以理解为:逐个识别n组校验值,比如:识别n组校验值中的M11与M12是否相同,直至识别到Mn1与Mn2是否相同,并记录每组数据识别结果。
本发明实施例中,在对目标网站的网页结构进行分层配置时,为第一层网页结构中的各个模块分别配置了需要探测的XML路径语言,因此,根据配置的XML路径语言,能够确保提取的所述本次网页数据与上一次提取的网页数据在目标网站中对应的网页位置相同。
在判断目标网站的网页结构是否发生变化时,若一个或者多个网页片段本次的校验值与前一次的校验值一致,则认为网页结构没有发生变动;若抽取的n个位置处的本次校验值与前一次校验值,全部不一致,则判断网页结构发生了变化。
在一个具体的应用场景中,比如,利用本发明描述的网页结构变更检测程序01对目标网站的网页结构进行探测时,首先对目标网站分两层,得到的第一层为模块,针对第一层中的各个模块,配置需要每个模块分别需要探测的Xpath(即XML路径语言);分层得到的第二层为网页样例,比如20个第一层模块下的实际网页URL地址。在执行任务探测时,系统每天定时执行一次任务探测,根据配置的URL地址,取回上述20个网页;再根据Xpath获取取回的上述20个网页的网页片段内容;按照MD5算法,针对取回的上述20个网页的网页片段内容执行md5计算;由于考虑到如果md5不同也有可能是数据变化引起的,当然,也有可能是网页结构变化引起的;因此,当一个或多个网页片段的md5值和上次相同位置处的md5值一致,则认为网页结构没有发生变动,如果所有的网页片段的md5全部不一致,则认为该目标网站的网页结构发生了变化,必要时,向技术人员的监控客户端发送提示信息,以便技术人员确定是否需要人工介入。
通过本发明实施例描述的网页结构变更检测方法,针对目标网站的网页结构是否发生变化能够尽早发现及时应对,实现了对网页结构变更的快速检查,使用范围广且准确率高。
可选地,在其他实施例中,网页结构变更检测程序01还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述网页结构变更检测程序01在网页结构变更检测装置1中的执行过程。
例如,参照图3所示,为本发明网页结构变更检测装置一实施例中的网页结构变更检测程序的程序模块示意图,该实施例中,网页结构变更检测程序01可以被分割为分层配置模块10、数据处理模块20和抽样比较模块30,示例性地:
分层配置模块10用于:按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置;
数据处理模块20用于:按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理;
抽样比较模块30用于:
利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比;
根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化。
上述分层配置模块10、数据处理模块20和抽样比较模块30等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有网页结构变更检测程序,所述网页结构变更检测程序可被一个或多个处理器执行,以实现如下操作:
按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置;
按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理;
利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比;
根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化。
本发明计算机可读存储介质具体实施方式与上述网页结构变更检测装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种网页结构变更检测方法,其特征在于,所述方法包括:
按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置;
按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理;
利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比;
根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化。
2.如权利要求1所述的网页结构变更检测方法,其特征在于,所述按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置,包括:
针对待检测目标网站的网页结构,将所述网页结构分成两层,得到第一层网页结构对应的模块,以及所述模块对应的第二层网页结构中的网页样例;
对第一层网页结构对应的各个模块分别配置需要探测的XML路径语言,对第二层网页结构,基于所述模块对应的网页样例配置所述模块对应的实际网页URL地址。
3.如权利要求1所述的网页结构变更检测方法,其特征在于,所述按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理,包括:
按照预设周期,根据配置的网页URL地址,提取分层后每个所述模块包含的网页样例对应的网页片段内容;
按照预设算法,对获取的所述网页片段内容进行数据处理,得到数据处理后所述网页片段内容对应的校验值。
4.如权利要求1所述的网页结构变更检测方法,其特征在于,所述利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比,包括:
按照预设算法,计算所述本次网页数据对应的校验值M11,再按照相同的所述预设算法,计算与本次提取相同位置处的、相邻前一次提取的所述上次网页数据的校验值M12;
计算n个不同位置处分别对应的所述本次网页数据对应的校验值Mn1,以及与本次提取相同位置处的所述上次网页数据对应的校验值Mn2,得到n组所述本次网页数据以及上次网页数据分别对应的校验值;
将得到的n组所述校验值分别进行对比,识别n组校验值中的Mn1与Mn2是否相同,并记录每组数据识别结果。
5.如权利要求1至4任一项所述的网页结构变更检测方法,其特征在于,所述根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化,包括:
若一个或者多个网页片段对应的所述本次网页数据的校验值与所述上次网页数据的校验值一致,则判断所述网页结构没有发生变化;
若抽取的n个位置处的所述本次网页数据的校验值与所述上次网页数据的校验值,全都不一致,则判断网页结构发生了变化。
6.一种网页结构变更检测装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的网页结构变更检测程序,所述网页结构变更检测程序被所述处理器执行时实现如下步骤:
按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置;
按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理;
利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比;
根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化。
7.如权利要求6所述的网页结构变更检测装置,其特征在于,所述网页结构变更检测程序还可被所述处理器执行,以在按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置,包括:
针对待检测目标网站的网页结构,将所述网页结构分成两层,得到第一层网页结构对应的模块,以及所述模块对应的第二层网页结构中的网页样例;
对第一层网页结构对应的各个模块分别配置需要探测的XML路径语言,对第二层网页结构,基于所述模块对应的网页样例配置所述模块对应的实际网页URL地址。
8.如权利要求6所述的网页结构变更检测装置,其特征在于,所述网页结构变更检测程序还可被所述处理器执行,以在按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理,包括:
按照预设周期,根据配置的网页URL地址,提取分层后每个所述模块包含的网页样例对应的网页片段内容;
按照预设算法,对获取的所述网页片段内容进行数据处理,得到数据处理后所述网页片段内容对应的校验值。
9.如权利要求6所述的网页结构变更检测装置,其特征在于,所述网页结构变更检测程序还可被所述处理器执行,以在利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比,包括:
按照预设算法,计算所述本次网页数据对应的校验值M11,再按照相同的所述预设算法,计算与本次提取相同位置处的、相邻前一次提取的所述上次网页数据的校验值M12;
计算n个不同位置处分别对应的所述本次网页数据对应的校验值Mn1,以及与本次提取相同位置处的所述上次网页数据对应的校验值Mn2,得到n组所述本次网页数据以及上次网页数据分别对应的校验值;
将得到的n组所述校验值分别进行对比,识别n组校验值中的Mn1与Mn2是否相同,并记录每组数据识别结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有网页结构变更检测程序,所述网页结构变更检测程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的网页结构变更检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910185344.7A CN110046295A (zh) | 2019-03-12 | 2019-03-12 | 网页结构变更检测方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910185344.7A CN110046295A (zh) | 2019-03-12 | 2019-03-12 | 网页结构变更检测方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110046295A true CN110046295A (zh) | 2019-07-23 |
Family
ID=67274652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910185344.7A Pending CN110046295A (zh) | 2019-03-12 | 2019-03-12 | 网页结构变更检测方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046295A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682098A (zh) * | 2012-04-27 | 2012-09-19 | 北京神州绿盟信息安全科技股份有限公司 | 检测网页内容变更的方法及装置 |
CN103761330A (zh) * | 2014-02-10 | 2014-04-30 | 赛特斯信息科技股份有限公司 | 基于模版配置实现互联网信息自动提取的系统及方法 |
CN106960058A (zh) * | 2017-04-05 | 2017-07-18 | 金电联行(北京)信息技术有限公司 | 一种网页结构变更检测方法及系统 |
CN108304498A (zh) * | 2018-01-12 | 2018-07-20 | 深圳壹账通智能科技有限公司 | 网页数据采集方法、装置、计算机设备和存储介质 |
CN109450844A (zh) * | 2018-09-18 | 2019-03-08 | 华为技术有限公司 | 触发漏洞检测的方法及装置 |
-
2019
- 2019-03-12 CN CN201910185344.7A patent/CN110046295A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682098A (zh) * | 2012-04-27 | 2012-09-19 | 北京神州绿盟信息安全科技股份有限公司 | 检测网页内容变更的方法及装置 |
CN103761330A (zh) * | 2014-02-10 | 2014-04-30 | 赛特斯信息科技股份有限公司 | 基于模版配置实现互联网信息自动提取的系统及方法 |
CN106960058A (zh) * | 2017-04-05 | 2017-07-18 | 金电联行(北京)信息技术有限公司 | 一种网页结构变更检测方法及系统 |
CN108304498A (zh) * | 2018-01-12 | 2018-07-20 | 深圳壹账通智能科技有限公司 | 网页数据采集方法、装置、计算机设备和存储介质 |
CN109450844A (zh) * | 2018-09-18 | 2019-03-08 | 华为技术有限公司 | 触发漏洞检测的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9846634B2 (en) | Visual graphical user interface verification | |
CN110704304B (zh) | 一种应用程序测试方法、装置、存储介质和服务器 | |
CN105793862B (zh) | 动态程序在隔离环境中的受指导执行 | |
US11137909B2 (en) | Secure data entry via a virtual keyboard | |
CN109783351A (zh) | 界面测试方法、装置及计算机可读存储介质 | |
CN104252531B (zh) | 一种文件类型识别方法及装置 | |
CN103095681A (zh) | 一种检测漏洞的方法及装置 | |
CN103617213B (zh) | 识别新闻网页属性特征的方法和系统 | |
CN106161133B (zh) | 一种网页加载时间的测试方法及装置 | |
US9495542B2 (en) | Software inspection system | |
CN113705691B (zh) | 基于人工智能的图像标注校验方法、装置、设备及介质 | |
CN111783159A (zh) | 网页篡改的验证方法、装置、计算机设备和存储介质 | |
CN115033876A (zh) | 日志处理方法、日志处理装置、计算机设备及存储介质 | |
CN106911554B (zh) | 一种历史信息展示方法及装置 | |
CN104468459B (zh) | 一种漏洞检测方法及装置 | |
CN113886204A (zh) | 用户行为数据收集方法、装置、电子设备及可读存储介质 | |
US10467390B1 (en) | Cyclically dependent checks for software tamper-proofing | |
CN109977995A (zh) | 文本模板识别方法、装置及计算机可读存储介质 | |
JP5441043B2 (ja) | プログラム、情報処理装置、及び情報処理方法 | |
CN109815083B (zh) | 一种应用崩溃的监控方法、装置、电子设备及介质 | |
US20200034217A1 (en) | Method and device for acquiring application information | |
KR101996358B1 (ko) | 웹 애플리케이션의 동적 분석을 위한 api 호출 정보 제공 방법 및 장치 | |
CN110874475A (zh) | 漏洞挖掘方法、漏洞挖掘平台及计算机可读存储介质 | |
CN110046295A (zh) | 网页结构变更检测方法、装置及计算机可读存储介质 | |
KR101480040B1 (ko) | 웹 페이지 변조 식별방법, 시스템 및 컴퓨터로 판독 가능한 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190723 |
|
RJ01 | Rejection of invention patent application after publication |