Nothing Special   »   [go: up one dir, main page]

CN109684571B - 一种数据采集方法及装置、存储介质 - Google Patents

一种数据采集方法及装置、存储介质 Download PDF

Info

Publication number
CN109684571B
CN109684571B CN201811627906.0A CN201811627906A CN109684571B CN 109684571 B CN109684571 B CN 109684571B CN 201811627906 A CN201811627906 A CN 201811627906A CN 109684571 B CN109684571 B CN 109684571B
Authority
CN
China
Prior art keywords
webpage
selection
function
elements
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811627906.0A
Other languages
English (en)
Other versions
CN109684571A (zh
Inventor
陈亚军
李琳
吴耀华
郑斌戈
李小海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Migu Cultural Technology Co Ltd
China Mobile Communications Group Co Ltd
Original Assignee
Migu Cultural Technology Co Ltd
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Migu Cultural Technology Co Ltd, China Mobile Communications Group Co Ltd filed Critical Migu Cultural Technology Co Ltd
Priority to CN201811627906.0A priority Critical patent/CN109684571B/zh
Publication of CN109684571A publication Critical patent/CN109684571A/zh
Application granted granted Critical
Publication of CN109684571B publication Critical patent/CN109684571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种数据采集方法及装置、存储介质,该方法包括:获取网页访问地址;在网页圈选设置模式下,根据所述网页访问地址,加载目标网页;所述目标网页预先设置有事件监听功能;在所述目标网页中建立网页圈选功能;当所述网页圈选功能被启动时,利用所述事件监听功能和所述网页圈选功能,对所述目标网页中的网页元素设置网页圈选响应功能;当所述目标网页中的网页元素被圈选时,利用被圈选的网页元素的网页圈选响应功能,获取所述被圈选的网页元素对应的元素信息和页面信息。

Description

一种数据采集方法及装置、存储介质
技术领域
本发明涉及互联网技术,尤其涉及一种数据采集方法及装置、存储介质。
背景技术
目前,对于网站分析中的数据采集,常用数据采集方法为数据埋点,数据埋点的实现方式包括代码埋点和服务器配置埋点,代码埋点是在网页的业务逻辑代码中需要采集数据的网页元素处,加入埋点代码,服务器配置埋点是为网元加载采集数据的脚本文件,脚本文件可被执行用于为需要采集数据的网页元素添加埋点监听事件,上述实现方式通过埋点代码或埋点监听事件,实现对该网页元素的数据采集,但是,由于上述实现方式中的代码埋点的埋点位置、以及脚本文件中添加埋点监听事件的对象,都是由开发者预先设置的,不能根据用户实际的数据采集需求,灵活调整埋点位置或监听对象。
发明内容
本发明的主要目的在于提出一种数据采集方法及装置、存储介质,能够根据用户实际的数据采集需求,灵活调整数据采集对象,提高了对数据采集对象的更改速度。
本发明的技术方案是这样实现的:
本发明实施例提供了一种数据采集方法,所述方法包括:
获取网页访问地址;
在网页圈选设置模式下,根据所述网页访问地址,加载目标网页;所述目标网页预先设置有事件监听功能;
在所述目标网页中建立网页圈选功能;
当所述网页圈选功能被启动时,利用所述事件监听功能和所述网页圈选功能,对所述目标网页中的网页元素设置网页圈选响应功能;
当所述目标网页中的网页元素被圈选时,利用被圈选的网页元素的网页圈选响应功能,获取所述被圈选的网页元素对应的元素信息和页面信息。
上述方案中,所述获取网页访问地址之前,所述方法还包括:
在网页浏览模式下,对所述目标网页中的网页元素设置事件监听功能和网页点击响应功能,所述网页点击响应功能为对网页浏览模式下被点击的网页元素进行获取元素信息和页面信息的功能。
上述方案中,所述在所述目标网页中建立网页圈选功能,包括:
利用加载状态检测功能,确定所述目标网页是否被完全加载;
当所述目标网页被完全加载时,在所述目标网页中建立网页圈选功能。
上述方案中,所述在所述目标网页中建立网页圈选功能之后,所述利用所述事件监听功能和所述网页圈选功能,对所述目标网页中的网页元素设置网页圈选响应功能之前,所述方法还包括:
当在所述目标网页中建立完成网页圈选功能时,设置所述网页圈选功能对应的圈选开关为可选状态,并显示所述圈选开关;
当所述圈选开关被启动时,确定所述网页圈选功能被启动。
上述方案中,所述网页圈选响应功能包括滑动圈选响应功能和点击圈选响应功能。
上述方案中,在所述利用所述事件监听功能和所述网页圈选功能,对所述目标网页中的网页元素设置网页圈选响应功能之后,所述利用被圈选的网页元素的网页圈选响应功能,获取所述被圈选的网页元素对应的元素信息和页面信息之前,所述方法还包括:
利用所述滑动圈选响应功能,检测到所述目标网页中的网页元素被滑动圈选时,根据被滑动圈选的网页元素的结构层级和元素属性,确定被滑动圈选的网页元素是否属于可圈选元素;
当所述被滑动圈选的网页元素属于可圈选元素时,利用所述点击圈选响应功能,检测所述被滑动圈选的网页元素是否被点击圈选;
当所述被滑动圈选的网页元素被点击圈选时,将所述目标网页中的与被点击圈选的网页元素属于同一元素类型的网页元素,或所述被点击圈选的网页元素,确定为所述被圈选的网页元素。
上述方案中,在所述获取所述被圈选的网页元素对应的元素信息和页面信息之后,所述方法还包括:
对所述目标网页中的网页元素移除所述网页圈选响应功能,以使得所述目标网页恢复网页浏览模式。
本发明实施例提供了一种数据采集装置,所述装置包括:网页加载单元、网页圈选单元、网页圈选响应单元和获取单元;其中,
所述网页加载单元,用于获取网页访问地址;及在网页圈选设置模式下,根据所述网页访问地址,加载目标网页;所述目标网页预先设置有事件监听功能;
所述网页圈选单元,用于在所述目标网页中建立网页圈选功能;
所述网页圈选响应单元,用于当所述网页圈选功能被启动时,利用所述事件监听功能和所述网页圈选功能,对所述目标网页中的网页元素设置网页圈选响应功能;
所述获取单元,用于当所述目标网页中的网页元素被圈选时,利用被圈选的网页元素的网页圈选响应功能,获取所述被圈选的网页元素对应的元素信息和页面信息。
上述方案中,所述装置还包括:网页设置单元,用于在所述获取网页访问地址之前,在网页浏览模式下,对所述目标网页中的网页元素设置事件监听功能和网页点击响应功能,所述网页点击响应功能为对网页浏览模式下被点击的网页元素进行获取元素信息和页面信息的功能。
上述方案中,所述网页圈选单元,具体用于利用加载状态检测功能,确定所述目标网页是否被完全加载;及当所述目标网页被完全加载时,在所述目标网页中建立网页圈选功能。
上述方案中,所述网页圈选单元,还用于在所述目标网页中建立网页圈选功能之后,所述利用所述事件监听功能和所述网页圈选功能,对所述目标网页中的网页元素设置网页圈选响应功能之前,当在所述目标网页中建立完成网页圈选功能时,设置所述网页圈选功能对应的圈选开关为可选状态,并显示所述圈选开关;以及当所述圈选开关被启动时,确定所述网页圈选功能被启动。
上述方案中,所述网页圈选响应功能包括滑动圈选响应功能和点击圈选响应功能。
上述方案中,所述网页圈选响应单元,还用于在所述利用所述事件监听功能和所述网页圈选功能,对所述目标网页中的网页元素设置网页圈选响应功能之后,所述利用被圈选的网页元素的网页圈选响应功能,获取所述被圈选的网页元素对应的元素信息和页面信息之前,利用所述滑动圈选响应功能,检测到所述目标网页中的网页元素被滑动圈选时,根据被滑动圈选的网页元素的结构层级和元素属性,确定被滑动圈选的网页元素是否属于可圈选元素;及当所述被滑动圈选的网页元素属于可圈选元素时,利用所述点击圈选响应功能,检测所述被滑动圈选的网页元素是否被点击圈选;以及当所述被滑动圈选的网页元素被点击圈选时,将所述目标网页中的与被点击圈选的网页元素属于同一元素类型的网页元素,或所述被点击圈选的网页元素,确定为所述被圈选的网页元素。
上述方案中,所述网页圈选响应单元,还用于在所述获取所述被圈选的网页元素对应的元素信息和页面信息之后,对所述目标网页中的网页元素移除所述网页圈选响应功能,以使得所述目标网页恢复网页浏览模式。
本发明实施例提供了一种数据采集装置,所述装置包括:处理器、存储器和通信总线,所述存储器通过所述通信总线与所述处理器进行通信,所述存储器存储所述处理器可执行的一个或者多个程序,当所述一个或者多个程序被执行时,通过所述处理器执行如上述任一项数据采集方法的步骤。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被至少一个处理器执行时,导致所述至少一个处理器执行如上述任一项数据采集方法的步骤。
本发明实施例提供一种数据采集方法及装置、存储介质,获取网页访问地址;在网页圈选设置模式下,根据所述网页访问地址,加载目标网页;所述目标网页预先设置有事件监听功能;在所述目标网页中建立网页圈选功能;当所述网页圈选功能被启动时,利用所述事件监听功能和所述网页圈选功能,对所述目标网页中的网页元素设置网页圈选响应功能;当所述目标网页中的网页元素被圈选时,利用被圈选的网页元素的网页圈选响应功能,获取所述被圈选的网页元素对应的元素信息和页面信息。采用上述技术实现方案,由于使用网页圈选设置模式对目标网页进行加载,则目标网页处于可被圈选设置的状态,再对网页元素设置网页圈选响应功能,使得目标网页中的网页元素可被圈选并响应,也就是说,实现了灵活地调整目标网页中的数据采集对象,提高了对数据采集对象的更改速度。
附图说明
图1为本发明实施例提供的一种数据采集装置的结构示意图;
图2为本发明实施例提供的一种数据采集方法的流程图一;
图3为本发明实施例提供的一种数据采集方法的流程图二;
图4为本发明实施例提供的一种数据采集装置的结构示意图一;
图5为本发明实施例提供的一种数据采集装置的结构示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
数据采集装置对网页访问地址对应的目标网页,建立网页圈选功能,使得可以对目标网页中的网页元素进行圈选,进而采集被圈选的网页元素的元素信息,该数据采集装置可以是包含服务器的装置,例如,本发明中描述的服务器可以包括诸如台式计算机等。
如图1所示,其为实现本发明各个实施例的一种数据采集装置的结构示意图,该数据采集装置1可以包括:服务器10、后台11、前端12;其中后台11包括网页圈选后台。
本领域技术人员可以理解,图1中示出的数据采集装置结构并不构成对数据采集装置的限定,数据采集装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
数据采集装置在采集任意一个网页中网页元素对应的元素信息和页面信息时,可以采用代码埋点的方法,针对任意一个网页中需要采集元素信息和页面信息的网页元素,在需要采集元素信息和页面信息的网页元素的业务逻辑代码中加入数据采集的埋点代码,当某一个需要采集元素信息和页面信息的网页元素被触发时,对应的埋点代码被运行,实现采集被触发的网页元素对应的元素信息和页面信息;其中,业务逻辑代码中被预先加入埋点代码,只对预先加入埋点代码的网页元素进行元素信息和页面信息采集。
数据采集装置还可以采用服务器配置埋点的方法,在任意一个网页中引入数据采集的脚本文件,当在网页中加载脚本文件后,利用脚本文件从服务器获取埋点配置策略,向埋点配置策略中指示了的网页元素,添加埋点监听事件,当某一个被指示了的网页元素被触发时,执行对应的埋点监听事件,实现采集被触发的网页元素对应的元素信息和页面信息;其中,服务器中的配置策略被预先设置,只对配置策略中指示了的网页元素进行元素信息和页面信息采集。
实施例一
本发明实施例提供一种数据采集方法,如图2所示,该方法包括:
S201:获取网页访问地址;
数据采集装置获取目标网页的网页访问地址,根据网页访问地址加载目标网页,进而对目标网页进行网页圈选设置。
在一些实施例中,数据采集装置要对加载后的目标网页进行网页圈选设置,就需要在网页圈选设置模式下打开目标网页,对应地,数据采集装置可以控制网页圈选后台来获取网页访问地址,在网页圈选后台中加载目标网页。
示例性地,该目标网页可以是全球广域网(Web,World Wide Web)网页,对应地,网页圈选后台通过iframe标签获取该网页访问网址,并加载目标网页。
S202:在网页圈选设置模式下,根据网页访问地址,加载目标网页;目标网页预先设置有事件监听功能;
数据采集装置在网页圈选设置模式下加载目标网页后,对目标网页是否具有事件监听功能进行确认,事件监听功能是指监听到针对目标网页中的网页元素的触发事件时,根据触发事件的类型开启对应的数据采集功能来获得被触发的网页元素对应的元素信息和页面信息,如果目标网页中的所有网页元素都具有事件监听功能,那么该目标网页的所有网页元素中的任意一个网页元素被圈选后,被圈选的触发事件也能够被监听到,进而能够获取对应的元素信息和页面信息,因此,对于具有事件监听功能的目标网页,数据采集装置才能够进行网页圈选设置。
在一些实施例中,数据采集装置在该目标网页中预先加载了数据采集文件,该数据采集文件是指能够实现数据采集的程序文件,可以包括:事件监听功能对应的程序文件,即监听设置模块;对应地,数据采集装置在确认该目标网页是否具有事件监听功能时,可以通过访问该目标网页,确定该目标网页是否加载了数据采集文件,当该目标网页加载了数据采集文件时,确认该目标网页具有事件监听功能。
在一些实施例中,数据采集装置控制网页圈选后台加载该目标网页后,网页圈选后台可与该目标网页进行通信,网页圈选后台向该目标网页发送请求消息,该请求消息是能够被数据采集文件监听的消息;当网页圈选后台接收到该目标网页发送的响应消息时,表示该目标网页监听到了该请求消息,即该目标网页加载了数据采集文件。
示例性地,该网页可以是Web网页,对应地,开发人员使用scrpit(脚本)标签将数据采集文件对应的软件开发工具包(SDK,Software Development Kit),写在该目标网页的业务逻辑代码的头文件head部分,该数据采集文件javascript语音编写的,其包括:封装在addEventListenter类中的监听设置模块;
网页圈选后台调用具有数据发送功能的PostMessage函数,向该目标网页发送请求消息,由于数据采集文件SDK包括了监听PostMessage事件的程序文件,那么当该目标网页发送针对请求消息的响应消息时,表示该目标网页的业务逻辑代码中包括了数据采集文件SDK,也就是说,该目标网页能够通过数据采集文件SDK中的监听设置模块,创建事件监听功能。
在一些实施例中,数据采集装置根据预设的设备分辨率,加载该目标网页;其中,预设的分辨率可以是:个人计算机(PC,personal computer)显示器的设备分辨率、便携式设备(Pad,Portable Device)显示器的设备分辨率、或手机显示器的设备分辨率。
S203:在目标网页中建立网页圈选功能;
数据采集装置对于具有事件监听功能的目标网页,建立网页圈选功能,以使得可以对该目标网页中的网页元素进行网页圈选设置。
在一些实施例中,在目标网页中建立网页圈选功能,具体包括:利用加载状态检测功能,确定目标网页是否被完全加载;当目标网页被完全加载时,在目标网页中建立网页圈选功能。
示例性地,该目标网页可以是Web网页,对应地,网页圈选后台通过iframe标签的方式加载该目标网页时,启动针对iframe标签的加载状态检测事件,确定该网页圈选后台是否对该目标网页加载完成,当网页圈选后台对该目标网页加载完成时,表示对该目标网页的所有网页元素加载完成,才在目标网页中建立网页圈选功能。
在一些实施例中,数据采集装置控制网页圈选后台加载该目标网页后,网页圈选后台与该目标网页进行信息通信,网页圈选后台可以向该目标网页发送包括网页圈选指令的请求消息,网页圈选指令用于控制该目标网页从服务器中获取网页圈选功能对应的网页圈选程序,启动该网页圈选程序来创建网页圈选功能。
示例性地,该目标网页可以是Web网页,对应地,向该目标网页发送包括网页圈选loadCircle指令的请求消息,由于数据采集文件SDK包括了监听PostMessage事件的程序文件,那么当该目标网页发送针对请求消息的响应消息时,表示该目标网页的业务逻辑代码中包括了数据采集文件SDK,也就是说,该目标网页能够通过数据采集文件SDK中的监听设置模块,创建事件监听功能,该目标网页还能够从请求消息中读取loadCircle指令;进而,该目标网页基于loadCircle指令,从服务器中获取网页圈选功能对应的网页圈选程序,该网页圈选程序可以包括circle-sdk.js和circle-sdk.css,启动circle-sdk.js程序中的网页圈选功能circleEvent程序,用于建立该网页圈选功能。
在一些实施例中,数据采集装置在目标网页中建立网页圈选功能之后,可以根据用户的圈选指令,控制网页圈选功能是否被启动,具体包括:当在目标网页中建立完成网页圈选功能时,设置网页圈选功能对应的圈选开关为可选状态,并显示圈选开关;当圈选开关被启动时,确定网页圈选功能被启动,否则,确定网页圈选功能没有被启动。
示例性地,该网页可以是Web网页,对应地,数据采集装置控制该目标网页基于loadCircle指令,启动circle-sdk.js程序建立完成该网页圈选功能之后,在该目标网页上显示该网页圈选功能对应的圈选开关,且设置该圈选开关为可用状态,还可以显示包括圈选页面的提示信息;当该圈选开关被启动时,确定该网页圈选功能被启动;
进一步地,数据采集装置发送请求消息后,在超过预设时长内,没有接收到该目标网页发送的针对请求消息的响应消息时,确认该目标网页的业务逻辑代码中不包括数据采集文件SDK,即该目标网页无法监听到请求消息,也就无法基于loadCircle指令创建该网页圈选功能,则显示该网页圈选功能对应的圈选开关,且设置该圈选开关为不可用状态,并且不显示包括圈选页面的提示信息;其中,预设时长可以为3秒。
S204:当网页圈选功能被启动时,利用事件监听功能和网页圈选功能,对目标网页中的网页元素设置网页圈选响应功能;
数据采集装置确定该圈选功能被启动时,表示该目标网页中的所有网页元素能够被圈选,就利用事件监听功能和网页圈选功能,对该目标网页中的网页元素设置网页圈选响应功能。
示例性地,数据采集装置通过控制网页圈选后台,向该目标网页发送网页圈选功能开启指令,以使得该目标网页利用事件监听功能对所有网页元素设置网页圈选响应功能。
在一些实施例中,网页圈选响应功能包括滑动圈选响应功能和点击圈选响应功能;滑动圈选响应功能为对鼠标光标位置与网页元素位置重合的滑动圈选进行响应的功能,点击圈选响应功能为对网页元素被点击的圈选进行响应的功能。
在一些实施例中在利用事件监听功能和网页圈选功能,对目标网页中的网页元素设置网页圈选响应功能之后,利用被圈选的网页元素的网页圈选响应功能,获取被圈选的网页元素对应的元素信息和页面信息之前,方法还包括:利用滑动圈选响应功能,检测到目标网页中的网页元素被滑动圈选时,根据被滑动圈选的网页元素的结构层级和元素属性,确定被滑动圈选的网页元素是否属于可圈选元素;当被滑动圈选的网页元素属于可圈选元素时,利用点击圈选响应功能,检测被滑动圈选的网页元素是否被点击圈选;当被滑动圈选的网页元素被点击圈选时,将目标网页中的与被点击圈选的网页元素属于同一元素类型的网页元素,或被点击圈选的网页元素,确定为被圈选的网页元素
示例性地,在对所有网页元素设置滑动圈选响应功能之后,还给滑动圈选响应功能绑定数据采集确定功能,数据采集确定功能为根据被滑动圈选的网页元素的结构层级和元素属性,确定被滑动圈选的网页元素是否属于可圈选元素的功能。
进一步地,在对所有网页元素设置点击圈选响应功能之后,还给点击圈选响应功能绑定元素类型确定功能,元素类型确定功能用于发出被点击圈选的网页元素对应的元素类型选择请求,例如,元素类型选择请求可以是在该目标网页上弹出的圈选信息录入框,圈选信息录入框包括自定义名称和元素类型两部分,元素类型包括当前位置和同类元素两个选项,其中,当前位置表征被点击圈选的网页元素,同类元素表征目标网页中的与被点击圈选的网页元素属于同一元素类型的网页元素;再接收元素类型选择响应,将元素类型选择响应指示的元素类型对应的网页元素确定为被圈选的网页元素。
示例性地,该目标网页可以是Web网页,对应地,该目标网页利用circleEvent程序中的针对网页圈选响应功能的初始化init指令,调用addEventListenter类中的监听设置模块,用于为该目标网页中的所有网页元素设置滑动圈选响应功能和点击圈选响应功能,分别封装在mouseover对象和clickcircle对象中;其次,将网页圈选响应功能绑定的数据采集确定功能封装在isCanCircle对象中,将点击圈选响应功能绑定的元素类型确定功能封装在circleEle对象中。
在一些实施例中,数据采集装置利用滑动圈选响应功能绑定的数据采集确定功能,根据被滑动圈选的网页元素的结构层级和元素属性,确定被滑动圈选的网页元素是否属于可圈选元素包括:将结构层级属于叶子节点的网页元素,确定为属于可圈选元素的网页元素;将元素属性为容器元素的网页元素,确定为不属于可圈选元素的网页元素。
在一些实施例中,在确定被滑动圈选的网页元素属于可圈选元素时,对被滑动圈选的网页元素进行可选标记,可选标记用于提示被滑动圈选的网页元素属于可圈选元素;例如,可以将被滑动圈选的网页元素设置为高亮状态。
S205:当目标网页中的网页元素被圈选时,利用被圈选的网页元素的网页圈选响应功能,获取被圈选的网页元素对应的元素信息和页面信息。
数据采集装置确定了被圈选的网页元素后,利用与该圈选响应功能中的点击圈选响应功能绑定对应的元素信息和页面信息获取功能,获取被圈选的网页元素对应的元素信息和页面信息。
示例性地,页面信息为元素所在页面的页面信息,元素信息和页面信息包括:XML路径语言(Xpath,XML Path Language)、pXpath(父级Xpath)、元素内容、元素属性、元素所在页面的统一资源定位符(URL,Uniform Resource Locator)、元素所在页面的标题title等;其次,当被圈选的网页元素是位于定义列表dl、列表项li等列表中的元素时,还获取被圈选的网页元素在上述列表中的序列值。
在一些实施例中,在获取被圈选的网页元素对应的元素信息和页面信息之后,数据采集装置还对目标网页中的网页元素移除网页圈选响应功能,以使得目标网页恢复网页浏览模式。
示例性地,数据采集装置控制网页圈选后台向该目标网页发送网页圈选功能关闭指令,以使得该目标网页对网页元素移除网页圈选响应功能,以使得该目标页面处于浏览模式。
进一步地,数据采集装置可以将获取的被圈选的网页元素对应的元素信息和页面信息,保存至服务器,此时完成圈选,即完成可视化元素埋点工作;或者,数据采集装置还可以将获取的被圈选的网页元素对应的元素信息和页面信息,发送至信息统计后台。
需要说明的是,如图3所示,在步骤S201之前,该数据采集方法还包括:
S200:在网页浏览模式下,对目标网页中的网页元素设置事件监听功能和网页点击响应功能,网页点击响应功能为对网页浏览模式下被点击的网页元素进行获取元素信息和页面信息的功能。
数据采集装置在网页浏览模式下,加载该目标网页,并对目标网页中的网页元素设置事件监听功能和网页点击响应功能,通过网页点击响应功能,当用户在网页浏览模式下点击网页元素时,能够执行获取元素信息和页面信息的功能。
在一些实施例中,当在网页浏览模式下加载该目标网页时,控制该目标网页执行采集初始化过程,采集初始化过程包括给该目标网页中的网页元素设置事件监听功能和网页点击响应功能;采集初始化过程还包括采集该目标网页的页面信息;另外,当加载该目标网页时,还通过预设的页面配置参数,对该目标页面进行初始化,页面配置参数包括该目标网页的网页标识。
示例性地,控制该目标网页执行采集初始化过程包括:在该目标网页中引入数据采集文件,数据采集文件中包括了监听设置模块和网页信息采集模块,启动监听设置模块给网页元素设置事件监听功能,启动网页信息采集模块采集该网页的页面信息;其中,事件监听功能中监听的触发事件的类型包括网页点击事件类型,网页点击事件类型对应的信息获取功能为事件追踪功能。
示例性地,该网页可以是Web网页,对应地,该数据采集文件SDK还包括:封装在pageinfo类中的网页信息采集模块,以及在addEventListenter类中包括了网页点击事件类型对应的事件追踪功能,网页点击事件在addEventListenter类中用click对象表示网页点击事件,用track对象表示事件追踪功能;
如此,数据采集装置在加载该网页的页面时,控制该网页调用pageinfo类,以完成对该网页的页面信息进行采集,该网页的页面信息包括:宿主host、域domain、标题title、设备分辨率等;还控制该网页调用addEventListenter类中的click对象和track对象启动监听设置模块,以完成对该网页设置针对网页点击事件的事件追踪功能。
进一步地,数据采集装置在该网页的页面上检测到网页点击事件时,启动该网页中每个网页元素的事件追踪功能,从而对每个网页元素获取元素信息和页面信息,元素信息和页面信息包括:可扩展标记语言路径语言(Xpath,Xml Path Language)、元素内容、元素属性、元素所在页面的URL、元素所在页面的title等。
进一步地,数据采集文件中还包括了信息分配模块,用于向加载目标网页的客户端设置客户端标识信息;相应地,在获取该目标网页中每个网页元素对应的元素信息和页面信息后,将该网页中所有网页元素对应的元素信息和页面信息和客户端标识信息一起发送至服务器,例如,在Web网页中,使用一个Object父类,对该目标网页中所有网页元素对应的元素信息和页面信息和客户端标识信息进行封装,并发送。
可以理解的是,由于数据采集装置使用网页圈选设置模式对网页进行加载,则网页处于可被圈选设置的状态,网页就可以在接收网页圈选指令和网页圈选功能开启指令之后,为网页元素设置网页圈选响应功能,使得网页中的网页元素可被圈选并响应,也就是说,实现了灵活地调整网页中的数据采集对象,提高了对数据采集对象的更改速度。
实施例二
基于实施例一的同一发明构思,进行进一步的说明。
本发明实施例提供一种数据采集装置4,如图4所示,该装置4包括:网页加载单元40、网页圈选单元41、网页圈选响应单元42和获取单元43;其中,
网页加载单元40,用于获取网页访问地址;及在网页圈选设置模式下,根据所述网页访问地址,加载目标网页;所述目标网页预先设置有事件监听功能;
网页圈选单元41,用于在所述目标网页中建立网页圈选功能;
网页圈选响应单元42,用于当所述网页圈选功能被启动时,利用所述事件监听功能和所述网页圈选功能,对所述目标网页中的网页元素设置网页圈选响应功能;
获取单元43,用于当所述目标网页中的网页元素被圈选时,利用被圈选的网页元素的网页圈选响应功能,获取所述被圈选的网页元素对应的元素信息和页面信息。
在一些实施例中,该装置4还包括:网页设置单元44,用于在所述获取网页访问地址之前,在网页浏览模式下,对所述目标网页中的网页元素设置事件监听功能和网页点击响应功能,所述网页点击响应功能为对网页浏览模式下被点击的网页元素进行获取元素信息和页面信息的功能。
在一些实施例中,网页圈选单元41,具体用于利用加载状态检测功能,确定所述目标网页是否被完全加载;及当所述目标网页被完全加载时,在所述目标网页中建立网页圈选功能。
在一些实施例中,网页圈选单元41,还用于在所述目标网页中建立网页圈选功能之后,所述利用所述事件监听功能和所述网页圈选功能,对所述目标网页中的网页元素设置网页圈选响应功能之前,当在所述目标网页中建立完成网页圈选功能时,设置所述网页圈选功能对应的圈选开关为可选状态,并显示所述圈选开关;以及当所述圈选开关被启动时,确定所述网页圈选功能被启动。
在一些实施例中,所述网页圈选响应功能包括滑动圈选响应功能和点击圈选响应功能。
在一些实施例中,网页圈选响应单元42,还用于在所述利用所述事件监听功能和所述网页圈选功能,对所述目标网页中的网页元素设置网页圈选响应功能之后,所述利用被圈选的网页元素的网页圈选响应功能,获取所述被圈选的网页元素对应的元素信息和页面信息之前,利用所述滑动圈选响应功能,检测到所述目标网页中的网页元素被滑动圈选时,根据被滑动圈选的网页元素的结构层级和元素属性,确定被滑动圈选的网页元素是否属于可圈选元素;及当所述被滑动圈选的网页元素属于可圈选元素时,利用所述点击圈选响应功能,检测所述被滑动圈选的网页元素是否被点击圈选;以及当所述被滑动圈选的网页元素被点击圈选时,将所述目标网页中的与被点击圈选的网页元素属于同一元素类型的网页元素,或所述被点击圈选的网页元素,确定为所述被圈选的网页元素。
在一些实施例中,网页圈选响应单元42,还用于在所述获取所述被圈选的网页元素对应的元素信息和页面信息之后,对所述目标网页中的网页元素移除所述网页圈选响应功能,以使得所述目标网页恢复网页浏览模式。
需要说明的是,在实际应用中,上述网页加载单元40、网页圈选单元41、网页圈选响应单元42、获取单元43和网页设置单元44,可由位于数据采集装置4上的处理器45实现,具体为CPU(Central Processing Unit,中央处理器)、MPU(Microprocessor Unit,微处理器)、DSP(Digital Signal Processing,数字信号处理器)或现场可编程门阵列(FPGA,Field Programmable Gate Array)等实现。
本发明实施例还提供了一种数据采集装置4,如图5所示,该装置4包括:处理器45、存储器46和通信总线47,存储器46通过通信总线47与处理器45进行通信,存储器46存储处理器45可执行的一个或者多个程序,当一个或者多个程序被执行时,通过处理器45执行如前述实施例所述的任意一种数据采集方法。
本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,所述程序被处理器45执行时实现如前述实施例所述的任意一种数据采集方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (8)

1.一种数据采集方法,其特征在于,所述方法包括:
获取网页访问地址;
在网页圈选设置模式下,根据所述网页访问地址,加载目标网页;所述目标网页预先设置有事件监听功能;
在所述目标网页中建立网页圈选功能;
当所述网页圈选功能被启动时,利用所述事件监听功能和所述网页圈选功能,对所述目标网页中的网页元素设置滑动圈选响应功能和点击圈选响应功能;
利用所述滑动圈选响应功能,当检测到所述目标网页中的网页元素被滑动圈选时,根据被滑动圈选的网页元素的结构层级和元素属性,确定被滑动圈选的网页元素是否属于可圈选元素;
当所述被滑动圈选的网页元素属于可圈选元素时,利用所述点击圈选响应功能,检测所述被滑动圈选的网页元素是否被点击圈选;
当所述被滑动圈选的网页元素被点击圈选时,将所述目标网页中的与被点击圈选的网页元素属于同一元素类型的网页元素,或所述被点击圈选的网页元素,确定为被圈选的网页元素,利用所述被圈选的网页元素的网页圈选响应功能,获取所述被圈选的网页元素对应的元素信息和页面信息。
2.根据权利要求1所述的方法,其特征在于,所述获取网页访问地址之前,所述方法还包括:
在网页浏览模式下,对所述目标网页中的网页元素设置事件监听功能和网页点击响应功能,所述网页点击响应功能为对网页浏览模式下被点击的网页元素进行获取元素信息和页面信息的功能。
3.根据权利要求1所述的方法,其特征在于,所述在所述目标网页中建立网页圈选功能,包括:
利用加载状态检测功能,确定所述目标网页是否被完全加载;
当所述目标网页被完全加载时,在所述目标网页中建立网页圈选功能。
4.根据权利要求1所述的方法,其特征在于,所述在所述目标网页中建立网页圈选功能之后,所述利用所述事件监听功能和所述网页圈选功能,对所述目标网页中的网页元素设置网页圈选响应功能之前,所述方法还包括:
当在所述目标网页中建立完成网页圈选功能时,设置所述网页圈选功能对应的圈选开关为可选状态,并显示所述圈选开关;
当所述圈选开关被启动时,确定所述网页圈选功能被启动。
5.根据权利要求1所述的方法,其特征在于,在所述获取所述被圈选的网页元素对应的元素信息和页面信息之后,所述方法还包括:
对所述目标网页中的网页元素移除所述网页圈选响应功能,以使得所述目标网页恢复网页浏览模式。
6.一种数据采集装置,其特征在于,所述装置包括:网页加载单元、网页圈选单元、网页圈选响应单元和获取单元;其中,
所述网页加载单元,用于获取网页访问地址;及在网页圈选设置模式下,根据所述网页访问地址,加载目标网页;所述目标网页预先设置有事件监听功能;
所述网页圈选单元,用于在所述目标网页中建立网页圈选功能;
所述网页圈选响应单元,用于当所述网页圈选功能被启动时,利用所述事件监听功能和所述网页圈选功能,对所述目标网页中的网页元素设置滑动圈选响应功能和点击圈选响应功能;
所述获取单元,用于利用所述滑动圈选响应功能,当检测到所述目标网页中的网页元素被滑动圈选时,根据被滑动圈选的网页元素的结构层级和元素属性,确定被滑动圈选的网页元素是否属于可圈选元素;当所述被滑动圈选的网页元素属于可圈选元素时,利用所述点击圈选响应功能,检测所述被滑动圈选的网页元素是否被点击圈选;当所述被滑动圈选的网页元素被点击圈选时,将所述目标网页中的与被点击圈选的网页元素属于同一元素类型的网页元素,或所述被点击圈选的网页元素,确定为被圈选的网页元素,利用所述被圈选的网页元素的网页圈选响应功能,获取所述被圈选的网页元素对应的元素信息和页面信息。
7.一种数据采集设备,其特征在于,所述设备包括:处理器、存储器和通信总线,所述存储器通过所述通信总线与所述处理器进行通信,所述存储器存储所述处理器可执行的一个或者多个程序,当所述一个或者多个程序被执行时,通过所述处理器执行如权利要求1-5任一项所述方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序,当所述程序被至少一个处理器执行时,导致所述至少一个处理器执行权利要求1-5任一项所述方法的步骤。
CN201811627906.0A 2018-12-28 2018-12-28 一种数据采集方法及装置、存储介质 Active CN109684571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811627906.0A CN109684571B (zh) 2018-12-28 2018-12-28 一种数据采集方法及装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811627906.0A CN109684571B (zh) 2018-12-28 2018-12-28 一种数据采集方法及装置、存储介质

Publications (2)

Publication Number Publication Date
CN109684571A CN109684571A (zh) 2019-04-26
CN109684571B true CN109684571B (zh) 2021-02-05

Family

ID=66190152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811627906.0A Active CN109684571B (zh) 2018-12-28 2018-12-28 一种数据采集方法及装置、存储介质

Country Status (1)

Country Link
CN (1) CN109684571B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127771B (zh) * 2019-05-30 2024-07-30 北京腾云天下科技有限公司 应用埋点方法、装置、计算设备和系统
CN110222253A (zh) * 2019-06-12 2019-09-10 北京睦合达信息技术股份有限公司 一种数据采集方法、设备及计算机可读存储介质
CN110532496B (zh) * 2019-08-30 2022-07-26 北京百度网讯科技有限公司 用于圈选事件的方法和装置
CN111367521A (zh) * 2020-02-21 2020-07-03 国铁吉讯科技有限公司 消息发送方法及装置、消息接收方法及装置
CN113254009B (zh) * 2021-06-25 2021-10-22 北京达佳互联信息技术有限公司 同类元素确定方法、装置、电子设备及存储介质
CN117827191B (zh) * 2024-01-10 2024-07-09 广东赛意信息科技有限公司 一种基于可视化建模的执行方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011159932A1 (en) * 2010-06-16 2011-12-22 Brighttag Inc. Unified collection and distribution of data
CN104281575A (zh) * 2013-07-01 2015-01-14 上海缪思信息科技有限公司 一种网页数据获取方法及模版引擎

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729475B (zh) * 2017-10-16 2021-07-02 深圳视界信息技术有限公司 网页元素采集方法、装置、终端与计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011159932A1 (en) * 2010-06-16 2011-12-22 Brighttag Inc. Unified collection and distribution of data
CN104281575A (zh) * 2013-07-01 2015-01-14 上海缪思信息科技有限公司 一种网页数据获取方法及模版引擎

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《开放获取期刊资源采集系统研究与实现》;黄政;《中国优秀硕士学位论文全文数据库信息科技辑》;20180415(第04期);第I139-547页 *

Also Published As

Publication number Publication date
CN109684571A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN109684571B (zh) 一种数据采集方法及装置、存储介质
US20190340205A1 (en) Reducing redirects
CN110069683B (zh) 一种基于浏览器爬取数据的方法及装置
US20130263023A1 (en) Graphical Overlay Related To Data Mining and Analytics
US20150254475A1 (en) Private browsing mode access for developers
US9912767B1 (en) Third-party cross-site data sharing
US9727354B2 (en) System and methods for loading an application and its modules in a client device
US20150370812A1 (en) Search Results for Native Applications
CN104243273A (zh) 即时通讯客户端显示信息的方法及设备和信息显示系统
CN111177519B (zh) 网页内容获取方法、装置、存储介质及设备
CN107679214B (zh) 链接定位方法、装置、终端与计算机可读存储介质
CN108733559B (zh) 页面事件的触发方法、终端设备及介质
CN108595697B (zh) 网页集成方法、装置及系统
CN103810176A (zh) 一种网页信息的预取访问方法和装置
US20240179219A1 (en) Methods for detecting tracking elements of a web page and related server devices
CN103678505A (zh) 一种在浏览器中运行应用程序的方法、装置和浏览器
EP3528474B1 (en) Webpage advertisement anti-shielding methods and content distribution network
US9294538B1 (en) Dynamic content injection
CN112637361A (zh) 一种页面代理方法、装置、电子设备及存储介质
EP3646158A1 (en) Captured content sharing interface
US20190377766A1 (en) Web access enhancement
CN113742551A (zh) 一种基于scrapy和puppeteer的动态数据抓取方法
US9253279B2 (en) Preemptive caching of data
WO2019047677A1 (zh) 一种应用下载来源的监测方法及装置
US20160117392A1 (en) Information search method and apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant