Nothing Special   »   [go: up one dir, main page]

CN103200269A - 互联网信息统计方法及系统 - Google Patents

互联网信息统计方法及系统 Download PDF

Info

Publication number
CN103200269A
CN103200269A CN2013101274926A CN201310127492A CN103200269A CN 103200269 A CN103200269 A CN 103200269A CN 2013101274926 A CN2013101274926 A CN 2013101274926A CN 201310127492 A CN201310127492 A CN 201310127492A CN 103200269 A CN103200269 A CN 103200269A
Authority
CN
China
Prior art keywords
data
domain name
statistics
internet information
professional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013101274926A
Other languages
English (en)
Inventor
余效伟
罗峰
黄苏支
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IZP (BEIJING) TECHNOLOGIES Co Ltd
Original Assignee
IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IZP (BEIJING) TECHNOLOGIES Co Ltd filed Critical IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority to CN2013101274926A priority Critical patent/CN103200269A/zh
Publication of CN103200269A publication Critical patent/CN103200269A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种互联网信息统计方法及其系统,方法包括:S1、按照业务主题将用户网络访问数据通过MapReduce划分成多个业务主题数据集;S2、对每个业务主题数据集中包含的数据根据不同的指标进行统计,将统计数据保存起来;S3、当接收到统计信息查询请求时,根据查询请求要查询的业务主题获取对应的统计数据并返回。本发明能方便用户深入了解某一个行业、某一个网站或者某些竞争网站的访问量、访问次数、访问用户、搜搜关键词、各搜索关键词带来的流量等信息,并能够以不同的粒度、高速准确地为不同的业务系统及用户呈现丰富的统计数据以发掘和展示繁杂的网络访问数据之间的内在关系,为决策部门提供详实客观的数据支持。

Description

互联网信息统计方法及系统
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种互联网信息统计方法及其系统。
背景技术
Alexa是互联网首屈一指的免费提供网站流量信息的公司,创建于1996年,一直致力于开发网页抓取和网站流量计算的工具。Alexa排名是目前常引用的用来评价某一网站访问量的一个指标。
Alexa的网站世界排名主要分两种:综合排名和分类排名。
综合排名也叫绝对排名,即特定的一个网站在所有网站中的名次。Alexa每三个月公布一次新的网站综合排名。此排名的依据是用户链接数(Users Reach)和页面浏览数(Page Views)三个月累积的几何平均值。
分类排名,一是按主题分类,比如新闻、娱乐、购物等,Alexa给出某个特定网站在同一类网站中的名次。二是按语言分类,目前共分20种语言,比如英文网站、中文网站[Chinese(simpl)和Chinese(trad)]等,给出特定站点在所有此类语言网站中的名次。
Alexa还会根据网民对网站的评论,在综合排名信息中,用“星”来给网站评一个等级,最高为“5星”。国内网站排名最靠前的百度,得了“三星半”。Alexa网站本身不参加排名,但是Alexa给自己的评价为4星。
但是,Alexa只能提供一个粗略的排名信息,无法提供更多的选项和界面。
发明内容
本发明的目的在于提出一种互联网信息统计方法及其系统,使得能够为不同的业务系统及用户以不同的粒度、高速准确地提供丰富的网络访问数据,为决策部门提供翔实客观的数据支持。
为达此目的,本发明采用以下技术方案:
一种互联网信息统计方法,其特征在于,包括:
S1、按照业务主题将用户网络访问数据通过MapReduce划分成多个业务主题数据集,其中,所述用户网络访问数据为用户跨网访问数据;
S2、对每个业务主题数据集中包含的数据根据不同的指标进行统计,将各业务主题的统计数据保存起来;
S3、当接收到统计信息查询请求时,根据所述查询请求要查询的业务主题获取对应的统计数据并返回。
进一步地,在步骤S1之前还包括:
预先去除网络访问数据中的无效数据。
进一步地,所述无效数据包括:后缀错误的域名数据,访问量小于预设阈值的域名数据。
进一步地,在识别无效数据时先判断是否属于黑白名单中预设的域名数据,对于白名单中的域名数据和所述域名数据的下级域名数据,始终视为有效数据,对于黑名单中的域名数据和所述域名数据的下级域名数据,始终视为无效数据。
进一步地,以服务的形式为步骤S2中的各业务主题的统计数据提供访问接口。
进一步地,利用所述服务创建至少一个业务子模块,其中封装了针对所述统计数据的预定义运算,并以服务的形式为该业务子模块提供访问接口。
根据本发明的同一构思,本发明还提供了一种互联网信息统计系统,包括:
一种互联网信息统计系统,其特征在于,包括:
数据拆分单元,按照业务主题将用户网络访问数据通过MapReduce划分成多个业务主题数据集,其中,所述用户网络访问数据为用户跨网访问数据;
数据汇总单元,对每个业务主题数据集中包含的数据根据不同的指标进行统计,将各业务主题的统计数据保存起来;
数据查询单元,当接收到统计信息查询请求时,根据所述查询请求要查询的业务主题获取对应的统计数据并返回。
进一步地,所述系统还包括:
数据预处理单元,预先去除网络访问数据中的无效数据。
进一步地,所述无效数据包括:后缀错误的域名数据,访问量小于预设阈值的域名数据。
进一步地,在识别无效数据时先判断是否属于黑白名单中预设的域名数据,对于白名单中的域名数据和所述域名数据的下级域名数据,始终视为有效数据,对于黑名单中的域名数据和所述域名数据的下级域名数据,始终视为无效数据。
进一步地,所述系统还包括:
数据集市,保存数据汇总单元统计得到的数据。
进一步地,所述系统还包括:
第一服务单元,以服务的形式为数据汇总单元统计得到的各业务主题的统计数据提供访问接口。
进一步地,所述系统还包括:
第二服务单元,利用所述第一服务单元提供的服务创建至少一个业务子模块,其中封装了针对所述统计数据的预定义运算,并以服务的形式为该业务子模块提供访问接口。
本发明能方便用户深入了解某一个行业、某一个网站或者某些竞争网站的访问量、访问次数、访问用户、搜搜关键词、每个搜索关键词带来的流量等各种信息,并能够以不同的粒度、高速准确地为不同的业务系统及用户呈现丰富的统计数据以发掘和展示繁杂的网络访问数据之间的内在关系,为决策部门提供翔实客观的数据支持。
附图说明
图1是本发明具体实施例一所述的互联网信息统计方法流程图;
图2是本发明具体实施例二所述的互联网信息统计系统结构框图;
图3是本发明具体实施例三所述的基于分布式数据处理架构Handoop实现的互联网信息统计系统结构图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
实施例一
图1是本实施例所述的互联网信息统计方法流程图,如图1所示,本实施例所述互联网信息统计方法包括:
S101、将网络访问数据划分成多个业务主题数据集。
在该步骤中,按照业务主题将网络访问数据通过MapReduce划分成多个业务主题数据集。所述网络访问数据包括用于进行数据分析的全网流量数据IMOS日志数据,这些海量数据存储在大型分布式存储系统ODS中。对海量数据进行高速的划分处理正是MapReduce数据处理机制所擅长的,该数据处理机制能够在很短的时间内将大量的数据通过分布式并行计算的方式划分为不同的数据集,因此,本发明采用MapReduce机制来执行网络访问数据的划分工作。另外,为了契合上层业务系统的数据需求,本发明按照多个业务主题对所述网络访问数据进行划分,用不同的子数据库分别存储各主题下的数据,从而形成多个不同业务主题的数据集,为上层系统提供经过初步划分的数据。其中,所述业务主题可以包括但不限于:访问量、访问时间、网站分析信息等。经过上述MapReduce处理后,不仅去除了大量重复数据,而且对数据进行了基本的分类,极大地减少了数据总量并使得数据汇总单元DWA对数据的访问更加高效和便利。
另外,海量的原始网络访问数据中通常会包含大量的无效数据,为了将目标数据限定在用户真正需要和关心的数据范围内,在步骤S101之前还可以预先去除原始网络访问数据中的无效数据。可以根据实际的业务需求来定义无效数据的判断准则,例如可以是后缀错误的域名数据,访问量小于预设阈值的域名数据等。进一步地还可以设置例外情况处理机制,对于某些符合上述判断准则的无效数据有时并不希望被过滤掉,那么可以通过设置白名单的方式来保留,即,在识别无效数据时先判断是否属于黑白名单中预设的域名数据,对于白名单中的域名数据和所述域名数据的下级域名数据,始终视为有效数据,对于黑名单中的域名数据和所述域名数据的下级域名数据,始终视为无效数据。
。通过这一预处理方式大幅地减少了实际需要处理的数据量,从而进一步提升了数据的处理效率。
S102、对各业务主题数据集中的数据进行统计并保存。
在该步骤中,对每个业务主题数据集中包含的数据根据不同的指标进行统计,然后将各业务主题的统计数据保存起来供上层业务系统使用。为了进一步提高数据处理效率,给上层业务的复杂运算迅速地提供尽可能贴近其需求的数据,本发明中根据实际的业务需求,按照不同的指标对经过步骤S101处理后的各业务主题数据集进行统计,将统计得到的结果保存起来,通过这样预先的处理,当上层业务系统需要这些数据时,可以直接访问,无需现场进行计算。而且,在选择统计指标时选择那些尽可能多的业务系统共同需要的指标,这样可以大量地减少重复计算,提高数据的利用率以及整体的处理效率。
另外,可以将所述统计数据保存至数据集市DM中。数据集市(Data Mart),简称为DM,是数据仓库(DW)的一个专有版本。尽管一个数据仓库联合数据库遍及整个企业,数据集市通常更小和集中在一个特定的部门。数据集市包括针对底层数据经过一定业务预处理的数据快照,更加贴近于上层业务的需求。数据集市使一个关系型数据库来仿效一个多维数据库的解析功能,可以实现对相关信息的轻松访问。
进一步地,为了方便外部系统对步骤S2中统计后的数据进行访问,可以以服务的方式为上述数据提供访问接口,从而为不同的业务系统提供细粒度的复用途径。
进一步地,为了给不同的业务系统提供更贴近其需求的数据,简化业务系统对上述统计数据的使用方式,还可以利用上述细粒度的服务接口创建至少一个业务子模块,该业务子模块中封装了针对所述统计数据的更加贴近上层业务系统需求的预定义运算,而且同样以服务的形式为该业务子模块提供访问接口。这样,上层业务系统可以直接使用所述业务子模块的服务接口来实现对所述统计数据的某些预定义运算,实现了对上述数据的粗粒度复用,简化了对所述数据的使用方式。
S103、响应查询请求返回统计数据。
当接收到统计信息查询请求时,根据所述查询请求要查询的业务主题获取对应的统计数据并返回。在获取所述统计数据时可以利用前面所提供的不同粒度的服务访问接口,为业务系统提供丰富的再加工数据,满足了用户对网络访问数据的多种业务需求。
实施例二
根据本发明的同一构思,本发明还提供了一种互联网信息统计系统,图2是本实施例所述的互联网信息统计结构框图,如图2所示,该系统包括:数据拆分单元201、数据汇总单元202、以及数据查询单元203。
其中,数据拆分单元201按照业务主题将网络访问数据通过MapReduce划分成多个业务主题数据集。所述网络访问数据包括用于进行数据分析的全网流量数据IMOS日志数据,这些海量数据存储在大型分布式存储系统ODS中。对海量数据进行高速的划分处理正是MapReduce数据处理机制所擅长的,该数据处理机制能够在很短的时间内将大量的数据通过分布式并行计算的方式划分为不同的数据集,因此,本发明采用MapReduce机制来执行网络访问数据的划分工作。另外,为了契合上层业务系统的数据需求,本发明按照多个业务主题对所述网络访问数据进行划分,用不同的子数据库分别存储各主题下的数据,从而形成多个不同业务主题的数据集,为上层系统提供经过初步划分的数据。其中,所述业务主题可以包括但不限于:访问量、访问时间、网站分析信息等。经过上述MapReduce处理后,不仅去除了大量重复数据,而且对数据进行了基本的分类,极大地减少了数据总量并使得数据汇总单元对数据的访问更加高效和便利。
另外,海量的原始网络访问数据中通常会包含大量的无效数据,为了将目标数据限定在用户真正需要和关心的数据范围内,在该划分操作之前还可以预先去除原始网络访问数据中的无效数据。可以根据实际的业务需求来定义无效数据的判断准则,例如可以是后缀错误的域名数据,访问量小于预设阈值的域名数据等。进一步地还可以设置例外情况处理机制,对于某些符合上述判断准则的无效数据有时并不希望被过滤掉,那么可以通过设置白名单的方式来保留,即,在识别无效数据时先判断是否属于黑白名单中预设的域名数据,对于白名单中的域名数据和所述域名数据的下级域名数据,始终视为有效数据,对于黑名单中的域名数据和所述域名数据的下级域名数据,始终视为无效数据。在本实施例的一个优选实施方式中,所述黑白名单均存储一级域名,对于白名单中的域名数据和所述域名数据的下级域名数据,均视为有效数据,对于黑名单中的域名数据和所述域名数据的下级域名数据,均视为无效数据。通过这一预处理方式大幅地减少了实际需要处理的数据量,从而进一步提升了数据的处理效率。
数据汇总单元202,对每个业务主题数据集中包含的数据根据不同的指标进行统计,然后将各业务主题的统计数据保存起来供上层业务系统使用。为了进一步提高数据处理效率,给上层业务的复杂运算迅速地提供尽可能贴近其需求的数据,本发明中根据实际的业务需求,按照不同的指标对经过数据划分单元处理后的各业务主题数据集进行统计,将统计得到的结果保存起来,通过这样预先的处理,当上层业务系统需要这些数据时,可以直接访问,无需现场进行计算。而且,在选择统计指标时选择那些尽可能多的业务系统共同需要的指标,这样可以大量地减少重复计算,提高数据的利用率以及整体的处理效率。
另外,所述系统还可以进一步包括数据集市,并将所述统计数据保存至数据集市DM中。数据集市(Data Mart),简称为DM,是数据仓库(DW)的一个专有版本。尽管一个数据仓库联合数据库遍及整个企业,数据集市通常更小和集中在一个特定的部门。数据集市包括针对底层数据经过一定业务预处理的数据快照,更加贴近于上层业务的需求。数据集市使一个关系型数据库来仿效一个多维数据库的解析功能,可以实现对相关信息的轻松访问。
进一步地,为了方便外部系统对数据汇总单元统计后的数据进行访问,所述系统还可以包括第一服务单元,以服务的方式为上述数据提供访问接口,从而为不同的业务系统提供细粒度的复用途径。
更进一步,为了给不同的业务系统提供更贴近其需求的数据,简化业务系统对上述统计数据的使用方式,所述系统还可以包括第二服务单元,以利用上述细粒度的服务接口创建至少一个业务子模块,该业务子模块中封装了针对所述统计数据的更加贴近上层业务系统需求的预定义运算,而且同样以服务的形式为该业务子模块提供访问接口。这样,上层业务系统可以直接使用所述业务子模块的服务接口来实现对所述统计数据的某些预定义运算,实现了对上述数据的粗粒度复用,简化了对所述数据的使用方式。
数据查询单元203,当接收到统计信息查询请求时,根据所述查询请求要查询的业务主题获取对应的统计数据并返回。在获取所述统计数据时可以利用前面所提供的不同粒度的服务访问接口,为业务系统提供丰富的再加工数据,满足了用户对网络访问数据的多种业务需求。
实施例三
本发明还提供了基于分布式数据处理架构Handoop实现的互联网信息统计系统,如图3所示,该系统主要包括上层的业务系统301、服务层302、数据集市(DM)303、数据仓库(DW)304、分布式存储系统(ODS)305。其中,数据集市DM基于HBASE实现,数据仓库DW基于HIVE实现,分布式存储系统ODS基于HDFS实现。
接下来介绍其数据处理过程。首先,从外部将网络访问数据IMOS导入存储系统ODS,然后从ODS中将数据通过ETL的方式提取到数据仓库DW中。ETL全称为Extraction-Transformation-Loading,即数据提取、转换和加载。可以实现ETL的工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle DataIntegrator)、Informatic PowerCenter、AICloudETL、DataStage、RepositoryExplorer、Beeload、Kettle、DataSpider等。
所述数据仓库DW还包括两个数据处理单元:数据拆分单元(DWD)3041、数据汇总单元(DWA)3042,其中,为了契合上层业务系统的数据需求,数据拆分单元DWD按照多个业务主题对所述网络访问数据进行划分,用不同的子数据库分别存储各主题下的数据,从而形成多个不同业务主题的数据集,为数据汇总单元DWA提供经过初步划分的数据。其中,所述划分基于MapReduce机制来实现,该数据处理机制能够在很短的时间内将大量的数据通过分布式并行计算的方式划分为不同的数据集,本发明的海量数据处理正是MapReduce所擅长的。另外,所述业务主题可以包括但不限于:访问量、访问时间、网站分析信息等。经过上述MapReduce处理后,不仅去除了大量重复数据,而且对数据进行了基本的分类,极大地减少了数据总量并使得数据汇总单元DWA对数据的访问更加高效和便利。
在实际应用中还有一点不容忽视,海量的原始网络访问数据中通常会包含大量的无效数据,为了将目标数据限定在用户真正需要和关心的数据范围内,在所述划分操作之前还可以预先去除原始网络访问数据中的无效数据。可以根据实际的业务需求来定义无效数据的判断准则,例如可以是后缀错误的域名数据,访问量小于预设阈值的域名数据等。进一步地还可以设置例外情况处理机制,对于某些符合上述判断准则的无效数据有时并不希望被过滤掉,那么可以通过设置白名单的方式来保留,即,对于白名单中的域名数据始终视为有效数据;而对于某些即使是有效的数据有时也希望被过滤掉,那么可以通过设置黑名单的方式来强制过滤掉,即对于黑名单中的域名数据始终视为无效数据。在本实施例的一个优选实施方式中,所述黑白名单均存储一级域名,对于白名单中的域名下的下级域名数据,均视为有效数据,对于黑名单中的域名下的下级域名数据,均视为无效数据。在本实施例的一个优选实施方式中,所述黑白名单均存储一级域名,对于白名单中的域名数据和所述域名数据的下级域名数据,均视为有效数据,对于黑名单中的域名数据和所述域名数据的下级域名数据,均视为无效数据。
通过这一预处理方式大幅地减少了实际需要处理的数据量,从而进一步提升了数据的处理效率。
另外,数据汇总单元(DWA)3042对每个业务主题数据集中包含的数据根据不同的指标进行统计,然后将各业务主题的统计数据保存起来供上层业务系统使用。为了进一步提高数据处理效率,给上层业务的复杂运算迅速地提供尽可能贴近其需求的数据,本发明中根据实际的业务需求,按照不同的指标对经过数据拆分单元(DWD)3041划分处理后的各业务主题数据集进行统计,将统计得到的结果保存起来,通过这样预先的处理,当上层业务系统需要这些数据时,可以直接访问,无需现场进行计算。而且,在选择统计指标时选择那些尽可能多的业务系统共同需要的指标,这样可以大量地减少重复计算,提高数据的利用率以及整体的处理效率。
在数据汇总单元DWA对数据统计完成之后,可以将所述统计数据保存至数据集市DM中。数据集市DM(Data Mart),简称为DM,是数据仓库(DW)的一个专有版本。尽管一个数据仓库联合数据库遍及整个企业,数据集市通常更小和集中在一个特定的部门。数据集市包括针对底层数据经过一定业务预处理的数据快照,更加贴近于上层业务的需求。数据集市使一个关系型数据库来仿效一个多维数据库的解析功能,可以实现对相关信息的轻松访问。
进一步地,为了方便外部系统对数据汇总单元DWA统计后的数据进行访问,可以在DM之上增加一个细粒度服务层3021,以服务的方式为上述数据提供访问接口,从而为不同的业务系统提供细粒度的复用途径。
进一步地,为了给不同的业务系统提供更贴近其需求的数据,简化业务系统对上述统计数据的使用方式,还可以在上述细粒度服务层之上增加一个粗粒度服务层3022。在服务层302中,利用上述细粒度的服务接口创建至少一个业务子模块,该业务子模块中封装了针对所述统计数据的更加贴近上层业务系统需求的预定义运算,而且同样以服务的形式为该业务子模块提供访问接口。这样,上层业务系统可以直接使用所述业务子模块的服务接口来实现对所述统计数据的某些预定义运算,实现了对上述数据的粗粒度复用,简化了对所述数据的使用方式。
当接收到业务系统301的查询请求时,数据集市DM根据其查询需求返回其所需数据。借助于前面所提供的服务层细粒度服务层3021和粗粒度服务层3022可以分别以不同的粒度来访问数据集市所提供的数据,从而为业务系统提供丰富的再加工数据,满足了用户对网络访问数据的多种业务需求。
本发明能方便用户深入了解某一个行业、某一个网站或者某些竞争网站的访问量、访问次数、访问用户、搜搜关键词、每个搜索关键词带来的流量等各种信息,并能够以不同的粒度、高速准确地为不同的业务系统及用户呈现丰富的统计数据以发掘和展示繁杂的网络访问数据之间的内在关系,为决策部门提供翔实客观的数据支持。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种互联网信息统计方法,其特征在于,包括:
S1、按照业务主题将用户网络访问数据通过MapReduce划分成多个业务主题数据集,其中,所述用户网络访问数据为用户跨网访问数据;
S2、对每个业务主题数据集中包含的数据根据不同的指标进行统计,将各业务主题的统计数据保存起来;
S3、当接收到统计信息查询请求时,根据所述查询请求要查询的业务主题获取对应的统计数据并返回。
2.如权利要求1所述的互联网信息统计方法,其特征在于,在所述步骤S1之前还包括:预先去除网络访问数据中的无效数据;所述无效数据包括:后缀错误的域名数据,访问量小于预设阈值的域名数据。
3.如权利要求2所述的互联网信息统计方法,其特征在于,在识别无效数据时先判断是否属于黑白名单中预设的域名数据,对于白名单中的域名数据和所述域名数据的下级域名数据,始终视为有效数据,对于黑名单中的域名数据和所述域名数据的下级域名数据,始终视为无效数据。
4.如权利要求1所述的互联网信息统计方法,其特征在于,所述步骤S2中的所述将各业务主题的统计数据保存起来具体为:将所述各业务主题的统计数据保存到数据集市DM中。
5.如权利要求1所述的互联网信息统计方法,其特征在于,以服务的形式为所述步骤S2中的各业务主题的统计数据提供访问接口。
6.如权利要求5所述的互联网信息统计方法,其特征在于,利用所述服务创建至少一个业务子模块,其中封装了针对所述统计数据的预定义运算,并以服务的形式为该业务子模块提供访问接口。
7.一种互联网信息统计系统,其特征在于,包括:
数据拆分单元,按照业务主题将用户网络访问数据通过MapReduce划分成多个业务主题数据集,其中,所述用户网络访问数据为用户跨网访问数据;数据汇总单元,对每个业务主题数据集中包含的数据根据不同的指标进行统计,将各业务主题的统计数据保存起来;
数据查询单元,当接收到统计信息查询请求时,根据所述查询请求要查询的业务主题获取对应的统计数据并返回。
8.如权利要求7所述的互联网信息统计系统,其特征在于还包括:
数据预处理单元,预先去除网络访问数据中的无效数据;
所述无效数据包括:后缀错误的域名数据,访问量小于预设阈值的域名数据。
9.如权利要求8所述的互联网信息统计系统,其特征在于,在识别无效数据时先判断是否属于黑白名单中预设的域名数据,对于白名单中的域名数据和所述域名数据的下级域名数据,始终视为有效数据,对于黑名单中的域名数据和所述域名数据的下级域名数据,始终视为无效数据。
10.如权利要求7所述的互联网信息统计系统,其特征在于还包括数据集市,用于保存数据汇总单元统计得到的数据。
CN2013101274926A 2013-04-12 2013-04-12 互联网信息统计方法及系统 Pending CN103200269A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013101274926A CN103200269A (zh) 2013-04-12 2013-04-12 互联网信息统计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013101274926A CN103200269A (zh) 2013-04-12 2013-04-12 互联网信息统计方法及系统

Publications (1)

Publication Number Publication Date
CN103200269A true CN103200269A (zh) 2013-07-10

Family

ID=48722624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013101274926A Pending CN103200269A (zh) 2013-04-12 2013-04-12 互联网信息统计方法及系统

Country Status (1)

Country Link
CN (1) CN103200269A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104301182A (zh) * 2014-10-22 2015-01-21 赛尔网络有限公司 一种慢速网站访问异常信息的查询方法及装置
CN105897695A (zh) * 2016-03-25 2016-08-24 努比亚技术有限公司 一种网址白名单选择方法、终端及服务器
CN106021486A (zh) * 2016-05-18 2016-10-12 广东源恒软件科技有限公司 一种基于大数据的数据多维分析处理方法
CN106897362A (zh) * 2017-01-11 2017-06-27 中国建设银行股份有限公司 用于数据存储、查询的方法及系统
CN108446301A (zh) * 2018-01-26 2018-08-24 阿里巴巴集团控股有限公司 业务文件拆分汇总方法、装置及设备
CN110109955A (zh) * 2019-03-15 2019-08-09 平安科技(深圳)有限公司 数据调用量统计方法、系统、计算机装置及可读存储介质
CN110427438A (zh) * 2019-07-30 2019-11-08 中国工商银行股份有限公司 数据处理方法及其装置、电子设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159592A (zh) * 2007-08-10 2008-04-09 北大方正集团有限公司 互联网数据信息点击量的统计方法和装置
CN102111453A (zh) * 2011-03-04 2011-06-29 创博亚太科技(山东)有限公司 一种提取互联网用户网络行为的方法和系统
CN102289447A (zh) * 2011-06-16 2011-12-21 北京亿赞普网络技术有限公司 一种基于通讯网络报文的网站网页评价系统
CN102354315A (zh) * 2011-09-22 2012-02-15 奇智软件(北京)有限公司 一种网址导航页面生成方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159592A (zh) * 2007-08-10 2008-04-09 北大方正集团有限公司 互联网数据信息点击量的统计方法和装置
CN102111453A (zh) * 2011-03-04 2011-06-29 创博亚太科技(山东)有限公司 一种提取互联网用户网络行为的方法和系统
CN102289447A (zh) * 2011-06-16 2011-12-21 北京亿赞普网络技术有限公司 一种基于通讯网络报文的网站网页评价系统
CN102354315A (zh) * 2011-09-22 2012-02-15 奇智软件(北京)有限公司 一种网址导航页面生成方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104301182A (zh) * 2014-10-22 2015-01-21 赛尔网络有限公司 一种慢速网站访问异常信息的查询方法及装置
CN104301182B (zh) * 2014-10-22 2018-09-11 赛尔网络有限公司 一种慢速网站访问异常信息的查询方法及装置
CN105897695A (zh) * 2016-03-25 2016-08-24 努比亚技术有限公司 一种网址白名单选择方法、终端及服务器
CN106021486A (zh) * 2016-05-18 2016-10-12 广东源恒软件科技有限公司 一种基于大数据的数据多维分析处理方法
CN106897362A (zh) * 2017-01-11 2017-06-27 中国建设银行股份有限公司 用于数据存储、查询的方法及系统
CN108446301A (zh) * 2018-01-26 2018-08-24 阿里巴巴集团控股有限公司 业务文件拆分汇总方法、装置及设备
CN108446301B (zh) * 2018-01-26 2021-10-29 创新先进技术有限公司 业务文件拆分汇总方法、装置及设备
CN110109955A (zh) * 2019-03-15 2019-08-09 平安科技(深圳)有限公司 数据调用量统计方法、系统、计算机装置及可读存储介质
CN110427438A (zh) * 2019-07-30 2019-11-08 中国工商银行股份有限公司 数据处理方法及其装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN103200269A (zh) 互联网信息统计方法及系统
CN108304444B (zh) 信息查询方法及装置
CN104699718B (zh) 用于快速引入业务数据的方法和装置
CN100541495C (zh) 一种个性化搜索引擎的搜索方法
CN103620601A (zh) 在映射缩减过程中汇合表
CN108875042B (zh) 一种混合联机分析处理系统及数据查询方法
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN111258978A (zh) 一种数据存储的方法
CN103838867A (zh) 日志处理方法和装置
CN102902775B (zh) 互联网实时计算的方法和系统
CN103488680A (zh) 建立搜索引擎的组合算符
JP2019204472A (ja) Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSから複数の2MB以下の小さなファイルを読み込む方法
CN103294712A (zh) 实时热点区域推荐系统和方法
CN103390038A (zh) 一种基于HBase的构建和检索增量索引的方法
CN108509437A (zh) 一种ElasticSearch查询加速方法
EP2802979A2 (en) Processing store visiting data
CN107943952A (zh) 一种基于Spark框架进行全文检索的实现方法
CN104298785A (zh) 一种众搜资源搜索方法
CN105518644A (zh) 在地图上实时处理并显示社交数据的方法
KR20150018880A (ko) 정보 취합 분류의 디스플레이 방법 및 시스템
CN103186666A (zh) 基于收藏进行搜索的方法、装置与设备
CN105426449A (zh) 海量数据查询方法和装置、服务器
CN103853838A (zh) 一种数据处理方法和装置
CN111026709A (zh) 基于集群访问的数据处理方法及装置
CN103870510B (zh) 一种基于分布式并行处理模式的社交网络好友过滤方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130710