CN103200269A

CN103200269A - 互联网信息统计方法及系统

Info

Publication number: CN103200269A
Application number: CN2013101274926A
Authority: CN
Inventors: 余效伟; 罗峰; 黄苏支; 李娜
Original assignee: IZP (BEIJING) TECHNOLOGIES Co Ltd
Current assignee: IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority date: 2013-04-12
Filing date: 2013-04-12
Publication date: 2013-07-10

Abstract

本发明公开了一种互联网信息统计方法及其系统，方法包括：S1、按照业务主题将用户网络访问数据通过MapReduce划分成多个业务主题数据集；S2、对每个业务主题数据集中包含的数据根据不同的指标进行统计，将统计数据保存起来；S3、当接收到统计信息查询请求时，根据查询请求要查询的业务主题获取对应的统计数据并返回。本发明能方便用户深入了解某一个行业、某一个网站或者某些竞争网站的访问量、访问次数、访问用户、搜搜关键词、各搜索关键词带来的流量等信息，并能够以不同的粒度、高速准确地为不同的业务系统及用户呈现丰富的统计数据以发掘和展示繁杂的网络访问数据之间的内在关系，为决策部门提供详实客观的数据支持。

Description

互联网信息统计方法及系统

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种互联网信息统计方法及其系统。

背景技术

Alexa是互联网首屈一指的免费提供网站流量信息的公司，创建于1996年，一直致力于开发网页抓取和网站流量计算的工具。Alexa排名是目前常引用的用来评价某一网站访问量的一个指标。

Alexa的网站世界排名主要分两种：综合排名和分类排名。

综合排名也叫绝对排名，即特定的一个网站在所有网站中的名次。Alexa每三个月公布一次新的网站综合排名。此排名的依据是用户链接数（Users Reach）和页面浏览数（Page Views）三个月累积的几何平均值。

分类排名，一是按主题分类，比如新闻、娱乐、购物等，Alexa给出某个特定网站在同一类网站中的名次。二是按语言分类，目前共分20种语言，比如英文网站、中文网站[Chinese(simpl)和Chinese(trad)]等，给出特定站点在所有此类语言网站中的名次。

Alexa还会根据网民对网站的评论，在综合排名信息中，用“星”来给网站评一个等级，最高为“5星”。国内网站排名最靠前的百度，得了“三星半”。Alexa网站本身不参加排名，但是Alexa给自己的评价为4星。

但是，Alexa只能提供一个粗略的排名信息，无法提供更多的选项和界面。

发明内容

本发明的目的在于提出一种互联网信息统计方法及其系统，使得能够为不同的业务系统及用户以不同的粒度、高速准确地提供丰富的网络访问数据，为决策部门提供翔实客观的数据支持。

为达此目的，本发明采用以下技术方案：

一种互联网信息统计方法，其特征在于，包括：

S1、按照业务主题将用户网络访问数据通过MapReduce划分成多个业务主题数据集，其中，所述用户网络访问数据为用户跨网访问数据；

S2、对每个业务主题数据集中包含的数据根据不同的指标进行统计，将各业务主题的统计数据保存起来；

S3、当接收到统计信息查询请求时，根据所述查询请求要查询的业务主题获取对应的统计数据并返回。

进一步地，在步骤S1之前还包括：

预先去除网络访问数据中的无效数据。

进一步地，所述无效数据包括：后缀错误的域名数据，访问量小于预设阈值的域名数据。

进一步地，在识别无效数据时先判断是否属于黑白名单中预设的域名数据，对于白名单中的域名数据和所述域名数据的下级域名数据，始终视为有效数据，对于黑名单中的域名数据和所述域名数据的下级域名数据，始终视为无效数据。

进一步地，以服务的形式为步骤S2中的各业务主题的统计数据提供访问接口。

进一步地，利用所述服务创建至少一个业务子模块，其中封装了针对所述统计数据的预定义运算，并以服务的形式为该业务子模块提供访问接口。

根据本发明的同一构思，本发明还提供了一种互联网信息统计系统，包括：

一种互联网信息统计系统，其特征在于，包括：

数据拆分单元，按照业务主题将用户网络访问数据通过MapReduce划分成多个业务主题数据集，其中，所述用户网络访问数据为用户跨网访问数据；

数据汇总单元，对每个业务主题数据集中包含的数据根据不同的指标进行统计，将各业务主题的统计数据保存起来；

数据查询单元，当接收到统计信息查询请求时，根据所述查询请求要查询的业务主题获取对应的统计数据并返回。

进一步地，所述系统还包括：

数据预处理单元，预先去除网络访问数据中的无效数据。

进一步地，所述系统还包括：

数据集市，保存数据汇总单元统计得到的数据。

进一步地，所述系统还包括：

第一服务单元，以服务的形式为数据汇总单元统计得到的各业务主题的统计数据提供访问接口。

进一步地，所述系统还包括：

第二服务单元，利用所述第一服务单元提供的服务创建至少一个业务子模块，其中封装了针对所述统计数据的预定义运算，并以服务的形式为该业务子模块提供访问接口。

本发明能方便用户深入了解某一个行业、某一个网站或者某些竞争网站的访问量、访问次数、访问用户、搜搜关键词、每个搜索关键词带来的流量等各种信息，并能够以不同的粒度、高速准确地为不同的业务系统及用户呈现丰富的统计数据以发掘和展示繁杂的网络访问数据之间的内在关系，为决策部门提供翔实客观的数据支持。

附图说明

图1是本发明具体实施例一所述的互联网信息统计方法流程图；

图2是本发明具体实施例二所述的互联网信息统计系统结构框图；

图3是本发明具体实施例三所述的基于分布式数据处理架构Handoop实现的互联网信息统计系统结构图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

实施例一

图1是本实施例所述的互联网信息统计方法流程图，如图1所示，本实施例所述互联网信息统计方法包括：

S101、将网络访问数据划分成多个业务主题数据集。

在该步骤中，按照业务主题将网络访问数据通过MapReduce划分成多个业务主题数据集。所述网络访问数据包括用于进行数据分析的全网流量数据IMOS日志数据，这些海量数据存储在大型分布式存储系统ODS中。对海量数据进行高速的划分处理正是MapReduce数据处理机制所擅长的，该数据处理机制能够在很短的时间内将大量的数据通过分布式并行计算的方式划分为不同的数据集，因此，本发明采用MapReduce机制来执行网络访问数据的划分工作。另外，为了契合上层业务系统的数据需求，本发明按照多个业务主题对所述网络访问数据进行划分，用不同的子数据库分别存储各主题下的数据，从而形成多个不同业务主题的数据集，为上层系统提供经过初步划分的数据。其中，所述业务主题可以包括但不限于：访问量、访问时间、网站分析信息等。经过上述MapReduce处理后，不仅去除了大量重复数据，而且对数据进行了基本的分类，极大地减少了数据总量并使得数据汇总单元DWA对数据的访问更加高效和便利。

另外，海量的原始网络访问数据中通常会包含大量的无效数据，为了将目标数据限定在用户真正需要和关心的数据范围内，在步骤S101之前还可以预先去除原始网络访问数据中的无效数据。可以根据实际的业务需求来定义无效数据的判断准则，例如可以是后缀错误的域名数据，访问量小于预设阈值的域名数据等。进一步地还可以设置例外情况处理机制，对于某些符合上述判断准则的无效数据有时并不希望被过滤掉，那么可以通过设置白名单的方式来保留，即，在识别无效数据时先判断是否属于黑白名单中预设的域名数据，对于白名单中的域名数据和所述域名数据的下级域名数据，始终视为有效数据，对于黑名单中的域名数据和所述域名数据的下级域名数据，始终视为无效数据。

。通过这一预处理方式大幅地减少了实际需要处理的数据量，从而进一步提升了数据的处理效率。

S102、对各业务主题数据集中的数据进行统计并保存。

在该步骤中，对每个业务主题数据集中包含的数据根据不同的指标进行统计，然后将各业务主题的统计数据保存起来供上层业务系统使用。为了进一步提高数据处理效率，给上层业务的复杂运算迅速地提供尽可能贴近其需求的数据，本发明中根据实际的业务需求，按照不同的指标对经过步骤S101处理后的各业务主题数据集进行统计，将统计得到的结果保存起来，通过这样预先的处理，当上层业务系统需要这些数据时，可以直接访问，无需现场进行计算。而且，在选择统计指标时选择那些尽可能多的业务系统共同需要的指标，这样可以大量地减少重复计算，提高数据的利用率以及整体的处理效率。

另外，可以将所述统计数据保存至数据集市DM中。数据集市(Data Mart)，简称为DM，是数据仓库(DW)的一个专有版本。尽管一个数据仓库联合数据库遍及整个企业，数据集市通常更小和集中在一个特定的部门。数据集市包括针对底层数据经过一定业务预处理的数据快照，更加贴近于上层业务的需求。数据集市使一个关系型数据库来仿效一个多维数据库的解析功能,可以实现对相关信息的轻松访问。

进一步地，为了方便外部系统对步骤S2中统计后的数据进行访问，可以以服务的方式为上述数据提供访问接口，从而为不同的业务系统提供细粒度的复用途径。

进一步地，为了给不同的业务系统提供更贴近其需求的数据，简化业务系统对上述统计数据的使用方式，还可以利用上述细粒度的服务接口创建至少一个业务子模块，该业务子模块中封装了针对所述统计数据的更加贴近上层业务系统需求的预定义运算，而且同样以服务的形式为该业务子模块提供访问接口。这样，上层业务系统可以直接使用所述业务子模块的服务接口来实现对所述统计数据的某些预定义运算，实现了对上述数据的粗粒度复用，简化了对所述数据的使用方式。

S103、响应查询请求返回统计数据。

当接收到统计信息查询请求时，根据所述查询请求要查询的业务主题获取对应的统计数据并返回。在获取所述统计数据时可以利用前面所提供的不同粒度的服务访问接口，为业务系统提供丰富的再加工数据，满足了用户对网络访问数据的多种业务需求。

实施例二

根据本发明的同一构思，本发明还提供了一种互联网信息统计系统，图2是本实施例所述的互联网信息统计结构框图，如图2所示，该系统包括：数据拆分单元201、数据汇总单元202、以及数据查询单元203。

其中，数据拆分单元201按照业务主题将网络访问数据通过MapReduce划分成多个业务主题数据集。所述网络访问数据包括用于进行数据分析的全网流量数据IMOS日志数据，这些海量数据存储在大型分布式存储系统ODS中。对海量数据进行高速的划分处理正是MapReduce数据处理机制所擅长的，该数据处理机制能够在很短的时间内将大量的数据通过分布式并行计算的方式划分为不同的数据集，因此，本发明采用MapReduce机制来执行网络访问数据的划分工作。另外，为了契合上层业务系统的数据需求，本发明按照多个业务主题对所述网络访问数据进行划分，用不同的子数据库分别存储各主题下的数据，从而形成多个不同业务主题的数据集，为上层系统提供经过初步划分的数据。其中，所述业务主题可以包括但不限于：访问量、访问时间、网站分析信息等。经过上述MapReduce处理后，不仅去除了大量重复数据，而且对数据进行了基本的分类，极大地减少了数据总量并使得数据汇总单元对数据的访问更加高效和便利。

另外，海量的原始网络访问数据中通常会包含大量的无效数据，为了将目标数据限定在用户真正需要和关心的数据范围内，在该划分操作之前还可以预先去除原始网络访问数据中的无效数据。可以根据实际的业务需求来定义无效数据的判断准则，例如可以是后缀错误的域名数据，访问量小于预设阈值的域名数据等。进一步地还可以设置例外情况处理机制，对于某些符合上述判断准则的无效数据有时并不希望被过滤掉，那么可以通过设置白名单的方式来保留，即，在识别无效数据时先判断是否属于黑白名单中预设的域名数据，对于白名单中的域名数据和所述域名数据的下级域名数据，始终视为有效数据，对于黑名单中的域名数据和所述域名数据的下级域名数据，始终视为无效数据。在本实施例的一个优选实施方式中，所述黑白名单均存储一级域名，对于白名单中的域名数据和所述域名数据的下级域名数据，均视为有效数据，对于黑名单中的域名数据和所述域名数据的下级域名数据，均视为无效数据。通过这一预处理方式大幅地减少了实际需要处理的数据量，从而进一步提升了数据的处理效率。

数据汇总单元202，对每个业务主题数据集中包含的数据根据不同的指标进行统计，然后将各业务主题的统计数据保存起来供上层业务系统使用。为了进一步提高数据处理效率，给上层业务的复杂运算迅速地提供尽可能贴近其需求的数据，本发明中根据实际的业务需求，按照不同的指标对经过数据划分单元处理后的各业务主题数据集进行统计，将统计得到的结果保存起来，通过这样预先的处理，当上层业务系统需要这些数据时，可以直接访问，无需现场进行计算。而且，在选择统计指标时选择那些尽可能多的业务系统共同需要的指标，这样可以大量地减少重复计算，提高数据的利用率以及整体的处理效率。

另外，所述系统还可以进一步包括数据集市，并将所述统计数据保存至数据集市DM中。数据集市(Data Mart)，简称为DM，是数据仓库(DW)的一个专有版本。尽管一个数据仓库联合数据库遍及整个企业，数据集市通常更小和集中在一个特定的部门。数据集市包括针对底层数据经过一定业务预处理的数据快照，更加贴近于上层业务的需求。数据集市使一个关系型数据库来仿效一个多维数据库的解析功能,可以实现对相关信息的轻松访问。

进一步地，为了方便外部系统对数据汇总单元统计后的数据进行访问，所述系统还可以包括第一服务单元，以服务的方式为上述数据提供访问接口，从而为不同的业务系统提供细粒度的复用途径。

更进一步，为了给不同的业务系统提供更贴近其需求的数据，简化业务系统对上述统计数据的使用方式，所述系统还可以包括第二服务单元，以利用上述细粒度的服务接口创建至少一个业务子模块，该业务子模块中封装了针对所述统计数据的更加贴近上层业务系统需求的预定义运算，而且同样以服务的形式为该业务子模块提供访问接口。这样，上层业务系统可以直接使用所述业务子模块的服务接口来实现对所述统计数据的某些预定义运算，实现了对上述数据的粗粒度复用，简化了对所述数据的使用方式。

数据查询单元203，当接收到统计信息查询请求时，根据所述查询请求要查询的业务主题获取对应的统计数据并返回。在获取所述统计数据时可以利用前面所提供的不同粒度的服务访问接口，为业务系统提供丰富的再加工数据，满足了用户对网络访问数据的多种业务需求。

实施例三

本发明还提供了基于分布式数据处理架构Handoop实现的互联网信息统计系统，如图3所示，该系统主要包括上层的业务系统301、服务层302、数据集市(DM)303、数据仓库(DW)304、分布式存储系统(ODS)305。其中，数据集市DM基于HBASE实现，数据仓库DW基于HIVE实现，分布式存储系统ODS基于HDFS实现。

接下来介绍其数据处理过程。首先，从外部将网络访问数据IMOS导入存储系统ODS，然后从ODS中将数据通过ETL的方式提取到数据仓库DW中。ETL全称为Extraction-Transformation-Loading,即数据提取、转换和加载。可以实现ETL的工具有：OWB(Oracle Warehouse Builder)、ODI(Oracle DataIntegrator)、Informatic PowerCenter、AICloudETL、DataStage、RepositoryExplorer、Beeload、Kettle、DataSpider等。

所述数据仓库DW还包括两个数据处理单元：数据拆分单元(DWD)3041、数据汇总单元(DWA)3042，其中，为了契合上层业务系统的数据需求，数据拆分单元DWD按照多个业务主题对所述网络访问数据进行划分，用不同的子数据库分别存储各主题下的数据，从而形成多个不同业务主题的数据集，为数据汇总单元DWA提供经过初步划分的数据。其中，所述划分基于MapReduce机制来实现，该数据处理机制能够在很短的时间内将大量的数据通过分布式并行计算的方式划分为不同的数据集，本发明的海量数据处理正是MapReduce所擅长的。另外，所述业务主题可以包括但不限于：访问量、访问时间、网站分析信息等。经过上述MapReduce处理后，不仅去除了大量重复数据，而且对数据进行了基本的分类，极大地减少了数据总量并使得数据汇总单元DWA对数据的访问更加高效和便利。

在实际应用中还有一点不容忽视，海量的原始网络访问数据中通常会包含大量的无效数据，为了将目标数据限定在用户真正需要和关心的数据范围内，在所述划分操作之前还可以预先去除原始网络访问数据中的无效数据。可以根据实际的业务需求来定义无效数据的判断准则，例如可以是后缀错误的域名数据，访问量小于预设阈值的域名数据等。进一步地还可以设置例外情况处理机制，对于某些符合上述判断准则的无效数据有时并不希望被过滤掉，那么可以通过设置白名单的方式来保留，即，对于白名单中的域名数据始终视为有效数据；而对于某些即使是有效的数据有时也希望被过滤掉，那么可以通过设置黑名单的方式来强制过滤掉，即对于黑名单中的域名数据始终视为无效数据。在本实施例的一个优选实施方式中，所述黑白名单均存储一级域名，对于白名单中的域名下的下级域名数据，均视为有效数据，对于黑名单中的域名下的下级域名数据，均视为无效数据。在本实施例的一个优选实施方式中，所述黑白名单均存储一级域名，对于白名单中的域名数据和所述域名数据的下级域名数据，均视为有效数据，对于黑名单中的域名数据和所述域名数据的下级域名数据，均视为无效数据。

通过这一预处理方式大幅地减少了实际需要处理的数据量，从而进一步提升了数据的处理效率。

另外，数据汇总单元(DWA)3042对每个业务主题数据集中包含的数据根据不同的指标进行统计，然后将各业务主题的统计数据保存起来供上层业务系统使用。为了进一步提高数据处理效率，给上层业务的复杂运算迅速地提供尽可能贴近其需求的数据，本发明中根据实际的业务需求，按照不同的指标对经过数据拆分单元(DWD)3041划分处理后的各业务主题数据集进行统计，将统计得到的结果保存起来，通过这样预先的处理，当上层业务系统需要这些数据时，可以直接访问，无需现场进行计算。而且，在选择统计指标时选择那些尽可能多的业务系统共同需要的指标，这样可以大量地减少重复计算，提高数据的利用率以及整体的处理效率。

在数据汇总单元DWA对数据统计完成之后，可以将所述统计数据保存至数据集市DM中。数据集市DM(Data Mart)，简称为DM，是数据仓库(DW)的一个专有版本。尽管一个数据仓库联合数据库遍及整个企业，数据集市通常更小和集中在一个特定的部门。数据集市包括针对底层数据经过一定业务预处理的数据快照，更加贴近于上层业务的需求。数据集市使一个关系型数据库来仿效一个多维数据库的解析功能,可以实现对相关信息的轻松访问。

进一步地，为了方便外部系统对数据汇总单元DWA统计后的数据进行访问，可以在DM之上增加一个细粒度服务层3021，以服务的方式为上述数据提供访问接口，从而为不同的业务系统提供细粒度的复用途径。

进一步地，为了给不同的业务系统提供更贴近其需求的数据，简化业务系统对上述统计数据的使用方式，还可以在上述细粒度服务层之上增加一个粗粒度服务层3022。在服务层302中，利用上述细粒度的服务接口创建至少一个业务子模块，该业务子模块中封装了针对所述统计数据的更加贴近上层业务系统需求的预定义运算，而且同样以服务的形式为该业务子模块提供访问接口。这样，上层业务系统可以直接使用所述业务子模块的服务接口来实现对所述统计数据的某些预定义运算，实现了对上述数据的粗粒度复用，简化了对所述数据的使用方式。

当接收到业务系统301的查询请求时，数据集市DM根据其查询需求返回其所需数据。借助于前面所提供的服务层细粒度服务层3021和粗粒度服务层3022可以分别以不同的粒度来访问数据集市所提供的数据，从而为业务系统提供丰富的再加工数据，满足了用户对网络访问数据的多种业务需求。

以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现，其软件程序存储在可读取的存储介质中，存储介质例如：计算机中的硬盘、光盘或软盘。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种互联网信息统计方法，其特征在于，包括：

2.如权利要求1所述的互联网信息统计方法，其特征在于，在所述步骤S1之前还包括：预先去除网络访问数据中的无效数据；所述无效数据包括：后缀错误的域名数据，访问量小于预设阈值的域名数据。

3.如权利要求2所述的互联网信息统计方法，其特征在于，在识别无效数据时先判断是否属于黑白名单中预设的域名数据，对于白名单中的域名数据和所述域名数据的下级域名数据，始终视为有效数据，对于黑名单中的域名数据和所述域名数据的下级域名数据，始终视为无效数据。

4.如权利要求1所述的互联网信息统计方法，其特征在于，所述步骤S2中的所述将各业务主题的统计数据保存起来具体为：将所述各业务主题的统计数据保存到数据集市DM中。

5.如权利要求1所述的互联网信息统计方法，其特征在于，以服务的形式为所述步骤S2中的各业务主题的统计数据提供访问接口。

6.如权利要求5所述的互联网信息统计方法，其特征在于，利用所述服务创建至少一个业务子模块，其中封装了针对所述统计数据的预定义运算，并以服务的形式为该业务子模块提供访问接口。

7.一种互联网信息统计系统，其特征在于，包括：

数据拆分单元，按照业务主题将用户网络访问数据通过MapReduce划分成多个业务主题数据集，其中，所述用户网络访问数据为用户跨网访问数据；数据汇总单元，对每个业务主题数据集中包含的数据根据不同的指标进行统计，将各业务主题的统计数据保存起来；

8.如权利要求7所述的互联网信息统计系统，其特征在于还包括：

数据预处理单元，预先去除网络访问数据中的无效数据；

所述无效数据包括：后缀错误的域名数据，访问量小于预设阈值的域名数据。

9.如权利要求8所述的互联网信息统计系统，其特征在于，在识别无效数据时先判断是否属于黑白名单中预设的域名数据，对于白名单中的域名数据和所述域名数据的下级域名数据，始终视为有效数据，对于黑名单中的域名数据和所述域名数据的下级域名数据，始终视为无效数据。

10.如权利要求7所述的互联网信息统计系统，其特征在于还包括数据集市，用于保存数据汇总单元统计得到的数据。