Nothing Special   »   [go: up one dir, main page]

CN109995834A - 大流量数据处理方法、装置、计算设备及存储介质 - Google Patents

大流量数据处理方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN109995834A
CN109995834A CN201711498056.4A CN201711498056A CN109995834A CN 109995834 A CN109995834 A CN 109995834A CN 201711498056 A CN201711498056 A CN 201711498056A CN 109995834 A CN109995834 A CN 109995834A
Authority
CN
China
Prior art keywords
user
resource
phone number
access
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711498056.4A
Other languages
English (en)
Inventor
刘晓斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Guizhou Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Guizhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Guizhou Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201711498056.4A priority Critical patent/CN109995834A/zh
Publication of CN109995834A publication Critical patent/CN109995834A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/53Network services using third party service providers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例公开了一种大流量数据处理方法、装置、计算设备及存储介质,方法包括:基于用户历史访问日志,对于各IP,分别统计预定历史时间段内各子时间段访问所述IP的手机号数量;计算各子时间段访问各IP手机号数量的方差,将方差大于第一预定阈值的作为待观察IP;基于每个待观察IP下手机号与访问时间的相关系数以及/或者登陆成功率,识别作弊用户。通过上述方案,能够实时发现作弊用户,提高用户订单的处理效率,以及提升用户的访问速度。

Description

大流量数据处理方法、装置、计算设备及存储介质
技术领域
本发明涉及互联网业务支撑技术领域,尤其涉及一种大流量数据处理方法、装置、计算设备及存储介质。
背景技术
目前互联网营销手段,不论是团购、秒杀、抽奖,或是其它的优惠活动,都存在资源是有限而需求是无限的共同点,都会面临的高并发和大流量的用户访问请求。往往此类活动是短期,用户的访问流量和并发数将是平时的成千上万倍,任何一个生产系统不可能为了一个短期活动储备这么多服务器、网络资源。对于网络、中间件、数据库、应用来说,这一个巨大的挑战。
目前针对高并发大流量的处理方案有:实时处理方式,用户所有请求全部进入web服务器,用户的流量控制和并发控制交由web中间件进行处理。这种方式易出现因网络堵塞、系统资源瞬时占用过高、系统阻塞、系统挂死等问题。异步处理方式,系统只负责收集用户请求,用户请求收集上来后,另外一个进程队列负责处理商品资源的订购处理。这种方式一定程度上减少了系统峰值资源的消耗,减少了页面响应缓慢、报错的机率。但效率非常低,用户等待时间过长,易造成暗箱操作的不良用户感知,网络堵塞仍无法解决。
以上两种方案都无法对作弊请求进行处理。
发明内容
由于现有技术处理大流量数据无法对作弊请求进行处理,本发明实施例提供了一种大流量数据处理方法、装置、计算设备及存储介质,能够实时发现作弊用户,提高用户订单的处理效率,以及提升用户的访问速度。
第一方面,本发明实施例提供了一种大流量数据处理方法,方法包括:
基于用户历史访问日志,对于各IP,分别统计预定历史时间段内各子时间段访问所述IP的手机号数量;
计算各子时间段访问各IP手机号数量的方差,将方差大于第一预定阈值的作为待观察IP;
基于每个待观察IP下手机号与访问时间的相关系数以及/或者登陆成功率,识别作弊用户。
第二方面,本发明实施例提供了一种大流量数据处理装置,装置包括:统计模块、计算模块和识别模块。
统计模块可以基于用户历史访问日志,对于各IP,分别统计预定历史时间段内各子时间段访问所述IP的手机号数量。
计算模块可以计算各子时间段访问各IP手机号数量的方差,将方差大于第一预定阈值的作为待观察IP。
识别模块可以基于每个待观察IP下手机号与访问时间的相关系数以及/或者登陆成功率,识别作弊用户。
第三方面,本发明实施例提供了一种计算设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
本发明实施例提供的大流量数据处理方法、装置、计算设备及存储介质,通过算法度量,能够实时发现作弊用户,通过分布式消息队列处理机制,提高了用户订单的处理效率,以及通过动态资源和静态资源分离部署,提升了用户的访问速度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明一实施例的大流量数据处理方法的示意性流程图;
图2示出了根据本发明一实施例的作弊用户识别的示意性流程图;
图3示出了根据本发明一实施例的分布式缓存队列分配的示意图;
图4示出了根据本发明一实施例的大流量数据处理装置的示意性结构框图;
图5示出了本发明实施例提供的计算设备的硬件结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
针对用户大流量高并发访问的处理无法对识别作弊请求的问题,既占用系统资源也影响公平性。而现有电商的成熟解决方案,其系统架构和规模非常庞大,其核心模型或处理机制并未公开。本发明提供一种大流量数据处理方案,图1示出了根据本发明一实施例的大流量数据处理方法的示意性流程图。
如图1所示,在步骤S100中可以基于用户历史访问日志,对于各IP,分别统计预定历史时间段内各子时间段访问所述IP的手机号数量。
在电信运营商的各类活动中,恶意进行活动的一般是代理商,可以取用户的手机号码和IP地址作为关键数字,使用算法识别是否为代理商恶意进行秒杀。
例如,可以统计IP访问的手机号的数量,通过方差公式,对一段历史时间内同一IP登陆的手机号数量进行计算,得到方差值,大于预定的方差值的,列入待观察清单。其中,可以根据访问IP手机号的数量来调整预定历史时间的长度,当访问IP手机号的数量较少可以适当增加统计时间长度,当访问IP手机号数量较多可以适当缩短统计时间的长度。可以将统计时间段分成多个子时间段,分别统计各子时间段内访问IP的手机号数量。
在步骤S200中可以计算各子时间段访问各IP手机号数量的方差,将方差大于第一预定阈值的作为待观察IP。
其中,方差反映数据的离散程度,离散值越大表示访问该IP的手机号数量越不稳定。方差公式可以如下所示,首先计算各IP被访问手机号数量的平均值:
其中,n表示这组数据个数,x1、x2、x3……xn表示手机号数量,则方差为:
计算获得各IP被访问手机号数量的方差,将方差大于预定阈值的IP作为待观察IP。
在步骤S300中可以基于每个待观察IP下手机号与访问时间的相关系数以及/或者登陆成功率,识别作弊用户。
根据本发明一实施例,可以计算预定历史时间段内访问待观察IP的手机号及其访问时间之间的皮尔逊相关系数,作为待观察IP下手机号与访问时间的相关系数。皮尔逊相关系数并不是唯一的相关系数,但是最常见的相关系数。
其中,皮尔逊相关系数是用于度量两个变量X和Y之间的线性相关,其值介于-1与1之间。其中,两个变量之间是线性关系,都是连续数据;两个变量的总体是正态分布,或接近正态的单峰分布,且两个变量的观测值是成对的,每对观测值之间相互独立。例如手机号和时间可以成对出现,一个手机号码对应于该手机号的访问时间。
可以统计同一个IP下手机号和时间的相关性(phone,time),设为X,使用皮尔逊相关系数将数据归一化(数据减去其对应均值)后进行cosine相似度计算。相关系数也可以被视作由两个随机变量向量夹角的余弦值,即cosine余弦相似度。皮尔逊相关系数可由下述公式计算:
其中,Corr(x,y)表示相关系数,xi表示某一时间访问IP的手机号,yi表示该手机号访问IP的时间,分别为xi和yi的样本均值。一般来说,取绝对值后,相关系数0-0.09表示没有相关性,0.1-0.3为弱相关,0.3-0.5为中等相关,0.5-1.0为强相关。可以将相关系数大于第二阈值的待观察IP用户视为作弊用户。第二阈值可视具体情况而定。
根据本发明一实施例,该方法还可以包括:通过k-均值聚类算法,对预定历史时间段内登陆次数较大的IP的成功率进行聚类,确定第三阈值。
聚类分析又称群分析,它是研究样品或指标分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。k-means(K-均值)算法的过程一般包括:
首先从n个数据对象任意选择k个对象作为初始聚类中心,而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的聚类。然后再计算每个所获新聚类的聚类中心,不断重复这一过程直到标准测度函数开始收敛为止。各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
例如,可以统计待观察清单内IP的登陆成功率,再在上述相关系数的基础上叠加登陆成功率(设为Y)作为二维判定值(X,Y),登陆成功率使用k-均值聚类算法,通过k-均值聚类对一定时间内登陆次数较大IP的成功率进行聚类后得,可以得到绝大部分的登陆成功率大于90%。由此可以通过(X,Y)设定第三阈值,通过此阈值判定用户是否为作弊用户。
根据本发明一实施例,该方法还可以包括:将作弊用户列入黑名单,当用户请求访问时,判断用户是否在黑名单中。
其中,作弊用户可以是通过上述算法确定的用户的手机号也可以是该用户手机号对应的IP。图2示出了根据本发明一实施例的作弊用户识别的示意性流程图。如图2所示,通过流处理引擎对用户历史访问数据流进行作弊识别,将作弊用户写入黑名单,当用户访问时判断用户是否在黑名单中,如果在黑名单中则拒绝该用户的请求,如果不在则通过访问请求。
上述方案使用了多种算法来度量是否为作弊用户,通过一段时间的数据收集,结合流处理引擎,可以实时发现作弊用户,判断用户是否为作弊用户,而不用等到事后在进行分析。
用户访问秒杀页面,互联网营销的用户访问流量主要有两个方面,一个是用户浏览活动页面、一个是用户进行活动订购,两个流量对比约为3:1。用户访问流量可以从动态资源和静态资源两个方面入手,实现动静资源分离部署。
根据本发明一实施例,该方法还可以包括:方法还包括:
基于预设规则库,将开发人员上传的部署包区分为动态资源和静态资源。开发人员部署时,可以上传整个部署包,程序自动解压部署包,根据预定规则判定哪些是静态资源,哪些是动态资源,并生成标识表。
其中,预设的规则库可以定义静态文件规则(后缀名),定义需要加工的内容,如缓存日期、压缩规则、头文件业务规则等。可以将涉及与后台服务交互的模块作为动态资源,其余的如活动内容页面、活动中间过程、活动结束等内容作为静态资源。
可以对静态资源和动态资源分离资源部署接口,重新打包,形成新的部署资源。分离时程序可以根据标识表,对静态资源和动态资源进行文件部署接口分离,重新打包,形成新的部署包。
可以基于新的部署资源,按照预定规则库,加工静态资源,压缩成新的部署包。对于静态资源,可以进行进一步加工,对文件头,根据规则库定义,可以加上有效期、压缩规则、静态资源业务规则等,再压缩形成新的部署包。
可以根据部署包的类型将动态资源和静态资源分别部署到动态服务器和静态服务器。
根据本发明一实施例,可以通过CDN服务器对静态资源进行部署,其中,CDN服务器的域名服务系统根据用户所在域名的ISP(互联网服务提供商)、地理位置,为用户分配服务器IP地址。
其中,CDN服务器为内容分发网络服务器,可以将源服务器上的静态内容定期同步到CDN服务器上,解析给用户最优的CDN服务器IP地址,使其能够通过CDN多点落地的高速内容分发网络来访问就近的静态服务器站点。加上协议优化以及数据压缩等技术,可以实现静态资源的高速传输。用户大部分的流量在CDN网络中处理完成,用户请求不必全部到达后台服务器,可以减少对网络带宽和服务器的压力。这样将绝大部分的流量分布到互联网的CDN服务器上,可以减少源服务器90%的流量。
通过以上动静分离和流量过滤后,用户访问流量仍然为平时访问量的数十倍以上,而一个Web服务的的QPS(Query Per Second,每秒处理请求数),每秒处理请求数可以达到1千左右。
为了进一步提升系统的处理速度和效率,将资源数据、会话数据、用户数据、高速页面缓存、系统配置信息、规则校验等等的数据通过redis(Key-Value数据库)进行分布式缓存。
根据本发明一实施例,该方法还可以包括:使用一致性哈希算法对用户访问请求进行分布式缓存队列分配。
一致性哈希算法一般包括:首先求出服务器(节点)的哈希值,并将其配置到0~232的圆上。然后采用同样的方法求出存储数据的键的哈希值,并映射到相同的圆上。然后从数据映射到的位置开始顺时针查找,将数据保存到找到的第一个服务器上。如果超过232仍然找不到服务器,就会保存到第一台服务器上。一致性hash算法在移除/添加一个cache时,能够尽可能小的改变已存在key映射关系,尽可能的满足单调性的要求。
根据本发明一实施例,可以使用一致性哈希算法基于用户的手机号码获取哈希值,基于哈希值和服务器的计算节点个数,得到对应于手机号码的计算节点。
当客户端有用户请求进来时,用户的请求先进入缓存池,分配队列的线程从缓存池依次取出数据进行队列分配。可以通过一致性哈希算法对手机号计算哈希值,再根据服务器的计算节点数,求余数(hash(phonenamber)%nodes(service))得到缓存节点,并将请求号码放入对应的缓存队列。
将用户的手机号码放入与所述计算节点对应的缓存队列,其中所述缓存队列的个数与所述计算节点个数相同。
这样的处理方式更加简单,计算节点与缓存队列个数相同,图3示出了根据本发明一实施例的分布式缓存队列分配的的示意图。
如图3所示,每个缓存队列都是一式三份,一个主队列两个从队列,每个计算节点都是一式三份,一个主节点两个从节点。由于每个缓存队列上的计算节点已经固定,这些业务计算节点是负责这个缓存队列上的数据的处理,这样大大的简化的系统的设计和代码量,每个缓存队列和计算节点有两个备份,确保这条生产线的高可用。业务节点处理完成后在数据后面打上标识,下一个计算节点接着处理,待所有的标识完成后,移出队列。
根据本发明一实施例,该方法还可以包括:方法还包括:监控各缓存队列中的队列数据积压量,当缓存队列中的队列数据积压量达到预定数量时,对缓存队列和计算节点进行健康性检查。
其中,监控队列可以分为队列监控子程序、计算节点监控子程序、队列数据监控子程序,当监控到队列数据积压量大时,启动队列监控子程序、计算节点监控子程序对队列和计算节点的健康性进行检查,对有问题的进程进行替换和重启。以便确保应用的高可用。
分布式消息队列处理方案可以为多处多线程处理和消息队列提供分布式的解决方案,例如,在多线程排队机制中可以将用户所有请求划分到多个队列,进行并行处理。通过多线程排队并发机制,部署多个服务,同一个服务启用多个线程队列,可实现多并发处理,先进先出方式,处理用户请求。
此外,在并发访问控制中通过多线程并行处理,提高了速度,带来了资源抢夺的问题,可靠的方式是采用悲观锁机制进行资源控制,每次修改时都要锁定,当多个并发同时修改资源时需要等待资源锁释放,这种方式非常安全,不会导致商品的超卖。但这种方式效果非常低,在本提案中采用乐观锁思路,也就是说同一份数据所有请求都有资格去修改,但会获得一个该数据的版本号,只有版本号符合的才能更新成功,其他需要重新获取版本进行修改。这样既可以确保资源的安全,也提高了数据更新的效率。
图4示出了根据本发明一实施例的大流量数据处理装置的示意性结构框图。如图4所示,该装置400可以包括:统计模块410、计算模块420和识别模块430。
统计模块420可以基于用户历史访问日志,对于各IP,分别统计预定历史时间段内各子时间段访问所述IP的手机号数量。
计算模块420可以计算各子时间段访问各IP手机号数量的方差,将方差大于第一预定阈值的作为待观察IP。
识别模块430可以基于每个待观察IP下手机号与访问时间的相关系数以及/或者登陆成功率,识别作弊用户。
根据本发明一实施例,该装置400还可以包括:列入模块和判断模块。
列入模块可以将作弊用户列入黑名单。
判断模块可以在用户请求访问时,判断用户是否在黑名单中。
根据本发明一实施例,该装置400还可以包括:计算模块。
计算模块可以计算预定历史时间段内访问待观察IP的手机号及其访问时间之间的皮尔逊相关系数,作为待观察IP下手机号与访问时间的相关系数,将相关系数大于第二阈值的待观察IP用户视为作弊用户。
根据本发明一实施例,该装置400还可以包括:聚类模块。
聚类模块可以通过k-均值聚类算法,对预定历史时间段内登陆次数较大的IP的成功率进行聚类,确定第三阈值,将登陆成功率大于第三阈值的待观察IP用户视为作弊用户。
根据本发明一实施例,该装置400还可以包括:分配模块。
分配模块可以使用一致性哈希算法对用户访问请求进行分布式缓存队列分配。
根据本发明一实施例,分配模块可以包括:获取单元、得到单元和放入单元。
获取单元可以使用一致性哈希算法基于用户的手机号码获取哈希值。
得到单元可以基于哈希值和服务器的计算节点个数,得到对应于手机号码的计算节点。
放入单元可以将用户的手机号码放入与计算节点对应的缓存队列,其中缓存队列的个数与计算节点个数相同。
根据本发明一实施例,分配模块还可以包括:监控单元和检查单元。
监控单元可以监控各缓存队列中的队列数据积压量。
检查单元可以在缓存队列中的队列数据积压量达到预定数量时,对缓存队列和计算节点进行健康性检查。
根据本发明一实施例,该装置400还可以包括:区分模块、分离打包模块、加工模块和部署模块。
区分模块可以基于预设规则库,将开发人员上传的部署包区分为动态资源和静态资源。
分离打包模块可以对静态资源和动态资源分离资源部署接口,重新打包,形成新的部署资源。
加工模块可以基于新的部署资源,按照预定规则库,加工静态资源,压缩成新的部署包。
部署模块可以根据部署包的类型将动态资源和静态资源分别部署到动态服务器和静态服务器。
上述方案使用了多种算法来度量是否为作弊用户,通过一段时间的数据收集,结合流处理引擎,可以实时发现作弊用户,得到用户是否为作弊用户,而不用等到事后在进行分析。通过分布式的消息队列的并行处理机制,大大提高了用户订单的处理效率,提升系统的可用性。
通过自动化的动静分离部署,减少了程序员的开发部署工作量,提升业务更新的速度,利用CDN网络,大大提升了用户的访问速度,大大减少服务器的压力,减少网络带宽和系统资源消耗。
另外,结合图1描述的本发明实施例的大流量数据处理方法可以由计算设备来实现。图5示出了本发明实施例提供的计算设备的硬件结构示意图。
计算设备可以包括处理器501以及存储有计算机程序指令的存储器502。
具体地,上述处理器501可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在数据处理装置的内部或外部。在特定实施例中,存储器502是非易失性固态存储器。在特定实施例中,存储器502包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现上述实施例中的任意一种大流量数据处理方法。
在一个示例中,计算设备还可包括通信接口503和总线510。其中,如图5所示,处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。
通信接口503,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线510包括硬件、软件或两者,将计算设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
另外,结合上述实施例中的大流量数据处理方法,本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种大流量数据处理方法。
综上所述,该方案通过动静分离的流量过滤方案,减轻了服务器压力。通过一个分布式流处理引擎将用户访问请求数据流分配多线程队列中,通过多线程队列并发处理,提升了用户请求的处理效率。通过作弊识别机制,发现用户的作弊行为,从而从队列中剔除。能够实时发现作弊用户,提高用户订单的处理效率,以及提升用户的访问速度。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (13)

1.一种大流量数据处理方法,其特征在于,所述方法包括:
基于用户历史访问日志,对于各IP,分别统计预定历史时间段内各子时间段访问所述IP的手机号数量;
计算各子时间段访问各IP手机号数量的方差,将所述方差大于第一预定阈值的作为待观察IP;
基于每个所述待观察IP下手机号与访问时间的相关系数以及/或者登陆成功率,识别作弊用户。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述作弊用户列入黑名单;
当用户请求访问时,判断用户是否在所述黑名单中。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算所述预定历史时间段内访问待观察IP的手机号及其访问时间之间的皮尔逊相关系数,作为所述待观察IP下手机号与访问时间的相关系数,
其中,将所述相关系数大于第二阈值的所述待观察IP用户视为作弊用户。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过k-均值聚类算法,对所述预定历史时间段内登陆次数较大的IP的成功率进行聚类,确定第三阈值,
其中,将登陆成功率大于所述第三阈值的所述待观察IP用户视为作弊用户。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
使用一致性哈希算法对用户访问请求进行分布式缓存队列分配。
6.根据权利要求5所述的方法,其特征在于,所述使用一致性哈希算法用户访问请求进行分布式缓存队列分配,包括:
使用一致性哈希算法基于用户的手机号码获取哈希值;
基于所述哈希值和服务器的计算节点个数,得到对应于所述手机号码的计算节点;
将所述用户的手机号码放入与所述计算节点对应的缓存队列,其中所述缓存队列的个数与所述计算节点个数相同。
7.根据权利要求6所述的方法,其特征在于,所述使用一致性哈希算法对用户访问请求进行分布式缓存队列分配之后,还包括:
监控各缓存队列中的队列数据积压量;
当所述缓存队列中的队列数据积压量达到预定数量时,对所述缓存队列和所述计算节点进行健康性检查。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于预设规则库,将开发人员上传的部署包区分为动态资源和静态资源;
对静态资源和动态资源分离资源部署接口,重新打包,形成新的部署资源;
基于所述新的部署资源,按照预定规则库,加工所述静态资源,压缩成新的部署包;
根据所述部署包的类型将动态资源和静态资源分别部署到动态服务器和静态服务器。
9.根据权利要求8所述的方法,其特征在于,所述将开发人员上传的部署包区分为动态资源和静态资源,包括:
将涉及与后台服务交互的模块作为动态资源,其余的作为静态资源。
10.根据权利要求8所述的方法,其特征在于,所述根据所述部署包的类型分别部署到动态服务器和静态服务器,包括:
通过CDN服务器对静态资源进行部署;
所述CDN服务器的域名服务系统根据用户所在域名的ISP、地理位置,为用户分配服务器IP地址。
11.一种大流量数据处理装置,其特征在于,所述装置包括:
统计模块,用于基于用户历史访问日志,对于各IP,分别统计预定历史时间段内各子时间段访问所述IP的手机号数量;
计算模块,用于计算各子时间段访问各IP手机号数量的方差,将所述方差大于第一预定阈值的作为待观察IP;
识别模块,用于基于每个所述待观察IP下手机号与访问时间的相关系数以及/或者登陆成功率,识别作弊用户。
12.一种计算设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-10中任一项所述的方法。
13.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-10中任一项所述的方法。
CN201711498056.4A 2017-12-30 2017-12-30 大流量数据处理方法、装置、计算设备及存储介质 Pending CN109995834A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711498056.4A CN109995834A (zh) 2017-12-30 2017-12-30 大流量数据处理方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711498056.4A CN109995834A (zh) 2017-12-30 2017-12-30 大流量数据处理方法、装置、计算设备及存储介质

Publications (1)

Publication Number Publication Date
CN109995834A true CN109995834A (zh) 2019-07-09

Family

ID=67111090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711498056.4A Pending CN109995834A (zh) 2017-12-30 2017-12-30 大流量数据处理方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN109995834A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866198A (zh) * 2019-09-27 2020-03-06 上海硬通网络科技有限公司 静态资源缓存方法、系统、装置、计算机设备和存储介质
CN111931047A (zh) * 2020-07-31 2020-11-13 中国平安人寿保险股份有限公司 基于人工智能的黑产账号检测方法及相关装置
CN112434253A (zh) * 2019-08-26 2021-03-02 吕纪竹 一种实时判断大数据或流数据离散程度的方法
CN117896314A (zh) * 2024-03-07 2024-04-16 沈阳灵秀科技有限责任公司 一种erp数据传输方法、系统及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060285665A1 (en) * 2005-05-27 2006-12-21 Nice Systems Ltd. Method and apparatus for fraud detection
CN103077172A (zh) * 2011-10-26 2013-05-01 腾讯科技(深圳)有限公司 一种挖掘作弊用户的方法与装置
CN104754000A (zh) * 2013-12-30 2015-07-01 国家电网公司 一种负载均衡方法及系统
CN105282045A (zh) * 2015-11-17 2016-01-27 高新兴科技集团股份有限公司 一种基于一致性哈希算法的分布式计算和储存方法
CN105516261A (zh) * 2015-11-26 2016-04-20 深圳市深信服电子科技有限公司 网页页面加载控制方法及负载均衡器
CN106022834A (zh) * 2016-05-24 2016-10-12 腾讯科技(深圳)有限公司 广告反作弊方法及装置
CN106485559A (zh) * 2015-08-19 2017-03-08 阿里巴巴集团控股有限公司 针对网店的作弊识别方法及装置
CN106506451A (zh) * 2016-09-30 2017-03-15 百度在线网络技术(北京)有限公司 恶意访问的处理方法及装置
CN106598823A (zh) * 2016-10-19 2017-04-26 同盾科技有限公司 一种网络行为特征的差量计算方法和系统
CN106603554A (zh) * 2016-12-29 2017-04-26 北京奇艺世纪科技有限公司 一种自适应实时视频数据的反作弊方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060285665A1 (en) * 2005-05-27 2006-12-21 Nice Systems Ltd. Method and apparatus for fraud detection
CN103077172A (zh) * 2011-10-26 2013-05-01 腾讯科技(深圳)有限公司 一种挖掘作弊用户的方法与装置
CN104754000A (zh) * 2013-12-30 2015-07-01 国家电网公司 一种负载均衡方法及系统
CN106485559A (zh) * 2015-08-19 2017-03-08 阿里巴巴集团控股有限公司 针对网店的作弊识别方法及装置
CN105282045A (zh) * 2015-11-17 2016-01-27 高新兴科技集团股份有限公司 一种基于一致性哈希算法的分布式计算和储存方法
CN105516261A (zh) * 2015-11-26 2016-04-20 深圳市深信服电子科技有限公司 网页页面加载控制方法及负载均衡器
CN106022834A (zh) * 2016-05-24 2016-10-12 腾讯科技(深圳)有限公司 广告反作弊方法及装置
CN106506451A (zh) * 2016-09-30 2017-03-15 百度在线网络技术(北京)有限公司 恶意访问的处理方法及装置
CN106598823A (zh) * 2016-10-19 2017-04-26 同盾科技有限公司 一种网络行为特征的差量计算方法和系统
CN106603554A (zh) * 2016-12-29 2017-04-26 北京奇艺世纪科技有限公司 一种自适应实时视频数据的反作弊方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KARGER D, LEHMAN E, LEIGHTON T: "Consistent Hashing and Random Trees: Distributed Caching Protocols for Relieving Hot Spots on the World Wide Web", 《TWENTY-NINTH ACM SYMPOSIUM ON THEORY OF COMPUTING》 *
孙乔等: "基于一致性哈希的分布式数据库性能拓展", 《计算机应用》 *
裴沛等: "一种改进的分布式存储系统节点动态扩展策略", 《广西民族大学学报(自然科学版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434253A (zh) * 2019-08-26 2021-03-02 吕纪竹 一种实时判断大数据或流数据离散程度的方法
CN110866198A (zh) * 2019-09-27 2020-03-06 上海硬通网络科技有限公司 静态资源缓存方法、系统、装置、计算机设备和存储介质
CN110866198B (zh) * 2019-09-27 2022-10-28 上海硬通网络科技有限公司 静态资源缓存方法、系统、装置、计算机设备和存储介质
CN111931047A (zh) * 2020-07-31 2020-11-13 中国平安人寿保险股份有限公司 基于人工智能的黑产账号检测方法及相关装置
CN117896314A (zh) * 2024-03-07 2024-04-16 沈阳灵秀科技有限责任公司 一种erp数据传输方法、系统及存储介质
CN117896314B (zh) * 2024-03-07 2024-05-31 沈阳灵秀科技有限责任公司 一种erp数据传输方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN108776934B (zh) 分布式数据计算方法、装置、计算机设备及可读存储介质
Liu et al. Monitoring and analyzing big traffic data of a large-scale cellular network with Hadoop
US9996409B2 (en) Identification of distinguishable anomalies extracted from real time data streams
US11775501B2 (en) Trace and span sampling and analysis for instrumented software
CN112800095B (zh) 一种数据处理方法、装置、设备及存储介质
US20170277727A1 (en) Identification of distinguishing compound features extracted from real time data streams
JP5735969B2 (ja) コミュニティ内の接続を決定するためのソーシャルグラフデータ解析用システムおよび方法
CN106815254B (zh) 一种数据处理方法和装置
CN108965347A (zh) 一种分布式拒绝服务攻击检测方法、装置及服务器
CN109995834A (zh) 大流量数据处理方法、装置、计算设备及存储介质
WO2011134086A1 (en) Systems and methods for conducting reliable assessments with connectivity information
CN111786950A (zh) 基于态势感知的网络安全监控方法、装置、设备及介质
WO2011047474A1 (en) Systems and methods for social graph data analytics to determine connectivity within a community
CN111090807B (zh) 一种基于知识图谱的用户识别方法及装置
JP7069173B2 (ja) 高速分析のためにネットワーク・トラフィックを準備するシステム
CN108875091A (zh) 一种统一管理的分布式网络爬虫系统
CN109495291B (zh) 调用异常的定位方法、装置和服务器
CN111181799A (zh) 一种网络流量监控方法及设备
CN109446225A (zh) 数据缓存方法、装置、计算机设备及存储介质
CN113835874A (zh) 深度学习业务调度方法、系统、终端及存储介质
CN111740868A (zh) 告警数据的处理方法和装置及存储介质
CN111800292A (zh) 基于历史流量的预警方法、装置、计算机设备及存储介质
CN111581258A (zh) 一种安全数据分析方法、装置、系统、设备及存储介质
US10419351B1 (en) System and method for extracting signatures from controlled execution of applications and application codes retrieved from an application source
US20140214826A1 (en) Ranking method and system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190709