Nothing Special   »   [go: up one dir, main page]

CN109034867B - 点击流量检测方法、装置及存储介质 - Google Patents

点击流量检测方法、装置及存储介质 Download PDF

Info

Publication number
CN109034867B
CN109034867B CN201810644161.2A CN201810644161A CN109034867B CN 109034867 B CN109034867 B CN 109034867B CN 201810644161 A CN201810644161 A CN 201810644161A CN 109034867 B CN109034867 B CN 109034867B
Authority
CN
China
Prior art keywords
click
frequency
detected
flow
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810644161.2A
Other languages
English (en)
Other versions
CN109034867A (zh
Inventor
周忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810644161.2A priority Critical patent/CN109034867B/zh
Publication of CN109034867A publication Critical patent/CN109034867A/zh
Application granted granted Critical
Publication of CN109034867B publication Critical patent/CN109034867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0248Avoiding fraud
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种点击流量检测方法,包括:获取待检测的点击流量对应的点击时间序列,所述点击时间序列包括多个预设统计周期分别对应的点击量;将所述点击时间序列进行时频变换,得到频域序列,所述频域序列包括多个频率对应的幅值;根据所述频域序列中大于频率阈值的各频率的幅值与所述频域序列中各频率的幅值之间的比例关系,确定所述点击时间序列对应的点击流量是否可疑。本申请还提供了相应的装置及存储介质。

Description

点击流量检测方法、装置及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及点击流量检测方法、装置及存储介质。
背景技术
目前,随着互联网用户尤其是移动互联网用户的快速增长,互联网广告成为广告投放的新的形式,互联网广告的投放量也呈现快速增长的趋势。大多数互联网广告以点击量计费,在利益的驱动下,存在采用作弊的方式对流量上投放的广告进行恶意操作,以提升点击量的行为,损害了广告主的利益。
例如,在互联网广告的生态系统中,流量主向用户提供各种形式的基于互联网的服务(如提供新闻、媒体播放、在线游戏等各种形式),在用户使用服务的过程中广告系统向用户使用的服务中(如用户使用的应用,或用户访问的网页)投放广告。当用户点击广告时,广告的点击量增加,流量主基于自身所拥有的广告资源(如应用中的广告、网页中的广告位等)对广告的点击量进行消耗。但是,某些流量主为了提高用户在其所拥有的广告资源上投放的广告的点击量,以获取更多的广告收入,会采用作弊的方式对流量上投放的广告进行恶意操作,以提高点击量等广告行为指标。
通过模拟器、自动化脚本等进行广告点击,这些点击的动机都是虚假的,不会产生任何广告转化效果,损害了广告主的利益。
发明内容
本申请实施例提供一种点击流量检测方法,包括:
获取待检测的点击流量对应的点击时间序列,所述点击时间序列包括多个预设统计周期分别对应的点击量;
将所述点击时间序列进行时频变换,得到频域序列,所述频域序列包括多个频率对应的幅值;
根据所述频域序列中大于频率阈值的各频率的幅值与所述频域序列中各频率的幅值之间的比例关系,确定所述点击时间序列对应的点击流量是否可疑。
本申请实施例提供了一种点击流量检测装置,包括:
获取单元,用以获取待检测的点击流量对应的点击时间序列,所述点击时间序列包括多个预设统计周期分别对应的点击量;
时频变换单元,用以将所述点击时间序列进行时频变换,得到频域序列,所述频域序列包括多个频率对应的幅值;
确定单元,用以根据所述频域序列中大于频率阈值的各频率的幅值与所述频域序列中各频率的幅值之间的比例关系,确定所述点击时间序列对应的点击流量是否可疑。
本申请实例提供了一种计算机可读存储介质,存储有计算机可读指令,可以使至少一个处理器执行如上述所述的方法。
采用本申请提供的上述方案,对异常点击流量的检测更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一些实例涉及的系统构架图示意图;
图2是本申请一些实施例点击流量检测方法的流程示意图;
图3是本申请一些实施例点击流量检测方法的流程示意图;
图4是本申请一些实施例中点击时间序列的结构示意图;
图5是本申请一些实施例中频域序列的结构示意图;
图6是本申请一些实施例点击流量检测方法的流程示意图;
图7是本申请一些实施例点击流量检测装置的结构示意图;以及
图8是本申请实施例中的计算设备组成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于描述,下述先对各个实施例中所涉及的术语做简单介绍。
广告主:广告主是指对投放广告的点击量进行付费的用户或服务商。广告主希望自己每次付费的广告点击都是真实用户的有效点击,而非作弊点击。
流量主:流量主是指提供用户流量的载体,通常指媒体、网站或软件。在微信广告平台中,流量主可以是拥有一定粉丝量的公众号。流量主可以参与广告的利润分成,相同广告曝光量下,点击率越高,分到的利润也越高,因而流量主有较强的作弊动机来提升广告的点击量。
机器作弊:一般广告按照曝光或点击的次数向广告主收费,机器作弊是指通过脚本、模拟器等技术手段造成虚假的广告曝光、点击行为,从而骗取广告主的费用。
在一些实例中,通过分析底层代码来判断用户App是否被植入恶意代码段从而被机器控制。在该方案中,恶意代码获取难度高,此外,底层代码需要通过反编译过程翻译成人能理解的代码,人工验证成本高。在另一些实例中,通过分析若干特征是否存在异常来判断是否为机器用户。例如分析用户性别、昵称、地域、机型分布等特征是否存在异常来判断是否为机器用户。这种方案的缺点是容易遗漏特征。
为了更有效地检测机器作弊,本申请提供了点击流量检测方法、装置及存储介质。图1是本发明实施例中点击流量检测的操作环境100的框图。如图1所示,流量检测提供商102a提供流量检测服务器112a。该流量检测服务器112a通过一个或多个网络106,向多个用户提供流量检测服务,其中所述多个用户分别操作他们各自的用户设备104(例如,用户设备104a-c)。
在一些实施例中,每个用户通过在用户设备104上执行的客户端应用108(例如,客户端应用108a-c)连接至流量检测服务器112a。其中,所述客户端应用108可以为社交应用,例如,微信、QQ、微博等;客户端应用108还可以为视频应用、文章应用等多媒体应用;客户端应用108还可以为邮箱应用。广告投放系统在客户端应用108上的流量上投放广告,当终端用户点击在客户端应用108上展示的广告时,客户端应用108向流量检测服务器112a发送点击日志,流量检测服务器112a将点击日志存储在日志数据库110a中。流量检测服务器112a根据保存的点击日志对机器作弊行为进行检测。
用户设备104的示例包括但不限于掌上型计算机、可穿戴计算设备、个人数字助理(PDA)、平板计算机、笔记本电脑、台式计算机、移动电话、智能手机、增强型通用分组无线业务(EGPRS)移动电话、媒体播放器、导航设备、游戏控制台、电视机、或任意两个或更多的这些数据处理设备或其他数据处理设备的组合。
一个或多个网络106的示例包括局域网(LAN)和广域网(WAN)诸如互联网。可选地,可以使用任意公知的网络协议来实现一个或多个网络106,包括各种有线或无线协议,诸如,以太网、通用串行总线(USB)、FIREWIRE、全球移动通讯系统(GSM)、增强数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、WiFi、IP语音(VoIP),Wi-MAX,或任意其他适合的通信协议。
所述流量检测服务器112a可以在一个或多个独立的数据处理装置或分布式计算机网络上实现。在一些实施例中,流量检测服务器112a也可以使用各种虚拟设备和/或第三方服务提供商(例如,第三方云服务提供商)的服务,以提供流量检测服务器112a的底层的计算资源和/或基础资源。
每个用户设备104可选地包括一个或者多个内部外围设备模块,或可以通过有线或无线连接至一个或多个外围设备(例如,导航系统、健康监测仪、气候控制器、智能运动装备、蓝牙耳机、智能手表等)。
在一些实例中,本申请提供了一种点击流量检测方法,由流量检测服务器112a执行。如图2所示,包括以下步骤:
S201:获取待检测的点击流量对应的点击时间序列,所述点击时间序列包括多个预设统计周期分别对应的点击量。
在一些实例中,获取并保存点击行为对应的点击日志,其中,所述点击日志包括以下参数中的至少一个:所述点击行为对应的点击时间、所述点击行为对应的用户标识、所述点击行为对应的流量主标识;
确定待检测的点击流量对应的多条点击日志;
根据所述多条点击日志,确定所述多个预设的统计周期对应的点击量。以确定点击时间序列。
在一些实例中,待检测的点击流量为流量主的点击流量,在确定待检测的点击流量对应的多条点击日志时,包括步骤:
确定待检测的流量主标识;
从保存的点击日志中选择与所述流量主标识对应的点击日志;
在执行所述根据所述多条点击日志,确定所述每个预设的统计周期对应的点击量时,包括步骤:
针对每个预设的统计周期,在所述与所述流量主标识对应的点击日志中确定该统计周期对应的一条或多条点击日志,并将所述确定的一条或多条点击日志的数量作为所述统计周期对应的点击量。
在一些实例中,当待检测的点击流量为流量主的点击流量,在确定待检测的点击流量对应的多条点击日志时,还可以包括以下步骤:
确定待检测的流量主标识;
从每个预设统计周期对应的点击日志中选择与所述流量主标识对应的点击日志;
其中,在执行所述根据所述多条点击日志,确定所述每个预设的统计周期对应的点击量时,包括步骤:
针对每个预设的统计周期,将选择出的与所述流量主标识对应的点击日志的数量作为所述统计周期对应的点击量。
在一些实例中,待检测的点击流量为一个用户的点击流量,在确定待检测的点击流量对应的多条点击日志时,包括步骤:
确定待检测的用户标识;
从保存的点击日志中选择与所述用户标识对应的点击日志;
在执行所述根据所述多条点击日志,确定所述每个预设的统计周期对应的点击量时,包括步骤:
针对每个预设的统计周期,在所述与所述用户标识对应的点击日志中确定该统计周期对应的一条或多条点击日志,并将所述确定的一条或多条点击日志的数量作为所述统计周期对应的点击量。
在一些实例中,当待检测的点击流量为一个用户的点击流量时,在确定待检测的点击流量对应的多条点击日志时,包括步骤:
确定待检测的用户标识;
从每个预设统计周期对应的点击日志中选择与所述用户标识对应的点击日志;
其中,在执行所述根据所述多条点击日志,确定所述每个预设的统计周期对应的点击量时,包括步骤:
针对每个预设的统计周期,将选择出的与所述用户标识对应的点击日志的数量作为所述统计周期对应的点击量。
S202:将所述点击时间序列进行时频变换,得到频域序列,所述频域序列包括多个频率对应的幅值。
在一些实例中,所述时频变换为离散傅里叶变换或小波变换。
S203:根据所述频域序列中大于频率阈值的各频率的幅值与所述频域序列中各频率的幅值之间的比例关系,确定所述点击时间序列对应的点击流量是否可疑。
在一些实例中,确定大于频率阈值的各频率的幅值之和,与所述频域序列中各频率的幅值之和的比值;
根据所述比值确定所述点击流量是否可疑。
在一些实例中,确定大于频率阈值的各频率的幅值的平方和,与所述频域序列中各频率的幅值的平方和的比值;
根据所述比值确定所述点击流量是否可疑。
在一些实例中,如果所述比值大于比值阈值,则确定所述点击行为序列对应的点击流量可疑;
否则,所述点击行为序列对应的点击流量不可疑。
采用本申请提供的点击流量检测方法,将点击流量对应的点击时间序列通过时频变换获得频域序列,通过频域序列的特征确定点击流量是否可疑。具体地,通过检测在一段时间内的广告点击时间序列是否存在高频的周期性时间序列来判断是否存在机器作弊行为,使得对异常点击的检测更加准确。
本申请提供的点击流量检测方法所依据的原理包括:
(1)信息不对称原理
通常情况下,曝光或点击广告等行为都是随机发生的,因而流量主及终端用户无法控制每一时刻广告的曝光或点击量,同时流量主及终端用户也无法得知大盘广告点击量的时间分布。因此,作弊流量主或终端用户在通过机器作弊来点广告时,产生的广告点击时间序列会与正常用户的点击时间序列不同。
(2)收益最大化原理
作弊的流量主或作弊的终端用户在通过机器作弊点击广告时,为了最大化收益,会通过自动化手段进行大量广告点击,即在短时间内进行大量的广告点击,因而广告点击时间序列会呈现一定的高频性。
根据以上原理,通过检测点击流量在一段时间内的广告点击时间序列是否存在高频的周期性点击,来完成异常流量的检测。
图3为本申请一些实施例提供的点击流量检测方法的流程示意图,由流量检测服务器112a执行。如图3所示,该点击流量检测方法包括以下步骤:
S301:获取并保存点击行为对应的点击日志。其中,所述点击日志包括以下参数中的至少一个:所述点击行为对应的点击时间、所述点击行为对应的用户标识、所述点击行为对应的流量主标识。
当用户设备104处的用户点击客户端应用108上的展示的广告时,客户端应用108向流量检测服务器112a上报点击日志。流量检测服务器112a从多个用户设备104处收集点击日志,将点击日志存储在日志数据库110a中。其中,点击日志的格式如:{当前时间;用户ID;终端设备IP;媒体内容ID;流量主ID},主要包括当前时间、用户ID、终端设备IP,媒体内容ID,流量主ID。其中,当前时间为点击行为发生的时间;用户ID为用户标识,例如微信用户的微信账号等。终端设备IP为用户使用的用户设备104的IP,所述媒体内容为承载广告的媒体,例如,添加有广告的文章。例如,当所述客户端应用108是微信APP时,所述流量主为微信公众号,当用户点击一个微信公众号中的一篇文章中的广告时,向流量检测服务器112a上报的点击日志包括:用户的微信账号(对应用户ID),用户设备的IP(对应终端设备IP),文章的标识(对应媒体内容ID)以及公众号的标识(对应流量主)。
S302:获取待检测的点击流量对应的点击时间序列。
其中,所述点击时间序列包括多个预设统计周期对应的点击量,该预设统计周期可以是一天、一小时,一分钟等,在本申请的方案中对预设统计周期不进行限制。点击时间序列的格式可以为:{p0、p1、p2……pN-1},其中,Pi为第i个预设统计周期内的广告点击量。
该实例针对一个流量主的点击流量进行检测,检测流量主的点击流量是否存在可疑。在获取流量主的点击流量对应的点击时间序列时,可以在保存的日志中选取流量主对应的一条或多条点击日志,进而在确定的所述一条或多条点击日志中,确定每个预设统计周期对应的一条或多条点击日志,将每个预设统计周期对应的点击日志的数量作为每个预设统计周期对应的点击量。还可以在保存的日志中先选取每个预设统计周期对应的一条或多条点击日志,对于每一个预设统计周期,在该预设统计周期对应的一条或多条点击日志中,确定所述流量主对应的一条或多条点击日志,将确定的点击日志的数量作为所述预设统计周期对应的点击量。
在一些实例中,获取点击时间序列包括以下步骤:
S3021:确定待检测的点击流量对应的多条点击日志。
在该实例中,所述待检测的点击流量为流量主的点击流量,在确定点击流量是否可疑时,是确定流量主对应的所有媒体内容的点击量是否可疑,确定流量主是否存在作弊的情况。例如,对于一个微信公众号,获取该微信公众号下所有文章对应的点击日志,根据获取的点击日志确定该微信公众号是否可疑,该微信公众号对应的博主是否存在关于点击量的作弊行为。
在确定流量主的点击流量对应的多条点击日志时,包括步骤:
S30211:确定待检测的流量主标识;
S30212:从保存的点击日志中选择与所述流量主标识对应的点击日志。
在上述内容中提到,点击日志中包括流量主的标识,根据待检测的流量主的标识,在保存的用户设备104上传的点击日志中查找包括所述流量主的标识的多条点击日志。
S3022:根据所述多条点击日志,确定所述每个预设的统计周期对应的点击量。
点击日志包括多个预设的统计周期对应的点击量,在确定多个预设的统计周期对应的点击量时,包括步骤:
S30221:针对每个预设的统计周期,在所述与所述流量主标识对应的点击日志中确定该统计周期对应的一条或多条点击日志,并将所述确定的一条或多条点击日志的数量作为所述统计周期对应的点击量。
对于步骤S3021中的确定多条点击日志,每条点击日志中包括点击时间,根据各条点击日志的点击时间将各条点击日志对应到各个预设统计周期内,进而确定各个统计周期内的点击日志的数量,将点击日志的数量确定为一个统计周期对应的点击量。
S303:将所述点击时间序列进行时频变换,得到频域序列。
在一些实例中,所述时频变换为离散傅里叶变换或小波变换。在进行离散傅里叶变换时,采用以下公式(1)进行离散傅里叶变换。
Figure GDA0003826452800000101
其中,xk是频率2πk/N的振幅,通过离散傅里叶变换将时间域内的时间点击序列{p0、p1、p2……pN-1}变换成频率域中的频域序列,频域序列格式可以为:{x0、x1、x2……xN-1}。
在该实例中的流量点击检测方法,对一段时间内一个流量主的资源上投放的广告的点击时间序列进行离散傅立叶变换,将广告的点击时间序列从时间域变换到频率域。当存在规律性的机器点击行为时,当该作弊流量主对应广告的点击行为大部分点击来自机器作弊点击时,经傅立叶变换后,频域序列中高频部分振幅的能量会比正常流量主的大。因而在频域序列中确定高频部分的的能量与频域序列中所有频率的能力的关系,根据该关系确定流量主的流量是否为异常流量。
S304:根据所述频域序列中大于频率阈值的各频率的幅值与所述频域序列中各频率的幅值之间的比例关系,确定所述点击时间序列对应的点击流量是否可疑。
在一些实例中,在确定点击流量是否可疑时,包括步骤:
S3041:确定大于频率阈值的各频率的幅值之和,与所述频域序列中各频率的幅值之和的比值;根据所述比值确定所述点击流量是否可疑。
根据以下公式(2)确定所述比值:
Figure GDA0003826452800000102
其中,T为预设值,2π(N-T)/k为所述频率阈值,N为频域序列中包括的振幅的个数。
当根据比值确定点击流量是否可疑时,如果所述比值大于比值阈值,则确定所述点击行为序列对应的点击流量可疑;否则,所述点击行为序列对应的点击流量不可疑。例如,当λ大于θ时,则表明该流量主中含有异常周期性序列,确定流量主的流量可疑,其中θ是预设的比值阈值。
例如,图4是某一流量主一周内每分钟的点击时间序列,经离散傅立叶变换后,得到频率域的能量(振幅)分布,如图5所示。例如,频域阈值为0.05HZ,高频部分的能量占比高于预设的阈值,确定该流量主的点击流量作弊。在图5中,横坐标频率的单位为HZ,纵坐标是经过离散傅里叶变换后得到的各频率的赋值,是相对值。
在一些实例中,在确定点击流量是否可疑时,还可以包括步骤:
S3042:确定大于频率阈值的各频率的幅值的平方和,与所述频域序列中各频率的幅值的平方和的比值;根据所述比值确定所述点击流量是否可疑。
在确定高频部分的能量占比时,也可以将高频部分的各频率的幅值的平方和与所有频率的幅值的平方和的比值作为所述能力占比。如果所述比值大于比值阈值,则确定所述点击行为序列对应的点击流量可疑;否则,所述点击行为序列对应的点击流量不可疑。
图6为本申请一些实施例提供的点击流量检测方法的流程示意图,由流量检测服务器112a执行。在该实例中,步骤S601-S604分别与步骤S301-S304中的操作相似,步骤S6022与步骤S3022中的操作相似,步骤S6041-S6042与步骤S3041-S3042中的操作类似,在此不再赘述。在该实例中,在执行步骤S6021:获取待检测的点击流量对应的点击时间序列时,包括步骤:
S60211:确定待检测的用户标识。
S60212:从保存的点击日志中选择与所述用户标识对应的点击日志。
在执行步骤S6022时,包括步骤:
S60221:针对每个预设的统计周期,在所述与所述用户标识对应的点击日志中确定该统计周期对应的一条或多条点击日志,并将所述确定的一条或多条点击日志的数量作为所述统计周期对应的点击量。
在该实例中,对一个终端用户的点击流量进行检测,检测用户是否为作弊用户。其中,所述用户标识可以为用户登录客户端应用108的账号,例如,微信账号。流量检测服务器112a在保存的多条点击日志中查找包括所述用户标识的多条点击日志。当根据确定的所述多条点击日志,最终确定点击流量可疑时,说明所述用户为作弊用户。
在获取用户的点击流量对应的点击时间序列时,可以在保存的日志中选取用户对应的一条或多条点击日志,进而在确定的所述一条或多条点击日志中,确定每个预设统计周期对应的一条或多条点击日志,将每个预设统计周期对应的点击日志的数量作为每个预设统计周期对应的点击量。还可以在保存的日志中先选取每个预设统计周期对应的一条或多条点击日志,对于每一个预设统计周期,在该预设统计周期对应的一条或多条点击日志中,确定所述用户对应的一条或多条点击日志,将确定的点击日志的数量作为所述预设统计周期对应的点击量。
在另外一些实例中,还可以获取一媒体内容(例如,一个微信公众号下的文章)对应的多条点击日志,根据该多条点击日志,采用上述所述的点击流量检测方法确定针对所述媒体内容的点击流量是否可疑。在另外一些实施例中,还可以获取终端设备IP对应的多条点击日志,以检测终端设备IP对应的终端设备是否为作弊的终端设备。
本申请还提供了一种点击流量检测装置700,如图7所示,包括:
获取单元701,用以获取待检测的点击流量对应的点击时间序列,所述点击时间序列包括多个预设统计周期分别对应的点击量;
时频变换单元702,用以将所述点击时间序列进行时频变换,得到频域序列,所述频域序列包括多个频率对应的幅值;
确定单元703,用以根据所述频域序列中大于频率阈值的各频率的幅值与所述频域序列中各频率的幅值之间的比例关系,确定所述点击时间序列对应的点击流量是否可疑。
采用本申请提供的点击流量检测装置,将点击流量对应的点击时间序列通过时频变换获得频域序列,通过频域序列的特征确定点击流量是否可疑。具体地,通过检测在一段时间内的广告点击时间序列是否存在高频的周期性时间序列来判断是否存在机器作弊行为,使得对异常点击行为的检测更加准确。
在一些实例中,所述获取单元701,还用以:
获取并保存点击行为对应的点击日志,其中,所述点击日志包括以下参数中的至少一个:所述点击行为对应的点击时间、所述点击行为对应的用户标识、所述点击行为对应的流量主标识;
确定待检测的点击流量对应的多条点击日志;
根据所述多条点击日志,确定所述每个预设的统计周期对应的点击量。
在一些实例中,所述获取单元701,还用以:
确定待检测的流量主标识;
从保存的点击日志中选择与所述流量主标识对应的点击日志;
针对每个预设的统计周期,在所述与所述流量主标识对应的点击日志中确定该统计周期对应的一条或多条点击日志,并将所述确定的一条或多条点击日志的数量作为所述统计周期对应的点击量。
在一些实例中,所述获取单元701,还用以:
确定待检测的流量主标识;
从每个预设统计周期对应的点击日志中选择与所述流量主标识对应的点击日志;
针对每个预设的统计周期,将选择出的与所述流量主标识对应的点击日志的数量作为所述统计周期对应的点击量。在一些实例中,所述获取单元701,还用以:
确定待检测的用户标识;
从保存的点击日志中选择与所述用户标识对应的点击日志;
针对每个预设的统计周期,在所述与所述用户标识对应的点击日志中确定该统计周期对应的一条或多条点击日志,并将所述确定的一条或多条点击日志的数量作为所述统计周期对应的点击量。
在一些实例中,所述获取单元701,还用以:
确定待检测的用户标识;
从每个预设统计周期对应的点击日志中选择与所述用户标识对应的点击日志;
针对每个预设的统计周期,将选择出的与所述用户标识对应的点击日志的数量作为所述统计周期对应的点击量。
在一些实例中,所述确定单元703,用以:
确定大于频率阈值的各频率的幅值之和,与所述频域序列中各频率的幅值之和的比值;
根据所述比值确定所述点击流量是否可疑。
在一些实例中,所述确定单元703,用以:
确定大于频率阈值的各频率的幅值的平方和,与所述频域序列中各频率的幅值的平方和的比值;根据所述比值确定所述点击流量是否可疑。
在一些实例中,所述确定单元703,还用以:
如果所述比值大于比值阈值,则确定所述点击行为序列对应的点击流量可疑;否则,所述点击行为序列对应的点击流量不可疑。
在一些实例中,所述时频变换为离散傅里叶变换或小波变换。
本申请还提供了一种计算机可读存储介质,存储有计算机可读指令,可以使至少一个处理器执行如上述所述的方法。
图8示出了点击流量检测装置700所在的计算设备的组成结构图。如图8所示,该计算设备包括一个或者多个处理器(CPU)802、通信模块804、存储器806、用户接口810,以及用于互联这些组件的通信总线808。
处理器802可通过通信模块804接收和发送数据以实现网络通信和/或本地通信。
用户接口810包括一个或多个输出设备812,其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口810也包括一个或多个输入设备814,其包括诸如,键盘,鼠标,声音命令输入单元或扩音器,触屏显示器,触敏输入板,姿势捕获摄像机或其他输入按钮或控件等。
存储器806可以是高速随机存取存储器,诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备;或者非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备,或其他非易失性固态存储设备。
存储器806存储处理器802可执行的指令集,包括:
操作系统816,包括用于处理各种基本系统服务和用于执行硬件相关任务的程序;
应用818,包括点击流量检测装置700的部分或全部单元或者模块。点击流量检测装置700中的至少一个单元可以存储有机器可执行指令。处理器802通过执行存储器806中各单元中至少一个单元中的机器可执行指令,进而能够实现上述各单元或模块中的至少一个模块的功能。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令,存储在非易失性存储介质中。因此,各实施例也可以体现为软件产品。
各例中,硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如,硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。
另外,本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然,数据处理程序构成了本申请。此外,通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此,这样的存储介质也构成了本申请,本申请还提供了一种非易失性存储介质,其中存储有数据处理程序,这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。
图8模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种点击流量检测方法,其特征在于,包括:
当客户端应用接收到用户针对流量主提供的媒体内容所作的点击行为时,接收所述客户端应用上报的点击日志,所述点击日志包括:所述点击行为对应的用户标识、所述点击行为对应的媒体内容的标识、所述点击行为对应的流量主标识,所述流量主在所述客户端应用中拥有多个用户;
确定待检测的流量主标识;
确定与所述待检测的流量主标识对应的多条点击日志;
根据所述多条点击日志,获取与所述待检测的流量主标识对应的点击时间序列;
将所述点击时间序列进行时频变换,得到频域序列,所述频域序列包括多个频率对应的幅值;
基于正常点击行为是随机发生的而机器点击行为是在短时间内大量发生的原理,若所述频域序列中高频部分的各频率的幅值与所述频域序列中各频率的幅值之间的能量占比高于预设的阈值,则确定所述待检测的流量主标识对应的所有媒体内容的点击行为中存在机器点击行为,以及所述待检测的流量主标识对应的流量主为作弊流量主。
2.根据权利要求1所述的方法,其中,所述确定与所述待检测的流量主标识对应的多条点击日志包括:
从保存的点击日志中选择与所述待检测的流量主标识对应的点击日志;
所述根据所述多条点击日志,获取与所述待检测的流量主标识对应的点击时间序列包括:
针对每个预设的统计周期,在与所述待检测的流量主标识对应的点击日志中确定该统计周期对应的一条或多条点击日志,并将所述确定的一条或多条点击日志的数量作为该统计周期对应的点击量。
3.根据权利要求1所述的方法,其中,所述确定与所述待检测的流量主标识对应的多条点击日志包括:
从每个预设统计周期对应的点击日志中选择与所述待检测的流量主标识对应的点击日志;
所述根据所述多条点击日志,获取与所述待检测的流量主标识对应的点击时间序列包括:
针对每个预设的统计周期,将选择出的与所述待检测的流量主标识对应的点击日志的数量作为该统计周期对应的点击量。
4.根据权利要求1所述的方法,其特征在于,点击日志的格式为:{当前时间;用户标识;终端设备IP地址;媒体内容标识;流量主标识}。
5.根据权利要求1所述的方法,其特征在于,所述频域序列中高频部分的各频率的幅值与所述频域序列中各频率的幅值之间的能量占比,指大于频率阈值的各频率的幅值之和,与所述频域序列中各频率的幅值之和的比值。
6.根据权利要求1所述的方法,其特征在于,所述频域序列中高频部分的各频率的幅值与所述频域序列中各频率的幅值之间的能量占比,指大于频率阈值的各频率的幅值的平方和,与所述频域序列中各频率的幅值的平方和的比值。
7.根据权利要求1所述的方法,其特征在于,所述客户端应用为社交应用、多媒体应用或者邮箱应用。
8.根据权利要求1所述的方法,其特征在于,所述时频变换为离散傅里叶变换或小波变换。
9.一种点击流量检测装置,其特征在于,包括:
获取单元,用以当客户端应用接收到用户针对流量主提供的媒体内容所作的点击行为时,接收所述客户端应用上报的点击日志,所述点击日志包括:所述点击行为对应的用户标识、所述点击行为对应的媒体内容的标识、所述点击行为对应的流量主标识,所述流量主在所述客户端应用中拥有多个用户;确定待检测的流量主标识;确定与所述待检测的流量主标识对应的多条点击日志;根据所述多条点击日志,获取与所述待检测的流量主标识对应的点击时间序列;
时频变换单元,用以将所述点击时间序列进行时频变换,得到频域序列,所述频域序列包括多个频率对应的幅值;
确定单元,用以基于正常点击行为是随机发生的而机器点击行为是在短时间内大量发生的原理,若所述频域序列中高频部分的各频率的幅值与所述频域序列中各频率的幅值之间的能量占比高于预设的阈值,则确定所述待检测的流量主标识对应的所有媒体内容的点击行为中存在机器点击行为,以及所述待检测的流量主标识对应的流量主为作弊流量主。
10.根据权利要求9所述的装置,其特征在于:所述获取单元用以:
从保存的点击日志中选择与所述待检测的流量主标识对应的点击日志;
针对每个预设的统计周期,在与所述待检测的流量主标识对应的点击日志中确定该统计周期对应的一条或多条点击日志,并将所述确定的一条或多条点击日志的数量作为该统计周期对应的点击量。
11.一种计算机可读存储介质,存储有计算机可读指令,可以使至少一个处理器执行如权利要求1-8任一项所述的方法。
12.一种计算设备,包括:处理器和存储器;其中,所述存储器存储程序,所述程序适于由所述处理器执行时,实现如权利要求1~8任意一项的方法步骤。
CN201810644161.2A 2018-06-21 2018-06-21 点击流量检测方法、装置及存储介质 Active CN109034867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810644161.2A CN109034867B (zh) 2018-06-21 2018-06-21 点击流量检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810644161.2A CN109034867B (zh) 2018-06-21 2018-06-21 点击流量检测方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN109034867A CN109034867A (zh) 2018-12-18
CN109034867B true CN109034867B (zh) 2022-10-25

Family

ID=64610246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810644161.2A Active CN109034867B (zh) 2018-06-21 2018-06-21 点击流量检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109034867B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781605B (zh) * 2019-11-05 2023-08-25 恩亿科(北京)数据科技有限公司 广告投放模型测试方法、装置、计算机设备及存储介质
CN112348559A (zh) * 2020-09-27 2021-02-09 北京淇瑀信息科技有限公司 一种渠道资源消耗优化方法、装置及电子设备
CN112465549A (zh) * 2020-11-30 2021-03-09 上海酷量信息技术有限公司 一种识别渠道作弊的系统和方法
CN113610569B (zh) * 2021-07-27 2024-08-27 上海交通大学 广告点击农场检测方法、系统、终端及介质
CN115150159B (zh) * 2022-06-30 2023-11-10 深信服科技股份有限公司 一种流量检测方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016169193A1 (zh) * 2015-04-24 2016-10-27 百度在线网络技术(北京)有限公司 用于检测点击作弊的方法及装置
CN108063698A (zh) * 2017-12-15 2018-05-22 东软集团股份有限公司 设备异常检测方法和装置、程序产品及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070255821A1 (en) * 2006-05-01 2007-11-01 Li Ge Real-time click fraud detecting and blocking system
CN101345664A (zh) * 2008-08-05 2009-01-14 成都市华为赛门铁克科技有限公司 网络流量异常检测方法和装置
CN103577432B (zh) * 2012-07-26 2017-07-14 阿里巴巴集团控股有限公司 一种商品信息搜索方法和系统
CN103235796B (zh) * 2013-04-07 2019-12-24 北京百度网讯科技有限公司 一种基于用户点击行为的搜索方法及系统
CN103684910A (zh) * 2013-12-02 2014-03-26 北京工业大学 一种基于工业控制系统网络流量的异常检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016169193A1 (zh) * 2015-04-24 2016-10-27 百度在线网络技术(北京)有限公司 用于检测点击作弊的方法及装置
CN108063698A (zh) * 2017-12-15 2018-05-22 东软集团股份有限公司 设备异常检测方法和装置、程序产品及存储介质

Also Published As

Publication number Publication date
CN109034867A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109034867B (zh) 点击流量检测方法、装置及存储介质
US10127294B2 (en) Idempotency of application state data
WO2016054928A1 (zh) 一种用于提供推送信息的方法和装置
KR101619946B1 (ko) 네이티브 애플리케이션 테스트
US9886705B2 (en) Advertisement opportunity bidding
US12073430B2 (en) Method and system for detecting fraudulent advertisement activity
AU2016202094A1 (en) Systems and methods for sentiment detection, measurement, and normalization over social networks
US20230388327A1 (en) Systems and methods for assessing riskiness of a domain
CN107077498B (zh) 在在线广告中表示实体关系
US10055754B2 (en) Systems and methods for tracking application installs that distinguish new users from existing users without directly accessing user account records
US11397965B2 (en) Processor systems to estimate audience sizes and impression counts for different frequency intervals
JP2010044303A (ja) 仮定ターゲティング属性に基づく広告配信方法
US20130346870A1 (en) Multi-user targeted content delivery
US11997354B2 (en) Methods and apparatus to identify and triage digital ad ratings data quality issues
US20230325878A1 (en) Systems and methods for leveraging social queuing to simulate ticket purchaser behavior
US20160253711A1 (en) Methods and systems for network terminal identification
US20240144315A1 (en) Content item selection and measurement determination
CN103412932A (zh) 推送信息推送效果的监测方法和装置
US20130304566A1 (en) Apparatus and method for providing advertising ranking information
JP2022145691A (ja) サービスの成長速度を高めるためのコンピュータ処理
KR20130089900A (ko) 인터넷 모바일 기기에서의 광고 소재 동시 처리 방법
US20230156024A1 (en) System and method for fraud identification utilizing combined metrics
US20230043820A1 (en) Method and system for user group determination, churn identification and content selection
US11978002B2 (en) Computer enhancements for increasing service growth speed
US20210174433A1 (en) Content item selection and measurement determination

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant