Nothing Special   »   [go: up one dir, main page]

CN107066616B - 用于账号处理的方法、装置及电子设备 - Google Patents

用于账号处理的方法、装置及电子设备 Download PDF

Info

Publication number
CN107066616B
CN107066616B CN201710321805.XA CN201710321805A CN107066616B CN 107066616 B CN107066616 B CN 107066616B CN 201710321805 A CN201710321805 A CN 201710321805A CN 107066616 B CN107066616 B CN 107066616B
Authority
CN
China
Prior art keywords
data
account
processing
user data
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710321805.XA
Other languages
English (en)
Other versions
CN107066616A (zh
Inventor
刘灿城
曲洪涛
龙晓云
解鹏
黄雪娟
吴舒兰
宋红敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Jingdong Technology Holding Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN201710321805.XA priority Critical patent/CN107066616B/zh
Publication of CN107066616A publication Critical patent/CN107066616A/zh
Application granted granted Critical
Publication of CN107066616B publication Critical patent/CN107066616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开一种用于账号处理的方法、装置及电子设备。该方法包括:获取基础数据,所述基础数据包括基本属性数据与行为属性数据;将基础数据进行处理以获取用户数据;通过所述用户数据与深度神经网络模型建立账户识别模型;以及通过所述账户识别模型进行账号处理。本申请公开的用于账号处理的方法、装置及电子设备,能够快速比较、识别、发现个体对应的多个账号,进而将许多场景解决问题的粒度从账号层面提升到个体层面。

Description

用于账号处理的方法、装置及电子设备
技术领域
本发明涉及互联网信息处理领域,具体而言,涉及一种用于账号处理的方法、装置及电子设备。
背景技术
随着互联网产业的不断发展,人们可以随时进行网上交易。在电商平台从事交易、接受服务,都需要一个身份——账号。在电商平台中,同一人拥有多个账号的情况十分常见。一类情况是,人们可能基于某种合理的需求在一网站注册多个账号时。对于正常的网络活动,一个或几个账号足以满足用户的需要。另一类情况,是一些不法分子需要大量账号非法谋利,如刷单、炒信或者诈骗等。现有的相似账号识别技术,分为二种:第一种是基于业务理解,制定固定的判定规则,通过规则的匹配,判断账号是否归属于同一个人。例如,将身份证和注册手机号相同的账号判定为同一个人。通过对全量账号进行两两比较。为满足相同规则的账号打上相同的个体标签。第二种是基于用户基本数据,生成账号对应的特征向量,用无监督聚类的方法,对账号的特征向量做聚类,得到的每一类包含的账号即互为相似账号。
第一种识别方法存在如下缺点:数据缺失率大,例如,账号的身份证号字段通常为非必填字段,大多数账号对应的身份证号字段缺失。数据利用率低,除强关联属性外大量用户相关的属性和行为数据没有利用。复杂度高,对全量账号的两两比对时间复杂度为O(N2),方案的计算的时间复杂度难以接受。难以有效验证方法准确性。可扩展性低。不具有通用性,需要针对不同场景设定不同的规则,重新设计计算方案。
第二种识别方法存在如下缺点:聚类的结果容易形成幂律分布,即少数社群特别大,包含大量账号。对于非数值型属性,难以量化两个账号的距离,即相似程度。难以有效验证方法准确性。
因此,需要一种新的用于账号处理的方法、装置及电子设备。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种用于账号处理的方法、装置及电子设备,能够能够快速比较、识别、发现个体对应的多个账号,进而将许多场景解决问题的粒度从账号层面提升到个体层面。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提出一种用于账号处理的方法,该方法包括:获取基础数据,基础数据包括基本属性数据与行为属性数据;将基础数据进行处理以获取用户数据;通过用户数据与深度神经网络模型建立账户识别模型;以及通过账户识别模型进行账号处理。
在本公开的一种示例性实施例中,将基础数据进行处理以获取用户数据,包括:将基础数据进行数据处理以获取第一数据;以及通过倒排索引法处理第一数据以获取用户数据。
在本公开的一种示例性实施例中,用户数据,包括:第一类用户数据与第二类用户数据。
在本公开的一种示例性实施例中,通过用户数据与深度神经网络模型建立账户识别模型,包括:将第一类用户数据作为深度神经网络模型训练数据;以及通过深度神经网络模型训练获取账户识别模型。
在本公开的一种示例性实施例中,通过账户识别模型进行账号处理,包括:通过账户识别模型,获取第二类用户数据的账户相似度数值;以及通过账户相似度数值与预定阈值进行比较的结果进行账号处理。
在本公开的一种示例性实施例中,通过账户相似度数值与预定阈值进行比较的结果进行账号处理,包括:判断账户相似度数值是否大于预定阈值;以及如果账户相似度数值大于预定阈值,则将第二类用户数据进行关联处理。
在本公开的一种示例性实施例中,通过倒排索引数据表处理基础数据以获取用户数据,还包括:对基础数据进行去重处理。
在本公开的一种示例性实施例中,如果账户相似度数值大于预定阈值,则将第二类用户数据进行关联处理,包括:如果账户相似度数值大于预定阈值,则将第二类用户数据判断来源为同一个体;以及将来源为同一个体的第二类用户数据进行关联处理。
在本公开的一种示例性实施例中,将来源为同一个体的第二类用户数据进行关联处理,包括:通过构建关系图的方式将来源为同一个体的第二类用户数据进行关联处理。
在本公开的一种示例性实施例中,第一类用户数据包括:身份证信息完备的用户数据。
根据本发明的一方面,提出一种用于账号处理的装置,该装置包括:数据获取模块,用于获取基础数据,基础数据包括基本属性数据与行为属性数据;数据处理模块,用于将基础数据进行处理以获取用户数据;模型建立模块,用于通过用户数据与深度神经网络模型建立账户识别模型;以及账号处理模块,用于通过账户识别模型进行账号处理。
在本公开的一种示例性实施例中,账号处理模块,包括:相似度计算子模块,用于通过账户识别模型,获取第二类用户数据的账户相似度数值;以及处理子模块,用于通过账户相似度数值与预定阈值进行比较的结果进行账号处理。
根据本发明的一方面,提出电子设备,该电子设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现以下步骤:获取基础数据,基础数据包括基本属性数据与行为属性数据;将基础数据进行处理以获取用户数据;通过用户数据与深度神经网络模型建立账户识别模型;以及通过账户识别模型进行账号处理。
根据本发明的用于账号处理的方法、装置及电子设备,能够快速比较、识别、发现个体对应的多个账号,进而将许多场景解决问题的粒度从账号层面提升到个体层面。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
通过参照附图详细描述其示例实施例,本发明的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种用于账号处理的方法的流程图。
图2是根据另一示例性实施例示出的一种用于账号处理的方法的示意图。
图3是根据另一示例性实施例示出的一种用于账号处理的方法的示意图。
图4是根据另一示例性实施例示出的一种用于账号处理的方法的示意图。
图5是根据另一示例性实施例示出的一种用于账号处理的方法的示意图。
图6是根据另一示例性实施例示出的一种用于账号处理的方法的示意图。
图7是根据一示例性实施例示出的一种用于账号处理的装置的框图。
图8是根据一示例性实施例示出的一种电子设备的框图。
具体实施例
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的,因此不能用于限制本发明的保护范围。
下面结合附图对本公开示例实施方式进行详细说明。
图1是根据一示例性实施例示出的一种用于账号处理的方法的流程图。
如图1所示,在S102中,获取基础数据,所述基础数据包括基本属性数据与行为属性数据。基础数据包括:基本属性数据与行为属性数据。可例如,从电商平台各个业务系统采集数据,账号关联的数据按照属性类型分为:基本属性和行为属性两部分。基本属性是账号关联的基本信息,可例如,包括电话、邮箱、收货地址、证件号、真实姓名、银行卡号、设备指纹,常用IP等,行为属性是账号在平台上的行为统计指标,可例如包括:注册时长、日均登录次数、平均单笔交易金额、累计交易金额、商品评论次数等。然而本发明不以此为限。
在S104中,将基础数据进行处理以获取用户数据。可例如,采集完的数据经过数据集成和ETL(Extract-Transform-Load,抽取-转换-加载)导入数据仓库。通过账号关联不同来源的数据,整理得到账号及关联属性的宽表,其中包括基本属性和行为属性。属性中包含缺失值和无效值,可例如,通过正则表达式进行匹配和替换,做进一步的清洗和过滤。还可例如,通过基本属性数据构建倒排索引数据表;以及通过倒排索引数据表处理基础数据以获取用户数据。还可例如,通过数据处理,获取进行有效比较的账号对输入比较函数后得到的比较结果特征向量。
在S106中,通过用户数据与深度神经网络模型建立账户识别模型。在本公开的一种示例性实施例中,通过用户数据与深度神经网络模型建立账户识别模型,包括:将用户数据作为深度神经网络模型训练数据;以及通过深度神经网络模型训练获取账户识别模型。深度神经网络(DNN)目前是许多现代AI应用的基础。自从DNN在语音识别和图像识别任务中展现出突破性的成果,使用DNN的应用数量呈爆炸式增加。这些DNN方法被大量应用在无人驾驶汽车,癌症检测,游戏AI等方面。在许多领域中,DNN目前的准确性已经超过人类。与早期的专家手动提取特征或制定规则不同,DNN的优越性能来自于在大量数据上使用统计学习方法,从原始数据中提取高级特征的能力,从而对输入空间进行有效的表示。
在S108中,通过账户识别模型进行账号处理。可例如,通过账户识别模型,对所有的用户数据进行处理,可例如,通过账户识别模型计算得到账户相似度数据,通过判断账户相似度数值是否大于预定阈值,如果账户相似度数值大于预定阈值,则将用户数据判断来源为同一个体;还可例如,将来源为同一个体的用户数据进行关联处理。
根据本发明的用于账号处理的方法,通过由基础数据中提炼出基本属性数据与行为属性数据,再综合考量基本属性数据与行为属性数据利用深度神经网络模型生成账户识别模型的方式,能够使得账号识别的结果更加清晰准确。
在本发明的实施例中,由于深度神经网络的自身特性,使得账户识别模型支持增加更多的基本属性和行为属性,不断丰富比较结果特征向量,而无需改变模型的构建方法和整体的计算方案。具有良好的可扩展性。
应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施例。
在本公开的一种示例性实施例中,用户数据,包括:第一类用户数据与第二类用户数据。在本公开的一种示例性实施例中,第一类用户数据包括:身份证信息完备的用户数据。第二类用户数据可例如为,除去第一类用户数据的所有其他用户数据;第二类用户数据还可例如为,将所有用户数据进行数据抽取筛选之后得到的剩余用户数据,然而本发明不以此为限。可例如,将第二类用户数据输入到已建立的账户识别模型中,通过模型的自动计算,获取第二类用户数据包含的账户的账户相似度数值。在本发明实施例中,将进行两个账号的比较结果特征向量,输入到训练完成的深度神经网络模型,得到这两个账号是否归属于同一个体的概率值,即为这两个账号的相似度。
在本公开的一种示例性实施例中,所述通过所述用户数据与深度神经网络模型建立账户识别模型,包括:将所述第一类用户数据作为深度神经网络模型训练数据;以及通过深度神经网络模型训练获取所述账户识别模型。
进行比较的账号对,需要基于账号对应的各基本属性和行为属性的比较结果,量化两个账号的相似程度,判断是否归属于同一个体。如图2所示,通过第一类用户数据建立账户识别模型可例如包括以下步骤:
定义比较函数:输入两个进行比较的账号属性。对于非数值属性的比较,若两者相同,则结果为1,若两者不同,则结果为2,若至少其中一个缺失,不可比较,则表示未知,为0。再对比较结果{0,1,2}通过One-Hot编码(一位有效编码)进行转化,得到对应编码为{[0,0,1],[0,1,0],[1,0,0]}。对于数值属性的比较,比较结果为两者的差的绝对值。最终将各属性的比较结果拼接起来,输出为比较的结果向量,作为有监督学习的特征。
标签定义:如果两个账号关联的身份证号相同,则这两个账号归属于同一用户的可能性很大,可以作为数据集的标签。标签定义为:若两个比较的账号的身份证号相同,则对应的标签为1,否则为0。
训练测试数据集准备:将所有身份证号完整有效的账号通过上述处理得到有标签数据集,再随机划分为训练集、验证集和测试集,最终用于深度神经网络的训练和测试。
根据本发明的用于账号处理的方法,通过基于深度神经网络的有监督学习方法生成账户识别模型,能够避免主观赋予权重,平衡各属性的贡献度,从而实现自动化可扩展的相似度计算方案。
在本公开的一种示例性实施例中,将基础数据进行数据处理获取用户数据,包括:通过基本属性数据构建倒排索引数据表;以及通过倒排索引数据表处理基础数据以获取用户数据。在本公开的一种示例性实施例中,通过倒排索引数据表处理基础数据以获取用户数据,还包括:对基础数据进行去重处理。
在综合账号各维度信息来识别出相似用户的过程中,必然涉及到账号之间的比较。在以往算法中,直接对全量账号两两比较的,算法的复杂度是O(N2),对于大规模账号来说,这是不可接受的。在全量数据进行两两比较中,绝大部分比较,两个账号之间的所有基本属性都不相同,这种情况下比较的结果就是两个账号不属于同一个人。在本发明实施例中,定义对于进行比较的两个账号,如果这两个账号之间存在至少同一个一个基本属性上的值不为空、有效且相等,对这两个账号的比较定义为有效比较,反之,则定义为无效比较。对于无效比较,即两个账号之间所有基本属性值都各不相同,一方面,这两个账号属于同一个人的概率较小,另一方面,即使这两个账号属于同一个人,也难以通过所获得的数据做出正确的推断。因此如果能够避免无效比较,就能够在确保不影响结果的准确性的前提下极大地减少比较次数,降低计算的复杂度。
如图3所示,通过建立倒排索引(inverted index)的方式,实现只进行有效比较。将基本属性维度的各个属性的所有取值作为索引,索引对应的是包含这些属性取值的账号集合。索引表中的每一项都包括一个属性值和具有该属性值的所有账号。一个索引对应的账号集合中,每个账号在某个属性上的值同为该索引的值,因此这些账号之间两两互相比较都为有效比较。如果两个账号有两个及以上的属性相同,那么这两个账号会同时存在于不同的索引对应的账号集合中。如果集合内的账号之间两两互相比较,这两个账号会在不同的集合中进行重复的比较。为了避免重复比较,每个索引对应的账号集合转化成两两的组合的账号对,将所有集合产生的账号对合并在一起,做一次去重操作,得到互不相同的有效比较的账号对。通过建立倒排索引以及去重生成账号对表能确保所有有效比较都进行并且只进行一次,而所有无效比较都没有进行。最终使得整体计算方案达到最优。
通过倒排索引的计算方案可以将原先的O(N2)计算时间复杂度降低到O(kN)(k为平均每个属性值对应的账号的个数),对于十亿级别的账号规模来说,全量两两比较所需的比较次数为十亿乘以十亿,即1018的比较次数,在实际中,有效比较对的个数约为1011,所需的比较次数降低的为原来的一千万分之一。
根据本发明的用于账号处理的方法,通过倒排索引的方式处理基础数据得到用户数据的方式,能够极大降低了计算复杂度,提高了运行效率。通过建立倒排索引的方式,在确保所有有效比较都进行并且只进行一次的前提下,避免所有无效比较,从而极大减少了比较次数。
在本公开的一种示例性实施例中,判断账户相似度数值是否大于预定阈值,如果账户相似度数值大于预定阈值,则将第二类用户数据进行关联处理,包括:判断账户相似度数值是否大于预定阈值,如果账户相似度数值大于预定阈值,则将第二类用户数据判断来源为同一个体;以及将来源为同一个体的第二类用户数据进行关联处理。预定阈值可例如,通过人工手动设定,还可例如,通过大量的数据分析获取预定的阈值,本发明不以此为限。当账户的相似度数值大于预定阈值时,即可认为该相似度对应的账户属于同一个个体,进而将该相似度对应的账户进行关联处理。
如图4所示,对于两个进行比较的账号,通过身份证号信息结合训练完成的深度神经网络模型判断是否归属于同一个体。可例如进行如下步骤:
第一步:如果两个账号对应的身份证号都存在且有效,如果两个身份证号相同,则判断为同一用户,否则判断为不同用户。
第二步:如果至少其中一个账号对应的身份证号缺失,则将两个账号对应的属性输入到比较函数,返回比较结果的特征向量。将特征向量输入训练好的深度神经网络模型,得到两个账号归属于同一个体的概率值,设定一个固定的阈值,如果概率值大于阈值,则判断为同一用户,否则为不同用户。
根据本发明的用于账号处理的方法,通过设定阈值,高于阈值的判定为同一用户,低于阈值的判定为不同用户。可以根据不同应用场景,通过调整阈值的大小,得到具有不同置信度的结果,满足各种业务需求。
图5是根据另一示例性实施例示出的一种用于账号处理的方法的示意图。如图5所示,在本公开的一种示例性实施例中,将来源为同一个体的第二类用户数据进行关联处理,包括:通过构建关系图的方式将来源为同一个体的第二类用户数据进行关联处理。通过身份证号信息结合训练完成的深度神经网络模型对所有有效比较的账号对做判断,得到这些账号对是否归属于同一个体的结果标签。此时得到的是账号两两间的关系。通过构建关系图的方式,将这些孤立的关系连接到一起,得到同一用户拥有的所有账号。关系图中的点为账号,如果两个账号归属于同一个体,则这两个账号对应的点间存在一条无向边,否则这两个账号对应的点不存在边。通过这些点和边的关系构建的关系图中,一个联通子图所包含的点,两两互为同一用户,即这所有的点都归属于同一个体。因此联通子图的标签即可作为最终的用户个体的标签。
图6是根据另一示例性实施例示出的一种用于账号处理的方法的示意图。
如图6所示,经过层层处理数据的方式,通过量化账号间的相似度,建立索引以实现快速比较,识别,发现个体对应的多个账号,将许多场景下分析解决问题的粒度从账号层面提升到个体层面。对于正常用户而言,识别同一正常用户所属的多个账号,能将基于账号的行为分析提升到基于个体的粒度,对人们的行为的把握更加精准,用户画像的构建更加精准,从而使得上层的个性化推荐和营销策略能够发挥更大的效用。对于恶意用户,能通过识别数量异常的相识账号,全面检测出批量生成的恶意注册账号,及时采取有效封禁措施,杜绝不当牟利。针对风险欺诈,不法分子通常采用注册多个账号的方式,在同一平台重复作案,通过有效识别风险用户所关联的多个欺诈账号,防范欺诈风险。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图7是根据一示例性实施例示出的一种用于账号处理的装置的框图。
其中,数据获取模块702用于获取基础数据,基础数据包括基本属性数据与行为属性数据。
数据处理模块704用于将基础数据进行处理以获取用户数据。
模型建立模块706用于通过用户数据与深度神经网络模型建立账户识别模型。
账号处理模块708用于通过账户识别模型进行账号处理。
其中,账号处理模块708还包括:相似度计算子模块(图中未示出)用于通过账户识别模型,获取第二类用户数据的账户相似度数值。
处理子模块(图中未示出)用于通过账户相似度数值与预定阈值进行比较的结果进行账号处理。
根据本发明的用于账号处理的装置,通过由基础数据中提炼出基本属性数据与行为属性数据,再综合考量基本属性数据与行为属性数据利用深度神经网络模型生成账户识别模型的方式,能够使得账号识别的结果更加清晰准确,而且支持增加更多的基本属性和行为属性,不断丰富比较结果特征向量,而无需改变模型的构建方法和整体的计算方案。具有良好的可扩展性。
图8是根据一示例性实施例示出的一种用于账号处理的电子设备的框图。
如图8所示,终端设备80可包括处理器810、存储器820、发射器830及接收器840。
存储器820可存储用于处理器810控制操作处理的指令。存储器820可包括易失性或非易失性存储器,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)等,本发明对此没有限制。
处理器810可调用存储器820中存储的指令控制相关操作。根据一实施例,存储器820存储用于处理器810控制以下操作的指令:获取基础数据,基础数据包括基本属性数据与行为属性数据;将基础数据进行处理以获取用户数据;通过用户数据与深度神经网络模型建立账户识别模型;以及通过账户识别模型进行账号处理。易于理解,存储器820还可存储用于处理器810控制根据本发明实施例的其他操作的指令,这里不再赘述。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。
通过以上的详细描述,本领域的技术人员易于理解,根据本发明实施例的用于账号处理的方法、装置及电子设备具有以下优点中的一个或多个。
根据一些实施例,本发明的用于账号处理的方法,通过由基础数据中提炼出基本属性数据与行为属性数据,再综合考量基本属性数据与行为属性数据利用深度神经网络模型生成账户识别模型的方式,能够使得账号识别的结果更加清晰准确,而且支持增加更多的基本属性和行为属性,不断丰富比较结果特征向量,而无需改变模型的构建方法和整体的计算方案。具有良好的可扩展性。
根据另一些实施例,本发明的用于账号处理的方法,通过由基础数据中提炼出基本属性数据与行为属性数据,再综合考量基本属性数据与行为属性数据进而进行账户识别的方式,能够使得账号识别的结果更加清晰准确,而且支持增加更多的基本属性和行为属性,不断丰富比较结果特征向量,而无需改变模型的构建方法和整体的计算方案。具有良好的可扩展性。
根据再一些实施例,本发明的用于账号处理的方法,通过基于深度神经网络的有监督学习方法生成账户识别模型,能够避免主观赋予权重,平衡各属性的贡献度,从而实现自动化可扩展的相似度计算方案。
以上具体地示出和描述了本发明的示例性实施例。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
此外,本说明书说明书附图所示出的结构、比例、大小等,均仅用以配合说明书所公开的内容,以供本领域技术人员了解与阅读,并非用以限定本公开可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本公开所能产生的技术效果及所能实现的目的下,均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语,也仅为便于叙述的明了,而非用以限定本公开可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当也视为本发明可实施的范畴。

Claims (13)

1.一种用于账号处理的方法,其特征在于,包括:
获取基础数据,所述基础数据包括基本属性数据与行为统计指标数据;
将基础数据进行处理以获取用户数据;
所述将基础数据进行处理以获取用户数据,包括:
将基础数据进行数据处理以获取第一数据;以及
通过基本属性数据构建倒排索引数据表;以及通过倒排索引数据表处理所述第一数据以获取用户数据;
通过所述用户数据与深度神经网络模型建立账户识别模型;以及
通过所述账户识别模型进行账号处理;
所述通过所述账户识别模型进行账号处理,包括:
将进行比较的任意两个账号分别对应的基础数据输入比较函数,得到比较结果特征向量;其中,所述任意两个账号分别对应的基本属性数据的比较结果为0、1或2,所述任意两个账号分别对应的行为统计指标数据的比较结果为该两个行为统计指标数据的差值的绝对值;
通过所述账户识别模型对所述比较结果特征向量进行处理。
2.如权利要求1所述的方法,其特征在于,所述通过倒排索引数据表处理所述基础数据以获取所述用户数据,还包括:
对基础数据进行去重处理。
3.如权利要求1所述的方法,其特征在于,所述用户数据,包括:
第一类用户数据与第二类用户数据。
4.如权利要求3所述的方法,其特征在于,所述第一类用户数据包括:
身份证信息完备的用户数据。
5.如权利要求3所述的方法,其特征在于,所述通过所述用户数据与深度神经网络模型建立账户识别模型,包括:
将所述第一类用户数据作为深度神经网络模型训练数据;以及
通过深度神经网络模型训练获取所述账户识别模型。
6.如权利要求3所述的方法,其特征在于,所述通过所述账户识别模型进行账号处理,包括:
通过所述账户识别模型,获取所述第二类用户数据的账户相似度数值;以及
通过所述账户相似度数值与预定阈值进行比较的结果进行账号处理。
7.如权利要求6所述的方法,其特征在于,所述通过所述账户相似度数值与预定阈值进行比较的结果进行账号处理,包括:
判断所述账户相似度数值是否大于预定阈值;以及
如果所述账户相似度数值大于所述预定阈值,则将所述第二类用户数据进行关联处理。
8.如权利要求7所述的方法,其特征在于,所述如果所述账户相似度数值大于所述预定阈值,则将所述第二类用户数据进行关联处理,包括:
如果所述账户相似度数值大于所述预定阈值,则将所述第二类用户数据判断来源为同一个体;以及
将来源为同一个体的所述第二类用户数据进行关联处理。
9.如权利要求8所述的方法,其特征在于,所述将来源为同一个体的所述第二类用户数据进行关联处理,包括:
通过构建关系图的方式将来源为同一个体的所述第二类用户数据进行关联处理。
10.一种用于账号处理的装置,其特征在于,包括:
数据获取模块,用于获取基础数据,所述基础数据包括基本属性数据与行为统计指标数据;
数据处理模块,用于将基础数据进行处理以获取用户数据;
所述数据处理模块,具体用于将基础数据进行数据处理以获取第一数据;以及通过基本属性数据构建倒排索引数据表;以及通过倒排索引数据表处理所述第一数据以获取用户数据;
模型建立模块,用于通过所述用户数据与深度神经网络模型建立账户识别模型;以及
账号处理模块,用于通过所述账户识别模型进行账号处理;
所述账号处理模块,具体用于将进行比较的任意两个账号分别对应的基础数据输入比较函数,得到比较结果特征向量;通过所述账户识别模型对所述比较结果特征向量进行处理,其中,所述任意两个账号分别对应的基本属性数据的比较结果为0、1或2,所述任意两个账号分别对应的行为统计指标数据的比较结果为该两个行为统计指标数据的差值的绝对值。
11.如权利要求10所述的装置,其特征在于,所述用户数据,包括:
第一类用户数据与第二类用户数据。
12.如权利要求11所述的装置,其特征在于,所述账号处理模块,包括:
相似度计算子模块,用于通过所述账户识别模型,获取所述第二类用户数据的账户相似度数值;以及
处理子模块,用于通过所述账户相似度数值与预定阈值进行比较的结果进行账号处理。
13.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
获取基础数据,所述基础数据包括基本属性数据与行为统计指标数据;
将基础数据进行处理以获取用户数据;
所述将基础数据进行处理以获取用户数据,包括:
将基础数据进行数据处理以获取第一数据;以及
通过基本属性数据构建倒排索引数据表;以及通过倒排索引数据表处理所述第一数据以获取用户数据;
通过所述用户数据与深度神经网络模型建立账户识别模型;以及
通过所述账户识别模型进行账号处理;
所述通过所述账户识别模型进行账号处理,包括:
将进行比较的任意两个账号分别对应的基础数据输入比较函数,得到比较结果特征向量;其中,所述任意两个账号分别对应的基本属性数据的比较结果为0、1或2,所述任意两个账号分别对应的行为统计指标数据的比较结果为该两个行为统计指标数据的差值的绝对值;
通过所述账户识别模型对所述比较结果特征向量进行处理。
CN201710321805.XA 2017-05-09 2017-05-09 用于账号处理的方法、装置及电子设备 Active CN107066616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710321805.XA CN107066616B (zh) 2017-05-09 2017-05-09 用于账号处理的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710321805.XA CN107066616B (zh) 2017-05-09 2017-05-09 用于账号处理的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN107066616A CN107066616A (zh) 2017-08-18
CN107066616B true CN107066616B (zh) 2020-12-22

Family

ID=59596223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710321805.XA Active CN107066616B (zh) 2017-05-09 2017-05-09 用于账号处理的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN107066616B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109561050B (zh) * 2017-09-26 2021-11-09 武汉斗鱼网络科技有限公司 一种识别批量账号的方法和装置
CN110278175B (zh) * 2018-03-14 2020-06-02 阿里巴巴集团控股有限公司 图结构模型训练、垃圾账户识别方法、装置以及设备
CN108334647A (zh) * 2018-04-12 2018-07-27 阿里巴巴集团控股有限公司 保险欺诈识别的数据处理方法、装置、设备及服务器
CN108536845A (zh) * 2018-04-16 2018-09-14 中国刑事警察学院 残缺数据库文件检验方法
CN109191334A (zh) * 2018-05-16 2019-01-11 中国刑事警察学院 五重去重传销数据分析方法
CN110555301B (zh) * 2018-05-31 2023-05-09 阿里巴巴集团控股有限公司 账号的权限调整方法、装置和设备及账号权限处理方法
CN108984721A (zh) * 2018-07-10 2018-12-11 阿里巴巴集团控股有限公司 垃圾账号的识别方法和装置
CN109165950B (zh) * 2018-08-10 2023-02-03 哈尔滨工业大学(威海) 一种基于金融时间序列特征的异常交易识别方法,设备及可读存储介质
CN109657437A (zh) * 2018-09-27 2019-04-19 平安科技(深圳)有限公司 账户管理方法、设备、装置及计算机可读存储介质
CN109543040A (zh) * 2018-11-26 2019-03-29 北京知道创宇信息技术有限公司 相似账户识别方法及装置
CN109741629A (zh) * 2018-12-21 2019-05-10 平安科技(深圳)有限公司 用户画像实时构建方法、系统、计算机设备及存储介质
CN109978033B (zh) * 2019-03-15 2020-08-04 第四范式(北京)技术有限公司 同操作人识别模型的构建与同操作人识别的方法和装置
CN112131502A (zh) * 2019-06-25 2020-12-25 北京京东尚科信息技术有限公司 数据处理方法、数据处理装置、电子设备和介质
CN110362981B (zh) * 2019-06-29 2022-12-02 上海淇毓信息科技有限公司 基于可信设备指纹判断异常行为的方法及系统
CN110413623A (zh) * 2019-08-05 2019-11-05 北京深醒科技有限公司 一种人员信息多账号查询方法
CN110489964A (zh) * 2019-08-21 2019-11-22 北京达佳互联信息技术有限公司 账号检测方法、装置、服务器及存储介质
CN112667869B (zh) * 2019-10-15 2024-05-03 阿里巴巴集团控股有限公司 数据处理方法、设备、系统及存储介质
CN110851661B (zh) * 2019-10-25 2023-04-21 北京深演智能科技股份有限公司 用户id映射关系的确定方法及装置、电子设备
CN111340062A (zh) * 2020-02-04 2020-06-26 恩亿科(北京)数据科技有限公司 一种映射关系确定方法及装置
CN111447082B (zh) * 2020-03-05 2022-09-02 支付宝(杭州)信息技术有限公司 关联账号的确定方法、装置和关联数据对象的确定方法
CN111915381A (zh) * 2020-09-14 2020-11-10 北京嘀嘀无限科技发展有限公司 检测作弊行为的方法、装置、电子设备和存储介质
CN112261484B (zh) * 2020-12-21 2021-04-27 武汉斗鱼鱼乐网络科技有限公司 一种目标用户识别方法、装置、电子设备和存储介质
CN113779346A (zh) * 2021-01-14 2021-12-10 北京沃东天骏信息技术有限公司 用于识别一人多账号的方法及装置
CN113779022A (zh) * 2021-02-07 2021-12-10 北京沃东天骏信息技术有限公司 数据回溯输出方法及装置、电子设备、存储介质
CN112685614B (zh) * 2021-03-17 2021-06-18 中国电子科技集团公司第三十研究所 一种社交媒体机器人群体快速检测方法
CN113591898B (zh) * 2021-06-04 2024-01-02 广州三七极创网络科技有限公司 游戏中账号的分类方法、装置及电子设备
CN114020985B (zh) * 2021-11-10 2022-10-14 深圳安巽科技有限公司 一种诈骗反制拦截方法、系统及存储介质
CN114742479B (zh) * 2022-06-10 2022-09-06 深圳竹云科技股份有限公司 账号识别方法、装置、服务器及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573055A (zh) * 2015-01-21 2015-04-29 南京烽火星空通信发展有限公司 一种网络账号快速检索的分词方法
CN104598780A (zh) * 2013-10-31 2015-05-06 阿里巴巴集团控股有限公司 账户识别方法和系统
CN105808988A (zh) * 2014-12-31 2016-07-27 阿里巴巴集团控股有限公司 一种识别异常账户的方法及装置
CN106470109A (zh) * 2015-08-21 2017-03-01 阿里巴巴集团控股有限公司 一种身份识别方法和设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768659B (zh) * 2011-05-03 2015-06-24 阿里巴巴集团控股有限公司 重复账号自动识别方法和系统
US9477483B2 (en) * 2013-01-03 2016-10-25 Tapjoy, Inc. Tracking mobile app installations
US20150213418A1 (en) * 2014-01-29 2015-07-30 The Bank Of New York Mellon Ach payment authentication system and method
CN106126654B (zh) * 2016-06-27 2019-10-18 中国科学院信息工程研究所 一种基于用户名相似度的跨网站用户关联方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598780A (zh) * 2013-10-31 2015-05-06 阿里巴巴集团控股有限公司 账户识别方法和系统
CN105808988A (zh) * 2014-12-31 2016-07-27 阿里巴巴集团控股有限公司 一种识别异常账户的方法及装置
CN104573055A (zh) * 2015-01-21 2015-04-29 南京烽火星空通信发展有限公司 一种网络账号快速检索的分词方法
CN106470109A (zh) * 2015-08-21 2017-03-01 阿里巴巴集团控股有限公司 一种身份识别方法和设备

Also Published As

Publication number Publication date
CN107066616A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
CN107066616B (zh) 用于账号处理的方法、装置及电子设备
Gaddis How black are Lakisha and Jamal? Racial perceptions from names used in correspondence audit studies
CN113657545B (zh) 用户业务数据的处理方法、装置、设备及存储介质
CN112395500B (zh) 内容数据推荐方法、装置、计算机设备及存储介质
CN109492180A (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
CN111784392A (zh) 基于孤立森林的异常用户群组检测方法、装置、设备
CN112927061B (zh) 用户操作检测方法及程序产品
CN111260220B (zh) 群控设备识别方法、装置、电子设备和存储介质
CN113255370A (zh) 基于语义相似度的行业类型推荐方法、装置、设备及介质
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN114202336A (zh) 一种金融场景下的风险行为监测方法及系统
CN115311042A (zh) 商品推荐方法、装置、计算机设备和存储介质
CN112685635A (zh) 基于分类标签的项目推荐方法、装置、服务器和存储介质
CN114780606B (zh) 一种大数据挖掘方法及系统
CN115618415A (zh) 敏感数据识别方法、装置、电子设备和存储介质
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
JP7092194B2 (ja) 情報処理装置、判定方法、及びプログラム
Jiang et al. Camera fingerprint: A new perspective for identifying user's identity
Eyal et al. Identifying missing node information in social networks
CN114399367A (zh) 保险产品推荐方法、装置、设备及存储介质
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
CN110610378A (zh) 产品需求分析方法、装置、计算机设备和存储介质
CN112488140A (zh) 一种数据关联方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176

Applicant after: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address before: 101111 Room 221, 2nd Floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone

Applicant before: BEIJING JINGDONG FINANCIAL TECHNOLOGY HOLDING Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Patentee after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Patentee before: Jingdong Digital Technology Holding Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Patentee after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176

Patentee before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.