CN113569910A - 账户类型识别方法、装置、计算机设备及存储介质 - Google Patents
账户类型识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113569910A CN113569910A CN202110711185.7A CN202110711185A CN113569910A CN 113569910 A CN113569910 A CN 113569910A CN 202110711185 A CN202110711185 A CN 202110711185A CN 113569910 A CN113569910 A CN 113569910A
- Authority
- CN
- China
- Prior art keywords
- account
- mixture model
- gaussian mixture
- registration information
- feature matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000000203 mixture Substances 0.000 claims abstract description 119
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 88
- 238000003064 k means clustering Methods 0.000 claims abstract description 50
- 230000002159 abnormal effect Effects 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 68
- 230000009467 reduction Effects 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims description 23
- 238000000513 principal component analysis Methods 0.000 claims description 11
- 230000008901 benefit Effects 0.000 abstract description 3
- 239000013598 vector Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种账户类型识别方法方法、装置、计算机设备及存储介质,该方法包括:获取每一账户的注册信息;基于K均值聚类算法,根据注册信息对账户进行分类,并计算初始值;构建高斯混合模型;根据所述初始值,对高斯混合模型的参数进行初始化;根据最大期望算法对高斯混合模型进行迭代,对高斯混合模型的参数进行更新,得到更新后的高斯混合模型;使得高斯混合模型的均值和方差更加接近原始数据的真实情况,进而提升通过高斯混合模型对账户类型识别准确度,基于更新后的高斯混合模型,对账户的类型进行识别,甄别出异常账户,并对异常账户进行相应处理,以更好地智能净化数据库中的数据。
Description
技术领域
本发明涉及互联网技术领技术领域,尤其涉及一种账户类型识别方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术的不断发展,越来越多企业通过数据化运维的方式促进互联网的落地应用;充分利用大数据技术,采集并打通多个业务系统数据,统一进行数据存储和处理,利用数据分析和机器学习的方法去挖掘数据价值,支持企业智能净化数据库中的数据。
如此,越来越多企业通过软件开发研制营销APP(application,手机软件),通过在营销APP向用户分发一定数量产品促销优惠券,以激励用户购买该产品。然而,当一些优惠券优惠力度较大时,容易出现部分用户恶意注册账户抢优惠券,再进行二次买卖,从中谋取利益,不能充分发挥优惠券的真正促销作用,因此,如何准确识别出异常账户,以使优惠券更合理地投放成为企业亟需解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种账户类型识别方法、装置、计算机设备及存储介质。
例如,提供一种账户类型识别方法,该方法包括:
获取每一账户的注册信息;
基于K均值聚类算法,根据所述注册信息对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差;
构建高斯混合模型;
根据所述初始值,对所述高斯混合模型的参数进行初始化;
根据最大期望算法对所述高斯混合模型进行迭代,对所述高斯混合模型的参数进行更新,得到更新后的高斯混合模型;
基于所述更新后的高斯混合模型,对账户的类型进行识别。
在其中一个实施例中,所述注册信息包括:账户名、手机号、注册时间、注册网际协议地址及经办员工工号。
在其中一个实施例中,所述基于K均值聚类算法,根据所述注册信息对所述账户进行分类的步骤,包括:
基于K均值聚类算法,根据所述注册信息将所述账户分成正常账户和异常账户。
在其中一个实施例中,所述的账户类型识别方法还包括根据所述注册信息,构建特征矩阵;
所述基于K均值聚类算法,根据所述注册信息对所述账户进行分类,并计算初始值的步骤,包括:
基于K均值聚类算法,根据所述特征矩阵对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差。
在其中一个实施例中,所述的账户类型识别方法还包括对所述特征矩阵进行降维处理,得到降维后的特征矩阵;
所述基于K均值聚类算法,根据所述特征矩阵对所述账户进行分类,并计算初始值的步骤,包括:
基于K均值聚类算法,根据所述降维后的特征矩阵对所述账户进行分类,并计算初始值。
在其中一个实施例中,所述对所述特征矩阵进行降维处理,得到降维后的特征矩阵的步骤,包括:
根据主成分分析算法对所述特征矩阵进行降维处理,得到所述降维后的特征矩阵。
在其中一个实施例中,高斯混合模型的表达式为:
在其中一个实施例中,一种账户类型识别装置,该装置包括:
获取模块,用于获取每一账户的注册信息;
聚类模块,用于基于K均值聚类算法,根据所述注册信息对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差;
构建模块,用于构建高斯混合模型;
初始化模块,用于根据所述初始值,对所述高斯混合模型的参数进行初始化;
迭代模块,用于根据最大期望算法对所述高斯混合模型进行迭代,对所述高斯混合模型的参数进行更新,得到更新后的高斯混合模型;
识别模块,用于基于所述更新后的高斯混合模型,对账户的类型进行识别。
在其中一个实施例中,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例中所述方法的步骤。
在其中一个实施例中,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例中所述的方法的步骤。
上述账户类型识别方法、装置、计算机设备及存储介质,通过获取每一账户的注册信息,基于K均值聚类算法对账户进行分类及计算初始值,并将初始值作为高斯混合模型的参数的迭代初值,并根据最大期望算法对高斯混合模型进行迭代,以对高斯混合模型的参数进行更新,使得高斯混合模型的均值和方差更加接近原始数据的真实情况,进而提升通过高斯混合模型对账户类型识别准确度,甄别出异常账户,并对异常账户进行相应处理,以更好地智能净化数据库中的数据。
附图说明
图1为本发明一个实施例中账户类型识别方法的流程示意图;
图2为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供了一种账户类型识别方法,该方法包括:
获取每一账户的注册信息;
基于K均值聚类算法,根据所述注册信息对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差;
构建高斯混合模型;
根据所述初始值,对所述高斯混合模型的参数进行初始化;
根据最大期望算法对所述高斯混合模型进行迭代,对所述高斯混合模型的参数进行更新,得到更新后的高斯混合模型;
基于所述更新后的高斯混合模型,对账户的类型进行识别。
上述账户类型识别方法,通过获取每一账户的注册信息,基于K均值聚类算法对账户进行分类及计算初始值,并将初始值作为高斯混合模型的参数的迭代初值,并根据最大期望算法对高斯混合模型进行迭代,以对高斯混合模型的参数进行更新,使得高斯混合模型的均值和方差更加接近原始数据的真实情况,进而提升通过高斯混合模型对账户类型识别准确度,甄别出异常账户,并对异常账户进行相应处理,以更好地智能净化数据库中的数据。
请参阅图1,在其中一个实施例中,提供一种账户类型识别方法,该方法包括:
S110,获取每一账户的注册信息。
具体的,对于APP,用户在使用是需进行账户注册,填写相关注册信息,对应的APP会记录该注册信息,通过调取以获得每一账户的注册信息。该注册信息可以包括账户名、手机号、注册时间、注册网际协议地址及经办员工工号中的一种或多种。
S120,基于K均值聚类算法,根据所述注册信息对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差;
具体的,K均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个原始数据与各个预设聚类中心之间的距离,将每个原始数据划分到距离它最近的聚类中心的数据类中。划分给同一个聚类中心的所有原始数据代表一个类簇,将所有原始数据都划分到不同类簇后会产生新的聚类中心。然后利用新的聚类中心重新对原始数据进行划分,直到得到较满意的聚类效果。
具体的,通过K均值聚类算法,可以根据注册信息对账户进行初步分类,即对数据(账户)进行粗略分类,例如分为正常账户和异常账户,并计算出各类账户的初始值。
S130,构建高斯混合模型;
具体的,高斯混合模型是用高斯概率密度函数(正态分布曲线)精确地量化事物,它是一个将事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。本步骤中,通过高斯混合模型拟合每一账户的注册信息,根据已知的观察数据可以训练出该账户簇类的最优的均值和方差,从而提取出异常账户簇类。
S140,根据所述初始值,对所述高斯混合模型的参数进行初始化。
具体的,根据所述初始值,对所述高斯混合模型的参数进行初始化,得到初始化后的高斯混合模型。
具体的,对于高斯混合模型而言,其只有均值和方差两个位置参数;高斯混合模型参数的设置直接影响账户类型识别的准确性。账户类型是通过K均值聚类算法进行分类,将K均值聚类算法计算得到的账户类型的初始值,即均值和方差,作为高斯混合模型的参数的迭代初值,可以进一步提升后续对高斯混合模型进行迭代时函数收敛效率,提升账户类型识别准确性。
S150,根据最大期望算法对所述高斯混合模型进行迭代,对所述高斯混合模型的参数进行更新,得到更新后的高斯混合模型。
具体的,根据最大期望算法对所述高斯混合模型进行迭代,即根据最大期望算法对所述初始化后的高斯混合模型进行迭代。
具体的,最大期望算法即EM(expectation-maximization)算法,其是含有隐变量的概率模型参数的极大似然估计法,或极大后验概率法,也就是求期望和求最大值。EM算法分为E步和M步,其中E步是计算在给定观察数据和当前估计参数下隐变量数据的条件概率分布的期望的表达式,M步是计算使得E步中表达式结果最大化的模型参数。整个算法的计算过程是不断迭代优化参数的过程,M步估算出的参数作为E步的参数初值,然后不停的重复E步和M步直到算法收敛。如此,通过最大期望算法不断对高斯混合模型进行迭代,更新使得高斯模型的均值和方差更加接近原始数据的真实情况。
S160,基于所述更新后的高斯混合模型,对账户的类型进行识别。
具体的,更新后的高斯混合模型中的参数更加贴近原始数据的真实情况,即能够更为准确地对账户类型进行识别,通过将账户的注册信息输入至更新后的高斯混合模型,以对账户的类型进行识别。对于高斯混合模型,其输出的高斯概率密度即表述该账户属于某一类型的概率。
需说明的是,传统的对账户类型识别方法,通常采用获取账户注册后的行为特征进行分析,以鉴别出异常账户。例如:利用微博中“水军”发表的评论内容具有重复或者相似性,采用基于文本相似度的微博网络“水军”发现算法,根据“水军”发帖的重复性或者相似性很高的特点,通过对多个相同或相似的评论内容进行统计分析找出出现次数频繁的用户,初步定义为“水军”。再对这些用户的评论内容进行分析,从而判断该账户为微博“水军”账户。而对于账户注册初期,账户没有行为特征时,则无法进行账户类型的甄别。而本申请的账户类型识别方法通过获取账户的注册信息,通过注册信息对账户类型进行识别,可适用于在账户注册后短时间内对账户类型进行准确识别,即可适用于在账户注册初期,在未采集账户的行为特征时,即可以对账户类型进行识别。
具体的,本申请提供的账户类型识别方法可以应用于判断某APP上账户是否为僵尸账户,通过该方法首先可以找到注册该僵尸账户的中石化内部人员,其次可以阻断僵尸账户领取的电子券被二次套用,使电子券能够真正起到促销的作用。本实施例中,僵尸账户又称为异常账户,是指在一段时间内没有一笔交易的账户,即在一段时间内没有行为特征。对于该账户无法通过行为特征进行账户类型识别。
上述账户类型识别方法,通过获取每一账户的注册信息,基于K均值聚类算法对账户进行分类及计算初始值,并将初始值作为高斯混合模型的参数的迭代初值,并根据最大期望算法对高斯混合模型进行迭代,以对高斯混合模型的参数进行更新,使得高斯混合模型的均值和方差更加接近原始数据的真实情况,进而提升通过高斯混合模型对账户类型识别准确度,甄别出异常账户,并对异常账户进行相应处理,以更好地只能净化数据库中的数据。
在其中一个实施例中,所述基于所述更新后的高斯混合模型,对账户的类型进行识别的步骤,包括:
基于所述更新后的高斯混合模型,对账户的类型进行识别,提取出异常账户。
在其中一个实施例中,所述账户类型识别方法还包括:对所述异常账户剔除处理。通过账户类型识别方法,识别出异常账户,对异常账户进行剔除处理,可以防止用户恶意注册账户,领取电子券进行二次套用,进一步地,还可以找到注册该账户的中石化内部人员,其次可以阻断僵尸账户领取的电子券被二次套用,使电子券能够真正起到促销的作用,以实现智能净化数据库中的数据的效果。进一步地,在一个实施例中,所述账户类型识别方法还包括:对异常账户进行权限限制。具体的,例如,对于该异常账户,增设使用权限,以使该账户无法直接领取电子券,有效防止电子券被二次套用。
在其中一个实施例中,所述注册信息包括:账户名、手机号、注册时间、注册网际协议地址及经办员工工号。具体的,每一账户在注册时都需要登记注册信息,该注册信息可以包括账户名、手机号、注册时间、注册网际协议地址及经办员工工号中的一种或多种。其中,注册网际协议地址即注册IP(Internet Protocol)地址,经办员工工号即办理账户注册的企业/公司内部员工工号,或者内部员工的姓名。可以理解的是,上述注册信息均是与账户分类关联度高的注册信息,通过采集获取账户的账户名、手机号、注册时间、注册网际协议地址及经办员工工号可以更好地对账户进行分类。
在其中一个实施例中,所述基于K均值聚类算法,根据所述注册信息对所述账户进行分类的步骤,包括:
基于K均值聚类算法,根据所述注册信息将所述账户分成正常账户和异常账户。
具体的,k均值聚类算法是一种迭代求解的聚类分析算法,其步骤是预将数据分为K组,随机选取K个对象作为初始的聚类中心,然后计算每个原始数据与各个预设聚类中心之间的距离,将每个原始数据划分到距离它最近的聚类中心的数据类中;划分给同一个聚类中心的所有原始数据代表一个类簇,将所有原始数据都划分到不同类簇后会产生新的聚类中心;然后利用新的聚类中心重新对原始数据进行划分,直到得到较满意的聚类效果。对于本实施例中,将K设置为2,即预选将账户类型分为两组,即正常账户和异常账户。即只需要将异常账户提取出来即可。本实施例中的异常账户即僵尸账户。
在其中一个实施例中,所述的账户类型识别方法还包括根据所述注册信息,构建特征矩阵;
所述基于K均值聚类算法,根据所述注册信息对所述账户进行分类,并计算初始值的步骤,包括:
基于K均值聚类算法,根据所述特征矩阵对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差。
具体的,所述注册信息中包含多个类型的数据,即包含多个特征,例如注册信息包括账户名、手机号、注册时间、注册网际协议地址及经办员工工号五个特征向量,将这五个特征向量拼成一个长的列向量,将所有账户的列向量数据转置后拼成特征矩阵,且每行代表一个客户的原始数据向量。这样,后续只需将特征矩阵作为样本数据进行处理即可。
在其中一个实施例中,所述的账户类型识别方法还包括对所述特征矩阵进行降维处理,得到降维后的特征矩阵;
所述基于K均值聚类算法,根据所述特征矩阵对所述账户进行分类,并计算初始值的步骤,包括:
基于K均值聚类算法,根据所述降维后的特征矩阵对所述账户进行分类,并计算初始值。
在其中一个实施例中,所述对所述特征矩阵进行降维处理,得到降维后的特征矩阵的步骤,包括:
根据主成分分析算法对所述特征矩阵进行降维处理,得到所述降维后的特征矩阵。
具体的,主成分分析算法即PCA(Principal Component Analysis,主要成分分析)降维算法,在数据压缩,消除冗余等领域有着广泛的使用。首先对样本做中心化处理,也就是使得样本的均值为0。然后计算去均值后数据样本的协方差矩阵,协方差矩阵可以既表示方差又表示协方差,协方差矩阵是对称矩阵,矩阵的对角线上是方差,其余的值都是协方差。然后通过矩阵变换将原始协方差矩阵分解为正交基矩阵和特征值矩阵的乘积,根据能量值的设定取一定数量的正交基,利用原始数据乘以提取的正交基即可得到降维后的特征数据。
在特征提取与处理时,涉及高维特征向量的问题往往容易陷入维度灾难。随着数据集维度的增加,算法学习需要的样本数量呈指数级增加。本申请中,遇到这样的大数据是非常不利的,而且从大数据集中学习需要更多的内存和处理能力。另外,随着维度的增加,数据的稀疏性会越来越高。在高维向量空间中探索同样的数据集比在同样稀疏的数据集中探索更加困难。PCA将数据投射到一个低维子空间实现降维。例如,二维数据集降维就是把点投射成一条线,数据集的每个样本都可以用一个值表示,不需要两个值。三维数据集可以降成二维,就是把变量映射成一个平面。一般情况下,n维数据集可以通过映射降成k维子空间,其中k≤n。通过数据降维可以提取原始数据中更加有用的信息,避免噪声数据对聚类的干扰,还可以降低后续计算过程中的计算量。
在其中一个实施例中,所述高斯混合模型的表达式为:
具体的,φ(y|θk)也可以称为高斯概率密度。即账户属于θk类的概率,由式(1)可知,对于高斯混合模型,其未知参数只有μk及两个参数,通过最大期望算法对所述高斯混合模型进行迭代,不断的迭代更新使得高斯模型的均值和方差更加接近原始数据的真实情况。
以下是一具体实施例,一种账户类型识别方法,该方法包括:
获取每一账户的注册信息,其中所述注册信息包括:账户名、手机号、注册时间、注册网际协议地址及经办员工工号;
根据所述注册信息,构建特征矩阵;
根据主成分分析算法对所述特征矩阵进行降维处理,得到所述降维后的特征矩阵;
基于K均值聚类算法,根据所述降维后的特征矩阵对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差;
构建高斯混合模型;其中所述高斯混合模型的表达式为:
根据最大期望算法对所述高斯混合模型进行迭代,对所述高斯混合模型的参数进行更新,得到更新后的高斯混合模型;
基于所述更新后的高斯混合模型,对账户的类型进行识别。
上述账户类型识别方法,通过获取每一账户的注册信息,基于K均值聚类算法对账户进行分类及计算初始值,并将初始值作为高斯混合模型的参数的迭代初值,并根据最大期望算法对高斯混合模型进行迭代,以对高斯混合模型的参数进行更新,使得高斯混合模型的均值和方差更加接近原始数据的真实情况,进而提升通过高斯混合模型对账户类型识别准确度,甄别出异常账户,并对异常账户进行相应处理,以更好地智能净化数据库中的数据。
在其中一个实施例中,提供一种账户类型识别装置,所述账户类型识别装置采用上述任一实施例所述账户类型识别方法实现。在其中一个实施例中,一种账户类型识别装置,该装置包括:
获取模块,用于获取每一账户的注册信息;
聚类模块,用于基于K均值聚类算法,根据所述注册信息对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差;
构建模块,用于构建高斯混合模型;
初始化模块,用于根据所述初始值,对所述高斯混合模型的参数进行初始化;
迭代模块,用于根据最大期望算法对所述高斯混合模型进行迭代,对所述高斯混合模型的参数进行更新,得到更新后的高斯混合模型;
识别模块,用于基于所述更新后的高斯混合模型,对账户的类型进行识别。
上述账户类型识别装置,通过获取每一账户的注册信息,基于K均值聚类算法对账户进行分类及计算初始值,并将初始值作为高斯混合模型的参数的迭代初值,并根据最大期望算法对高斯混合模型进行迭代,以对高斯混合模型的参数进行更新,使得高斯混合模型的均值和方差更加接近原始数据的真实情况,进而提升通过高斯混合模型对账户类型识别准确度,甄别出异常账户,并对异常账户进行相应处理,以更好地智能净化数据库中的数据。
在其中一个实施例中,所述注册信息包括:账户名、手机号、注册时间、注册网际协议地址及经办员工工号。
在其中一个实施例中,所述聚类模块用于基于K均值聚类算法,根据所述注册信息将所述账户分成正常账户和异常账户。
在其中一个实施例中,所述的账户类型识别装置还包括矩阵模块,所述矩阵模块用于根据所述注册信息,构建特征矩阵;
所述聚类模块用于基于K均值聚类算法,根据所述特征矩阵对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差。
在其中一个实施例中,所述的账户类型识别装置还包括降维模块,所述降维模块对所述特征矩阵进行降维处理,得到降维后的特征矩阵;
所述聚类模块用于基于K均值聚类算法,根据所述降维后的特征矩阵对所述账户进行分类,并计算初始值。
在其中一个实施例中,所述降维模块还用于根据主成分分析算法对所述特征矩阵进行降维处理,得到所述降维后的特征矩阵。
在其中一个实施例中,高斯混合模型的表达式为:
在其中一个实施例中,提供了一种计算机设备,其内部结构图可以如图2所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种账户类型识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在其中一个实施例中,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时上述任一实施例中所述账户类型识别方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取每一账户的注册信息;
基于K均值聚类算法,根据所述注册信息对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差;
构建高斯混合模型;
根据所述初始值,对所述高斯混合模型的参数进行初始化;
根据最大期望算法对所述高斯混合模型进行迭代,对所述高斯混合模型的参数进行更新,得到更新后的高斯混合模型;
基于所述更新后的高斯混合模型,对账户的类型进行识别。
在其中一个实施例中,所述注册信息包括:账户名、手机号、注册时间、注册网际协议地址及经办员工工号。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于K均值聚类算法,根据所述注册信息将所述账户分成正常账户和异常账户。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据所述注册信息,构建特征矩阵;
基于K均值聚类算法,根据所述特征矩阵对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:
对所述特征矩阵进行降维处理,得到降维后的特征矩阵;
基于K均值聚类算法,根据所述降维后的特征矩阵对所述账户进行分类,并计算初始值。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据主成分分析算法对所述特征矩阵进行降维处理,得到所述降维后的特征矩阵。
在其中一个实施例中,所述高斯混合模型的表达式为:
在其中一个实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例中所述账户类型识别方法的步骤。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取每一账户的注册信息;
基于K均值聚类算法,根据所述注册信息对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差;
构建高斯混合模型;
根据所述初始值,对所述高斯混合模型的参数进行初始化;
根据最大期望算法对所述高斯混合模型进行迭代,对所述高斯混合模型的参数进行更新,得到更新后的高斯混合模型;
基于所述更新后的高斯混合模型,对账户的类型进行识别。。
在其中一个实施例中,所述注册信息包括:账户名、手机号、注册时间、注册网际协议地址及经办员工工号。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于K均值聚类算法,根据所述注册信息将所述账户分成正常账户和异常账户。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据所述注册信息,构建特征矩阵;
基于K均值聚类算法,根据所述特征矩阵对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对所述特征矩阵进行降维处理,得到降维后的特征矩阵;
基于K均值聚类算法,根据所述降维后的特征矩阵对所述账户进行分类,并计算初始值。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据主成分分析算法对所述特征矩阵进行降维处理,得到所述降维后的特征矩阵。
在其中一个实施例中,所述高斯混合模型的表达式为:
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种账户类型识别方法,其特征在于,包括:
获取每一账户的注册信息;
基于K均值聚类算法,根据所述注册信息对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差;
构建高斯混合模型;
根据所述初始值,对所述高斯混合模型的参数进行初始化;
根据最大期望算法对所述高斯混合模型进行迭代,对所述高斯混合模型的参数进行更新,得到更新后的高斯混合模型;
基于所述更新后的高斯混合模型,对账户的类型进行识别。
2.根据权利要求1所述的账户类型识别方法,其特征在于,所述注册信息包括:账户名、手机号、注册时间、注册网际协议地址及经办员工工号。
3.根据权利要求1所述的账户类型识别方法,其特征在于,所述基于K均值聚类算法,根据所述注册信息对所述账户进行分类的步骤,包括:
基于K均值聚类算法,根据所述注册信息将所述账户分成正常账户和异常账户。
4.根据权利要求1所述的账户类型识别方法,其特征在于,还包括根据所述注册信息,构建特征矩阵;
所述基于K均值聚类算法,根据所述注册信息对所述账户进行分类,并计算初始值的步骤,包括:
基于K均值聚类算法,根据所述特征矩阵对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差。
5.根据权利要求4所述的账户类型识别方法,其特征在于,还包括对所述特征矩阵进行降维处理,得到降维后的特征矩阵;
所述基于K均值聚类算法,根据所述特征矩阵对所述账户进行分类,并计算初始值的步骤,包括:
基于K均值聚类算法,根据所述降维后的特征矩阵对所述账户进行分类,并计算初始值。
6.根据权利要求4或5所述的账户类型识别方法,其特征在于,所述对所述特征矩阵进行降维处理,得到降维后的特征矩阵的步骤,包括:
根据主成分分析算法对所述特征矩阵进行降维处理,得到所述降维后的特征矩阵。
8.一种账户类型识别装置,其特征在于,包括:
获取模块,用于获取每一账户的注册信息;
聚类模块,用于基于K均值聚类算法,根据所述注册信息对所述账户进行分类,并计算初始值,其中所述初始值包括均值和方差;
构建模块,用于构建高斯混合模型;
初始化模块,用于根据所述初始值,对所述高斯混合模型的参数进行初始化;
迭代模块,用于根据最大期望算法对所述高斯混合模型进行迭代,对所述高斯混合模型的参数进行更新,得到更新后的高斯混合模型;
识别模块,用于基于所述更新后的高斯混合模型,对账户的类型进行识别。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110711185.7A CN113569910B (zh) | 2021-06-25 | 2021-06-25 | 账户类型识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110711185.7A CN113569910B (zh) | 2021-06-25 | 2021-06-25 | 账户类型识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113569910A true CN113569910A (zh) | 2021-10-29 |
CN113569910B CN113569910B (zh) | 2024-06-21 |
Family
ID=78162753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110711185.7A Active CN113569910B (zh) | 2021-06-25 | 2021-06-25 | 账户类型识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569910B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139621A (zh) * | 2021-11-29 | 2022-03-04 | 国家电网有限公司大数据中心 | 确定模型分类性能标识的方法、装置、设备及存储介质 |
CN115186005A (zh) * | 2022-06-16 | 2022-10-14 | 上海船舶运输科学研究所有限公司 | 一种船舶主机工况划分方法及系统 |
CN115953166A (zh) * | 2022-12-27 | 2023-04-11 | 鑫恒绅企业服务(无锡)有限公司 | 基于大数据智能匹配的客户信息管理方法及系统 |
CN118796640A (zh) * | 2024-07-04 | 2024-10-18 | 北京电竞次元文化传播有限公司 | 一种基于大数据的账户管理方法及系统 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020129038A1 (en) * | 2000-12-18 | 2002-09-12 | Cunningham Scott Woodroofe | Gaussian mixture models in a data mining system |
CN102201236A (zh) * | 2011-04-06 | 2011-09-28 | 中国人民解放军理工大学 | 一种高斯混合模型和量子神经网络联合的说话人识别方法 |
CN103440873A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种基于相似性的音乐推荐方法 |
CN105845140A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 应用于短语音条件下的说话人确认方法和装置 |
CN107358075A (zh) * | 2017-07-07 | 2017-11-17 | 四川大学 | 一种基于层次聚类的虚假用户检测方法 |
CN108241669A (zh) * | 2016-12-26 | 2018-07-03 | 上海神计信息系统工程有限公司 | 一种自适应文本特征簇的构建方法和系统 |
US20180316707A1 (en) * | 2017-04-26 | 2018-11-01 | Elasticsearch B.V. | Clustering and Outlier Detection in Anomaly and Causation Detection for Computing Environments |
CN108920947A (zh) * | 2018-05-08 | 2018-11-30 | 北京奇艺世纪科技有限公司 | 一种基于日志图建模的异常检测方法和装置 |
CN110019271A (zh) * | 2017-12-21 | 2019-07-16 | 中国移动通信集团重庆有限公司 | 数据一致性检测方法、装置、设备及计算机存储介质 |
CN110166104A (zh) * | 2019-06-10 | 2019-08-23 | 深圳大学 | 基于聚类的分布式波束成形上行链路信号识别方法及系统 |
CN110472660A (zh) * | 2019-07-09 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 异常数据检测方法、装置、计算机设备和存储介质 |
CN110837862A (zh) * | 2019-11-06 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 用户分类方法及装置 |
CN110995695A (zh) * | 2019-11-29 | 2020-04-10 | 字节跳动有限公司 | 异常账户检测方法及装置、电子设备及存储介质 |
CN111242632A (zh) * | 2020-01-07 | 2020-06-05 | 石化盈科信息技术有限责任公司 | 一种识别套现账户的方法、存储介质及电子设备 |
CN111428768A (zh) * | 2020-03-18 | 2020-07-17 | 电子科技大学 | 基于Hellinger距离-高斯混合模型的聚类方法 |
CN111507470A (zh) * | 2020-03-02 | 2020-08-07 | 上海金仕达软件科技有限公司 | 一种异常账户的识别方法及装置 |
CN111898758A (zh) * | 2020-09-29 | 2020-11-06 | 苏宁金融科技(南京)有限公司 | 一种用户异常行为识别方法、装置及计算机可读存储介质 |
CN112560921A (zh) * | 2020-12-10 | 2021-03-26 | 百维金科(上海)信息科技有限公司 | 一种基于模糊c-均值的互联网金融平台申请欺诈行为检测方法 |
AU2021101517A4 (en) * | 2021-03-25 | 2021-05-13 | Monika Bansal | A system for object recognition for visual surveillance |
US20210142399A1 (en) * | 2019-11-12 | 2021-05-13 | Bottomline Technologies Sarl | international cash management software using machine learning |
-
2021
- 2021-06-25 CN CN202110711185.7A patent/CN113569910B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020129038A1 (en) * | 2000-12-18 | 2002-09-12 | Cunningham Scott Woodroofe | Gaussian mixture models in a data mining system |
CN102201236A (zh) * | 2011-04-06 | 2011-09-28 | 中国人民解放军理工大学 | 一种高斯混合模型和量子神经网络联合的说话人识别方法 |
CN103440873A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种基于相似性的音乐推荐方法 |
CN105845140A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 应用于短语音条件下的说话人确认方法和装置 |
CN108241669A (zh) * | 2016-12-26 | 2018-07-03 | 上海神计信息系统工程有限公司 | 一种自适应文本特征簇的构建方法和系统 |
US20180316707A1 (en) * | 2017-04-26 | 2018-11-01 | Elasticsearch B.V. | Clustering and Outlier Detection in Anomaly and Causation Detection for Computing Environments |
CN107358075A (zh) * | 2017-07-07 | 2017-11-17 | 四川大学 | 一种基于层次聚类的虚假用户检测方法 |
CN110019271A (zh) * | 2017-12-21 | 2019-07-16 | 中国移动通信集团重庆有限公司 | 数据一致性检测方法、装置、设备及计算机存储介质 |
CN108920947A (zh) * | 2018-05-08 | 2018-11-30 | 北京奇艺世纪科技有限公司 | 一种基于日志图建模的异常检测方法和装置 |
CN110166104A (zh) * | 2019-06-10 | 2019-08-23 | 深圳大学 | 基于聚类的分布式波束成形上行链路信号识别方法及系统 |
CN110472660A (zh) * | 2019-07-09 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 异常数据检测方法、装置、计算机设备和存储介质 |
CN110837862A (zh) * | 2019-11-06 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 用户分类方法及装置 |
US20210142399A1 (en) * | 2019-11-12 | 2021-05-13 | Bottomline Technologies Sarl | international cash management software using machine learning |
CN110995695A (zh) * | 2019-11-29 | 2020-04-10 | 字节跳动有限公司 | 异常账户检测方法及装置、电子设备及存储介质 |
CN111242632A (zh) * | 2020-01-07 | 2020-06-05 | 石化盈科信息技术有限责任公司 | 一种识别套现账户的方法、存储介质及电子设备 |
CN111507470A (zh) * | 2020-03-02 | 2020-08-07 | 上海金仕达软件科技有限公司 | 一种异常账户的识别方法及装置 |
CN111428768A (zh) * | 2020-03-18 | 2020-07-17 | 电子科技大学 | 基于Hellinger距离-高斯混合模型的聚类方法 |
CN111898758A (zh) * | 2020-09-29 | 2020-11-06 | 苏宁金融科技(南京)有限公司 | 一种用户异常行为识别方法、装置及计算机可读存储介质 |
CN112560921A (zh) * | 2020-12-10 | 2021-03-26 | 百维金科(上海)信息科技有限公司 | 一种基于模糊c-均值的互联网金融平台申请欺诈行为检测方法 |
AU2021101517A4 (en) * | 2021-03-25 | 2021-05-13 | Monika Bansal | A system for object recognition for visual surveillance |
Non-Patent Citations (1)
Title |
---|
肖维;: "用于高斯混合模型参数估计的EM算法及其初始化研究", 电子测试, no. 06, pages 26 - 30 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139621A (zh) * | 2021-11-29 | 2022-03-04 | 国家电网有限公司大数据中心 | 确定模型分类性能标识的方法、装置、设备及存储介质 |
CN115186005A (zh) * | 2022-06-16 | 2022-10-14 | 上海船舶运输科学研究所有限公司 | 一种船舶主机工况划分方法及系统 |
CN115953166A (zh) * | 2022-12-27 | 2023-04-11 | 鑫恒绅企业服务(无锡)有限公司 | 基于大数据智能匹配的客户信息管理方法及系统 |
CN115953166B (zh) * | 2022-12-27 | 2024-04-02 | 鑫恒绅企业服务(无锡)有限公司 | 基于大数据智能匹配的客户信息管理方法及系统 |
CN118796640A (zh) * | 2024-07-04 | 2024-10-18 | 北京电竞次元文化传播有限公司 | 一种基于大数据的账户管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113569910B (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113569910B (zh) | 账户类型识别方法、装置、计算机设备及存储介质 | |
Foss et al. | A semiparametric method for clustering mixed data | |
CN108596630B (zh) | 基于深度学习的欺诈交易识别方法、系统及存储介质 | |
US9536201B2 (en) | Identifying associations in data and performing data analysis using a normalized highest mutual information score | |
CN109284371B (zh) | 反欺诈方法、电子装置及计算机可读存储介质 | |
CN109284372B (zh) | 用户操作行为分析方法、电子装置及计算机可读存储介质 | |
CN111539444B (zh) | 一种修正式模式识别及统计建模的高斯混合模型方法 | |
CN111259952B (zh) | 异常用户识别方法、装置、计算机设备及存储介质 | |
CN116109121B (zh) | 基于大数据分析的用户需求挖掘方法及系统 | |
CN113255370A (zh) | 基于语义相似度的行业类型推荐方法、装置、设备及介质 | |
Chien et al. | Query k-means clustering and the double dixie cup problem | |
CN113222668B (zh) | 增值服务推送方法、装置、设备及存储介质 | |
CN112487284A (zh) | 银行客户画像生成方法、设备、存储介质及装置 | |
Compagnoni et al. | On the effectiveness of randomized signatures as reservoir for learning rough dynamics | |
Peng et al. | Image projection ridge regression for subspace clustering | |
CN114399367A (zh) | 保险产品推荐方法、装置、设备及存储介质 | |
CN112506907A (zh) | 基于大数据的工程机械营销策略推送方法、系统及装置 | |
CN110837853A (zh) | 一种快速分类模型构建方法 | |
CN114897290B (zh) | 业务流程的演化识别方法、装置、终端设备以及存储介质 | |
US11609936B2 (en) | Graph data processing method, device, and computer program product | |
CN114117167A (zh) | 新增业务数据的有效性分析方法、设备及存储介质 | |
Holm | Machine learning and spending patterns: A study on the possibility of identifying riskily spending behaviour | |
CN110378262A (zh) | 基于加性高斯核的核非负矩阵分解人脸识别方法、装置、系统及存储介质 | |
CN113688934B (zh) | 基于迁移学习分布式期望最大化金融数据聚类方法及系统 | |
CN111967541B (zh) | 基于多平台样本的数据分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |