CN114818999B - 基于自编码器和生成对抗网络的账户识别方法及系统 - Google Patents
基于自编码器和生成对抗网络的账户识别方法及系统 Download PDFInfo
- Publication number
- CN114818999B CN114818999B CN202210745030.XA CN202210745030A CN114818999B CN 114818999 B CN114818999 B CN 114818999B CN 202210745030 A CN202210745030 A CN 202210745030A CN 114818999 B CN114818999 B CN 114818999B
- Authority
- CN
- China
- Prior art keywords
- account
- transaction
- feature
- discriminator
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000004900 laundering Methods 0.000 claims abstract description 64
- 230000004927 fusion Effects 0.000 claims abstract description 40
- 230000003542 behavioural effect Effects 0.000 claims abstract description 25
- 239000000284 extract Substances 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 48
- 238000009826 distribution Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 230000000306 recurrent effect Effects 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000007774 longterm Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims 2
- 238000001514 detection method Methods 0.000 abstract description 9
- 230000006399 behavior Effects 0.000 description 35
- 230000006870 function Effects 0.000 description 28
- 238000005516 engineering process Methods 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种基于自编码器和生成对抗网络的账户识别方法及系统,属于金融信息安全技术领域,该方法包括:获取银行账户的账户交易报告和账户属性图序列,人工标注账户类别;通过自编码器提取账户的融合特征;基于融合特征,利用生成对抗网络生成带有类型标注的账户特征,利用账户融合特征和生成的账户特征训练判别器;根据待测账户的账户交易报告和属性图序列,提取待测账户的融合特征,输入训练完成的判别器中,识别待测账户的真伪并预测待测账户的类别。本发明通过自编码器结构以端到端的方式自动捕捉洗钱账号的行为动态模式和结构动态模式及其之间的影响,并通过基于生成对抗的样本增强,提高账户识别性能,实现对洗钱账号的细粒度识别。
Description
技术领域
本发明属于金融信息安全技术领域,尤其涉及一种基于自编码器和生成对抗网络的账户识别方法及系统。
背景技术
洗钱是指有组织的犯罪分子利用金融机构为工具,将非法资金通过转账等手段使其变成看似合法化的同时隐藏资金来源和去向。洗钱活动涉及的巨额财产不仅严重扰乱经济秩序,而且助长犯罪组织的发展。因此,反洗钱技术对经济安全和社会安全有着重要意义。
洗钱通常涉及大量银行账号间的资金转移行为,从交易记录中检测参与洗钱的银行账号是反洗钱过程中的关键一环。现有的洗钱账号检测技术经历了基于规则、基于统计和基于机器学习的发展路线。早期基于规则的方法通过人的经验或专家知识制定识别规则来检测洗钱账号,由于人工制定的规则容易受到人的主观影响,因此这类方法的误报率高、容易被规避,无法识别新型洗钱模式下的洗钱账号;基于统计的方法通过分析和总结得到洗钱账户的一般性规律,如资金流水量与同类型职业收入差异大等,从而制定检测策略,但随着洗钱模式的不断复杂化,这类方法的有效性逐渐降低;基于机器学习技术的自动化检测方法中,通常基于人工设计的特征使用支持向量机(Support Vector Mechine,SVM)、随机森林(Random Forest,RF)等传统机器学习模型来学习洗钱账号的模式,然而人工设计特征往往耗时耗力,且仍然容易被犯罪分子规避。现有技术中,基于深度学习的洗钱账号检测技术逐渐兴起,这类技术无需人工设计特征,可以以“端到端”的方式检测洗钱账号,但这类技术往往需要大量的训练数据来拟合模型参数。
根据分析对象的不同,现有洗钱账号技术可分为三类。一类技术基于洗钱账号的交易行为特性构建识别模型,如每日平均交易流水量、每日平均交易对手量等;另一类技术基于账号在洗钱资金交易网络中的结构特性来构建识别模型,如入度、出度、向心度等;还有一类方法将上述两类特性结合来构建识别模型,这类技术的检测性能通常高于前两类技术。
也就是说,基于规则、基于统计、基于传统机器学习技术的方法均需要依赖人对洗钱模式的规律总结,因此,在应对新型洗钱模式时存在滞后性,无法及时有效地对其检测,如专利CN202011479935 .4基于时序交易图谱和预设账户识别策略识别风险账户,该方案通过人工设计识别规则,耗时耗力,且识别规则更新滞后,容易漏检和误检风险账户;现有基于深度学习的方法在一定程度上解决了这一问题,但这些方法往往需要大量的训练数据,但是现实中可作为训练数据的洗钱交易数据比较匮乏,导致这类模型训练不易收敛,且泛化性较差,如专利CN201611134189 .9基于有监督机器学习的证券配资账户识别方法,该方案未考虑由于真实场景中风险账户数量少,使得分类模型存在难收敛、泛化性差等问题。
其次,洗钱过程是一个动态过程,因此充分捕捉洗钱账号的行为动态特性和结构动态特性才能够更有效的对其进行识别。现有技术一方面将洗钱交易网络视为一个静态网络,没有关注网络结构的发展演化,另一方面也没有充分考虑行为动态和结构动态之间复杂的相互影响,而只是将两类特性简单的叠加进行建模,因而对于复杂的洗钱模式识别性能并不理想。
最后,已有洗钱账号检测技术的识别粒度较粗,只能识别目标账号是否参与洗钱,即二分类,无法更细粒度地对洗钱账号在整个洗钱交易过程中承担的功能角色进行识别,如散款、资金汇集、来源混淆等,而这类分析结果将极大地有助于分析洗钱组织的运行机制从而更有效的对其进行打击和瓦解。
如现有技术Variational Autoencoders and Wasserstein GenerativeAdversarial Networks for Improving the Anti-Money Laundering Process,该方法使用自编码器和生成对抗网络基于交易金额、交易次数等静态交易行为提取交易特征并进行数据增强,该方案(1)未结合目标账户的交易结构对账户类别进行预测,交易对手的类别有助于预测目标账户的类别,例如一个良性账户的交易对手大概率也是良性账户;(2)未考虑账户的行为动态和结构动态之间复杂的相互影响,例如一个良性账户与一个洗钱账户均累计转出资金数额巨大,从行为动态的视角来看,良性账户在很长一段时间内陆续转出不同金额的资金,洗钱账户则在很短时间内集中转出大额资金;从结构动态的视角来看,仅考虑上述资金的流向,良性账户的交易对手数量多而洗钱账户的交易对手数量少且相对固定;但从静态视角来看,此良性账户与洗钱账户特征相似,因此,该方案在预测特征相似的洗钱账户和良性账户时存在高误报率,不适用于检测分散化、隐蔽化的洗钱模式;(3)只能识别目标账户是否参与洗钱,即二分类,不能为有关人员分析洗钱组织的运行机制提供技术支持。
发明内容
针对现有技术的不足,本发明提供了一种基于自编码器和生成对抗网络的账户识别方法及系统,能够通过自编码器结构以端到端的方式自动捕捉洗钱账号的行为动态模式和结构动态模式,无需人工参与,并通过多任务学习结构来充分捕捉行为动态和结构动态之间复杂的相互影响;通过生成对抗网络来生成一部分接近于真实样本分布的伪样本,实现了对训练数据的增强,缓解了现有深度学习的方法因训练样本匮乏导致的收敛难、泛化性差等问题;能够对洗钱账号在整个洗钱过程中所承担的角色进行细粒度识别,有助于分析洗钱组织的运行机制从而更有效的对其进行打击和瓦解。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
本发明第一方面提供了一种基于自编码器和生成对抗网络的账户识别方法。
一种基于自编码器和生成对抗网络的账户识别方法,包括:
获取银行账户的档案和交易记录,人工标注账户类别,构建账户交易报告和账户属性图序列;
基于账户交易报告和账户属性图序列提取账户特征;具体的,将账户交易报告输入行为特征编码器中,提取账户交易行为特征,将账户属性图序列输入结构特征编码器中,提取账户交易关系特征,融合账户交易行为特征和账户交易关系特征,得到特征融合向量,即账户特征;
将带有账户类别标注的账户特征作为真实样本,基于真实样本利用生成对抗网络的生成器生成带有类型标注的账户特征,将该生成的账户特征作为伪样本,利用真实样本和伪样本训练生成对抗网络的生成器和判别器;
根据待测账户的档案和交易记录,构建待测账户交易报告和待测账户属性图序列,提取待测账户的融合特征,将账户融合特征输入训练完成的判别器中,识别待测账户的真伪并预测待测账户的类别。
进一步的技术方案,所述融合账户交易行为特征和账户交易关系特征,得到特征融合向量,包括:
将账户交易行为特征和账户交易关系特征进行横向拼接,得到拼接后的特征向量;
将拼接后的特征向量输入全连接层中,得到融合行为动态模式和结构动态模式的特征融合向量。
进一步的技术方案,基于真实样本利用生成对抗网络的生成器生成带有类型标注的账户特征的具体过程包括:基于特征融合向量的均值和方差构造先验分布,从先验分布中采样随机向量,然后将随机向量和账户类别标签输入由全连接层构成的生成器,生成带有类型标注的账户特征向量。
进一步的技术方案,利用真实样本和伪样本训练生成对抗网络的生成器和判别器,是指:
将生成器生成的伪样本输入判别器,根据判别器输出的类别识别结果与伪样本实际的标注类别,计算生成器的损失值,基于该损失值优化更新生成器的参数,实现对生成器的训练;
基于真实样本,利用训练后的生成器再次生成伪样本,将该伪样本和真实样本混合后输入判别器,根据判别器输出的类别识别结果与输入样本实际的标注类别,计算判别器的损失值,基于该损失值优化更新判别器的参数,实现对判别器的训练;
循环迭代上述训练过程,直至生成器和判别器的损失值最小,完成训练。
进一步的技术方案,还包括利用特征融合向量循环迭代训练自编码器,具体为:计算自编码器的损失函数,使用梯度下降法最小化自编码器的损失函数,通过反向传播更新自编码器的参数,实现对自编码器的训练。
进一步的技术方案,自编码器损失函数的计算过程包括:
将特征融合向量分别输入行为特征解码器和结构特征解码器中,重构账户交易行为特征和账户交易关系特征;
基于重构的账户交易行为特征和账户交易关系特征,分别使用行为特征损失函数和交易关系特征损失函数计算二者损失,通过加权求和,获得自编码器的损失函数。
进一步的技术方案,所述判别器为多头判别器,以真伪混合账户为输入,输出两组概率分布,分别是待测账户的真伪概率分布以及待测账户所属类别的概率分布。
本发明第二方面提供了一种基于自编码器和生成对抗网络的账户识别系统。
一种基于自编码器和生成对抗网络的账户识别系统,包括:
数据获取模块,用于获取账户的档案和交易记录,构建账户交易报告和账户属性图序列;
特征提取模块,用于基于账户交易报告和账户属性图序列提取账户特征;具体的,将账户交易报告输入行为特征编码器中,提取账户交易行为特征,将账户属性图序列输入结构特征编码器中,提取账户交易关系特征,融合账户交易行为特征和账户交易关系特征,得到特征融合向量,即账户特征;
预测模块,用于将提取的账户融合特征输入训练完成的判别器中,识别账户的真伪并预测账户的类别。
进一步的技术方案,所述融合账户交易行为特征和账户交易关系特征,得到特征融合向量,包括:
将账户交易行为特征和账户交易关系特征进行横向拼接,得到拼接后的特征向量;
将拼接后的特征向量输入全连接层中,得到融合行为动态模式和结构动态模式的特征融合向量。
进一步的技术方案,所述判别器为多头判别器,以真伪混合账户为输入,输出两组概率分布,分别是待测账户的真伪概率分布以及待测账户所属类别的概率分布。
以上一个或多个技术方案存在以下有益效果:
(1)本发明提供了一种基于自编码器和生成对抗网络的账户识别方法,以端到端的方式检测洗钱账号,通过自动捕捉洗钱账号的行为动态模式、结构动态模式及二者之间复杂的相互影响,并通过基于生成对抗的样本增强,在低人力成本的条件下缓解了现有技术无法有效应对新型、复杂洗钱模式的问题,能够进一步提升洗钱账号检测的性能。
(2)本发明所提供的方法能够对洗钱账号在整个洗钱过程中所承担的角色进行细粒度识别,能够更好的帮助调查人员分析洗钱组织的运行机制,更有效的对其进行打击和瓦解。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一所述识别方法的整体结构示意图;
图2为本发明实施例一所述识别方法中结构编码器的特征提取流程示意图;
图3为本发明实施例一所述识别方法中结构解码器的重构流程示意图;
图4为本发明实施例一所述识别方法中判别器的预测流程示意图;
图5为本发明实施例二所述识别系统的结构示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
为了解决现有的洗钱账号识别技术识别性能较差的问题,本实施例提供了一种基于自编码器和生成对抗网络的账户识别方法,如图1所示,该方法包括:
获取银行账户的档案和交易记录,人工标注账户类别,构建账户交易报告和账户属性图序列;
基于账户交易报告和账户属性图序列提取账户特征;具体的,将账户交易报告输入行为特征编码器中,提取账户交易行为特征,将账户属性图序列输入结构特征编码器中,提取账户交易关系特征,融合账户交易行为特征和账户交易关系特征,得到特征融合向量,即账户特征;
将带有账户类别标注的账户特征作为真实样本,基于真实样本利用生成对抗网络的生成器生成带有类型标注的账户特征,将该生成的账户特征作为伪样本,利用真实样本和伪样本训练生成对抗网络的生成器和判别器;
根据待测账户的档案和交易记录,构建待测账户交易报告和待测账户属性图序列,提取待测账户的融合特征,将账户融合特征输入训练完成的判别器中,识别待测账户的真伪并预测待测账户的类别。
首先,获取银行账户的档案和交易记录,基于所获取的账户档案和交易记录,人工标注账户类别,即通过人工标注每个账户是否为洗钱账户以及洗钱账户的分工,同时,根据所获取账户的档案和交易记录,构建账户交易报告和账户属性图序列。其中,账户档案包括账户ID、拥有银行卡数量及开卡日期等,交易记录中每一条数据表示为r=[orig, dst,amount, time],其中orig为汇款账户,dst为收款账户,amount为交易金额,time为交易时间。
构建账户交易报告,包括:以时间间隔t为单位划分交易记录r=[orig, dst,amount, time],计算单位时间t内的评估洗钱行为的统计量,如:收款总额、汇款总额、向该账户汇款的账户数量等,得到账户交易报告R(),N表示所获取的账户数量,k表示评估洗钱行为统计量的个数,T表示时间段的总数。
构建账户属性图序列,包括:根据所获取的交易记录构造账户属性图序列,记为G= (G 1 ,G 2 ,…,G T ),t∈(1,2,…,T)。其中,G t =(V, E t )为在t时间内构造的属性图,即在时间t内交易网络的状态;V={v 1,v 2,…,v N }表示属性图序列的共享点集;E t 表示在t时间内发生的交易集合,例如,v 1向v 2汇款,则用一条有向边连接,有向边的起点为v 1 ,终点为v 2;用户档案X()作为属性图序列的共享节点属性特征,d a 为用户档案中描述该用户特征的维度。
其次,基于账户交易报告和账户属性图序列提取账户特征。
具体的,(1)首先使用卷积神经网络提取u i 的短期交易特征,即使用32个大小为k* w,步长为1的卷积核在R i 上做卷积运算,卷积操作后使用ReLU函数进行激活,记卷积层的输出为,其中,参数k、w均为常数;(2)然后基于卷积层的输出,使用循环神经网络(如长短期记忆网络)提取时间内的长期交易特征,取最后一个时间步的输出作为u i 的交易行为特征b i 。
为了捕捉账户u i 的结构动态模式,结构特征编码器以账户属性图序列G为输入,通过图神经网络聚合u i 的邻居信息来捕捉账户交易关系的短期模式,使用循环神经网络融合多个短期模式得到交易关系的长期特征来模拟交易网络的演化过程,从而提取u i 的交易关系特征si。
具体的,如图2所示,结构特征编码器由图神经网络和循环神经网络组成,分别用于提取时间t的窗口内短期模式和多个窗口之间的长期模式。在本实施例中,以图卷积神经网络(Graph Convolutional Network, GCN)和门控单元网络(Gated Recurrent Unit,GRU)构成结构特征编码器,交易关系特征s i 的提取步骤包括:
(1)将带有节点属性矩阵X的图序列G输入结构特征编码器的图卷积神经网络GCN中,对于u i 的第t个子图G t ,GCN在G t 上对u i 的邻居信息进行聚合,得到聚合了l阶邻居信息的结构特征表示:
(2)结构特征编码器的门控单元网络GRU以上一时刻的结构特征表示和时间t的结构特征表示为输入,编码账户u i 交易结构中的时序特征,取GRU在最后一个时间步T的输出,作为u i 的交易行为特征s i 。
作为另一种实施方式,上述使用图神经网络构建账户交易结构的短期特征的方案中,所用的图卷积神经网络可用其他具有相似功能的图神经网络所替代,如图注意力网络(Graph Attention Network)等。
作为另一种实施方式,上述使用门控循环单元网络获得账户交易结构的长期特征的方案中,所用的模型可用其他循环神经网络替代,如长短期记忆网络(Long Short-TermMemory)等。
在获取账户交易行为特征和账户交易关系特征后,为了实现更有效的识别,本实施例所述方案融合账号u i 的行为动态模式和结构动态模式,使用由全连接构成的特征融合层来融合u i 的交易行为特征b i 和交易关系特征s i 。
接下来,将带有账户类别标注的账户特征作为真实样本,基于真实样本利用生成对抗网络的生成器生成带有类型标注的账户特征,将该生成的账户特征作为伪样本,利用真实样本和伪样本训练生成对抗网络的生成器和判别器。
利用生成网络生成伪样本的过程中,为了减小生成器生成结果的随机性,基于特征融合向量的均值和方差构造先验分布P pior ,从先验分布P pior 中采样随机向量z,然后将随机向量z和账户类别标签y c 输入由全连接层构成的生成器,生成类别为y c 的特征向量表示g j 。
作为另一种实施方式,上述生成对抗网络中的生成器的结构不限于全连接层,此处所用的模型可用其他神经网络替代,如卷积神经网络(Convolutional Neural Network)等。
将真实样本和伪样本输入判别器中,进行训练。判别器一方面预测输入样本是否为真实样本,同时,另一方面预测该样本是否为洗钱账号,若输入样本的预测结果为洗钱账号,则直接输出其在洗钱过程中所承担的角色。在本实施例中,如图4所示,判别器采用多头判别器,即同时具有sigmoid函数和softmax函数,可分别用于区分真伪样本和对待预测样本的具体类别进行预测。其中,区分真伪样本是指对输入样本是否为生成器所生成的伪样本进行区分。
判别器的基本单元由全连接层和激活层构成,输入真伪混合样本,先使用线性回归层提取更高层次的特征,经过激活之后输入双头判别器,双头判别器中的全连接层将高维特征映射到低维后,使用激活函数将预测结果映射到0和1之间,即样本在每个类别上的概率分布。
作为另一种实施方式,上述多头判别器包括全连接层和激活层,全连接层和激活层的作用是基于自编码器得到的融合表示对样本的真伪和类别进一步预测,此处所用的网络结构可用其他分类器替代,如支持向量机(Support Vector Machine)等。其中,自编码器是指行为特征编码器和结构特征编码器。
上述利用生成对抗网络的生成器生成伪样本的方案,由于生成器通过生成伪样本对数据进行增强,避免了训练过程难收敛的问题。
实际上,本实施例所述账户识别方法中,通过自编码器、生成器、判别器共同构成账户识别模型,其中,自编码器用于提取账户的特征,生成器用于根据先验分布生成伪样本,判别器用于识别样本真伪和类别。为了进一步提高该账户识别模型的识别效果,则需要进一步优化该模型中自编码器、生成器、判别器的参数,本实施例中,基于损失函数,通过预测结果与真值之间的差距,分别对自编码器、生成器和判别器进行迭代训练,通过不断迭代更新该自编码器、生成器和判别器的参数,直至账户识别模型收敛,完成账户识别模型的训练,保证识别模型识别的准确性。
利用损失函数更新生成器的参数,以此使得生成器生成的伪样本的分布近似拟合真实样本,约束生成器的生成结果,并生成带有类别信息的特征。
具体的,将生成的伪样本的特征向量表示g j 输入判别器中,得到g j 属于真样本的概率和在每个类别上的概率分布。模型预测的g j 属于真样本的概率值被映射到0和1之间,即计算,其中x为判别器中第二个全连接层的输出向量。模型预测的g j 属于真样本的概率与真实类别y j 输入二分类交叉熵损失函数进行计算,计算所得损失值记为L gadv :
其中,p j 表示样本j预测为真样本的概率;y j 表示样本j的类别,真实样本设为1,伪样本设为0,即y j =0。因此,L gadv 可简化为:
账户j的在每个类别上的概率分布与真实类别的one hot编码输入多分类交叉熵损失函数进行计算,计算所得损失值记为L gaux :
则,生成器最终的损失函数形式为:
其中,α为调整不同损失所占比重的超参数。通过梯度下降法和反向传播算法,更新生成器参数。
基于上述计算生成器损失函数,利用损失函数更新生成器参数,提升生成器生成伪样本效果的方案。同样,在本实施例中,基于损失函数,优化更新自编码器和判别器的参数,使得模型学到训练样本的行为特征和结构特征,达到收敛状态,进而提高模型的识别性能。
针对判别器参数的更新,基于真实样本,利用训练后的生成器再次生成伪样本,将该伪样本和真实样本混合后输入判别器,根据判别器输出的类别识别结果与输入样本实际的标注类别,计算判别器的损失值,此时,使用与计算生成器损失函数形式相似的方案分别计算真实样本分类的损失L real 和生成伪样本的分类损失L fake ,判别器最终的损失函数形式为:
其中,β为调整L real 和L fake 所占比重的超参数。通过梯度下降法和反向传播算法,更新判别器参数。
针对自编码器参数的更新,首先,为了进一步捕捉洗钱账号的行为动态和结构动态之间复杂的相互影响,将得到的融合向量用于行为重构任务和结构重构任务,即将分别输入结构解码器和行为特征解码器中,包括:使用结构解码器将融合向量重构为与G子图个数相同、节点数相同的图序列;使用由循环神经网络和反卷积组成的行为特征解码器,将融合向量重构为与bi分布相似的表示。
具体的,如图3所示,结构解码器由循环神经网络和内积解码器组成。循环神经网络为每个时间步重构节点高阶表示,内积解码器将t时刻的节点高阶表示进一步地重构为子图的邻接矩阵,具体步骤包括:
在完成行为重构任务和结构重构任务后,采用多任务学习结构优化自编码器的参数,即自编码器的损失L AE 由行为重构任务L behav 和结构重构任务L struc 加权求和组成。具体的,使用均方差损失函数衡量模型重构的行为特征与真实行为特征之间的差异,其形式如下:
使用同计算生成器损失值L gadv 形式相同的损失函数计算模型重构的邻接矩阵与真实邻接矩阵之间的差距,即:
其中,E train 表示训练集边的总数,为第t个子图中e i 位置上的边,若该位置上存在边,则该位置上的值为1,否则值为0;为模型预测的第t个子图中e i 位置上存在边的概率,为sigmoid函数。
因此,自编码器的损失函数形式为:
其中,γ为调整各项损失所占比重的超参数。
在计算自编码器和判别器的损失函数的基础上,自编码器和判别器分别基于L dis 和L AE ,循环迭代上述训练过程,使用梯度下降法和反向传播更新模型参数,直至识别模型收敛,即损失值基本不变或损失值在一个很小的区间内浮动,此时该模型拟合了训练数据的特征,完成了识别模型的训练,提高模型的鲁棒性。
最后,对待测账户u x 的数据进行预处理,即,根据待测账户u x 的档案和交易记录,构建待测账户交易报告和待测账户属性图序列,将其输入到训练完成的自编码器中,得到待测账户u x 的特征表示e x ,训练完成的判别器基于e x 预测得到待测账户u x 的类别。
本实施例所述方案中,特征提取过程包含两个阶段,分别是行为动态特征和结构动态特征的编码阶段以及解码阶段,该过程使用多任务学习结构捕捉行为动态和结构动态之间复杂的相互影响;数据增强过程将先验分布中采样噪声向量和类别标签构造接近于真实样本分布的伪样本。通过自动捕捉洗钱账号的行为动态模式、结构动态模式及二者之间复杂的相互影响,并通过基于生成对抗的样本增强,在低人力成本的条件下缓解了现有技术无法有效应对新型、复杂洗钱模式的问题,能够进一步提升洗钱账号检测的性能。
本实施例所述方案中,多头判别器以真伪混合样本为输入,输出两组概率分布,分别是待测样本的真伪概率分布以及待测样本所属类别或角色的概率分布,实现对洗钱账号在整个洗钱过程中所承担的角色进行细粒度识别,能够更好的帮助调查人员分析洗钱组织的运行机制,更有效的对其进行打击和瓦解。
实施例二
本实施例提供了一种基于自编码器和生成对抗网络的账户识别系统,如图5所示,该系统包括:
数据获取模块,用于获取账户的档案和交易记录,构建账户交易报告和账户属性图序列;
特征提取模块,用于基于账户交易报告和账户属性图序列提取账户特征;具体的,将账户交易报告输入行为特征编码器中,提取账户交易行为特征,将账户属性图序列输入结构特征编码器中,提取账户交易关系特征,融合账户交易行为特征和账户交易关系特征,得到特征融合向量,即账户特征;
预测模块,用于将提取的账户融合特征输入训练完成的判别器中,识别账户的真伪并预测账户的类别。
以上实施例二中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (9)
1.一种基于自编码器和生成对抗网络的账户识别方法,其特征是,包括:
获取银行账户的档案和交易记录,人工标注账户类别,构建账户交易报告和账户属性图序列;所述人工标注账户类别,具体为:通过人工标注每个账户是否为洗钱账户以及洗钱账户的分工;
基于账户交易报告和账户属性图序列提取账户特征;具体的,将账户交易报告输入行为特征编码器中,提取账户交易行为特征,将账户属性图序列输入结构特征编码器中,提取账户交易关系特征,融合账户交易行为特征和账户交易关系特征,得到特征融合向量,即账户特征;其中,提取账户交易行为特征,具体为:通过卷积神经网络提取账户的短期交易特征,在此基础上,使用循环神经网络提取账户的长期交易特征,得到账户交易行为特征;提取账户交易关系特征,具体为:通过图神经网络捕捉账户交易关系的短期模式,在此基础上,使用循环神经网络融合多个短期模式得到长期交易特征,得到账户交易关系特征;
将带有账户类别标注的账户特征作为真实样本,基于真实样本利用生成对抗网络的生成器生成带有类型标注的账户特征,将该生成的账户特征作为伪样本,利用真实样本和伪样本训练生成对抗网络的生成器和判别器;所述基于真实样本利用生成对抗网络的生成器生成带有类型标注的账户特征,具体过程包括:基于特征融合向量的均值和方差构造先验分布,从先验分布中采样随机向量,然后将随机向量和账户类别标签输入由全连接层构成的生成器,生成带有类型标注的账户特征向量;
根据待测账户的档案和交易记录,构建待测账户交易报告和待测账户属性图序列,提取待测账户的融合特征,将账户融合特征输入训练完成的判别器中,识别待测账户的真伪并预测待测账户的类别。
2.如权利要求1所述的一种基于自编码器和生成对抗网络的账户识别方法,其特征是,所述融合账户交易行为特征和账户交易关系特征,得到特征融合向量,包括:
将账户交易行为特征和账户交易关系特征进行横向拼接,得到拼接后的特征向量;
将拼接后的特征向量输入全连接层中,得到融合行为动态模式和结构动态模式的特征融合向量。
3.如权利要求1所述的一种基于自编码器和生成对抗网络的账户识别方法,其特征是,利用真实样本和伪样本训练生成对抗网络的生成器和判别器,是指:
将生成器生成的伪样本输入判别器,根据判别器输出的类别识别结果与伪样本实际的标注类别,计算生成器的损失值,基于该损失值优化更新生成器的参数,实现对生成器的训练;
基于真实样本,利用训练后的生成器再次生成伪样本,将该伪样本和真实样本混合后输入判别器,根据判别器输出的类别识别结果与输入样本实际的标注类别,计算判别器的损失值,基于该损失值优化更新判别器的参数,实现对判别器的训练;
循环迭代上述训练过程,直至生成器和判别器的损失值最小,完成训练。
4.如权利要求1所述的一种基于自编码器和生成对抗网络的账户识别方法,其特征是,还包括利用特征融合向量循环迭代训练自编码器,具体为:计算自编码器的损失函数,使用梯度下降法最小化自编码器的损失函数,通过反向传播更新自编码器的参数,实现对自编码器的训练。
5.如权利要求4所述的一种基于自编码器和生成对抗网络的账户识别方法,其特征是,自编码器损失函数的计算过程包括:
将特征融合向量分别输入行为特征解码器和结构特征解码器中,重构账户交易行为特征和账户交易关系特征;
基于重构的账户交易行为特征和账户交易关系特征,分别使用行为特征损失函数和交易关系特征损失函数计算二者损失,通过加权求和,获得自编码器的损失函数。
6.如权利要求1所述的一种基于自编码器和生成对抗网络的账户识别方法,其特征是,所述判别器为多头判别器,以真伪混合账户为输入,输出两组概率分布,分别是待测账户的真伪概率分布以及待测账户所属类别的概率分布。
7.一种基于自编码器和生成对抗网络的账户识别系统,其特征是,包括:
数据获取模块,用于获取账户的档案和交易记录,构建账户交易报告和账户属性图序列;
特征提取模块,用于基于账户交易报告和账户属性图序列提取账户特征;具体的,将账户交易报告输入行为特征编码器中,提取账户交易行为特征,将账户属性图序列输入结构特征编码器中,提取账户交易关系特征,融合账户交易行为特征和账户交易关系特征,得到特征融合向量,即账户特征;其中,提取账户交易行为特征,具体为:通过卷积神经网络提取账户的短期交易特征,在此基础上,使用循环神经网络提取账户的长期交易特征,得到账户交易行为特征;提取账户交易关系特征,具体为:通过图神经网络捕捉账户交易关系的短期模式,在此基础上,使用循环神经网络融合多个短期模式得到长期交易特征,得到账户交易关系特征;
预测模块,用于将提取的账户融合特征输入训练完成的判别器中,识别账户的真伪并预测账户的类别。
8.如权利要求7所述的一种基于自编码器和生成对抗网络的账户识别系统,其特征是,所述融合账户交易行为特征和账户交易关系特征,得到特征融合向量,包括:
将账户交易行为特征和账户交易关系特征进行横向拼接,得到拼接后的特征向量;
将拼接后的特征向量输入全连接层中,得到融合行为动态模式和结构动态模式的特征融合向量。
9.如权利要求7所述的一种基于自编码器和生成对抗网络的账户识别系统,其特征是,所述判别器为多头判别器,以真伪混合账户为输入,输出两组概率分布,分别是待测账户的真伪概率分布以及待测账户所属类别的概率分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210745030.XA CN114818999B (zh) | 2022-06-29 | 2022-06-29 | 基于自编码器和生成对抗网络的账户识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210745030.XA CN114818999B (zh) | 2022-06-29 | 2022-06-29 | 基于自编码器和生成对抗网络的账户识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114818999A CN114818999A (zh) | 2022-07-29 |
CN114818999B true CN114818999B (zh) | 2022-09-16 |
Family
ID=82522447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210745030.XA Active CN114818999B (zh) | 2022-06-29 | 2022-06-29 | 基于自编码器和生成对抗网络的账户识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114818999B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116720123B (zh) * | 2023-08-10 | 2023-11-28 | 中南大学 | 一种账户识别方法、装置、终端设备及介质 |
CN117573865A (zh) * | 2023-10-19 | 2024-02-20 | 南昌大学 | 一种基于可解释自适应学习的谣言模糊检测方法 |
CN118133214B (zh) * | 2024-05-09 | 2024-07-23 | 北京芯盾时代科技有限公司 | 账号分类方法、装置、设备及程序产品 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210241118A1 (en) * | 2020-01-30 | 2021-08-05 | Visa International Service Association | System, Method, and Computer Program Product for Implementing a Generative Adversarial Network to Determine Activations |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10621586B2 (en) * | 2017-01-31 | 2020-04-14 | Paypal, Inc. | Fraud prediction based on partial usage data |
US20200167787A1 (en) * | 2018-11-26 | 2020-05-28 | Bank Of America Corporation | System for anomaly detection and remediation based on dynamic directed graph network flow analysis |
CN111539811B (zh) * | 2020-05-27 | 2022-06-14 | 支付宝(杭州)信息技术有限公司 | 风险账户的识别方法及装置 |
CN111882446B (zh) * | 2020-07-28 | 2023-05-16 | 哈尔滨工业大学(威海) | 一种基于图卷积网络的异常账户检测方法 |
CN112819175B (zh) * | 2021-01-14 | 2024-07-05 | 中博信征信有限公司 | 非法所得合法化账户识别方法、装置、设备及存储介质 |
-
2022
- 2022-06-29 CN CN202210745030.XA patent/CN114818999B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210241118A1 (en) * | 2020-01-30 | 2021-08-05 | Visa International Service Association | System, Method, and Computer Program Product for Implementing a Generative Adversarial Network to Determine Activations |
Non-Patent Citations (2)
Title |
---|
Credit Card Fraud Detection Using Sparse Autoencoder and Generative Adversarial Network;Jian Chen etc.;《IEEE》;20181230;全文 * |
基于自编码器和对抗生成网络的信用卡欺诈检测;陈健;《中国优秀硕士学位论文全文数据库信息科技辑》;20200615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114818999A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114818999B (zh) | 基于自编码器和生成对抗网络的账户识别方法及系统 | |
US12118559B2 (en) | Training a machine learning system for transaction data processing | |
Han et al. | Learning sparse latent graph representations for anomaly detection in multivariate time series | |
CN108985929B (zh) | 训练方法、业务数据分类处理方法及装置、电子设备 | |
Fang et al. | Credit card fraud detection based on machine learning | |
CN117709446A (zh) | 基于规则引擎的动态金融信用风险模型的构建方法 | |
CN109829721A (zh) | 基于异质网络表征学习的线上交易多主体行为建模方法 | |
CN116843400A (zh) | 基于图表示学习的区块链碳排放交易异常检测方法和装置 | |
Yavuz | A leading indicator approach with data mining techniques in analysing bitcoin market value | |
Yang et al. | A hierarchy distributed-agents model for network risk evaluation based on deep learning | |
Bashar et al. | Algan: Time series anomaly detection with adjusted-lstm gan | |
Zhao et al. | Causality-inspired spatial-temporal explanations for dynamic graph neural networks | |
Karim et al. | Scalable semi-supervised graph learning techniques for anti money laundering | |
CN113744889A (zh) | 基于神经网络的传染病预测方法、系统、设备及存储介质 | |
Liang et al. | Data-driven smart ponzi scheme detection | |
CN118313668A (zh) | 结合层次图神经网络与长短期记忆的产业链风险评估系统 | |
CN111275447A (zh) | 基于自动化特征工程的在线网络支付欺诈检测系统 | |
CN114401135B (zh) | 基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法 | |
CN115496571A (zh) | 一种基于介科学的可解释性发票虚开检测方法 | |
Allingham et al. | A generative model of symmetry transformations | |
Priya et al. | Predicting the prices of cryptocurrencies using deep learning | |
Wanga et al. | A Deep-forest based approach for detecting fraudulent online transactions | |
Chandorkar et al. | Stock market forecasting using natural language processing and long short term memory | |
Wang et al. | PSPL: A Ponzi scheme smart contracts detection approach via compressed sensing oversampling-based peephole LSTM | |
Huang et al. | Application of Fashion Element Trend Prediction Model Integrating AM and EfficientNet-b7 Models in Art Design |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |