CN111062442A - 解释业务处理模型的业务处理结果的方法和装置 - Google Patents
解释业务处理模型的业务处理结果的方法和装置 Download PDFInfo
- Publication number
- CN111062442A CN111062442A CN201911326360.XA CN201911326360A CN111062442A CN 111062442 A CN111062442 A CN 111062442A CN 201911326360 A CN201911326360 A CN 201911326360A CN 111062442 A CN111062442 A CN 111062442A
- Authority
- CN
- China
- Prior art keywords
- samples
- disturbance
- sample
- hidden
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4014—Identity check for transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Finance (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Complex Calculations (AREA)
Abstract
本说明书实施例提供一种解释业务处理模型的业务处理结果的方法和装置,方法包括:将待解释样本输入预先训练的基于变分自动编码器VAE的生成模型,得到第一数目个扰动样本,待解释样本和扰动样本均包含多个特征维度;将待解释样本和第一数目个扰动样本分别输入通过神经网络实现的业务处理模型,输出待解释样本对应的第一业务处理结果,以及各扰动样本分别对应的第二业务处理结果;以第二业务处理结果与第一业务处理结果一致作为筛选条件,从第一数目个扰动样本中筛选出第二数目个扰动样本;统计第二数目个扰动样本与待解释样本在各特征维度上的差异,根据各特征维度上的差异对第一业务处理结果作出解释。能够降低计算复杂度、提高效率。
Description
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及解释业务处理模型的业务处理结果的方法和装置。
背景技术
机器学习目前在零售、技术、医疗保健以及科学等等领域都有着广泛的应用。不管是分类模型还是回归模型给出的都是一个结果或者决策,整个决策过程对人来说是不可见或者是不可理解的。通过神经网络实现的业务处理模型的决策过程和人们更容易接受和理解的规则之间有很大的差别,规则的决策都是对应于一条条容易理解并且可追溯的决策路径,而上述业务处理模型的决策更多的是一个黑盒过程,只有输入输出暴露给用户,决策过程对用户透明不可感知,即使决策错误也是不可追溯的。而这些黑盒不可追溯、不可控制的性质,正是阻挡其在某些特定领域发挥作用的原因,特别是在金融领域,比如保险、银行等安全性要求高的场景,要求稳定性和可控性。
现有技术中,解释业务处理模型的业务处理结果的方法,通常计算复杂度高、效率低。
因此,希望能有改进的方案,在解释业务处理模型的业务处理结果时,能够降低计算复杂度、提高效率。
发明内容
本说明书一个或多个实施例描述了一种解释业务处理模型的业务处理结果的方法和装置,能够降低计算复杂度、提高效率。
第一方面,提供了一种解释业务处理模型的业务处理结果的方法,方法包括:
将待解释样本输入预先训练的基于变分自动编码器(variationalautoencoders,VAE)的生成模型,得到第一数目个扰动样本,所述待解释样本和所述扰动样本均包含多个特征维度;
将所述待解释样本和所述第一数目个扰动样本分别输入通过神经网络实现的业务处理模型,通过所述业务处理模型输出所述待解释样本对应的第一业务处理结果,以及各扰动样本分别对应的第二业务处理结果;
以所述第二业务处理结果与所述第一业务处理结果一致作为筛选条件,从所述第一数目个扰动样本中筛选出第二数目个扰动样本;
统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的差异,根据所述各特征维度上的差异对所述第一业务处理结果作出解释。
在一种可能的实施方式中,所述待解释样本对应于目标用户;
所述业务处理模型输出的业务处理结果用于指示是否拦截所述目标用户的预设行为。
在一种可能的实施方式中,所述业务处理模型包括深度神经网络(deep neuralnetworks,DNN)。
在一种可能的实施方式中,所述生成模型通过如下方式训练:
将训练样本输入所述生成模型,通过所述生成模型输出训练扰动样本;
把所述训练样本和所述训练扰动样本输入所述业务处理模型,所述业务处理模型包括若干隐层;
针对所述若干隐层中的目标隐层,获取所述训练样本和所述训练扰动样本分别在所述目标隐层的目标隐向量和扰动隐向量;确定所述目标隐向量和所述扰动隐向量之间的交叉熵;
根据所述交叉熵确定重构误差;
以最小化所述重构误差为目标,对所述生成模型进行训练。
进一步地,所述目标隐层为所述若干隐层中的任一隐层;
所述根据所述交叉熵确定重构误差,包括:
将所述若干隐层中各隐层分别对应的交叉熵进行求和,从而确定重构误差。
在一种可能的实施方式中,所述生成模型包括编码器、解码器和采样单元;
所述编码器,用于接收输入样本,通过所述编码器输出所述输入样本对应的隐向量所服从的高斯分布的均值和方差;
所述采样单元,用于从所述编码器输出的均值和方差对应的高斯分布的各隐向量中采样得到第一隐向量;
所述解码器,用于对所述第一隐向量解码得到第一扰动样本。
进一步地,所述编码器包括:深度神经网络DNN、多层感知器(multi-Layerperceptron,MLP)或卷积神经网络(convolutional neural networks,CNN)。
进一步地,所述将待解释样本输入预先训练的基于变分自动编码器VAE的生成模型,得到第一数目个扰动样本,包括:
将待解释样本作为输入样本输入预先训练的所述编码器,通过所述编码器输出所述输入样本对应的隐向量所服从的高斯分布的均值和方差;
所述采样单元从所述编码器输出的均值和方差对应的高斯分布的各隐向量中采样得到第一数目个第一隐向量;
所述解码器对所述第一数目个第一隐向量解码得到第一数目个第一扰动样本。
在一种可能的实施方式中,所述统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的差异,根据所述各特征维度上的差异对所述第一业务处理结果作出解释,包括:
统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的方差,根据所述各特征维度上的方差,确定对得到所述第一业务处理结果的依据中所述各特征维度的重要度。
第二方面,提供了一种解释业务处理模型的业务处理结果的装置,装置包括:
生成单元,用于将待解释样本输入预先训练的基于变分自动编码器VAE的生成模型,得到第一数目个扰动样本,所述待解释样本和所述扰动样本均包含多个特征维度;
业务处理单元,用于将所述待解释样本和所述生成单元得到的第一数目个扰动样本分别输入通过神经网络实现的业务处理模型,通过所述业务处理模型输出所述待解释样本对应的第一业务处理结果,以及各扰动样本分别对应的第二业务处理结果;
筛选单元,用于以所述业务处理单元得到的所述第二业务处理结果与所述第一业务处理结果一致作为筛选条件,从所述生成单元得到的第一数目个扰动样本中筛选出第二数目个扰动样本;
解释单元,用于统计所述筛选单元得到的第二数目个扰动样本与所述待解释样本在各特征维度上的差异,根据所述各特征维度上的差异对所述业务处理单元得到的第一业务处理结果作出解释。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先将待解释样本输入预先训练的基于变分自动编码器VAE的生成模型,得到第一数目个扰动样本,所述待解释样本和所述扰动样本均包含多个特征维度;然后将所述待解释样本和所述第一数目个扰动样本分别输入通过神经网络实现的业务处理模型,通过所述业务处理模型输出所述待解释样本对应的第一业务处理结果,以及各扰动样本分别对应的第二业务处理结果;接着以所述第二业务处理结果与所述第一业务处理结果一致作为筛选条件,从所述第一数目个扰动样本中筛选出第二数目个扰动样本;最后统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的差异,根据所述各特征维度上的差异对所述第一业务处理结果作出解释。由上可见,本说明书实施例,通过构建生成模型,针对待解释样本生成若干扰动样本,扰动样本即待解释样本的邻域伪样本,筛选出业务处理模型针对扰动样本和待解释样本的业务处理结果一致的那些扰动样本,模型解释性来自于这些筛选出的扰动样本。该方法能够对已有的业务处理模型进行样本级别的解释,即该模型每次输出业务处理结果都能给出本次的决策依据。能够降低计算复杂度、提高效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的解释业务处理模型的业务处理结果的方法流程图;
图3示出根据一个实施例的生成模型的训练过程示意图;
图4示出根据一个实施例的解释业务处理模型的业务处理结果的整体过程示意图;
图5示出根据一个实施例的解释业务处理模型的业务处理结果的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及解释业务处理模型的业务处理结果。参照图1,待解释样本包含多个特征维度,当将待解释样本输入业务处理模型后,业务处理模型输出相应的业务处理结果,本说明书实施例,针对如何得到该业务处理结果作出解释,即确定多个特征维度分别对应的特征重要度。
可以理解的是,本说明书实施例可以给出样本级别的解释,对于不同的待解释样本,同一特征具有不同的特征重要度。例如,业务处理模型的各输入样本均包含N个特征维度,分别为特征1、特征2……特征N,对于一个待解释样本,作出相应业务处理结果中最重要的依据为特征1,对于另一个待解释样本,作出相应业务处理结果中最重要的依据为特征2。
作为示例,一个典型的实施场景为金融场景,上述业务处理模型用于识别身份冒用的用户,并拦截识别出为身份冒用的用户的预设行为。其中,在一些网络金融平台,一些人会冒用别人的账号进行消费或借款等行为,称为身份冒用。身份冒用大概率会伴随着金融风险,需要对于相应行为进行拦截,但是考虑到金融场景比较敏感,对于使用的拦截模型的性能要求和可解释性要求必然很高。因此需要既能满足较高的性能要求,又能够具备解释性。
图2示出根据一个实施例的解释业务处理模型的业务处理结果的方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中解释业务处理模型的业务处理结果的方法包括以下步骤:步骤21,将待解释样本输入预先训练的基于变分自动编码器(variational autoencoders,VAE)的生成模型,得到第一数目个扰动样本,所述待解释样本和所述扰动样本均包含多个特征维度;步骤22,将所述待解释样本和所述第一数目个扰动样本分别输入通过神经网络实现的业务处理模型,通过所述业务处理模型输出所述待解释样本对应的第一业务处理结果,以及各扰动样本分别对应的第二业务处理结果;步骤23,以所述第二业务处理结果与所述第一业务处理结果一致作为筛选条件,从所述第一数目个扰动样本中筛选出第二数目个扰动样本;步骤24,统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的差异,根据所述各特征维度上的差异对所述第一业务处理结果作出解释。下面描述以上各个步骤的具体执行方式。
首先在步骤21,将待解释样本输入预先训练的基于VAE的生成模型,得到第一数目个扰动样本,所述待解释样本和所述扰动样本均包含多个特征维度。可以理解的是,上述第一数目可以是预先设定的。
在一个示例中,所述待解释样本对应于目标用户;
所述业务处理模型输出的业务处理结果用于指示是否拦截所述目标用户的预设行为。
可以理解的是,上述多个特征维度即多项特征,可以包括用户画像特征,例如,性别、年龄、学历、职业等;还可以包括历史行为特征,例如,消费金额、违约记录等。
VAE:是机器学习中一类生成模型,将概率图模型和深度学习结合的典型代表。
生成模型:机器学习模型一般分为判别模型和生成模型,判别模型是直接针对后验概率建模的一类机器学习模型,生成模型是直接对样本和标签的联合概率进行建模的模型。
在一个示例中,所述生成模型包括编码器、解码器和采样单元;
所述编码器,用于接收输入样本,通过所述编码器输出所述输入样本对应的隐向量所服从的高斯分布的均值和方差;
所述采样单元,用于从所述编码器输出的均值和方差对应的高斯分布的各隐向量中采样得到第一隐向量;
所述解码器,用于对所述第一隐向量解码得到第一扰动样本。
进一步地,所述编码器包括:深度神经网络DNN、多层感知器(multi-Layerperceptron,MLP)或卷积神经网络(convolutional neural networks,CNN)。
进一步地,步骤21具体包括:
将待解释样本作为输入样本输入预先训练的所述编码器,通过所述编码器输出所述输入样本对应的隐向量所服从的高斯分布的均值和方差;
所述采样单元从所述编码器输出的均值和方差对应的高斯分布的各隐向量中采样得到第一数目个第一隐向量;
所述解码器对所述第一数目个第一隐向量解码得到第一数目个第一扰动样本。
然后在步骤22,将所述待解释样本和所述第一数目个扰动样本分别输入通过神经网络实现的业务处理模型,通过所述业务处理模型输出所述待解释样本对应的第一业务处理结果,以及各扰动样本分别对应的第二业务处理结果。可以理解的是,有些扰动样本对应的第二业务处理结果与第一业务处理结果相同,而另一些扰动样本对应的第二业务处理结果与第一业务处理结果不同。
在一个示例中,所述业务处理模型包括深度神经网络(deep neural networks,DNN)。通常的DNN既能满足较高的性能要求,也能灵活的添加一些业务约束条件到网络中,但是DNN缺乏解释性。本说明书实施例,针对DNN可以进行样本级别的解释。
接着在步骤23,以所述第二业务处理结果与所述第一业务处理结果一致作为筛选条件,从所述第一数目个扰动样本中筛选出第二数目个扰动样本。可以理解的是,筛选出的第二数目个扰动样本可以作为对第一业务处理结果的解释依据。
最后在步骤24,统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的差异,根据所述各特征维度上的差异对所述第一业务处理结果作出解释。可以理解的是,差异越大的特征维度,对于得到所述第一业务处理结果该特征维度越不重要,差异越小的特征维度,对于得到所述第一业务处理结果该特征维度越重要。
在一个示例中,统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的方差,根据所述各特征维度上的方差,确定对得到所述第一业务处理结果的依据中所述各特征维度的重要度。该示例中,通过方差指示特征维度上的差异,可以理解的是,也可以采用其他指标指示特征维度上的差异。
在一个示例中,所述生成模型通过如下方式训练:
将训练样本输入所述生成模型,通过所述生成模型输出训练扰动样本;
把所述训练样本和所述训练扰动样本输入所述业务处理模型,所述业务处理模型包括若干隐层;
针对所述若干隐层中的目标隐层,获取所述训练样本和所述训练扰动样本分别在所述目标隐层的目标隐向量和扰动隐向量;确定所述目标隐向量和所述扰动隐向量之间的交叉熵;
根据所述交叉熵确定重构误差;
以最小化所述重构误差为目标,对所述生成模型进行训练。
进一步地,所述目标隐层为所述若干隐层中的任一隐层;
所述根据所述交叉熵确定重构误差,包括:
将所述若干隐层中各隐层分别对应的交叉熵进行求和,从而确定重构误差。
图3示出根据一个实施例的生成模型的训练过程示意图。参照图3,生成模型包括编码器、解码器和采样单元;训练样本经过编码器学习到一个隐向量所服从的高斯分布的均值μ和方差∑,然后采样单元从此高斯分布的隐向量中采一个隐向量,该隐向量经过解码器获得一个扰动样本x',与标准VAE不同的是把扰动样本x'输入到业务处理模型中,同时把训练样本x也输入业务处理模型,x和x'在业务处理模型的隐层的结果的交叉熵作为重构误差,从而对生成模型进行训练。
图4示出根据一个实施例的解释业务处理模型的业务处理结果的整体过程示意图。参照图4,利用生成模型生成扰动样本,使用扰动样本获得解释性。对于待解释样本x,经过预先训练的生成模型得到n个扰动样本。把这些扰动样本输入到业务处理模型,选择那些业务处理结果和待解释样本一致的扰动样本,经过筛选后得到m个有效的扰动样本。用这m个扰动样本和待解释样本做差计算得到Δ,直观上理解扰动样本相当于在待解释样本的原始特征x上加上一个扰动Δ,但是业务处理模型的业务处理结果不会改变,那么特征变化幅度比较大的特征相对更加不重要,特征变化幅度小的特征更加重要。最终解释性是统计这些Δ各个维度的方差,作为解释性的依据。
本说明书实施例提供的方法,通过构建生成模型,针对待解释样本生成若干扰动样本,扰动样本即待解释样本的邻域伪样本,筛选出业务处理模型针对扰动样本和待解释样本的业务处理结果一致的那些扰动样本,模型解释性来自于这些筛选出的扰动样本。该方法能够对已有的业务处理模型进行样本级别的解释,即该模型每次输出业务处理结果都能给出本次的决策依据。能够降低计算复杂度、提高效率。并且,该方法中生成的扰动样本更加符合待解释样本的分布。
根据另一方面的实施例,还提供一种解释业务处理模型的业务处理结果的装置,该装置用于执行本说明书实施例提供的解释业务处理模型的业务处理结果的方法。图5示出根据一个实施例的解释业务处理模型的业务处理结果的装置的示意性框图。如图5所示,该装置500包括:
生成单元51,用于将待解释样本输入预先训练的基于变分自动编码器VAE的生成模型,得到第一数目个扰动样本,所述待解释样本和所述扰动样本均包含多个特征维度;
业务处理单元52,用于将所述待解释样本和所述生成单元51得到的第一数目个扰动样本分别输入通过神经网络实现的业务处理模型,通过所述业务处理模型输出所述待解释样本对应的第一业务处理结果,以及各扰动样本分别对应的第二业务处理结果;
筛选单元53,用于以所述业务处理单元52得到的所述第二业务处理结果与所述第一业务处理结果一致作为筛选条件,从所述生成单元51得到的第一数目个扰动样本中筛选出第二数目个扰动样本;
解释单元54,用于统计所述筛选单元53得到的第二数目个扰动样本与所述待解释样本在各特征维度上的差异,根据所述各特征维度上的差异对所述业务处理单元得到的第一业务处理结果作出解释。
可选地,作为一个实施例,所述待解释样本对应于目标用户;
所述业务处理模型输出的业务处理结果用于指示是否拦截所述目标用户的预设行为。
可选地,作为一个实施例,所述业务处理模型包括深度神经网络DNN。
可选地,作为一个实施例,所述生成模型通过如下方式训练:
将训练样本输入所述生成模型,通过所述生成模型输出训练扰动样本;
把所述训练样本和所述训练扰动样本输入所述业务处理模型,所述业务处理模型包括若干隐层;
针对所述若干隐层中的目标隐层,获取所述训练样本和所述训练扰动样本分别在所述目标隐层的目标隐向量和扰动隐向量;确定所述目标隐向量和所述扰动隐向量之间的交叉熵;
根据所述交叉熵确定重构误差;
以最小化所述重构误差为目标,对所述生成模型进行训练。
进一步地,所述目标隐层为所述若干隐层中的任一隐层;
所述根据所述交叉熵确定重构误差,包括:
将所述若干隐层中各隐层分别对应的交叉熵进行求和,从而确定重构误差。
可选地,作为一个实施例,所述生成模型包括编码器、解码器和采样单元;
所述编码器,用于接收输入样本,通过所述编码器输出所述输入样本对应的隐向量所服从的高斯分布的均值和方差;
所述采样单元,用于从所述编码器输出的均值和方差对应的高斯分布的各隐向量中采样得到第一隐向量;
所述解码器,用于对所述第一隐向量解码得到第一扰动样本。
进一步地,所述编码器包括:深度神经网络DNN、多层感知器MLP或卷积神经网络CNN。
进一步地,所述生成单元51,具体用于:
将待解释样本作为输入样本输入预先训练的所述编码器,通过所述编码器输出所述输入样本对应的隐向量所服从的高斯分布的均值和方差;
所述采样单元从所述编码器输出的均值和方差对应的高斯分布的各隐向量中采样得到第一数目个第一隐向量;
所述解码器对所述第一数目个第一隐向量解码得到第一数目个第一扰动样本。
可选地,作为一个实施例,所述解释单元54,具体用于统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的方差,根据所述各特征维度上的方差,确定对得到所述第一业务处理结果的依据中所述各特征维度的重要度。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (20)
1.一种解释业务处理模型的业务处理结果的方法,所述方法包括:
将待解释样本输入预先训练的基于变分自动编码器VAE的生成模型,得到第一数目个扰动样本,所述待解释样本和所述扰动样本均包含多个特征维度;
将所述待解释样本和所述第一数目个扰动样本分别输入通过神经网络实现的业务处理模型,通过所述业务处理模型输出所述待解释样本对应的第一业务处理结果,以及各扰动样本分别对应的第二业务处理结果;
以所述第二业务处理结果与所述第一业务处理结果一致作为筛选条件,从所述第一数目个扰动样本中筛选出第二数目个扰动样本;
统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的差异,根据所述各特征维度上的差异对所述第一业务处理结果作出解释。
2.如权利要求1所述的方法,其中,所述待解释样本对应于目标用户;
所述业务处理模型输出的业务处理结果用于指示是否拦截所述目标用户的预设行为。
3.如权利要求1所述的方法,其中,所述业务处理模型包括深度神经网络DNN。
4.如权利要求1所述的方法,其中,所述生成模型通过如下方式训练:
将训练样本输入所述生成模型,通过所述生成模型输出训练扰动样本;
把所述训练样本和所述训练扰动样本输入所述业务处理模型,所述业务处理模型包括若干隐层;
针对所述若干隐层中的目标隐层,获取所述训练样本和所述训练扰动样本分别在所述目标隐层的目标隐向量和扰动隐向量;确定所述目标隐向量和所述扰动隐向量之间的交叉熵;
根据所述交叉熵确定重构误差;
以最小化所述重构误差为目标,对所述生成模型进行训练。
5.如权利要求4所述的方法,其中,所述目标隐层为所述若干隐层中的任一隐层;
所述根据所述交叉熵确定重构误差,包括:
将所述若干隐层中各隐层分别对应的交叉熵进行求和,从而确定重构误差。
6.如权利要求1所述的方法,其中,所述生成模型包括编码器、解码器和采样单元;
所述编码器,用于接收输入样本,通过所述编码器输出所述输入样本对应的隐向量所服从的高斯分布的均值和方差;
所述采样单元,用于从所述编码器输出的均值和方差对应的高斯分布的各隐向量中采样得到第一隐向量;
所述解码器,用于对所述第一隐向量解码得到第一扰动样本。
7.如权利要求6所述的方法,其中,所述编码器包括:深度神经网络DNN、多层感知器MLP或卷积神经网络CNN。
8.如权利要求6所述的方法,其中,所述将待解释样本输入预先训练的基于变分自动编码器VAE的生成模型,得到第一数目个扰动样本,包括:
将待解释样本作为输入样本输入预先训练的所述编码器,通过所述编码器输出所述输入样本对应的隐向量所服从的高斯分布的均值和方差;
所述采样单元从所述编码器输出的均值和方差对应的高斯分布的各隐向量中采样得到第一数目个第一隐向量;
所述解码器对所述第一数目个第一隐向量解码得到第一数目个第一扰动样本。
9.如权利要求1所述的方法,其中,所述统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的差异,根据所述各特征维度上的差异对所述第一业务处理结果作出解释,包括:
统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的方差,根据所述各特征维度上的方差,确定对得到所述第一业务处理结果的依据中所述各特征维度的重要度。
10.一种解释业务处理模型的业务处理结果的装置,所述装置包括:
生成单元,用于将待解释样本输入预先训练的基于变分自动编码器VAE的生成模型,得到第一数目个扰动样本,所述待解释样本和所述扰动样本均包含多个特征维度;
业务处理单元,用于将所述待解释样本和所述生成单元得到的第一数目个扰动样本分别输入通过神经网络实现的业务处理模型,通过所述业务处理模型输出所述待解释样本对应的第一业务处理结果,以及各扰动样本分别对应的第二业务处理结果;
筛选单元,用于以所述业务处理单元得到的所述第二业务处理结果与所述第一业务处理结果一致作为筛选条件,从所述生成单元得到的第一数目个扰动样本中筛选出第二数目个扰动样本;
解释单元,用于统计所述筛选单元得到的第二数目个扰动样本与所述待解释样本在各特征维度上的差异,根据所述各特征维度上的差异对所述业务处理单元得到的第一业务处理结果作出解释。
11.如权利要求10所述的装置,其中,所述待解释样本对应于目标用户;
所述业务处理模型输出的业务处理结果用于指示是否拦截所述目标用户的预设行为。
12.如权利要求10所述的装置,其中,所述业务处理模型包括深度神经网络DNN。
13.如权利要求10所述的装置,其中,所述生成模型通过如下方式训练:
将训练样本输入所述生成模型,通过所述生成模型输出训练扰动样本;
把所述训练样本和所述训练扰动样本输入所述业务处理模型,所述业务处理模型包括若干隐层;
针对所述若干隐层中的目标隐层,获取所述训练样本和所述训练扰动样本分别在所述目标隐层的目标隐向量和扰动隐向量;确定所述目标隐向量和所述扰动隐向量之间的交叉熵;
根据所述交叉熵确定重构误差;
以最小化所述重构误差为目标,对所述生成模型进行训练。
14.如权利要求13所述的装置,其中,所述目标隐层为所述若干隐层中的任一隐层;
所述根据所述交叉熵确定重构误差,包括:
将所述若干隐层中各隐层分别对应的交叉熵进行求和,从而确定重构误差。
15.如权利要求10所述的装置,其中,所述生成模型包括编码器、解码器和采样单元;
所述编码器,用于接收输入样本,通过所述编码器输出所述输入样本对应的隐向量所服从的高斯分布的均值和方差;
所述采样单元,用于从所述编码器输出的均值和方差对应的高斯分布的各隐向量中采样得到第一隐向量;
所述解码器,用于对所述第一隐向量解码得到第一扰动样本。
16.如权利要求15所述的装置,其中,所述编码器包括:深度神经网络DNN、多层感知器MLP或卷积神经网络CNN。
17.如权利要求15所述的装置,其中,所述生成单元,具体用于:
将待解释样本作为输入样本输入预先训练的所述编码器,通过所述编码器输出所述输入样本对应的隐向量所服从的高斯分布的均值和方差;
所述采样单元从所述编码器输出的均值和方差对应的高斯分布的各隐向量中采样得到第一数目个第一隐向量;
所述解码器对所述第一数目个第一隐向量解码得到第一数目个第一扰动样本。
18.如权利要求10所述的装置,其中,所述解释单元,具体用于统计所述第二数目个扰动样本与所述待解释样本在各特征维度上的方差,根据所述各特征维度上的方差,确定对得到所述第一业务处理结果的依据中所述各特征维度的重要度。
19.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-9中任一项的所述的方法。
20.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项的所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210181701.4A CN114548300B (zh) | 2019-12-20 | 2019-12-20 | 解释业务处理模型的业务处理结果的方法和装置 |
CN201911326360.XA CN111062442B (zh) | 2019-12-20 | 2019-12-20 | 解释业务处理模型的业务处理结果的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911326360.XA CN111062442B (zh) | 2019-12-20 | 2019-12-20 | 解释业务处理模型的业务处理结果的方法和装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210181701.4A Division CN114548300B (zh) | 2019-12-20 | 2019-12-20 | 解释业务处理模型的业务处理结果的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062442A true CN111062442A (zh) | 2020-04-24 |
CN111062442B CN111062442B (zh) | 2022-04-12 |
Family
ID=70301299
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911326360.XA Active CN111062442B (zh) | 2019-12-20 | 2019-12-20 | 解释业务处理模型的业务处理结果的方法和装置 |
CN202210181701.4A Active CN114548300B (zh) | 2019-12-20 | 2019-12-20 | 解释业务处理模型的业务处理结果的方法和装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210181701.4A Active CN114548300B (zh) | 2019-12-20 | 2019-12-20 | 解释业务处理模型的业务处理结果的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN111062442B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377640A (zh) * | 2021-06-23 | 2021-09-10 | 杭州网易云音乐科技有限公司 | 解释业务场景下模型的方法、介质、装置和计算设备 |
WO2022048172A1 (zh) * | 2020-09-02 | 2022-03-10 | 平安科技(深圳)有限公司 | 深度学习模型的可解释性参数获取方法、装置、计算机设备及存储介质 |
WO2024113932A1 (zh) * | 2022-11-29 | 2024-06-06 | 支付宝(杭州)信息技术有限公司 | 一种模型优化的方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090507A (zh) * | 2017-10-19 | 2018-05-29 | 电子科技大学 | 一种基于集成方法的医疗影像纹理特征处理方法 |
CN108960434A (zh) * | 2018-06-28 | 2018-12-07 | 第四范式(北京)技术有限公司 | 基于机器学习模型解释来分析数据的方法及装置 |
US20190122135A1 (en) * | 2017-09-06 | 2019-04-25 | BigML, Inc. | Prediction characterization for black box machine learning models |
CN110033094A (zh) * | 2019-02-22 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种基于扰动样本的模型训练方法和装置 |
CN110110139A (zh) * | 2019-04-19 | 2019-08-09 | 北京奇艺世纪科技有限公司 | 一种对推荐结果进行解释的方法、装置及电子设备 |
US20190325333A1 (en) * | 2018-04-20 | 2019-10-24 | H2O.Ai Inc. | Model interpretation |
WO2019232772A1 (en) * | 2018-06-08 | 2019-12-12 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for content identification |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2002247918A1 (en) * | 2002-03-26 | 2003-10-08 | Council Of Scientific And Industrial Research | Improved performance of artificial neural network models in the presence of instrumental noise and measurement errors |
US10447733B2 (en) * | 2014-06-11 | 2019-10-15 | Accenture Global Services Limited | Deception network system |
US10387655B2 (en) * | 2017-02-15 | 2019-08-20 | International Business Machines Corporation | Method, system and product for using a predictive model to predict if inputs reach a vulnerability of a program |
CN107895160A (zh) * | 2017-12-21 | 2018-04-10 | 曙光信息产业(北京)有限公司 | 人脸检测与识别装置及方法 |
CN109903053B (zh) * | 2019-03-01 | 2020-01-07 | 成都新希望金融信息有限公司 | 一种基于传感器数据进行行为识别的反欺诈方法 |
CN110175646B (zh) * | 2019-05-27 | 2021-05-11 | 浙江工业大学 | 基于图像变换的多通道对抗样本检测方法及装置 |
CN110334806A (zh) * | 2019-05-29 | 2019-10-15 | 广东技术师范大学 | 一种基于生成式对抗网络的对抗样本生成方法 |
-
2019
- 2019-12-20 CN CN201911326360.XA patent/CN111062442B/zh active Active
- 2019-12-20 CN CN202210181701.4A patent/CN114548300B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122135A1 (en) * | 2017-09-06 | 2019-04-25 | BigML, Inc. | Prediction characterization for black box machine learning models |
CN108090507A (zh) * | 2017-10-19 | 2018-05-29 | 电子科技大学 | 一种基于集成方法的医疗影像纹理特征处理方法 |
US20190325333A1 (en) * | 2018-04-20 | 2019-10-24 | H2O.Ai Inc. | Model interpretation |
WO2019232772A1 (en) * | 2018-06-08 | 2019-12-12 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for content identification |
CN108960434A (zh) * | 2018-06-28 | 2018-12-07 | 第四范式(北京)技术有限公司 | 基于机器学习模型解释来分析数据的方法及装置 |
CN110033094A (zh) * | 2019-02-22 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种基于扰动样本的模型训练方法和装置 |
CN110110139A (zh) * | 2019-04-19 | 2019-08-09 | 北京奇艺世纪科技有限公司 | 一种对推荐结果进行解释的方法、装置及电子设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022048172A1 (zh) * | 2020-09-02 | 2022-03-10 | 平安科技(深圳)有限公司 | 深度学习模型的可解释性参数获取方法、装置、计算机设备及存储介质 |
CN113377640A (zh) * | 2021-06-23 | 2021-09-10 | 杭州网易云音乐科技有限公司 | 解释业务场景下模型的方法、介质、装置和计算设备 |
CN113377640B (zh) * | 2021-06-23 | 2022-07-08 | 杭州网易云音乐科技有限公司 | 解释业务场景下模型的方法、介质、装置和计算设备 |
WO2024113932A1 (zh) * | 2022-11-29 | 2024-06-06 | 支付宝(杭州)信息技术有限公司 | 一种模型优化的方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114548300A (zh) | 2022-05-27 |
CN114548300B (zh) | 2024-05-28 |
CN111062442B (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mohammadpour et al. | A survey of CNN-based network intrusion detection | |
Omar et al. | Robust natural language processing: Recent advances, challenges, and future directions | |
CN107784312B (zh) | 机器学习模型训练方法及装置 | |
WO2018212710A1 (en) | Predictive analysis methods and systems | |
CN111062442B (zh) | 解释业务处理模型的业务处理结果的方法和装置 | |
Lopes et al. | Effective network intrusion detection via representation learning: A Denoising AutoEncoder approach | |
US20210377282A1 (en) | Detecting Malware with Deep Generative Models | |
WO2021012263A1 (en) | Systems and methods for end-to-end deep reinforcement learning based coreference resolution | |
CN110730164B (zh) | 安全预警方法及相关设备、计算机可读存储介质 | |
WO2022182905A1 (en) | Stochastic noise layers | |
Yang et al. | Semi‐supervised low‐rank representation graph for pattern recognition | |
WO2022221202A1 (en) | Systems and methods of generating risk scores and predictive fraud modeling | |
Zhen et al. | DA-GNN: A smart contract vulnerability detection method based on Dual Attention Graph Neural Network | |
Zhou et al. | Bias, fairness, and accountability with AI and ML Algorithms | |
Sharma et al. | Federated learning with noisy user feedback | |
US11734612B2 (en) | Obtaining a generated dataset with a predetermined bias for evaluating algorithmic fairness of a machine learning model | |
Carmichael et al. | How Well Do Feature-Additive Explainers Explain Feature-Additive Predictors? | |
CN111582647A (zh) | 用户数据处理方法、装置及电子设备 | |
Zumel et al. | vtreat: a data. frame Processor for Predictive Modeling | |
CN112801226A (zh) | 数据筛选方法和装置、计算机可读存储介质、电子设备 | |
US20230186072A1 (en) | Extracting explanations from attention-based models | |
Dirik | Predicting credit card fraud using multipurpose classification based on evolutionary rules | |
CN111368337B (zh) | 保护隐私的样本生成模型构建、仿真样本生成方法及装置 | |
Mahendra et al. | Convex space learning for tabular synthetic data generation | |
Eponeshnikov et al. | Balancing Accuracy, Fairness and Privacy in Machine Learning through Adversarial Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |