发明内容
本发明的一个目的是提供一种核身模型的迭代方法和装置,以解决现有的因场景或时间不同,测试数据的分布与训练数据的分布形成差距,导致模型校验不精确的问题。
根据本发明的第一方面,提供一种核身模型的迭代方法,包括:
对接收的数据进行脱敏处理,在所述脱敏处理后的数据中提取和筛选特征数据;
依据所述核身模型的状态,在所述特征数据中选取超参数,对所述核身模型进行训练;
评估训练后的核身模型,并在评估合格后,将所述迭代后的核身模型上线。
进一步,本发明所述的方法,在对接收的数据进行脱敏处理后,所述方法还包括:在对接收的数据进行脱敏处理后进行计时,当计时的时间大于等于预设的回流时间间隔时,判断当前的业务是否处于空闲状态;
若是,则进行数据回流,以执行在所述脱敏处理后的数据中提取和筛选特征数据的步骤。
进一步,本发明所述的方法,所述在所述脱敏处理后的数据中提取和筛选特征数据,包括:
对所述脱敏处理后的数据进行再处理;
提取所述再处理后的特征数据;
对所述再处理后的特征数据进行后处理,将异常特征数据进行滤除,得到训练样本。
进一步,本发明所述的方法,所述依据所述核身模型的状态,在所述特征数据中选取超参数,对所述核身模型进行训练,包括:
依据所述核身模型的状态,在所述训练样本中选取超参数,对所述核身模型进行训练。
进一步,本发明所述的方法,对所述再处理后的特征数据进行后处理,将异常特征数据进行滤除,得到训练样本,包括:
采用聚类算法,将远离聚类中心预设距离的数据作为异常特征数据,进行滤除;
依据预设样本挑选策略,对滤除异常特征数据后的数据进行采样,得到训练样本。
进一步,本发明所述的方法,所述评估训练后的核身模型,包括:
依据算法评测集和算法精度指标,评估训练后的核身模型。
进一步,本发明所述的方法,所述对所述脱敏处理后的数据进行再处理,包括:
若所述脱敏处理后的数据为图像数据,则对所述图像数据进行解码、尺度调整和图像归一化处理。
根据本发明的第二方面,提供一种核身模型的迭代装置,包括:
脱敏处理模块,用于对接收的数据进行脱敏处理;
特征数据筛选模块,用于在所述脱敏处理后的数据中提取和筛选特征数据;
模型训练模块,用于依据所述核身模型的状态,在所述特征数据中选取超参数,对所述核身模型进行训练;
模型上线模块,用于评估训练后的核身模型,并在评估合格后,将所述迭代后的核身模型上线。
进一步,本发明所述的装置,所述脱敏处理模块,包括:
判断单元,用于在对接收的数据进行脱敏处理后进行计时,当计时的时间大于等于预设的回流时间间隔时,判断当前的业务是否处于空闲状态;
数据回流单元,用于在当前的业务处于空闲状态时,进行数据回流,以执行在所述脱敏处理后的数据中提取和筛选特征数据的步骤。
进一步,本发明所述的装置,所述特征数据筛选模块,包括:
再处理单元,用于对所述脱敏处理后的数据进行再处理;
特征数据提取单元,用于提取所述再处理后的特征数据;
训练样本获取单元,用于对所述再处理后的特征数据进行后处理,将异常特征数据进行滤除,得到训练样本。
进一步,本发明所述的装置,所述模型训练模块,用于:
依据所述核身模型的状态,在所述训练样本中选取超参数,对所述核身模型进行训练。
进一步,本发明所述的装置,所述训练样本获取单元,用于:
采用聚类算法,将远离聚类中心预设距离的数据作为异常特征数据,进行滤除;
依据预设样本挑选策略,对滤除异常特征数据后的数据进行采样,得到训练样本。
进一步,本发明所述的装置,所述模型上线模块,用于:
依据算法评测集和算法精度指标,评估训练后的核身模型。
进一步,本发明所述的装置,所述再处理单元,用于:
若所述脱敏处理后的数据为图像数据,则对所述图像数据进行解码、尺度调整和图像归一化处理。
根据本发明的第三方面,提供一种存储介质,所述存储介质存储计算机程序指令,所述计算机程序指令根据本发明所述的方法进行执行。
根据本发明的第四方面,提供一种计算设备,包括:用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述计算设备执行本发明所述的方法。
本发明提供的核身模型的迭代方法和装置,通过对接收的数据进行脱敏处理,在预处理后的数据中进行特征数据的提取和筛选;克服了因时间不同,测试数据的分布与训练数据的分布发生变化,导致因为数据的变化影响深度学习算法的性能;依据所述核身模型的状态,在所述特征数据中选取超参数,对所述核身模型进行训练,克服了因场景不同,测试数据的分布与训练数据的分布发生变化,导致因为数据的变化影响深度学习算法的性能;本发明提供的方法使得更新后的模型可以适配各个场景,发挥了算法的极致性能,提高了该算法的核身验证的精准度。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为本发明一实施例提供的一种核身模型的迭代方法的流程示意图,如图1所示,本发明实施例提供的一种核身模型的迭代方法,包括:
101、对接收的数据进行脱敏处理,在所述脱敏处理后的数据中提取和筛选特征数据;
本实施例中的脱敏处理,为对接收的数据即来自不同场景的数据进行脱敏处理,可以理解为将接收的数据中的敏感信息进行去除,例如数据脱敏处理,通过脱敏处理保障了用户信息被盗取的风险。
102、依据所述核身模型的状态,在所述特征数据中选取超参数,对所述核身模型进行训练;
核身模型的状态有多种,包括各种数值信息,例如,损失函数值、梯度的值等;
特征数据中的超参数包括学习率、动量等。
103、评估训练后的核身模型,并在评估合格后,将所述迭代后的核身模型上线。
由于自动化训练后的模型性能未经过评估,是否达到上线的性能标准未知,因此需要配置自动化评估、设置相应的参数指标来判断。
根据不同的业务场景会有不同的性能指标,比如支付和登陆,因此在训练后的核身模型在所需业务场景下的性能指标评估合格后再上线。
通过对接收的数据进行脱敏处理,在预处理后的数据中进行特征数据的提取和筛选;克服了因时间不同,测试数据的分布与训练数据的分布发生变化,导致因为数据的变化影响深度学习算法的性能;依据所述核身模型的状态,在所述特征数据中选取超参数,对所述核身模型进行训练,克服了因场景不同,测试数据的分布与训练数据的分布发生变化,导致因为数据的变化影响深度学习算法的性能;本发明提供的方法使得更新后的模型可以适配各个场景,发挥了算法的极致性能,提高了该算法的核身验证的精准度。
图2为本发明一实施例提供的一种核身模型的迭代方法的流程示意图,如图2所示,本发明实施例提供的一种核身模型的迭代方法,包括:
201、对接收的数据进行脱敏处理;
本实施例中的脱敏处理为将接收的数据进行脱敏处理回流操作。
数据脱敏即由于场景数据中有可能包含用户的敏感信息,包含用户人脸、用户名、交易信息等,因此在数据进行回流前,需要对数据进行脱敏处理。脱敏处理主要包括但不限于以下几个方面:(1)图片加水印加密处理;(2)用户名等关键信息匿名处理;(3)交易信息删除。在数据脱敏后,会存储到本地设备,等待回流。
一般的,在对接收的数据进行脱敏处理后,所述方法还包括:在对接收的数据进行脱敏处理后进行计时,当计时的时间大于等于预设的回流时间间隔时,判断当前的业务是否处于空闲状态;
若是,则进行数据回流,以执行后续步骤即在所述脱敏处理后的数据中提取和筛选特征数据的步骤。
另外数据回流存在实时回流和异步回流两种方式,本实施例的方法采用异步数据回流。主要是因为自动化迭代对数据实时性没有高要求。而实时数据回流会对带宽有较大占用,影响主业务的用户体验。异步数据回流可以灵活设置回流时间间隔,并在主业务空闲时,占用多余的带宽来回流数据。
对于不同的场景可以采用不同的时间间隔进行自动化部署,本实施例不对具体的时间间隔进行详细举例说明。
202、对所述脱敏处理后的数据进行再处理,提取所述再处理后的特征数据;
在上述步骤202所述对所述脱敏处理后的数据进行再处理可以包括以下步骤:
若所述脱敏处理后的数据为图像数据,则对所述图像数据进行解码、尺度调整和图像归一化处理。
一般的上述步骤202包括以下子步骤:
场景数据回流到模型服务器。
可理解的是,模型服务器设置在接收场景数据的一侧,该模型服务器可以与接收场景数据的设备设置在一起,也可以设置在不同端。
模型服务器对场景数据进行预处理,由于场景数据包括很多种,当场景数据为图像数据时,则模型服务器对场景数据进行预处理包含图像解码、图像尺度调整、图像归一化等处理。
预处理后的图像由模型服务器进行自动化特征提取。
上述方法的整个流程都由模型服务器自动完成,算法开发人员无法获取到用户的图像数据和脱敏信息。将再处理后的数据作为后续特征数据的筛选,主要是为了保障后续特征数据的统一性。
203、对所述再处理后的特征数据进行后处理,将异常特征数据进行滤除,得到训练样本。
在上述步骤203对所述再处理后的特征数据进行后处理,将异常特征数据进行滤除,得到训练样本,包括以下子步骤:
2031、采用聚类算法,将远离聚类中心预设距离的数据作为异常特征数据,进行滤除;
场景数据特征提取完成后,需要对这些特征数据进行后处理,滤除噪声,挑选样本。
由于场景数据中会存在一些噪声,因此采用聚类算法对异常数据进行检测。具体来说,当特征数据远离聚类中心一定距离时,就会被判定为异常特征。异常特征将不会被采用作为后续的训练样本。
2032、依据预设样本挑选策略,对滤除异常特征数据后的数据进行采样,得到训练样本。
由于回流的场景数据在样本数量上十分庞大,且大部分对于现有的模型来说都是简单的样本,直接加入到训练数据中对模型训练的弊大于利。样本挑选的策略主要是线根据特征对应的算法来采样。以人脸比对算法为例,算法会从用户id的维度进行采样,例如每隔用户10个特征。
204、所述依据所述核身模型的状态,在所述特征数据中选取超参数,对所述核身模型进行训练;
依据所述核身模型的状态,在所述训练样本中选取超参数,对所述核身模型进行训练。
传统的模型训练方法往往需要人工挑选许多超参数,存在效率低、人力成本高的缺点。因此本方法中采用基于强化学习的自动训练方法。
在训练样本中选取超参数时,强化学习会在模型训练的过程中根据模型的状态(包括损失函数值、梯度的值等),对模型的超参数(包括学习率、动量等)进行调整。本方法可以在巨大的超参数搜索空间中找到较好的一组超参数,这个方法已经被证明比人工调整参数更加有效。
205、评估训练后的核身模型,并在评估合格后,将所述迭代后的核身模型上线。
前述的评估训练后的核身模型,包括:
依据算法评测集和算法精度指标,评估训练后的核身模型。
关于模型自动化评估,由于自动化训练后的模型性能未经过评估,是否达到上线的性能标准未知,因此需要配置自动化评估、设置相应的参数指标来判断。模型自动化评估主要包含评测集的选择和算法精度指标两个方面。
关于算法评测集:算法评测集会包含基础测试集和场景测试集。基础测试集主要测试算法的泛化能力,而场景测试集则主要测试算法在相应业务场景上的性能。
关于算法精度指标,算法精度指标的选择和具体的业务场景和具体的算法类型有关。例如,对于人脸比对算法,误识率是一个主要的性能指标。而不同的业务场景,比如支付和登陆,就会有不同的性能指标。自动化训练得到的模型如果算法精度达到指标,就会进行自动上线流程。
本发明实施例提供的方法,通过对接收的数据进行脱敏处理,在预处理后的数据中进行特征数据的提取和筛选;克服了因时间不同,测试数据的分布与训练数据的分布发生变化,导致因为数据的变化影响深度学习算法的性能;依据所述核身模型的状态,在所述特征数据中选取超参数,对所述核身模型进行训练,克服了因场景不同,测试数据的分布与训练数据的分布发生变化,导致因为数据的变化影响深度学习算法的性能;本发明提供的方法使得更新后的模型可以适配各个场景,发挥了算法的极致性能,提高了该算法的核身验证的精准度。
上述描述的5个步骤中,如图3所示,包括5个流程,可以简化如下:
301、场景数据脱敏回流:不同场景收集到不同的数据,经过数据脱敏之后,回流到模型服务器。
302、场景数据特征提取:模型服务器用当前版本的模型对回流数据完成自动的特征提取,以用于后续的模型训练。
303、场景数据筛选:由于回流的数据特征中有噪声,且并不是所有的样本都是模型需要的,因此设置数据滤波器对数据进行滤波。
304、模型自动化训练:通过自动化机器学习技术,自动选择模型超参数,对模型进行训练。
305、模型自动化评价上线:通过设置性能评估实验来完成模型的自动化评估,决定是否上线。
通过这五个阶段,此方法可以自动从脱敏的场景数据中挖掘出当前算法的不足,然后通过自动的模型优化迭代来弥补这个不足。最后,更新后的模型可以更好适配各个场景,发挥算法的极致性能。另外,由于此方法可以配置合理的时间间隔来自动更新模型,从而克服时间对数据分布分影响。
图4为本发明一实施例提供的一种核身模型的迭代装置的结构示意图,如图4所示,本发明实施例提供的一种核身模型的迭代装置,包括:
脱敏处理模块41,用于对接收的数据进行脱敏处理;
本实施例中的脱敏处理,为对接收的数据即来自不同场景的数据进行脱敏处理,可以理解为将接收的数据中的敏感信息进行去除,例如数据脱敏处理,通过脱敏处理保障了用户信息被盗取的风险。
特征数据筛选模块42,用于在所述脱敏处理后的数据中提取和筛选特征数据;
模型训练模块43,用于依据所述核身模型的状态,在所述特征数据中选取超参数,对所述核身模型进行训练;
核身模型的状态有多种,包括各种数值信息,例如,损失函数值、梯度的值等;
特征数据中的超参数包括学习率、动量等。
模型上线模块44,用于评估训练后的核身模型,并在评估合格后,将所述迭代后的核身模型上线。
由于自动化训练后的模型性能未经过评估,是否达到上线的性能标准未知,因此需要配置自动化评估、设置相应的参数指标来判断。
根据不同的业务场景会有不同的性能指标,比如支付和登陆,因此在训练后的核身模型在所需业务场景下的性能指标评估合格后再上线。
该核身模型的迭代装置中通过脱敏处理模块对接收的数据进行脱敏处理,通过特征数据筛选模块在预处理后的数据中进行特征数据的提取和筛选;克服了因时间不同,测试数据的分布与训练数据的分布发生变化,导致因为数据的变化影响深度学习算法的性能;通过模型训练模块依据所述核身模型的状态,在所述特征数据中选取超参数,对所述核身模型进行训练,克服了因场景不同,测试数据的分布与训练数据的分布发生变化,导致因为数据的变化影响深度学习算法的性能;本发明提供的方法使得更新后的模型可以适配各个场景,发挥了算法的极致性能,提高了该算法的核身验证的精准度。
图5为本发明一实施例提供的一种核身模型的迭代装置的结构示意图,如图5所示,本发明实施例提供的一种核身模型的迭代装置,包括:
所述脱敏处理模块51,包括:
判断单元,用于在对接收的数据进行脱敏处理后进行计时,当计时的时间大于等于预设的回流时间间隔时,判断当前的业务是否处于空闲状态;
数据回流单元,用于在当前的业务处于空闲状态时,进行数据回流,以执行在所述脱敏处理后的数据中提取和筛选特征数据的步骤。
特征数据筛选模块52,用于对所述脱敏处理后的数据进行再处理,提取所述再处理后的特征数据;
其中,特征数据筛选模块52包括,
再处理单元521,用于对所述脱敏处理后的数据进行再处理;
特征数据提取单元522,用于提取所述再处理后的特征数据;
训练样本获取单元523,用于对所述再处理后的特征数据进行后处理,将异常特征数据进行滤除,得到训练样本。
在本发明一个实施例中,所述训练样本获取单元523,用于:
采用聚类算法,将远离聚类中心预设距离的数据作为异常特征数据,进行滤除;
依据预设样本挑选策略,对滤除异常特征数据后的数据进行采样,得到训练样本。
模型训练模块53,用于依据所述核身模型的状态,在所述特征数据中选取超参数,对所述核身模型进行训练;
所述模型上线模块54,用于:
依据算法评测集和算法精度指标,评估训练后的核身模型。
在本发明一个实施例中,所述再处理单元,用于:
若所述脱敏处理后的数据为图像数据,则对所述图像数据进行解码、尺度调整和图像归一化处理。
本发明实施例图4和图5所示装置为本发明实施例图1和图2所示方法的实现装置,其具体原理与本发明实施例图1和图2所示方法相同,此处不再赘述。
在本发明一个实施例中,还提供一种存储介质,所述存储介质存储计算机程序指令,所述计算机程序指令根据本发明实施例的方法进行执行。
在本发明一个典型的配置中,计算设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
在本发明一个实施例中,还提供一种计算设备,包括:用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述计算设备执行本发明实施例的方法。
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的装置或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中,本发明的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。