CN109346089A

CN109346089A - 活体身份认证方法、装置、计算机设备和可读存储介质

Info

Publication number: CN109346089A
Application number: CN201811128604.9A
Authority: CN
Inventors: 谢基有; 张伟彬; 陈东鹏; 谢单辉
Original assignee: Shenzhen Sound Yang Technology Co Ltd
Current assignee: Shenzhen Sound Yang Technology Co Ltd
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2019-02-15

Abstract

本申请涉及一种活体身份认证方法、装置、计算机设备和可读存储介质。所述方法包括：对待检测语音进行身份检测，得到三个检测结果；其中，所述身份检测包括：语音活体检测、语音内容检测以及语音声纹检测；若所述三个检测结果均通过，则确定所述待检测语音为合法语音以及确定身份认证通过。采用本方法能够通过活体语音检测避免了因为录音、语音合成、软件变声等导致的语音声纹检测的漏洞；同时基于一次语音数据输入实现多重语音身份认证，进而实现简单有效安全准确的身份认证，提升了安全性以及用户体验。

Description

活体身份认证方法、装置、计算机设备和可读存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种活体身份认证方法、装置、计算机设备和可读存储介质。

背景技术

目前，随着信息处理技术的不断发展，基于语音识别的应用越来越多，例如语音控制、语音支付等等。这些应用通常可以采用语音识别、声纹识别等技术进行身份认证。

以声纹识别为例，其通过声音即可识别人的身份，是一种非常便捷、高效、安全的生物识别手段，从而达到闻声识别的效果。总体而言，人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，发音器官：舌、牙齿、喉头、肺、鼻腔，在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。

然而人的声音可能会被录音，从而用此录音通过身份认证，造成安全性低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种安全性高的活体身份认证方法、装置、计算机设备和可读存储介质。

第一方面，一种活体身份认证方法，所述方法包括：

对待检测语音进行身份检测，得到三个检测结果；其中，所述身份检测包括：语音活体检测、语音内容检测以及语音声纹检测；

若所述三个检测结果均通过，则确定所述待检测语音为合法语音以及确定身份认证通过。

在其中一个实施例中，所述对待检测语音进行身份检测，得到三个检测结果，包括：

对所述待检测语音进行语音活体检测，得到语音活体检测结果；

若所述语音活体检测结果为所述待检测语音为活体语音，则对所述待检测语音进行语音内容检测以及语音声纹检测，得到其余两个语音检测结果。

对所述待检测语音进行语音内容检测，得到语音内容检测结果；

若所述语音内容检测结果为通过，则对所述待检测语音进行语音活体检测以及语音声纹检测，得到其余两个语音检测结果。

在其中一个实施例中，所述对所述待检测语音进行语音内容检测，得到语音内容检测结果之前，还包括：

根据预设的语音内容随机生成机制，获取当前时刻的展示内容；其中，所述展示内容用于指示用户根据所述展示内容输入对应的待检测语音；

所述对所述待检测语音进行语音内容检测，得到语音内容检测结果，包括：

对所述待检测语音进行语音内容识别，获得待检测语音内容；

计算所述待检测语音内容和所述展示内容匹配的目标语音检测内容之间的匹配度；

若所述匹配度大于预设阈值，则所述语音内容检测结果为通过。

在其中一个实施例中，所述获取当前时刻的展示内容，包括：

将根据所述语音内容随机生成机制直接生成的内容，作为所述展示内容。

获取根据所述语音内容随机生成机制生成的随机内容；

根据所述随机内容和预设的配置内容，生成所述展示内容；其中，所述展示内容包括所述随机内容和所述配置内容中的提示性内容。

在其中一个实施例中，所述对所述待检测语音进行语音活体检测，得到语音活体检测结果，包括：

采用预设的神经网络分类模型对所述待检测语音进行语音活体检测，输出所述待检测语音的分类结果；

若所述分类结果是活体语音，则所述语音活体检测结果为通过。

在其中一个实施例中，所述神经网络分类模型的获取方式，包括：

获取活体语音训练样本和非活体语音训练样本；其中，所述活体语音训练样本的输入为活体输入语音，所述活体语音训练样本的输出为所述输入语音的类别是活体语音；所述非活体语音训练样本的输入是非活体输入语音，所述非活体语音训练样本的输出为所述输入语音的类别是非活体语音；

采用所述语音训练样本和非活体语音训练样本对初始神经网络模型进行训练，得到所述神经网络分类模型。

第二方面，一种活体身份认证装置，所述装置包括：

语音检测模块，用于对待检测语音进行身份检测，得到三个检测结果；其中，所述身份检测包括：语音活体检测、语音内容检测以及语音声纹检测；

身份认证模块，用于若所述三个检测结果均通过，则确定所述待检测语音为合法语音以及确定身份认证通过。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述活体身份认证方法、装置、计算机设备和可读存储介质，通过对待检测语音进行语音活体检测、语音内容检测以及语音声纹检测；若三个检测结果均通过，则终端设备确定待检测语音为合法语音以及确定身份认证通过，因此通过活体语音检测避免了因为录音、语音合成、软件变声等导致的语音声纹检测的漏洞；同时基于一次语音数据输入实现多重语音身份认证，进而实现简单有效安全准确的身份认证，提升了安全性以及用户体验。

附图说明

图1为一个实施例中活体身份认证方法的应用环境图；

图2为一个实施例中活体身份认证方法的流程示意图；

图3为另一个实施例中活体身份认证方法的流程示意图；

图4为一个实施例中进行语音活体检测步骤的流程示意图；

图5为再一个实施例中活体身份认证方法的流程示意图；

图6为还一个实施例中活体身份认证方法的流程示意图；

图7为一个实施例中活体身份认证装置的结构框图；

图8为另一个实施例中活体身份认证装置的结构框图；

图9为再一个实施例中活体身份认证装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的活体身份认证方法，可以应用于如图1所示的应用环境中。其中，终端设备101与服务器102通过网络进行通信。其中，终端设备101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

需要说明的是，终端设备可以安装有各种类型的应用。示例性地，当应用需要进行身份认证时，终端设备可以获取待检测语音，并对待检测语音进行语音活体检测、语音内容检测以及语音声纹检测；若三个检测结果均通过，则终端设备确定待检测语音为合法语音以及确定身份认证通过，并将身份认证通过的认证信息发送给该应用对应的服务器，该认证信息用于指示服务器进行身份认证通过之后的操作，例如资源转移操作。当然，在本申请的实施例中，在终端设备确定待检测语音为合法语音以及确定身份认证通过后，还可以在终端设备一侧进行身份认证通过之后的操作。此外，终端设备也可以获取待检测语音，并将待检测语音发送至该应用对应的服务器，而服务器在接收到待检测语音后，对待检测语音进行语音活体检测、语音内容检测以及语音声纹检测，若三个检测结果均通过，则服务器确定待检测语音为合法语音以及确定身份认证通过，并进行身份认证通过之后的操作。总之，本申请对此并不限制。

在一个实施例中，如图2所示，通过对待检测语音进行语音活体检测、语音内容检测以及语音声纹检测；若三个检测结果均通过，则终端设备确定待检测语音为合法语音以及确定身份认证通过，实现简单有效安全准确的身份认证。以该活体身份认证方法应用于图1中的终端设备为例进行说明，可以包括以下步骤：

S201，对待检测语音进行身份检测，得到三个检测结果。

示例性地，当用户对终端设备中安装的应用进行操作并触发身份检测时，终端设备可以提示用户输入语音以进行身份检测，甚至还可以提示用户输入指定的语音内容，例如一段数字和/或文字。在触发身份检测后，终端设备可以在预设时间内通过拾音器拾取输入的语音数据，作为待检测语音。其中，身份检测包括：语音活体检测、语音内容检测以及语音声纹检测；相应地，三个检测结果包括：语音活体检测结果、语音内容检测结果以及语音声纹检测结果。

在本实施例中，对上述身份检测的顺序并不进行限制，可以同时进行上述三种语音检测，还可以首先进行其中一种语音检测，并在该语音检测结果通过后，进行后续两种语音检测；当上述任意一种语音检测结果未通过时，则可以不进行后续语音的检测，以节省资源。

本实施例应用的活体对象并不限于人物，还可以是动物或其它可以发生的活体对象。示例性地，当活体对象为狗时，可以理解的是，语音活体检测可以检测出该待检测声音是来自录音等非活体对象还是来自活体对象；语音内容检测可以检测出该语音内容是否为“汪”、“吼”等犬吠对应的语音内容；因为不同的狗的发音器官也是不同的，其叫声是存在声纹差异的，因此语音声纹检测可以检测该声纹是否与预存的具有合法身份的狗的声纹是否匹配；因此综上，本实施例可以进行狗的身份认证。

S202，若三个检测结果均通过，则确定待检测语音为合法语音以及确定身份认证通过。

若语音活体检测结果为通过，则确定待检测语音为活体语音，而非录音、语音合成、软件变声等非活体语音，则确定待检测对象为活体；若语音内容检测结果为通过，则确定待检测语音对应的语音内容与用于身份认证的预设语音内容匹配，待检测对象本身知晓该预设语音内容或者对提示输入的预设语音内容具有认知能力；若语音声纹检测通过，则确定待检测语音的声纹至少与预设的多个合法声纹中的一个相匹配；因此，若三个检测结果均通过，则确定待检测语音为合法语音以及确定身份认证通过。相应地，若三个检测结果中任一项未通过，则确定待检测语音为非法语音以及确定身份认证未通过。

上述活体身份认证方法中，通过对待检测语音进行语音活体检测、语音内容检测以及语音声纹检测；若三个检测结果均通过，则终端设备确定待检测语音为合法语音以及确定身份认证通过，因此通过活体语音检测避免了因为录音、语音合成、软件变声等导致的语音声纹检测的漏洞；同时基于一次语音数据输入实现多重语音身份认证，进而实现简单有效安全准确的身份认证，提升了安全性以及用户体验。

在一个实施例中，如图3所示，通过优先对待检测语音进行语音活体检测得到语音活体检测结果；若语音活体检测结果通过，则进行语音内容检测以及语音声纹检测；若语音活体检测结果不通过，则不进行后续检测；若三个检测结果均通过，则终端设备确定待检测语音为合法语音以及确定身份认证通过，实现简单有效安全准确的身份认证。以该活体身份认证方法应用于图1中的终端设备为例进行说明，可以包括以下步骤：

S301，对待检测语音进行语音活体检测，得到语音活体检测结果。

在本实施例中，可以优先对待检测语音进行语音活体检测，得到语音活体检测结果；若语音活体检测结果为未通过，则不进行后续检测，可以节省检测所需的内存资源、计算资源等；若语音活体检测为通过，才进行后续检测。

可选地，参照图4所示，进行语音活体检测的步骤S301可以包括：

S401，采用预设的神经网络分类模型对待检测语音进行语音活体检测，输出待检测语音的分类结果。

神经网络分类模型的输入为待检测语音数据，输出为待检测语音的分类结果。可以理解的是，一般需要对待检测语音进行预处理，处理成与神经网络分类模型的训练样本对应的标准形式，以提高分类准确性。此外，输出的待检测语音的分类结果可以为活体语音或非活体语音，还可以是该待检测语音为活体语音的概率以及该待检测语音为非活体语音的概率。

其中，神经网络分类模型的获取方式，包括：获取活体语音训练样本和非活体语音训练样本；其中，活体语音训练样本的输入为活体输入语音，活体语音训练样本的输出为输入语音的类别是活体语音；非活体语音训练样本的输入是非活体输入语音，非活体语音训练样本的输出为输入语音的类别是非活体语音；采用语音训练样本和非活体语音训练样本对初始神经网络模型进行训练，得到神经网络分类模型。当然，上述活体语音训练样本和非活体语音训练样本均需要进行预处理，将各样本中的语音数据处理成标准形式，例如音量相同、时长相同、采样率相同等，还需要将各语音数据进行时域分析和/或频域分析得到相应的时域特征参数和/或频域特征参数。

初始神经网络模型可以包括多层，第一层是输入层，最后一层为输出层，中间可以包括多个隐含层，每一层包括一个或多个节点，各相连的节点之间存在相应的连接权值，即参数；其中输出层的节点根据分类的类别数目确定，在本实施例中可以为2；输入层的节点数根据输入的语音数据的特征参数的数量确定；根据训练样本的输入和输出，以迭代的方式对初始神经网络模型中的各个参数的值进行调整直至模型的输出对应的误差参数收敛，得到神经网络分类模型。

S402，若分类结果是活体语音，则语音活体检测结果为通过。

若分类结果是活体语音，则待检测语音可以确定为活体语音，则语音活体检测结果为通过。

S302，若语音活体检测结果为待检测语音为活体语音，则对待检测语音进行语音内容检测以及语音声纹检测，得到其余两个语音检测结果。

示例性地，S302可以包括：对待检测语音进行语音内容检测，得到语音内容检测结果；若语音内容检测结果为通过，则对待检测语音进行语音声纹检测，得到语音声纹检测结果。

示例性地，S302可以包括：对待检测语音进行语音声纹检测，得到语音声纹检测结果；若语音声纹检测结果为通过，则对待检测语音进行语音内容检测，得到语音内容检测结果。

其中，对待检测语音进行语音声纹检测，得到语音声纹检测结果，可以包括：根据预设声纹提取技术，提取待检测语音的声纹特征；计算声纹特征和预设声纹特征的声纹相似度；若声纹相似度大于第一预设阈值，则确认语音声纹检测结果为通过。具体地，声纹特征可以是待检测语音的时域特征参数、频域特征参数等，例如梅尔频率倒谱系数(MelFrequency Cepstral Coefficients，MFCC)，一种基于人耳听觉特性提出来的频域特征参数。此外，对待检测语音进行语音内容检测，得到语音内容检测结果，可以包括：识别待检测语音的语音内容；计算待检测语音的语音内容和预设语音内容的内容相似度；若内容相似度大于第二预设阈值，则确认语音内容检测结果为通过。

S303，若语音活体检测结果为待检测语音为非活体语音，则确定待检测语音为非法语音以及确定身份认证不通过。

在本实施例中，若语音活体检测结果为待检测语音为非活体语音，则语音活体检测结果为不通过，则该待检测语音可能为非活体语音，即为非法语音，则身份认证不通过，因此可以不进行后续预测，以节省资源。

可以理解的是，非活体语音可以包括录音、语音合成、软件变声等非活体语音形式，均适于本实施例的技术方案。

S304，若三个检测结果均通过，则确定待检测语音为合法语音以及确定身份认证通过。

在本实施例中，还可以通过语音频率检测、语音响度检测等其它语音检测方式作为对待检测语音的第四重语音检测，甚至第五重语音检测，实现更准确的全方位地语音身份认证；例如可以设置语音频率的上限值和下限值，当待检测语音的频率参数大于该语音频率上限值或小于该语音频率下限值时，可以确定语音频率检测结果为不通过以及身份认证未通过；当待检测语音的频率参数小于或者等于于该语音频率上限值且大于或等于该语音频率下限值时，可以确定语音频率检测结果为通过；同样地，可以设置语音响度的上限值和下限值，进行语音响度检测，同语音频率检测类似，这里不再赘述。

此外，上述活体身份认证方法还可以包括：若三个检测结果均为不通过，则获取待检测语音的音量；若待检测语音的音量小于预设音量阈值，则采取预设的除语音检测以外的其它身份认证方式。当三个检测结果均为不通过时，可以考虑可能存在因为用户发声器官受损等导致声音嘶哑或不能发声的情况，因此可以通过检测待检测语音的音量来进一步确定；当待检测语音的音量小于预设音量阈值时，可以认为用户确实声音嘶哑或不能发声；为了避免这种情况下用户无法进行身份认证的情况，可以采用人脸识别、眼纹识别等其它非语音检测的方式，提高活体身份认证方法的适应性和用户体验。

上述活体身份认证方法中，通过对待检测语音进行语音活体检测得到语音活体检测结果；若语音活体检测结果通过，则对待检测语音进行语音内容检测以及语音声纹检测，得到其余两个语音检测结果；若语音活体检测结果不通过，则不进行后续检测；若三个检测结果均通过，则终端设备确定待检测语音为合法语音以及确定身份认证通过，因此通过活体语音检测避免了因为录音、语音合成、软件变声等导致的语音声纹检测的漏洞；同时基于一次语音数据输入实现多重语音身份认证，进而实现简单有效安全准确的身份认证，提升了安全性以及用户体验；此外，当优先进行的语音活体检测结果为未通过时，认为身份认证未通过，不进行后续检测，实现高效检测，节省检测资源。

在一个实施例中，如图5所示，通过优先对待检测语音进行语音内容检测得到语音内容检测结果；若语音内容检测结果通过，则进行语音活体检测以及语音声纹检测；若语音内容检测结果为未通过，则不进行后续检测；若三个检测结果均通过，则终端设备确定待检测语音为合法语音以及确定身份认证通过，实现简单有效安全准确的身份认证。以该活体身份认证方法应用于图1中的终端设备为例进行说明，可以包括以下步骤：

S501，对待检测语音进行语音内容检测，得到语音内容检测结果。

示例性地，终端设备可以预存有合法用户设置的检测模型，该检测模型可以包括预设语音内容、预设声纹特征以及预设的用于语音活体检测的神经网络分类模型；则当用户操作终端设备中的支付应用进行支付时，可能触发身份认证。在本实施例中，首先触发语音内容检测，终端设备可以显示一段固定数字，提示用户读该段数字，可以在检测到用户触发“开始录音”时拾取声音，在检测到用户触发“结束录音”时结束声音的拾取操作，获取待检测语音，然后检测待检测语音对应的语言内容和预设语音内容是否匹配；若匹配，则进行后续语音检测，并在身份认证后进行支付操作，例如可以发送资源转移请求至服务器，以完成支付操作；若不匹配，则拒绝支付。示例性地，终端设备还可以预存有各应用对应的登录密码，当触发语音内容检测时，终端设备可以显示一段提示用户语音输入登录密码的文字，例如“请念出您设定的登录密码”，然后获取待检测语音，并识别待检测语音的内容与上述预设的登录密码是否匹配，得到语音内容检测结果。

S502，若语音内容检测结果为通过，则对待检测语音进行语音活体检测以及语音声纹检测，得到其余两个语音检测结果。

S503，若语音内容检测结果为不通过，则确定待检测语音为非法语音以及确定身份认证不通过。

S504，若三个检测结果均通过，则确定待检测语音为合法语音以及确定身份认证通过。

本实施例的上述步骤的描述可以参照之前的相关描述，这里不再赘述。

上述活体身份认证方法中，通过对待检测语音进行语音内容检测得到语音内容检测结果；若语音内容检测结果通过，则对待检测语音进行语音活体检测以及语音声纹检测，得到其余两个语音检测结果；若语音内容检测结果不通过，则不进行后续检测；若三个检测结果均通过，则终端设备确定待检测语音为合法语音以及确定身份认证通过，因此通过活体语音检测避免了因为录音、语音合成、软件变声等导致的语音声纹检测的漏洞；同时基于一次语音数据输入实现多重语音身份认证，进而实现简单有效安全准确的身份认证，提升了安全性以及用户体验；此外，当优先进行的语音内容检测结果为未通过时，认为身份认证未通过，不进行后续检测，实现高效检测，节省检测资源。

在一个实施例中，如图6所示，通过随机生成的方式获取展示内容以指示用户输入与展示内容匹配的目标语音检测内容，并通过计算用户输入的待检测语音与目标语音检测内容的匹配度来判断语音内容检测结果是否为通过；若语音内容检测结果为通过，则进行语音活体检测以及语音声纹检测；若三个检测结果均通过，则确定待检测语音为合法语音以及确定身份认证通过，实现简单有效安全准确的身份认证。以该活体身份认证方法应用于图1中的终端设备为例进行说明，可以包括以下步骤：

S601，根据预设的语音内容随机生成机制，获取当前时刻的展示内容；其中，展示内容用于指示用户根据展示内容输入对应的待检测语音。

可以理解的是，预设的语音内容随机生成机制可以是从预设的文本内容(例如古诗词、日常用语、数字串等)中随机选取文本内容，还可以通过生成随机数的方式生成随机数字序列，或者是其它形式的可识别内容；总之，终端设备可以将上述随机获取的内容进行展示，可以通过图片、文本、视频等各种形式进行展示，以指示用户根据展示内容输入对应的待检测语音。此外，上述随机内容还可以是终端通过与服务器的交互获得的，这里不再赘述。因此本实施例可以通过随机生成展示内容的方式，避免展示内容被提前得知或者展示内容过于单一导致容易被录音、语音合成、软件变声等攻击，进一步避免了因为录音、语音合成、软件变声等导致的语音声纹检测的漏洞，大幅度提升了身份认证的安全性。

示例性地，获取当前时刻的展示内容，可以包括：将根据语音内容随机生成机制直接生成的内容，作为展示内容。例如，终端设备可以通过生成随机数并组成随机数序列作为展示内容，此时当用户注意到该展示内容时，一般会选择输入与该展示内容对应的语音内容作为待检测语音。

示例性地，在本实施例中，终端设备中可以预先存储着至少一组配置内容，该配置内容可以由提示性内容和与该提示性内容对应的答案内容组成，则获取当前时刻的展示内容，可以包括：获取根据语音内容随机生成机制生成的随机内容；根据随机内容和预设的配置内容，生成展示内容；其中，展示内容包括随机内容和配置内容中的提示性内容。当然，终端设备还可以将预设的配置内容中的提示性内容作为展示内容，展示内容用于指示用户根据展示内容输入与提示性内容对应的答案内容。同样地，终端设备还可以仅将上述随机内容作为展示内容，而合法用户理应知晓需要针对随机内容和配置内容输入待检测语音，以进行语音内容检测。示例性地，配置内容可以是用户账号，终端设备可以根据用户账号和随机内容生成展示内容，例如终端设备可以通过界面显示“请朗读：您的用户账号以及下面的文字，‘床前明月光，疑似地上霜’”。

需要说明的是，因为上述配置内容为某合法用户进行设置的，其他用户不知道，是一种具有唯一性的标识内容，因此适用于1：1的验证场合，即验证“你是不是你”的验证(例如手机身份登录、支付身份验证等)；相比于验证“你是不是属于某个合法群体”的1：N的验证(例如上班打卡等场合)，极大的降低了技术门槛，同时进一步避免了因为录音、语音合成、软件变声等导致的语音声纹检测的漏洞，大幅度提升了身份认证的安全性。

S602，对待检测语音进行语音内容识别，获得待检测语音内容。

示例性地，在进行语音内容检测前，可以对待检测语音内容进行滤波(过滤背景噪声)、端点检测(即识别语音信号的始末时刻并截取)、分帧(通过加窗函数分段)、预加重(提升高频部分的音量)等预处理；然后对预处理后的待检测语音进行特征提取，该特征可以是时域特征也可以是频域特征，例如基于声道模型和听觉机理的线性预测倒谱系数(LinearPredietive Cepstral Coefficients，LPCC)；接着可以根据预设的声学模型对特征进行统计建模得到特征参数，并根据对标准词串进行统计建模得到的语言模型中各标准词串对应的特征参数进行比较，得到匹配度最高的标准词串作为待检测语音对应的待检测语音内容，该待检测语音内容可以为文本形式。

S603，计算待检测语音内容和展示内容匹配的目标语音检测内容之间的匹配度。

示例性地，可以按照预设分词规则将待检测语音内容进行分词，得到第一分词序列，以及按照上述预设分词规则将目标语音检测内容进行分词，得到第二分词序列，然后判断第一分词序列与第二分词序列重复的分词数量，可以计算重复的分词数量和第一分词序列的总分词数量的比值作为匹配度；还可以按照第一分词序列与第二分词序列的顺序，从各自的第一个分词开始判断是否相同，直至第一分词序列或第二分词序列的最后一个分词未为止，由判断相同的分词数量和第一分词序列的总分词数量的比值作为匹配度。

可以理解的是，当展示内容为语音内容随机生成机制直接生成的内容时，展示内容匹配的目标语音检测内容可以是该展示内容对应的语音内容。而当展示内容包括语音内容随机生成机制直接生成的随机内容和预设的配置内容中的提示性内容时，展示内容匹配的目标语音检测内容可以是随机内容和预设的配置内容中与该提示性内容对应的答案内容。例如，上述随机内容可以是“1893”，而预设的配置内容包括提示性内容“你的生日？”以及对应的答案内容“10月1日”或“1001”；那么展示内容可以为“请读出'1893'以及'你的生日'”，则展示内容匹配的目标语音检测内容可以是“1893 10月1日”或者“18931001”。

S604，若匹配度大于预设阈值，则语音内容检测结果为通过。

若匹配度大于预设阈值，则意味着待检测语音内容和目标语音检测内容匹配，即二者可能相似甚至相同，则语音内容检测结果为通过。

S605，若语音内容检测结果为通过，则对待检测语音进行语音活体检测以及语音声纹检测，得到其余两个语音检测结果。

S606，若三个检测结果均通过，则确定待检测语音为合法语音以及确定身份认证通过。

上述活体身份认证方法中，通过随机生成的方式获取展示内容以指示用户输入与展示内容匹配的目标语音检测内容，并通过计算用户输入的待检测语音与目标语音检测内容的匹配度来判断语音内容检测结果是否为通过；若语音内容检测结果为通过，则进行语音活体检测以及语音声纹检测；若三个检测结果均通过，则确定待检测语音为合法语音以及确定身份认证通过，因此通过活体语音检测避免了因为录音、语音合成、软件变声等导致的语音声纹检测的漏洞；同时基于一次语音数据输入实现多重语音身份认证，进而实现简单有效安全准确的身份认证，提升了安全性以及用户体验；此外，通过随机生成展示内容的方式，避免展示内容被提前得知或者展示内容过于单一导致容易被录音、语音合成、软件变声等攻击，进一步避免了因为录音、语音合成、软件变声等导致的语音声纹检测的漏洞，大幅度提升了身份认证的安全性。

应该理解的是，虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种活体身份认证装置70，包括：语音检测模块701和身份认证模块702，其中：

语音检测模块701，用于对待检测语音进行身份检测，得到三个检测结果；其中，身份检测包括：语音活体检测、语音内容检测以及语音声纹检测；

身份认证模块702，用于若三个检测结果均通过，则确定待检测语音为合法语音以及确定身份认证通过。

可选地，参照图8所示，在上述图7的基础上，语音检测模块701，可以包括：

语音活体检测单元7011，用于对待检测语音进行语音活体检测，得到语音活体检测结果；

语音内容和声纹检测单元7012，用于若语音活体检测结果为待检测语音为活体语音，则对待检测语音进行语音内容检测以及语音声纹检测，得到其余两个语音检测结果。

可选地，参照图9所示，在上述图7的基础上，语音检测模块701，可以包括：

语音内容检测单元7013，用于对待检测语音进行语音内容检测，得到语音内容检测结果；

语音活体和声纹检测单元7014，用于若语音内容检测结果为通过，则对待检测语音进行语音活体检测以及语音声纹检测，得到其余两个语音检测结果。

可选地，参照图9所示，装置70还可以包括：展示内容获取模块703，用于根据预设的语音内容随机生成机制，获取当前时刻的展示内容；其中，展示内容用于指示用户根据展示内容输入对应的待检测语音；则语音内容检测单元7013可以用于对待检测语音进行语音内容识别，获得待检测语音内容；计算待检测语音内容和展示内容匹配的目标语音检测内容之间的匹配度；若匹配度大于预设阈值，则语音内容检测结果为通过。

可选地，展示内容获取模块703可以包括：展示内容随机生成单元，用于将根据语音内容随机生成机制直接生成的内容，作为展示内容。

可选地，参照图9所示，展示内容获取模块703可以包括：

随机内容生成单元7031，用于获取根据语音内容随机生成机制生成的随机内容；

展示内容生成单元7032，用于根据随机内容和预设的配置内容，生成展示内容；其中，展示内容包括随机内容和配置内容中的提示性内容。

可选地，参照图8所示，语音活体检测单元7011可以用于采用预设的神经网络分类模型对待检测语音进行语音活体检测，输出待检测语音的分类结果；若分类结果是活体语音，则语音活体检测结果为通过。

可选地，神经网络分类模型的获取方式，包括：获取活体语音训练样本和非活体语音训练样本；其中，活体语音训练样本的输入为活体输入语音，活体语音训练样本的输出为输入语音的类别是活体语音；非活体语音训练样本的输入是非活体输入语音，非活体语音训练样本的输出为输入语音的类别是非活体语音；采用语音训练样本和非活体语音训练样本对初始神经网络模型进行训练，得到神经网络分类模型。

上述活体身份认证装置中，通过对待检测语音进行语音活体检测、语音内容检测以及语音声纹检测；若三个检测结果均通过，则终端设备确定待检测语音为合法语音以及确定身份认证通过，因此通过活体语音检测避免了因为录音、语音合成、软件变声等导致的语音声纹检测的漏洞；同时基于一次语音数据输入实现多重语音身份认证，进而实现简单有效安全准确的身份认证，提升了安全性以及用户体验。

关于活体身份认证装置的具体限定可以参见上文中对于活体身份认证方法的限定，在此不再赘述。上述活体身份认证装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种活体身份认证方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

对待检测语音进行身份检测，得到三个检测结果；其中，身份检测包括：语音活体检测、语音内容检测以及语音声纹检测；

若三个检测结果均通过，则确定待检测语音为合法语音以及确定身份认证通过。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对待检测语音进行语音活体检测，得到语音活体检测结果；若语音活体检测结果为待检测语音为活体语音，则对待检测语音进行语音内容检测以及语音声纹检测，得到其余两个语音检测结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对待检测语音进行语音内容检测，得到语音内容检测结果；若语音内容检测结果为通过，则对待检测语音进行语音活体检测以及语音声纹检测，得到其余两个语音检测结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据预设的语音内容随机生成机制，获取当前时刻的展示内容；其中，展示内容用于指示用户根据展示内容输入对应的待检测语音；对待检测语音进行语音内容识别，获得待检测语音内容；计算待检测语音内容和展示内容匹配的目标语音检测内容之间的匹配度；若匹配度大于预设阈值，则语音内容检测结果为通过。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将根据语音内容随机生成机制直接生成的内容，作为展示内容。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取根据语音内容随机生成机制生成的随机内容；根据随机内容和预设的配置内容，生成展示内容；其中，展示内容包括随机内容和配置内容中的提示性内容。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：采用预设的神经网络分类模型对待检测语音进行语音活体检测，输出待检测语音的分类结果；若分类结果是活体语音，则语音活体检测结果为通过。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取活体语音训练样本和非活体语音训练样本；其中，活体语音训练样本的输入为活体输入语音，活体语音训练样本的输出为输入语音的类别是活体语音；非活体语音训练样本的输入是非活体输入语音，非活体语音训练样本的输出为输入语音的类别是非活体语音；采用语音训练样本和非活体语音训练样本对初始神经网络模型进行训练，得到神经网络分类模型。

在一个实施例中，提供了一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对待检测语音进行语音活体检测，得到语音活体检测结果；若语音活体检测结果为待检测语音为活体语音，则对待检测语音进行语音内容检测以及语音声纹检测，得到其余两个语音检测结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对待检测语音进行语音内容检测，得到语音内容检测结果；若语音内容检测结果为通过，则对待检测语音进行语音活体检测以及语音声纹检测，得到其余两个语音检测结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据预设的语音内容随机生成机制，获取当前时刻的展示内容；其中，展示内容用于指示用户根据展示内容输入对应的待检测语音；对待检测语音进行语音内容识别，获得待检测语音内容；计算待检测语音内容和展示内容匹配的目标语音检测内容之间的匹配度；若匹配度大于预设阈值，则语音内容检测结果为通过。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将根据语音内容随机生成机制直接生成的内容，作为展示内容。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取根据语音内容随机生成机制生成的随机内容；根据随机内容和预设的配置内容，生成展示内容；其中，展示内容包括随机内容和配置内容中的提示性内容。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：采用预设的神经网络分类模型对待检测语音进行语音活体检测，输出待检测语音的分类结果；若分类结果是活体语音，则语音活体检测结果为通过。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取活体语音训练样本和非活体语音训练样本；其中，活体语音训练样本的输入为活体输入语音，活体语音训练样本的输出为输入语音的类别是活体语音；非活体语音训练样本的输入是非活体输入语音，非活体语音训练样本的输出为输入语音的类别是非活体语音；采用语音训练样本和非活体语音训练样本对初始神经网络模型进行训练，得到神经网络分类模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种活体身份认证方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对待检测语音进行身份检测，得到三个检测结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述对待检测语音进行身份检测，得到三个检测结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述待检测语音进行语音内容检测，得到语音内容检测结果之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述获取当前时刻的展示内容，包括：

6.根据权利要求4所述的方法，其特征在于，所述获取当前时刻的展示内容，包括：

获取根据所述语音内容随机生成机制生成的随机内容；

7.根据权利要求2所述的方法，其特征在于，所述对所述待检测语音进行语音活体检测，得到语音活体检测结果，包括：

8.根据权利要求7所述的方法，其特征在于，所述神经网络分类模型的获取方式，包括：

9.一种活体身份认证装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

11.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。