CN111724766B

CN111724766B - 语种识别方法、相关设备及可读存储介质

Info

Publication number: CN111724766B
Application number: CN202010607693.6A
Authority: CN
Inventors: 杨军; 方磊; 方四安; 唐磊
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2024-01-05
Anticipated expiration: 2040-06-29
Also published as: CN111724766A

Abstract

本申请公开了一种语种识别方法、相关设备及可读存储介质，在获取待识别的语音数据之后，确定该语音数据的语种特征；利用预先建立的第一语种识别模型对该语音数据的语种特征进行第一次识别，得到第一次语种识别结果；当第一次语种识别结果不准确时，利用预先建立的第二语种识别模型对该语音数据的语种特征进行第二次识别，得到第二次语种识别结果，并基于第一次语种识别结果和第二次语种识别结果，确定该语音数据的语种。上述方案中，如果第一次语种识别结果不准确，可以利用比第一语种识别模型的网络层数多的第二语种识别模型进行第二次识别，从而提升识别准确率。

Description

语种识别方法、相关设备及可读存储介质

技术领域

本申请涉及自然语言处理技术领域，更具体的说，是涉及一种语种识别方法、相关设备及可读存储介质。

背景技术

语种识别是计算机分析处理一个语音数据判别其所属语言种类的过程，是语音识别的一个重要研究方向。随着全球化进程的不断加快，语种识别在多语种信息服务、机器翻译及军事安全等领域都有广泛的应用前景。现有技术中，多采用诸如混合高斯模型(英文全称：Gaussian Mixture Model，英文简称：GMM)、支持向量机(英文全称：Support VectorMachine，英文简称：SVM)、高斯混合模型超矢量-支持向量机(英文全称：Gaussian SuperVector-Support Vector Machine，英文简称：GSV-SVM)的语种识别方法对语音进行语种识别。

但是，现有技术中，对语音数据进行语种识别的方法，得到的语种识别结果准确率并不理想。

因此，对现有技术中的语种识别方法进行优化显得尤为必要。

发明内容

鉴于上述问题，本申请提出了一种语种识别方法、相关设备及可读存储介质。具体方案如下：

一种语种识别方法，包括：

获取待识别的语音数据；

确定所述语音数据的语种特征；

利用预先建立的第一语种识别模型对所述语音数据的语种特征进行第一次识别，得到第一次语种识别结果；

当所述第一次语种识别结果不准确时，利用预先建立的第二语种识别模型对所述语音数据的语种特征进行第二次识别，得到第二次语种识别结果；基于所述第一次语种识别结果和所述第二次语种识别结果，确定所述语音数据的语种；所述第二语种识别模型的网络层数多于所述第一语种识别模型。

可选地，所述确定所述语音数据的语种特征，包括：

获取所述语音数据的声学特征；

利用预先建立的语种特征提取模型的特征变换模块对所述语音数据的声学特征进行特征转换，得到变换后的特征；

利用所述语种特征提取模型的时序特征提取模块，从所述变换后的特征中提取时序特征；

利用所述语种特征提取模型的语种特征提取模块，从所述时序特征中提取所述语音数据的语种特征。

可选地，所述语种特征提取模型的训练过程，包括：

获取训练语音数据；

确定每个训练语音数据的声学特征，以及，每个训练语音数据的音素信息；

以每个训练语音数据的声学特征为训练样本，以所述训练语音数据的音素信息为样本标签，训练得到音素识别模型；

去除所述音素识别模型的输出层，得到所述语种特征提取模型。

可选地，所述利用预先建立的第一语种识别模型对所述语音数据的语种特征进行第一次识别，得到第一次语种识别结果，包括：

利用所述第一语种识别模型的均值超矢量特征提取模块，对所述语音数据的语种特征进行处理，得到所述语种特征的均值超矢量特征；

利用所述第一语种识别模型的语种识别模块，对所述语种特征的均值超矢量特征进行识别，得到第一次语种识别结果。

可选地，所述第一语种识别模型的训练过程，包括：

获取至少一个语种对应的训练语音数据集；

对每个语种对应的训练语音数据集进行标注，得到每个语种对应的训练语音数据集的标注结果，每个语种对应的训练语音数据的标注结果用于指示所述语种对应的训练语音数据集的语种；

确定各个语种对应的训练语音数据集中，每个训练语音数据的语种特征；

利用各个训练语音数据的语种特征，确定每个语种对应的训练语音数据集的均值超矢量特征集；

利用各个语种对应的训练语音数据集的均值超矢量特征集，以及各个语种对应的训练语音数据集的标注结果训练得到所述第一语种识别模型。

可选地，所述利用各个训练语音数据的语种特征，确定每个语种对应的训练语音数据集的均值超矢量特征集，包括：

针对每个语种对应的训练语音数据集，利用各个训练语音数据的语种特征，对所述语种对应的训练语音数据集中各个训练语音数据进行聚类，得到所述语种对应的训练语音数据子集；

针对所述语种对应的训练语音数据子集中的每个训练语音数据子集，将该训练语音数据子集中各个训练语音数据的初始均值超矢量特征进行合并，得到该训练语音数据子集的均值超矢量特征；所述语种对应的全部训练语音数据子集的均值超矢量特征，组成所述语种对应的训练语音数据集的均值超矢量特征集。

可选地，所述第二语种识别模型是以训练语音数据的语种特征为训练样本，以训练语音数据标注的语种为样本标签，对预置的端到端的神经网络模型训练得到的。

一种语种识别装置，包括：

获取单元，用于获取待识别的语音数据；

语种特征确定单元，用于确定所述语音数据的语种特征；

第一语种识别单元，用于利用预先建立的第一语种识别模型对所述语音数据的语种特征进行第一次识别，得到第一次语种识别结果；

第二语种识别单元，用于当所述第一次语种识别结果不准确时，利用预先建立的第二语种识别模型对所述语音数据的语种特征进行第二次识别，得到第二次语种识别结果；所述第二语种识别模型的网络层数多于所述第一语种识别模型；

语种确定单元，用于基于所述第一次语种识别结果和所述第二次语种识别结果，确定所述语音数据的语种。

可选地，所述语种特征确定单元，包括：

声学特征获取单元，用于获取所述语音数据的声学特征；

特征转换单元，用于利用预先建立的语种特征提取模型的特征变换模块对所述语音数据的声学特征进行特征转换，得到变换后的特征；

时序特征提取单元，用于利用所述语种特征提取模型的时序特征提取模块，从所述变换后的特征中提取时序特征；

语种特征提取单元，用于利用所述语种特征提取模型的语种特征提取模块，从所述时序特征中提取所述语音数据的语种特征。

可选地，所述语种特征提取模型的训练过程，包括：

获取训练语音数据；

可选地，所述第一语种识别单元，包括：

均值超矢量特征确定单元，用于利用所述第一语种识别模型的均值超矢量特征提取模块，对所述语音数据的语种特征进行处理，得到所述语种特征的均值超矢量特征；

识别单元，用于利用所述第一语种识别模型的语种识别模块，对所述语种特征的均值超矢量特征进行识别，得到第一次语种识别结果。

可选地，所述第一语种识别模型的训练过程，包括：

获取至少一个语种对应的训练语音数据集；

一种语种识别设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的语种识别方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的语种识别方法的各个步骤。

借由上述技术方案，本申请公开了一种语种识别方法、相关设备及可读存储介质，在获取待识别的语音数据之后，确定该语音数据的语种特征；利用预先建立的第一语种识别模型对该语音数据的语种特征进行第一次识别，得到第一次语种识别结果；当第一次语种识别结果不准确时，利用预先建立的第二语种识别模型对该语音数据的语种特征进行第二次识别，得到第二次语种识别结果，并基于第一次语种识别结果和第二次语种识别结果，确定该语音数据的语种。上述方案中，如果第一次语种识别结果不准确，可以利用比第一语种识别模型的网络层数多的第二语种识别模型进行第二次识别，从而提升识别准确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例公开的语种识别方法的流程示意图；

图2为本申请实施例公开的一种语种特征提取模型的结构示意图；

图3为本申请中实施例公开的一种音素识别模型的结构示意图；

图4为本申请实施例公开的一种第一语种识别模型的结构示意图；

图5为本申请实施例公开的一种语种识别装置结构示意图；

图6为本申请实施例公开的一种语种识别设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

接下来，通过下述实施例对本申请提供的语种识别方法进行介绍。

参照图1，图1为本申请实施例公开的语种识别方法的流程示意图，该方法可以包括：

步骤S101：获取待识别的语音数据。

待识别的语音数据为用户根据应用需求说出的语音数据，如用户打电话时输入的语音数据，用户基于即时聊天工具时，使用语音输入法输入的语音数据等等，对此本申请不进行任何限定。

步骤S102：确定所述语音数据的语种特征。

需要说明的是，虽然在本申请中，可以采用语音数据的SDC(英文全称：ShiftedDelta Cepstral，中文全称：移位差分倒谱)特征等声学特征作为语音数据的语种特征，但是，语音数据的声学特征包含的语种信息往往比较少，无法保证较高的识别准确率。比如，以语音数据的SDC特征作为语音数据的语种特征时，如果语音数据为有效时长低于预设时长(比如，3秒)的短语音数据时，其SDC特征较短，包含的语种信息也较少，会导致该短语音数据的语种识别结果不准确。因此，在本申请中，所述语音数据的语种特征可以为基于SDC特征等声学特征确定的包含语种信息较多的其他特征。

确定所述语音数据的语种特征的具体实现方式将通过后面的实施例详细说明。

步骤S103：利用预先建立的第一语种识别模型对所述语音数据的语种特征进行第一次识别，得到第一次语种识别结果。

传统的语种识别模型，比如，混合高斯模型(英文全称：Gaussian Mixture Model，英文简称：GMM)、支持向量机(英文全称：Support Vector Machine，英文简称：SVM)、高斯混合模型超矢量-支持向量机(英文全称：Gaussian Super Vector-Support VectorMachine，英文简称：GSV-SVM)等，多基于SDC特征等声学特征训练得到，而SDC特征等声学特征中包含的语种信息也较少，因此，传统的语种识别模型的语种识别准确率较低。

在本申请中，预先建立的第一语种识别模型可以为利用训练数据的包含语种信息较多的语种特征，对传统的语种识别模型进行重新训练后得到的模型。

第一语种识别模型的训练过程，以及，利用第一语种识别模型对所述语音数据的语种特征进行第一次识别，得到第一次语种识别结果的具体实现方式将通过后面的实施例详细说明。

步骤S104：判断所述第一次语种识别结果是否准确，当所述第一次语种识别结果不准确时，执行步骤S105和步骤S106。当所述第一次语种识别结果准确时，执行步骤S107。

在本申请中，判断第一次语种识别结果是否准确的方式可以有多种。

作为一种可实施方式，可以预置目标语种(比如，中文、英语、法语、其他)，第一次识别结果中可以包括所述语音数据的语种为每个所述目标语种的第一得分，则判断第一次识别结果是否准确的具体实现方式可以如下：判断各个第一得分中最高第一得分与最低第一得分的差值是否满足预置条件，如果满足，则确定所述第一次语种识别结果准确，否则，则确定所述第一次语种识别结果不准确。预置条件可以为大于等于预设阈值，处于预设区间内等，对此本申请不进行任何限定。

步骤S105：利用预先建立的第二语种识别模型对所述语音数据的语种特征进行第二次识别，得到第二次语种识别结果。

在本申请中，所述第二语种识别模型的网络层数多于所述第一语种识别模型，使得第二语种识别模型的语种识别准确率高于所述第一语种识别模型。

第二语种识别模型的训练过程，以及，利用第二语种识别模型对所述语音数据的语种特征进行第二次识别，得到第二次语种识别结果的具体实现方式将通过后面的实施例详细说明。

步骤S106：基于所述第一次语种识别结果和所述第二次语种识别结果，确定所述语音数据的语种。

在本申请中，可以预置目标语种(比如，中文、英语、法语、其他)，第一次识别结果中可以包括所述语音数据的语种为每个所述目标语种的第一得分，第二次识别结果中可以包括所述语音数据的语种为每个所述目标语种的第二得分，则基于所述第一次语种识别结果和所述第二次语种识别结果，确定所述语音数据的语种的具体实现方式可以为：基于所述语音数据的语种为每个所述目标语种的第一得分，和，所述语音数据的语种为每个所述目标语种的第二得分，确定所述语音数据的语种为每个所述目标语种的最终得分；确定所述语音数据的语种为每个所述目标语种的最终得分中的最高得分对应的目标语种，为所述语音数据的语种。

其中，基于所述语音数据的语种为每个所述目标语种的第一得分，和，所述语音数据的语种为每个所述目标语种的第二得分，确定所述语音数据的语种为每个所述目标语种的最终得分的方式可以为：预置第一次识别结果的权重和第二次识别结果的权重，基于第一次识别结果的权重和第二次识别结果的权重，将所述语音数据的语种为每个所述目标语种的第一得分，和，所述语音数据的语种为每个所述目标语种的第二得分进行融合，得到所述语音数据的语种为每个所述目标语种的最终得分。

为便于理解，假设第一次识别结果的权重为α，第二次识别结果的权重为1-α，所述语音数据的语种为中文的第一得分为0.8，所述语音数据的语种为中文的第二得分为0.6，则所述语音数据的语种为中文的最终得分为0.8*α+0.6*(1-α)。

步骤S107：基于所述第一次语种识别结果确定所述语音数据的语种。

在本申请中，可以预置目标语种(比如，中文、英语、法语、其他)，第一次识别结果中可以包括所述语音数据的语种为每个所述目标语种的第一得分，则基于所述第一次语种识别结果确定所述语音数据的语种的方式可以包括：确定所述语音数据的语种为每个所述目标语种的第一得分中的最高得分对应的目标语种，为所述语音数据的语种。

本实施例公开了一种语种识别方法，在获取待识别的语音数据之后，确定该语音数据的语种特征；利用预先建立的第一语种识别模型对该语音数据的语种特征进行第一次识别，得到第一次语种识别结果；当第一次语种识别结果不准确时，利用预先建立的第二语种识别模型对该语音数据的语种特征进行第二次识别，得到第二次语种识别结果，并基于第一次语种识别结果和第二次语种识别结果，确定该语音数据的语种。上述方案中，如果第一次语种识别结果不准确，可以利用比第一语种识别模型的网络层数多的第二语种识别模型进行第二次识别，从而提升识别准确率。

另外，在本申请中，并不是对所有的语音数据都进行两次语种识别，而是仅仅对第一次语种识别结果不准确的语音数据才进行第二次语种识别，当需要对多个待识别的语音数据进行语种识别时，相对于对所有的语音数据都进行两次语种识别，在识别速度上也有所提升。

请参阅附图2，图2为本申请实施例公开的一种语种特征提取模型的结构示意图，该语种特征提取模型包括特征变换模块、时序特征提取模块、语种特征提取模块。其中，由于DNN(英文全称：Deep Neural Networks，中文全称：深度神经网络)擅长于对数据进行非线性变换，因此，本申请中，特征变换模块可以基于DNN实现。由于BiLSTM(英文全称：Bi-directional Long Short-Term Memory，中文全称：双向长短期记忆网络)善于对时间序列分析，因此，本申请中，时序特征提取模块可以基于BiLSTM实现。由于BN(英文全称：Bottleneck Networks，中文全称：瓶颈网络)能够降低上一网络层特征的维度，能够提升模型的训练速度，因此，语种特征提取模块可以基于BN(英文全称：Bottleneck Networks，中文全称：瓶颈网络)实现。

基于图2所示的语种特征提取模型，本申请中对步骤S102确定所述语音数据的语种特征的具体实现方式进行说明。该方式可以包括如下步骤：

步骤S201：获取所述语音数据的声学特征。

在本申请中，语音数据的声学特征可以为语音数据的SDC特征。

步骤S202：利用预先建立的语种特征提取模型的特征变换模块对所述语音数据的声学特征进行特征转换，得到变换后的特征。

变换后的特征为所述语音数据的声学特征对应的非线性特征。

步骤S203：利用所述语种特征提取模型的时序特征提取模块，从所述变换后的特征中提取时序特征。

步骤S204：利用所述语种特征提取模型的语种特征提取模块，从所述时序特征中提取所述语音数据的语种特征。

在本申请中，所述语种特征提取模型的语种特征提取模块能够对所述时序特征进行降维处理，得到所述语音数据的语种特征。

对于语种特征提取模型的训练，理论上可以以训练语音数据的声学特征为训练样本，以训练语音数据标注的语种特征为样本标签，训练得到。但是，对于一个语音数据的声学特征，对其对应的语种特征进行标注并不现实，而目前已有成熟的语音识别模型能够得到语音数据的音素信息，因此，在本申请中，可以预置一种音素识别模型，通过对该音素识别模型进行训练，得到语种特征提取模型。具体如下：

请参阅附图3，为本申请中实施例公开的一种音素识别模型的结构示意图，该音素识别模型包括特征变换模块、时序特征提取模块、语种特征提取模块、输出层，其中，特征变换模块、时序特征提取模块以及语种特征提取模块可以即为语种特征提取模型的模块。

在本申请中可以对上述音素识别模型进行训练后，去除该音素识别模型的输出层，即可得到上述语种特征提取模型。

基于图3所示的音素识别模型，对所述语种特征提取模型的训练过程可以包括：

步骤S301：获取训练语音数据。

步骤S302：确定每个训练语音数据的声学特征，以及，每个训练语音数据的音素信息。

在本申请中，可以基于传统的语音识别模型得到每个训练语音数据的声学特征以及每个训练语音数据的音素信息。对此，本申请不再展开描述。

步骤S303：以每个训练语音数据的声学特征为训练样本，以所述训练语音数据的音素信息为样本标签，训练得到音素识别模型。

步骤S304：去除所述音素识别模型的输出层，得到所述语种特征提取模型。

由图2和图3可以看出，通过将图3所示的音素识别模型的输出层去除，即可得到图2所示的语种特征提取模型。

请参阅附图4，图4为本申请实施例公开的一种第一语种识别模型的结构示意图。该第一语种识别模型包括均值超矢量特征提取模块和语种识别模块，其中语种识别模块可以为采用支持向量机(英文全称：Support Vector Machine，英文简称：SVM)算法进行语种识别。

基于图4所示的第一语种识别模型的结构，在本申请的另一个实施例中，对上述步骤S103利用预先建立的第一语种识别模型对所述语音数据的语种特征进行第一次识别，得到第一次语种识别结果的具体实现方式进行说明，该方式可以包括如下步骤：

步骤S401：利用第一语种识别模型中的均值超矢量特征提取模块，对所述语音数据的语种特征进行处理，得到所述语种特征的均值超矢量特征；

步骤S402：利用第一语种识别模型中的语种识别模块，对所述语种特征的均值超矢量特征进行识别，得到第一次语种识别结果。

需要说明的是，第一语种识别模型的训练过程，可以包括：

步骤S501：获取至少一个语种对应的训练语音数据集。

在本申请中，可以预置目标语种(比如，中文、英语、法语、其他)，并获取每个目标语种对应的训练语音数据集。需要说明的是，为保证模型效果，每个目标语种对应的训练语音数据集中包括的语音数据中有时长大于第一预设时长(比如3秒)的长语音数据以及时长不大于第一预设时长的短语音数据，并且所有的语音数据的总时长需要达到第二预设时长(比如，20小时)。

步骤S502：对每个语种对应的训练语音数据集进行标注，得到每个语种对应的训练语音数据集的标注结果。

每个语种对应的训练语音数据的标注结果用于指示所述语种对应的训练语音数据集的语种。

步骤S503：确定各个语种对应的训练语音数据集中，每个训练语音数据的语种特征。

在本申请中，可以基于上述语种特征提取模型对每个训练语音数据进行处理，得到各个训练语音数据的语种特征。

步骤S504：利用各个训练语音数据的语种特征，确定每个语种对应的训练语音数据集的均值超矢量特征集。

在本申请中，可以利用各个训练语音数据的语种特征，确定通用背景模型和全差异空间矩阵。

针对每个语种对应的训练语音数据集，利用该数据集中各个训练语音数据的语种特征，以及上述通用背景模型和全差异空间矩阵，确定该语种对应的训练语音数据集的均值超矢量特征集。

作为一种可实施方式，可以对每个语种对应的训练语音数据集中的每个训练语音数据，利用其语种特征以及上述通用背景模型和全差异空间矩阵，确定其初始均值超矢量特征，所有训练语音数据的初始均值超矢量特征组成均值超矢量特征集。

但是，每个语种对应的训练语音数据集中包含的训练语音数据数量众多，如果将所有训练语音数据的初始均值超矢量特征组成均值超矢量特征集，会导致第一语种识别模型收敛速度较慢。

因此，本申请中提出另一种实施方式，旨在减少每个语种对应的训练语音数据集的均值超矢量特征集中的均值超矢量特征数量，提升第一语种识别模型的收敛速度。该方式具体包括：

步骤S5041：针对每个语种对应的训练语音数据集，利用各个训练语音数据的语种特征，对所述语种对应的训练语音数据集中各个训练语音数据进行聚类，得到所述语种对应的训练语音数据子集。

在本申请中，可以针对每个语种对应的训练语音数据集，利用该数据集中各个训练语音数据的语种特征，以及上述通用背景模型和全差异空间矩阵，确定该语种对应的训练语音数据集中每个训练语音数据的初始均值超矢量特征以及i-vector特征；基于各个训练语音数据的初始均值超矢量特征或i-vector特征，对各个训练语音数据进行聚类，得到该语种对应的训练语音数据子集。每个训练语音数据子集中包括至少一个训练语音数据。

需要说明的是，基于各个训练语音数据的初始均值超矢量特征或i-vector特征，对各个训练语音数据进行聚类的方式可以包括：计算各个训练语音数据的初始均值超矢量特征或i-vector特征的相似度，基于相似度对各个训练语音数据进行聚类。具体地，可以将初始均值超矢量特征或i-vector特征的相似度比较高的多个训练语音数据聚类为一个训练语音数据子集。

进一步需要说明的是，该语种对应的训练语音数据子集可以为聚类后得到的全部子集，但是，包含的训练语音数据个数小于预设阈值(比如，3)的子集会使得最终得到的均值超矢量特征集中的均值超矢量特征比较离散，不利于模型的训练，因此，在本申请中，该语种对应的训练语音数据子集可以为聚类后得到的子集中包含的训练语音数据个数不小于预设阈值的子集。

为便于理解，假设目标语种中文对应的训练语音数据集中包含5000条训练语音数据，经过聚类得到1000个训练语音数据子集，包含训练语音数据条数小于预设阈值(比如，3)的训练语音数据子集有200个，舍弃这200个，剩余800个训练语音数据子集即为目标语种中文对应的训练语音数据子集。最终，中文对应的训练语音数据集的均值超矢量特征集中只包括800个均值超矢量特征，远远小于原来的5000。

步骤S5042：针对所述语种对应的训练语音数据子集中的每个训练语音数据子集，将该训练语音数据子集中各个训练语音数据的初始均值超矢量特征进行合并，得到该训练语音数据子集的均值超矢量特征；所述语种对应的全部训练语音数据子集的均值超矢量特征，组成所述语种对应的训练语音数据集的均值超矢量特征集。

为便于理解，假设目标语种中文对应的训练语音数据集中包含5000条训练语音数据，如果不进行聚类确定目标语种对应的训练语音数据子集，则对应的训练语音数据集的均值超矢量特征集中将包括5000个均值超矢量，导致第一语种识别模型的收敛速度过慢，而基于聚类，使得对应的训练语音数据集的均值超矢量特征集中包括的均值超矢量的数量将大大减少，提升了第一语种识别模型的收敛速度。

步骤S505：利用各个语种对应的训练语音数据集的均值超矢量特征集，以及各个语种对应的训练语音数据集的标注结果训练得到所述第一语种识别模型。

在本申请的另一个实施例中，所述第二语种识别模型是以训练语音数据的语种特征为训练样本，以训练语音数据标注的语种为样本标签，对预置的端到端的神经网络模型训练得到的。作为一种可实施方式，预置的神经网络模型可以为端到端的TDNN(英文全称：Time-Delay Neural Network，中文全称：时延神经网络)。

基于上述方案，在本申请中，第二语种识别模型的网络层数较多，因此，第二语种识别模型的语种识别准确率较高。理论上，对于语音数据，采用第二语种识别模型进行识别即可得到准确率较高的语种识别结果。但是，由于第二语种识别模型的网络层数较多，将语音数据输入第二语种识别模型，第二语种识别模型会需要较长的时间对语音数据进行处理，才能输出语音数据的语种。这种情况下，对于实时性要求较高的语种识别场景，单纯采用第二语种识别模型，则无法满足实时性要求。因此，本申请中，对于语音数据先利用网络层数较少的第一语种识别模型进行识别，得到第一语种识别结果。如果第一语种识别结果不准确，才利用第二语种识别模型进行识别，这样既能保证语种识别结果的准确率，又能保证语种识别的效率。

下面对本申请实施例公开的语种识别装置进行描述，下文描述的语种识别装置与上文描述的语种识别方法可相互对应参照。

参照图5，图5为本申请实施例公开的一种语种识别装置结构示意图。如图5所示，该语种识别装置可以包括：

获取单元11，用于获取待识别的语音数据；

语种特征确定单元12，用于确定所述语音数据的语种特征；

第一语种识别单元13，用于利用预先建立的第一语种识别模型对所述语音数据的语种特征进行第一次识别，得到第一次语种识别结果；

第二语种识别单元14，用于当所述第一次语种识别结果不准确时，利用预先建立的第二语种识别模型对所述语音数据的语种特征进行第二次识别，得到第二次语种识别结果；所述第二语种识别模型的网络层数多于所述第一语种识别模型；

语种确定单元15，用于基于所述第一次语种识别结果和所述第二次语种识别结果，确定所述语音数据的语种。

可选地，所述语种特征确定单元，包括：

声学特征获取单元，用于获取所述语音数据的声学特征；

可选地，所述语种特征提取模型的训练过程，包括：

获取训练语音数据；

可选地，所述第一语种识别单元，包括：

可选地，所述第一语种识别模型的训练过程，包括：

获取至少一个语种对应的训练语音数据集；

参照图6，图6为本申请实施例提供的语种识别设备的硬件结构框图，参照图6，语种识别设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取待识别的语音数据；

确定所述语音数据的语种特征；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取待识别的语音数据；

确定所述语音数据的语种特征；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语种识别方法，其特征在于，包括：

获取待识别的语音数据；

确定所述语音数据的语种特征；

利用预先建立的第一语种识别模型对所述语音数据的语种特征进行第一次识别，得到第一次语种识别结果；第一次识别结果包括所述语音数据的语种为每个目标语种的第一得分，所述目标语种为预置的语种；

当所述第一次语种识别结果不准确时，利用预先建立的第二语种识别模型对所述语音数据的语种特征进行第二次识别，得到第二次语种识别结果；第二次识别结果包括所述语音数据的语种为每个所述目标语种的第二得分；

基于所述语音数据的语种为每个所述目标语种的第一得分，和，所述语音数据的语种为每个所述目标语种的第二得分，确定所述语音数据的语种为每个所述目标语种的最终得分；确定所述语音数据的语种为每个所述目标语种的最终得分中的最高得分对应的目标语种，为所述语音数据的语种；所述第二语种识别模型的网络层数多于所述第一语种识别模型。

2.根据权利要求1所述的方法，其特征在于，所述确定所述语音数据的语种特征，包括：

获取所述语音数据的声学特征；

3.根据权利要求2所述的方法，其特征在于，所述语种特征提取模型的训练过程，包括：

获取训练语音数据；

4.根据权利要求1所述的方法，其特征在于，所述利用预先建立的第一语种识别模型对所述语音数据的语种特征进行第一次识别，得到第一次语种识别结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述第一语种识别模型的训练过程，包括：

获取至少一个语种对应的训练语音数据集；

6.根据权利要求5所述的方法，其特征在于，所述利用各个训练语音数据的语种特征，确定每个语种对应的训练语音数据集的均值超矢量特征集，包括：

7.根据权利要求1所述的方法，其特征在于，所述第二语种识别模型是以训练语音数据的语种特征为训练样本，以训练语音数据标注的语种为样本标签，对预置的端到端的神经网络模型训练得到的。

8.一种语种识别装置，其特征在于，包括：

获取单元，用于获取待识别的语音数据；

语种特征确定单元，用于确定所述语音数据的语种特征；

第一语种识别单元，用于利用预先建立的第一语种识别模型对所述语音数据的语种特征进行第一次识别，得到第一次语种识别结果；第一次识别结果包括所述语音数据的语种为每个目标语种的第一得分，所述目标语种为预置的语种；

第二语种识别单元，用于当所述第一次语种识别结果不准确时，利用预先建立的第二语种识别模型对所述语音数据的语种特征进行第二次识别，得到第二次语种识别结果；所述第二语种识别模型的网络层数多于所述第一语种识别模型；第二次识别结果包括所述语音数据的语种为每个所述目标语种的第二得分；

语种确定单元，用于基于所述语音数据的语种为每个所述目标语种的第一得分，和，所述语音数据的语种为每个所述目标语种的第二得分，确定所述语音数据的语种为每个所述目标语种的最终得分；确定所述语音数据的语种为每个所述目标语种的最终得分中的最高得分对应的目标语种，为所述语音数据的语种；所述第二语种识别模型的网络层数多于所述第一语种识别模型。

9.一种语种识别设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至7中任一项所述的语种识别方法的各个步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的语种识别方法的各个步骤。