CN107068167A

CN107068167A - 融合多种端到端神经网络结构的说话人感冒症状识别方法

Info

Publication number: CN107068167A
Application number: CN201710146957.0A
Authority: CN
Inventors: 李明; 倪志东
Original assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Current assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Priority date: 2017-03-13
Filing date: 2017-03-13
Publication date: 2017-08-18
Also published as: WO2018166316A1

Abstract

本发明涉及一种融合多种端到端神经网络结构的说话人感冒症状识别方法，包括以下步骤：S1.构建及训练输入为语音，识别网络为卷积神经网络和长短期记忆网络的端到端神经网络A；S2.构建及训练输入为语音频谱，识别网络为卷积神经网络和长短期记忆网络的端到端神经网络B；S3.构建及训练输入为语音频谱，识别网络为卷积神经网络和全连接网络的端到端神经网络C；S4.构建及训练输入为语音MFCC特征/CQCC特征，识别网络为长短期记忆网络的端到端神经网络D；S5.融合以上四种训练好的端到端神经网络进行说话人感冒症状识别。

Description

融合多种端到端神经网络结构的说话人感冒症状识别方法

技术领域

本发明涉及声纹识别领域，更具体地，涉及一种融合多种端到端神经网络结构的说话人感冒症状识别方法。

背景技术

说话人识别又称声纹识别，是利用模式识别技术自动识别说话人的技术。当前的说话人识别技术在实验条件中取得很好的性能，但是在实际中，受识别的语音会受到环境噪声和说话人健康条件的影响，使得已有说话人识别技术的鲁棒性降低。现有的说话人识别方法主要用于说话人身份确定方面，目前还没有相关的应用于说话人感冒症状的识别方法。

在语音技术研究中，研究者总是希望能找到表示目标类型的特征，从识别目标语音中找到明显区别正常语音的特性进行描述，语音特征提取是提取说话人的语音特征和声道特征，目前，主流的特征参数包括MFCC、LPCC、CQCC等，都是以单个特征为主，表征说话人感冒症状的信息不足，影响识别精度。同时需要大量区分分类目标语音的知识，而在识别算法中，起步较早的是基于声道模型和语音模型的方法，但是因为模型的复杂性，没有取得很好的实用效果。而模型匹配方法如动态时间规整、隐马尔可夫模型、矢量量化等技术等开始发挥良好的识别效果。把特征提取和模式分类分开研究是识别研究的常用方法，但是存在特征和模型不匹配、训练困难、特征不易寻找的问题，经典的识别框架存在上述的问题。

近年来随着深度学习的发展，基于深层神经网络在图像和语音的识别已显示出巨大的能量，一系列的神经网络结构也被提出，比如自动编码网络、卷积神经网络和循环神经网络等。有很多学者发现，通过神经网络对语音进行学习，可以得到更好描述语音的隐藏结构特征，端到端的识别方法就是通过尽量少的先验知识，同时对特征学习和特征识别进行处理，具有很好的识别效果。

发明内容

本发明为解决现有技术提供的识别技术将特征提取和模式分类分开导致的特征和模型不匹配、训练困难，特征不易寻找等问题，提供了一种融合多种端到端神经网络结构的说话人感冒症状识别方法，该方法通过把特征学习和模式分类统一在一起，使得整个说话人感冒症状识别过程更加简单快速，具有广泛的应用前景。

为实现以上发明目的，采用的技术方案是：

融合多种端到端神经网络结构的说话人感冒症状识别方法，包括以下步骤：

S1.构建及训练输入为语音，识别网络为卷积神经网络和长短期记忆网络的端到端神经网络A；

S2.构建及训练输入为语音频谱，识别网络为卷积神经网络和长短期记忆网络的端到端神经网络B；

S3.构建及训练输入为语音频谱，识别网络为卷积神经网络和全连接网络的端到端神经网络C；

S4.构建及训练输入为语音MFCC特征/CQCC特征，识别网络为长短期记忆网络的端到端神经网络D；

S5.融合以上四种训练好的端到端神经网络进行说话人感冒症状识别。

优选地，所述端到端神经网络A的卷积神经网络包括8个模块，每个模块均包括一维卷积层、ReLU激活层和一维最大池化层，其中一维卷积层的卷积核的大小为32，一维最大池化层的池化核的大小为2，池化步长为2。

优选地，所述端到端神经网络B的卷积神经网络包括6个模块，每个模块包括二维卷积层、ReLU激活层和二维最大池化层；其中第一个卷积层使用7*7的卷积核，第二层使用5*5的卷积核，剩下4层使用3*3的卷积核；所有的最大池化层均使用3*3的池化核，池化步长为2。

优选地，所述端到端神经网络C的卷积神经网络包括6个模块，每个模块包括二维卷积层、ReLU激活层和二维最大池化层；其中第一个卷积层使用7*7的卷积核，第二层使用5*5的卷积核，剩下4层使用3*3的卷积核；所有的最大池化层均使用3*3的池化核，池化步长为2。

与现有技术相比，本发明的有益效果是：

现有识别技术都是把特征和模式分类分开研究，存在特征和模型不匹配、训练困难，特征不易寻找等问题。而本发明提供的方法通过融合四种不同的端到端神经网络把特征学习和模式分类统一在一起，使得整个说话人感冒症状识别过程更加简单快速，具有广泛的应用前景。

附图说明

图1为方法的具体实施示意图。

图2为语音提取梅尔倒谱系数(MFCC)的流程图。

图3为语音提取常数Q倒谱系数(CQCC)的流程图。

图4为端到端神经网络A的示意图。

图5为端到端神经网络B的示意图。

图6为端到端神经网络C的示意图。

图7为端到端神经网络D的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

图1为本发明提供的方法的具体实施过程图，如图1所示，本发明提供的融合多种端到端神经网络结构的说话人感冒症状识别方法，包括以下步骤：

S4.构建及训练输入为语音MFCC特征/CQCC特征，识别网络为长短期记忆网络的端到端神经网络D，具体如图7所示；

其中，如图2、3所示，步骤S4中的MFCC特征通过对语音进行预加重，加窗分帧、快速傅里叶变换、计算能量谱密度、梅尔刻度三角滤波器组滤波、取对数运算、离散余弦变换后最终得到的，而CQCC特征是通过对语音进行常数Q变换、求能量谱密度、取对数操作、离散余弦变换得到的。

在具体的实施过程中，如图4所示，所述端到端神经网络A的卷积神经网络包括8个模块，每个模块均包括一维卷积层、ReLU激活层和一维最大池化层，其中一维卷积层的卷积核的大小为32，一维最大池化层的池化核的大小为2，池化步长为2。

在具体的实施过程中，如图5所示，所述端到端神经网络B的卷积神经网络包括6个模块，每个模块包括二维卷积层、ReLU激活层和二维最大池化层；其中第一个卷积层使用7*7的卷积核，第二层使用5*5的卷积核，剩下4层使用3*3的卷积核；所有的最大池化层均使用3*3的池化核，池化步长为2。

在具体的实施过程中，如图6所示，所述端到端神经网络C的卷积神经网络包括6个模块，每个模块包括二维卷积层、ReLU激活层和二维最大池化层；其中第一个卷积层使用7*7的卷积核，第二层使用5*5的卷积核，剩下4层使用3*3的卷积核；所有的最大池化层均使用3*3的池化核，池化步长为2。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.融合多种端到端神经网络结构的说话人感冒症状识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的融合多种端到端神经网络结构的说话人感冒症状识别方法，其特征在于：所述端到端神经网络A的卷积神经网络包括8个模块，每个模块均包括一维卷积层、ReLU激活层和一维最大池化层，其中一维卷积层的卷积核的大小为32，一维最大池化层的池化核的大小为2，池化步长为2。

3.根据权利要求1所述的融合多种端到端神经网络结构的说话人感冒症状识别方法，其特征在于：所述端到端神经网络B的卷积神经网络包括6个模块，每个模块包括二维卷积层、ReLU激活层和二维最大池化层；其中第一个卷积层使用7*7的卷积核，第二层使用5*5的卷积核，剩下4层使用3*3的卷积核；所有的最大池化层均使用3*3的池化核，池化步长为2。

4.根据权利要求1所述的融合多种端到端神经网络结构的说话人感冒症状识别方法，其特征在于：所述端到端神经网络C的卷积神经网络包括6个模块，每个模块包括二维卷积层、ReLU激活层和二维最大池化层；其中第一个卷积层使用7*7的卷积核，第二层使用5*5的卷积核，剩下4层使用3*3的卷积核；所有的最大池化层均使用3*3的池化核，池化步长为2。