WO2018166316A1

WO2018166316A1 - 融合多种端到端神经网络结构的说话人感冒症状识别方法

Info

Publication number: WO2018166316A1
Application number: PCT/CN2018/076272
Authority: WO
Inventors: 李明; 倪志东
Original assignee: 佛山市顺德区中山大学研究院; 广东顺德中山大学卡内基梅隆大学国际联合研究院; 中山大学
Priority date: 2017-03-13
Filing date: 2018-02-11
Publication date: 2018-09-20
Also published as: CN107068167A

Abstract

融合多种端到端深度学习结构的说话人感冒症状识别方法，由4个端到端的神经网络组成，当输入为原始语音或者语音频谱时，通过卷积神经网络提取最优特征，最后接长短期记忆网络或者全连接网络进行分类；当输入为梅尔倒谱系数(MFCC)或者常数Q倒谱系数(CQCC)时，直接通过长短期记忆网络进行分类，最后把这些系统融合在一起，整个流程把特征提取和模型分类两个问题统一在一起，使得整个说话人感冒症状识别过程更加简单快速。

Description

融合多种端到端神经网络结构的说话人感冒症状识别方法

技术领域

本发明涉及语音处理技术领域，提出融合多种端到端深度学习结构的说话人感冒症状识别方法

背景技术

1、说话人识别又称声纹识别，是指通过语音中包含特有的说话人信息，利用模式识别技术自动识别说话人的技术。当前的说话人技术是实验条件中取得很好的性能，但是在实际中，语音会受到环境噪声和说话人健康条件的影响，使得已有说话人识别技术的鲁棒性降低，感冒语音识别方法通过对已有语音进行分类判断是否为感冒语音，通过感冒语音识别方法提前判别语音是否是感冒语音，再进行说话人识别，可以提高说话人识别的鲁棒性。

2、在语音技术研究中，研究者总是希望能找到表示目标类型的特征，从识别目标语音中找到明显区别正常语音的特性进行描述，语音特征提取是提取说话人的语音特征和声道特征，目前，主流的特征参数包括MFCC、LPCC、CQCC等，都是以单个特征为主，表征说话人感冒症状的信息不足，影响识别精度。同时需要大量区分分类目标语音的知识，而在语音识别算法中，起步较早的是基于声道模型和语音模型知识的方法，但是因为模型的复杂性，没有取得很好的实用效果，而模型匹配方法如动态时间规整、隐马尔可夫模型、矢量量化等技术等开始发挥良好的识别效果。把特征提取和模式分类分开研究是识别研究的常用方法，但是存在特征和模型不匹配、训练困难、特征不易寻找的问题，经典的识别框架存在上述的问题。

3、近年来随着深度学习的发展，基于深层神经网络在图像和语音的识别已显示出巨大的能量，一系列的神经网络结构也被提出，比如自动编码网络、卷积神经网络和循环神经网络等。有很多学者发现，通过神经网络对语音进行学习，可以得到更好描述语音的隐藏结构特征，端到端的识别方法就是通过尽量少的先验知识，同时对特征学习和特征识别进行处理，具有很好的识别效果。

发明内容：

根据现有识别技术都是把特征和模式分类分开研究，存在特征和模型不匹配、训练困难，特征不易寻找等问题，本发明提出融合多种端到端深度学习结构的说话人感冒症状识别方法，我们构建四种不同的端到端深度学习网络，最后融合四种不同的端到端神经网络结构进行说话人感冒症状识别。

四种端到端深度学习结构分别为：1、输入为语音，网络为多层卷积神经网络和长短期记忆网路；2、输入为语音频谱，网络为多层卷积神经网路和长短期记忆网络；3、输入为语音频谱，网络为多层卷积神经网络和全连接网络；4、输入为梅尔倒谱系数和常数Q倒谱系数，网络为长短期记忆网络；

本发明的有益效果是：基于传统特征的不确定性，我们通过神经网络训练得到的输出可以更好的表达说话人感冒症状的特征，并且输入相对来说比较简单，不用过多的进行特征处理。因为语音具有时序信息，我们通过长短期记忆网络实现分类有更好的效果。通过把特征学习和模式分类统一在一起，使得整个说话人感冒症状识别过程更加简单快速，具有广泛的应用前景。

附图说明

图一为语音提取梅尔倒谱系数(MFCC)的流程

图二为语音提取常数Q倒谱系数(CQCC)的流程

图三为第一个端到端神经网络，输入为语音，网络为CNN+LSTM。

图四为第二个端到端神经网络，输入为语音频谱，网络为CNN+LSTM

图五为第三个端到端神经网络，输入为语音频谱，网络为CNN+全连接网络

图六为第四个端到端神经网络，输入为梅尔倒谱系数或者常数Q倒谱系数，网络为LSTM。

具体实施方式：

为使本发明的技术方案和优点更加清楚，下面结合附图，对发明的技术方案进行清楚完整的描述：

步骤一：构建输入为语音、网络为CNN+LSTM的端到端神经网络，具体为：输入语音切分为相同大小的片段比如40ms，然后进行均值归一化，而相对应的卷积神经网络由8个模块组成，每一个模块是由一维卷积层、ReLU激活层、一维最大池化层组成的，其中，每一个卷积核的大小为32，池化核的大小为2，池化步长为2。而后使用长短期记忆网络进行分类。

步骤二：构建输入为语音频谱，网络为为CNN+LSTM的端到端神经网络，具体为：输入语音切分为相同大小的片段，进行快速傅里叶变换，求出语音片段的频谱图，卷积神经网络则由6个模块组成，每个模块由二维卷积层、ReLU激活层、二维最大池化层组成。其中，第一个卷积层使用7*7的卷积层，第二层使用5*5的卷积核，剩下4层使用3*3的卷积核，所有的最大池化层使用3*3的池化核，池化步长为2。最后经过LSTM网络进行分类。

步骤三：构建输入为语音频谱，网络为为CNN+LSTM的端到端神经网络，具体为：输入语音切分为相同大小的片段，进行快速傅里叶变换，求出语音片段的频谱图，卷积神经网络则由6个模块组成，每个模块由二维卷积层、ReLU激活层、二维最大池化层组成。其中，第一个卷积层使用7*7的卷积层，第二层使用5*5的卷积核，剩下4层使用3*3的卷积核，所有的最大池化层使用3*3的池化核，池化步长为2。再经过一个全连接层，最后经过Softmax进行分类。

步骤四：构建输入为MFCC特征或者CQCC特征，网络为LSTM的端到端神经网路，MFCC特征通过对语音进行预加重，加窗分帧、快速傅里叶变换、梅尔刻度三角滤波器组滤波、取对数运算、离散余弦变换后最终得到的，而CQCC特征是通过对语音进行常数Q变换、求能量谱密度、取对数操作、余弦变换得到的。进行经过长短期记忆网路进行分类。对语音提取MFCC或者CQCC特征作为神经网络的输入，最后经过长短期记忆网络进行分类。

步骤五：将以上四个网络融合在一起进行说话人感冒语音识别。

Claims

融合多种端到端深度学习结构的说话人感冒症状识别方法，包括：

S1、构建输入为语音，网络为卷积神经网络加上长短期记忆网络的端到端神经网络；

S2、构建输入为语音频谱，网络为卷积神经网络加上长短期记忆网络的端到端神经网络；

S3、构建输入为语音频谱，网络为卷积神经网络加上全连接的端到端神经网络；

S4、构建输入为语音MFCC/CQCC特征，网络为长短期记忆网络的端到端神经网络；

S5、融合以上四种端到端神经网络进行说话人感冒症状识别；
根据权利要求1所述的融合多种端到端深度学习结构的说话人感冒症状识别方法，其特征还在于：S1中所述的输入为语音、网络为CNN+LSTM的端到端神经网络，具体为，输入语音切分为相同大小的片段比如40ms，然后进行均值归一化，而相对应的卷积神经网络由8个模块组成，每一个模块是由一维卷积层、ReLU激活层、一维最大池化层组成的，其中，每一个卷积核的大小为32，池化核的大小为2，池化步长为2。而后使用长短期记忆网络进行分类。
根据权利要求1所述的融合多种端到端深度学习结构的说话人感冒症状识别方法，其特征还在于：S2中所述的输入为语音频谱，网络为为CNN+LSTM的端到端神经网络，具体为：输入语音切分为相同大小的片段，进行快速傅里叶变换，求出语音片段的频谱图，卷积神经网络则由6个模块组成，每个模块由二维卷积层、ReLU激活层、二维最大池化层组成。其中，第一个卷积层使用7*7的卷积层，第二层使用5*5的卷积核，剩下4层使用3*3的卷积核，所有的最大池化层使用3*3的池化核，池化步长为2。最后经过LSTM网络进行分类。
根据权利要求1所述的融合多种端到端深度学习结构的说话人感冒症状识别方法，其特征还在于：S3中所述的输入为语音频谱，网络为为CNN+LSTM的端到端神经网络，具体为：输入语音切分为相同大小的片段，进行快速傅里叶变换，求出语音片段的频谱图，卷积神经网络则由6个模块组成，每个模块由二维卷积层、ReLU激活层、二维最大池化层组成。其中，第一个卷积层使用7*7的卷积层，第二层使用5*5的卷积核，剩下4层使用3*3的卷积核，所有的最大池化层使用3*3的池化核，池化步长为2。再经过一个全连接层，最后经过Softmax进行分类。
根据权利要求1所述的融合多种端到端深度学习结构的说话人感冒症状识别方法，其特征还在于：S4的MFCC特征通过对语音进行预加重，加窗分帧、快速傅里叶变换、梅尔刻度三角滤波器组滤波、取对数运算、离散余弦变换后最终得到的，而CQCC特征是通过对语音进行常数Q变换、求能量谱密度、取对数操作、余弦变换得到的。进行经过长短期记忆网路进行分类。对语音提取MFCC或者CQCC特征作为神经网络的输入，最后经过长短期记忆网络进行分类。