CN107437414A

CN107437414A - 基于嵌入式gpu系统的并行化游客识别方法

Info

Publication number: CN107437414A
Application number: CN201710580378.7A
Authority: CN
Inventors: 陆介平; 刘镇
Original assignee: Zhenjiang College
Current assignee: Zhenjiang College
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2017-12-05

Abstract

本发明公布了一种基于GPU系统的并行化游客识别方法，该系统包括嵌入式GPU系统、语音输入模块和显示输出模块；其中，嵌入式GPU系统由预处理模块、并行化特征提取模块和特征匹配模块组成。语音输入模块输出信号进入嵌入式GPU系统，在嵌入式GPU系统内依次通过预处理模块、并行化特征提取模块和特征匹配模块输入至显示输出模块显示；模型库的模板进入特征匹配模块。本发明对部分模块进行了并行化改进，能够处理大数据量的语音信号。同时利用并行化方法优化语音信号处理等过程，提高游客识别系统效率，增强游客识别系统的鲁棒性。

Description

基于嵌入式GPU系统的并行化游客识别方法

技术领域

本发明涉及一种游客识别方法，尤其涉及一种基于嵌入式GPU系统的并行化游客识别方法，属于语音识别领域。

背景技术

随着计算机技术的不断进步与发展以及网络时代的到来，人类与机器的交流也愈加有必要性，同时机器能够智能地判断出游客身份也越来越被广泛应用，游客识别也成为当下热门的研究领域。传统的游客识别方法通常是利用DSP等硬件装置或者结合相关模式识别方法等方式，将游客音频整个送入识别引擎作处理，但这种游客识别方法的缺点也显而易见：一方面是硬件成本高，系统结构复杂；另一方面是面对大数据量的游客音频文件，识别和处理时间过长。

公开号为CN104538033A的中国发明专利申请中公开了一种基于嵌入式GPU系统的并行化语音识别系统与方法，该专利的系统主要针对的是语音识别系统，未涉及游客识别系统；该专利的方法主要针对的是在对音频信号处理中使用的模版匹配方法，未对音频信号采用具有高度自学能力和自适应能力的BP神经网络训练和识别方法来进行识别。

发明内容

本发明在于提供一种基于嵌入式GPU系统的并行化游客识别方法，以解决游客识别方法并行化程度低、处理效率低的问题。该方法在原有游客识别的基础上进行了部分模块的并行化改进，提高了音频信号处理和BP神经网络学习的计算速度，从而保证了游客识别的效率，增强游客识别系统的健壮性和稳定性。

本发明的方法基于嵌入式GPU系统，包括语音输入模块、预处理模块、并行化特征提取模块、特征匹配模块和显示输出模块；语音输入模块的采集信号进入嵌入式GPU系统，在嵌入式GPU系统内依次通过预处理模块、并行化特征提取模块、特征匹配模块，信号在嵌入式GPU系统内处理后输出进入显示输出模块进行输出显示。

具体包括下列步骤：

(1)语音输入模块采集语音信号，并将数字化的语音信号送入基于CUDA平台架构的嵌入式GPU系统；

(2)使用CUDA架构，通过并行化的一阶数字预加重滤波程序滤除输入语音信号的低频干扰，提升对语音识别有用的高频部分；

(3)使用CUDA架构，通过并行化的方法给输入语音信号加窗分帧，使得语音信号更易于处理；

(4)利用双门限比较法进行端点检测，将一段语音信号切分为若干片段，减少计算量，提高系统的识别率；

(5)使用CUDA架构，在并行化特征提取模块中对切分后的每个语音片段并行化地进行特征提取；即：将切分后的语音信号分配一个线程(Thread)，N个语音片段使用N个线程并行执行特征值计算；

(6)使用CUDA架构，利用并行化BP神经网络模型进行特征匹配，即：利用BP神经网络的方法训练语音库中的模板，然后将分段特征提取后的信号特征值利用BP神经网络方法与已有模板库中的模板进行特征匹配，获得游客识别的结果；

(7)将游客识别的结果送至显示输出模块显示结果。

上述的步骤(2)中预加重是将语音信号通过一阶高通滤波器，其传递函数为：H(z)＝1-az^-1。

上述的步骤(3)中对语音信号的分帧是用可移动的有限长度窗口进行加权的方法来实现的，即S_w(n)＝S(n)*w(n)，其中S(n)为加窗前的函数，S_w(n)为加窗后的函数，w(n)即为所加的窗函数。

上述的步骤(4)中端点检测的方法是将语音信号的短时能量和短时过零率作为特征参数，同时采用双门限判定法来检测语音，根据语音间短暂停顿切分语音信号。

上述步骤(5)所述的提取各段语音信号特征值，是对每段语音信号并行化进行特征提取，提取的特征值参数为该片段的Mel频率倒谱系数MFCC。

上述步骤(6)中利用并行化BP神经网络模型进行特征匹配，是根据语音信号的特征参数设计BP神经网络的输入层、输出层节点数，根据游客识别的精度和复杂度设计隐藏层的层数；先用一定数量的样本数据训练神经网络，得到BP神经网络能够表达的游客识别模型，然后根据已经训练好的BP神经网络判断出游客；

所述并行化BP神经网络模型基于CPU+GPU异构嵌入式系统，使用CUDA平台架构，对BP神经网络模型训练过程中的各层算法进行并行计算优化，具体步骤如下：

①在CPU的Host端上分配显存空间，并将本次训练样本的输入、输出、权重值、偏倚值和学习率复制到GPU的Device端，然后进行GPU资源配置划分；

②在Device端上进行并行化的计算，可以并行计算的部分有隐藏层的输出、隐藏层的误差、输出层的输出、输出层的误差、输出层的权重值和偏倚值；为了充分利用GPU的计算资源，将每次并行计算划分为若干的线程块(Block)，每个线程块里分配若干线程(Thread)，将每个线程块中的共有数据存放在各线程块的共享存储器(Share Memory)中，而将本次训练的输入输出结果存入常量存储器(Constant Memory)中；

③将本次训练结果中的权重值和偏倚值复制回Host端，如此循环训练，直至达到训练次数或识别精度满足要求结束。

与现有技术相比，本发明的有益效果是：(1)使用嵌入式GPU系统，进行了部分模块的并行化改进。由于GPU浮点运算能力强、内存宽带大和成本低，以及基于CUDA通用并行化计算架构，可以充分发挥GPU的计算能力，能够处理大数据量的音频识别；(2)利用并行化方法对语音信号处理、匹配识别等过程进行优化，同时改进算法程序，以加快游客识别速度，从而提高语音识别系统的效率，增强语音识别系统的健壮性和稳定性。

附图说明

图1为本发明的一种基于嵌入式GPU系统的并行化游客识别方法模块图；

图2为本发明的一种基于嵌入式GPU系统的并行化游客识别方法的实施流程图；

图3为本发明中语音特征参数MFCC提取过程流程图；

图4为本发明中CPU和GPU任务划分示意图。

具体实施方式

下面结合附图对本发明的内容作进一步的详细介绍。

如附图1所示，为本发明的一种基于嵌入式GPU系统的并行化游客识别方法模块图，该方法基于嵌入式GPU系统1，包含语音输入模块2、预处理模块3、并行化特征提取模块4、特征匹配模块5和显示输出模块6；并行化游客识别方法的具体实施步骤如下(参见附图2)：

1.通过语音输入模块采集语音信号，将数字化的信号送入基于CUDA平台架构的嵌入式GPU系统中；

2.在CUDA架构下，使用并行化的CUDA程序设计一阶高通数字滤波器进行预加重，该滤波器的传递函数为H(z)＝1-az^-1，用此滤波器来滤除低频干扰，提升对语音识别有用的高频部分，假设S(n)是预加重前的语音信号，那么经过预加重滤波器后得到的信号为：

3.在CUDA架构下，使用并行化的CUDA程序给语音信号加窗分帧：由于语音信号只在较短的时间内呈现平稳性，因此将语音信号划分为若干个短时段，即一帧；同时为避免丢失语音信号的动态信息，相邻帧之间要有一段重叠区域，重叠区域取帧长的1/3，以增加每帧左端和右端的连续性；分帧使用可移动的有限长度窗口进行加权的方法来实现，就是用一定的窗函数W(n)与相乘，从而得到加窗语音信号Sw，本方法在语音信号中加上汉明窗，汉明窗的窗函数如下所示：

4.利用双门限比较法进行端点检测，减少计算量，提高系统的识别率；在开始进行端点检测之前，首先为短时平均能量和过零率确定两个门限；其中一个是低门限，对信号的变化比较敏感，很容易就会被超过；另一个是高门限，信号必须达到一定的强度，该门限才有可能被超过；低门限被超过，也有可能是短时噪声引起的，而高门限被超过则被认为是由语音引起的。整个语音信号的端点检测可以分为四个阶段：静音段、过渡段、语音段、结束；在静音段，如果能量或过零率超越了低门限，就应该标记为起始点，进入过渡段，由于参数的数值比较小，不能确定是否处于真正的语音段，因此只要两个参数的数值都回落到低门限以下，就将当前状态恢复到静音状态；而如果在过渡段两个参数中的任一个超过了高门限，就可以确定进入语音段；当两个参数值降到低门限以下，而且总的时间长度小于设定的最短时间门限，则认为这是一段噪音，继续扫描后续的语音数据，否则就标记为结束端点。

5.根据人说话时每句之间都会有短暂的停顿，端点检测到每一句话时都将标记一个起始端点和结束端点，所以利用端点检测可以将一段语音切分为N个语音片段，分别标记为S₁，S₂，……，S_N。

6.使用CUDA平台架构，为每个语音片段分配一个线程(Thread)，N个语音片段使用N个线程并行执行特征值计算，每个线程对其相应的语音片段通过CUFFT进行傅里叶变换得到该线程对应的语音片段的频谱能量分布，并对语音信号的频谱取模平方得到语音信号的功率谱，将能量谱通过一组Mel尺度的三角形滤波器组并计算出每个滤波器组输出的对数能量，再将对数能量带入离散余弦变换，即可得到每个线程对应的语音片段的特征值MFCC，也就是一个维度为24的特征向量集合(参见附图3)；

7.利用并行化BP神经网络模型进行特征匹配，即根据语音信号的特征参数设计BP神经网络的输入层、输出层节点数，根据游客识别的精度和复杂度设计隐藏层的层数；该方法先用一定数量的样本数据训练神经网络，得到BP神经网络能够表达的游客识别模型，然后根据已经训练好的BP神经网络判断出游客；具体方法为：该并行化BP神经网络训练方法利用GPU的并行计算能力，对BP神经网络训练过程中密集型的数据计算进行加速。在CUDA平台下将训练任务分为在CPU上执行的Host端和在GPU上执行的Device端两部分。其中，Host端完成特征数据读取、GPU资源分配、参数传递和接收返回结果等功能；Device端主要完成各层内部的复杂计算等功能；最后，Host端保存来自Device端的计算结果并将其写回到指定位置。根据GPU硬件性能，假设每个设备即一个线程格(Grid)最多可分为M个线程块(block)，每个线程块最多可分成N个线程(Thread)。基于并行化的BP神经网络训练方法的详细步骤如下：

在Host端(CPU)上分配显存空间，并将本次训练样本的输入IN、输出OUT、权重值w、偏倚值b和学习率复制到Device端(GPU)，然后进行GPU资源配置划分；

BP神经网络构建根据系统输入输出特点确定BP神经网络的结构，根据提取的MFCC的特征向量是24维的，设置待分类的语音信号有4类，所以设置BP神经网络的结构为24-25-4；

在Device端GPU进行并行化的BP神经网络训练，在训练过程中不需要与Host端的数据传输，减少了通信时间开销与传输带宽的压力；可并行化的部分包括以下几个方面：

①隐藏层输出cu_HiddenOut函数：

由于隐藏层各神经元的输出只与输入层所有神经元有关，与隐藏层其他神经元的输出不相关，所以可以并行计算。假设隐藏层的神经元个数为H个，则分配H个线程块(Block)，每个Block中分配IN＝24个线程(Thread)，为了优化GPU资源配置，每个Block中的共享存储器(Share Memory)中分配数组大小为IN＝24；故计算隐藏层输出的核函数为：

cu_HiddenOut<<<H,IN,IN>>>(in_hidden_w,in_hidden_b,hidden_out)

其中，in_hidden_w为权重值，in_hidden_b为偏倚值，hidden_out为隐藏层输出。

②隐藏层误差cu_HiddenError函数：

核函数启动H个线程块(Block)，每个Block中分配OUT＝4个线程(Thread)，并行计算隐藏层的误差，计算隐藏层误差的核函数为：

cu_HiddenError<<<H,OUT>>>(hiddenError,outError,hidden_out_w,hidden_out)

其中，hiddenError为隐藏层误差；outError为输出层误差；hidden_out_w为权重值，hidden_out为隐藏层输出。

③计算输出层的输出和误差的核函数与隐藏层的调用方法类似；

④更新隐藏层与输出层的权重值和偏倚值。

将本次训练结果中的权重值和偏倚值复制回Host端，如此循环训练，直至达到训练次数或识别精度满足要求结束(参见附图4)。

8、利用训练好的BP神经网络识别游客，将识别的结果送到显示输出模块输出。

Claims

1.一种基于嵌入式GPU系统的并行化游客识别方法，其特征在于：该方法基于嵌入式GPU系统，包含语音输入模块、预处理模块、并行化特征提取模块、特征匹配模块和显示输出模块；并行化的游客识别方法步骤如下：

步骤1：通过语音输入模块采集语音信号，将数字化的信号送入基于CUDA平台架构的嵌入式GPU系统中；

步骤2：使用CUDA架构，利用并行化的一阶数字预加重滤波程序滤除低频干扰；

步骤3：使用CUDA架构，利用并行化的方法给语音信号加窗分帧；

步骤4：利用双门限比较法进行端点检测，将一段语音信号切分为若干片段；

步骤5：使用CUDA架构，对切分后的每个语音片段并行化地进行特征提取；

步骤6：使用CUDA架构，利用BP神经网络的方法训练语音库中的模板，然后将分段特征提取后的信号特征值利用BP神经网络方法与已有模板库中的模板进行特征匹配；

步骤7：将游客识别的结果送至显示输出模块显示结果。

2.根据权利要求1所述的一种基于嵌入式GPU系统的并行化游客识别方法，其特征在于：步骤2所述的预加重是将语音信号通过一阶高通滤波器，其传递函数为：H(z)＝1-az^-1。

3.根据权利要求1所述的一种基于嵌入式GPU系统的并行化游客识别方法，其特征在于：步骤3所述的对语音信号的分帧是用可移动的有限长度窗口进行加权的方法来实现的，即S_w(n)＝S(n)*w(n)，其中S(n)为加窗前的函数，S_w(n)为加窗后的函数，w(n)即为所加的窗函数。

4.根据权利要求1所述的一种基于嵌入式GPU系统的并行化游客识别方法，其特征在于：步骤4所述的端点检测方法是将语音信号的短时能量和短时过零率作为特征参数，同时采用双门限判定法来检测语音，根据语音间短暂停顿切分语音信号。

5.根据权利要求1所述的并行化特征提取方法，其特征在于：对每一语音片段进行特征值提取的计算过程是并行化的；在CUDA平台架构下，为每个语音片段分配一个线程(Thread)，N个语音片段使用N个线程并行执行特征值计算。

6.根据权利要求1所述的一种基于嵌入式GPU系统的并行化游客识别方法，其特征在于：步骤6所述的利用并行化BP神经网络模型进行特征匹配，即根据语音信号的特征参数设计BP神经网络的输入层、输出层节点数，根据游客识别的精度和复杂度设计隐藏层的层数；该方法先用一定数量的样本数据训练神经网络，得到BP神经网络能够表达的游客识别模型，然后根据已经训练好的BP神经网络判断出游客。