CN110875060A

CN110875060A - 语音信号处理方法、装置、系统、设备和存储介质

Info

Publication number: CN110875060A
Application number: CN201811009263.3A
Authority: CN
Inventors: 田彪; 何召卫; 余涛
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2020-03-10
Also published as: US20200075012A1; US11398235B2

Abstract

本发明公开了一种语音信号处理方法、装置、系统、设备和存储介质。该方法包括：使用图像采集设备获取实时图像，利用所述实时图像进行人脸识别，根据人脸识别结果检测目标人员发出语音的时间段；对麦克风阵列接收的音频信号进行声源定位，确定所述音频信号中声源的方位信息；根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息，进行语音起止点分析，确定所述音频信号中的语音起止时间点。根据本发明实施例提供的语音信号处理方法，可以在多干扰源的嘈杂环境下对语音信号进行语音端点检测，提高系统的抗干扰能力。

Description

语音信号处理方法、装置、系统、设备和存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及语音信号处理方法、装置、系统、设备和存储介质。

背景技术

在语音识别系统中，正确有效的进行语音端点检测(Voice Activity Detection,VAD)不仅可以减少计算量和缩短处理时间，而且能排除无声段的噪声干扰，提高语音识别的正确率。由于语音信号中不仅包含所需要的有用的语音端，同时也包含了无用的背景噪声段，语音端点检测可以从一段给定的语音信号中检测到语音的起始点和结束点，将语音信号分为语音端和无声段(背景噪声段)两类。

现有技术中，通常使用语音能量的检测器进行语音端点检测，但是这种语音段在检测方法在嘈杂的环境下经常失效，从而造成干扰语音也作为目标语音送往语音识别引擎，造成语音识别系统抗干扰能力差。

发明内容

本发明实施例提供一种语音信号处理方法、装置、系统、设备和存储介质，可以实现在多干扰源的嘈杂环境下，提高语音识别系统的抗干扰能力。

根据本发明实施例的一方面，提供一种语音信号处理方法，包括：

在图像采集设备的可视范围内进行人脸识别，根据人脸识别结果检测目标人员是否发出语音；

对接收的待识别声音信号进行声源定位，结合声源定位结果和目标人员是否发出语音的检测结果，确定目标区域中存在的语音信号；

对目标区域中存在的语音信号进行语音端点检测，得到语音信号中待识别的语音片段。

根据本发明实施例的另一方面，提供一种语音信号处理装置，包括：

根据本发明实施例的再一方面，提供一种语音信号处理设备，包括：存储器和处理器；该存储器用于存储程序；该处理器用于读取存储器中存储的可执行程序代码以执行上述的语音信号处理方法。

根据本发明实施例的又一方面，提供了一种语音信号处理系统，包括：

图像采集设备，用于获取实时图像；

集音设备，用于接收音频信号；

数据处理设备，用于利用实时图像进行人脸识别，根据人脸识别结果检测目标人员发出语音的时间段；对麦克风阵列接收的音频信号进行声源定位，确定音频信号中声源的方位信息；根据实时图像中目标人员发出语音的时间段和声源的方位信息，进行语音起止点分析，确定音频信号中的语音起止时间点。

根据本发明实施例的还一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述各方面的语音信号处理方法。

根据本发明实施例中的语音信号处理方法、装置、系统、设备和存储介质，可以在多干扰源的嘈杂环境下对语音信号进行语音端点检测，提高系统的抗干扰能力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是示出根据本发明示例性实施例的语音信号处理方法的应用场景示意图；

图2是示出根据本发明实施例的语音信号处理系统的模块结构示意图；

图3是示出根据本发明实施例的麦克风阵列对目标区域进行声源定位的场景示意图；

图4是示出根据本发明一实施例的语音信号处理方法的流程图；

图5是示出根据本发明一实施例的语音信号处理装置的结构示意图；

图6是示出根据本发明实施例的语音信号处理系统的硬件结构示意图；

图7是示出了可以实现根据本发明实施例的语音信号处理方法和装置的计算设备的示例性硬件架构的结构图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例中，语音信号处理系统例如智能音响设备、智能语音购物机、智能语音售票机和智能语音电梯，通常需要在商场、地铁站和社交场所等存在多干扰源的嘈杂环境或多人交互的真实环境中进行语音信号采集和语音信号处理。

在本发明下述实施例的描述中，可以使用麦克风阵列对存在多干扰源的嘈杂环境中来自空间不同方向的声音信号进行信号采样和信号处理。麦克风阵列中的每个声学传感器例如麦克风可以称为是一个阵元，每个麦克风阵列至少包括两个阵元。每个阵元可以视为一个声音采集通道，可以利用包含多个阵元的麦克风阵列获得多通道声音信号。

本发明实施例中的麦克风阵列可以是一组位于空间不同位置的声学传感器按照一定的形状规则布置形成的阵列，是对空间传播的声音信号进行空间采样的一种装置。麦克风阵列中声学传感器被布置形成的形状排列规则，可以称为是麦克风阵列的拓扑结构，根据麦克风阵列的拓扑结构，可以将麦克风阵列分为线性麦克风阵列、平面麦克风阵列和立体麦克风阵列。

作为一个示例，线性麦克风阵列可以表示麦克风阵列的阵元中心位于同一条直线上，例如水平阵列；平面麦克风阵列可以表示麦克风阵列的阵元中心分布在一个平面上，例如三角形阵列、圆形阵列、T型阵列、L型阵列、方型阵列等；立体麦克风阵列可以表示麦克风阵列的阵元中心分布在立体空间中，例如多面体阵列、球形阵列等。

本发明实施例的语音信号处理方法对使用的麦克风阵列的具体形式不做具体限定。作为一个示例，麦克风阵列可以是水平阵列、T型阵列、L型阵列、正方体阵列。

在本发明实施例中，语音信号处理的实际应用场景中通常包含环境噪声、人声干扰、混响以及回声等多种干扰源。其中，混响可以理解为是声音信号和该声音信号在传播时经障碍物多次反射和吸收而形成声波叠加的一种声学现象；回声也可以称为是声学回波(Acoustic Echo)，回声可以理解为是语音处理设备自身扬声器播放的声音在空间内经传播和反射形成的重复的声音信号，该重复的声音信号会回传给麦克风所形成的噪声干扰。上述环境环境噪声、人声干扰、混响以及回声等多种干扰源构成强干扰且复杂多变的声学环境，有损语音处理系统采集到的用户语音的质量。

在本发明实施例中，多模态(Multimodal)语音识别系统是指使用多种信息融合的方式进行语音识别的计算机语音识别系统。作为一个示例，多模态语音识别系统除了可以对传统的音频信息进行处理，还可以通过人脸嘴部的视觉信息来提高人机交互的识别效果。

下面以地铁站语音购票为例，描述本发明实施例的语音信号处理方法的实际应用场景。图1示出了根据本发明示例性实施例的语音信号处理方法的应用场景示意图。

如图1所示，地铁站的语音购票环境可以包括语音购票系统100和购票人101，语音购票系统100可以包括显示设备102、语音处理设备103和图像采集设备104。语音购票系统100可以让购票人101使用语音交互的形式，实现通过指定站名购票、指定票价购票、或者目的地模糊搜索购票等功能。

在一个实施例中，显示设备102可以包括麦克风阵列(图中未示出)，语音处理设备103可以利用麦克风阵列中的多个阵元所提供的多个声音采集通道，实时采集来自实际购票环境中的声音信号。

继续参考图1，在一个实施例中，显示设备102可以是大屏显示设备，用于显示建议的语音交互指令，建议的语音交互指令可以是对购票人101与语音处理设备103的语音交互具有规范引导作用的指令范例。例如“我要去站点B”、“买两张去站点C的票”以及“两张票价A的票”等；显示设备102可以根据购票人101发出的语音交互指令中的目的地，经语音处理设备103处理后，调用地图服务显示距离该目的地最近的推荐地铁线路和站点；以及显示设备102还可以显示支付信息，以便购票人101根据显示的支付信息进行支付后，由语音购票系统100完成出票。

在实际购票环境中，由于语音处理设备103使用麦克风阵列采集到的待识别声音信号中不仅包括来自目标声源的目标语音信号，还可以包括麦克风阵列拾音范围内的包括环境噪声、人声干扰、混响以及回声等多种干扰源的非目标语音信号。作为一个示例，环境噪声例如可以包括地铁列车的运行噪声以及通风空调设备的运行产生的噪声等；人声干扰例如可以是购票人101以外的其他人员发出的语音信号。

为了在多干扰源的嘈杂环境下拾取有效的语音信号，提供稳健的语音识别效果，本发明实施例提供一种语音信号处理方法、装置、系统和存储介质，可以结合计算机视觉检测、声源定位信息和语音概率检测等多模信息，在多干扰源的公共场所等嘈杂环境中进行语音活动检测，提取出干净、准确的语音片段以进行语音识别。

为了更好的理解本发明，下面将结合图2和图3，详细描述根据本发明实施例的语音信号处理方法，应注意，这些实施例并不是用来限制本发明公开的范围。

图2示出了根据本发明实施例的语音信号处理系统的模块结构示意图，

图3示出了根据本发明实施例的麦克风阵列对目标区域进行声源定位的场景示意图。

如图2所示，本发明实施例的语音信号处理系统200可以包括计算机视觉检测子系统210、声源三维信息监测子系统220、语音概率检测子系统230以及语音端点检测子系统240。

在一个实施例中，基于视觉的语音检测是指：通过计算机视觉检测子系统210在图像采集设备的可视范围内进行人脸识别，根据人脸识别结果确定目标人员发出语音的时间段。

在本发明实施例中，计算机视觉检测子系统210可以包括视频/图像采集设备和视频/图像处理模块。

在一个实施例中，通过视频/图像采集设备获取实时图像，视频/图像采集设备例如摄像机，在该摄像机的可视范围内拍摄视频或实时图像，通过拍摄的视频或图像检测该可视范围内是否存在人脸；如果存在人脸，则进行人脸特征点信息的提取。通过提取的人脸特征点信息，确定人嘴部边缘的特征点的信息的变化，从而确定嘴部是否做出张合动作，如果有张合动作则可以判定此人为发出语音的目标人员，以及将该目标人员的嘴部张合动作在实时图像中的持续时间段，作为目标人员发出语音的时间段。

作为一个示例，人脸视觉特征点信息的提取通常可以选择人嘴部边缘的特征点，并对选取的嘴部边缘的特征点进行嘴部特征信息的采集，例如嘴的高度、嘴的宽度、嘴的形状、下颌的位置、下颌的速度等。根据采集的特征信息检测嘴部特征点信息的变化，并通过嘴部特征点信息的变化来估计嘴部肌肉的运动，例如嘴部做出张合动作，从而通过嘴部的张合动作判定该人在说话。

在本发明实施例中，为了提高嘴部特征的检测效率，并不需要直接从采集到的整张图像中直接检测嘴部特征。由于人的嘴部相对于人脸目标较小，因此可以先对采集到的视频或多张图像进行人脸检测，在检测到人脸的视频或图像区域做进一步的嘴部特征检测，从而提高嘴部检测的效率和准确程度。

在本发明实施例中，声源三维信息监测可以基于麦克风阵列，在设置的目标区域范围内对声源目标进行三维信息监测，实现对目标区域范围内来自不同方位的声音信号的空间信息监测。

如图3所示，在一个实施例中，可以利用麦克风阵列将接收到的来自不同方位的声音信号作为待识别声音信号，在麦克风阵列的拾音范围内，待识别声音信号可以包括来自目标声源的声音信号，以及例如噪声1、噪声2和噪声3等干扰源的声音信号。

在一个实施例中，可以通过波达方向(Direction Of Arrival，DOA)，对待识别声音信号进行空间定位，确定包含背景噪声的待识别声音信号中目标声源的方向或者位置。

在该实施例中，波达方向用于表示声波到达麦克风阵列中的参考阵元的来波方向，即相对于麦克风阵列的参考阵元，语音信号的传播方向与麦克风阵列法线方向的夹角。在一些实施例中，该夹角也可以称为是该语音信号的波达角(Angle Of Arrival)。

在该实施例中，可以基于DOA估计对来自不同方位的声音信号进行定位。具体地，可以通过DOA估计得到波束的波达方向，并利用多个麦克风阵列的接收阵元估计的DOA进行三角测量，得到对声源目标位置的估计位置。

在该实施例中，可以通过对待识别声音信号中的每路声音信号进行波达方向估计，确定每路声音信号的方位信息。根据每路声音信号的方位信息，可以对麦克风阵列接收的多路语音信号的声源位置进行检测，将满足波达角阈值范围的声音信号作为候选声源目标。作为一个示例，波达角阈值范围例如可以设置为0度～180度。

继续参考图3，声源三维信息检测子系统220可以对DOA估计得到的候选声源目标进行空间三维信息的检测，候选声源目标的空间三维信息例如可以包括候选声源目标相对麦克风阵列的水平角、俯仰角和距离。

在一个实施例中，可以预先建立麦克风阵列的三维空间坐标系。作为一个示例，麦克风阵列的三维空间坐标系中，坐标原点M₀可以是语音处理设备103中麦克风阵列的中心位置，或者麦克风阵列中的任意一个阵元的位置，或指定的其他位置。

在一个实施例中，可以根据麦克风阵列中阵元之间的排列顺序和阵元之间的间隔距离，确定每个之阵元相对于坐标原点M₀的偏移距离，从而确定每个阵元M_i相对于坐标原点M₀的三维空间坐标。

在一个实施例中，假设候选声源目标位于三维空间中的空间位置点S，该位置点S的三维空间坐标可以表示为S(x₀，y₀，z₀)，其中，x₀，y₀，z₀分别为位置点S在三维空间中坐标系的X轴、Y轴和Z轴的坐标值，(x₀，y₀，z₀)表示空间位置点S的三维空间坐标。

在该实施例中，空间位置点S的三维空间坐标和坐标矢量满足：

其中，r₀表示候选声源目标所在的空间位置点S(x₀，y₀，z₀)与三维空间坐标系的坐标原点M₀(0，0，0)之间的距离，俯仰角θ₀表示空间点S与坐标原点M₀形成的连线与Z轴正方向的夹角，水平角

表示空间点S在XOY平面的投影S’与坐标原点M₀形成的连线与X轴正方向的夹角。其中，水平角

的取值范围可以是

俯仰角为θ₀的取值范围可以是0°≤θ₀≤90°。

在一个实施例中，可以将r₀称为是空间位置点S与麦克风阵列的距离，θ₀称为是空间位置点S与麦克风阵列的俯仰角，

称为是空间位置点S与麦克风阵列的水平角。

在本发明实施例中，在检测到来自同一声源的声音信号到达两个不同的阵元的时间差后，可以利用该时间差可以计算该同一声源的声音信号到达两个不同的阵元的距离差，利用同一声源的声音信号到达两个不同的阵元的距离差、麦克风阵列中每个阵元的三维空间坐标、以及该声源的三维空间坐标，通过几何解析原理，计算该声源相对于麦克风阵列的位置或者方向。

在本发明实施例中，为了提高语音交互设备103的处理效率，可以预先设置麦克风阵列的收音范围，即相对于麦克风阵列的俯仰角范围、水平角范围和距离范围，只对拾音范围内的声源进行响应和处理，对于收音范围以外的音频信号均视为噪声信号，从而缩小目标人员的获取范围，提高语音交互设备103的计算效率。

在本发明实施例中，麦克风阵列的收音区域的空间范围可以根据实际应用场景来确定。语音购票应用场景中，购票人101通常会位于靠近语音购票系统100的一个较为固定的区域范围内，来自该区域范围内的声音信号中包括目标声源的概率更高。因此，在一个实施例中，设定的目标区域满足如下条件，即该目标区域内任意一个空间点R(x_i，y_i，z_i)的坐标矢量满足r_i≤r_max，θ_i≤θ_max，

也就是说，目标区域内的空间点R与麦克风阵列的距离小于等于预设的距离最大值r_max，空间点R与麦克风阵列的水平角小于等于预设的水平角最大值

空间点R与麦克风阵列的俯仰角小于等于预设的俯仰角最大值θ_max。

如图3所示，基于DOA估计对待识别的声音信号进行声源定位后，可以确定多个声源例如噪声1、噪声2、噪声3、以及购票人101的方位信息。在该示例中，通过麦克风阵列的收音范围的设定可以有效过滤部分干扰源例如位于收音范围外的噪声3。

在本发明实施例中，通过监测收音区域内的音频信号的空间信息，可以缩小声源检测范围，提高声源检测精确和语音处理设备的运算效率。

在一个实施例中，为了提高语音识别的准确率，可以通过语音概率检测子系统230检测收音范围内音频信号的语音存在概率。当音频信号的语音存在概率大于预设的概率阈值时，确定收音范围内的语音信号，对收音范围内的音频信号进行语音起止点分析。

在本发明实施例中，语音概率检测子系统230可以通过分析音频信号特征来确定目标区域的语音存在概率，或者通过语音检测模型来确定目标区域的语音存在概率。在一些实施例中，也可以通过分析音频信号特征和语音活动建模模型相结合的方法，确定目标区域的语音存在概率。下面通过具体实施例进行详细说明本发明实施例中确定目标区域的语音存在概率的步骤。

在本发明实施例中，音频信号是一种周期信号，时域分析和频域分析是对音频信号进行周期性分析的两种不同方式。简单的说，时域可以用于描述语音信号与时间的关系，即以时间作为变量，分析语音信号随时间的动态变化；而频域可以用于描述语音信号与频率之间的关系，即以频率作为变量，分析语音信号在不同频率时的特性。

在一个实施例中，可以通过分析音频信号特征来确定目标区域的语音存在概率，音频信号特征例如可以是音频信号的幅度变化和频谱分布等关键特征。

在一个实施例中，音频信号的幅度表示音频信号从振动的最高位置到最低位置的距离。由于在语音信号的时域中，噪音信号通常是幅度变化较小的一段语音信号片段，而包含说话人语音的语音信号片段通常变化幅度波动较大。根据这一原理，可以预先设定一个用于识别噪音信号的幅度变化阈值，通过提取音频信号的幅度变化值，将音频信号的幅度变化值与幅度变化阈值进行比较，确定检测目标区域中来自不同方位的音频信号中的语音存在概率。

在该实施例中，根据目标区域中存在的音频信号的时域信号的幅度变化，如果该音频信号的时域信号中包含幅度变化值大于预设幅度变化阈值的音频信号片段，则确定目标区域中存在的音频信号中语音存在概率较大。

在一个实施例中，音频信号的频谱可以理解为是音频信号的频率分布曲线。通常，在语音信号的频域中，噪声信号的频谱分布较为均匀，而包含说话人语音的语音信号片段随的频谱分布有较大的变化。因此，对于目标区域内麦克风阵列接收的音频信号，通过提取频谱分布特征，并将提取的频谱分布特征与频谱分布阈值进行比较，确定目标区域内接收的音频信号是否存在语音信号。

作为一个示例，该频谱分布特征可以是音频信号在频域中对每一帧音频信号的功率值方差的统计特征。也就是说，通过提取音频信号中每帧信号关于功率值的方差，将提取的功率值的方差与预先设定的方差阈值进行比较，如果该音频信号的频域信号中包含每帧信号功率值的方差大于方差阈值的音频信号片段，则确定音频信号中的语音存在概率较大。

在一个实施例中，可以结合提取的音频信号的幅度变化和频谱分布等关键特征，对提取的音频信号的特征值与预先设定的系统阈值进行比较，当比较结果均为音频信号中的语音存在概率较大时，确定目标区域中的音频信号存在语音信号。

在一个实施例中，还可以通过语音检测模型，检测目标区域中来自不同方位的音频信号的语音存在概率。

在本发明实施例中，可以预先构建对语音信号和非语音信号进行检测的神经网络模型，并利用标注为语音的正样本和标注为非语音的负样本对该神经网络模型进行训练，训练得到可以进行语音活动检测的神经网络模型可以称为是语音检测模型。应理解，本发明实施例对神经网络模型的具体形式不做具体限定，神经网络模型例如可以是深度神经网络、循环神经网络或卷积神经网络等神经网络中的任一种。

在一个实施例中，标注为语音的正样本可以表示包含语音信号的声学特征的声音片段，标注为非语音的负样本可以表示不包含语音信号的声学特征的声音片段。

在本发明实施例中，利用语音检测模型，对收音范围内的音频信号进行语音活动检测，如果语音活动建模模型输出结果为收音范围内的音频信号包括语音信号，则确定收音范围内的音频信号包括语音信号的概率较大。

继续参考图2，根据计算机视觉检测子系统210的视觉检测信息，声源三维信息监测子系统220的声源定位信息，以及语音概率检测子系统230的语音存在概率分析结果，利用语音端点检测子系统240，确定收音范围内的音频信号进行起始时间点和终止时间点。

在一个实施例中，可以利用声源三维信息监测子系统220的声源定位信息，确定麦克风阵列的收音范围，获取收音范围内的音频信号，通过语音端点检测确定收音范围内的音频信号的语音起止时间点；如果由该语音起止时间点确定的语音时间段在目标人员发出语音的时间段内，将收音范围内的音频信号的语音起止时间点，作为麦克风阵列接收的音频信号中的语音起止时间点。

在一个实施例中，为了提高语音处理系统的准确性，利用声源三维信息监测子系统220的声源定位信息，确定麦克风阵列的收音范围，对收音范围内的音频信号进行语音检测，确定收音范围内的音频信号的语音存在概率；当收音范围内的音频信号的语音存在概率大于预设概率阈值时，通过语音端点检测，对收音范围内的音频信号进行语音起止点分析，确定收音范围内的音频信号中的语音起止时间点；如果该收音范围内的音频信号中的语音起止时间点在目标人员发出语音的时间段内，将收音范围内的音频信号的语音起止时间点，作为麦克风阵列接收的音频信号中的语音起止时间点。

在一个实施例中，语音端点检测(Voice Activity Detection，VAD)，也可以称为语音活动检测，是一种获取音频信号中语音片段，确定音频信号中语音片段的起始点和终止点，提取音频信号中的语音片段，从而排除静音段和非语音信号的干扰，减少语音识别系统的计算压力，提高语音识别系统的响应速度。

在本发明实施例中，对于语音端点检测得到的语音片段，可以输入语音识别系统进行语音识别。在本发明实施例中，语音端点检测不仅可以减少计算量和缩短处理时间，而且可以去除静音时背景噪声的干扰，提高系统的抗干扰性和语音识别性能。

图4示出了根据本发明一实施例的语音信号处理方法的流程示意图。如图4所示，在一个实施例中，本发明实施例中的语音信号处理方法400包括以下步骤：

步骤S410，使用图像采集设备获取实时图像，利用实时图像进行人脸识别，根据人脸识别结果检测目标人员发出语音的时间段。

在一个实施例中，利用实时图像进行人脸识别的具体可以包括：

步骤S411，检测实时图像中是否存在人脸图像。

步骤S412，实时图像中存在人脸图像时，对人脸图像进行人脸特征点识别，确定人脸图像中人嘴部边缘的特征点。

在一个实施例中，根据人脸识别结果检测目标人员发出语音的时间段的步骤具体可以包括：

步骤S413，获取人脸识别结果中人嘴部边缘的特征点，根据人嘴部边缘的特征点的特征值变化信息，确定是否存在嘴部张合动作。

步骤S414，将存在嘴部张合动作的人员作为目标人员。

步骤S415，将目标人员的嘴部张合动作在实时图像中的持续时间段，作为目标人员发出语音的时间段。

在该实施例中，通过人脸中嘴部特征点的变化信息实现嘴部张合的检测，从而确定发出语音的目标人员和目标人员发出语音的时间段。

步骤S420，对麦克风阵列接收的音频信号进行声源定位，确定音频信号中声源的方位信息。

在一个实施例中，步骤S420具体可以包括：通过声源定位，得到音频信号中的声源的方位信息，方位信息包括声源相对于麦克风阵列的水平角、俯仰角和距离。

在该实施例中，基于麦克风阵列实现对声音信号进行水平角、俯仰角、距离的三维信息监测，这样在存在多个说话人或者其他有声音的干扰源时实现对目标的空间信息监测，从而约束收音范围，将设定角度(水平角和/或俯仰角)和距离范围外的声音均视为噪声，不进行识别响应，从而提高语音信号处理系统的处理效率，提高系统对干扰源的抗干扰性。

步骤S430，根据实时图像中目标人员发出语音的时间段和声源的方位信息，进行语音起止点分析，确定音频信号中的语音起止时间点。

在本发明实施例中，为了提高音频信号的处理效率和准确程度，可以先对拾音区域内的音频信号进行语音存在概率检测，如果语音存在概率大于概率阈值，在进行拾音范围内的音频信号进行语音起止点分析。

在一个实施例中，步骤S430，具体可以包括：

步骤S431，根据声源的方位信息，确定麦克风阵列的收音范围，获取收音范围内的音频信号；

步骤S432，对收音范围内的音频信号进行语音检测，确定收音范围内的音频信号的语音存在概率；

步骤S433，当收音范围内的音频信号的语音存在概率大于预设概率阈值时，根据实时图像中目标人员发出语音的时间段和声源的方位信息，进行语音起止点分析，确定音频信号中的语音起止时间点。

在一个实施例中，步骤S432具体可以包括：

通过语音检测，提取音频信号的声学特征；比较声学特征的特征值和语音信号声学特征的系统阈值，通过比较结果确定音频信号中是否存在语音信号；根据音频信号中是否存在语音信号，确定语音存在概率。

在该步骤中，声音信号特征值可以是如幅度变化、频谱分布等声音信号的关键特征。

在另一个实施例中，步骤S432具体可以包括：

利用语音活动检测组件，确定音频信号中存在语音信号的概率，其中，语音活动检测组件是预先使用语音样本和非语音样本进行神经网络模型训练得到的。

在一个实施例中，步骤S430或者步骤S433中，根据实时图像中目标人员发出语音的时间段和声源的方位信息，进行语音起止点分析，确定音频信号中的语音起止时间点的步骤，具体可以包括：

步骤S11，根据声源的方位信息，确定麦克风阵列的收音范围；

步骤S12，获取收音范围内的音频信号，确定收音范围内的音频信号的语音起止时间点；

步骤S13，如果由语音起止时间点确定的语音时间段在目标人员发出语音的时间段内，将收音范围内的音频信号的语音起止时间点，作为音频信号中的语音起止时间点。

在一个实施例中，步骤S12中确定收音范围内的音频信号的语音起止时间点的步骤具体可以包括：

对收音范围内的音频信号进行音频增强处理；确定收音范围内的音频增强处理后的音频信号的语音起止点。

在一个实施例中，音频增强处理可以包括波束形成处理和降噪处理。

根据本发明实施例的语音信号处理方法，根据接收到的视觉检测信息、声源定位信息、语音分析存在概率，对增强后的音频信号进行语音起止点分析，确定音频信号的起止时间点，并将该片段的音频送往语音识别引擎进行语音识别，有效提高语音处理系统的对干扰源的抗干扰性，从而实现语音信号处理系统在强干扰环境下的稳健交互性能。

图5示出了根据本发明实施例的语音信号处理装置的模块示意图，如图5所示，语音信号处理装置500可以包括：

人脸识别模块510，用于使用图像采集设备获取实时图像，利用实时图像进行人脸识别，根据人脸识别结果检测目标人员发出语音的时间段。

声源定位模块520，用于对麦克风阵列接收的音频信号进行声源定位，确定音频信号中声源的方位信息。

语音端点检测模块530，用于根据实时图像中目标人员发出语音的时间段和声源的方位信息，进行语音起止点分析，确定音频信号中的语音起止时间点。

在一个实施例中，人脸识别模块510可以包括：

图像检测单元，用于检测实时图像中是否存在人脸图像。

嘴部特征点确定单元，用于实时图像中存在人脸图像时，对人脸图像进行人脸特征点识别，确定人脸图像中人嘴部边缘的特征点。

在该实施例中，人脸识别模块510还可以包括：

嘴部张合确定单元，用于获取人脸识别结果中人嘴部边缘的特征点，根据人嘴部边缘的特征点的特征值变化信息，确定是否存在动作。

目标人员确定单元，用于将存在嘴部张合动作的人员作为目标人员。

语音时间段确定单元，用于将目标人员的嘴部张合动作在实时图像中的持续时间段，作为目标人员发出语音的时间段。

在一个实施例中，声源定位模块520，具体可以用于：

通过声源定位，得到音频信号中的声源的方位信息，方位信息包括声源相对于麦克风阵列的水平角、俯仰角和距离。

在一个实施例中，语音端点检测模块530具体可以包括：

收音范围确定单元，用于根据声源的方位信息，确定麦克风阵列的收音范围，获取收音范围内的音频信号。

语音检测单元，用于对收音范围内的音频信号进行语音检测，确定收音范围内的音频信号的语音存在概率。

语音端点检测模块530，还可以用于当收音范围内的音频信号的语音存在概率大于预设概率阈值时，根据实时图像中目标人员发出语音的时间段和声源的方位信息，进行语音起止点分析，确定音频信号中的语音起止时间点。

在一个实施例中，语音检测单元具体可以用于：

在一个实施例中，语音检测单元具体用于：

在一个实施例中，语音端点检测模块530具体还可以用于：

根据声源的方位信息，确定麦克风阵列的收音范围；

获取收音范围内的音频信号，确定收音范围内的音频信号的语音起止时间点；

如果由语音起止时间点确定的语音时间段在目标人员发出语音的时间段内，将收音范围内的音频信号的语音起止时间点，作为音频信号中的语音起止时间点。

在一个实施例中，语音端点检测模块530在具体用于确定收音范围内的音频信号的语音起止时间点时，还可以用于：对收音范围内的音频信号进行音频增强处理；确定收音范围内的音频增强处理后的音频信号的语音起止点。

根据本发明实施例的语音信号处理装置，可以根据接收到的视觉检测信息、声源定位信息、语音分析存在概率，对增强后的音频流进行目标语音的起止时间点的确定，增强了嘈杂环境下增强语音处理系统的对干扰源的抗干扰性，从而实现语音信号处理系统在强干扰环境下的稳健交互性能。

根据本发明实施例的语音信号处理装置的其他细节与以上结合图1至图4描述的根据本发明实施例的语音信号处理方法类似，在此不再赘述。

图6示出了根据本发明实施例的语音信号处理系统的结构示意图。如图6所示，本发明实施例中的语音信号处理系统600可以包括：

图像采集设备610，用于获取实时图像。

集音设备620，用于接收音频信号。

数据处理设备630，用于利用实时图像进行人脸识别，根据人脸识别结果检测目标人员发出语音的时间段；对麦克风阵列接收的音频信号进行声源定位，确定音频信号中声源的方位信息；根据实时图像中目标人员发出语音的时间段和声源的方位信息，进行语音起止点分析，确定音频信号中的语音起止时间点。

根据本发明实施例的语音信号处理系统的其他细节与以上结合图1至图4描述的根据本发明实施例的语音信号处理方法类似，在此不再赘述。

图7是示出能够实现根据本发明实施例的语音信号处理方法和装置的计算设备的示例性硬件架构的结构图。

如图7所示，计算设备700包括输入设备701、输入接口702、中央处理器703、存储器704、输出接口705、以及输出设备706。其中，输入接口702、中央处理器703、存储器704、以及输出接口705通过总线710相互连接，输入设备701和输出设备706分别通过输入接口702和输出接口705与总线710连接，进而与计算设备700的其他组件连接。具体地，输入设备701接收来自外部(例如，麦克风阵列或图像采集设备)的输入信息，并通过输入接口702将输入信息传送到中央处理器703；中央处理器703基于存储器704中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器704中，然后通过输出接口705将输出信息传送到输出设备706；输出设备706将输出信息输出到计算设备700的外部供用户使用。

也就是说，图7所示的计算设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现结合图1至图4描述的语音信号处理方法。这里，处理器可以与语音处理设备使用的麦克风阵列进行通信，从而基于来自语音处理设备的相关信息执行计算机可执行指令，从而实现结合图1至图4描述的语音信号处理方法。

在一个实施例中，图7所示的计算设备700可以被实现为一种语音信号处理设备，其特征在于，包括存储器和处理器；存储器用于储存有可执行程序代码；处理器用于读取存储器中存储的可执行程序代码以执行如上结合图1至图5描述的语音信号处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品或计算机可读存储介质的形式实现。所述计算机程序产品或计算机可读存储介质包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种语音信号处理方法，包括：

使用图像采集设备获取实时图像，利用所述实时图像进行人脸识别，根据人脸识别结果检测目标人员发出语音的时间段；

对麦克风阵列接收的音频信号进行声源定位，确定所述音频信号中声源的方位信息；

根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息，进行语音起止点分析，确定所述音频信号中的语音起止时间点。

2.根据权利要求1所述的语音信号处理方法，其中，所述利用所述实时图像进行人脸识别，包括：

检测所述实时图像中是否存在人脸图像；

所述实时图像中存在人脸图像时，对所述人脸图像进行人脸特征点识别，确定所述人脸图像中人嘴部边缘的特征点。

3.根据权利要求1所述的语音信号处理方法，其中，所述根据人脸识别结果检测目标人员发出语音的时间段，包括：

获取所述人脸识别结果中人嘴部边缘的特征点，根据所述人嘴部边缘的特征点的特征值变化信息，确定是否存在嘴部张合动作；

将存在所述嘴部张合动作的人员作为所述目标人员；以及

将所述目标人员的嘴部张合动作在所述实时图像中的持续时间段，作为所述目标人员发出语音的时间段。

4.根据权利要求1所述的语音信号处理方法，其中，所述对麦克风阵列接收的音频信号进行声源定位，确定所述音频信号中声源的方位信息，包括：

通过所述声源定位，得到所述音频信号中的声源的方位信息，所述方位信息包括所述声源相对于所述麦克风阵列的水平角、俯仰角和距离。

5.根据权利要求1所述的语音信号处理方法，其中，所述根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息，进行语音起止点分析，确定所述音频信号中的语音起止时间点，包括：

根据所述声源的方位信息，确定所述麦克风阵列的收音范围，获取所述收音范围内的音频信号；

对所述收音范围内的音频信号进行语音检测，确定所述收音范围内的音频信号的语音存在概率；

当所述收音范围内的音频信号的语音存在概率大于预设概率阈值时，根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息，进行语音起止点分析，确定所述音频信号中的语音起止时间点。

6.根据权利要求5所述的语音信号处理方法，其中，所述对所述收音范围内的音频信号进行语音检测，确定所述收音范围内的音频信号的语音存在概率，包括：

通过所述语音检测，提取所述音频信号的声学特征；

比较所述声学特征的特征值和语音信号声学特征的系统阈值，通过比较结果确定所述音频信号中是否存在语音信号；

根据所述音频信号中是否存在语音信号，确定所述语音存在概率。

7.根据权利要求5所述的语音信号处理方法，其中，所述对所述收音范围内的音频信号进行语音检测，确定所述收音范围内的音频信号的语音存在概率，包括：

利用语音活动检测组件，确定所述音频信号中存在语音信号的概率，其中，

所述语音活动检测组件是预先使用语音样本和非语音样本进行神经网络模型训练得到的。

8.根据权利要求1所述的语音信号处理方法，其中，所述根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息，进行语音起止点分析，确定所述音频信号中的语音起止时间点，包括：

根据所述声源的方位信息，确定所述麦克风阵列的收音范围；

获取所述收音范围内的音频信号，确定所述收音范围内的音频信号的语音起止时间点；

如果由所述语音起止时间点确定的语音时间段在所述目标人员发出语音的时间段内，将所述收音范围内的音频信号的语音起止时间点，作为所述音频信号中的语音起止时间点。

9.根据权利要求8所述的语音信号处理方法，其中，所述确定所述收音范围内的音频信号的起止时间点，包括：

对所述收音范围内的音频信号进行音频增强处理；

确定所述收音范围内的音频增强处理后的音频信号的语音起止点。

10.一种语音信号处理系统，包括：

图像采集设备，用于获取实时图像；

集音设备，用于接收音频信号；

数据处理设备，用于

利用所述实时图像进行人脸识别，根据人脸识别结果检测目标人员发出语音的时间段；

11.一种语音信号处理装置，包括：

人脸识别模块，用于使用图像采集设备获取实时图像，利用所述实时图像进行人脸识别，根据人脸识别结果检测目标人员发出语音的时间段；

声源定位模块，用于对麦克风阵列接收的音频信号进行声源定位，确定所述音频信号中声源的方位信息；

语音端点检测模块，用于根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息，进行语音起止点分析，确定所述音频信号中的语音起止时间点。

12.一种语音信号处理设备，其特征在于，包括存储器和处理器；

所述存储器用于储存有可执行程序代码；

所述处理器用于读取所述存储器中存储的可执行程序代码以执行权利要求1至9任一项所述的语音信号处理方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-9任意一项所述的语音信号处理方法。