Nothing Special   »   [go: up one dir, main page]

CN105206281B - 基于分布式麦克风阵列网络的语音增强方法 - Google Patents

基于分布式麦克风阵列网络的语音增强方法 Download PDF

Info

Publication number
CN105206281B
CN105206281B CN201510582363.5A CN201510582363A CN105206281B CN 105206281 B CN105206281 B CN 105206281B CN 201510582363 A CN201510582363 A CN 201510582363A CN 105206281 B CN105206281 B CN 105206281B
Authority
CN
China
Prior art keywords
node
network
microphone array
multichannel
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510582363.5A
Other languages
English (en)
Other versions
CN105206281A (zh
Inventor
胡旻波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510582363.5A priority Critical patent/CN105206281B/zh
Publication of CN105206281A publication Critical patent/CN105206281A/zh
Application granted granted Critical
Publication of CN105206281B publication Critical patent/CN105206281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于分布式麦克风阵列网络的语音增强方法,包括下列步骤:建立基于Ad‑hoc网络的分布式麦克风阵列网络;对网络节点进行采样率同步;将各节点的信号进行分帧;在每个节点采用多通道维纳滤波器进行语音增强;将增强后语音信号传输到网络的所有其他节点;在每个节点,同时根据当前节点的多路麦克风阵列观测信号和所有其他节点的单通道增强后语音信号,再次采用多通道维纳滤波器进行语音增强,得到当前节点更新后的单通道增强后语音信号。本发明将孤立的麦克风阵列通过无线通信网络进行互联,组成麦克风阵列网络,有利于提高单个节点的语音增强效果。

Description

基于分布式麦克风阵列网络的语音增强方法
技术领域
本发明涉及语音增强方法,具体涉及一种基于分布式麦克风阵列网络的语音增强方法。
背景技术
我们所处的环境中常常伴随着各种噪声,例如,房间内的电视机声和风扇声、汽车内的发动机声、马路上的汽车行驶声、咖啡厅内的Babble噪声等。噪声对多种语音处理系统产生负面影响。例如,在语音通信时,噪声会干扰甚至掩盖对方的声音,降低通话质量;在语音识别系统中,噪声会使得语音识别率下降,甚至使识别系统完全失效。因此,根据观测到的带噪语音信号,估计纯净语音具有十分重要的意义,我们称此为语音增强。
传统语音增强算法采用一个麦克风的观测信号进行处理,包括单通道维纳滤波器、谱减法、基于统计模型的最大似然和最大后验概率的语音增强方法等。虽然该类方法可以一定程度上消除噪声,但存在两方面问题。首先,消除噪声的同时会造成语音成分的缺失,即产生语音畸变。其次,噪声消除后的频谱上常存在随机离散的极值点,使听者感受到“音乐噪声”。这两方面的因素都使得增强后的语音可懂度难以达到预期,且使得语音识别性能不能有效提高。
为了解决上述问题,人们开始利用两个或以上的麦克风,组成“麦克风阵列”,以探寻更优的多通道语音增强方法。麦克风阵列中的麦克风处于空间不同位置,但时钟和采样率一致。因此,多个麦克风提供了语音和噪声的时域冗余性和空间差异性,更多的信息使得语音增强性能提高具有了可能。为了增强语音,人们可以设计称为“波束形成器”的空间滤波器,提取目标声源方向的信号,抑制其他方向的噪声。最简单的波束形成器是“延迟加和”波束形成器,而MVDR和LCMV波束形成器可以理论上在降低噪声的同时避免语音畸变。除了简单的波束形成器之外,广义旁瓣消除(GSC)架构也被广泛使用。虽然从理论上可以证明GSC和LCMV波束形成器的等价性,但是GSC的实现更为简单,计算复杂度也较低。上述波束形成器均需要语音方位(甚至是噪声方位)已知,但实际情况下声源方位往往并不固定,且噪声和混响下的声源方位难以估计。为了避免声源定位,单通道维纳滤波器被推广到多通道,使得仅根据噪声时空统计特性即可设计最优的多通道维纳滤波器,而噪声时空统计特性可结合语音存在概率或语音活动检测算法估计和更新。和单通道算法相比,即使是双通道的语音增强方法即可取得性能的明显提升。
采用麦克风阵列进行语音增强逐渐成为主流。一旦麦克风阵列硬件制作完成,其麦克风间距,所包含麦克风数量等参数难以改变。由于手持设备等空间的限制,麦克风阵列不能采用较多的麦克风和较大的间距。当麦克风阵列只处于一个较小的空间范围时,难以对环境噪声和混响进行准确全面的采集。而理论上更多的麦克风和更大的麦克风间距可以有效提高多通道语音增强算法的性能。因此,传统的基于麦克风阵列的语音增强算法受到麦克风阵列自身可扩展性和空间的限制。
发明内容
针对现有技术的不足,本发明公开了一种基于分布式麦克风阵列网络的语音增强方法。
本发明的技术方案如下:
一种基于分布式麦克风阵列网络的语音增强方法,包括下列步骤:
步骤a、建立由多个麦克风阵列构成的基于Ad-hoc网络的分布式麦克风阵列网络;任意两个网络节点之间均可相互通信;
步骤b、将分布式麦克风阵列网络初始化,即对网络节点进行采样率同步;
步骤c、将各节点的信号进行分帧,得到分帧后的多节点多路麦克风阵列观测信号;
步骤d、在每个节点,对于每一帧的多路麦克风阵列观测信号,根据当前节点的多路麦克风阵列观测信号,采用多通道维纳滤波器进行语音增强,得到单通道增强后语音信号;
步骤e、在每个节点,将该节点通过所述步骤d得到的单通道增强后语音信号传输到网络的所有其他节点;
步骤f、在每个节点,同时根据当前节点的多路麦克风阵列观测信号和所有其他节点的单通道增强后语音信号,再次采用多通道维纳滤波器进行语音增强,得到当前节点更新后的单通道增强后语音信号;
步骤g、重复迭代步骤e~步骤f,当某节点得到的单通道增强后语音信号收敛时,当前节点的单通道增强后语音信号不再更新;当所有节点的单通道增强后语音信号均不再更新时,当前帧处理结束;最终在每个节点均得到当前节点增强后语音信号。
其进一步的技术方案为:所述麦克风阵列包括音频采集模块和通信模块。
其进一步的技术方案为:所述步骤a中的Ad-hoc网络的结构为平面结构或者分级结构;Ad-hoc网络采用先验式、反应式或者混合式的路由协议实现网络中两个节点设备之间的相互通信。
其进一步的技术方案为:所述步骤b还包括对网络节点进行时间同步;
所述分布式麦克风阵列包括网络设备时钟;所述时间同步是通过所述网络设备时钟,基于NTP网络时间协议进行同步。
其进一步的技术方案为,所述步骤b具体包括以下步骤:
步骤b1、将网络采样率初始化,使K=1,即网络采样率f0等于节点1的设备采样率f1
步骤b2、节点K的设备采样率为fK;将节点K的设备采样率fK传输到节点K+1;
步骤b3、若节点K+1的设备采样率fK+1>fK,则f0=fK,否则f0=fK+1
步骤b4、K=K+1;
步骤b5、重复步骤b2~步骤b4,直至遍历所有节点,从而网络采样率f0为全网络所有节点的设备采样率最小值;
步骤b6、通过最终节点将当前网络采样率f0传输到其他各个节点,使得所有节点设备采样率为f0
其进一步的技术方案为:所述步骤c中的信号分帧使用海明窗或者汉宁窗抑制频谱泄露;所述步骤c采用时间混叠的分帧策略。
其进一步的技术方案为:所述步骤d使用时域多通道维纳滤波器或者频域的多通道维纳滤波器对多路麦克风阵列观测信号进行滤波,以达到语音增强的效果:
在节点K,所述时域多通道维纳滤波器的表达式为:
hw,K(t)=[Rxx,K(t)+λRnn,K(t)]-1Rxx,K(t)u;
上式中,Rxx,K(t)=Ryy,K(t)-Rnn,K(t);
是当前节点的纯净语音向量xK(t)=[x1,K(t), x2,K(t),…,xM,K(t)]T的时域自相关矩阵;
是当前节点的噪声向量nK(t)=[n1,K(t),n2,K(t),...,nM,K(t)]T的时域自相关矩阵;
是当前节点的多路麦克风阵列观测信号向量yK(t)=[y1,K(t),y2,K(t),...,yM,K(t)]T的时域自相关矩阵;
u=[1,0,...,0]T,其长度为M;
M为当前节点的麦克风数量;
λ为控制噪声消除和语音畸变的程度,λ>0,λ越大,噪声被抑制的效果越明显,同时带来更多的语音畸变;
节点K的时域滤波输出为:
在节点K,所述频域多通道维纳滤波器的表达式为:
Hw,K(ω)=[RXX,K(ω)+λRNN,K(ω)]-1RXX,K(ω)u;
上式中,RXX,K(ω)=RYY,K(ω)-RNN,K(ω);
是当前节点的纯净语音向量XK(ω)=[X1,K (ω),X2,K(ω),...,XM,K(ω)]H的频域自相关矩阵;
是当前节点的噪声向量NK(ω)=[N1,K(ω),N2,K (ω),...,NM,K(ω)]H的频域自相关矩阵;
是当前节点的多路麦克风阵列观测信号向量YK(ω)=[Y1,K(ω),Y2,K(ω),...,YM,K(ω)]H的频域自相关矩阵;
u=[1,0,...,0]T,其长度为M;
M为当前节点的麦克风数量;
λ为控制噪声消除和语音畸变的程度,λ>0,λ越大,噪声被抑制的效果越明显,同时带来更多的语音畸变;
节点K的频域滤波输出为:
其进一步的技术方案为:所述步骤e包括在信号传输的数据包中加入发射节点序号、接收节点序号以及多通道维纳滤波器处理次数的信息。
其进一步的技术方案为:所述步骤f包括使用时域或频域的多通道维纳滤波器对当前节点多路观测信号和其他节点的增强后信号进行滤波;
所述时域的多通道维纳滤波器中,
当前节点K多路麦克风阵列观测信号和所有其他节点的增强后信号所构成的联合向量为:
上式中,为除 节点K外其他节点增强后的时域单通道语音所组成的向量;
Ni为步骤g的迭代次数;
中的纯净语音成分;
中的噪声成分;
为当前节点中纯净语音成分的时域自相关矩阵;
为当前节点中噪声向量的时域自相关矩阵;
为当前节点中联合向量的时域自相关矩阵;
u=[1,0,...,0]T,其长度为M+P-1,P为网络中的节点总数;
则节点K第Ni+1次迭代的时域多通道维纳滤波器为:
所述频域的多通道维纳滤波器中,
当前节点K多路观测信号和所有其他节点的增强后信号所构成的联合向量为:
上式中, 为除节点K外其他节点增强后的频域单通道语音所组成的向量;
Ni为步骤g的迭代次数;
中的纯净语音成分;
中的噪声成分;
为除去节点K之外其他节点的纯净 语音向量的频域自相关矩阵;
为除去节点K之外其他节点背景噪音向量的频域自相关矩阵;
为除去节点K之外其他节点观测向量的频域自相关矩阵;
u=[1,0,...,0]T;其长度为M+P-1,P为网络中的节点总数,则节点K第Ni+1次迭代的频域多通道维纳滤波器为:
其进一步的技术方案为:所述步骤g包括根据滤波前后信号向量之差的范数以及信号能量判断节点得到的单通道增强后语音信号是否收敛的步骤,其方法如下:
在节点K,前次滤波得到的单通道时域信号向量为:
本次滤波得到的单通道时域信号向量为:
时,当前滤波器输出收敛;
上式中,||·||p代表p范数,η是阈值。
本发明的有益技术效果是:
第一,本发明提出了一种全新的基于麦克风阵列进行语音增强的框架。和传统方法不同,本发明将孤立的麦克风阵列通过无线通信网络进行互联,组成麦克风阵列网络。
第二,麦克风网络中的每一个节点均可以直接或间接地利用网络中的全部麦克风,突破了各个设备的空间限制极,大地扩展了单个节点的空间观测范围,有利于提高单个节点的语音增强效果。甚至对于单通道设备而言,当其接入到麦克风阵列网络后,可达到多通道的语音增强效果。
第三,麦克风阵列网络对网络节点数量、各个节点的相对位置、节点内的麦克风数量及空间位置不做任何假设,具有极大的可扩展性和自由度。
第四,通过Ad-hoc组网的方式,使得网络不需要依赖中心节点,即可完成分布式的计算,提高了网络的容错度。
第五,麦克风阵列网络各个节点同时得到本地最优滤波输出,这为网络中的各个节点提供了差异化的用户体验。
附图说明
图1是本发明的流程图。
图2是基于Ad-hoc网络的分布式麦克风阵列网络示意图。
图3是分布式麦克风阵列网络采样率同步的流程图。
图4是基于多通道维纳滤波器的单节点语音增强的流程图。
图5是基于多通道维纳滤波器的多节点迭代式语音增强的流程图。
具体实施方式
图1是本发明的流程图。
本发明中的核心内容主要包括三大部分:(1)、步骤a所示的Ad-hoc网络的建立和步骤b所示音频采集模块初始化;(2)、步骤d所示的基于多通道维纳滤波器的单节点语音增强;(3)步骤f所示的基于多通道维纳滤波器的多节点迭代式语音增强。
如图1所示,本发明具体包括下列步骤:
(1)、Ad-hoc网络的建立和初始化
步骤a、设置多个麦克风阵列,建立由多个麦克风阵列构成的基于Ad-hoc网络的分布式麦克风阵列网络;任意两个网络节点之间均可相互通信。
Ad-hoc网络又被称为临时自组织网络。由于该网络无需额外的基础网络设施,基于构造和扩展,因此被本发明用于构造分布式麦克风阵列网络。
图2为基于Ad-hoc网络的分布式麦克风阵列网络示意图。在麦克风阵列网络中,网络节点为每个麦克风阵列。每个节点的麦克风阵列设备包括至少一个麦克风。每个节点的麦克风阵列设备还包括音频采集模块、通信模块和计算模块。各个模块之间相互连接。其中,音频采集模块负责采集当前节点所处环境中的声音,通信模块负责和其他节点通信模块之间的数据传输,计算模块负责本节点的语音增强计算。
Ad-hoc网络的结构可采用分级结构或者平面式网络结构。在分级结构中,多个网络节点分为不同的“簇”,簇中的各个节点通过一定的推举算法选出簇头,簇头维护本簇和簇头间的路由信息,由簇头之间的通信、簇头和簇内节点之间的通信共同实现网络中任意两个节点之间的通信。在平面式网络结构中,各个节点地位对等,各自独立维护到其他所有节点的路由信息。一般而言,当网络节点较多时,采用分级结构,而当网络节点较少时,采用平面式网络结构。
如图2所示,本实施例只包含三个网络节点,因此采用平面式网络结构。
本实施例采用标准化的Ad-hoc网络通信方式,Ad-hoc网络各个节点通过IEEE802.11协议进行通信。组网时,由用户通过软件将当某一节点设置为初始节点,并发送请求组网的无线信号。待加入的网络节点搜索该信号,和初始节点完成确认后加入该网络。当所有节点均加入网络后,初始节点关闭请求组网信号,从而完成网络的建立过程。各个节点按照入网的先后顺序被分配节点编号。
步骤b、将分布式麦克风阵列网络初始化,即对网络节点进行采样率同步。
图3是分布式麦克风阵列网络采样率同步的流程图。
具体包括以下步骤:
步骤b1、将网络采样率初始化,使K=1,即网络采样率f0等于节点1的设备采样率f1
步骤b2、节点K的设备采样率为fK;将节点K的设备采样率fK传输到节点K+1;
步骤b3、若节点K+1的设备采样率fK+1>fK,则f0=fK,否则f0=fK+1
步骤b4、K=K+1;
步骤b5、重复步骤b2~步骤b4,直至遍历所有节点,从而网络采样率f0为全网络所有节点的设备采样率最小值;
步骤b6、通过最终节点,即遍历过程中的最后一个节点,将当前网络采样率f0传输到其他各个节点,使得所有节点设备采样率为f0
步骤b中的网络采样率为整个网络的软件采样率。节点设备采样率为节点通过硬件设备采集语音信号的采样率。
步骤b还包括时钟同步。
麦克风阵列还包括网络设备时钟,设置于通信模块之上。时间同步是通过网络设备时钟基于NTP网络时间协议进行同步。节点加入网络的顺序作为当前节点的编号,初始编号为1。各个节点之间的通信模块采用高精度网络时间协议NTP和编号为1的初始节点保持时钟同步。节点内的音频采集模块读取通信模块上的网络设备时钟,将音频采集的开始时间和通信模块的特定时间节点Ts对齐。Ts的取值由用户指定,并通过初始节点发送给全网络。
(2)、基于多通道维纳滤波器的单节点语音增强。
步骤c、将各节点的信号进行分帧,得到分帧后的多节点多路麦克风阵列观测信号。步骤c中的信号分帧使用海明窗或者汉宁窗抑制频谱泄露。步骤c采用时间混叠的分帧策略。
步骤d:在每个节点,对于每一帧的多路麦克风阵列观测信号,根据当前节点的多路麦克风阵列观测信号,采用多通道维纳滤波器进行语音增强,得到单通道增强后语音信号。
相对于波束形成器和广义旁瓣消除,多通道维纳滤波器的一个明显优势是无需估计声源方位即可有效实现语音增强。由于实际情况下目标语音源方位可能经常变化,而噪声环境下跟踪变化的声源方位尤为困难,因此本发明使用多通道维纳滤波器进行语音增强。
维纳滤波器可在时域或频域上进行计算,理论上,时域算法和频域算法完全等价,但实际中由于时域和频域噪声估计结果的差异,使得算法输出并不完全一致。此外,两个变换域算法还存在计算复杂度的差异。
图4是基于多通道维纳滤波器的单节点语音增强的流程图。如图4所示:首先要对语音活动进行检测或者对语音存在概率进行估计,其次对噪音自相关矩阵进行估计,再次对噪音自相关矩阵进行计算,最后进行多通道维纳滤波器的计算。
使用时域或频域的多通道维纳滤波器对原始多路信号进行滤波的方法如下:
在节点K,所述时域多通道维纳滤波器的表达式为:
hw,K(t)=[Rxx,K(t)+λRnn,K(t)]-1Rxx,K(t)u;
上式中,Rxx,K(t)=Ryy,K(t)-Rnn,K(t);
是当前节点的纯净语音向量xK(t)=[x1,K(t),x2,K (t),...,xM,K(t)]T的时域自相关矩阵;
是当前节点的噪声向量nK(t)=[n1,K(t),n2,K(t),...,nM,K(t)]T的时域自相关矩阵;
是当前节点的多路麦克风阵列观测信号向量yK(t)=[y1,K(t),y2,K(t),...,yM,K(t)]T的时域自相关矩阵;
u=[1,0,...,0]T,其长度为M;
M为当前节点的麦克风数量;
λ为控制噪声消除和语音畸变的程度,λ>0,当λ越大,噪声被抑制的效果越明显,同时带来更多的语音畸变;
节点K的时域滤波输出为
在节点K,所述频域多通道维纳滤波器的表达式为:
Hw,K(ω)=[RXX,K(ω)+λRNN,K(ω)]-1RXX,K(ω)u;
上式,RXX,K(ω)=RYY,K(ω)-RNN,K(ω);
是当前节点的纯净语音向量XK(ω)=[X1,K (ω),X2,K(ω),...,XM,K(ω)]H的频域自相关矩阵;
是当前节点的噪声向量NK(ω)=[N1,K(ω),N2,K (ω),...,NM,K(ω)]H的频域自相关矩阵;
是当前节点的多路麦克风阵列观测信号向量YK(ω)=[Y1,K(ω),Y2,K(ω),...,YM,K(ω)]H的频域自相关矩阵;
u=[1,0,...,0]T,其长度为M;
M为当前节点的麦克风数量;
λ为控制噪声消除和语音畸变的程度,λ>0,λ越大,噪声被抑制的效果越明显,同时带来更多的语音畸变;
节点K的频域滤波输出为
当节点只包含一个麦克风时,节点输出的单通道增强后语音信号为原始观测信号。
多通道维纳滤波器的关键问题是噪声自相关矩阵的估计。在时域上,该矩阵可结合语音活动检测进行估计。假设当前帧被判断为噪音,则
上式中,0<α>1为更新因子。否则,保持该矩阵不更新。类似地,在频域上,可结合语音存在概率进行估计。假设当前帧频带ω的语音存在概率为p(ω),则RNN,K(ω)更新为:
RNN,K(ω)←αpRNN,K(ω)+(1-αp)X(ω)XH(ω);
其中,αp=α+p(ω)(1-α),同样地0<α<1为更新因子。时域或频域的噪声自相关矩阵初始化为初始若干帧内矩阵的平均值。
当节点只包含一个麦克风时,为了避免本节点增强后的语音信号畸变,该节点输出的单通道增强后语音信号为原始多路麦克风阵列观测信号。
(3)、基于多通道维纳滤波器的多节点迭代式语音增强。
步骤e、在每个节点,将该节点通过所述步骤d得到的单通道增强后语音信号传输到网络的所有其他节点。步骤e中,在信号传输的数据包中还可加入发射节点、接收节点序号和多通道维纳滤波器处理次数等信息,以和其他数据包相互区别。
步骤f、在每个节点,同时根据当前节点的麦克风阵列的多路观测信号和所有其他节点的单通道增强后语音信号,再次采用多通道维纳滤波器进行语音增强,得到当前节点更新后的单通道增强后语音信号;
每个节点均可根据节点自身的麦克风阵列观测信号得到单通道增强后的语音信号。不同节点增强后的语音信号一方面抑制了该节点周围的噪声,另一方面提供了纯净语音的冗余信息,因此可被其他节点用于进一步提高语音增强的效果。从网络通信的角度出发,传输增强后的单通道语音信号,而非节点所观测到的多通道原始信号,极大节省了带宽,并保证了节点间数据传输格式的一致性。
本环节将其余节点的增强后单通道语音信号和本节点的多通道观测信号一起构成新的观测向量。在其余节点增强后单通道语音信号可被视作本地节点新的观测通道,类似地,可以采用多通道维纳滤波器,根据上述新的观测向量,得到更新后的本节点增强后单通道语音信号。
步骤g、重复迭代步骤e~步骤f,当某节点得到的单通道增强后语音信号收敛时,当前节点的单通道增强后语音信号不再更新;当所有节点的单通道增强后语音信号均不再更新时,当前帧处理结束;最终在每个节点均得到当前节点增强后语音信号。
图5是基于多通道维纳滤波器的多节点迭代式语音增强的流程图。首先构造当前节点的多路观测信号和所有其他节点的增强后信号所构成的联合向量,其次对语音活动进行检测或者对语音存在概率进行估计,再次更新噪声自相关矩阵,之后计算带噪音信号的自相关矩阵,最后进行多通道维纳滤波器的计算。
具体计算方法如下:
在节点K,所述时域的多通道维纳滤波器中,
当前节点K多路观测信号和所有其他节点的增强后信号所构成的联合向量为
上式中,为除节 点K外其他节点增强后的时域单通道语音所组成的向量:
Ni为步骤g的迭代次数;
中的纯净语音成分;
中的噪声成分;
为当前节点中纯净语音成分的时域自相关矩阵;
为当前节点中噪声成分的时域自相关矩阵;
为当前节点中联合向量的时域自相关矩阵;
u=[1,0,...,0]T,其长度为M+P-1,P为网络中的节点总数;
则节点K第Ni+1次迭代的时域多通道维纳滤波器为:
在节点K,所述频域的多通道维纳滤波器中,
当前节点K多路观测信号和所有其他节点的增强后信号所构成的联合向量为
上式中, 为除节点K外其他节点增强后的频域单通道语音所组成的向量;
Ni为步骤g的迭代次数;
为联合向量中的纯净语音成分;
为联合向量中的噪声成分;
为除去节点K之外其他节点的纯净 语音向量的频域自相关矩阵;
为除去节点K之外其他节点背景噪音向量的频域自相关矩阵;
为除去节点K之外其他节点观测向量的频域自相关矩阵;
u=[1,0,...,0]T;其长度为M+P-1,P为网络中的节点总数,则节点K第Ni+1次迭代的频域多通道维纳滤波器为:
当所有节点得到更新后的单通道语音增强信号之后,同样可以将此更新后的信号传输至其他节点,以便于其他节点再次更新单通道语音增强信号。因此,可以在分布式麦克风阵列网络重复上述步骤,当某节点得到的单通道增强后语音信号收敛时,增强后语音信号不再更新。当所有节点单通道语音信号均不再更新时,当前帧处理结束,最终在每个节点均得到当前节点增强后语音信号。
步骤g还可包括判断语音信号是否收敛的步骤。我们可以根据滤波前后信号向量之差的范数,以及信号能量综合判断某节点得到的单通道增强后语音信号是否收敛:步骤g根据滤波前后信号向量之差的范数,以及信号能量综合判断某节点得到的单通道增强后语音信号是否收敛,其方法如下:
在节点K,前次滤波得到的单通道时域信号向量是
本次滤波得到的单通道时域信号向量是
时,认为当前滤波器输出收敛;
||·||p代表p范数,η是一个阈值。
以上所述的仅是本发明的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。

Claims (9)

1.一种基于分布式麦克风阵列网络的语音增强方法,其特征在于,包括下列步骤:
步骤a、建立由多个麦克风阵列构成的基于Ad-hoc网络的分布式麦克风阵列网络;任意两个网络节点之间均可相互通信;
步骤b、将分布式麦克风阵列网络初始化,即对网络节点进行采样率同步;
步骤c、将各节点的信号进行分帧,得到分帧后的多节点多路麦克风阵列观测信号;
步骤d、在每个节点,对于每一帧的多路麦克风阵列观测信号,根据当前节点的多路麦克风阵列观测信号,采用多通道维纳滤波器进行语音增强,得到单通道增强后语音信号;
步骤e、在每个节点,将该节点通过所述步骤d得到的单通道增强后语音信号传输到网络的所有其他节点;
步骤f、在每个节点,同时根据当前节点的多路麦克风阵列观测信号和所有其他节点的单通道增强后语音信号,再次采用多通道维纳滤波器进行语音增强,得到当前节点更新后的单通道增强后语音信号;
步骤g、重复迭代步骤e~步骤f,当某节点得到的单通道增强后语音信号收敛时,当前节点的单通道增强后语音信号不再更新;当所有节点的单通道增强后语音信号均不再更新时,当前帧处理结束;最终在每个节点均得到当前节点增强后语音信号;
所述步骤b具体包括以下步骤:
步骤b1、将网络采样率初始化,使K=1,即网络采样率f0等于节点1的设备采样率f1
步骤b2、节点K的设备采样率为fK;将节点K的设备采样率fK传输到节点K+1;
步骤b3、若节点K+1的设备采样率fK+1>fK,则f0=fK,否则f0=fK+1
步骤b4、K=K+1;
步骤b5、重复步骤b2~步骤b4,直至遍历所有节点,从而网络采样率f0为全网络所有节点的设备采样率最小值;
步骤b6、通过最终节点将当前网络采样率f0传输到其他各个节点,使得所有节点设备采样率为f0
2.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法,其特征在于:所述麦克风阵列包括音频采集模块和通信模块。
3.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法,其特征在于:所述步骤a中的Ad-hoc网络的结构为平面结构或者分级结构;Ad-hoc网络采用先验式、反应式或者混合式的路由协议实现网络中两个节点设备之间的相互通信。
4.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法,其特征在于:所述步骤b还包括对网络节点进行时间同步;所述分布式麦克风阵列包括网络设备时钟;所述时间同步是通过所述网络设备时钟,基于NTP网络时间协议进行同步。
5.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法,其特征在于:所述步骤c中的信号分帧使用海明窗或者汉宁窗抑制频谱泄露;所述步骤c采用时间混叠的分帧策略。
6.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法,其特征在于:所述步骤d使用时域多通道维纳滤波器或者频域的多通道维纳滤波器对多路麦克风阵列观测信号进行滤波,以达到语音增强的效果:
在节点K,所述时域多通道维纳滤波器的表达式为:
hw,K(t)=[Rxx,K(t)+λRnn,K(t)]-1Rxx,K(t)u;
上式中,Rxx,K(t)=Ryy,K(t)-Rnn,K(t);
是当前节点的纯净语音向量xK(t)=[x1,K(t),x2,K(t),…,xM,K(t)]T的时域自相关矩阵;
是当前节点的噪声向量nK(t)=[n1,K(t),n2,K(t),...,nM,K(t)]T的时域自相关矩阵;
是当前节点的多路麦克风阵列观测信号向量yK(t)=[y1,K(t),y2,K(t),...,yM,K(t)]T的时域自相关矩阵;
u=[1,0,...,0]T,其长度为M;
M为当前节点的麦克风数量;
λ为控制噪声消除和语音畸变的程度,λ>0,λ越大,噪声被抑制的效果越明显,同时带来更多的语音畸变;
节点K的时域滤波输出为:
在节点K,所述频域多通道维纳滤波器的表达式为:
Hw,K(ω)=[RXX,K(ω)+λRNN,K(ω)]-1RXX,K(ω)u;
上式中,RXX,K(ω)=RYY,K(ω)-RNN,K(ω);
是当前节点的纯净语音向量XK(ω)=[X1,K(ω),X2,K(ω),...,XM,K(ω)]H的频域自相关矩阵;
是当前节点的噪声向量NK(ω)=[N1,K(ω),N2,K(ω),...,NM,K(ω)]H的频域自相关矩阵;
是当前节点的多路麦克风阵列观测信号向量YK(ω)=[Y1,K(ω),Y2,K(ω),...,YM,K(ω)]H的频域自相关矩阵;
u=[1,0,...,0]T,其长度为M;
M为当前节点的麦克风数量;
λ为控制噪声消除和语音畸变的程度,λ>0,λ越大,噪声被抑制的效果越明显,同时带来更多的语音畸变;
节点K的频域滤波输出为:
7.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法,其特征在于:所述步骤e包括在信号传输的数据包中加入发射节点序号、接收节点序号以及多通道维纳滤波器处理次数的信息。
8.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法,其特征在于:所述步骤f包括使用时域或频域的多通道维纳滤波器对当前节点多路观测信号和其他节点的增强后信号进行滤波;
所述时域的多通道维纳滤波器中,
当前节点K多路麦克风阵列观测信号和所有其他节点的增强后信号所构成的联合向量为:
上式中,为除节点K外其他节点增强后的时域单通道语音所组成的向量;
Ni为步骤g的迭代次数;
中的纯净语音成分;
中的噪声成分;
为当前节点中纯净语音成分的时域自相关矩阵;
为当前节点中噪声向量的时域自相关矩阵;
为当前节点中联合向量的时域自相关矩阵;
u=[1,0,...,0]T,其长度为M+P-1,P为网络中的节点总数;
则节点K第Ni+1次迭代的时域多通道维纳滤波器为:
所述频域的多通道维纳滤波器中,
当前节点K多路观测信号和所有其他节点的增强后信号所构成的联合向量为:
上式中,为除节点K外其他节点增强后的频域单通道语音所组成的向量;
Ni为步骤g的迭代次数;
中的纯净语音成分;
中的噪声成分;
为除去节点K之外其他节点的纯净语音向量的频域自相关矩阵;
为除去节点K之外其他节点背景噪音向量的频域自相关矩阵;
为除去节点K之外其他节点观测向量的频域自相关矩阵;
u=[1,0,...,0]T;其长度为M+P-1,P为网络中的节点总数,则节点K第Ni+1次迭代的频域多通道维纳滤波器为:
9.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法,其特征在于:所述步骤g包括根据滤波前后信号向量之差的范数以及滤波后信号向量的范数判断节点得到的单通道增强后语音信号是否收敛的步骤,其方法如下:
在节点K,前次滤波得到的单通道时域信号向量为:
本次滤波得到的单通道时域信号向量为:
时,当前滤波器输出收敛;
上式中,||·||p代表p范数,η是阈值。
CN201510582363.5A 2015-09-14 2015-09-14 基于分布式麦克风阵列网络的语音增强方法 Active CN105206281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510582363.5A CN105206281B (zh) 2015-09-14 2015-09-14 基于分布式麦克风阵列网络的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510582363.5A CN105206281B (zh) 2015-09-14 2015-09-14 基于分布式麦克风阵列网络的语音增强方法

Publications (2)

Publication Number Publication Date
CN105206281A CN105206281A (zh) 2015-12-30
CN105206281B true CN105206281B (zh) 2019-02-15

Family

ID=54953910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510582363.5A Active CN105206281B (zh) 2015-09-14 2015-09-14 基于分布式麦克风阵列网络的语音增强方法

Country Status (1)

Country Link
CN (1) CN105206281B (zh)

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10097919B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Music service selection
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
CN105957536B (zh) * 2016-04-25 2019-11-12 深圳永顺智信息科技有限公司 基于通道聚合度频域回声消除方法
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
CN106028227B (zh) 2016-07-08 2019-05-24 乐鑫信息科技(上海)股份有限公司 分布式麦克风阵列及其适用的声源定位系统
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
GB201615538D0 (en) 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN106782590B (zh) * 2016-12-14 2020-10-09 南京信息工程大学 基于混响环境下麦克风阵列波束形成方法
CN106846803B (zh) * 2017-02-08 2023-06-23 广西交通科学研究院有限公司 基于音频的交通事件检测装置及方法
CN110169082B (zh) 2017-03-08 2021-03-23 惠普发展公司,有限责任合伙企业 用于组合音频信号输出的方法和装置、及计算机可读介质
CN106992010B (zh) * 2017-06-02 2020-02-21 厦门大学 无直达声条件下的麦克风阵列语音增强装置
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN107993670B (zh) * 2017-11-23 2021-01-19 华南理工大学 基于统计模型的麦克风阵列语音增强方法
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
CN110164446B (zh) * 2018-06-28 2023-06-30 腾讯科技(深圳)有限公司 语音信号识别方法和装置、计算机设备和电子设备
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN109192196A (zh) * 2018-08-22 2019-01-11 昆明理工大学 一种抗噪的svm分类器的音频特征选择方法
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) * 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111048106B (zh) * 2020-03-12 2020-06-16 深圳市友杰智新科技有限公司 基于双麦克风的拾音方法、装置和计算机设备
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN112735462B (zh) * 2020-12-30 2024-05-31 科大讯飞股份有限公司 分布式麦克风阵列的降噪方法和语音交互方法
CN112820287B (zh) * 2020-12-31 2024-08-27 乐鑫信息科技(上海)股份有限公司 分布式语音处理系统及方法
CN112652310B (zh) * 2020-12-31 2024-08-09 乐鑫信息科技(上海)股份有限公司 分布式语音处理系统及方法
CN112954122B (zh) * 2021-01-22 2022-10-11 成都天奥信息科技有限公司 甚高频话音通信系统话音比选方法
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
CN113257270B (zh) * 2021-05-10 2022-07-15 中国科学技术大学 一种基于参考麦克风优化的多通道语音增强方法
CN113744751B (zh) * 2021-08-16 2024-05-17 清华大学苏州汽车研究院(相城) 一种应用于麦克风阵列的多通道语音信号增强方法
CN114283832B (zh) * 2021-09-09 2024-08-09 腾讯科技(深圳)有限公司 用于多通道音频信号的处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101292547A (zh) * 2005-10-13 2008-10-22 摩托罗拉公司 在自组通信系统中同步节点的方法和装置
CN101587712A (zh) * 2008-05-21 2009-11-25 中国科学院声学研究所 一种基于小型麦克风阵列的定向语音增强方法
CN101772983A (zh) * 2007-07-31 2010-07-07 摩托罗拉公司 通信系统内的资源分配的系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10409860B2 (en) * 2011-03-28 2019-09-10 Staton Techiya, Llc Methods and systems for searching utilizing acoustical context

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101292547A (zh) * 2005-10-13 2008-10-22 摩托罗拉公司 在自组通信系统中同步节点的方法和装置
CN101772983A (zh) * 2007-07-31 2010-07-07 摩托罗拉公司 通信系统内的资源分配的系统和方法
CN101587712A (zh) * 2008-05-21 2009-11-25 中国科学院声学研究所 一种基于小型麦克风阵列的定向语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Distributed Adaptive Node-Specific Signal Estimation in Fully Connected Sensor Networks—Part I: Sequential Node Updating";A. Bertrand , ect.;《IEEE Transactions on Signal Processing》;20101031;第58卷(第10期);第5页第1栏第2段-第6页第1栏第4段,图3
"Distributed GSC Beamforming Using the Relative Transfer Function";M. G. Shmulik, ect.;《20th European Signal Processing Conference》;20120831;第1页摘要,第1部分第4段-第4页第5部分
"on Optimal Frequency-Domain Multichannel Linear Filtering for Noise Reduction";S. Mehrez, ect.;《IEEE Transactions on Audio, speech, and language processing》;20100228;第2卷(第18期);第3页第3段-第5页,第7页第IV部分

Also Published As

Publication number Publication date
CN105206281A (zh) 2015-12-30

Similar Documents

Publication Publication Date Title
CN105206281B (zh) 基于分布式麦克风阵列网络的语音增强方法
CN108172235B (zh) 基于维纳后置滤波的ls波束形成混响抑制方法
CN105741849B (zh) 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
US9584909B2 (en) Distributed beamforming based on message passing
Zeng et al. Distributed delay and sum beamformer for speech enhancement via randomized gossip
CN104936125B (zh) 环绕立体声实现方法及装置
CN110931031A (zh) 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法
CN105872275B (zh) 一种用于回声消除的语音信号时延估计方法及系统
CN107621625B (zh) 基于双微麦克风阵的声源定位方法
CN104995679A (zh) 信号源分离
CN107316648A (zh) 一种基于有色噪声的语音增强方法
CN106226739A (zh) 融合子带分析的双声源定位方法
CN108109617A (zh) 一种远距离拾音方法
CN106057210B (zh) 双耳间距下基于频点选择的快速语音盲源分离方法
CN102204281A (zh) 用于产生定向输出信号的系统和方法
CN108389586A (zh) 一种远程集音装置、监控装置及远程集音方法
CN105869651A (zh) 基于噪声混合相干性的双通道波束形成语音增强方法
Liu Sound source seperation with distributed microphone arrays in the presence of clocks synchronization errors
O'Connor et al. Diffusion-based distributed MVDR beamformer
Velasco et al. Novel GCC-PHAT model in diffuse sound field for microphone array pairwise distance based calibration
Cherkassky et al. Blind synchronization in wireless sensor networks with application to speech enhancement
Zeng et al. Distributed delay and sum beamformer for speech enhancement in wireless sensor networks via randomized gossip
CN113823316B (zh) 一种针对位置靠近声源的语音信号分离方法
Hassani et al. Distributed node-specific direction-of-arrival estimation in wireless acoustic sensor networks
CN103929704A (zh) 一种基于变换域的自适应声反馈消除的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant