CN112997249B - 语音处理方法、装置、存储介质及电子设备 - Google Patents
语音处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN112997249B CN112997249B CN201880098277.9A CN201880098277A CN112997249B CN 112997249 B CN112997249 B CN 112997249B CN 201880098277 A CN201880098277 A CN 201880098277A CN 112997249 B CN112997249 B CN 112997249B
- Authority
- CN
- China
- Prior art keywords
- frame
- signal
- voice signal
- windowed
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000001228 spectrum Methods 0.000 claims abstract description 171
- 238000012545 processing Methods 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000001914 filtration Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000003517 fume Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
一种语音处理方法、装置、存储介质及电子设备,该方法包括:获取混响语音信号(101);对混响语音信号进行信号保真处理,得到第一语音信号(102);对第一语音信号进行傅里叶变换,得到第一语音信号对应的相位谱和第一功率谱(103);根据第一功率谱,计算第二功率谱(104);根据相位谱和第二功率谱,构建目标干净语音信号(105)。
Description
技术领域
本申请属于电子设备技术领域,尤其涉及一种语音处理方法、装置、存储介质及电子设备。
背景技术
在室内采用麦克风采集语音信号时,若声源与麦克风距离较远,就会有混响。过大的混响会严重影响语音的清晰度和可懂度。从而影响通话的质量、语音和声纹唤醒的识别。目前,常用的混响消除算法大多是直接对混响语音信号做处理,得到去混响语音信号。然而,这种混响消除算法得到的去混响语音信号的清晰度不高。
发明内容
本申请实施例提供一种语音处理方法、装置、存储介质及电子设备,可以构建出更清晰的干净语音信号。
第一方面,本申请实施例提供一种语音处理方法,包括:
获取混响语音信号;
对所述混响语音信号进行信号保真处理,得到第一语音信号;
对所述第一语音信号进行傅里叶变换,得到所述第一语音信号对应的相位谱和第一功率谱;
根据所述第一功率谱,计算第二功率谱;
根据所述第一语音信号对应的相位谱和所述第二功率谱,构建目标干净语音信号。
第二方面,本申请实施例提供一种语音处理装置,包括:
获取模块,用于获取混响语音信号;
处理模块,用于对所述混响语音信号进行信号保真处理,得到第一语音信号;
变换模块,用于对所述第一语音信号进行傅里叶变换,得到所述第一语音信号对应的相位谱和第一功率谱;
计算模块,用于根据所述第一功率谱,计算第二功率谱;
构建模块,用于根据所述第一语音信号对应的相位谱和所述第二功率谱,构建目标干净语音信号。
第三方面,本申请实施例提供一种存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机上执行时,使得所述计算机执行本实施例提供的语音处理方法。
第四方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行本实施例提供的语音处理方法。
本申请实施例中,不直接根据混响语音信号得到干净语音信号,而是先对混响语音信号进行保真处理,得到第一语音信号,然后再根据第一语音信号对应的第一功率谱计算第二功率谱,进而根据第一语音信号对应的相位谱和第二功率谱,构建干净语音信号。本申请实施例中,通过对混响语音信号进行保真处理,得到第一语音信号,进而对第一语音信号进行处理,从而能够构建出清晰度更高的干净语音信号。
附图说明
下面结合附图,通过对本申请的具体实施方式详细描述,将使本申请的技术方案及其有益效果显而易见。
图1是本申请实施例提供的语音处理方法的第一种流程示意图。
图2是本申请实施例提供的语音处理方法的第二种流程示意图。
图3是本申请实施例提供的语音处理方法的第三种流程示意图。
图4是本申请实施例提供的语音处理方法的第四种流程示意图。
图5是本申请实施例提供的语音处理装置的结构示意图。
图6是本申请实施例提供的电子设备的第一种结构示意图。
图7是本申请实施例提供的电子设备的第二种结构示意图。
具体实施方式
请参照图示,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
请参阅图1,图1是本申请实施例提供的语音处理方法的第一种流程示意图。该语音处理方法的流程可以包括:
比如,通常在声音信号采集或录制的情况下,麦克风除了接收到所需要的声源发射声波直接到达的直达声音信号外,还会接收声源发出的、经过其它途径传递而到达的其他声音信号,以及所在环境其它声源产生的不需要的声波(即背景噪声)。在声学上,延迟时间达到约50ms以上的反射波称为回声,其余的反射波产生的效应称为混响。混响现象将会使得声音的清晰度大幅度下降,从而影响到通话质量、语音和声纹的识别率。在这种情况下,如何降低麦克风采集语音信号的混响尤为重要。
在101中,获取混响语音信号。
可以理解,麦克风端接收的信号容易受到环境混响的影响。比如,在房间内,语音经过墙面、地板和家具等多次放射,麦克风端接收到的信号是直达声和反射声的混合信号,即为混响语音信号。这部分反射声就是混响信号,直达声即为干净语音信号,混响信号相对于干净语音信号会有延迟。当说话人距离麦克风比较远,且通话环境是一个相对封闭的空间时,就很容易产生混响现象。混响现象严重时,会导致语音不清楚,影响通话质量。另外,混响现象带来的干扰,还会导致声学接收系统性能变差,语音识别和声纹识别系统性能显著下降等。
在本实施例中,电子设备获取混响语音信号。
在102中,对混响语音信号进行信号保真处理,得到第一语音信号。
比如,由于麦克风在采集混响语音信号时,会存在一定的失真现象。若直接对混响语音信号进行去混响处理,可能最终得到的干净语音信号(去混响之后的语音信号)的清晰度不够高。因此,在本实施例中,电子设备对混响语音信号进行信号保真处理,得到第一语音信号,以减少信号的失真率。
在103中,对第一语音信号进行傅里叶变换,得到第一语音信号对应的相位谱和第一功率谱。
其中,电子设备对第一语音信号进行傅里叶变换,得到第一语音信号对应的相位谱和第一功率谱。
在104中,根据第一功率谱,计算第二功率谱。
比如,电子设备可以根据第一功率谱,计算第二功率谱。
在105中,根据第一语音信号对应的相位谱和第二功率谱,构建目标干净语音信号。
比如,电子设备根据第一语音信号对应的相位谱和第二功率谱,构建出目标干净语音信号。
可以理解的是,本实施例中,不直接根据混响语音信号得到干净语音信号,而是先对混响语音信号进行保真处理,得到第一语音信号,然后再根据第一语音信号对应的第一功率谱计算第二功率谱,进而根据第一语音信号对应的相位谱和第二功率谱,构建干净语音信号。本申请实施例中,通过对混响语音信号进行保真处理,得到第一语音信号,进而对第一语音信号进行处理,从而能够构建出清晰度更高的干净语音信号。
请参阅图2,图2为本申请实施例提供的语音处理方法的第二种流程示意图。该语音处理方法可以包括:
在201中,电子设备获取混响语音信号。
在本实施例中,电子设备可以采用麦克风采集混响语音信号,以获取混响语音信号。
在202中,电子设备对混响语音信号进行加窗分帧处理,得到多帧加窗语音信号。
例如,电子设备在获取到混响语音信号之后,可以对混响语音信号进行加窗分帧处理,得到多帧加窗语音信号。其中,电子设备可以取一帧长度为20ms,取帧移为10ms对混响语音信号进行分帧。电子设备对混响语音信号加窗时,优先而不局限地,窗函数可以选取矩形窗,即w(n)=1。
例如,长度为L的加窗语音信号y(i)可以表示为:y(i)=[y(i-L+1),…y(i-1),y(i)],其中,i表示帧数。
需要说明的是,在本实施例中,电子设备得到的多帧加窗信号至少不包括第1帧加窗信号。例如,电子设备对混响语音信号进行加窗处理,得到8帧加窗语音信号,电子设备可以获取后7帧加窗语音信号,即第2帧至第7帧加窗语音信号,第2帧至第8帧加窗语音信号即为电子设备得到的多帧加窗语音信号;电子设备也可以获取后6帧加窗语音信号,即第3帧至第8帧加窗语音信号,第3帧至第8帧加窗语音信号即为电子设备得到的多帧加窗语音信号。具体获取后几帧加窗语音信号根据实际情况确定,此处不做具体限制。另外,如何对混响语音信号进行加窗分帧并不限于上述方式,还可以是其他方式,此处不做具体限制。
在203中,电子设备对每帧加窗语音信号进行信号保真处理,得到多帧保真语音信号。
比如,电子设备在得到多帧加窗信号之后,可以对每帧加窗信号进行信号保真处理,得到多帧保真语音信号。其中,多帧保真语音信号构成第一语音信号,保真语音信号可以表示为z(i),i表示帧数。
例如,电子设备得到5帧加窗语音信号,分别为第4帧加窗语音信号y(4)、第5帧加窗语音信号y(5)、第6帧加窗语音信号y(6)、第7帧加窗语音信号y(7)和第8帧加窗语音信号y(8)。然后,电子设备对这5帧加窗语音信号进行信号保真处理,得到5帧保真语音信号,分别为第4帧保真语音信号z(4)、第5帧保真语音信号z(5)、第6帧保真语音信号z(6)、第7帧保真语音信号z(7)和第8帧保真语音信号z(8)。
可以理解,对信号进行保真处理,可以减少信号的失真率。
在204中,电子设备对每帧保真语音信号进行傅里叶变换,得到多帧保真语音信号分别对应的相位谱和功率谱。
比如,电子设备在得到多帧保真信号之后,可以对每帧保真信号进行傅里叶变换,进而得到多帧保真语音信号分别对应的相位谱和功率谱。其中,多帧保真语音信号分别对应的相位谱和功率谱构成第一语音信号对应的相位谱和第一功率谱。
例如,假设电子设备得到5帧保真语音信号,分别为第4帧保真语音信号z(4)、第5帧保真语音信号z(5)、第6帧保真语音信号z(6)、第7帧保真语音信号z(7)和第8帧保真语音信号z(8)。那么电子设备对z(4)进行傅里叶变换,即FFT[z(4)]=Z(4),可以得到z(4)对应的相位谱arg[Z(4)]和z(4)对应的功率谱|Z(4)|2。电子设备对z(5)进行傅里叶变换,即FFT[z(5)]=Z(5),可以得到z(5)对应的相位谱arg[Z(5)]和z(5)对应的功率谱|Z(5)|2。电子设备对z(6)进行傅里叶变换,即FFT[z(6)]=Z(6),可以得到z(6)对应的相位谱arg[Z(6)]和z(6)对应的功率谱|Z(6)|2。电子设备对z(7)进行傅里叶变换,即FFT[z(7)]=Z(7),可以得到z(7)对应的相位谱arg[Z(7)]和z(7)对应的功率谱|Z(7)|2。电子设备对z(8)进行傅里叶变换,即FFT[z(8)]=Z(6),可以得到z(8)对应的相位谱arg[Z(8)]和z(8)对应的功率谱|Z(8)|2。
其中,FFT(Fast Fourier Transformation)是离散傅氏变换(DFT)的快速算法。即为快速傅氏变换。它是根据离散傅氏变换的奇、偶、虚、实等特性,对离散傅立叶变换的算法进行改进获得的。
可以理解,第一语音信号对应的相位谱包括:arg[Z(4)]、arg[Z(5)]、arg[Z(6)、arg[Z(7)]、arg[Z(8)]。第一语音信号对应的第一功率谱包括:|Z(4)|2、|Z(5)|2、|Z(6)|2、|Z(7)|2、|Z(8)|2。
在205中,电子设备根据每帧保真语音信号对应的功率谱,计算第三功率谱,得到多个第三功率谱。
比如,电子设备在得到多帧保真语音信号分别对应的功率谱之后,可以根据每帧保真语音信号对应的功率谱,计算第三功率谱,得到多个第三功率谱。其中,多个第三功率谱构成第二功率谱。
比如,电子设备可以采用以下公式,计算第三功率谱:
其中,|Z(i)|2表示第i帧保真语音信号对应的功率谱,|X(i)|2表示第i个第三功率谱,其根据第i帧保真语音信号对应的功率谱确定,ρ是混响时间平移帧数,γ是一个增益值,ε表示直达声信号衰减一定分贝的值,i>-a,ω(i)是一个平滑函数,a用来控制平滑函数的宽度,i表示帧数。
其中,ρ、γ、ε、a的取值可以为:ρ=7,γ=0.32,ε=0.01,a=5。其中,ρ=7表示帧移7帧,即假设混响时间在50ms左右,窗移8ms,需要移7帧。γ=0.32表示增益值为0.32。ε=0.01表示直达声信号衰减30dB的值。a=5表示平滑函数的宽度为5。需要说明的是,ρ=7,γ=0.32,ε=0.01,a=5只是本实施例的一种示例,并不用于限制本申请,在实际应用过程中,ρ、γ、ε、a的取值并不局限于本实施例中的示例,可以根据实际情况确定ρ、γ、ε、a的取值,此处不做具体限制。
例如,假设电子设备得到5帧保真语音信号分别对应的功率谱为:第4帧保真语音信号对应的功率谱|Z(4)|2、第5帧保真语音信号对应的功率谱|Z(5)|2、第6帧保真语音信号对应的功率谱|Z(6)|2、第7帧保真语音信号对应的功率谱|Z(7)|2、第8帧保真语音信号对应的功率谱|Z(8)|2。那么电子设备可以将|Z(4)|2代入公式中,计算得到第四个第三功率谱|X(4)|2,即同理,电子设备可以通过计算得到第五个第三功率谱|X(5)|2、第三个第六功率谱|X(6)|2、第七个第三功率谱|X(7)|2、第八个第三功率谱|X(4)|2。
可以理解,第一功率谱包括:|X(4)|2、|X(5)|2、|X(6)|2、|X(7)|2、|X(8)|2这5个第三功率谱。
在206中,电子设备根据每帧保真语音信号对应的相位谱和多个第三功率谱,构建每帧干净语音信号,得到多帧干净语音信号。
例如,假设电子设备得到5帧保真语音信号对应的相位谱和5个第三功率谱,5帧保真语音信号分别对应的相位谱为:arg[Z(4)]、arg[Z(5)]、arg[Z(6)、arg[Z(7)]、arg[Z(8)]。5个第三功率谱分别为:|X(4)|2、|X(5)|2、|X(6)|2、|X(7)|2、|X(8)|2。那么,电子设备可以根据arg[Z(4)]和|X(4)|2,构建第1帧干净语音信号。电子设备可以根据arg[Z(5)]和|Z(5)|2,构建第2帧干净语音信号。电子设备可以根据arg[Z(6)]和|Z(6)|2,构建第3帧干净语音信号。电子设备可以根据arg[Z(7)]和|Z(7)|2,构建第4帧干净语音信号。电子设备可以根据arg[Z(8)]和|Z(8)|2,构建第5帧干净语音信号。从而电子设备一共可以构建5帧干净语音信号。
在207中,电子设备对多帧干净语音信号进行加窗合帧处理,得到目标干净语音信号。
比如,假设电子设备构建了5帧干净语音信号,那么电子设备可以按照时间顺序对这5帧干净语音信号进行加窗合帧处理,得到目标干净语音信号。其中,各相邻帧干净语音信号之间可以存在一定重叠,以构建出更清晰的目标干净语音信号。
如图3所示,在一些实施例中,流程203可以包括以下流程:
2031,电子设备对第i帧及第i帧之后的每帧加窗语音信号进行线性预测分析,得到第i帧及第i帧之后的每帧线性预测残差信号。
可以理解,由于对当前帧进行线性预测分析需要用到当前帧的前几帧的数据,因此,电子设备并不是从第1帧开始进行线性预测分析,因此,在本实施例中,电子设备得到的多帧加窗信号至少不包括第1帧加窗信号。例如,电子设备对混响语音信号进行加窗处理,得到8帧加窗语音信号,电子设备可以获取后7帧加窗语音信号,即第2帧至第7帧加窗语音信号,第2帧至第8帧加窗语音信号即为电子设备得到的多帧加窗语音信号;电子设备也可以获取后6帧加窗语音信号,即第3帧至第8帧加窗语音信号,第3帧至第8帧加窗语音信号即为电子设备得到的多帧加窗语音信号。具体获取后几帧加窗语音信号根据实际情况确定,此处不做具体限制。
例如,电子设备得到5帧加窗语音信号,分别为第4帧加窗语音信号y(4)、第5帧加窗语音信号y(5)、第6帧加窗语音信号y(6)、第7帧加窗语音信号y(7)和第8帧加窗语音信号y(8)。因此,电子设备从第4帧开始,对第4帧至第8帧加窗语音信号分别进行线性预测分析,得到第4帧线性预测残差信号w(4)、第5帧线性预测残差信号w(5)、第6帧线性预测残差信号w(6)、第7帧线性预测残差信号w(7)、第8帧线性预测残差信号w(8)。其中,线性预测残差信号可以表示为:w(i),i为帧数。
2032,电子设备采用逆滤波器对第i帧线性预测残差信号进行逆滤波处理,得到第i帧滤波语音信号。
比如,电子设备可以采用长度为L的逆滤波器对第i帧线性预测残差信号进行逆滤波处理,得到第i帧滤波语音信号。
其中,长度为L的逆滤波器可以表示为:g(i)=[g(1),g(2),…g(L)]。L的取值可以根据实际情况确定,此处不做具体限制。
2033,当电子设备检测到第i帧滤波语音信号峰度最小时,电子设备获取使得第i帧滤波语音信号峰度最小的逆滤波器,得到第i帧加窗语音信号对应的逆滤波器。
比如,电子设备可以采用长度为L的逆滤波器对第4帧线性预测残差信号进行逆滤波处理,得到第4帧滤波语音信号。电子设备不断更改逆滤波器的参数,使得第4帧滤波语音信号不断变化。同时,电子设备持续检测不断变化的第4帧滤波语音信号的峰度。当电子设备检测到第4帧滤波语音信号的峰度最小时,获取使得第4帧滤波语音信号峰度最小的逆滤波器,得到第4帧加窗语音信号对应的逆滤波器g(4)。
2034,电子设备采用第i帧加窗语音信号对应的逆滤波器对第i帧加窗语音信号进行逆滤波处理,得到第i帧保真语音信号。
第i帧保真语音信号的计算公式为:
z(i)=g(i)y(i)。其中,z(i)表示第i帧保真语音信号,g(i)表示第i帧加窗语音信号对应的逆滤波器,y(i)表示第i帧加窗语音信号。
例如,电子设备可以采用第4帧加窗语音信号对应的逆滤波器g(4)对第4帧加窗语音信号y(4)进行逆滤波处理,得到第4帧保真语音信号z(4),即z(4)=g(4)y(4)。
2035,电子设备根据第i帧之后的每帧线性预测残差信号的前一帧线性预测残差信号和第i帧之后的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器,得到第i帧之后的每帧加窗语音信号对应的逆滤波器。
需要说明的是,第i帧之后的每帧加窗语音信号对应的逆滤波器的确定方式与第i帧加窗语音信号对应的逆滤波器的确定方式不同。
比如,对于第4帧之后的每帧加窗语音信号,即对于第5帧至第8帧的每帧加窗语音信号,电子设备可以根据第5帧至第8帧的每帧线性预测残差信号的前一帧线性预测残差信号和第5帧至第8帧的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器,得到第5帧至第8帧的每帧加窗语音信号对应的逆滤波器。
例如,对于第5帧加窗语音信号,电子设备可以根据第4帧线性预测残差信号和第4帧加窗语音信号对应的逆滤波器,得到第5帧加窗语音信号对应的逆滤波器,同理,电子设备可以得到第6帧加窗语音信号对应的逆滤波器、第7帧加窗语音信号对应的逆滤波器、第8帧加窗语音信号对应的逆滤波器。
2036,电子设备根据第i帧之后的每帧加窗语音信号对应的逆滤波器和第i帧之后的每帧加窗语音信号,得到第i帧之后的多帧保真语音信号。
比如,电子设备可以将第5帧加窗语音信号对应的逆滤波器g(5)和第5帧加窗语音信号y(5)代入公式z(i)=g(i)y(i),得到第5帧保真语音信号z(5)。同理,电子设备可以得到第6帧保真信号z(6)、第7帧保真信号z(7)、第8帧保真信号z(8),即得到第4帧之后的多帧保真语音信号。
2037,电子设备结合第i帧保真语音信号与第i帧之后的多帧保真语音信号,得到多帧保真语音信号。
比如,电子设备结合第4帧保真语音信号z(4)与第5帧至第8帧保真语音信号z(5)、z(6)、z(7)、z(8),得到5帧保真语音信号。
在一些实施方式中,当电子设备检测到第i帧滤波语音信号峰度最小时,电子设备可以获取峰度最小的第i帧滤波语音信号。
比如,电子设备可以采用逆滤波器对第4帧线性预测残差信号进行逆滤波处理,得到第4帧滤波语音信号。电子设备不断更改逆滤波器的参数,使得第4帧滤波语音信号不断变化。同时,电子设备持续检测不断变化的第4帧滤波语音信号的峰度。当电子设备检测到第4帧逆滤波语音信号的峰度最小时,获取峰度最小的第4帧滤波语音信号s(4)。
那么,如图4所示,流程2035可以包括以下流程:
20351,电子设备根据第i帧线性预测残差信号、第i帧加窗语音信号对应的逆滤波器和峰度最小的第i帧滤波语音信号,得到第i+1帧加窗语音信号对应的逆滤波器。
第i+1帧加窗语音信号对应的逆滤波器的计算公式为:
g(i+1)=g(i)+μe(i)w(i),其中,s(i)表示第i帧滤波语音信号,g(i+1)表示第i+1帧加窗语音信号对应的逆滤波器,g(i)表示第i帧加窗语音信号对应的逆滤波器,w(i)表示第i帧线性预测残差信号,μ=3*10-9为收敛步长,E(x)表示期望。
比如,电子设备可以根据第4帧线性预测残差信号w(4)、第4帧加窗语音信号对应的逆滤波器g(4)和峰度最小的第4帧滤波语音信号s(4),得到第5帧加窗语音信号对应的逆滤波器g(5)。即g(5)=g(4)+μe(4)w(4),其中,
20352,电子设备根据第i+1帧之后的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器和第i+1帧之后的每帧线性预测残差信号的前一帧线性预测残差信号,得到第i+1帧之后的每帧滤波语音信号的前一帧滤波语音信号。
20353,电子设备根据第i+1帧之后的每帧线性预测残差信号的前一帧线性预测残差信号、第i+1帧之后的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器和第i+1帧之后的每帧滤波语音信号的前一帧滤波语音信号,得到第i+1帧之后的每帧加窗语音信号对应的逆滤波器。
其中,第i+1帧之后的每帧加窗语音信号对应的逆滤波器的计算公式可以为:
g(i+j+1)=g(i+j)+μe(i+j)w(i+j),其中,s(i+j)表示第i+j帧滤波语音信号,g(i+j)表示第i+j帧加窗语音信号对应的逆滤波器,g(i+j+1)表示第i+j+1帧加窗语音信号对应的逆滤波器,w(i+j)表示第i+j帧线性预测残差信号,μ=3*10-9为收敛步长,E(x)表示期望,j≥1。
根据g(i+j+1)=g(i+j)+μe(i+j)w(i+j)和可以确定:当前帧加窗语音信号对应的逆滤波器可以根据当前帧的前一帧线性预测残差信号、当前帧的前一帧加窗语音信号对应的逆滤波器和当前帧的前一帧滤波语音信号确定。
比如,第i+2帧加窗语音信号对应的逆滤波器可以根据第i+1帧线性预测残差信号、第i+1帧加窗语音信号对应的逆滤波器和第i+1帧滤波语音信号确定。在本实施例中,电子设备在执行流程20353之前,便已经得到第i+1帧加窗语音信号和线性预测残差信号。因此,为了确定第i+2帧加窗语音信号对应的逆滤波器,需要确定第i+1帧滤波语音信号,即需要确定第i+2帧滤波语音信号的前一帧滤波语音信号。
其中,第i+1帧之后的每帧滤波语音信号的前一帧滤波语音信号的计算公式为:
s(i+j)=g(i+j)w(i+j),其中,s(i+j)表示第i+j帧滤波语音信号,g(i+j)表示第i+j帧加窗语音信号对应的逆滤波器,w(i+j)表示第i+j帧线性预测残差信号,j≥1。
例如,若i=4,那么第i+2帧滤波语音信号的前一帧滤波语音信号(此时j=1),即第i+1帧滤波语音信号,即第5帧滤波语音信号s(5)=g(5)w(5)。从而第i+2帧加窗语音信号对应的逆滤波器,即第6帧加窗语音信号对应的逆滤波器g(6)可以根据第5帧线性预测残差信号、第5帧加窗语音信号对应的逆滤波器和第5帧滤波语音信号确定,即g(6)=g(5)+μe(5)w(5),其中,当得到第6帧加窗语音信号对应的逆滤波器g(6)时,电子设备可以确定第6帧滤波语音信号s(6)=g(6)w(6)。从而,第7帧加窗语音信号对应的逆滤波器g(7)=g(6)+μe(6)w(6),其中,同理,电子设备可以得到第8帧加窗语音信号对应的逆滤波器g(8)。
20354,电子设备根据第i+1帧加窗语音信号对应的逆滤波器和第i+1帧之后的每帧加窗语音信号对应的逆滤波器,得到第i帧之后的加窗语音信号对应的逆滤波器。
例如,电子设备根据第5帧加窗语音信号对应的逆滤波器g(5),第6帧加窗语音信号对应的逆滤波器g(6),第7帧加窗语音信号对应的逆滤波器g(7),第8帧加窗语音信号对应的逆滤波器g(8),得到第4帧之后的每帧加窗语音信号对应的逆滤波器。
在一些实施方式中,流程201可以包括以下流程:
在电子设备处于通话状态时,获取用户的语音信息;
电子设备检测用户的语音信息中是否包括预设关键词;
若用户的语音信息中包括预设关键词,电子设备则获取混响语音信号。
其中,用户的语音信息可以为通话对象的语音信息。例如,在电子设备处于通话状态时,电子设备获取到与当前用户正在通话的通话对象的语音信息,然后检测通话对象的语音信息中是否包括预设关键词。其中,预设关键词可以为“听不清楚”、“再说一遍”等。当通话对象的语音信息中包括预设关键词“听不清楚”等时,则有可能存在当前用户距离电子设备过远,导致电子设备采集到的信号是直达声和反射声的混合信号,即本实施例中的混响语音信号。因此,在电子设备检测到用户的语音信息中包括预设关键词时,电子设备可以获取混响语音信号,麦克风采集到的混合信号。
在一些实施方式中,电子设备在执行若用户的语音信息中包括预设关键词,则获取混响语音信号的流程时,可以执行以下流程:
若用户的语音信息中包括预设关键词,电子设备则生成一次记录并保存该记录;
当保存的记录的数量大于预设数量阈值时,电子设备获取混响语音信号。
为了减轻处理器的处理负载,也考虑到可能是电子设备当前信号较差,才导致电子设备检测到通话对象的语音信息中包括预设关键词“听不清楚”等。因此,电子设备可以在检测到通话对象的语音信息中包括预设关键词“听不清楚”等时,生成一次记录并保存该记录。当保存的记录的数量大于预设数量阈值时,电子设备获取混响语音信号。其中,预设数量阈值可以由用户设置,也可以由电子设备确定,等等,此处不做具体限制。假设预设数量阈值设置为10,那么电子设备就会在保存的记录的数量为11时,获取混响语音信号。
当电子设备执行获取混响语音信号的流程时,电子设备可以将保存的记录删除,并停止执行检测用户的语音信息中是否包括预设关键词的流程。
同样,为了减轻处理器的处理负载,在电子设备获取混响语音信号之后的一段时间之后,在通话对象的语音信息中没有检测到预设关键词时,那么可能表示用户已经距离电子设备较近,麦克风采集到的不再是混合声音,此时,电子设备可以停止获取混响语音信号的流程。
例如,在电子设备获取混响语音信号之后的20分钟之后,在通话对象的语音信息中没有检测到预设关键词时,那么可能表示用户已经距离电子设备较近,麦克风采集到的不再是混合声音,此时,电子设备可以停止获取混响语音信号的流程。
在一些实施方式中,流程201可以包括以下流程:
当电子设备要进行声纹识别或者语音识别时,电子设备检测声源与电子设备之间的距离是否大于预设距离阈值;
若声源与电子设备之间的距离大于预设距离阈值,电子设备则获取混响语音信号。
可以理解,若声源与电子设备之间的距离过远的话,电子设备采集到的是直达声和反射声的混合信号,即混响语音信号,混响语音信号存在混响现象,而混响现象能够干扰到电子设备进行声纹识别和语音识别的结果。
因此,当电子设备要进行声纹识别或者语音识别时,电子设备可以检测声源与电子设备之间的距离是否大于预设距离阈值,若声源与电子设备之间的距离大于预设距离阈值,电子设备则获取混响语音信号。
其中,预设距离阈值可以根据实际情况进行设置,此处不作具体限制。
请参阅图5,图5为本申请实施例提供的语音处理装置300的结构示意图。该语音处理装置300可以包括:获取模块301,处理模块302,变换模块303,计算模块304和构建模块305。
获取模块301,用于获取混响语音信号;
处理模块302,用于对所述混响语音信号进行信号保真处理,得到第一语音信号。
变换模块303,用于对所述第一语音信号进行傅里叶变换,得到所述第一语音信号对应的相位谱和第一功率谱。
计算模块304,用于根据所述第一功率谱,计算第二功率谱。
构建模块305,用于根据所述第一语音信号对应的相位谱和所述第二功率谱,构建目标干净语音信号。
在一些实施方式中,所述获取模块301,可以用于:对所述混响语音信号进行加窗分帧处理,得到多帧加窗语音信号;
所述处理模块302,可以用于:对每帧加窗语音信号进行信号保真处理,得到多帧保真语音信号,所述多帧保真语音信号构成所述第一语音信号;
所述变换模块303,可以用于:对每帧保真语音信号进行傅里叶变换,得到多帧保真语音信号分别对应的相位谱和功率谱,所述多帧保真语音信号分别对应的相位谱和功率谱构成第一语音信号对应的相位谱和第一功率谱;
所述计算模块304,可以用于:根据每帧保真语音信号对应的功率谱,计算第三功率谱,得到多个第三功率谱,所述多个第三功率谱构成所述第二功率谱;
所述构建模块305,可以用于:根据每帧保真语音信号对应的相位谱和所述多个第三功率谱,构建每帧干净语音信号,得到多帧干净语音信号;对所述多帧干净语音信号进行加窗合帧处理,得到目标干净语音信号。
在一些实施方式中,所述处理模块302,可以用于:对第i帧及第i帧之后的每帧加窗语音信号进行线性预测分析,得到第i帧及第i帧之后的每帧线性预测残差信号;采用逆滤波器对第i帧线性预测残差信号进行逆滤波处理,得到第i帧滤波语音信号;当检测到第i帧滤波语音信号峰度最小时,获取使得第i帧滤波语音信号峰度最小的逆滤波器,得到第i帧加窗语音信号对应的逆滤波器;采用所述第i帧加窗语音信号对应的逆滤波器对第i帧加窗语音信号进行逆滤波处理,得到第i帧保真语音信号;根据第i帧之后的每帧线性预测残差信号的前一帧线性预测残差信号和第i帧之后的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器,得到第i帧之后的每帧加窗语音信号对应的逆滤波器;根据所述第i帧之后的每帧加窗语音信号对应的逆滤波器和第i帧之后的每帧加窗语音信号,得到第i帧之后的多帧保真语音信号;结合第i帧保真语音信号与第i帧之后的多帧保真语音信号,得到多帧保真语音信号。
在一些实施方式中,所述处理模块302,可以用于:当检测到第i帧滤波语音信号峰度最小时,获取峰度最小的第i帧滤波语音信号;根据第i帧线性预测残差信号、第i帧加窗语音信号对应的逆滤波器和峰度最小的第i帧滤波语音信号,得到第i+1帧加窗语音信号对应的逆滤波器;根据第i+1帧之后的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器和第i+1帧之后的每帧线性预测残差信号的前一帧线性预测残差信号,得到第i+1帧之后的每帧滤波语音信号的前一帧滤波语音信号;根据第i+1帧之后的每帧线性预测残差信号的前一帧线性预测残差信号、第i+1帧之后的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器和第i+1帧之后的每帧滤波语音信号的前一帧滤波语音信号,得到第i+1帧之后的每帧加窗语音信号对应的逆滤波器;根据第i+1帧加窗语音信号对应的逆滤波器和第i+1帧之后的每帧加窗语音信号对应的逆滤波器,得到第i帧之后的加窗语音信号对应的逆滤波器。
在一些实施方式中,所述获取模块301,可以用于:在电子设备处于通话状态时,获取用户的语音信息;检测所述用户的语音信息中是否包括预设关键词;若所述用户的语音信息中包括预设关键词,则获取混响语音信号。
在一些实施方式中,所述获取模块301,可以用于:若所述用户的语音信息中包括预设关键词,则生成一次记录并保存所述记录;当保存的记录的数量大于预设数量阈值时,获取混响语音信号。
在一些实施方式中,所述获取模块301,可以用于:当电子设备要进行声纹识别或者语音识别时,检测声源与电子设备之间的距离是否大于预设距离阈值;若所述声源与电子设备之间的距离大于预设距离阈值,则获取混响语音信号。
本申请实施例提供一种计算机可读的存储介质,其上存储有计算机程序,当所述计算机程序在计算机上执行时,使得所述计算机执行如本实施例提供的语音处理方法中的流程。
本申请实施例还提供一种电子设备,包括存储器,处理器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行本实施例提供的语音处理方法中的流程。
例如,上述电子设备可以是诸如平板电脑或者智能手机等移动终端。
请参阅图6,图6为本申请实施例提供的电子设备的第一种结构示意图。
该电子设备400可以包括麦克风401、存储器402、处理器403等部件。本领域技术人员可以理解,图6中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
麦克风401可用于拾取用户发出的语音等。
存储器402可用于存储应用程序和数据。存储器402存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器403通过运行存储在存储器402的应用程序,从而执行各种功能应用以及数据处理。
处理器403是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的应用程序,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。
在本实施例中,电子设备中的处理器403会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器402中,并由处理器403来运行存储在存储器402中的应用程序,从而实现流程:
获取混响语音信号;
对所述混响语音信号进行信号保真处理,得到第一语音信号;
对所述第一语音信号进行傅里叶变换,得到所述第一语音信号对应的相位谱和第一功率谱;
根据所述第一功率谱,计算第二功率谱;
根据所述第一语音信号对应的相位谱和所述第二功率谱,构建目标干净语音信号。
请参阅图7,图7为本申请实施例提供的电子设备的第二种结构示意图。
该电子设备500可以包括麦克风501、存储器502、处理器503、输入单元504、输出单元505、扬声器506等部件。
麦克风501可用于拾取用户发出的语音等。
存储器502可用于存储应用程序和数据。存储器502存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器503通过运行存储在存储器502的应用程序,从而执行各种功能应用以及数据处理。
处理器503是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器502内的应用程序,以及调用存储在存储器502内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。
输入单元504可用于接收输入的数字、字符信息或用户特征信息(比如指纹),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
输出单元505可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。输出单元可包括显示面板。
扬声器506可用于将电信号转换为声音。
在本实施例中,电子设备中的处理器503会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器502中,并由处理器503来运行存储在存储器502中的应用程序,从而实现流程:
获取混响语音信号;
对所述混响语音信号进行信号保真处理,得到第一语音信号;
对所述第一语音信号进行傅里叶变换,得到所述第一语音信号对应的相位谱和第一功率谱;
根据所述第一功率谱,计算第二功率谱;
根据所述第一语音信号对应的相位谱和所述第二功率谱,构建目标干净语音信号。
在一些实施方式中,处理器503执行所述获取混响语音信号的流程之后,还可以执行:对所述混响语音信号进行加窗分帧处理,得到多帧加窗语音信号;处理器503执行所述对所述混响语音信号进行信号保真处理,得到第一语音信号的流程时,可以执行:对每帧加窗语音信号进行信号保真处理,得到多帧保真语音信号,所述多帧保真语音信号构成所述第一语音信号;处理器503执行所述对所述第一语音信号进行傅里叶变换,得到所述第一语音信号对应的相位谱和第一功率谱的流程时,可以执行:对每帧保真语音信号进行傅里叶变换,得到多帧保真语音信号分别对应的相位谱和功率谱,所述多帧保真语音信号分别对应的相位谱和功率谱构成第一语音信号对应的相位谱和第一功率谱;处理器503执行所述根据所述第一功率谱,计算第二功率谱的流程时,可以执行:根据每帧保真语音信号对应的功率谱,计算第三功率谱,得到多个第三功率谱,所述多个第三功率谱构成所述第二功率谱;处理器503执行所述根据所述第一语音信号对应的相位谱和所述第二功率谱,构建目标干净语音信号的流程时,可以执行:根据每帧保真语音信号对应的相位谱和所述多个第三功率谱,构建每帧干净语音信号,得到多帧干净语音信号;对所述多帧干净语音信号进行加窗合帧处理,得到目标干净语音信号。
在一些实施方式中,处理器503执行所述对每帧加窗语音信号进行信号保真处理,得到多帧保真语音信号的流程时,可以执行:对第i帧及第i帧之后的每帧加窗语音信号进行线性预测分析,得到第i帧及第i帧之后的每帧线性预测残差信号;采用逆滤波器对第i帧线性预测残差信号进行逆滤波处理,得到第i帧滤波语音信号;当检测到第i帧滤波语音信号峰度最小时,获取使得第i帧滤波语音信号峰度最小的逆滤波器,得到第i帧加窗语音信号对应的逆滤波器;采用所述第i帧加窗语音信号对应的逆滤波器对第i帧加窗语音信号进行逆滤波处理,得到第i帧保真语音信号;根据第i帧之后的每帧线性预测残差信号的前一帧线性预测残差信号和第i帧之后的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器,得到第i帧之后的每帧加窗语音信号对应的逆滤波器;根据所述第i帧之后的每帧加窗语音信号对应的逆滤波器和第i帧之后的每帧加窗语音信号,得到第i帧之后的多帧保真语音信号;结合第i帧保真语音信号与第i帧之后的多帧保真语音信号,得到多帧保真语音信号。
在一些实施方式中,处理器503还可以执行:当检测到第i帧滤波语音信号峰度最小时,获取峰度最小的第i帧滤波语音信号;处理器503执行所述根据第i帧之后的每帧线性预测残差信号的前一帧线性预测残差信号和第i帧之后的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器,得到第i帧之后的每帧加窗语音信号对应的逆滤波器的流程时,可以执行:根据第i帧线性预测残差信号、第i帧加窗语音信号对应的逆滤波器和峰度最小的第i帧滤波语音信号,得到第i+1帧加窗语音信号对应的逆滤波器;根据第i+1帧之后的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器和第i+1帧之后的每帧线性预测残差信号的前一帧线性预测残差信号,得到第i+1帧之后的每帧滤波语音信号的前一帧滤波语音信号;根据第i+1帧之后的每帧线性预测残差信号的前一帧线性预测残差信号、第i+1帧之后的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器和第i+1帧之后的每帧滤波语音信号的前一帧滤波语音信号,得到第i+1帧之后的每帧加窗语音信号对应的逆滤波器;根据第i+1帧加窗语音信号对应的逆滤波器和第i+1帧之后的每帧加窗语音信号对应的逆滤波器,得到第i帧之后的加窗语音信号对应的逆滤波器。
在一些实施方式中,处理器503执行所述获取混响语音信号的流程时,可以执行:在电子设备处于通话状态时,获取用户的语音信息;检测所述用户的语音信息中是否包括预设关键词;若所述用户的语音信息中包括预设关键词,则获取混响语音信号。
在一些实施方式中,处理器503执行所述若所述用户的语音信息中包括预设关键词,则获取混响语音信号的流程时,可以执行:若所述用户的语音信息中包括预设关键词,则生成一次记录并保存所述记录;当保存的记录的数量大于预设数量阈值时,获取混响语音信号。
在一些实施方式中,处理器503执行所述获取混响语音信号的流程时,可以执行:当电子设备要进行声纹识别或者语音识别时,检测声源与电子设备之间的距离是否大于预设距离阈值;若所述声源与电子设备之间的距离大于预设距离阈值,则获取混响语音信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对语音处理方法的详细描述,此处不再赘述。
本申请实施例提供的所述语音处理装置与上文实施例中的语音处理方法属于同一构思,在所述语音处理装置上可以运行所述语音处理方法实施例中提供的任一方法,其具体实现过程详见所述语音处理方法实施例,此处不再赘述。
需要说明的是,对本申请实施例所述语音处理方法而言,本领域普通技术人员可以理解实现本申请实施例所述语音处理方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在存储器中,并被至少一个处理器执行,在执行过程中可包括如所述语音处理方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)等。
对本申请实施例的所述语音处理装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种语音处理方法、装置、存储介质以及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (9)
1.一种语音处理方法,其特征在于,包括:
获取混响语音信号;
对所述混响语音信号进行加窗分帧处理,得到多帧加窗语音信号;
对第i帧及第i帧之后的每帧加窗语音信号进行线性预测分析,得到第i帧及第i帧之后的每帧线性预测残差信号;
采用逆滤波器对第i帧线性预测残差信号进行逆滤波处理,得到第i帧滤波语音信号;
当检测到第i帧滤波语音信号峰度最小时,获取使得第i帧滤波语音信号峰度最小的逆滤波器,得到第i帧加窗语音信号对应的逆滤波器;
采用所述第i帧加窗语音信号对应的逆滤波器对第i帧加窗语音信号进行逆滤波处理,得到第i帧保真语音信号;
根据第i帧之后的每帧线性预测残差信号的前一帧线性预测残差信号和第i帧之后的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器,得到第i帧之后的每帧加窗语音信号对应的逆滤波器;
根据所述第i帧之后的每帧加窗语音信号对应的逆滤波器和第i帧之后的每帧加窗语音信号,得到第i帧之后的多帧保真语音信号;
结合第i帧保真语音信号与第i帧之后的多帧保真语音信号,得到多帧保真语音信号,所述多帧保真语音信号构成第一语音信号;
对所述第一语音信号进行傅里叶变换,得到所述第一语音信号对应的相位谱和第一功率谱;
根据所述第一功率谱,计算第二功率谱;
根据所述第一语音信号对应的相位谱和所述第二功率谱,构建目标干净语音信号。
2.根据权利要求1所述的语音处理方法,其特征在于,所述对所述第一语音信号进行傅里叶变换,得到所述第一语音信号对应的相位谱和第一功率谱,包括:
对每帧保真语音信号进行傅里叶变换,得到多帧保真语音信号分别对应的相位谱和功率谱,所述多帧保真语音信号分别对应的相位谱和功率谱构成第一语音信号对应的相位谱和第一功率谱;
所述根据所述第一功率谱,计算第二功率谱,包括:
根据每帧保真语音信号对应的功率谱,计算第三功率谱,得到多个第三功率谱,所述多个第三功率谱构成所述第二功率谱;
所述根据所述第一语音信号对应的相位谱和所述第二功率谱,构建目标干净语音信号,包括:
根据每帧保真语音信号对应的相位谱和所述多个第三功率谱,构建每帧干净语音信号,得到多帧干净语音信号;
对所述多帧干净语音信号进行加窗合帧处理,得到目标干净语音信号。
3.根据权利要求2所述的语音处理方法,其特征在于,所述方法还包括:
当检测到第i帧滤波语音信号峰度最小时,获取峰度最小的第i帧滤波语音信号;
所述根据第i帧之后的每帧线性预测残差信号的前一帧线性预测残差信号和第i帧之后的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器,得到第i帧之后的每帧加窗语音信号对应的逆滤波器,包括:
根据第i帧线性预测残差信号、第i帧加窗语音信号对应的逆滤波器和峰度最小的第i帧滤波语音信号,得到第i+1帧加窗语音信号对应的逆滤波器;
根据第i+1帧之后的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器和第i+1帧之后的每帧线性预测残差信号的前一帧线性预测残差信号,得到第i+1帧之后的每帧滤波语音信号的前一帧滤波语音信号;
根据第i+1帧之后的每帧线性预测残差信号的前一帧线性预测残差信号、第i+1帧之后的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器和第i+1帧之后的每帧滤波语音信号的前一帧滤波语音信号,得到第i+1帧之后的每帧加窗语音信号对应的逆滤波器;
根据第i+1帧加窗语音信号对应的逆滤波器和第i+1帧之后的每帧加窗语音信号对应的逆滤波器,得到第i帧之后的加窗语音信号对应的逆滤波器。
4.根据权利要求1所述的语音处理方法,其特征在于,所述获取混响语音信号,包括:
在电子设备处于通话状态时,获取用户的语音信息;
检测所述用户的语音信息中是否包括预设关键词;
若所述用户的语音信息中包括预设关键词,则获取混响语音信号。
5.根据权利要求4所述的语音处理方法,其特征在于,所述若所述用户的语音信息中包括预设关键词,则获取混响语音信号,包括:
若所述用户的语音信息中包括预设关键词,则生成一次记录并保存所述记录;
当保存的记录的数量大于预设数量阈值时,获取混响语音信号。
6.根据权利要求1所述的语音处理方法,其特征在于,所述获取混响语音信号,包括:
当电子设备要进行声纹识别或者语音识别时,检测声源与电子设备之间的距离是否大于预设距离阈值;
若所述声源与电子设备之间的距离大于预设距离阈值,则获取混响语音信号。
7.一种语音处理装置,其特征在于,包括:
获取模块,用于获取混响语音信号;
处理模块,用于对所述混响语音信号进行加窗分帧处理,得到多帧加窗语音信号;对第i帧及第i帧之后的每帧加窗语音信号进行线性预测分析,得到第i帧及第i帧之后的每帧线性预测残差信号;采用逆滤波器对第i帧线性预测残差信号进行逆滤波处理,得到第i帧滤波语音信号;当检测到第i帧滤波语音信号峰度最小时,获取使得第i帧滤波语音信号峰度最小的逆滤波器,得到第i帧加窗语音信号对应的逆滤波器;采用所述第i帧加窗语音信号对应的逆滤波器对第i帧加窗语音信号进行逆滤波处理,得到第i帧保真语音信号;根据第i帧之后的每帧线性预测残差信号的前一帧线性预测残差信号和第i帧之后的每帧加窗语音信号的前一帧加窗语音信号对应的逆滤波器,得到第i帧之后的每帧加窗语音信号对应的逆滤波器;根据所述第i帧之后的每帧加窗语音信号对应的逆滤波器和第i帧之后的每帧加窗语音信号,得到第i帧之后的多帧保真语音信号;结合第i帧保真语音信号与第i帧之后的多帧保真语音信号,得到多帧保真语音信号,所述多帧保真语音信号构成第一语音信号;
变换模块,用于对所述第一语音信号进行傅里叶变换,得到所述第一语音信号对应的相位谱和第一功率谱;
计算模块,用于根据所述第一功率谱,计算第二功率谱;
构建模块,用于根据所述第一语音信号对应的相位谱和所述第二功率谱,构建目标干净语音信号。
8.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行权利要求1至6任一项所述的语音处理方法。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行权利要求1至6任一项所述的语音处理方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2018/118713 WO2020107455A1 (zh) | 2018-11-30 | 2018-11-30 | 语音处理方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112997249A CN112997249A (zh) | 2021-06-18 |
CN112997249B true CN112997249B (zh) | 2022-06-14 |
Family
ID=70854469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880098277.9A Active CN112997249B (zh) | 2018-11-30 | 2018-11-30 | 语音处理方法、装置、存储介质及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112997249B (zh) |
WO (1) | WO2020107455A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489760B (zh) * | 2020-04-01 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 语音信号去混响处理方法、装置、计算机设备和存储介质 |
CN113436613A (zh) * | 2021-06-30 | 2021-09-24 | Oppo广东移动通信有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN113724692B (zh) * | 2021-10-08 | 2023-07-14 | 广东电力信息科技有限公司 | 一种基于声纹特征的电话场景音频获取与抗干扰处理方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315772A (zh) * | 2008-07-17 | 2008-12-03 | 上海交通大学 | 基于维纳滤波的语音混响消减方法 |
CN102750956A (zh) * | 2012-06-18 | 2012-10-24 | 歌尔声学股份有限公司 | 一种单通道语音去混响的方法和装置 |
CN106340302A (zh) * | 2015-07-10 | 2017-01-18 | 深圳市潮流网络技术有限公司 | 一种语音数据的去混响方法及装置 |
WO2017160294A1 (en) * | 2016-03-17 | 2017-09-21 | Nuance Communications, Inc. | Spectral estimation of room acoustic parameters |
CN107393550A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 语音处理方法及装置 |
CN108198568A (zh) * | 2017-12-26 | 2018-06-22 | 太原理工大学 | 一种多声源定位的方法及系统 |
CN108735213A (zh) * | 2018-05-29 | 2018-11-02 | 太原理工大学 | 一种基于相位补偿的语音增强方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5172536B2 (ja) * | 2008-08-22 | 2013-03-27 | 日本電信電話株式会社 | 残響除去装置、残響除去方法、コンピュータプログラムおよび記録媒体 |
JP5815614B2 (ja) * | 2013-08-13 | 2015-11-17 | 日本電信電話株式会社 | 残響抑圧装置とその方法と、プログラムとその記録媒体 |
-
2018
- 2018-11-30 CN CN201880098277.9A patent/CN112997249B/zh active Active
- 2018-11-30 WO PCT/CN2018/118713 patent/WO2020107455A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315772A (zh) * | 2008-07-17 | 2008-12-03 | 上海交通大学 | 基于维纳滤波的语音混响消减方法 |
CN102750956A (zh) * | 2012-06-18 | 2012-10-24 | 歌尔声学股份有限公司 | 一种单通道语音去混响的方法和装置 |
CN106340302A (zh) * | 2015-07-10 | 2017-01-18 | 深圳市潮流网络技术有限公司 | 一种语音数据的去混响方法及装置 |
WO2017160294A1 (en) * | 2016-03-17 | 2017-09-21 | Nuance Communications, Inc. | Spectral estimation of room acoustic parameters |
CN107393550A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 语音处理方法及装置 |
CN108198568A (zh) * | 2017-12-26 | 2018-06-22 | 太原理工大学 | 一种多声源定位的方法及系统 |
CN108735213A (zh) * | 2018-05-29 | 2018-11-02 | 太原理工大学 | 一种基于相位补偿的语音增强方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2020107455A1 (zh) | 2020-06-04 |
CN112997249A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102410447B1 (ko) | 적응성 빔포밍 | |
US11587575B2 (en) | Hybrid noise suppression | |
US8842851B2 (en) | Audio source localization system and method | |
CN109087663B (zh) | 信号处理器 | |
CN112863535B (zh) | 一种残余回声及噪声消除方法及装置 | |
US20130129100A1 (en) | Processing audio signals | |
US20130136274A1 (en) | Processing Signals | |
KR101601197B1 (ko) | 마이크로폰 어레이의 이득 조정 장치 및 방법 | |
US10622004B1 (en) | Acoustic echo cancellation using loudspeaker position | |
US10755728B1 (en) | Multichannel noise cancellation using frequency domain spectrum masking | |
US11380312B1 (en) | Residual echo suppression for keyword detection | |
US20190267018A1 (en) | Signal processing for speech dereverberation | |
CN112997249B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
WO2017160294A1 (en) | Spectral estimation of room acoustic parameters | |
US20140341386A1 (en) | Noise reduction | |
KR20160076059A (ko) | 디스플레이장치 및 그 반향 제거방법 | |
US20200286501A1 (en) | Apparatus and a method for signal enhancement | |
CN111354368B (zh) | 补偿处理后的音频信号的方法 | |
CN114121031A (zh) | 设备语音降噪、电子设备和存储介质 | |
CN109215672B (zh) | 一种声音信息的处理方法、装置及设备 | |
Schwartz et al. | Nested generalized sidelobe canceller for joint dereverberation and noise reduction | |
CN113205824B (zh) | 声音信号处理方法、装置、存储介质、芯片及相关设备 | |
KR102517939B1 (ko) | 원거리 장 사운드 캡처링 | |
CN114302286A (zh) | 一种通话语音降噪方法、装置、设备及存储介质 | |
US20180158447A1 (en) | Acoustic environment understanding in machine-human speech communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |