CN103812462A - 响度控制方法及装置 - Google Patents
响度控制方法及装置 Download PDFInfo
- Publication number
- CN103812462A CN103812462A CN201210460201.0A CN201210460201A CN103812462A CN 103812462 A CN103812462 A CN 103812462A CN 201210460201 A CN201210460201 A CN 201210460201A CN 103812462 A CN103812462 A CN 103812462A
- Authority
- CN
- China
- Prior art keywords
- gain
- voice signal
- loudness
- adjustment
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
本发明实施例提供一种响度控制方法及装置,该响度控制方法包括:对至少一路声音信号分别进行语音检测;对于每一路声音信号,根据检测到的语音信号,确定语音信号的语音响度增益,根据检测到的静音信号,确定静音信号的最大可容忍的增益;根据语音响度增益和最大可容忍的增益生成调整增益;根据调整增益对声音信号进行增益调整。本发明实施例提供的响度控制方法及装置,实现了在噪音较多的应用场景下或者实时通信过程中对音频的响度控制,提高了响度控制的效果。
Description
技术领域
本发明实施例涉及音频处理技术,尤其涉及一种响度控制方法及装置。
背景技术
响度是电信号转换为声波振动时度量声音能量的一个指标,是人耳听觉对声音强弱的主观感受。响度控制(Loudness Control)主要根据信号的响度和人耳对不同频段感知不同,来增加或衰减信号,使得声音回放保持在一个相同的感知水平上或者相同的响度。
现有技术的响度控制主要应用于音频播放器中,音频播放器播放的音频的语音质量通常都比较好。但是,对于噪音较多的应用场景下或者实时通信过程中,通过现有技术的响度控制进行增益调整,会将噪音按照语音的调整增益进行调整,效果不佳。
发明内容
本发明实施例提供一种响度控制方法及装置,以实现在噪音较多的应用场景下或者实时通信过程中对音频的响度控制,提高响度控制的效果。
第一方面,本发明实施例提供一种响度控制方法,包括:
对至少一路声音信号分别进行语音检测;
对于每一路声音信号,根据检测到的语音信号,确定所述语音信号的语音响度增益,根据检测到的静音信号,确定所述静音信号的最大可容忍的增益;
根据所述语音响度增益和所述最大可容忍的增益生成调整增益;
根据所述调整增益对所述声音信号进行增益调整。
在第一种可能的实现方式中,所述对至少一路声音信号分别进行语音检测,包括:
对于所述每一路声音信号,计算所述声音信号的均方根;
根据所述均方根分别生成信号包络和噪音包络;
计算所述信号包络和所述噪音包络的比值,若所述比值大于第一预设阈值,则检测到所述语音信号,否则,检测到所述静音信号。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述根据检测到的静音信号,确定所述静音信号的最大可容忍的增益,具体为:
根据所述均方根计算所述静音信号的电平,根据所述静音信号的电平确定所述最大可容忍的增益。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述根据所述均方根计算所述静音信号的电平,具体为:
应用以下公式计算所述静音信号的电平Noise_Level:
Noise_Level=0.99×Noise_Level+0.01×Ecur;
其中,Ecur为所述均方根。
在第四种可能的实现方式中,所述根据检测到的语音信号,确定所述语音信号的语音响度增益,具体为:
对所述语音信号进行响度滤波处理,对响度滤波处理后的语音信号进行信号电平统计,根据统计结果确定所述语音信号的电平,根据所述语音信号的电平确定所述语音响度增益。
在第五种可能的实现方式中,所述根据所述语音响度增益和所述最大可容忍的增益生成调整增益,具体为:
若所述语音响度增益的绝对值大于第二预设阈值,则应用以下公式生成所述调整增益Gain:
Gain=LGain×(1.0-(LGain+NGain)/(LGain×2));
其中,LGain为所述语音响度增益,NGain为所述最大可容忍的增益。
在第六种可能的实现方式中,所述根据所述调整增益对所述声音信号进行增益调整,具体为:
根据所述声音信号确定调整时长,根据所述调整增益和所述调整时长确定调整步长,根据所述调整增益和所述调整步长对所述声音信号进行增益调整。
在第七种可能的实现方式中,若所述声音信号为至少两路,则所述根据所述语音响度增益和所述最大可容忍的增益生成调整增之后,所述根据所述调整增益对所述声音信号进行增益调整之前,所述方法还包括:
计算每一路的所述语音响度增益和所述调整增益的差值,确定各路中最大的差值,应用以下公式对每一路的所述调整增益Gain进行调整:
Gain=2×Gain–LDiffMax–LGain;
其中,LDiffMax为所述最大的差值,LGain为所述语音响度增益。
第二方面,本发明实施例提供一种响度控制装置,包括:
检测单元,用于对至少一路声音信号分别进行语音检测;
第一处理单元,与所述检测单元相连,用于对于每一路声音信号,根据检测到的语音信号,确定所述语音信号的语音响度增益,根据检测到的静音信号,确定所述静音信号的最大可容忍的增益;
第二处理单元,与所述第一处理单元相连,用于根据所述语音响度增益和所述最大可容忍的增益生成调整增益;
第一调整单元,与所述第二处理单元相连,用于根据所述调整增益对所述声音信号进行增益调整。
在第一种可能的实现方式中,所述检测单元包括:
第一处理子单元,用于对于所述每一路声音信号,计算所述声音信号的均方根;
第二处理子单元,与所述第一处理子单元相连,用于根据所述均方根分别生成信号包络和噪音包络;
判断子单元,与所述第二处理子单元相连,用于计算所述信号包络和所述噪音包络的比值,若所述比值大于第一预设阈值,则检测到所述语音信号,否则,检测到所述静音信号。
结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述第一处理单元具体用于根据所述均方根计算所述静音信号的电平,根据所述静音信号的电平确定所述最大可容忍的增益。
结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述第一处理单元具体用于应用以下公式计算所述静音信号的电平Noise_Level:
Noise_Level=0.99×Noise_Level+0.01×Ecur;
其中,Ecur为所述均方根。
在第四种可能的实现方式中,所述第一处理单元具体用于对所述语音信号进行响度滤波处理,对响度滤波处理后的语音信号进行信号电平统计,根据统计结果确定所述语音信号的电平,根据所述语音信号的电平确定所述语音响度增益。
在第五种可能的实现方式中,所述第二处理单元具体用于若所述语音响度增益的绝对值大于第二预设阈值,则应用以下公式生成所述调整增益Gain:
Gain=LGain×(1.0-(LGain+NGain)/(LGain×2));
其中,LGain为所述语音响度增益,NGain为所述最大可容忍的增益。
在第六种可能的实现方式中,所述第一调整单元具体用于根据所述声音信号确定调整时长,根据所述调整增益和所述调整时长确定调整步长,根据所述调整增益和所述调整步长对所述声音信号进行增益调整。
在第七种可能的实现方式中,若所述声音信号为至少两路,所述响度控制装置还包括:
第二调整单元,与所述第一调整单元相连,用于计算每一路的所述语音响度增益和所述调整增益的差值,确定各路中最大的差值,应用以下公式对每一路的所述调整增益Gain进行调整:
Gain=2×Gain-LDiffMax-LGain;
其中,LDiffMax为所述最大的差值,LGain为所述语音响度增益。
由上述技术方案可知,本发明实施例提供的响度控制方法及装置,响度控制装置对至少一路声音信号分别进行语音检测,对于每一路声音信号,根据检测到的语音信号,确定语音信号的语音响度增益,根据检测到的静音信号,确定静音信号的最大可容忍的增益,根据语音响度增益和最大可容忍的增益生成调整增益,根据调整增益对声音信号进行增益调整。通过对静音信号的检测确定最大可容忍的增益,并同时根据语音响度增益和最大可容忍的增益生成调整增益,通过该调整增益对声音信号的增益进行调整,使得调整后的声音信号更加符合人耳的感知水平,大大地提高了响度控制的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的第一种响度控制方法流程图;
图2为本发明实施例提供的第二种响度控制方法流程图;
图3为本发明实施例提供的第一种响度控制装置结构示意图;
图4为本发明实施例提供的第二种响度控制装置结构示意图;
图5为本发明实施例提供的第三种响度控制装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的第一种响度控制方法流程图。如图1所示,本实施例提供的响度控制方法具体可以应用于但不限于虚拟会议场景下对声音信号的响度的实时控制过程,本实施例提供的响度控制方法可以通过响度控制装置来执行,该响度控制装置可以集成在音频处理设备中,也可以单独设置。该音频处理设备具体可以应用于会议系统中。
本实施例提供的响度控制方法具体包括:
步骤10、对至少一路声音信号分别进行语音检测;
步骤20、对于每一路声音信号,根据检测到的语音信号,确定所述语音信号的语音响度增益,根据检测到的静音信号,确定所述静音信号的最大可容忍的增益;
步骤30、根据所述语音响度增益和所述最大可容忍的增益生成调整增益;
步骤40、根据所述调整增益对所述声音信号进行增益调整。
具体地,至少一路声音信号即为需要进行响度控制的信号,当在虚拟会议应用场景下,声音信号通常为多路。音频处理设备接收每个终端的单声道的码流,对一个单声道的码流进行解码处理后得到一路声音信号,再分别对每一路声音信号进行响度控制。
接收到的声音信号可能是语音信号也可能是静音信号,当用户说话时,该声音信号为语音信号,当用户没有说话时,该声音信号为静音信号。对声音信号进行语音检测,以判断该声音信号时语音信号还是静音信号。该语音检测过程具体可以采用语音活动性检测(Voice Active Detection,简称VAD)方法来实现,
当检测到语音信号时,确定语音信号的语音响度增益,当检测到静音信号时,静音信号中所携带的信息通常为噪音,确定静音信号的最大可容忍的增益,语音响度增益和最大可容忍的增益的计算具体可以根据回放增益(Replay Gain)标准来实现。根据语音响度增益和最大可容忍的增益生成调整增益,通过调整增益对该路声音信号的增益进行调整,以实现响度控制。
本实施例提供的响度控制方法,响度控制装置对至少一路声音信号分别进行语音检测,对于每一路声音信号,根据检测到的语音信号,确定语音信号的语音响度增益,根据检测到的静音信号,确定静音信号的最大可容忍的增益,根据语音响度增益和最大可容忍的增益生成调整增益,根据调整增益对声音信号进行增益调整。通过对静音信号的检测确定最大可容忍的增益,并同时根据语音响度增益和最大可容忍的增益生成调整增益,通过该调整增益对声音信号的增益进行调整,使得调整后的声音信号更加符合人耳的感知水平,大大地提高了响度控制的效果。
图2为本发明实施例提供的第二种响度控制方法流程图。如图2所示,在本实施例中,步骤10,所述对至少一路声音信号分别进行语音检测,具体可以包括如下步骤:
步骤101、对于所述每一路声音信号,计算所述声音信号的均方根;
步骤102、根据所述均方根分别生成信号包络和噪音包络;
步骤103、计算所述信号包络和所述噪音包络的比值,若所述比值大于第一预设阈值,则检测到所述语音信号,否则,检测到所述静音信号。
具体地,声音信号为数字信号,通过计算声音信号的均方根可以确定声音信号的能量。声音信号包括多个音频帧序列,每个音频帧包括多个采样点,对声音信号的检测过程即为对音频帧的检测过程。例如,音频帧为s(n),n=0,1,...,N-1,N为采样点的个数,当s(n)的帧长为20ms时,可以通过以下公式计算s(n)的均方根Ecur。
根据均方根Ecur生成信号包络Senv的过程具体可以为:
若Ecur大于thread1,则Senv=0.9×Senv+0.1×Ecur;
若Ecur不大于thread1,则Senv=0.998×Senv+0.002×Ecur;
根据均方根Ecur生成噪音包络Sno的过程具体可以为:
若Ecur大于thread2,则Sno=0.998×Sno+0.002×Ecur;
若Ecur不大于thread2,则Sno=0.9×Sno+0.1×Ecur;
thread1和thread2的初始值可以根据经验值来设置,且thread1>=thread2,在处理的过程中,再根据Senv和Sno对thread1和thread2进行调整。如,thread2=(Senv+Sno)×0.5,thread1可以设置为与thread2相等,或略大于thread2。
计算信号包络和噪音包络的比值Senv/Sno,判断Senv/Sno是否大于thread3,若是,则该声音信号为语音信号,否则,该声音信号为噪音信号。
值得注意的是,上述公式中的参数均可以根据实际处理情况来设置和调整。
在本实施例中,步骤20中,所述根据检测到的静音信号,确定所述静音信号的最大可容忍的增益,具体可以为:
根据所述均方根计算所述静音信号的电平,根据所述静音信号的电平确定所述最大可容忍的增益。
具体地,可以首先确定人耳可以容忍的最大噪音电平,例如为30dB,则根据该最大噪音电平与静音信号的电平的差值确定该最大可容忍的增益,即在人耳可以容忍的范围内对静音信号进行调整。
在本实施例中,所述根据所述均方根计算所述静音信号的电平,具体可以为:
应用以下公式计算所述静音信号的电平Noise_Level:
Noise_Level=0.99×Noise_Level+0.01×Ecur;
其中,Ecur为所述均方根。
假设人耳可以容忍的最大噪音电平为NoiseThread,则最大可容忍的增益NGain=NoiseThread-Noise_Level。
在本实施例中,步骤20中,所述根据检测到的语音信号,确定所述语音信号的语音响度增益,具体可以为:
对所述语音信号进行响度滤波处理,对响度滤波处理后的语音信号进行信号电平统计,根据统计结果确定所述语音信号的电平,根据所述语音信号的电平确定所述语音响度增益。
具体地,可以采用响度滤波器对语音信号进行响度滤波处理,该响度滤波器可以10阶的高通IIR yulewalk滤波器和2阶频率150HZ的巴特沃斯高通滤波器级联来逼近该响度滤波器。高通IIR yulewalk滤波器和巴特沃斯高通滤波器的参数都可以根据实际的处理需要来设置,不以本实施例为限。
对响度滤波处理后的语音信号进行信号电平统计具体可以为:计算语音信号中每个音频帧的均方根Level,音频帧为s(n),n=0,1,...,N-1,N为采样点的个数,当s(n)的帧长为20ms,采样率为16Hz时,均方根Level具体可以通过以下公式来实现:
对多个音频帧的均方根进行电平统计,若大部分音频帧的电平分布则某个电平周围,则可以根据该电平确定语音信号的电平Level1。可以通过以下公式计算语音响度增益LGain:
LGain=Lref–Level1;其中,Lref具体可以为一经验值,例如为-14dB。
在本实施例中,步骤30,所述根据所述语音响度增益和所述最大可容忍的增益生成调整增益,具体可以为:
若所述语音响度增益的绝对值大于第二预设阈值,则应用以下公式生成所述调整增益Gain:
Gain=LGain×(1.0-(LGain+NGain)/(LGain×2));
其中,LGain为所述语音响度增益,NGain为所述最大可容忍的增益。
具体地,首先将语音响度增益的绝对值与第二预设阈值进行比较,该第二预设阈值具体可以为一经验值,例如为3dB。。当语音响度增益的绝对值大于第二预设阈值时,通过上述公式生成调整增益,上述公式中的参数也可以根据实际需要来设置,本实施例只是提供了一种优选的实施方式,本发明并不以此为限。
在本实施例中,步骤40,所述根据所述调整增益对所述声音信号进行增益调整,具体为:
根据所述声音信号确定调整时长,根据所述调整增益和所述调整时长确定调整步长,根据所述调整增益和所述调整步长对所述声音信号进行增益调整。
对声音信号进行进行增益调整可以采用自动增益控制(Automatic GainControl,简称AGC)方法,具体过程为:
根据声音信号的信号特征计算调整步长,首先可以根据声音信号的信号类型计算调整时长decay,如:decay=Ratio×MaxFrameNum×FrameLen+FrameLen,其中,Ratio为声音信号为说话状态时的相似度,MaxFrameNum为最大帧长数,FrameLen为每帧的长度,。
计算每个采样点的调整步长delt:delt=(curGain-m_oldGain)/decay,curGain为当前采样点的增益,m_oldGain为上个采样点的增益,对于第一个采样点的增益可以设置为1。
对声音信号的每个音频帧进行增益调整,S’(n)=S(n)×(m_oldGain+delt)并更新oldGain。该调整过程具体可以为:
上个采样点的增益是m_oldGain,curGain是经过若干帧后的当前采样点的增益,decay为若干帧的时长。
第一步,应用公式delt=(curGain-m_oldGain)/decay,计算出一个逐点更新的delt。
第二步,对每个采样点更新:
m_curGain=m_oldGain+delt;
S’(n)=S(n)×m_curGain;
m_oldGain=m_curGain;
这里增加了一个当前样点的增益,以上迭代直到这一帧信号处理完为止。等下帧信号来后,会根据新信号的特征循环以上的处理过程。
在本实施例中,若所述声音信号为至少两路,则步骤30,所述根据所述语音响度增益和所述最大可容忍的增益生成调整增之后,步骤40,所述根据所述调整增益对所述声音信号进行增益调整之前,所述方法还可以包括:
步骤50、计算每一路的所述语音响度增益和所述调整增益的差值,确定各路中最大的差值,应用以下公式对每一路的所述调整增益Gain进行调整:
Gain=2×Gain–LDiffMax–LGain;
其中,LDiffMax为所述最大的差值,LGain为所述语音响度增益。
具体地,在虚拟会议应用场景下,通常存在多路声音信号,例如为M路,第m路声音信号的调整增益为Gain(m),[m=1..M]。在计算每一路的语音响度增益的过程中,参考Lref是相同的,也就是如果每一路都用LGain(m)进行调整,那么调整后的能量是Lref,当每路的噪音水平不同的时候,最后计算得到Gain(m),每一路声音信号经过Gain(m)调整后的能量是不同的,通过以下方式自动调整对齐每路声音信号的调整能量,使得输出的电平相同。
首先计算每路的声音信号到Lref的差:LDiff(m)=LGain(m)-Gain(m),从中选取最大LDiffMax,即LDiffMax=Max(LDiff(m)),再通过公式Gain=2×Gain–LDiffMax–LGain对每一路的所述调整增益Gain进行调整。
在实际应用过程,经过增益调整后的各路声音信号还可以根据预先设定的场景给每路声音信号加入方位信息,合成3d音频。
图3为本发明实施例提供的第一种响度控制装置结构示意图。如图3所示,本实施例提供的响度控制装置具体可以实现本发明任意实施例提供的响度控制方法的各个步骤,具体实现过程在此不再赘述。本实施例提供的响度控制装置可以集成在音频处理设备中,也可以单独设置。该音频处理设备具体可以应用于会议系统中。
本实施例提供的响度控制装置具体包括检测单元11、第一处理单元12、第二处理单元13和第一调整单元14。所述检测单元11用于对至少一路声音信号分别进行语音检测。所述第一处理单元12与所述检测单元11相连,用于对于每一路声音信号,根据检测到的语音信号,确定所述语音信号的语音响度增益,根据检测到的静音信号,确定所述静音信号的最大可容忍的增益。所述第二处理单元13与所述第一处理单元12相连,用于根据所述语音响度增益和所述最大可容忍的增益生成调整增益。所述第一调整单元14与所述第二处理单元13相连,用于根据所述调整增益对所述声音信号进行增益调整。
本实施例提供的响度控制装置,检测单元11对至少一路声音信号分别进行语音检测,第一处理单元12对于每一路声音信号,根据检测到的语音信号,确定语音信号的语音响度增益,根据检测到的静音信号,确定静音信号的最大可容忍的增益,第二处理单元13根据语音响度增益和最大可容忍的增益生成调整增益,第一调整单元14根据调整增益对声音信号进行增益调整。通过对静音信号的检测确定最大可容忍的增益,并同时根据语音响度增益和最大可容忍的增益生成调整增益,通过该调整增益对声音信号的增益进行调整,使得调整后的声音信号更加符合人耳的感知水平,大大地提高了响度控制的效果。
图4为本发明实施例提供的第二种响度控制装置结构示意图。如图4所示,在本实施例中,所述检测单元11具体可以包括第一处理子单元21、第二处理子单元22和判断子单元23。所述第一处理子单元21用于对于所述每一路声音信号,计算所述声音信号的均方根。所述第二处理子单元22与所述第一处理子单元21,用于根据所述均方根分别生成信号包络和噪音包络。所述判断子单元23与所述第二处理子单元22相连,用于计算所述信号包络和所述噪音包络的比值,若所述比值大于第一预设阈值,则检测到所述语音信号,否则,检测到所述静音信号。
具体地,声音信号为数字信号,通过计算声音信号的均方根可以确定声音信号的能量。声音信号包括多个音频帧序列,每个音频帧包括多个采样点,对声音信号的检测过程即为对音频帧的检测过程。例如,音频帧为s(n),n=0,1,...,N-1,N为采样点的个数,当s(n)的帧长为20ms时,可以通过以下公式计算s(n)的均方根Ecur。
根据均方根Ecur生成信号包络Senv的过程具体可以为:
若Ecur大于thread1,则Senv=0.9×Senv+0.1×Ecur;
若Ecur不大于thread1,则Senv=0.998×Senv+0.002×Ecur;
根据均方根Ecur生成噪音包络Sno的过程具体可以为:
若Ecur大于thread2,则Sno=0.998×Sno+0.002×Ecur;
若Ecur不大于thread2,则Sno=0.9×Sno+0.1×Ecur;
thread1和thread2的初始值可以根据经验值来设置,且thread1>=thread2,在处理的过程中,再根据Senv和Sno对thread1和thread2进行调整。如,thread2=(Senv+Sno)×0.5,thread1可以设置为与thread2相等,或略大于thread2。
计算信号包络和噪音包络的比值Senv/Sno,判断Senv/Sno是否大于thread3,若是,则该声音信号为语音信号,否则,该声音信号为噪音信号。
值得注意的是,上述公式中的参数均可以根据实际处理情况来设置和调整。
在本实施例中,所述第一处理单元12具体可以用于根据所述均方根计算所述静音信号的电平,根据所述静音信号的电平确定所述最大可容忍的增益。
在本实施例中,所述第一处理单元12具体可以具体用于应用以下公式计算所述静音信号的电平Noise_Level:
Noise_Level=0.99×Noise_Level+0.01×Ecur;
其中,Ecur为所述均方根。
在本实施例中,所述第一处理单元12具体可以用于对所述语音信号进行响度滤波处理,对响度滤波处理后的语音信号进行信号电平统计,根据统计结果确定所述语音信号的电平,根据所述语音信号的电平确定所述语音响度增益。
具体地,第一处理单元12中可以设置响度滤波器,通过响度滤波器对语音信号进行响度滤波处理,该响度滤波器可以10阶的高通IIR yulewalk滤波器和2阶频率150HZ的巴特沃斯高通滤波器级联来逼近该响度滤波器。高通IIR yulewalk滤波器和巴特沃斯高通滤波器的参数都可以根据实际的处理需要来设置,不以本实施例为限。
在本实施例中,所述第二处理单元13具体用于若所述语音响度增益的绝对值大于第二预设阈值,则应用以下公式生成所述调整增益Gain:
Gain=LGain×(1.0-(LGain+NGain)/(LGain×2));
其中,LGain为所述语音响度增益,NGain为所述最大可容忍的增益。
在本实施例中,所述第一调整单元14具体用于根据所述声音信号确定调整时长,根据所述调整增益和所述调整时长确定调整步长,根据所述调整增益和所述调整步长对所述声音信号进行增益调整。
在本实施例中,进一步地,若所述声音信号为至少两路,所述响度控制装置还可以包括第二调整单元15,所述第二调整单元15与所述第一调整单元14相连,用于计算每一路的所述语音响度增益和所述调整增益的差值,确定各路中最大的差值,应用以下公式对每一路的所述调整增益Gain进行调整:
Gain=2×Gain-LDiffMax-LGain;
其中,LDiffMax为所述最大的差值,LGain为所述语音响度增益。
在虚拟会议应用场景下,通常存在多路声音信号,例如为M路,第m路声音信号的调整增益为Gain(m),[m=1..M]。在计算每一路的语音响度增益的过程中,参考Lref是相同的,也就是如果每一路都用LGain(m)进行调整,那么调整后的能量是Lref,当每路的噪音水平不同的时候,最后计算得到Gain(m),每一路声音信号经过Gain(m)调整后的能量是不同的,通过以下方式自动调整对齐每路声音信号的调整能量,使得输出的电平相同。
首先计算每路的声音信号到Lref的差:LDiff(m)=LGain(m)-Gain(m),从中选取最大LDiffMax,即LDiffMax=Max(LDiff(m)),再通过公式Gain=2×Gain–LDiffMax–LGain对每一路的所述调整增益Gain进行调整。
在实际应用过程,经过增益调整后的各路声音信号还可以根据预先设定的场景给每路声音信号加入方位信息,合成3d音频。
图5为本发明实施例提供的第三种响度控制装置结构示意图。如图5所示,本实施例提供的响度控制装置具体可以实现本发明任意实施例提供的响度控制方法的各个步骤,具体实现过程在此不再赘述。本实施例提供的响度控制装置具体包括处理器31和存储器32,所述存储器32用于存储指令。所述处理器31与所述存储器32耦合,所述处理器31配置为执行存储在所述存储器32中的指令,其中,所述处理器31被配置为用于对至少一路声音信号分别进行语音检测,对于每一路声音信号,根据检测到的语音信号,确定所述语音信号的语音响度增益,根据检测到的静音信号,确定所述静音信号的最大可容忍的增益,根据所述语音响度增益和所述最大可容忍的增益生成调整增益,根据所述调整增益对所述声音信号进行增益调整。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (16)
1.一种响度控制方法,其特征在于,包括:
对至少一路声音信号分别进行语音检测;
对于每一路声音信号,根据检测到的语音信号,确定所述语音信号的语音响度增益,根据检测到的静音信号,确定所述静音信号的最大可容忍的增益;
根据所述语音响度增益和所述最大可容忍的增益生成调整增益;
根据所述调整增益对所述声音信号进行增益调整。
2.根据权利要求1所述的响度控制方法,其特征在于,所述对至少一路声音信号分别进行语音检测,包括:
对于所述每一路声音信号,计算所述声音信号的均方根;
根据所述均方根分别生成信号包络和噪音包络;
计算所述信号包络和所述噪音包络的比值,若所述比值大于第一预设阈值,则检测到所述语音信号,否则,检测到所述静音信号。
3.根据权利要求2所述的响度控制方法,其特征在于,所述根据检测到的静音信号,确定所述静音信号的最大可容忍的增益,具体为:
根据所述均方根计算所述静音信号的电平,根据所述静音信号的电平确定所述最大可容忍的增益。
4.根据权利要求3所述的响度控制方法,其特征在于,所述根据所述均方根计算所述静音信号的电平,具体为:
应用以下公式计算所述静音信号的电平Noise_Level:
Noise_Level=0.99×Noise_Level+0.01×Ecur;
其中,Ecur为所述均方根。
5.根据权利要求1所述的响度控制方法,其特征在于,所述根据检测到的语音信号,确定所述语音信号的语音响度增益,具体为:
对所述语音信号进行响度滤波处理,对响度滤波处理后的语音信号进行信号电平统计,根据统计结果确定所述语音信号的电平,根据所述语音信号的电平确定所述语音响度增益。
6.根据权利要求1所述的响度控制方法,其特征在于,所述根据所述语音响度增益和所述最大可容忍的增益生成调整增益,具体为:
若所述语音响度增益的绝对值大于第二预设阈值,则应用以下公式生成所述调整增益Gain:
Gain=LGain×(1.0-(LGain+NGain)/(LGain×2));
其中,LGain为所述语音响度增益,NGain为所述最大可容忍的增益。
7.根据权利要求1所述的响度控制方法,其特征在于,所述根据所述调整增益对所述声音信号进行增益调整,具体为:
根据所述声音信号确定调整时长,根据所述调整增益和所述调整时长确定调整步长,根据所述调整增益和所述调整步长对所述声音信号进行增益调整。
8.根据权利要求1所述的响度控制方法,其特征在于,若所述声音信号为至少两路,则所述根据所述语音响度增益和所述最大可容忍的增益生成调整增之后,所述根据所述调整增益对所述声音信号进行增益调整之前,所述方法还包括:
计算每一路的所述语音响度增益和所述调整增益的差值,确定各路中最大的差值,应用以下公式对每一路的所述调整增益Gain进行调整:
Gain=2×Gain–LDiffMax–LGain;
其中,LDiffMax为所述最大的差值,LGain为所述语音响度增益。
9.一种响度控制装置,其特征在于,包括:
检测单元,用于对至少一路声音信号分别进行语音检测;
第一处理单元,与所述检测单元相连,用于对于每一路声音信号,根据检测到的语音信号,确定所述语音信号的语音响度增益,根据检测到的静音信号,确定所述静音信号的最大可容忍的增益;
第二处理单元,与所述第一处理单元相连,用于根据所述语音响度增益和所述最大可容忍的增益生成调整增益;
第一调整单元,与所述第二处理单元相连,用于根据所述调整增益对所述声音信号进行增益调整。
10.根据权利要求9所述的响度控制装置,其特征在于,所述检测单元包括:
第一处理子单元,用于对于所述每一路声音信号,计算所述声音信号的均方根;
第二处理子单元,与所述第一处理子单元相连,用于根据所述均方根分别生成信号包络和噪音包络;
判断子单元,与所述第二处理子单元相连,用于计算所述信号包络和所述噪音包络的比值,若所述比值大于第一预设阈值,则检测到所述语音信号,否则,检测到所述静音信号。
11.根据权利要求10所述的响度控制装置,其特征在于:所述第一处理单元具体用于根据所述均方根计算所述静音信号的电平,根据所述静音信号的电平确定所述最大可容忍的增益。
12.根据权利要求11所述的响度控制装置,其特征在于:所述第一处理单元具体用于应用以下公式计算所述静音信号的电平Noise_Level:
Noise_Level=0.99×Noise_Level+0.01×Ecur;
其中,Ecur为所述均方根。
13.根据权利要求9所述的响度控制装置,其特征在于:所述第一处理单元具体用于对所述语音信号进行响度滤波处理,对响度滤波处理后的语音信号进行信号电平统计,根据统计结果确定所述语音信号的电平,根据所述语音信号的电平确定所述语音响度增益。
14.根据权利要求9所述的响度控制装置,其特征在于:所述第二处理单元具体用于若所述语音响度增益的绝对值大于第二预设阈值,则应用以下公式生成所述调整增益Gain:
Gain=LGain×(1.0-(LGain+NGain)/(LGain×2));
其中,LGain为所述语音响度增益,NGain为所述最大可容忍的增益。
15.根据权利要求9所述的响度控制装置,其特征在于:所述第一调整单元具体用于根据所述声音信号确定调整时长,根据所述调整增益和所述调整时长确定调整步长,根据所述调整增益和所述调整步长对所述声音信号进行增益调整。
16.根据权利要求9所述的响度控制装置,其特征在于,若所述声音信号为至少两路,所述响度控制装置还包括:
第二调整单元,与所述第一调整单元相连,用于计算每一路的所述语音响度增益和所述调整增益的差值,确定各路中最大的差值,应用以下公式对每一路的所述调整增益Gain进行调整:
Gain=2×Gain-LDiffMax-LGain;
其中,LDiffMax为所述最大的差值,LGain为所述语音响度增益。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210460201.0A CN103812462B (zh) | 2012-11-15 | 2012-11-15 | 响度控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210460201.0A CN103812462B (zh) | 2012-11-15 | 2012-11-15 | 响度控制方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103812462A true CN103812462A (zh) | 2014-05-21 |
CN103812462B CN103812462B (zh) | 2016-12-07 |
Family
ID=50708755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210460201.0A Active CN103812462B (zh) | 2012-11-15 | 2012-11-15 | 响度控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103812462B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105450193A (zh) * | 2014-08-28 | 2016-03-30 | 深圳Tcl新技术有限公司 | 音量调节的方法及装置 |
CN106992003A (zh) * | 2017-03-24 | 2017-07-28 | 深圳北斗卫星信息科技有限公司 | 语音信号自动增益控制方法 |
CN107994879A (zh) * | 2017-12-04 | 2018-05-04 | 北京小米移动软件有限公司 | 响度控制方法及装置 |
CN108806710A (zh) * | 2018-06-15 | 2018-11-13 | 会听声学科技(北京)有限公司 | 一种语音增强增益调整方法、系统及耳机 |
CN108882115A (zh) * | 2017-05-12 | 2018-11-23 | 华为技术有限公司 | 响度调节方法、装置及终端 |
CN116168719A (zh) * | 2022-12-26 | 2023-05-26 | 杭州爱听科技有限公司 | 一种基于语境分析的声音增益调节方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060126856A1 (en) * | 2004-12-10 | 2006-06-15 | Quanta Computer Inc. | Volume control method and audio device |
US20090103751A1 (en) * | 2007-10-22 | 2009-04-23 | Stephen Gordon Lenk | Sound volume leveler for speed sensitive volume |
CN101783656A (zh) * | 2010-03-17 | 2010-07-21 | 北京爱德发科技有限公司 | 一种音响响度控制方法、模块和装置 |
CN102436821A (zh) * | 2011-12-02 | 2012-05-02 | 海能达通信股份有限公司 | 一种自适应调节音效的方法和设备 |
-
2012
- 2012-11-15 CN CN201210460201.0A patent/CN103812462B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060126856A1 (en) * | 2004-12-10 | 2006-06-15 | Quanta Computer Inc. | Volume control method and audio device |
US20090103751A1 (en) * | 2007-10-22 | 2009-04-23 | Stephen Gordon Lenk | Sound volume leveler for speed sensitive volume |
CN101783656A (zh) * | 2010-03-17 | 2010-07-21 | 北京爱德发科技有限公司 | 一种音响响度控制方法、模块和装置 |
CN102436821A (zh) * | 2011-12-02 | 2012-05-02 | 海能达通信股份有限公司 | 一种自适应调节音效的方法和设备 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105450193A (zh) * | 2014-08-28 | 2016-03-30 | 深圳Tcl新技术有限公司 | 音量调节的方法及装置 |
CN106992003A (zh) * | 2017-03-24 | 2017-07-28 | 深圳北斗卫星信息科技有限公司 | 语音信号自动增益控制方法 |
CN108882115A (zh) * | 2017-05-12 | 2018-11-23 | 华为技术有限公司 | 响度调节方法、装置及终端 |
CN108882115B (zh) * | 2017-05-12 | 2020-08-25 | 华为技术有限公司 | 响度调节方法、装置及终端 |
CN107994879A (zh) * | 2017-12-04 | 2018-05-04 | 北京小米移动软件有限公司 | 响度控制方法及装置 |
CN107994879B (zh) * | 2017-12-04 | 2022-07-08 | 北京小米移动软件有限公司 | 响度控制方法及装置 |
CN108806710A (zh) * | 2018-06-15 | 2018-11-13 | 会听声学科技(北京)有限公司 | 一种语音增强增益调整方法、系统及耳机 |
CN116168719A (zh) * | 2022-12-26 | 2023-05-26 | 杭州爱听科技有限公司 | 一种基于语境分析的声音增益调节方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103812462B (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102017402B (zh) | 用于调节音频信号的感知响度的系统 | |
US9219973B2 (en) | Method and system for scaling ducking of speech-relevant channels in multi-channel audio | |
EP2592546B1 (en) | Automatic Gain Control in a multi-talker audio system | |
US9431982B1 (en) | Loudness learning and balancing system | |
RU2467406C2 (ru) | Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания | |
CN104410379B (zh) | 一种音量调节方法 | |
CN103812462A (zh) | 响度控制方法及装置 | |
KR20140116152A (ko) | 베이스 강화 시스템 | |
CN114650494B (zh) | Dsp音响系统及音响系统声学自动测试方法 | |
CN108711435A (zh) | 一种面向响度的高效音频控制方法 | |
CN103473005A (zh) | 对播放的音频进行音效控制的方法及装置 | |
CN110956976B (zh) | 一种回声消除方法、装置、设备及可读存储介质 | |
US9391575B1 (en) | Adaptive loudness control | |
KR20230017719A (ko) | 음향 시스템을 위한 적응성 등화 방법 및 시스템 | |
US9614486B1 (en) | Adaptive gain control | |
CN105261363A (zh) | 一种语音识别的方法、装置及终端 | |
CN111179947B (zh) | 一种音频信号处理的方法及装置 | |
CN110390954B (zh) | 语音产品质量的评价方法和装置 | |
CN109889170B (zh) | 音频信号的控制方法和装置 | |
CN114902560A (zh) | 具有环境噪音补偿的用于自动音量控制的设备和方法 | |
US20230360662A1 (en) | Method and device for processing a binaural recording | |
CN111726730A (zh) | 声音播放装置及其调整输出声音的方法 | |
CN115410593A (zh) | 音频信道的选择方法、装置、设备及存储介质 | |
CN110808064B (zh) | 一种音频处理方法及装置 | |
JP2005184154A (ja) | 自動利得制御装置及び自動利得制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |