CN1879150A

CN1879150A - 用于音频信号处理的系统和方法

Info

Publication number: CN1879150A
Application number: CNA2004800333019A
Authority: CN
Inventors: C·M·马库尔斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: III Holdings 6 LLC
Priority date: 2003-11-14
Filing date: 2004-11-09
Publication date: 2006-12-13
Anticipated expiration: 2024-11-09
Also published as: EP1687812B1; ATE368922T1; US20050108008A1; DE602004007953T2; DE602004007953D1; EP1687812A1; WO2005048242A1; KR20060122854A; CN1879150B; US7539614B2; JP2007511793A

Abstract

在一种声音重放或记录系统中，音频信号乘以增益系数(z)，所述增益系数(z)依赖于输入电平(y)。选择增益系数对输入电平的依赖性，以使无声音素比有声音素被多增强至少6dB，优选至少12dB，其中平均增益优选小于6dB。这提高了可懂度。

Description

用于音频信号处理的系统和方法

本发明涉及声音重放的领域，并且更具体地涉及数字音频信号处理的领域。

本发明涉及一种包括音频信号输入端、音频信号处理器和音频信号输出端的声音重放或记录系统。

本发明也涉及一种用于处理输入音频信号为音频输出信号的音频信号处理器。具体而言，本发明涉及一种数字信号处理器(DSP)电路或程序。

本发明也涉及一种用于处理音频信号的方法。

举例来说，诸如扬声器电话系统之类的声音重放系统包括通常称为扬声器的输出换能器以及音频信号的输入端。扬声器响应于音频输入信号而产生声压波，所述音频输入信号表示期望的声压波。

正如由收听者所感觉到的声音的可懂度是非常重要的，尤其是在噪声环境中。增大可懂度的最简单的方式是增大平均SPL(声压级)，即调高音量。然而，仅仅调高音量未必总是导致更可懂的声音。此外，输出太高会导致扬声器的过载，从而引起可懂度的进一步减小。信号上的噪声例如可以是环境噪声或者信号噪声，即被添加至在源和接收器之间的路径上的信号的噪声。

已经进行了用于增大声音的可懂度的多种努力。

美国专利申请US 2002/0015503提出例如通过为不同的频带分别限定增益系数来增大可懂度。

然而，现有的系统和方法或者是非常复杂的，需要复杂的计算，并且从而需要复杂的电路(硬件)或在使用程序(软件)的情况下需要复杂的程序，或者仅提供有限的优点。

尽管有上面提到的参考，但是在现有技术中仍旧存在对于提供提高的可懂度的改进的系统和方法的需要。

本发明的目的是提供一种具有提高的可懂度的相对较简单的声音重放或记录的系统和方法。

为此，在本发明的第一方面中，依据本发明的声音重放或记录系统的特征在于，数字音频信号处理器包括归因器(attributor)，用于利用函数关系将作为输入电平的函数的增益系数归因于输入信号，以使增益系数和输入电平之间的函数关系包括第一和第二范围，该第一范围覆盖其中主要是有声音素存在的幅度，该第二范围位于比第一范围的输入电平低的输入电平处，并覆盖其中主要是无声音素存在的输入电平，其中函数关系使得第一范围的平均增益系数处于第二范围的平均增益系数以下至少6dB，优选至少12dB。

依据本发明的第一方面的系统是基于下面的理解：

有可能使用简单系统来提高语音的可懂度。语音的最小单位被称为音素。一个或多个音素组合形成音节，以及一个或多个音节形成单词。音素可被分成两组：元音和辅音。元音通常是有声的。对于清辅音，皱襞(fold)可以是完全开放的(比如当产生“s”、“sh”和“f”音时)或部分开放的(对于“h”音)。通过声带的振动产生浊音。

依据本发明的系统是基于下面的认识：语音可被认为由有声音素(比如元音a、e、i、o、oa等)和无声音素(比如一些辅音s、z、ch、dg、th等)组成。更多的细节将在下面给出。无声音素通常覆盖比通常用于有声音素的输入电平范围(第一范围)低的输入电平范围(第二范围)，有声音素通常位于信号的上部范围中，即接近信号的最大值。当仅考虑产生的语音的响度(幅度)时，有声音素比无声音素突出得多。然而，根据可懂度，无声音素虽然不比有声音素更重要但是也同样重要。

因此，这两种类型的音素可以通过它们的输入电平范围而彼此区别。在依据本发明的第一方面的系统中，用于无声音素(第二范围)的增益系数大于(平均至少6dB，优选12dB或更大)用于有声音素的增益系数。因此加强无声音素超过有声音素。大多数已知的系统基于这样的前提，即通过增大增益(调高音量)，语音变得更易懂。然而，情况并不总是这样的。本发明人已经认识到，总强度的这种增大(响度增大)实际上会“淹没”无声音素。与仅仅在整个输入电平范围内增大增益系数相比，加强无声音素超过有声音素，这以简单的方式提供了在可懂度方面的提高。

在本发明的第二方面中，依据本发明的声音重放或记录系统的特征在于，数字音频信号处理器包括归因器，用于将作为输入电平的函数的增益系数归因于输入信号，其中增益系数和输入电平之间的函数关系使得存在第一和第二范围，该第一范围从最大值输入电平向下延伸至少10dB，该第二范围在低于第一范围的输入电平处延伸，所述第二范围覆盖10db或更多的范围，其中第一范围中的增益系数比第二范围中的增益系数平均至少低6dB，优选为12dB。

概括本发明的第一方面的基本理解，依据本发明的第二方面的本发明是基于下面的认识：在语音中，“软(soft)声音”对于语音可懂度而言与“硬(hard)声音”同等或同样重要，然而这种声音是被呼叫(call)的。语音的可懂度在本发明中通过简单的方法来增大，通过优先(至少6dB，优选至少12dB)增大“软声音”超过较硬的声音，或者换句话说优先增大第二、较低幅度范围的信号超过第一、较高或最高幅度范围的信号。该基本的概括的理解是适用的，而不管所使用的特定语言在理论上可以是或是可分为“有声”和“无声”音素，如果理论上在这些种类之间画出分界线的话，或者是否存在可以起作用的其它类型的区别特征，比如乐调重音、音调转换、加强等。

在依据本发明的第二方面的系统中，基于输入电平来产生增益系数，其中存在低于最大输入电平(覆盖最硬的声音)的第一范围，其从最大电平向下延伸至少10dB，以及低于第一范围的第二范围(覆盖“较软声音”)，其中增益系数是明显较高的(平均至少6dB，优选至少12dB)。作为输入电平的函数的增益曲线因此显示出两个范围，并且效果是由第二范围(较软声音)所覆盖的声音信号相对于第一范围中的声音信号被突出，因此“较软声音”相对于“硬声音”被加强。通过使用简单的系统和方法，这是可能的，并且还发现显著增大了可懂度。

优选地，第一范围从最大值延伸至少15dB，但不超过30dB。第一范围的宽度太大将使增大软声音变得困难。

本文在下面给出本发明的优选实施例。除非另作说明，否则这些优选实施例对于上面给出的本发明的两个方面都是适用的。

优选地，设置用于将作为输入幅度的函数的增益系数归因于输入信号的归因器，以使在第一和第二范围上的平均增益系数小于12dB，优选小于6dB，甚至更优选小于3dB。平均增益系数是用于响度总增大的量度。于是语音的响度的增大不是或者几乎不是可以感觉到的。如果平均增益系数大大增加，那么相对于有声音素突出无声音素的积极效果至少被部分抵消。注意，该条件意味着第一范围中的平均增大被限制为低于指示值。

在优选实施例中，该系统包括动态电平检测器，该动态电平检测器具有瞬时信号幅度的输入端和用于在预定时间周期上提供平均电平的输出端。

因此该动态电平检测器提供一个电平，即信号幅度的某种时间平均。与对于输入电平使用瞬时幅度(即直接使用幅度来得到增益)相比，使用动态电平检测器的优点在于，增益系数的特性更平滑，并且泵作用(pumping)效应的变化更少。总的来说，可懂度增大。时间周期可以是固定或可调的。

优选地，预定时间周期优选是1至5毫秒。

优选地，设置用于归因增益系数的归因器，以使第一范围中的增益系数平均低于10dB，优选低于6dB。第一、高输入电平范围中的增益因此相对较低，即“硬”信号的小的增大，相应地出现有声音素。如上面所解释的，第二范围中的信号相对于第一范围中的信号优先增大至少6dB，优选为更多。优选的是保持第一范围的增益系数为低，因为该第一范围中的信号的强度增大太多(高增益系数)不会使语音的可懂度增大很多，其中该信号已经是声音大的，但是可以引起第二范围中尽管是相对增大的但仍然相对较弱的信号，从而变得与硬声音难于区分。

优选地，该系统包括用于确定接收信号的最大输入电平的确定器和用于使最大输入电平与第一范围的上边缘相等的装置。在实施例中，最大输入电平(＝第一范围的外边缘)可以仅仅是最大数字信号，即理论上和实际上声音最大的信号。然而，优选地，该装置包括用于确定(语音)信号的实际最大输入电平的确定器，该实际最大输入电平通常位于可能的最大值之下。第一范围然后从所测量的语音信号的最大输入电平开始。应该注意，在这种实施例中，不仅仅是第一范围的起点取决于测量，而且这在第二范围和可能更多的范围中得以完成。最大输入电平是一个在预定时间周期上测量的量，该预定时间周期与测量电平的时间周期相比相对较长，但与字的长度相比相对较短。

在本发明的优选实施例中，设置用于将作为输入幅度的函数的增益系数归因于输入信号的归因器，以使增益系数和输入电平之间的函数关系使得在第一和第二范围之间存在第三、中间范围，在该第三范围中增益系数逐渐改变。在本发明的实施例中，从第一范围到第二范围的过渡可以是阶跃函数，但是优选地，通过中间的第三范围来隔开第一和第二范围，在该第三范围中，增益系数逐渐改变。这种过渡范围减小了泵作用赝象(artefact)的危险。优选地，该第三范围在输入电平中延伸至少超过5dB。优选地，该第三范围集中于低于最大值(＝第一范围I的外边缘)的15dB和35dB之间。集中意味着用于增益系数的点是在第三范围的任何一侧处的增益系数的值之间的部分。这为第一范围留下了充足的空间。

优选地，该系统包括用于测量背景噪声的传感器、以及用于基于测量的背景噪声来调节第二范围中的增益系数的调节器。背景噪声是由来自环境的干扰声音信号引起的噪声。

当存在许多背景噪声时，增加在第二范围中即主要用于软声音或者无声音素的增益系数将增大这种信号的可懂度。

优选地，第一范围中(即主要用于硬发音有声音素)的增益系数对于这种实施例是不变的或者甚至稍微减小的。硬声音或有声音素甚至在高背景噪声时也将是可听见的，用于第一范围的增益系数的轻微减小实际上可能是有利的，因为它相对于硬声音或有声音素将相对增大软声音或无声音素。当测量高噪声电平时减小第一范围中的增益系数可能看来似乎是奇怪的，但是通过增大第二范围中的增益系数并同时减小第一范围中的增益系数，总的信号强度的增大可以保持稳定，或者至少不增大太多。注意，在这些情况下，这可能导致第一范围的至少一部分例如最高部分的增益系数的稍微减少(几个至若干dB)。

这些实施例尤其基于下面的认识：本发明的确提高了语音的可懂度，但是它也在某种程度上使语音信号失真。通过测量背景噪声并使第二范围中的增益系数依赖于平均的噪声电平，实现了更好的声音重放。当背景噪声电平为低时，在信号中进行很少或不进行改变，当背景噪声电平为高时，增大第二范围中的增益系数。

优选地，设置用于将作为输入幅度的函数的增益系数归因于输入信号的归因器，以使第二范围以较低的边界值与第四范围并置(juxtapose)，在该第四范围中，增益系数基本上是零。这样的第四范围覆盖小的幅度电平，其中信号可能主要是由线路或传输噪声引起的。在优选实施例中，在所述第四范围之下应用小得多的增益系数(或优选地一点也没有)。然后不放大线路或传输噪声。优选地，设置用于将作为输入电平的函数的增益系数归因于输入信号的归因器，以使第二和第四范围被第五、中间范围隔开，在该第五、中间范围中增益系数逐渐改变。在实施例中，第四和第二范围之间的过渡可以是阶跃函数，但是正如在优选实施例中的从第四范围中的零增益系数到第二范围中的高增益系数的逐渐改变减小了赝象的危险，并且可以增大信噪比。

优选地，设置用于将作为输入电平的函数的增益系数归因于输入信号的归因器，以使第三范围中增益系数减小的斜率比第五范围中增益系数的上升更平坦。

优选地，该系统包括用于测量线路或传输噪声(即传输信号的路径所固有的噪声，例如电子部件噪声、压缩噪声、…)或者线路或传输噪声的值的输入端的测量器，以及用于根据所测量的线路噪声来调节从第二范围到第四范围的过渡点或范围的调节器。

可以在声音重放系统(例如语音通信系统)的源端处应用本发明。也可以在声音重放系统的接收器端处应用本发明，例如在移动电话或膝上型个人计算机等中。后者在环境噪声为高时尤其有用。

当在声音重放系统的源端处利用本发明(例如产生电视信号)时，优选地，声音重放系统包括标记器，用于具有向已传送或待传送的信号提供指示信号已经从原始信号被更改的标记。优选地，该标记包括关于更改的信息，例如关于增益系数和范围的信息。如上所述，依据本发明的装置和方法提高了可懂度，需要支付相对较小的价格，然而，的确出现了信号的一些失真。然而，如果执行本发明两次，即在接收端处的源端处，那么存在过度命中的危险，即存在最终结果远不是最佳的危险。通过提供指示信号已经被处理(并且优选地还有如何被处理)的标记，可以减小该危险。

在本发明的概念中，“传感器”、“检测器”、“标记器”、“归因器”、“调节器”、“测量器”等可被广泛地理解，并且包括例如任何项的硬件(这样的传感器、检测器、归因器、检测器)、为执行所述的这种动作或功能而设计的任何电路或分支电路、以及为执行依据本发明的这种动作或操作而设计或者编程的任何项的软件(计算机程序或子程序或计算机程序组、或者程序代码)、以及单独或组合充当这种作用的硬件和软件项的任何组合，而不限于下面给出的示例性实施例。它们可以以例如DSP或ASIC或传声器、或者单独的或作为较大程序的一部分的算法的形式出现。一个程序可以组合几种功能。优选地，该系统至少部分地基于利用数字信号的数字信号处理。

本发明还被体现为一种在声音重放或记录系统中或者用于声音重放或记录系统的音频信号增强的方法，其中输入信号与增益系数相乘，所述增益系数是输入电平的函数，其中增益系数和输入电平之间的函数关系使得存在增益系数的第一和第二范围，该第一范围覆盖其中主要是有声音素存在的幅度，该第二范围位于低于第一范围的输出电平的输入电平处，并覆盖其中主要是无声音素存在的输入电平，其中函数关系使得第一范围的平均增益系数位于在第二范围的平均增益系数以下至少6dB。

本发明还被体现为一种在声音重放或记录系统中或者用于声音重放或记录系统的音频信号增强的方法，其中输入信号与增益系数相乘，所述增益系数是输入电平的函数，其中增益系数和输入电平之间的函数关系使得存在增益系数的第一和第二范围，该第一范围从最大值输入电平向下延伸至少10dB，该第二范围在低于第一范围的输入电平处延伸，所述第二范围覆盖10db或更多的范围，其中第一范围中的平均增益系数比第二范围中的平均增益系数平均至少低6dB。

该方法的优选实施例是对应于与依据本发明的系统的所述优选实施例相关的方法步骤的那些实施例，而不管是在本发明的概要中还是在优选实施例的描述中。

本发明还被体现为任何计算机程序，其包括用于当所述程序在计算机上运行时执行依据本发明的方法的程序代码装置，以及体现为任何计算机程序产品，其包括在计算机可读介质上存储的程序代码装置，用于当所述程序在计算机上运行时执行依据本发明的方法，以及体现为任何程序产品，其包括供在依据本发明的系统中使用的程序代码装置，用于执行本发明所特有的动作。

通过例子并参考附图将更加详细地解释本发明的这些和更多的方面，其中：

图1是包括扬声器和DSP的系统的示意图。

图2A和2B示意性地说明声音重放系统的各种部件。

图3示出干净的(clean)男性语音信号的波形。

图4说明依据本发明的示例性语音增强算法。

图5说明依据本发明的语音增强算法的动态特性，即增益系数与输入电平的关系。

图6说明依据本发明的语音增强算法的动态特性，即增益系数与输入电平的关系，其具有传输线路噪声减小。

图7说明依据本发明的语音增强算法的动态特性，即增益系数与输入电平的关系，其具有可变的传输线路减小和可变的背景噪声减小。

图8说明依据本发明的语音增强算法的动态特性，即增益系数与输入电平的关系，其中第一范围的上边界被移位。

图9说明本发明对于语音信号的效果。

图10以框图说明本发明的一些元件。

图11以框图说明形成动态电平检测器。

图12示出语音清晰度增强算法的例子。

现在将参考附图在下文中更加全面地描述本发明，其中示出了本发明的优选实施例。然而，本发明可以以许多不同的形式来体现，并且不应该被解释为局限于在此所阐述的实施例；而是提供这些实施例以使该公开将是详尽和完整的，并且将对本领域的熟练技术人员充分传达本发明的范围。相同的数字始终指的是相同的元件。

图1示意性地说明一个声音重放系统。这种系统例如可以是供汽车使用的免提扬声器蜂窝无线电话。当作为免提蜂窝电话实施时，从远端(即从远程方)接收的语音信号从蜂窝基站(未示出)被传输，由蜂窝电话(未示出)的收发信机进行接收，并被施加至用于输入远端信号的输入端1以作为输入波形W。在该例子中，假定在系统(在该例子中是电话系统)与远端之间的来回传输是以数字的形式。如果原始信号是以模拟的形式，那么该系统包括用于产生数字远端信号的模数转换器，该数字远端信号然后被馈入输入端1。

如图1所示，在输入端1处以数字的形式施加波形，或被连接至DSP(数字语音处理器)2，其被连接至或者其包括数字输出端3。数字信号输出被馈送给数模转换器4并由其转换成模拟格式，并由放大器5放大以供扬声器6使用。通过扬声器6发射表示远程方的语音的声压波W1。因此，无线电话用户听到表示远程方的语音的声压波形。

然而，收听者不仅听到由扬声器产生的声音，而且也听到其它声音，这会使由扬声器产生的声音难以理解，即低的可懂度。

调高音量似乎是增大可懂度的第一和明显的选择。然而，扬声器的最大输出电平常常是有限的，并且仅仅调高音量常常导致更多的噪声，而未必是更好可懂度的信号。

图2A说明在源(清楚的语音)21和使用者的耳朵22之间存在两个噪声源，即传输噪声23和背景噪声24。

为了提高可懂度，在依据本发明的装置和方法中进行了许多测量。特别是，可以配备传感器26来测量背景噪声24，从而给出背景噪声信号N2，以及用于测量传输噪声23的测量器27，从而给出线路或传输噪声信号N1。

图2B说明声音重放系统的源端。在该图中，21代表输出信号。

基本构思是，在声音重放系统中，在源侧(图2B)处或在接收侧(图2A)处或在两侧处提供语音清晰度增强器，即一个装置，例如程序或源代码，其以如依据本发明的方式作用于信号。本文在下面给出一些例子。

由低质量的传输(噪声源23)或噪声背景(噪声源24)条件引起的干净语音信号(信号21)的噪声污染可以显著地影响它的可懂度。许多语音可懂度提高方法具有增加语音信号的响度的结果。不增加响度的算法不大常见。

本发明基于一种简单的方法，其根据无声音素的时域能量水平来增强该无声音素，例如通过语音增强算法。如果必须使干净的语音对于传输噪声(23)是鲁棒的(robust)，那么算法(25，图2B)可被最佳地设置于发射器侧。如果环境噪声是主要的噪声干扰(24)，那么算法(25，图2B)可被最佳地设置于重放侧。

图3示出干净的男性语音信号的波形。箭头示出无声音素(th，c，ch，cr，d，b，th，s，de，t)的位置。与有声段(诸如oa，wa，ow，de，in，i，ou之类的元音)相比，这些无声段包括很少的能量。本发明基于有选择地增大低能量范围超过高能量范围的思想，从而与有声音素相比增强了无声音素。对于语音的可懂度，无声音素是非常重要的。用于产生语音的各个音被称为音素。源在确切地存在多少音素以及它们是什么的方面是不同的。元音一直是有声的。对于清辅音，皱襞可以是完全开放(比如当产生“s”、“sh”和“f”音时)或部分开放(对于“h”音)的。通过声带的振动产生浊音。依据在它们的产生中的工作机制，音素可被置于三个宽范畴之一中：

-浊音，

-摩擦辅音，

-闭塞辅音。

浊音

在英语中使用的大多数音素是浊音，它是由周期性气流通过由声门调节的声带产生的。声道响应于该周期性气流而以共振峰频率共振。共振峰频率把一个有声音素与另一个有声音素区别开，并由声带中的张力来控制。通过鼻腔和嘴的作用来进一步过滤浊音。

例子：lame，vowel，you，met，…

摩擦辅音

无声摩擦音素源于稳定气流通过嘴的嘶嘶声(hissing)。这种声音缺乏浊音的组合的声门脉冲和声道振动现象。无声音素彼此不同是由于在嘴唇、牙齿和舌头的位置方面的差别，而不是共振峰频率的存在。

例子：fat，sit，church，thing，…

有声摩擦音素包括由声门脉冲所驱动的声道共振峰共振和摩擦嘶嘶声。

例子：that，judge，which，…

闭塞辅音

闭塞辅音的特征在于在音素开始时由嘴唇和/或牙齿和舌头对气流的完全停止和突然释放。

有声闭塞辅音依赖于声门脉冲和声道共振。

例子：bet，get，better，…

无声闭塞辅音缺少声道的作用，并受摩擦嘶嘶声控制。

例子：kit，pet，ten….

如上所述，通常当人讲话时，有声音素典型地在超过通常包括无声音素的范围的幅度范围中。

图4非常示意性地说明语音增强算法。在电平检测器41中检测输入信号21的输入电平，例如信号的幅度或功率，并且基于所测量的电平，在动态调节器42中调节增益，从而给出调节的信号43。在它的最简单的形式中，输入电平可以简单地为输入幅度。然而在优选实施例中，在系统中包括动态电平检测器，其确定在预定时间周期(典型的为几个至若干毫秒)上的平均电平。增益系数z是输入电平y的函数，其在这种优选实施例中是从对输入信号幅度In求平均来获得的。输入信号幅度In乘以增益系数z以产生信号S(S＝z(y)×In)。

图5说明依据本发明的实施例的多个语音增强算法的动态特性(即z(增益系数)和y(幅度或幅度电平)之间的函数关系)。增益系数z(这里以dB在纵轴上示出)是输入信号的输入电平y(这里以dB在横轴上示出)的函数。输入电平y在最大值的下面，所述最大值在这些实施例中被取为可能的最高数字信号。增益曲线包括第一范围I，其在上边界处具有最大输入电平MAX。在该第一范围中，增大系数即增益系数典型地小于3dB。在该例子中，第一范围I从最大值MAX延伸至少10dB。优选地，第一范围I延伸至少15dB，但不超过30dB。该增益曲线包括第二范围II，其具有基本上较高的增益系数z(至少6dB，优选至少12dB，更优选至少18dB，在图5中由Δ表示该差)。该范围II典型地在15-35dB之间延伸，或者更低于范围I，以使组合的范围I和II的典型宽度(包括中间范围II)是30-75dB。在典型的语音中，动态范围尤其取决于人说话有多大声，但对于语音的动态范围典型地是40至60dB。图5示出相对于较高范围I增大语音的动态范围的较低范围(范围II)，该较高范围本身具有低的增大(低于10dB)。在该优选例子中，范围I和II在动态语音范围(从0至近似-50dB)中覆盖，每个范围大致覆盖(沿着y轴)以dB的相同的范围宽度(例如在以dB的数字表示的2倍中)。沿着y轴在范围I和II之间的宽度方面的差太大会导致下述情况，其中如果范围II显著地小于范围I，则无声音素或软声音的预计的增大太小，或者如果范围II显著地大于范围I，则也增大有声音素或硬声音的至少一个显著的部分。增益z对输入电平y的曲线可以包括如曲线52中的阶梯，但是优选地，增益曲线包括第三(III)范围，其在范围I和II中间，在该范围中增益系数逐渐上升，如曲线51和53中所示。这种过渡范围III减小了泵作用赝象的危险。在该例子中，范围I、II和III的总宽度覆盖动态语音范围(从0至近似-50dB)，并且范围I、II和III中的每个在动态语音范围中大致覆盖以dB的相同的范围宽度(例如在以dB的数字表示的3倍中)。对于曲线51、52和53，范围I和II之间增益系数的差分别是25dB、22dB和15dB。通过对与输入电平的强度相乘的增益系数(z)求和并且然后除以电平的强度之和，可以计算平均增益系数。最强的信号(具有接近零的y值的那些信号)对该平均增益系数贡献最多，非常弱的信号(y值为-30或更小)对响度几乎没有贡献，并且因此，用于非常弱的信号的相对较大的增益系数几乎对该平均增益系数没有贡献。由于接近零(对于最高或较高的输入电平，即在范围I中)，所以增益系数是小的(优选显著地小于10dB)，平均增益系数是小的，尽管事实上第二范围II中的增益系数是大的。总平均增益系数优选小于12dB，更优选小于6dB，甚至更优选小于3dB。

图6示出本发明的优选实施例。增益曲线包括范围II的左侧(即在低于范围II的较低阈值的输入电平处)的第四范围IV，在第四范围IV中应用低得多的增益系数(优选接近零或负dB)。在这种输入电平处，信号可能主要是由传输噪声引起的。通常通过某一装置产生信号，并且然后将其经由传输线路发送至某一其它位置，即使不存在信号，产生装置和传输本身也产生噪声。在该优选实施例中，在范围II的较低边界电平的下面应用小得多的增益系数(或优选地一点也没有)。然后不放大传输或线路噪声。优选地，通过第五、中间范围V来隔开第二II和第四IV范围，在所述第五范围V中增益系数逐渐改变。逐渐的改变减少赝象的危险，并且可以增大信噪比。在本发明的简单实施例中，可以固定在范围II和IV之间、或在II和IV以及IV和V之间的过渡点所处的位置，在该情况中，范围IV和II或范围V之间的过渡点将优选地位于离最大输入电平40和65dB之间。在优选实施例中，使得范围之间的至少一个、一些或全部的过渡点或过渡范围依赖于线路或传输噪声测量，特别是传输噪声信号N1的测量，正如下面将进一步解释的。范围I和II之间的中间范围III在该例子中在输入电平上覆盖15dB。范围II覆盖10至15dB，范围V覆盖5dB，范围I覆盖20dB。范围I和II之间增益系数的差是15dB。范围II和IV之间增益的差是20dB，并且范围V覆盖5dB，即它的斜率比范围III的陡。

图7说明本发明进一步的实施例。增益曲线包括在前面附图中识别的五个范围。示出了多条曲线，即71a、71b和71c。曲线71a可与图6中示出的曲线相比。当存在高电平的背景噪声(噪声信号N2)时，增大范围II中的增益系数是有利的。这通过曲线71b示意性地示出。在曲线71b中，在全部的范围I、II和III中增大增益系数，但在范围II中更明显。这将增大可懂度，然而它也将增大总响度。在优选实施例中，总响度的增大低于12dB，优选低于6dB，更优选低于3dB。总响度的增大并不增大可懂度。为了保持响度在界限中，在优选实施例中，作为对背景噪声电平的响应的范围II中增益系数的增大伴随着范围I中增益系数的不增加，或者甚至更优选地伴随着范围I中增益系数的小的减小，或者至少在范围I的上部中。总响度然后不增大，或者不是或几乎不是可察觉地增大。

图8说明本发明的又一个优选实施例。在以前的附图中，将范围I的上边界取为最高可能的信号强度。通常在数字信号处理中，将此取为零dB的电平。然而，人们可以讲话比较温柔或大声，并且该记录和传输链可以向语音信号引入未知电平的减小。无声和有声音素之间(或更一般地在软声音和硬声音之间)输入电平的差或多或少地保持相同(大约15-30dB)，而不管人是大声地还是温柔地讲话。因此，本发明人已经认识到，基于测量的信号的实际最大输入电平即例如所讨论的人实际讲话有多大声来移位该增益曲线是有利的。如果人非常大声地讲话，那么范围I和II的位置移位至高输入电平，如果人温柔地讲话，那么范围I和II以及可能的中间和邻近范围III、IV和V移位至较低输入电平。通过在预定时间周期上对输入幅度取平均，可以使用动态电平指示器的输出来确定最大电平max，该预定时间周期长于测量动态输入电平所用的时间周期。在图8中示意性地示出的该例子中，实际最大信号(例如语音的最大响度)强度保持低于理论可能最大值(例如最大可能的数字信号)10dB。利用动态电平检测器的输出在较长的时间周期上求平均，有可能确定最大输入电平，并利用此来固定增益曲线的位置和形状。在图8中，增益曲线(z(y))向左移位10dB，由箭头示意地指示。

图9示出如在图8中示出的动态处理曲线(即输入幅度和增益系数之间的关系)对信号的结果。上部与图3相同，即干净的男性语音信号；下部说明了在利用依据本发明的语音增强算法已被动态处理之后的信号。与有声“硬”音素相比，无声“软”音素(由箭头指示)在图9的下部比在上部更显著。在低输入强度(在图8的例子中低于近似-50dB)处的低增益系数具有线路或传输噪声未被放大或者至少很小被放大的优点。可以进行下面的观察：

-如由箭头所指示的对应于无声音素的低幅度区域得到增强；

-有声音素未受影响，这意味着响度得到保持；

-没有讲话的部分(沉默)未被增大。

总的来说，通过简单的措施大大提高语音的可懂度。

在依据本发明的装置和方法中的最大增益的值、范围之间的过渡点、简言之动态处理曲线的特征在优选实施例和系统中取决于背景噪声或者线路或传输噪声(23或24)。为此，通过传声器的噪声检测器120测量背景噪声电平，还参见图2。也可以测量传输噪声。例如通过使用动态电平检测器并测量在字之间的沉默过程中的平均信号或者通过某一其它平均信号检测器可以实现传输噪声的测量，并且噪声信号的特征值或者噪声信号N1、N2本身被发送至动态电平调节器42。该动态电平调节器执行增益系数与信号的相乘。这在图10中示意性示出。

本文在下面描述语音增强算法(的部分)的一些示例性实施例。

为了提供快速但平滑的(基于采样的)电平检测，使用动态电平检测器，该动态电平检测器的框图在图11中被示出。它的等式是：

y[n]＝|I[n]|+KP×(y[n-1]-|I[n]|)+KM×|(y[n-1]-|I[n]|)|其中：

KP＝(K_r+K_a)/2

KM＝(K_r-k_a)/2

以及

K_{a} = e^{- 1 / (T_{a} f_{s})}

K_{r} = e^{- 1 / (T_{r} f_{s})}

T_a和T_r分别是确定在其上取平均的时间周期的起动(attack)和释放时间常数。利用为几毫秒(典型为1至5ms)的T_a和T_r获得最佳结果。动态电平检测器因此提供输入电平y，其是信号强度的时间平均。在比起动和释放时间常数长(例如5倍一直到20倍长)的时间周期上所取的电平上的平均、以及由此输入幅度上的平均可以充当最大输入电平的指示器(其可以用于确定max的值)。

确定输入信号I的输入电平幅度相关的增益系数(或增大)z在优选实施例中是使用基于查找表的动态处理。令y轴为以分贝的动态电平检测器的输出。对于每个I值，通过在例如图8中所示的z轴上以分贝的对应增益，动态处理块将增大输入语音信号，图8示出了在规范化全带宽语音信号的情况中这种曲线的例子，就象在图3中所示出的例子。增益系数优选地正好在输入语音信号的噪声电平之上开始。对于干净记录的语音信号，电平典型地低于-50dB。因此避免了噪声的增大。使用例如并且优选地单个传声器反馈，优选地使得最大增益系数(增大电平)(在这种情况中为20dB)依赖于环境噪声。

增益系数减小的斜率(范围III中的斜率)优选地比(在范围V中)上升的平坦。这减小了泵作用和回波赝象的危险。

图12示出了完整的语音清晰度增强算法框图的例子。

信号In进入。根据在例如动态电平检测器111的输入端122处输入信号In的流，计算输入电平y。在图11中说明了动态电平检测器111的例子。利用包括动态曲线的查找表121来计算或确定增益系数z(n)，在前面的附图中给出了动态曲线的许多例子。这与输入信号I(n)相乘以提供输出信号S＝I(n)×z(n)。转换为dB不是必须的，但是使转移曲线更容易实施，例如由直线构成。

简而言之，本发明可以被描述为：

在声音重放或记录系统中，音频信号与增益系数(z)相乘，所述增益系数(z)依赖于输入电平(y)。选择增益系数对输入电平的依赖性，以使无声音素比有声音素被多增强至少6dB，优选至少12dB，其中平均增益小于6dB。这提高了可懂度。

实际上，无声音素是否比有声音素被增强得更多以及多多少可以相对较容易地在系统中进行检查，例如通过使其母语是英语的人发音图3的句子，以及然后将输出信号与输入信号进行比较，并且然后在每个音素处比较输入和输出信号以及比较输入和输出信号的响度。

所公开的算法部分实际上可以(全部或部分地)被实现为硬件(例如专用IC上的区域)或者在专用数字信号处理器、通用处理器等上运行的软件。

本领域的熟练技术人员将会认识到，本发明不限于上文具体示出和描述的内容。本发明在于每个新颖的特征以及特征的每个组合。权利要求中的参考数字并不限制它们的保护范围。动词“包括”及其变化的使用并不排除除了在权利要求中所述的那些元件之外的元件的存在。在元件前面的冠词“一”或“一个”的使用并不排除多个这种元件的存在。

Claims

1、一种声音重放或记录系统，包括音频信号输入端(1)、音频信号处理器(2，DSP)和音频信号输出端(1)，其中该音频信号处理器包括归因器(25)，用于利用函数关系将作为输入电平(y)的函数的增益系数(z)归因于输入信号(In)，以使增益系数(z)和输入电平(y)之间的函数关系包括第一(I)和第二范围(II)，该第一范围(I)覆盖其中主要是有声音素存在的幅度，该第二范围(II)位于比第一范围(I)的输入电平低的输入电平(y)处，并覆盖其中主要是无声音素存在的输入电平，其中函数关系使得第一范围(I)的平均增益系数处于第二范围(II)的平均增益系数以下至少6dB。

2、一种声音重放或记录系统，包括数字音频信号输入端(1)、数字音频信号处理器(2，DSP)和数字音频信号输出端(1)，其中该数字音频信号处理器包括归因器(25)，用于将作为输入电平(y)的函数的增益系数(z)归因于输入信号(In)，其中增益系数(z)和输入电平(y)之间的函数关系使得存在第一(I)和第二范围(II)，该第一范围(I)从最大值输入电平(MAX)向下延伸至少10dB，该第二范围(II)在低于第一范围(II)的输入电平处延伸，所述第二范围覆盖10db或更多的范围，其中第一范围(II)中的平均增益系数(z)比第二范围(II)中的平均至少低6dB。

3、如权利要求2所述的声音重放系统，其中设置用于归因增益系数(z)的归因器(25)，以使第一范围(I)从最大值(MAX)延伸至少15dB，但不超过30dB。

4、如权利要求1或2所述的声音重放或记录系统，其中设置用于归因增益系数(z)的归因器(25)，以使第一范围(I)中的增益系数(z)比第二范围(II)中的至少低12dB。

5、如权利要求1或2所述的声音重放或记录系统，其中设置用于归因增益(z)的归因器，以使范围I和II的平均增益系数小于12dB，优选小于6dB，甚至更优选小于3dB。

6、如权利要求1或2所述的声音重放或记录系统，其中该系统包括动态电平检测器(41，111)，该动态电平检测器具有信号幅度(In)的输入端和在预定时间周期上提供平均电平(y)的输出端。

7、如权利要求6所述的声音重放或记录系统，其中该预定时间周期(T_a，T_r)是1至5毫秒。

8、如权利要求1或2所述的声音重放或记录系统，其中设置用于归因增益系数(z)的归因器(25)，以使第一范围(I)中的增益系数(z)平均低于10dB，优选低于6dB。

9、如权利要求1或2所述的声音重放或记录系统，其中该系统包括用于确定接收信号的最大输入电平的确定器以及用于使该最大输入电平与第一范围的上边缘相等的装置。

10、如权利要求1或2所述的声音重放或记录系统，其中设置用于将作为输入电平(y)的函数的增益系数(z)归因于输入信号(In)的归因器(25)，以使增益系数(z)和输入电平(y)之间的函数关系使得在第一(I)和第二(II)范围之间存在第三、中间范围(III)，在该第三范围中增益系数(z)逐渐改变。

11、如权利要求1或2所述的声音重放或记录系统，其中该系统包括用于测量背景噪声(N2)的传感器(26)、以及用于根据测量的背景噪声(N2)来调节第二范围(II)中的增益系数(z)的调节器。

12、如权利要求1或2所述的声音重放或记录系统，其中设置用于归因增益系数(z)的归因器(25)，以使第二范围(II)以较低的边界值与第四范围(IV)并置，在该第四范围中增益系数基本上是零。

13、如权利要求12所述的声音重放或记录系统，其中设置用于将作为输入电平(y)的函数的增益系数(z)归因于输入信号(In)的归因器(25)，以使第二(II)和第四(IV)范围被第五(V)、中间范围隔开，在该第五范围中增益系数(z)逐渐改变。

14、如权利要求12和10所述的声音重放或记录系统，其中设置用于将作为输入电平(y)的函数的增益系数(z)归因于输入信号(In)的归因器(25)，以使第三范围(III)中增益系数减小的斜率比第五范围(V)中增益系数的上升更平坦。

15、如权利要求12所述的声音重放或记录系统，其中该系统包括用于测量线路或传输噪声(N1)或者线路或传输噪声(N1)的值的输入端的测量器、以及用于根据线路或传输噪声(N1)的量来调节从第二(II)至第四范围(IV)的过渡点或过渡范围(V)的调节器。

16、如权利要求1或2所述的声音重放系统，其中声音重放系统是移动电话系统。

17、如权利要求1或2所述的声音重放系统，其中信号处理器是数字信号处理器(DSP)。

18、一种在声音重放或记录系统中或者用于声音重放或记录系统的音频信号增强的方法，其中对输入音频信号进行处理，其中输入信号与增益系数(z)相乘，所述增益系数是输入电平(y)的函数，其中增益系数(z)和输入电平(y)之间的函数关系使得存在增益系数的第一(I)和第二范围(II)，该第一范围(I)覆盖其中主要是有声音素存在的幅度，该第二范围(II)位于比第一范围(I)的输入电平低的输入电平(y)处，并覆盖其中主要是无声音素存在的输入电平，其中函数关系使得第一范围(I)的平均增益系数处于第二范围(II)的平均增益系数以下至少6dB。

19、一种在声音重放或记录系统中或者用于声音重放或记录系统的音频信号增强的方法，其中输入信号与增益系数(z)相乘，所述增益系数是输入电平(y)的函数，其中增益系数(z)和输入电平(y)之间的函数关系使得存在增益系数的第一(I)和第二范围(II)，该第一范围(I)从最大值输入电平(MAX)向下延伸至少10dB，该第二范围(II)在低于第一范围(II)的输入电平处延伸，所述第二范围覆盖10db或更多的范围，其中第一范围(II)中的平均增益系数(z)比第二范围(II)中的平均至少低6dB。

20、如权利要求18或19所述的用于音频信号增强的方法，其中增益系数(z)和输入电平(y)之间的函数关系使得第一范围(I)中的增益系数(z)比第二范围(II)中的低至少12dB。

21、如权利要求18或19所述的用于音频信号增强的方法，其中增益系数(z)和输入电平(y)之间的函数关系使得平均增益系数小于12dB，优选小于6dB，甚至更优选小于3dB。

22、如权利要求18或19所述的用于音频信号增强的方法，其中增益系数(z)和输入电平(y)之间的函数关系使得第一(I)和第二(II)范围被第三、中间范围(III)隔开，在该第三范围中增益系数(z)逐渐改变。

23、如权利要求18或19所述的用于音频信号增强的方法，其中增益系数(z)和输入电平(y)之间的函数关系使得第二范围(II)以较低的边界值与第四范围(IV)并置，在该第四范围中增益系数基本上是零。

24、如权利要求23所述的用于音频信号增强的方法，其中增益系数(z)和输入电平(y)之间的函数关系使得第二(II)和第四范围(IV)被第五(V)、中间范围隔开，在该第五范围中增益系数逐渐改变。

25、如权利要求22和24所述的用于音频信号增强的方法，其中增益系数(z)和输入电平(y)之间的函数关系使得第三范围(III)中增益系数的减小的斜率比第五范围(V)中增益系数的上升更平坦。

26、如权利要求18所述的用于音频信号增强的方法，其中增益系数和输入电平之间的函数关系使得无声音素比有声音素被多增强至少6dB。

27、在声音重放系统中用于音频信号增强的方法，其中输入音频信号是数字处理的信号，其中输入信号与增益系数(z)相乘，所述增益系数是输入电平(y)的函数，其中增益系数(z)和输入电平(y)之间的函数关系使得无声音素比有声音素被多增强至少6dB，优选至少12dB。

28、如权利要求27所述的用于音频信号增强的方法，其中增益系数和输入电平之间的函数关系使得总响度的增大小于6dB，优选小于3dB。

29、计算机程序，包括用于当所述程序在计算机上运行时执行依据权利要求18至28中任何一项的方法的程序代码装置。

30、计算机程序产品，包括在计算机可读介质上存储的程序代码装置，用于当所述程序在计算机上运行时执行如权利要求18至28中所述的方法。

31、计算机程序产品，包括供在如权利要求1至17中任何一项所述的系统中使用的程序代码装置，用于执行本发明所特有的动作。