CN118633032A

CN118633032A - 获得声源位置的方法

Info

Publication number: CN118633032A
Application number: CN202280090694.5A
Authority: CN
Inventors: A·索尔旺
Original assignee: Nomono AS
Current assignee: Nomono AS
Priority date: 2021-12-22
Filing date: 2022-12-21
Publication date: 2024-09-10
Also published as: KR20240130733A; WO2023118382A1; JP2025500328A; CA3241144A1; EP4453596A1; AU2022420802A1

Abstract

本发明涉及一种用于获得声源相对于专用基准点的位置的方法。记录在时间上同步的第一声音信号和多个第二声音信号。可通过将估算的滤波器应用于通过在频域中使第一声音信号与多个第二声音信号中的至少一个相关联而导出的相关联信号来获得位置。在时域中，在超过专用阈值的至少一个滤波和相关联信号中导出两个定时值。然后基于分别获得的第一定时值和第二定时值计算专用基准点与声源之间的距离。

Description

获得声源位置的方法

相关申请的交叉引用

本申请要求2021年12月22日的丹麦申请PA202170662的优先权，该申请的公开内容通过引用整体并入本文。

技术领域

本发明涉及一种用于获得声源相对于专用基准点的位置的方法。本发明还涉及计算机系统和非暂时性计算机可读存储介质。

背景技术

声场或空间音频系统以及格式(如声场环绕声或杜比全景声)提供与给定声音场景相关联的编码声音信息。通过这种方法，可以将位置信息分配给声音场景内的声源。这些技术在某些计算机游戏中是已知的，在这些计算机游戏中，记录的声音被归因于游戏对象位置信息，但这些技术在事件的现场捕捉中也是已知的，例如捕捉大型管弦乐队或体育赛事。因此，可能的应用的数量是巨大的，并且范围从例如通过具有参与体育赛事的印象而在上面指示的沉浸式效果到虚拟或增强现实体验。

在许多情况下，使用空间音频麦克风来记录用于这种应用的声音本身是一个挑战。虽然这些技术对于从空间中的特定点捕捉现场声场信息是有用的，但是这些技术也具有一些技术限制，因为这些技术基于波束形成技术并且通常被认为是昂贵的。例如，位于离麦克风较远的位置的人的声音质量可能降低。在噪声更大或混响的情况下，或者如果多于一个人正在说话，则为了均衡或其他处理技术的目的而对各个声源进行识别和隔离是困难的。

同时，音频内容创建者还认识到需要高质量音频，包括使用空间音频信息，以便改进声音记录的质量或添加额外的声音效果，从而增加收听者的沉浸感。因此，需要一种成本更低的解决方案，其实现了高级空间音频麦克风的益处和优点。该解决方案应该与硬件无关地工作，从而允许在不同场景中的灵活使用。

发明内容

本公开内容及其所提出的原理提供了一种实现上述若干益处和优点的方法。发明人已经发现了一种方法，该方法提供了声源相对于专用基准点的位置的精确确定，该位置既有距离又有角度。所提出的方法很大程度上独立于所使用的硬件，并且可以扩展到不同的质量水平。此外，该方法允许离线处理和实时处理。结果，所提出的方法可以包括在各种应用中，包括但不限于播客、电影、现场直播或其他事件、音频和电话会议、虚拟现实、视频游戏应用等的声音捕捉和处理。

在一个方面，发明人提出了一种用于确定声源相对于专用基准点的位置的方法。在这点上，“位置”一词确实包括从声源到专用基准点的距离、基于通过基准点的一个或两个轴的角度或其组合。该方法获得在声源处记录的第一声音信号。同样，在与专用基准点成已知关系的位置处记录多个第二声音信号。第一声音信号和多个第二声音信号在时间上同步。

通常，假设第一声音信号被记录在声源附近，这意味着与声源和专用基准点之间的距离相比，该距离相对较小。然而，术语“在声源处”不应被理解为非常有限的意义。相反，该表述应当包括并允许实际声源和麦克风之间的特定距离。类似地，在不同的位置记录多个第二声音信号，对于这些位置，到基准点的距离和角度是已知的。时间同步对于所提出的方法在后续步骤中是重要的。在一些情况下，可以通过为所记录的任何声音信号提供公共时基来实现这种时间同步。在一些其它情况中，所记录的声音信号可用于提供时基，例如通过对记录且包含于第一声音信号及多个第二声音信号中的专用开始信号进行时间相关。

现在估算作用于时频域第一声音信号的每个频率区间中的信噪比的第一声音信号的滤波器。接着，在频域中将所述第一声音信号与所述多个第二声音信号中的至少一个相关联以获得至少一个相关联信号。在一些情况下，将第一声音信号与多个第二声音信号中的每一个相关联以获得多个相关联信号。

将先前估算的滤波器应用于至少一个相关联信号，以获得至少一个滤波和相关联信号。

在下一步骤中，可以估算专用基准点和声源之间的距离。为此，获得至少一个滤波和相关联信号中超过时域中的专用阈值的第一定时值。还获得第二定时值，该第二定时值对应于基于第一定时值的至少一个滤波和相关联信号中的阈值。

现在基于相应获得的第一定时值和第二定时值导出专用基准点和声源之间的距离。如果在前一步骤中导出了多于一个的滤波和相关联信号，则可获得多个距离，从而能够改进距离确定(例如，通过计算包括误差容限等的平均值)。

替代地或附加地，可以计算声源相对于通过专用基准点的轴的角度。为此，利用至少两个滤波和相关联信号以及提供多个第二声音信号的麦克风位置的可选的先验估算或知识。在后续步骤中，在应用上述滤波器并在频域中将滤波后的第一信号与多个第二声音信号中的至少两个相关以获得至少两个相关联声音信号之后，在特定时间段周围截断至少两个滤波和相关联声音信号。然后，获得截断的滤波和相关联声音信号对之间的互相关联。通过基于提供多个第二声音信号的麦克风位置的先验估算或知识将所获得的互相关联投影在球形空间中来导出经滤波的第一声音信号的到达角。

利用所提出的方法，可以彼此独立地获得距离和角度。将两个不同信号相关联可以在记录和存储的声音信号上离线完成，并且如果需要的话可以实时完成，使得该方法能够用于各种应用中。此外，可以交换第一声音信号和第二声音信号以及导出缓慢移动的声源。通过使不同的第一声音信号相关联，可以进一步提高所提出的方法的精度。该方法对于声音反射是鲁棒的，这在封闭空间中的记录会话期间是有用的。

声音在物体中传播的速度取决于物体的温度。为了精确测量，测量空气温度，特别是在多个第二声源附近。这种测量可以周期性地重复，以补偿在记录期间改变的温度。响应于所导出的空气温度来估算该距离。

在一些情况下，上述特定时间周期与多个第二声音信号的两个不同位置之间的最大飞行时间成比例。由特定时间周期限定的窗口确保在互相关联步骤期间忽略由房间墙壁或其它大物体引起的声音反射。这也意味着可以根据记录会话的环境来调整多个第二声音信号的两个不同位置之间的距离，从而进一步增加所提出的方法的灵活性。

在一些情况下，截断滤波和相关联声音信号的步骤包括上采样的步骤。对多个滤波和相关联声音信号执行上采样；或者基于截断的滤波和相关联声音信号执行上采样。该步骤提供了更精细的时间分辨率，从而提供了用于距离和角度确定的更高的分辨率。在角度确定方面，可以通过将操纵响应应用于每个截断的滤波和相关联声音信号来获得互相关联。

第二声音信号对(与某些位置相关联的)的互相关联的最大值的位置(或者对于SRP-PHAT的PHAT)对应于这些位置之间的到达时间差。可以利用关于第二声音信号被记录的位置的知识将到达时间差映射到入射角。因此，可以在球面空间而不是时域中投影互相关联。这是针对第二位置对(或其相应的相关联第二声音信号)的适当集合的所有经滤波和截断的互相关联估算来执行的，以便确定适合于应用的到达角。例如，在声源仅在水平面中的情况下，使用位置集合而不是跨越该平面，就足够了，从而降低了计算复杂度。然后，将投影的估算简单地加在一起，并且执行对最大值的搜索。最大值的位置对应于到达角。

在一些其它实例中，估算用于第一声音信号的滤波器的步骤包括估算频谱掩模。对于这种频谱掩模滤波器，可以响应于先前时间片，基于每个时间片的噪声来确定信噪比SNR。如果对于给定频率的信噪比未超过预定阈值，则频谱掩模参数被设置为0。同样地，如果信噪比达到预定阈值，则对于给定频率将频谱掩模参数设置为1。在一些其他实例中，估算作用于第一声音信号的每个频率区间中的信噪比的滤波器，包括以下步骤：应用分位数滤波器、特别是中值滤波器，以用于平滑从一个或多个第一记录的声音信号导出的功率谱的每个时间片的功率谱。然后，响应于先前的时间片，估算每个时间片的噪声。如在先前的方法中，评估对于给定频率的信噪比是否超过预定阈值。因此，响应于信噪比是否超过预定阈值，将所述频率的滤波器参数设置为1或0。在一些其它实例中，估算作用于第一声音信号的每个频率区间中的信噪比的滤波器，包括应用来自去噪过程的残差信号作为噪声估算的步骤。去噪过程可以基于机器学习。如在先前的方法中，评估对于给定频率的信噪比是否超过预定阈值。因此，响应于给定频率的信噪比是否超过预定阈值，将所述频率的滤波器参数设置为1或0。

一些另外的实例涉及将第一声音信号与多个第二声音信号中的至少一个相关联的步骤。对第一声音信号和多个第二声音信号中的至少一个应用短时傅立叶变换STFT以获得相应的频谱图。然后，获得相应的频谱图上的交叉频谱，并且将先前获得的滤波器应用于交叉频谱。通过执行逆短时傅立叶变换ISTFT，将相关的并且现在滤波的频谱图变换回时域。这将提供滤波和相关联的第一声音信号。

一些其它情况涉及在两个不同位置处记录的声音的延迟。两个位置都与在相应位置处记录的第一声音信号相关联。所提出的方法提供了一种计算与两个或更多个第一声音信号相关联的位置之间的距离的简单工具。这不仅对于估算两个或更多个麦克风之间的可能串扰(记录第一声音信号)是有用的，而且提供关于麦克风之间的相对距离的信息，该信息可以用于进行位置估算的后处理。结果，该方法可以用于获得声源的信息，该声源与记录两个(或更多个)第一声音信号的位置相距一定距离。

在一些实例中，估算作用于时频域中两个第一声音信号之一的每个频率区间中的信噪比的滤波器。针对两个第一声音信号进行该处理，使得估算两个不同的滤波器。然后，在频域中使两个第一声音信号中的第一个与两个第一声音信号中的第二个相关，并且应用与两个声音信号中的第一个相关联的估算滤波器。可以对两个第一声音信号中的第二个和其相应的滤波器重复该过程。估算相关联信号之间的时间差。该时间差提供了关于第一声音信号之一中的可能串扰的信息。因此，基于时间差的评估的两个第一声音信号中的一个可以被选择为一个或多个第一声音信号并且用于进一步处理。

在一些情况下，上述相关步骤可包括对相应的两个第一声音信号执行短时傅立叶变换STFT以获得频谱图。从相应的频谱图导出交叉频谱，并且将所述滤波器应用于所获得的交叉频谱。为了最终获得滤波和相关联的第一声音信号，执行逆短时傅立叶变换ISTFT以获得经滤波的第一声音信号。

将记录第二声音信号的麦克风定位在专用位置处是有用的。例如，多个第二声音信号可以包括四个音频声音信号，其中这四个声音信号中的两个以15cm的最大空间距离被记录。该距离通常足够小以避免同时意外记录同源的直接声音和反射声，同时该距离足够大以在不采用过度上采样的情况下，使第二声音信号与第一声音信号互相关时提供足够的差异。

一些另外的方面涉及移动声源的识别和处理。这样的源可能难以识别，因为移动的声源将通过多普勒频移影响STFT。此外，估算噪声可以被识别为移动声源或位于不同位置的两个或更多个声源。为此，专用基准点和一个或多个声源之间的估算距离可以被馈送到卡尔曼滤波器(或者如果估算噪声是非高斯则是粒子滤波器，这将是异常值的情况)。

在一些另外的实例中，提供了一种计算机系统，包括一个或多个处理器和存储器。存储器耦合到一个或多个处理器并且包括指令，当由一个或多个处理器执行指令时，指令使一个或多个处理器执行以上提出的方法及其各个步骤。同样，可以提供一种非暂时性计算机可读存储介质，包括用于执行根据前述权利要求中任一项所述的方法的计算机可执行指令。

附图说明

关于结合附图详细描述的各种实施例和示例，根据所提出的原理的其他方面和实施例将变得显而易见，在附图中，

图1示出了所提出的方法的实施例，其示出了用于确定声源位置的若干处理步骤；

图2示出了应用频谱掩模的频率加权相位变换以获得滤波和相关联信号的步骤；

图3是具有若干麦克风以记录更复杂的声场场景的记录环境的说明性视图；

图4示出了根据所提出的原理的一些方面的方法的处理流程。

具体实施方式

以下实施例和示例公开了根据所提出的原理的不同方面及其组合。实施例和示例并不总是按比例的。同样，不同元件可被放大或缩小地显示以强调各个方面。不言而喻，图中所示实施例和示例的各个部分可以相互组合，无需赘述，这与本发明的原理并不矛盾。一些方面示出了规则的结构或形式。应当注意，在实践中，可能出现与理想形式的微小差异和偏差，然而，这并不与本发明的思想相抵触。

另外，各个附图和方面不一定以正确的尺寸示出，各个元件之间的比例也不必是基本上正确的。通过放大显示一些方面来将其突出显示。然而，诸如“上方”、“下方”、“较大”、“较小”等术语相对于图中的元件正确地表示。因此可以基于附图推断出元件之间的这种关系。

图3示出了使用根据所提出的原理的方法的应用。该场景对应于典型的声音记录会话，其中记录多个声音信号以获得场景的声场。虽然本示例使用自然人的语音记录，但是可以认识到，本文公开的本方法和原理不限于语音处理或寻找自然人的位置。相反，其可以用来相对于基准点定位任何专用声源。

本场景包含两个声源，如P1和P2所示，在本实施例中，这两个声源是在至少部分封闭的空间中进行对话的两个人。每个人分别在他们各自身体附近持有麦克风M1和M2。因此，可将麦克风M1及M2关联为处于相应声源的位置。多个第二麦克风M3和M4位于位置B1。位置B1也被定义为基准点。因此，人P1和P2分别位于朝向基准点B1的特定距离和角度处，并且也彼此间隔开。墙壁W位于一侧，在每个声源P1和P2的讲话期间产生反射。

麦克风M1、M2、M3和M4彼此时间同步，即，在这种场景下记录声音是使用公共时基来完成的。当记录会话时，麦克风M1记录人P1的语音，并且在一些延迟的情况下还记录人P2的语音。同样，由于声速和人P1距基准点B1的距离，麦克风M3和M4以一些延迟记录人P1和P2的语音。取决于距离，延迟不同，但在任何情况下，从声源到麦克风M3和M4之一的直接途径被称为直接声音。

现在假设仅有单个声源P1，可以使用直接声音简单地计算距离；即使用直接声音指向参考点B1；即通过测量由麦克风M1记录的声音信号和麦克风M3或M4之一之间的时间延迟乘以声速。

由于声速取决于温度，温度传感器T1位于麦克风M3和M4附近，以测量空气温度，校正温度变化的影响。上述场景相当简单并且不适合于真实世界的场景。曾经，墙壁W将反射语音的部分，然后在一些延迟之后，由麦克风M1记录，也由麦克风M3和M4记录。麦克风M4也将记录语音。取决于场景，反射的声音语音与正在进行的语音叠加。由于可能的相长干涉或其它效应，可能出现间接反射声音的记录包括比直接声音更高的水平。在更复杂的场景中，第二声源也同时提供声音信号，导致几个不同声音信号的叠加，它们中的一些源自声源P1和P2，它们中的一些是墙壁上的反射。

本申请的目的在于以这样的方式处理记录的信号，即，使得可以识别和定位各个声源相对于基准点的位置。

解决将某些位置信息与声源相关联的问题的另一应用存在于虚拟现实(VR)应用中。这样的应用通常包括在虚拟环境内具有若干对象的360°立体视频信号，其中一些对象与声音对应对象相关联。

这些对象(视觉和音频)分别经由例如双眼头戴式耳机和立体声头戴式耳机呈现给用户。双眼头戴式耳机能够跟踪用户头部的位置和方向(例如使用IMU/加速度计)，使得可以相应地调整分别播放到头戴式耳机和耳机的视频和音频，以保持虚拟现实的幻觉。例如，在给定时刻，仅向用户显示360°视频信号的一部分，其对应于虚拟环境中的用户的当前视野。当用户移动或旋转他们的头部时，显示给用户的360°信号的部分改变以反映该移动将如何改变用户在虚拟世界中的视图。类似地，当用户移动时，从虚拟场景中的不同位置发出的声音可经受左头戴式耳机通道和右头戴式耳机通道的自适应滤波，以模拟声音中的频率相关的相位和振幅变化，所述频率相关的相位和振幅变化在现实生活中由于在耳朵与人头部之间的空间偏移和上身散射而发生。

一些VR制作完全由计算机生成的图像和单独预先记录或合成的声音组成。然而，使用能够记录360°视场的摄像机和捕捉声场的若干麦克风来产生“实景”VR记录正变得日益流行。然后，利用根据所提出的原理的方法处理来自麦克风的记录声音，并将其与视频信号对准，以产生可以经由如上所述的头戴式耳机和耳机播放的VR记录。

解决将某些位置信息与声源相关联的问题的另一应用存在于下一代音频(NGA)应用中。这种应用通常包括具有诸如位置的元数据的音频对象。

这些对象(视觉和音频)经由例如具有双耳呈现的头部跟踪立体声头戴式耳机呈现给用户。这种头戴式耳机作为双眼耳机能够跟踪用户头部的方位(例如使用IMU/加速度计)，使得可以相应地调整向头戴式耳机播放的音频以保持被音频沉浸的幻觉。例如，当用户移动或旋转其头部时，从虚拟场景或使用本创新所记录的场景中的不同位置发出的声音可经受左头戴式耳机通道和右头戴式耳机通道的自适应滤波，以模拟由于耳朵与人头部之间的空间偏移和上身散射而在现实生活中发生的声音中的频率相关相位和振幅变化。

现在参考图1，其示出了根据所提出的原理的方法的各个块。为了简单起见，该方法是使用图3的上述场景来解释的。该方法不仅适用于预先记录的声音信号的后处理，而且适用于例如在音频会议、现场事件等期间的实时声音信号。该方法开始于分别在块BM1和BM2中提供一个或多个第一声音信号和多个第二声音信号。所记录的声音信号优选地包括相同的数字分辨率，包括相同的采样频率(例如，96kHz处的14bit)。在使用不同的分辨率或采样频率的情况下，可取的是对各种声音信号进行重新采样以获得具有相同分辨率和采样频率的信号。

包括元件3'、R1、30A和31的图像的上部涉及两个或更多第一声音信号之间的可能串扰的识别，所述第一声音信号是由麦克风记录的、要为其确定位置的声音信号。如前所述，反射以及直接声音由块BM1中的两个麦克风记录。为了确定两个或更多个麦克风中的哪个实际上位于相应声源处，由两个麦克风记录的信号将被处理、滤波和互相关以获得互相关联的时间差。

为此，使用频率加权相位变换来处理两个信号。在第一步骤中，使用STFT将每个第一信号变换到频域以获得时间-频率谱。通过首先产生平滑功率谱S(l，k)从该谱导出频谱屏蔽滤波器，其中l是来自麦克风的声音信号，k是该声音信号的相应帧。对于每个频率区间，一阶滤波器基于先前帧估算当前帧中的噪声n(l，k)。总噪声n(l，k)由下式给出：

n(l，k)＝(1-α)log(S(l，k))+(n(l，k-1))^α

其中，不同的α取决于S(l，k)＜log(n(l，k-1))。因此，当SNR高于某个阈值时，滤波器掩模值为1，否则为0。结果是与两个第一信号中的每一个相关联的不同滤波器掩模。在下一步骤中，通过使两对第一信号互相关联并使互相关联结果归一化处理来生成交叉频谱。然后，将各个估算的滤波器应用于归一化交叉频谱，并执行逆STFT以获得滤波和相关联信号，参见参考31。在这方面，应当注意，对于交叉频谱R_xy，应当使用滤波器Fx(对于信号x)，而对于交叉频谱R_yx，应当使用滤波器Fy(对于信号y)。然后，使用滤波和相关联信号来估算记录第一声音信号的两个麦克风中的直接声音的符号时间差或延迟。块31中描述的符号，即dt＞0或dt＜0提供哪个麦克风更接近实际声源的信息。因此，该麦克风(和声音信号)然后与相应的声源和对应的滤波器掩模相关联。

如果定义了声音信号与相应声源的关联，即如果仅记录了一个第一信号，则可以省略上述步骤。返回参考图3，在下部中示出的块3、R2至35描述了估算到基准点的距离和角度的各个步骤。块BM3包含由位置相对于基准点固定的一个或多个第二麦克风记录的多个第二声音信号。每个第二麦克风的位置稍有不同，以便能够稍后获得角度，但是足够接近，使得可以确定和过滤例如来自墙壁的反射等的影响。在本示例中，存在四个不同的第二声音信号，每个由不同的第二麦克风记录。

现在，该过程与针对两个或更多个第一声音信号的处理所描述的过程类似。然而，在块3中，第一声音信号(将为其确定距离和角度的哪个)现在与四个第二声音信号中的至少一个互相关联。可对第二声音信号中的每一者执行块3以提供总共四个滤波和互相关联的信号，例如参见参考R2。

图2示出了示例性实施例中的频率加权相位变换。使用SFTF将两个输入信号变换到频域，然后从其导出交叉频谱。在归一化频谱之后，应用先前估算的滤波器，在这种情况下是与第一声音信号相关联的频谱掩模滤波器。然后使用逆SFTF将结果变换回时域。

如果频率加权PHAT中的信号不相关，则通过首先识别峰值将具有的最大值来估算块30B和30A中的时间延迟。为此，噪声方差由sigma＝mean(mask)/framesize和由sqrt(sigma*2*ln(framesize))导出的噪声的最大值给出。然后，对频率加权PHAT中超过该最大值的第一值(可能包括一些净空的尺度)执行搜索，并且对接近该第一值的局部最大值进行细化的搜索。最大值的位置对应于直接声音的飞行时间(n_max/采样频率)。然后在考虑声速的温度依赖性的情况下，通过飞行时间乘以声速来给出距离。然后，对每个交叉频谱重复在块30B中的处理。通过使用飞行时间估算的集合的均值在块31中进一步处理各种结果。然后在块33中从该估算中减去距离。

为了获得声源和基准点之间的角度，使用块R3、30C和34到36。为了避免房间反射的任何影响，在块R2中使用窗函数来截断第一滤波和相关联信号的FW-PHAT结果。如图R2所示，窗函数包括取决于第二麦克风之间的距离的宽度。由于记录第二声音信号的第二麦克风被稍微间隔开，所以声源与相应第二麦克风之间的估算距离也可变化。用于截断第一滤波和相关联信号的窗函数的宽度基本上与第二麦克风之间的最大飞行时间成比例。现在，对滤波和相关联信号的截断集合进行上采样，以提供更精细的时间分辨率，从而产生对角度的更精确估算。随后计算上采样的截断的第一信号对之间的互相关联。因此，将接收总共6个结果(4个截断的滤波信号导致6个不同的对)。

一对上采样的截断的第一信号的互相关联的最大值的位置对应于第一信号相应的第二麦克风的到达时间差。利用关于第二麦克风到基准点的位置的知识将到达时间差映射到入射角。这意味着可以在球形空间而不是时域中投影互相关联。块34中描述的方法类似于SRP-PHAT方法中的操纵响应步骤，其中6对互相关联对应于PHAT。然后，将投影的估算简单地相加在一起，并在块35中进行最大值的搜索。最大值的位置对应于到达角。

图4示出了根据所提出的原理确定距离和角度的方法的处理流程。该方法适合于实时处理以及离线处理，其中处理形成声场的若干先前记录的声音信号。

该方法包括在步骤S1中获得在声源处记录的第一声音信号，对于该第一声音信号，必须确定到基准点的距离和角度。在基准点的附近或至少在基准点的已知地点或位置记录多个第二声音信号。第一声音信号和多个第二声音信号在时间上同步。这种时间同步可以通过在记录会话期间将所有声音信号参考公共时基来实现。

然后在步骤S3中可选地预处理各种信号。例如，可以对所记录的声音信号执行去噪或均衡以改善后续处理步骤中的结果。然而，应当注意不要干扰信号的定时。在一些情况下，在预处理步骤S3期间应用保存所记录信号的相位信息的方法也是有用的。此外，对第一声音信号和每个第二声音信号执行STFT。

在本示例中，仅存在与单个声源相关联的单个第一声音信号。在步骤S4中通过估算滤波器，特别是频谱掩模滤波器，来处理第一声音信号。滤波器在时域中作用于第一声音信号的每个频率中的信噪比。所得到的频谱掩模包含用于每个频率区间的一组“1”和“0”。

在步骤S5中，在频域中将第一声音信号与多个第二声音信号中的至少一个进行相关联，并获得至少一个相关联信号。可重复此步骤S5以使第一声音信号与第二声音信号中的每一个互相关联。在应用步骤S4中估算的滤波器之前，可以归一化互相关联，以获得一个或多个滤波和相关联信号。

直到这一点，用于确定距离或角度的步骤是类似的。

现在继续步骤S6至S8中确定基准点到声源的距离。步骤S6包括在时域中获得至少一个滤波和相关联信号中超过专用阈值的第一定时值。然后，在步骤S7中，基于第一定时值获得对应于至少一个滤波和相关联信号中的阈值的第二时序值。步骤S6和S7都可以使用先前描述的对PHAT信号(即，滤波和相关联信号)中的最大值的搜索。在步骤S8中，专用基准点与声源之间的距离基于分别获得的第一定时值和第二定时值。尽管如此，也可以考虑空气的温度。在预先记录信号的情况下，在S9中存储和使用该信息以补偿影响声速的温度效应。

执行步骤S10至S13以导出并估算声源与基准点的角度。为了这个目的，步骤S5必须执行多次以获得第一声音信号与第二声音信号的每个互相关联。在步骤S10中，通过对PHAT信号应用窗函数来截断互相关联的PHAT信号。窗函数以对应于飞行时间的峰值为中心，其宽度与第二声源之间的最大飞行时间成比例。在步骤S10中应用截断窗口将去除由声音在物体和其它间接声音路径上的反射引起的信号部分。

然后，在步骤11中，选择被截断的相关联信号对，并对所选择的信号对应用互相关联。在具有两个第二声源的最简单形式中，存在单个对，在步骤S11中可以为其选择互相关联。在具有若干记录的第二声音信号的更复杂的场景中，可以选择若干对。通常可以假设，由于可能的波动和统计误差可能相互抵消，因此所选对的数量越多，确定的结果就更精确。因此，步骤11的结果是一个或多个互相关联信号。在步骤S12中对这些信号进行上采样，以提供影响角度确定的精度的更精细的定时分辨率。

在步骤S11和S12中的互相关联信号分别包括一个或更多最大值，通常仅包括由于先前截断而引起的相关性中的一个。一对截断的相关联信号的互相关联的最大值的位置(或者SRP-PHAT的PHAT)对应于记录多个第二声音信号的麦克风元件之间的到达时间差。

可以利用关于记录第二声音信号的麦克风的位置的知识将到达时间差映射到入射角。这意味着可以在球形空间而不是时域中投影互相关联。这是针对所有秒对的所有互相关联估算来执行的。然后，将投影的估算简单地加在一起，并且执行对最大值的搜索。最大值的位置对应于到达角。

一个附加方面涉及对随时间移动的声音信号的处理。例如，如果存在多于一个第一麦克风，则可以使用活动说话者检测算法来识别当前活动说话者和与其相关联的第一麦克风。对于移动的声音信号，可以利用动态模型和卡尔曼滤波来估算在不同时间的声源的位置。卡尔曼滤波器跟踪系统的估算状态和估算的方差或不确定性。使用状态转换模型和测量来更新该估算。

Claims

1.一种用于获得声源相对于专用基准点的位置的方法，包括以下步骤：

获得在声源处记录的第一声音信号；

获得多个第二声音信号，每个第二声音信号被记录在与专用基准点成已知关系的位置处；

其中，所述第一声音信号和所述多个第二声音信号在时间上同步；

对于所述第一声音信号：

估算作用于时频域中所述第一声音信号的每个频率区间中的信噪比的滤波器；

在频域中将所述第一声音信号与所述多个第二声音信号中的至少一个相关联以获得至少一个相关联信号；

将所述滤波器应用于所述至少一个相关联信号，以获得至少一个滤波和相关联信号；

获得所述至少一个滤波和相关联信号中超过时域中的专用阈值的第一定时值；

基于所述第一定时值获得与所述至少一个滤波和相关联信号中的阈值对应的第二定时值；

基于相应获得的第一定时值和第二定时值来估算所述专用基准点和所述声源之间的距离。

2.根据权利要求1所述的方法，还包括：

对于在与所述专用基准点成已知关系的位置处记录的至少两个滤波和相关联信号：

在特定时间段周围截断所述至少两个滤波和相关联声音信号；

获得截断的滤波和相关联声音信号对之间的互相关联；

通过将所获得的互相关联投影到球面空间中来获得经滤波的第一声音信号的到达角。

3.一种用于获得声源相对于专用基准点的角度的方法，包括以下步骤：

获得在一个或多个声源处记录的第一声音信号；

获得多个第二声音信号，每个第二声音信号被记录在与所述专用基准点成已知关系的位置处；

对于所述第一声音信号：

估算作用于时频域中所述第一声音信号之一的每个频率区间中的信噪比的滤波器；

在频域中将所述第一声音信号与所述多个第二声音信号中的至少两个进行相关联以获得至少两个相关联信号；

将所述滤波器应用于相关联信号，以获得至少两个滤波和相关联信号；

在选择的特定时间段内截断至少两个滤波和相关联声音信号，以便通过至少第一声音信号来切断来自环境的反射；

获得所述多个第二声音信号的截断的滤波且相关联声音信号对之间的互相关联；

通过将所获得的互相关投影到球面空间中来获得经滤波的第一声音信号的到达角。

4.根据权利要求2或3所述的方法，其中，所述特定时间段与所述多个第二声音信号的位置之间的最大飞行时间成比例。

5.根据权利要求2至4中任一项所述的方法，其中，截断所述滤波和相关联声音信号的步骤包括以下步骤：

对所述多个滤波和相关联声音信号进行上采样；或

对所述截断的滤波和相关联声音信号进行上采样。

6.根据权利要求2至4中任一项所述的方法，其中，获得互相关的步骤包括：

将操纵响应应用于所述截断的滤波和相关联声音信号中的每一个。

7.根据权利要求1所述的方法，其中，使所述第一声音信号相关包括：

对所述第一声音信号和所述多个第二声音信号进行上采样；或

对所述至少两个相关联信号进行上采样。

8.根据前述权利要求中任一项所述的方法，其中，估算用于所述第一声音信号的滤波器的步骤包括估算频谱掩模。

9.根据权利要求8所述的方法，其中，估算频谱掩模滤波器的步骤包括：

响应于先前时间片，基于每个时间片k的噪声来确定信噪比SNR；

如果所述信噪比未超过预定阈值，则将给定频率的频谱掩模参数设置为0；

如果所述信噪比超过所述预定阈值，则将所述给定频率的频谱掩模参数设置为1。

10.根据前述权利要求中任一项所述的方法，其中，将所述第一声音信号与所述多个第二声音信号中的至少一个相关联并且将所述滤波器应用于相关联信号的步骤，包括以下步骤：

对所述第一声音信号和所述多个第二声音信号中的至少一个执行短时傅立叶变换STFT以获得相应的频谱图；

获得相应的频谱图上的交叉频谱；

将所述滤波器应用于所获得的交叉频谱；

执行逆短时傅立叶变换ISTFT，以获得所述经滤波的第一声音信号。

11.根据前述权利要求中任一项所述的方法，其中，估算作用于所述第一声音信号的每个频率区间中的信噪比的滤波器，包括以下步骤：

应用分位数滤波器，特别是中值滤波器，以用于平滑从所述一个或多个第一记录的声音信号导出的功率谱的每个时间片k的功率谱；

响应于先前时间片，估算每个时间片k的噪声；

对于给定频率评估信噪比是否超过预定阈值，并响应于信噪比是否超过预定阈值将所述频率的滤波器参数设置为1或0。

12.根据前述权利要求中任一项所述的方法，其中，估算作用于所述第一声音信号的每个频率区间中的信噪比的滤波器，包括应用来自去噪过程的残余信号作为噪声估算的步骤，其中，所述去噪过程能够可选地基于机器学习。

13.根据前述权利要求中任一项所述的方法，对于至少两个第一声音信号，还包括：

估算作用于时频域中所述两个第一声音信号之一的每个频率区间中的信噪比的滤波器；

在频域中将所述两个第一声音信号中的第一个与所述两个第一声音信号中的第二个相关，并将估算的滤波器应用于相关联信号；

评估所述相关联信号之间的时间差；

基于对所述时间差的评估来选择所述两个第一声音信号中的一个作为所述一个或多个第一声音信号。

14.权利要求13的方法，其中相关步骤包括以下步骤：

对所述两个第一声音信号执行短时傅里叶变换STFT以获得相应的频谱图；

获得相应的频谱图上的交叉频谱；

将所述滤波器应用于所获得的交叉频谱；

执行逆短时傅立叶变换ISTFT，以获得滤波和相关联的第一声音信号。

15.根据前述权利要求中任一项所述的方法，其中，所述多个第二声音信号包括四个音频声音信号，其中，这四个声音信号中的两个以15cm的最大空间距离被记录。

16.根据前述权利要求中任一项所述的方法，还包括：

获得空气温度信息，特别是在所述多个第二声源附近的空气温度信息；以及

响应于所获得的空气温度信息来估算所述距离。

17.根据前述权利要求中任一项所述的方法，还包括：

将所述专用基准点与所述一个或多个声源之间的估算距离馈送到卡尔曼滤波器或粒子滤波器。

18.一种计算机系统，包括：

一个或多个处理器；

存储器，所述存储器耦合到所述一个或多个处理器并且包括指令，当由所述一个或多个处理器执行时，所述指令使所述一个或多个处理器执行根据前述权利要求中的任一项所述的方法。

19.一种非暂时性计算机可读存储介质，包括用于执行根据前述权利要求中任一项所述的方法的计算机可执行指令。