Nothing Special   »   [go: up one dir, main page]

CN111445920B - 一种多声源的语音信号实时分离方法、装置和拾音器 - Google Patents

一种多声源的语音信号实时分离方法、装置和拾音器 Download PDF

Info

Publication number
CN111445920B
CN111445920B CN202010252292.3A CN202010252292A CN111445920B CN 111445920 B CN111445920 B CN 111445920B CN 202010252292 A CN202010252292 A CN 202010252292A CN 111445920 B CN111445920 B CN 111445920B
Authority
CN
China
Prior art keywords
voice
frame
microphone array
speech
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010252292.3A
Other languages
English (en)
Other versions
CN111445920A (zh
Inventor
陈龙
隆弢
黄海
刘佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Shenglian Technology Co ltd
Original Assignee
Xi'an Shenglian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Shenglian Technology Co ltd filed Critical Xi'an Shenglian Technology Co ltd
Publication of CN111445920A publication Critical patent/CN111445920A/zh
Application granted granted Critical
Publication of CN111445920B publication Critical patent/CN111445920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本发明实施例提供了一种多声源的语音信号实时分离方法、装置和拾音器,对从圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号,将所述第一语音信号划分为预设帧长的语音帧,并确定需进行语音信号分离的有效语音帧,对每一有效语音帧,通过SRP‑PHAT声源定位算法确定所述有效语音帧的估计传播方向,确定与估计传播方向匹配的目标角度范围,通过与目标角度范围对应的输出通道输出该有效语音帧。通过SRP‑PHAT声源定位算法和预先设定的角度范围实现了对不同声源语音信号的分离,SRP‑PHAT声源定位算法运算量小、实时跟踪能力强,尤其是对室内混响有着很强的鲁邦性,能够准确估计语音的方位信息,实现对语音信号的分离。

Description

一种多声源的语音信号实时分离方法、装置和拾音器
技术领域
本发明涉及语音处理技术领域,尤其是涉及一种多声源的语音信号实时分离方法、装置和拾音器。
背景技术
近年来,随着语音识别技术的飞速发展,多路语音识别场景中对实时声源分离技术提出迫切的技术需求。比如,在某些重要会议场景中,实时会议记录,以及记录质量都有着举足轻重的作用。但就目前实际市场而言,会议记录或是依靠人工现场进行记录和整理;或是先期视频录制再后期回放进行整理。而这两种方式,都是一项非常耗时和繁琐的人力工作。可以通过录音的方式记录语音信号,但是当需要回放某一内容时,需要回放整段录音,耗时较长。
现有技术中也存在对声源定向的技术,但是这些技术普遍存在定位准确度低、实时跟踪性差的问题,此外,声源分离存在切换不及时、语音分离存在误判等问题。
由此,在实际应用过程中,声源分离技术定位准确性低、声源分离存在切换不及时、语音分离存在误判。
发明内容
本发明实施例提供一种语音信号分离方法和拾音器,用以解决现有技术中的声源分离技术定位准确性低、声源分离存在切换不及时、语音分离存在误判的问题。
针对以上技术问题,第一方面,本发明实施例提供一种多声源的语音信号实时分离方法,包括:
从圆环形麦克风阵列采集的语音信号中,获取由所述圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号;
将所述第一语音信号划分为预设帧长的语音帧,通过语音活性检测从划分的各语音帧中确定需进行语音信号分离的有效语音帧;
对每一有效语音帧,通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向,确定与所述有效语音帧的估计传播方向匹配的角度范围,作为目标角度范围,通过与所述目标角度范围对应的输出通道输出所述有效语音帧。
第二方面,本发明实施例提供一种拾音器,包括:包括圆环形麦克风阵列和处理单元;
所述圆环形麦克风阵列用于采集语音信号,并将采集的语音信号发送到处理单元;
所述处理单元用于执行以上任一项所述的种多声源的语音信号实时分离方法。
第三方面,本发明实施例提供一种多声源的语音信号实时分离装置,包括:
获取模块,用于从圆环形麦克风阵列采集的语音信号中,获取由所述圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号;
确定模块,用于将所述第一语音信号划分为预设帧长的语音帧,通过语音活性检测从划分的各语音帧中确定需进行语音信号分离的有效语音帧;
分离模块,用于对每一有效语音帧,通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向,确定与所述有效语音帧的估计传播方向匹配的角度范围,作为目标角度范围,通过与所述目标角度范围对应的输出通道输出所述有效语音帧。
本发明的实施例提供了一种多声源的语音信号实时分离方法、装置和拾音器,对从圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号,将所述第一语音信号划分为预设帧长的语音帧,并确定需进行语音信号分离的有效语音帧,对每一有效语音帧,通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向,确定与估计传播方向匹配的目标角度范围,通过与目标角度范围对应的输出通道输出该有效语音帧。通过SRP-PHAT声源定位算法和预先设定的角度范围实现了对不同声源语音信号的分离,SRP-PHAT声源定位算法运算量小、实时跟踪能力强,尤其是对室内混响有着很强的鲁邦性,能够准确估计语音的方位信息,实现对语音信号的分离。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种多声源的语音信号实时分离方法的流程示意图;
图2是本发明另一个实施例提供的多声源的语音信号实时分离方法的具体过程示意图;
图3是本发明另一个实施例提供的圆环形麦克风阵列的结构示意图;
图4是本发明另一个实施例提供的n个阵元组成的圆环麦克风阵列对语音信号进行采集的示意图;
图5是本发明另一个实施例提供的由n个同规格参数的全向性麦克风组成的圆环形阵列对m组声波进行采集的示意图;
图6是本发明另一个实施例提供的VAD检测过程示意图;
图7是本发明另一个实施例提供的由6个规格的全向性麦克风组成的麦克风阵列示意图;
图8是本发明另一个实施例提供的对四个话语者进行语音分离后的声波图像;
图9是本发明另一个实施例提供的多声源的语音信号实时分离装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本实施例提供的多声源的语音信号实时分离方法的流程示意图,参见图1,该方法包括:
步骤101:从圆环形麦克风阵列采集的语音信号中,获取由所述圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号;
步骤102:将所述第一语音信号划分为预设帧长的语音帧,通过语音活性检测从划分的各语音帧中确定需进行语音信号分离的有效语音帧;
步骤101:对每一有效语音帧,通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向,确定与所述有效语音帧的估计传播方向匹配的角度范围,作为目标角度范围,通过与所述目标角度范围对应的输出通道输出所述有效语音帧。
本实施例提供的方法由计算机、服务器、对语音信号进行处理的设备(例如,拾音器)执行。预设帧长的变化范围通常为几毫秒到几十毫秒之间,例如,本实施例选取预设帧长为4ms。相邻的语音帧之间存在重叠时间,例如,重叠率为75%。
本实施例提供了一种多声源的语音信号实时分离方法,对从圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号,将所述第一语音信号划分为预设帧长的语音帧,并确定需进行语音信号分离的有效语音帧,对每一有效语音帧,通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向,确定与估计传播方向匹配的目标角度范围,通过与目标角度范围对应的输出通道输出该有效语音帧。通过SRP-PHAT声源定位算法和预先设定的角度范围实现了对不同声源语音信号的分离,SRP-PHAT声源定位算法运算量小、实时跟踪能力强,尤其是对室内混响有着很强的鲁邦性,能够准确估计语音的方位信息,实现对语音信号的分离。
具体来说,图2为本实施例提供的多声源的语音信号实时分离方法的具体过程示意图,参见图2,该过程首先通过麦克风阵列对其接收范围内的信号进行空时空采样;接着通过计算每一帧语音信号的能量,进行VAD检测;然后基于相位变换加权可控响应功率的声源定位算法(SRP-PHAT),在指定方向上寻找SRP-PHAT值最大的点,SRP-PHAT值最大的点即就是需要被分离的声源;最后利用得到的方位信息分离出指定方向上的语音信号。
具体的步骤包括:
(1)麦克风阵列时空采样;
(2)进行语音检测(VAD);
(3)通过SRP-PHAT搜索特定时空范围内声源方位;
(4)利用声源方位信息分离出指定方向上的语音信号。
图3为本实施例提供的圆环形麦克风阵列的结构示意图,麦克风阵列的分布情况与语音信号的采集有着密切的关系,最为常见的麦克风阵列是将阵元等间隔排列。本发明所涉及到的麦克风阵列为等间隔分布的圆环形阵列。参见图3,该圆环形阵列由n,(n为正整数)个规格参数相同全向麦克风组成,n个阵元在圆环上呈等间隔分布,其中r为圆环形阵列的半径,d为相邻两个阵元间的间距。为了防止空间混叠,阵元之间的间距d需要满足一定的条件,在空气中声速c,最高频率为fmax,则阵元的间隔需要满足d≤c/fmax。例如空气中声速为c=340m/s,fmax=4kHz,,该情况下d≤4.25cm。
进一步地,在上述实施例的基础上,所述对每一有效语音帧,通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向,包括:
对每一有效语音帧,构建当所述第一麦克风阵元接收所述有效语音帧时,所述圆环形麦克风阵列接收语音帧的接收能量随语音帧的传播方向变化的谱函数:
Figure BDA0002435934570000061
其中,P(f,θd)表示语音帧的传播方向与平面直角坐标系X轴之间的夹角为θd时,所述圆环形麦克风阵列接收语音帧的接收能量;n表示所述圆环形麦克风阵列中包含的麦克风阵元的总数量,w(f,θd)表示进行相位补偿的向量,
Figure BDA0002435934570000062
当构建的谱函数确定P(f,θd)取最大值时,根据公式
Figure BDA0002435934570000063
确定θ的值,将与平面直角坐标系X轴之间的夹角为所确定的θ时,对应的方向作为所述有效语音帧的估计传播方向;
其中,
Figure BDA0002435934570000064
w(f,θd)根据d(f,θ)确定,
Figure BDA0002435934570000065
Figure BDA0002435934570000066
Figure BDA0002435934570000067
其中,X1(f)表示所述第一麦克风阵元接收到的所述有效语音帧,Xj(f)表示任一第j个第二麦克风阵元接收的语音帧,θ1为所述第一麦克风阵元与平面直角坐标系X轴之间的夹角,θj为第j个第二麦克风阵元与平面直角坐标系X轴之间的夹角,r为所述圆环形麦克风阵列的半径,aj为幅度因子,θ表示需要进行估计的所述有效语音帧的传播方向。
关于声源定位函数的确定过程,即上述(3)中的SRP-PHAT声源定位算法。
需要说明的是,延时累加可控响应功率(SRP)方法只需较短的时间段,并对周围环境条件不敏感,但不能达到在强混响环境下应用的程度。处理多径信道畸变的一种基本方法是通过合理选择频域相关函数的权值,使系统对混响的影响更鲁棒。相位变换(PHAT)法就是一种典型的变换方法。在低度乃至中度混响的条件下,PHAT加权能提供较强的鲁棒性。SRP-PHAT方法有效地将声源定位中SRP法固有的鲁棒性和短时分析特性,与PHAT加权对其周围环境不敏感性相结合。
图4为本实施例提供的n个阵元组成的圆环麦克风阵列对语音信号进行采集的示意图,参见图4,使用SRP-PHAT方法对其DOA进行估计。圆环阵与水平面平行放置,及平面正交坐标系X、Y轴平面水平放置。图中θ为待估计的声波方向,r为圆环形阵列的半径,在本发明中把麦克风1阵元所接收到的语音信号作为参考信号,则所有麦克风阵元所接收到的信号可以表示为:
Figure BDA0002435934570000071
其中,Xj(f)表示第j个麦克风阵元所接收到信号,X1(f)表示第一个麦克风所接收到的语音信号即参考信号,aj为幅度因子,θ1为第一个麦克风与平面直角坐标系X轴之间的夹角,θj为第j个麦克风与平面直角坐标系X轴之间的夹角。SRP-PATH算法只需要利用相位信息,因此可以使用相变换方法(PATH),可以得到:
Figure BDA0002435934570000072
将其写成向量形式可得:
Figure BDA0002435934570000073
其中:
Figure BDA0002435934570000074
Figure BDA0002435934570000075
对每一组进行相位补偿,可得:
Figure BDA0002435934570000081
对每一组数据求平均后计算能量可得:
Figure BDA0002435934570000082
Figure BDA0002435934570000083
其中,w(f)=[w1(f),…,wj(f),…,wn(f)]H,且wH(f)w(f)=1。由上可以得知,当且仅当w(f)=d(f,θ)时,P(f)取得最大值。假设DOA的方向角度为θd,根据公式
Figure BDA0002435934570000084
构建相位补偿能量,可得:
Figure BDA0002435934570000085
根据公式
Figure BDA0002435934570000086
可构建出谱函数P(f,θd),如下:
Figure BDA0002435934570000087
在特定的方位角范围内进行搜索,如θd∈[0,360°),搜索所得到的最大值为该方位角范围内的声源方位为θ,表示如下:
Figure BDA0002435934570000088
本实施例通过SRP-PHAT声源定位算法实现了对语音信号来源的估计传播方向的确定,便于后续根据估计传播方向确定用于输出该语音帧的通道,从而实现语音信号的分离。
进一步地,在上述各实施例的基础上,所述确定与所述有效语音帧的估计传播方向匹配的角度范围,作为目标角度范围,通过与所述目标角度范围对应的输出通道输出所述有效语音帧,包括:
获取预先根据公式
Figure BDA0002435934570000091
确定的角度范围,其中,
Figure BDA0002435934570000092
Figure BDA0002435934570000093
判断确定的估计传播方向θ在
Figure BDA0002435934570000094
中所属的角度范围,作为目标角度范围,通过与所述目标角度范围对应的输出通道输出所述有效语音帧。
具体来说,图5为本实施例提供的由n个同规格参数的全向性麦克风组成的圆环形阵列对m组声波进行采集的示意图,假设声波的入射方向与圆环形麦克风阵列所在的水平面直角坐标系的X轴的夹角为θ,则可以表示为:
θ=[θ123,…,θm]
其中θm为声波m与X轴的夹角。
圆环形麦克风阵列所使用的麦克风为全向性麦克风,因此可以实现360°全向拾音,为了实现m个声源声波的分离,因此需要把360°方向进行均分,即360°/m,也就是说每一个声波所取值的范围为
Figure BDA0002435934570000095
表示如下:
Figure BDA0002435934570000096
为了便于观察和比较,将上式进行整理,可得:
Figure BDA0002435934570000097
其中,
Figure BDA0002435934570000098
Figure BDA0002435934570000099
据此根据SRP-PHAT方法在特定方位范围
Figure BDA00024359345700000910
内估计出DOA的角度,分别为θ1,θ2,…,θm,其中θ1为声源1的入射方向,θ2为声源2的入射方向,θm为声源m的入射方向,到此已识别出m个声源的入射方向,结合波束形成算法即可分离出这m个声源。
本实施例通过预先划分的角度范围,实现对各语音帧对应的声源的分离。
在上述语音信号分离的过程中,由于实际录音过程中存在没有语音信号或者录入杂音的情况,若能对这种情况进行识别,并不进行上述算法则能够大大节省运算资源,基于此,进一步地,在上述各实施例的基础上,
所述将所述第一语音信号划分为预设帧长的语音帧,通过语音活性检测从划分的各语音帧中确定需进行语音信号分离的有效语音帧,包括:
将所述第一语音信号划分为预设帧长的语音帧,根据公式
Figure BDA0002435934570000101
计算所述各语音帧对应的能量值,其中,E为语音帧的能量值,M为语音帧的帧长,|x(m)|为语音幅度;
根据语音帧的能量值,确定每一语音帧是否处于语音状态,将处于所述语音状态的各语音帧作为需进行语音信号分离的有效语音帧;
其中,语音状态为由连续的能量值大于预设阈值的语音帧形成的状态。
进一步地,在上述各实施例的基础上,所述根据语音帧的能量值,确定每一语音帧是否处于语音状态,将处于所述语音状态的各语音帧作为需进行语音信号分离的有效语音帧,包括:
若当前的语音帧的能量值大于所述预设阈值,则获取与当前的语音帧连续的,且帧数等于预设帧数的语音帧,作为上下关联语音帧;
判断各上下关联语音帧的能量值是否均大于所述预设阈值,若是,则当前的语音帧为语音状态,否则,当前的语音帧为静音状态。
具体来说,语音活动检测(VAD)的目的是从包含语音信号的一段信号中找出语音信号的起始点及结束点,从而只存储和处理有效语音信号。有效的端点检测不仅可以减少数据的存储量及处理时间,而且能排除无声的噪声干扰。端点检测的困难在于无声段或者语音段前后人为呼吸等产生的杂音,语音开始处的弱摩擦音或弱爆破音以及终点处的鼻音,这些使得语音的端点比较模糊,需要综合利用语音的各种信号特征,从而确保定位的精确性,避免包含噪音信号和丢失语音信号。短时能量是一种最为常见的语音活动检测方法,在本发明中运用短时能量方法进行语音检测,其公式如下:
Figure BDA0002435934570000102
其中,E为一帧内信号的能量值,M为帧长,|x(m)|为语音幅度。
短时语音活动检测分为四个状态来实现:静音状态、语音可能开始状态、语音状态、语音可能结束状态。图6为本实施例提供的VAD检测过程示意图,参见图6,该过程具体包括:
首先计算一帧语音能量,和所设置的门限进行比较,如果小于门限,则认为是开始静音状态,当大于该门限时,语音处于可能开始状态;当处于语音可能开始状态时,计算一帧语音能量,如果仍然大于门限,计数器加一,当连续三次大于该门限时,认为进入语音状态,计数器清零;如果小于门限值,返回到静音状态。当处于语音状态时,对语音进行存储,同时对能量进行判断处理,如果语音能量小于门限,转到语音可能结束状态。当处于语音可能结束状态,语音能量大于门限时,转到语音状态,小于门限时,另一个计数器加一,如果连续十次小于能量门限,则状态转到静音状态。
本实施例通过VAD检测使得不对语音状态之外的状态所采集的数据进行处理,第一语音信号仅为语音状态时所采集的信号,避免了对无关信号的处理,节省了运算资源。
此外,本申请提供了一种拾音器,包括如图3所示的圆环形麦克风阵列和处理单元;
所述圆环形麦克风阵列用于采集语音信号,并将采集的语音信号发送到处理单元;
所述处理单元用于执行以上任一项所述的种多声源的语音信号实时分离方法。
进一步地,在上述实施例的基础上,在所述麦克风阵列中,各麦克风阵元等间隔地分布在圆环上。
进一步地,在上述各实施例的基础上,相邻的两个麦克风阵元之间的距离小与或等于空气中声速与人耳能分辨的最高频率的比值。
本实施例提供的拾音器适用于上述各实施例提供的多声源的语音信号实时分离方法,在此不再赘述。
本实施例提供了一种拾音器,对从圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号,将所述第一语音信号划分为预设帧长的语音帧,并确定需进行语音信号分离的有效语音帧,对每一有效语音帧,通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向,确定与估计传播方向匹配的目标角度范围,通过与目标角度范围对应的输出通道输出该有效语音帧。通过SRP-PHAT声源定位算法和预先设定的角度范围实现了对不同声源语音信号的分离,SRP-PHAT声源定位算法运算量小、实时跟踪能力强,尤其是对室内混响有着很强的鲁邦性,能够准确估计语音的方位信息,实现对语音信号的分离。
为了能够更清楚的理解和实现本发明的内容,特做如下示例进行补充说明。图7是本实施例提供的由6个规格的全向性麦克风组成的麦克风阵列示意图,图7中的所示的麦克风阵列可以放置于圆形会议桌上,通过本申请提供的方法对会议的讲话内容实现分离。如图7所示,声波1即为声源1(A号说话者),声波2即为声源2(B号说话者),声波3即为声源3(C号说话者),声波4即为声源4(D号说话者),四个说话人分别在圆环形阵列的四个方位上,对应的方位信息分别为:
Figure BDA0002435934570000121
Figure BDA0002435934570000122
Figure BDA0002435934570000123
Figure BDA0002435934570000124
在本示例中说话人A、B、C、D依次各读了一段文章,选取麦克风1所采集到的语音信号作为要被分离的语音信号。经过上述算法处理,即依次经历如下过程:分帧求能量、语音活动性检测(VAD)、声源定位算法处理、波束形成算法分离处理,便可实现对四个话语者的语音信号进行分离功能。图8为本实施例提供的对四个话语者进行语音分离后的声波图像,如图8所示,通过本申请提供的方法实现了对会议过程中话语者的语音分离。
此外,图9为本实施例提供的多声源的语音信号实时分离装置的结构框图,参见图9,该装置包括获取模块901、确定模块902和分离模块903,其中,
获取模块901,用于从圆环形麦克风阵列采集的语音信号中,获取由所述圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号;
确定模块902,用于将所述第一语音信号划分为预设帧长的语音帧,通过语音活性检测从划分的各语音帧中确定需进行语音信号分离的有效语音帧;
分离模块903,用于对每一有效语音帧,通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向,确定与所述有效语音帧的估计传播方向匹配的角度范围,作为目标角度范围,通过与所述目标角度范围对应的输出通道输出所述有效语音帧。
本实施例提供的多声源的语音信号实时分离装置适用于上述各实施例提供的多声源的语音信号实时分离方法,在此不再赘述。
本实施例提供了一种多声源的语音信号实时分离装置,对从圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号,将所述第一语音信号划分为预设帧长的语音帧,并确定需进行语音信号分离的有效语音帧,对每一有效语音帧,通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向,确定与估计传播方向匹配的目标角度范围,通过与目标角度范围对应的输出通道输出该有效语音帧。通过SRP-PHAT声源定位算法和预先设定的角度范围实现了对不同声源语音信号的分离,SRP-PHAT声源定位算法运算量小、实时跟踪能力强,尤其是对室内混响有着很强的鲁邦性,能够准确估计语音的方位信息,实现对语音信号的分离。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims (9)

1.一种多声源的语音信号实时分离方法,其特征在于,包括:
从圆环形麦克风阵列采集的语音信号中,获取由所述圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号;
将所述第一语音信号划分为预设帧长的语音帧,通过语音活性检测从划分的各语音帧中确定需进行语音信号分离的有效语音帧;
对每一有效语音帧,构建当所述第一麦克风阵元接收所述有效语音帧时,所述圆环形麦克风阵列接收语音帧的接收能量随语音帧的传播方向变化的谱函数,通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向,确定与所述有效语音帧的估计传播方向匹配的角度范围,作为目标角度范围,通过与所述目标角度范围对应的输出通道输出所述有效语音帧。
2.根据权利要求1所述的多声源的语音信号实时分离方法,其特征在于,所述谱函数:
Figure FDA0004167145730000011
其中,P(f,θd)表示语音帧的传播方向与平面直角坐标系X轴之间的夹角为θd时,所述圆环形麦克风阵列接收语音帧的接收能量;n表示所述圆环形麦克风阵列中包含的麦克风阵元的总数量,w(f,θd)表示进行相位补偿的向量,
Figure FDA0004167145730000012
f表示频率,c表示空气中的声速;
所述通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向,包括:
当构建的谱函数确定P(f,θd)取最大值时,根据公式
Figure FDA0004167145730000013
确定θ的值,将与平面直角坐标系X轴之间的夹角为所确定的θ时,对应的方向作为所述有效语音帧的估计传播方向;
其中,
Figure FDA0004167145730000014
w(f,θd)根据d(f,θ)确定,
Figure FDA0004167145730000021
Figure FDA0004167145730000022
Figure FDA0004167145730000023
其中,X1(f)表示所述第一麦克风阵元接收到的所述有效语音帧,Xj(f)表示任一第j个第二麦克风阵元接收的语音帧,θ1为所述第一麦克风阵元与平面直角坐标系X轴之间的夹角,θj为第j个第二麦克风阵元与平面直角坐标系X轴之间的夹角,r为所述圆环形麦克风阵列的半径,aj为幅度因子,θ表示需要进行估计的所述有效语音帧的传播方向。
3.根据权利要求2所述的多声源的语音信号实时分离方法,其特征在于,所述确定与所述有效语音帧的估计传播方向匹配的角度范围,作为目标角度范围,通过与所述目标角度范围对应的输出通道输出所述有效语音帧,包括:
获取预先根据公式
Figure FDA0004167145730000024
确定的角度范围,其中,
Figure FDA0004167145730000025
判断确定的估计传播方向θ在
Figure FDA0004167145730000026
中所属的角度范围,作为目标角度范围,通过与所述目标角度范围对应的输出通道输出所述有效语音帧;其中,m表示采集的声源组数。
4.根据权利要求1所述的多声源的语音信号实时分离方法,其特征在于,所述将所述第一语音信号划分为预设帧长的语音帧,通过语音活性检测从划分的各语音帧中确定需进行语音信号分离的有效语音帧,包括:
将所述第一语音信号划分为预设帧长的语音帧,根据公式
Figure FDA0004167145730000027
计算所述各语音帧对应的能量值,其中,E为语音帧的能量值,M为语音帧的帧长,|x(m)|为语音幅度;
根据语音帧的能量值,确定每一语音帧是否处于语音状态,将处于所述语音状态的各语音帧作为需进行语音信号分离的有效语音帧;
其中,语音状态为由连续的能量值大于预设阈值的语音帧形成的状态。
5.根据权利要求4所述的多声源的语音信号实时分离方法,其特征在于,所述根据语音帧的能量值,确定每一语音帧是否处于语音状态,将处于所述语音状态的各语音帧作为需进行语音信号分离的有效语音帧,包括:
若当前的语音帧的能量值大于所述预设阈值,则获取与当前的语音帧连续的,且帧数等于预设帧数的语音帧,作为上下关联语音帧;
判断各上下关联语音帧的能量值是否均大于所述预设阈值,若是,则当前的语音帧为语音状态,否则,当前的语音帧为静音状态。
6.一种拾音器,其特征在于,包括圆环形麦克风阵列和处理单元;
所述圆环形麦克风阵列用于采集语音信号,并将采集的语音信号发送到处理单元;
所述处理单元用于执行权利要求1-5中任一项所述的多声源的语音信号实时分离方法。
7.根据权利要求6所述的拾音器,其特征在于,在所述麦克风阵列中,各麦克风阵元等间隔地分布在圆环上。
8.根据权利要求7所述的拾音器,其特征在于,相邻的两个麦克风阵元之间的距离小于或等于空气中声速与人耳能分辨的最高频率的比值。
9.一种多声源的语音信号实时分离装置,其特征在于,包括:
获取模块,用于从圆环形麦克风阵列采集的语音信号中,获取由所述圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号;
确定模块,用于将所述第一语音信号划分为预设帧长的语音帧,通过语音活性检测从划分的各语音帧中确定需进行语音信号分离的有效语音帧;
分离模块,用于对每一有效语音帧,构建当所述第一麦克风阵元接收所述有效语音帧时,所述圆环形麦克风阵列接收语音帧的接收能量随语音帧的传播方向变化的谱函数,通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向,确定与所述有效语音帧的估计传播方向匹配的角度范围,作为目标角度范围,通过与所述目标角度范围对应的输出通道输出所述有效语音帧。
CN202010252292.3A 2020-03-19 2020-04-01 一种多声源的语音信号实时分离方法、装置和拾音器 Active CN111445920B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010197239 2020-03-19
CN2020101972398 2020-03-19

Publications (2)

Publication Number Publication Date
CN111445920A CN111445920A (zh) 2020-07-24
CN111445920B true CN111445920B (zh) 2023-05-16

Family

ID=71652721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010252292.3A Active CN111445920B (zh) 2020-03-19 2020-04-01 一种多声源的语音信号实时分离方法、装置和拾音器

Country Status (1)

Country Link
CN (1) CN111445920B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883168B (zh) * 2020-08-04 2023-12-22 上海明略人工智能(集团)有限公司 一种语音处理方法及装置
CN111933182B (zh) * 2020-08-07 2024-04-19 抖音视界有限公司 声源跟踪方法、装置、设备和存储介质
CN114355286A (zh) * 2020-10-12 2022-04-15 阿里巴巴集团控股有限公司 一种声源追踪方法、装置、设备、系统及存储介质
CN114387970A (zh) * 2020-10-21 2022-04-22 阿里巴巴集团控股有限公司 音频信号处理方法、装置及电子设备
CN112382306B (zh) * 2020-12-02 2022-05-10 思必驰科技股份有限公司 分离说话人音频的方法及装置
CN112242149B (zh) * 2020-12-03 2021-03-26 北京声智科技有限公司 音频数据的处理方法、装置、耳机及计算机可读存储介质
CN112859000B (zh) * 2020-12-31 2023-09-12 华为技术有限公司 一种声源定位方法以及装置
CN113514801A (zh) * 2021-04-28 2021-10-19 成都启英泰伦科技有限公司 基于深度学习的麦克风阵列声源定位方法及声源识别方法
CN113707149A (zh) * 2021-08-30 2021-11-26 维沃移动通信有限公司 音频处理方法和装置
CN116030815B (zh) * 2023-03-30 2023-06-20 北京建筑大学 一种基于声源位置的语音分割聚类方法和装置
CN116609726A (zh) * 2023-05-11 2023-08-18 钉钉(中国)信息技术有限公司 一种声源定位方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201312967D0 (en) * 2013-07-19 2013-09-04 Canon Kk Method and apparatus for sound sources localization with improved secondary sources localization
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位系统
CN109188362A (zh) * 2018-09-03 2019-01-11 中国科学院声学研究所 一种麦克风阵列声源定位信号处理方法
CN110322869A (zh) * 2019-05-21 2019-10-11 平安科技(深圳)有限公司 会议分角色语音合成方法、装置、计算机设备和存储介质
CN110726972A (zh) * 2019-10-21 2020-01-24 南京南大电子智慧型服务机器人研究院有限公司 干扰及高混响环境下使用传声器阵列的语音声源定位方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102562287B1 (ko) * 2016-10-14 2023-08-02 삼성전자주식회사 전자 장치 및 전자 장치의 오디오 신호 처리 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201312967D0 (en) * 2013-07-19 2013-09-04 Canon Kk Method and apparatus for sound sources localization with improved secondary sources localization
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位系统
CN109188362A (zh) * 2018-09-03 2019-01-11 中国科学院声学研究所 一种麦克风阵列声源定位信号处理方法
CN110322869A (zh) * 2019-05-21 2019-10-11 平安科技(深圳)有限公司 会议分角色语音合成方法、装置、计算机设备和存储介质
CN110726972A (zh) * 2019-10-21 2020-01-24 南京南大电子智慧型服务机器人研究院有限公司 干扰及高混响环境下使用传声器阵列的语音声源定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于环形阵列的近场多声源波达方向跟踪;曹洁等;《计算机应用研究》;20160430;第33卷(第04期);第1183-1186+1227页 *
曹洁等.基于环形阵列的近场多声源波达方向跟踪.《计算机应用研究》.2016,第33卷(第04期),第1183-1186+1227页. *

Also Published As

Publication number Publication date
CN111445920A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN111445920B (zh) 一种多声源的语音信号实时分离方法、装置和拾音器
CN111025233B (zh) 一种声源方向定位方法和装置、语音设备和系统
US10455325B2 (en) Direction of arrival estimation for multiple audio content streams
US9837099B1 (en) Method and system for beam selection in microphone array beamformers
CN111044973B (zh) 一种用于麦克风方阵的mvdr目标声源定向拾音方法
CN111429939B (zh) 一种双声源的声音信号分离方法和拾音器
CN110010147A (zh) 一种麦克风阵列语音增强的方法和系统
CN112017681B (zh) 定向语音的增强方法及系统
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
CN110379439B (zh) 一种音频处理的方法以及相关装置
CN110858476B (zh) 一种基于麦克风阵列的声音采集方法及装置
CN108109617A (zh) 一种远距离拾音方法
CN110534126B (zh) 一种基于固定波束形成的声源定位和语音增强方法及系统
CN112363112B (zh) 一种基于线性麦克风阵列的声源定位方法及装置
CN110875056B (zh) 语音转录设备、系统、方法、及电子设备
CN107124647A (zh) 一种全景视频录制时自动生成字幕文件的方法及装置
CN113870893B (zh) 一种多通道双说话人分离方法及系统
CN112485761B (zh) 一种基于双麦克风的声源定位方法
CN115359804B (zh) 一种基于麦克风阵列的定向音频拾取方法和系统
Hao et al. Spectral flux-based convolutional neural network architecture for speech source localization and its real-time implementation
CN113514801A (zh) 基于深度学习的麦克风阵列声源定位方法及声源识别方法
He et al. Spatial attention for far-field speech recognition with deep beamforming neural networks
CN113225441B (zh) 一种会议电话系统
Dwivedi et al. Long-term temporal audio source localization using sh-crnn
WO2023056905A1 (zh) 声源定位方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant