CN117789741A - 语音信号处理方法、装置、车辆及存储介质 - Google Patents
语音信号处理方法、装置、车辆及存储介质 Download PDFInfo
- Publication number
- CN117789741A CN117789741A CN202211205023.7A CN202211205023A CN117789741A CN 117789741 A CN117789741 A CN 117789741A CN 202211205023 A CN202211205023 A CN 202211205023A CN 117789741 A CN117789741 A CN 117789741A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- sound source
- voice signal
- determining
- target voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000015654 memory Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 230000006854 communication Effects 0.000 description 27
- 238000004891 communication Methods 0.000 description 26
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000008447 perception Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000010267 cellular communication Effects 0.000 description 3
- 239000000446 fuel Substances 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- ATUOYWHBWRKTHZ-UHFFFAOYSA-N Propane Chemical compound CCC ATUOYWHBWRKTHZ-UHFFFAOYSA-N 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000002485 combustion reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 101001093748 Homo sapiens Phosphatidylinositol N-acetylglucosaminyltransferase subunit P Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 239000001294 propane Substances 0.000 description 1
- 230000000979 retarding effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本公开涉及一种语音信号处理方法、装置、车辆及存储介质。语音信号处理方法,应用于车辆,包括:在检测到蓝牙通话时,确定所述车辆内被激活的至少一个音区位置,其中,所述车辆的每个座椅位置对应一个音区位置;获取所述音区位置的目标语音信号,并确定所述目标语音信号的声源方位;根据所述声源方位确定指向所述声源方位的拾音波束,以通过所述拾音波束收集所述目标语音信号。提供本公开,能够实现对车内用户的语音增强,提高车载通话质量。
Description
技术领域
本公开涉及车辆技术领域,尤其涉及一种语音信号处理方法、装置、车辆及存储介质。
背景技术
目前,车载蓝牙可以通过无线技术与移动终端建立连接,连接后,用户可以通过车载蓝牙或移动终端进行通话,当通过车载蓝牙通话时,会利用车载蓝牙麦克风采集周围的语音信号,并将采集到的语音信号发送给通话的另一端。然而通过车载蓝牙通话过程中,由于车内环境相对复杂,风切声、引擎声、风扇声、车内乘客说话声将直接影响车载蓝牙通话的通话质量。
发明内容
为克服相关技术中存在的问题,本公开提供一种语音信号处理方法、装置、车辆及存储介质。
根据本公开实施例的第一方面,提供一种语音信号处理方法,应用于车辆,包括:
在检测到蓝牙通话时,确定所述车辆内被激活的至少一个音区位置,其中,所述车辆的每个座椅位置对应一个音区位置;
获取所述音区位置的目标语音信号,并确定所述目标语音信号的声源方位;
根据所述声源方位确定指向所述声源方位的拾音波束,以通过所述拾音波束收集所述目标语音信号。
可选地,所述确定所述车辆内被激活的至少一个音区位置,包括:
控制车辆的中控面板显示可被激活的音区位置的音区模式,其中,所述音区模式包括全车音区模式和局部音区模式;
基于用户在所述中控面板上选择的全车音区模式,确定车辆的全部座椅位置为被激活的音区位置;
基于用户在所述局部音区模式下选择的座椅位置,确定对应被激活的音区位置。
可选地,所述车辆的每个座椅配置有车载蓝牙,所述确定所述车辆内被激活的至少一个音区位置,包括:
获取已建立蓝牙通话的目标车载蓝牙的蓝牙识别号;
根据所述蓝牙识别号对应的目标座椅,确定被激活的至少一个音区位置。
可选地,所述确定所述目标语音信号的声源方位,包括:
对所述目标语音信号进行方位估计,确定所述目标语音信号的声源方位。
可选地,当所述音区位置包括一个时,所述根据所述声源方位确定指向所述声源方位的拾音波束,包括:
根据所述声源方位,基于低旁瓣波束形成所述拾音波束。
可选地,当所述音区位置包括多个时,所述根据所述声源方位确定指向所述声源方位的拾音波束,包括:
根据每个目标语音信号的声源方位,基于自适应波束形成指向对应声源方位的拾音波束。
可选地,所述根据所述声源方位确定指向所述声源方位的拾音波束之后,所述方法还包括:
按照设定的时间周期检测所述目标语音信号的声源方位;
当检测到所述目标语音信号的声源方位发生变化时,根据变化后的声源方位,调整指向所述声源方位的拾音波束。
可选地,所述确定所述目标语音信号的声源方位之前,所述方法还包括:
对所述目标语音信号进行回声消除。
可选地,所述根据所述声源方位确定指向所述声源方位的拾音波束之后,所述方法还包括:
对收集的所述目标语音信号进行单通道滤波,以滤除噪音。
根据本公开实施例的第二方面,提供一种语音信号处理装置,应用于车辆,包括:
第一确定模块,用于在检测到蓝牙通话时,确定所述车辆内被激活的至少一个音区位置,其中,所述车辆的每个座椅位置对应一个音区位置;
第二确定模块,用于获取所述音区位置的目标语音信号,并确定所述目标语音信号的声源方位;
拾音模块,用于根据所述声源方位确定指向所述声源方位的拾音波束,以通过所述拾音波束收集所述目标语音信号。
可选地,所述第一确定模块采用如下方式确定所述车辆内被激活的至少一个音区位置:
控制车辆的中控面板显示可被激活的音区位置的音区模式,其中,所述音区模式包括全车音区模式和局部音区模式;
基于用户在所述中控面板上选择的全车音区模式,确定车辆的全部座椅位置为被激活的音区位置;
基于用户在所述局部音区模式下选择的座椅位置,确定对应被激活的音区位置。
可选地,所述车辆的每个座椅配置有车载蓝牙,所述第一确定模块采用如下方式确定所述车辆内被激活的至少一个音区位置:
获取已建立蓝牙通话的目标车载蓝牙的蓝牙识别号;
根据所述蓝牙识别号对应的目标座椅,确定被激活的至少一个音区位置。
可选地,所述第二确定模块采用如下方式确定所述目标语音信号的声源方位:
对所述目标语音信号进行方位估计,确定所述目标语音信号的声源方位。
可选地,当所述音区位置包括一个时,所述第二确定模块采用如下方式根据所述声源方位确定指向所述声源方位的拾音波束:
根据所述声源方位,基于低旁瓣波束形成所述拾音波束。
可选地,当所述音区位置包括多个时,所述第二确定模块采用如下方式根据所述声源方位确定指向所述声源方位的拾音波束:
根据每个目标语音信号的声源方位,基于自适应波束形成指向对应声源方位的拾音波束。
可选地,所述根据所述声源方位确定指向所述声源方位的拾音波束之后,所述装置还包括:
检测模块,用于按照设定的时间周期检测所述目标语音信号的声源方位;
调整模块,用于当检测到所述目标语音信号的声源方位发生变化时,根据变化后的声源方位,调整指向所述声源方位的拾音波束。
可选地,所述装置还包括:
消除模块,用于确定所述目标语音信号的声源方位之前,对所述目标语音信号进行回声消除。
可选地,所述装置还包括:
滤波模块,用于根据所述声源方位确定指向所述声源方位的拾音波束之后,对收集的所述目标语音信号进行单通道滤波,以滤除噪音。
根据本公开实施例的第三方面,提供一种车辆,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:实现本公开第一方面所提供的方法的步骤。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:在检测到蓝牙通话,确定车辆内被激活的至少一个音区位置后,通过获取该音区位置的目标语音信号,并根据目标语音信号确定目标语音信号的声源方位,之后根据声源方位确定指向声源方位的拾音波束,根据指向声源方位的拾音波束收集目标语音信号,可提高基于车载蓝牙进行通话的通话质量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种语音信号处理方法的流程图。
图2是根据一示例性实施例示出的应用本公开的语音信号处理方法的中控面板显示界面示例图。
图3是根据一示例性实施例示出的应用本公开的语音信号处理方法的车辆的音区位置和车辆设置的麦克风位置的示例图。
图4是根据一示例性实施例示出的一种语音信号处理装置的框图。
图5是一示例性实施例示出的一种车辆的功能框图示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
图1是根据一示例性实施例示出的一种语音信号处理方法的流程图,如图1所示,语音信号处理方法用于车辆中,包括以下步骤。
在步骤S11中,在检测到蓝牙通话时,确定车辆内被激活的至少一个音区位置,其中,车辆的每个座椅位置对应一个音区位置。
其中,本公开也预先对车辆内部进行音区的划分,例如将车辆的每个座椅位置划分为一个音区,即车辆的每个座椅位置对应一个音区位置。
一种实施方式中,在检测到蓝牙通话时,例如可通过如下方式确定被激活的至少一个音区位置:
本公开中,为了准确地确定车辆内被激活的音区位置,避免音区位置误唤醒的情况,一种实施方式中,针对相关技术中车辆的蓝牙系统,本公开中,在检测到蓝牙通话时,可以控制车辆的中控面板显示可被激活的音区位置的音区模式,其中,所述音区模式包括全车音区模式和局部音区模式。基于用户在所述中控面板上选择的全车音区模式,确定车辆的全部座椅位置为被激活的音区位置,基于用户在所述局部音区模式下选择的座椅位置,确定对应被激活的音区位置。
图2是根据一示例性实施例示出的应用本公开的语音信号处理方法的中控面板显示界面示例图。
在图2中,中控面板显示的音区模式包括全车音区模式和局部音区模式。
其中,局部音区模式中可以被选择具体的座椅位置,座椅位置例如可以包括主驾位置、副驾位置、主驾后位置和副驾后位置四个位置。
当然根据车辆座椅的布局位置,能够选择的座椅位置还可以有其他的配置,本公开在此不做限定。
为了准确地确定车辆内被激活的音区位置,避免音区位置误唤醒的情况,另一种实施方式中,本公开可预先对车辆的每个座椅配置有车载蓝牙,并预先存储与每个座椅对应的车载蓝牙的蓝牙识别号,并将车载蓝牙的蓝牙识别号与座椅位置一一对应关联。进而,在目标车载蓝牙建立蓝牙通话之后,可获取已建立蓝牙通话的目标车载蓝牙的蓝牙识别号,根据蓝牙识别号对应的目标座椅,确定对应被激活的音区位置。
在步骤S12中,获取音区位置的目标语音信号,并确定目标语音信号的声源方位。
图3是根据一示例性实施例示出的应用本公开的语音信号处理方法的车辆的音区位置和车辆设置的麦克风位置的示例图。
在图3中,例如车辆的驾驶室分为四个音区位置,分别是主驾位置区、副驾位置区、主驾后位置区和副驾后位置区。在每个音区均设置有麦克风,其中,每个音区的车载麦克风的布置位置不做具体限制。
仅作为示例,在图3的主驾位置区的正前方位置设置有麦克风11,副驾位置区的右后方位置设置有麦克风21,主驾后位置的左后方位置设置有麦克风22,副驾后位置的右后方位置设置有麦克风23。
其中,可以将位于主驾位置设置有麦克风11,副驾位置设置有麦克风21,主驾后位置设置有麦克风22和副驾后位置设置有麦克风23,组合成一个或者多个车载麦克风阵列,用以获取音区位置的目标语音信号。
一种实施方式中,组成的一个或者多个的车载麦克风阵列可以采集车内所有座位的语音信号,也可以基于预先划定的拾音区,采集车内设定拾音区的语音信号。例如,将麦克风11、麦克风21和麦克风22组成一个麦克风阵列,用于获取主驾位置的语音信号和副驾位置的语音信号。将麦克风23、麦克风21和麦克风22组成一个麦克风阵列,用于获取主驾后位置的语音信号和副驾后位置的语音信号。
此外,由于车窗,车门等部分的反射能力比较强,针对目标语音信号会产生回音,因此为了提高车载蓝牙通话的通话质量,本公开在确定目标语音信号的声源方位之前,需要对每个麦克风阵列接收的目标语音信号进行回声消除,以避免多径效应。
对麦克风阵列接收的目标语音信号进行回声消除(Acoustic EchoCancellation,AEC)时,可通过回声消除算法去除通过车窗车门等反射的回声。其中,回声消除算法例如可以包括最小均方(Least Mean Square,LMS),归一化LMS(Normalized LMS,NLMS),递归最小二乘(Recursive Least Square,RLS),分块频域自适应滤波器(PartitionBlock Frequency Domain Adaptive Filter,PBFDAF),频域NLMS(Frequency DomainNLMS,FDNLMS)等算法。
由于乘客乘坐车辆时,不一定乘客坐姿位于音区位置的中心位置,例如乘客可能会倾斜身子拨打电话,因此需要在激活的音区位置的角度覆盖范围内进行声源方位的估计,确定说话人相对音区位置的中心的具体角度。例如,音区位置的角度覆盖范围的角度方位大概为30°~60°。
其中,例如可通过如下方式对目标语音信号进行方位估计,确定目标语音信号的声源方位:
其中,对目标语音信号进行方位估计时,可通过例如波束形成技术(ConventionalBeamforming,CBF)、最小方差无失真响应技术(Minimum Variance DistortionlessResponse,MVDR)、多重信号分类算法(Multiple Signal Classification,MUSIC)、压缩感知技术(Compressed Sensing,CS),在激活的音区位置的角度覆盖范围内进行声源方位的估计,确定说话人相对音区位置的中心的具体角度,即得到目标语音信号的声源方位。
在步骤S13中,根据声源方位确定指向声源方位的拾音波束,以通过拾音波束收集目标语音信号。
本公开中,为实现各音区位置能够独立地进行人机交互,避免各音区位置的用户语音相互串扰,提高用户的使用体验和驾驶安全性,当音区位置包括一个时,例如可通过如下方式根据声源方位确定指向声源方位的拾音波束:
根据声源方位,基于低旁瓣波束形成拾音波束,即将拾音波束的波束主瓣指向声源方位,拾音波束的波束旁瓣作为噪声进行抑制。
针对相关技术中的车辆的蓝牙系统,例如在检测到蓝牙通话,控制车辆的中控面板显示可被激活的音区位置的音区模式,基于用户在局部音区模式下选择的主驾位置,确定对应被激活的音区位置为主驾位置。
之后,针对主驾位置,确定主驾位置的说话人相对音区位置的中心的角度(即确定目标语音信号的声源方位),之后根据声源方位,基于低旁瓣波束形成拾音波束,即将拾音波束的波束主瓣指向主驾位置的声源方位,拾音波束的波束旁瓣作为噪声进行抑制。
当音区位置包括多个时,例如可通过如下方式根据声源方位确定指向声源方位的拾音波束:
根据每个目标语音信号的声源方位,基于自适应波束形成指向对应声源方位的拾音波束。
例如,针对为每个座椅配置蓝牙的车辆,在检测到蓝牙通话时,根据已建立蓝牙通话的目标车载蓝牙的蓝牙识别号,确定蓝牙识别号对应的目标座椅为主驾位置和副驾位置,进而确定被激活的音区位置为主驾位置和副驾位置。
之后,分别针对主驾位置和副驾位置,确定主驾位置的说话人相对音区位置的中心的角度,以及确定副驾位置的说话人相对音区位置的中心的角度之后,根据主驾位置的声源方位和副驾位置的声源方位,基于自适应波束形成指向对应声源方位的拾音波束。
其中,主驾位置的拾音波束的波束主瓣指向主驾位置的声源方位,主驾位置的拾音波束的波束旁瓣为噪声和副驾位置的语音信号,从而指向主驾位置的拾音波束只提取主驾位置的语音信号。副驾位置的拾音波束的波束主瓣指向副驾位置的声源方位,副驾位置的拾音波束的波束旁瓣为噪声和主驾位置的语音信号,从而指向副驾位置的拾音波束只提取副驾位置的语音信号。并且这两个提取过程可以通过多线程同时处理,提高拾音效率。
此外,由于根据声源方位确定指向声源方位的拾音波束之后,拾音波束并不能完全抑制拾音波束之外的噪音,同时拾音波束的波束主瓣内还会混进噪音,因此为了进一步滤除噪音,提高目标语音信号的信噪比以及蓝牙通话清晰度,本公开在根据声源方位确定指向声源方位的拾音波束之后,语音信号处理方法还包括:
对收集的目标语音信号进行单通道滤波,以滤除噪音。
其中,单通道滤波例如包括谱减法及其改进算法、维纳滤波及其改进算法、小波分解降噪算法、子空间降噪算法。或者采用机器学习算法也可以对收集的目标语音信号进行语音降噪,例如采用深度学习网络滤波技术继续对提取的语音信号进行滤波,提高信噪比,提高通话的清晰度。
机器学习算法例如可以采用循环神经网络(Recurrent Neural Network,RNN),CLD网络(Convolutional Neural Networks,Long Short-Term Memory,Deep NeuralNetworks)等。或者可以采用多种降噪技术级联组合使用。
此外,由于车内用户的坐姿可能会发生变化,且是一个慢变的过程,因此可以设定n秒的时间周期,按照设定的时间周期检测目标语音信号的声源方位,当检测到目标语音信号的声源方位发生变化时,根据变化后的声源方位,调整指向声源方位的拾音波束。
在本公开的示例性实施例中,在检测到蓝牙通话,确定车辆内被激活的至少一个音区位置后,通过获取该音区位置的目标语音信号,并根据目标语音信号确定目标语音信号的声源方位,之后根据声源方位确定指向声源方位的拾音波束,根据指向声源方位的拾音波束收集目标语音信号,可提高基于车载蓝牙进行通话的通话质量。
图4是根据一示例性实施例示出的一种语音信号处理装置400的框图,应用于车辆,参照图4,语音信号处理装置包括:
第一确定模块401,用于在检测到蓝牙通话时,确定所述车辆内被激活的至少一个音区位置,其中,所述车辆的每个座椅位置对应一个音区位置;
第二确定模块402,用于获取所述音区位置的目标语音信号,并确定所述目标语音信号的声源方位;
拾音模块403,用于根据所述声源方位确定指向所述声源方位的拾音波束,以通过所述拾音波束收集所述目标语音信号。
可选地,所述第一确定模块401采用如下方式确定所述车辆内被激活的至少一个音区位置:
控制车辆的中控面板显示可被激活的音区位置的音区模式,其中,所述音区模式包括全车音区模式和局部音区模式;
基于用户在所述中控面板上选择的全车音区模式,确定车辆的全部座椅位置为被激活的音区位置;
基于用户在所述局部音区模式下选择的座椅位置,确定对应被激活的音区位置。
可选地,所述车辆的每个座椅配置有车载蓝牙,所述第一确定模块401采用如下方式确定所述车辆内被激活的至少一个音区位置:
获取已建立蓝牙通话的目标车载蓝牙的蓝牙识别号;
根据所述蓝牙识别号对应的目标座椅,确定被激活的至少一个音区位置。
可选地,所述第二确定模块402采用如下方式确定所述目标语音信号的声源方位:
对所述目标语音信号进行方位估计,确定所述目标语音信号的声源方位。
可选地,当所述音区位置包括一个时,所述第二确定模块402采用如下方式根据所述声源方位确定指向所述声源方位的拾音波束:
根据所述声源方位,基于低旁瓣波束形成所述拾音波束。
可选地,当所述音区位置包括多个时,所述第二确定模块402采用如下方式根据所述声源方位确定指向所述声源方位的拾音波束:
根据每个目标语音信号的声源方位,基于自适应波束形成指向对应声源方位的拾音波束。
可选地,所述根据所述声源方位确定指向所述声源方位的拾音波束之后,所述装置还包括:
检测模块,用于按照设定的时间周期检测所述目标语音信号的声源方位;
调整模块,用于当检测到所述目标语音信号的声源方位发生变化时,根据变化后的声源方位,调整指向所述声源方位的拾音波束。
可选地,所述装置还包括:
消除模块,用于确定所述目标语音信号的声源方位之前,对所述目标语音信号进行回声消除。
可选地,所述装置还包括:
滤波模块,用于根据所述声源方位确定指向所述声源方位的拾音波束之后,对收集的所述目标语音信号进行单通道滤波,以滤除噪音。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的语音信号处理方法的步骤。
参阅图5,图5是一示例性实施例示出的一种车辆600的功能框图示意图。车辆600可以被配置为完全或部分自动驾驶模式。例如,车辆600可以通过感知系统620获取其周围的环境信息,并基于对周边环境信息的分析得到自动驾驶策略以实现完全自动驾驶,或者将分析结果呈现给用户以实现部分自动驾驶。
车辆600可包括各种子系统,例如,信息娱乐系统610、感知系统620、决策控制系统630、驱动系统640以及计算平台650。可选的,车辆600可包括更多或更少的子系统,并且每个子系统都可包括多个部件。另外,车辆600的每个子系统和部件可以通过有线或者无线的方式实现互连。
在一些实施例中,信息娱乐系统610可以包括通信系统611,娱乐系统612以及导航系统613。
通信系统611可以包括无线通信系统,无线通信系统可以直接地或者经由通信网络来与一个或多个设备无线通信。例如,无线通信系统可使用3G蜂窝通信,例如CDMA、EVD0、GSM/GPRS,或者4G蜂窝通信,例如LTE。或者5G蜂窝通信。无线通信系统可利用WiFi与无线局域网(wireless local area network,WLAN)通信。在一些实施例中,无线通信系统可利用红外链路、蓝牙或ZigBee与设备直接通信。其他无线协议,例如各种车辆通信系统,例如,无线通信系统可包括一个或多个专用短程通信(dedicated short range communications,DSRC)设备,这些设备可包括车辆和/或路边台站之间的公共和/或私有数据通信。
娱乐系统612可以包括显示设备,麦克风和音响,用户可以基于娱乐系统在车内收听广播,播放音乐;或者将手机和车辆联通,在显示设备上实现手机的投屏,显示设备可以为触控式,用户可以通过触摸屏幕进行操作。
在一些情况下,可以通过麦克风获取用户的语音信号,并依据对用户的语音信号的分析实现用户对车辆600的某些控制,例如调节车内温度等。在另一些情况下,可以通过音响向用户播放音乐。
导航系统613可以包括由地图供应商所提供的地图服务,从而为车辆600提供行驶路线的导航,导航系统613可以和车辆的全球定位系统621、惯性测量单元622配合使用。地图供应商所提供的地图服务可以为二维地图,也可以是高精地图。
感知系统620可包括感测关于车辆600周边的环境的信息的若干种传感器。例如,感知系统620可包括全球定位系统621(全球定位系统可以是GPS系统,也可以是北斗系统或者其他定位系统)、惯性测量单元(inertial measurement unit,IMU)622、激光雷达623、毫米波雷达624、超声雷达625以及摄像装置626。感知系统620还可包括被监视车辆600的内部系统的传感器(例如,车内空气质量监测器、燃油量表、机油温度表等)。来自这些传感器中的一个或多个的传感器数据可用于检测对象及其相应特性(位置、形状、方向、速度等)。这种检测和识别是车辆600的安全操作的关键功能。
全球定位系统621用于估计车辆600的地理位置。
惯性测量单元622用于基于惯性加速度来感测车辆600的位姿变化。在一些实施例中,惯性测量单元622可以是加速度计和陀螺仪的组合。
激光雷达623利用激光来感测车辆600所位于的环境中的物体。在一些实施例中,激光雷达623可包括一个或多个激光源、激光扫描器以及一个或多个检测器,以及其他系统组件。
毫米波雷达624利用无线电信号来感测车辆600的周边环境内的物体。在一些实施例中,除了感测物体以外,毫米波雷达624还可用于感测物体的速度和/或前进方向。
超声雷达625可以利用超声波信号来感测车辆600周围的物体。
摄像装置626用于捕捉车辆600的周边环境的图像信息。摄像装置626可以包括单目相机、双目相机、结构光相机以及全景相机等,摄像装置626获取的图像信息可以包括静态图像,也可以包括视频流信息。
决策控制系统630包括基于感知系统620所获取的信息进行分析决策的计算系统631,决策控制系统630还包括对车辆600的动力系统进行控制的整车控制器632,以及用于控制车辆600的转向系统633、油门634和制动系统635。
计算系统631可以操作来处理和分析由感知系统620所获取的各种信息以便识别车辆600周边环境中的目标、物体和/或特征。目标可以包括行人或者动物,物体和/或特征可包括交通信号、道路边界和障碍物。计算系统631可使用物体识别算法、运动中恢复结构(Structure from Motion,SFM)算法、视频跟踪等技术。在一些实施例中,计算系统631可以用于为环境绘制地图、跟踪物体、估计物体的速度等等。计算系统631可以将所获取的各种信息进行分析并得出对车辆的控制策略。
整车控制器632可以用于对车辆的动力电池和引擎641进行协调控制,以提升车辆600的动力性能。
转向系统633可操作来调整车辆600的前进方向。例如在一个实施例中可以为方向盘系统。
油门634用于控制引擎641的操作速度并进而控制车辆600的速度。
制动系统635用于控制车辆600减速。制动系统635可使用摩擦力来减慢车轮644。在一些实施例中,制动系统635可将车轮644的动能转换为电流。制动系统635也可采取其他形式来减慢车轮644转速从而控制车辆600的速度。
驱动系统640可包括为车辆600提供动力运动的组件。在一个实施例中,驱动系统640可包括引擎641、能量源642、传动系统643和车轮644。引擎641可以是内燃机、电动机、空气压缩引擎或其他类型的引擎组合,例如汽油发动机和电动机组成的混动引擎,内燃引擎和空气压缩引擎组成的混动引擎。引擎641将能量源642转换成机械能量。
能量源642的示例包括汽油、柴油、其他基于石油的燃料、丙烷、其他基于压缩气体的燃料、乙醇、太阳能电池板、电池和其他电力来源。能量源642也可以为车辆600的其他系统提供能量。
传动系统643可以将来自引擎641的机械动力传送到车轮644。传动系统643可包括变速箱、差速器和驱动轴。在一个实施例中,传动系统643还可以包括其他器件,比如离合器。其中,驱动轴可包括可耦合到一个或多个车轮644的一个或多个轴。
车辆600的部分或所有功能受计算平台650控制。计算平台650可包括至少一个处理器651,处理器651可以执行存储在例如存储器652这样的非暂态计算机可读介质中的指令653。在一些实施例中,计算平台650还可以是采用分布式方式控制车辆600的个体组件或子系统的多个计算设备。
处理器651可以是任何常规的处理器,诸如商业可获得的CPU。可替换地,处理器651还可以包括诸如图像处理器(Graphic Process Unit,GPU),现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、片上系统(Sysem on Chip,SOC)、专用集成芯片(Application Specific Integrated Circuit,ASIC)或它们的组合。尽管图5功能性地图示了处理器、存储器、和在相同块中的计算机的其它元件,但是本领域的普通技术人员应该理解该处理器、计算机、或存储器实际上可以包括可以或者可以不存储在相同的物理外壳内的多个处理器、计算机、或存储器。例如,存储器可以是硬盘驱动器或位于不同于计算机的外壳内的其它存储介质。因此,对处理器或计算机的引用将被理解为包括对可以或者可以不并行操作的处理器或计算机或存储器的集合的引用。不同于使用单一的处理器来执行此处所描述的步骤,诸如转向组件和减速组件的一些组件每个都可以具有其自己的处理器,处理器只执行与特定于组件的功能相关的计算。
在本公开实施方式中,处理器651可以执行上述的语音信号处理方法。
在此处所描述的各个方面中,处理器651可以位于远离该车辆并且与该车辆进行无线通信。在其它方面中,此处所描述的过程中的一些在布置于车辆内的处理器上执行而其它则由远程处理器执行,包括采取执行单一操纵的必要步骤。
在一些实施例中,存储器652可包含指令653(例如,程序逻辑),指令653可被处理器651执行来执行车辆600的各种功能。存储器652也可包含额外的指令,包括向信息娱乐系统610、感知系统620、决策控制系统630、驱动系统640中的一个或多个发送数据、从其接收数据、与其交互和/或对其进行控制的指令。
除了指令653以外,存储器652还可存储数据,例如道路地图、路线信息,车辆的位置、方向、速度以及其它这样的车辆数据,以及其他信息。这种信息可在车辆600在自主、半自主和/或手动模式中操作期间被车辆600和计算平台650使用。
计算平台650可基于从各种子系统(例如,驱动系统640、感知系统620和决策控制系统630)接收的输入来控制车辆600的功能。例如,计算平台650可利用来自决策控制系统630的输入以便控制转向系统633来避免由感知系统620检测到的障碍物。在一些实施例中,计算平台650可操作来对车辆600及其子系统的许多方面提供控制。
可选地,上述这些组件中的一个或多个可与车辆600分开安装或关联。例如,存储器652可以部分或完全地与车辆600分开存在。上述组件可以按有线和/或无线方式来通信地耦合在一起。
可选地,上述组件只是一个示例,实际应用中,上述各个模块中的组件有可能根据实际需要增添或者删除,图5不应理解为对本公开实施例的限制。
在道路行进的自动驾驶汽车,如上面的车辆600,可以识别其周围环境内的物体以确定对当前速度的调整。物体可以是其它车辆、交通控制设备、或者其它类型的物体。在一些示例中,可以独立地考虑每个识别的物体,并且基于物体的各自的特性,诸如它的当前速度、加速度、与车辆的间距等,可以用来确定自动驾驶汽车所要调整的速度。
可选地,车辆600或者与车辆600相关联的感知和计算设备(例如计算系统631、计算平台650)可以基于所识别的物体的特性和周围环境的状态(例如,交通、雨、道路上的冰、等等)来预测识别的物体的行为。可选地,每一个所识别的物体都依赖于彼此的行为,因此还可以将所识别的所有物体全部一起考虑来预测单个识别的物体的行为。车辆600能够基于预测的识别的物体的行为来调整它的速度。换句话说,自动驾驶汽车能够基于所预测的物体的行为来确定车辆将需要调整到(例如,加速、减速、或者停止)何种稳定状态。在这个过程中,也可以考虑其它因素来确定车辆600的速度,诸如,车辆600在行驶的道路中的横向位置、道路的曲率、静态和动态物体的接近度等等。
除了提供调整自动驾驶汽车的速度的指令之外,计算设备还可以提供修改车辆600的转向角的指令,以使得自动驾驶汽车遵循给定的轨迹和/或维持与自动驾驶汽车附近的物体(例如,道路上的相邻车道中的车辆)的安全横向和纵向距离。
上述车辆600可以为各种类型的行驶工具,例如,轿车、卡车、摩托车、公共汽车、船、飞机、直升飞机、娱乐车、火车等等,本公开实施例不做特别的限定。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的语音信号处理方法的代码部分。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种语音信号处理方法,其特征在于,应用于车辆,包括:
在检测到蓝牙通话时,确定所述车辆内被激活的至少一个音区位置,其中,所述车辆的每个座椅位置对应一个音区位置;
获取所述音区位置的目标语音信号,并确定所述目标语音信号的声源方位;
根据所述声源方位确定指向所述声源方位的拾音波束,以通过所述拾音波束收集所述目标语音信号。
2.根据权利要求1所述的方法,其特征在于,所述确定所述车辆内被激活的至少一个音区位置,包括:
控制车辆的中控面板显示可被激活的音区位置的音区模式,其中,所述音区模式包括全车音区模式和局部音区模式;
基于用户在所述中控面板上选择的全车音区模式,确定车辆的全部座椅位置为被激活的音区位置;
基于用户在所述局部音区模式下选择的座椅位置,确定对应被激活的音区位置。
3.根据权利要求1所述的方法,其特征在于,所述车辆的每个座椅配置有车载蓝牙,所述确定所述车辆内被激活的至少一个音区位置,包括:
获取已建立蓝牙通话的目标车载蓝牙的蓝牙识别号;
根据所述蓝牙识别号对应的目标座椅,确定被激活的至少一个音区位置。
4.根据权利要求1所述的方法,其特征在于,所述确定所述目标语音信号的声源方位,包括:
对所述目标语音信号进行方位估计,确定所述目标语音信号的声源方位。
5.根据权利要求4所述的方法,其特征在于,当所述音区位置包括一个时,所述根据所述声源方位确定指向所述声源方位的拾音波束,包括:
根据所述声源方位,基于低旁瓣波束形成所述拾音波束。
6.根据权利要求2或4所述的方法,其特征在于,当所述音区位置包括多个时,所述根据所述声源方位确定指向所述声源方位的拾音波束,包括:
根据每个目标语音信号的声源方位,基于自适应波束形成指向对应声源方位的拾音波束。
7.根据权利要求1所述的方法,其特征在于,所述根据所述声源方位确定指向所述声源方位的拾音波束之后,所述方法还包括:
按照设定的时间周期检测所述目标语音信号的声源方位;
当检测到所述目标语音信号的声源方位发生变化时,根据变化后的声源方位,调整指向所述声源方位的拾音波束。
8.根据权利要求1所述的方法,其特征在于,所述确定所述目标语音信号的声源方位之前,所述方法还包括:
对所述目标语音信号进行回声消除。
9.根据权利要求1所述的方法,其特征在于,所述根据所述声源方位确定指向所述声源方位的拾音波束之后,所述方法还包括:
对收集的所述目标语音信号进行单通道滤波,以滤除噪音。
10.一种语音信号处理装置,其特征在于,应用于车辆,包括:
第一确定模块,用于在检测到蓝牙通话时,确定所述车辆内被激活的至少一个音区位置,其中,所述车辆的每个座椅位置对应一个音区位置;
第二确定模块,用于获取所述音区位置的目标语音信号,并确定所述目标语音信号的声源方位;
拾音模块,用于根据所述声源方位确定指向所述声源方位的拾音波束,以通过所述拾音波束收集所述目标语音信号。
11.一种车辆,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:实现权利要求1-9中任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211205023.7A CN117789741A (zh) | 2022-09-29 | 2022-09-29 | 语音信号处理方法、装置、车辆及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211205023.7A CN117789741A (zh) | 2022-09-29 | 2022-09-29 | 语音信号处理方法、装置、车辆及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117789741A true CN117789741A (zh) | 2024-03-29 |
Family
ID=90389652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211205023.7A Pending CN117789741A (zh) | 2022-09-29 | 2022-09-29 | 语音信号处理方法、装置、车辆及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117789741A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118509765A (zh) * | 2024-05-21 | 2024-08-16 | 小米汽车科技有限公司 | 语音处理系统、语音处理方法、介质、产品及设备 |
-
2022
- 2022-09-29 CN CN202211205023.7A patent/CN117789741A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118509765A (zh) * | 2024-05-21 | 2024-08-16 | 小米汽车科技有限公司 | 语音处理系统、语音处理方法、介质、产品及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12080160B2 (en) | Feedback performance control and tracking | |
CN107816976B (zh) | 一种接近物体的位置确定方法和装置 | |
US20180201273A1 (en) | Machine learning for personalized driving | |
CN110356401B (zh) | 一种自动驾驶车辆及其变道控制方法和系统 | |
CN113596705B (zh) | 一种发声装置的控制方法、发声系统以及车辆 | |
JP2017220051A (ja) | 画像処理装置、画像処理方法、および車両 | |
WO2020100569A1 (ja) | 制御装置、制御方法及びセンサ制御システム | |
CN110461677A (zh) | 车辆控制系统、车辆控制方法及车辆控制程序 | |
CN113064153A (zh) | 一种确定目标对象跟踪门限的方法、装置 | |
CN117789741A (zh) | 语音信号处理方法、装置、车辆及存储介质 | |
CN110461674A (zh) | 车辆控制系统、车辆控制方法、车辆控制装置及车辆控制程序 | |
CN114828131B (zh) | 通讯方法、介质、车载通讯系统、芯片及车辆 | |
CN115056784B (zh) | 车辆控制方法、装置、车辆、存储介质及芯片 | |
CN115407344B (zh) | 栅格地图创建方法、装置、车辆及可读存储介质 | |
CN115051723A (zh) | 车载天线装置、车载远程通信终端、车载通信系统及车辆 | |
CN116368398A (zh) | 语音声源定位方法、装置及系统 | |
CN115930955A (zh) | 导航数据传输方法、装置、存储介质和车辆 | |
CN115297434B (zh) | 服务调用方法、装置、车辆、可读存储介质及芯片 | |
CN115179930B (zh) | 车辆控制方法、装置、车辆及可读存储介质 | |
CN114572219B (zh) | 自动超车方法、装置、车辆、存储介质及芯片 | |
CN115447506A (zh) | 设备控制方法、装置、车辆、介质及芯片 | |
CN115257628B (zh) | 车辆控制方法、装置、存储介质、车辆及芯片 | |
CN114771514B (zh) | 车辆行驶控制方法、装置、设备、介质、芯片及车辆 | |
CN115535004B (zh) | 距离生成方法、装置、存储介质及车辆 | |
CN115139946B (zh) | 车辆落水检测方法、车辆、计算机可读存储介质及芯片 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |