CN118591839A - 终端设备和语音唤醒方法 - Google Patents
终端设备和语音唤醒方法 Download PDFInfo
- Publication number
- CN118591839A CN118591839A CN202280085596.2A CN202280085596A CN118591839A CN 118591839 A CN118591839 A CN 118591839A CN 202280085596 A CN202280085596 A CN 202280085596A CN 118591839 A CN118591839 A CN 118591839A
- Authority
- CN
- China
- Prior art keywords
- signal
- audio
- wake
- voice
- terminal device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 109
- 238000004891 communication Methods 0.000 claims abstract description 33
- 230000005236 sound signal Effects 0.000 claims description 183
- 230000008569 process Effects 0.000 claims description 53
- 238000001514 detection method Methods 0.000 claims description 36
- 230000004044 response Effects 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 19
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 17
- 230000003993 interaction Effects 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 21
- 230000002618 waking effect Effects 0.000 description 11
- 238000012795 verification Methods 0.000 description 7
- 238000003491 array Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种终端设备和语音唤醒方法,涉及语音交互技术领域。其中,第一终端设备包括:第一通信模块,用于接收第二终端设备发送的待识别语音信号;第一处理模块,用于响应于待识别语音信号,采集音频参考信号;从待识别语音信号中去除音频参考信号,以得到目标识别信号;第一通信模块还将通知信号发送至第二终端设备。此外,第二终端设备具有唤醒模块、主芯片和主机,基于唤醒词和能量结合实现协同唤醒。
Description
相关申请的交叉引用
本申请要求在2022年02月17日提交、申请号为202210148501.9;在2022年02月28日提交、申请号为202210187574.9的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及语音交互技术领域,尤其涉及终端设备和语音唤醒方法。
随着语音识别技术的飞速发展,语音交互的应用场景越来越普遍。在终端设备进行语音交互时,终端设备一般处于待机状态,如果需要与终端设备进行交互,第一步是先将终端设备唤醒,在此过程中相关技术主要通过唤醒算法识别语音中的唤醒词,但是当录入噪声时可能会导致终端设备误唤醒,给用户的正常生活带来许多不便。
发明内容
本申请实施例提供一种第一终端设备,包括:第一通信器被配置为接收第二终端设备发送的待识别语音信号,所述第一终端设备和所述第二终端设备通过短距离无线通信方式连接;第一控制器被配置为响应于所述待识别语音信号,采集音频参考信号;从所述待识别语音信号中去除所述音频参考信号,以得到目标识别信号;所述第一通信器还被配置为将通知信号发送至所述第二终端设备,所述通知信号为所述目标识别信号,或者,所述通知信号用于指示所述第二终端设备进入唤醒状态。
本申请实施例提供一种第二终端设备,所述第二终端设备设置有麦克风阵列,包括:第二通信器被配置为向第一终端设备发送待识别语音信号;接收所述第一终端设备反馈的目标识别信号;第二控制器被配置为响应于所述目标识别信号,基于唤醒词模型,对所述目标识别信号进行识别,得到所述目标识别信号中包括的多个关键词;判断所述多个关键词中是否包括目标唤醒词;在所述多个关键词中包括所述目标唤醒词的情况下,控制进入唤醒状态。
本申请实施例提供一种第二终端设备,所述第二终端设备设置有麦克风阵列,包括:第二通信器被配置为向第一终端设备发送待识别语音信号;接收所述第一终端设备反馈的通知信号,所述通知信号用于指示所述第二终端设备进入唤醒状态;第二控制器被配置为响应于所述通知信号,控制进入唤醒状态。
本申请实施例提供一种语音唤醒方法,应用于第一终端设备,包括:接收第二终端设备发送的待识别语音信号,所述第一终端设备和所述第二终端设备通过短距离无线通信方式连接;响应于所述待识别语音信号,采集音频参考信号;从所述待识别语音信号中去除所述音频参考信号,以得到目标识别信号;将通知信号发送至所述第二终端设备,所述通知信号为所述目标识别信号,或者,所述通知信号用于指示所述第二终端设备进入唤醒状 态。
本申请实施例提供一种语音唤醒方法,应用于第二终端设备,包括:向第一终端设备发送待识别语音信号;接收所述第一终端设备反馈的目标识别信号;响应于所述目标识别信号,基于唤醒词模型,对所述目标识别信号进行识别,得到所述目标识别信号中包括的多个关键词;判断所述多个关键词中是否包括目标唤醒词;在所述多个关键词中包括所述目标唤醒词的情况下,控制进入唤醒状态。
本申请实施例提供一种语音唤醒方法,应用于第二终端设备,包括:向第一终端设备发送待识别语音信号;接收所述第一终端设备反馈的通知信号,所述通知信号用于指示所述第二终端设备进入唤醒状态;响应于所述通知信号,控制进入唤醒状态。
图1A为本申请实施例提供的一种语音唤醒方法的实现场景示意图一;
图1B为本申请实施例提供的一种语音唤醒方法的实现场景示意图二;
图2A为本申请实施例提供的一种第一终端设备的硬件配置框图;
图2B为本申请实施例提供的一种第二终端设备的配置框图;
图3为本申请实施例提供的第一终端设备或第二终端设备中软件配置示意图;
图4为本申请实施例提供的一种语音唤醒方法的流程示意图一;
图5为本申请实施例提供的一种语音唤醒方法的流程示意图二;
图6为本申请实施例提供的得到目标识别信号示意图;
图7为本申请实施例提供的二次唤醒校验的流程示意图;
图8为本申请实施例提供的另一种语音唤醒方法的流程图;
图9为本申请实施例提供的再一种语音唤醒方法的流程图;
图10为本申请实施例提供的第二终端设备的结构示意图一;
图11为本申请实施例提供的控制方法的流程示意图一;
图12为本申请实施例提供的第二终端设备的结构示意图二;
图13为本申请实施例提供的控制方法的流程示意图二。
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
在智能家居场景中,为满足用户的多样化需求,应用语音交互技术来控制智能家居场景中的多个终端设备。在用户语音控制其中一个终端设备时,其他终端设备正在播放的音频内容可能会对该终端设备识别用户语音造成影响。举例来说,用户在需要唤醒智能音箱 时说“小A同学”,但此时电视上播放的电视剧内容中提到“小白同学”,智能音箱会接收到两段音频内容,其中“小白同学”是噪声信息,但智能音箱难以正确识别出用户的语音信号并执行唤醒操作。因此,在该终端设备执行语音识别操作时,其他终端设备所产生的噪声会造成干扰,从而唤醒率降低。
为了解决上述问题,本申请实施例提供了终端设备和语音唤醒方法,在第一终端设备和第二终端设备通过短距离无线通信方式连接的情况下,用户需要语音控制第二终端设备但存在第一终端设备的噪声干扰时,第一终端设备通过第一通信器接收第二终端设备发送的待识别语音信号,再由第一控制器响应于该待识别语音信号,采集第一终端设备本机的音频参考信号,然后从待识别语音信号中去除音频参考信号,以得到目标识别信号,进一步通过第一通信器向第二终端设备发送通知信号,从而通知第二终端设备利用目标识别信号执行相应的操作,或者通知第二终端设备执行唤醒操作。通过上述第一终端设备,消除了其他设备所产生的噪声的干扰,提升了唤醒率,降低了误唤醒率。
下面将对实施例描述中所需要使用的术语作简单地介绍:
回声消除(Acoustic Echo Cancellation,AEC),原理是使用自适应滤波算法调整滤波器的权值向量,估计一个近似的回声路径来逼近真实回声路径,从而得到估计的回声信号,并在纯净语音和回声的混合信号中除去此信号来实现回声的消除。
一些实施例中,上述终端设备包括但不限于台式设备、手持个人计算机(Personal Computer,PC)、个人数字助理、嵌入式处理器、数字信号处理器、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、智能家居设备、手持设备、可穿戴设备、虚拟现实和/或增强现实设备、物联网设备、车载信息娱乐设备、流媒体客户端设备、电子书阅读设备、销售终端(Point Of Sale,POS)、电动汽车控制系统和其他各种电子设备。
图1A为本申请实施例提供的一种语音唤醒方法的实现场景示意图一,如图1A所示,该场景中包括第一终端设备200、第二终端设备100、智能设备300以及服务器400。
在如图1A所示的实现场景中,用户期望通过语音控制第二终端设备100,而场景中第一终端设备200处于工作状态正在播放音频,因此第二终端设备100不仅会接收到用户的语音还会接收到第一终端设备100的音频生成待识别语音信号,对第二终端设备100的唤醒率和误唤醒率均造成影响。本申请一些实施例中,在第二终端设备100将接收到的待识别语音信号发送至第一终端设备之后,由第一终端设备200进行处理。首先第一终端设备200接收该待识别语音信号,然后采集本机所产生的音频参考信号,再从该待识别语音信号中去除音频参考信号得到目标识别信号,进一步将目标识别信号发送至第二终端设备100,或者将目标识别信号校验后生成的通知信号发送至第二终端设备100。提升了终端设备语音交互的唤醒率,降低了误唤醒率。
在一些实施例中,用户可通过智能设备300或第二终端设备100操作第一终端设备200,第一终端设备200与服务器400进行数据通信。
在一些实施例中,第二终端设备100可以是遥控器,遥控器和终端设备的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式,通过无线或有线方式来控制第一终 端设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令,来控制第一终端设备200。
在一些实施例中,也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制第一终端设备200。例如,使用在智能设备上运行的应用程序控制第一终端设备200。
在一些实施例中,第一终端设备200还可以不使用上述的智能设备或控制设备接收指令,而是通过触摸或者手势等接收用户的控制。
在一些实施例中,第一终端设备200还可以采用除了第二终端设备100和智能设备300之外的方式进行控制,例如,可以通过第一终端设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制,也可以通过第一终端设备200设备外部设置的语音控制设备来接收用户的语音指令控制。
在一些实施例中,可允许第一终端设备200通过局域网(Local Area Network,LAN)、无线局域网(Wireless Local Area Network,WLAN)和其他网络进行通信连接。服务器400可以向第一终端设备200提供各种内容和互动。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。或者是云服务器。上述仅是一种示例,本实施例中对此不作任何限定。
图1B为本申请实施例提供的一种语音唤醒方法的实现场景示意图二,如图1B所示,该场景中包括智能音箱201、智能电视202。在如图1B所示的场景中,用户期望通过语音“小A同学”唤醒智能音箱201,然而此时智能电视202正在播放电视剧,智能电视202的喇叭中传出“小白同学”,则智能音箱201接收到的待识别语音信号中包括“小A同学”和“小白同学”,根据智能电视202缓存的“小白同学”对应的信号数据,智能电视202可以去除待识别语音信号中包括的“小白同学”。因此智能音箱201将待识别语音信号发送至智能电视202,智能电视202采集到“小白同学”对应的信号数据,从待识别语音信号中予以去除,得到目标识别信号,进一步的,将去除智能电视202所产生的噪音得到目标识别信号“小A同学”发送至智能音箱201,以由智能音箱201进行识别处理并进入唤醒状态;或者由智能电视202将目标识别信号处理得到的通知信号发送至智能音箱201,指示智能音箱201进入唤醒状态,从而实现了智能音箱201和智能电视202的相互配合,准确地进行唤醒性能提升和误唤醒性能降低。
图2A为本申请实施例提供的一种第一终端设备的硬件配置框图。如图2A所示,第一终端设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。
控制器250包括中央处理器,视频处理器,音频处理器,图形处理器(Graphics Processing Unit,GPU),随机存取存储器(Random Access Memory,RAM),只读存储器(Read-Only Memory,ROM),用于输入/输出的第一接口至第n接口。
显示器260可为液晶显示器、OLED显示器、触控显示器以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。
调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线 广播电视信号中解调出音视频信号,如以及EPG数据信号。
检测器230用于采集外部环境或与外部交互的信号。
控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制第一终端设备200的整体操作。用户可在显示器260上显示的图形用户界面(Graphic User Interface,GUI)输入用户命令,则用户输入接口通过图形用户界面接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
图2B为本申请实施例提供的一种第二终端设备的配置框图。如图2B所示,第二终端设备100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。第二终端设备100可接收用户的输入操作指令,且将操作指令转换为第一终端设备200可识别和响应的指令,起用用户与第一终端设备200之间交互中介作用。
在一些实施例中,控制器110包括中央处理器(Central Processing Unit,CPU),视频处理器,音频处理器,图形处理器,RAM,ROM,数字信号处理器(Digital Signal Processing,DSP)用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
CPU处理器,用于执行存储在存储器中操作系统和应用程序指令,以及根据接收外部输入的各种交互指令,来执行各种应用程序、数据和内容,以便最终显示和播放各种音视频内容。CPU处理器,可以包括多个处理器。如,包括一个主处理器以及一个或多个子处理器。
本申请实施例提供一种第一终端设备,该第一终端设备包括:第一通信器,被配置为:接收第二终端设备发送的待识别语音信号,第一终端设备和第二终端设备通过短距离无线通信方式连接;第一控制器,被配置为:响应于待识别语音信号,采集音频参考信号;从待识别语音信号中去除音频参考信号,以得到目标识别信号;第一通信器,还被配置为:将通知信号发送至第一终端设备,通知信号为目标识别信号,或者,通知信号用于指示第二终端设备进入唤醒状态。
上述第一终端设备与第二终端设备通过短距离无线通信方式连接。该第一终端设备通过第一通信器接收第二终端设备发送的待识别语音信号,然后由第一控制器响应于待识别语音信号,采集本机产生的音频参考信号,并从待识别语音信号中去除音频参考信号以得到目标识别信号。进一步再由第一通信器将目标识别信号发送至第二终端设备,或者将目标识别信号处理后得到的通知信号发送至第二终端设备。实现了在智能家居场景中,由第一终端设备消除自身音频信号对第二终端设备所接收到的语音的影响,提升了待识别语音信号的信噪比,进一步提升了终端设备语音交互的唤醒率,降低了终端设备语音交互的误唤醒率。
本申请实施例提供一种第二终端设备,第二终端设备设置有麦克风阵列,该第二终端设备包括:第二通信器,被配置为:向第一终端设备发送待识别语音信号;接收第一终端 设备反馈的目标识别信号;第二控制器,被配置为:响应于目标识别信号,基于唤醒词模型,对目标识别信号进行识别,得到目标识别信号中包括的多个关键词;判断多个关键词中是否包括目标唤醒词;在多个关键词中包括目标唤醒词的情况下,控制进入唤醒状态。
上述第二终端设备与第一终端设备通过短距离无线通信方式连接。该第二终端设备通过通信器向第一终端设备发送待识别语音信号,然后接收第一终端设备反馈的目标识别信号,该目标识别信号消除了待识别语音信号中夹杂的噪声,尤其消除了第一终端设备所产生的音频参考信号。进一步的,该第二终端设备由控制器响应于目标识别信号,基于唤醒词模型对目标识别信号进行识别,以得到其中包括的多个关键词,再判断这多个关键词是否包括目标唤醒词,若是,则确定执行唤醒操作,使得第二终端设备进入唤醒状态。实现了同时优化唤醒率和误唤醒率。
本申请实施例提供另一种第二终端设备,第二终端设备设置有麦克风阵列,该第二终端设备包括:第二通信器,被配置为:向第一终端设备发送待识别语音信号;接收第一终端设备反馈的通知信号,通知信号用于指示第二终端设备进入唤醒状态;第二控制器,被配置为:响应于通知信号执行唤醒操作,以进入唤醒状态。
上述第二终端设备与第一终端设备通过短距离无线通信方式连接。该第二终端设备通过第二通信器向第一终端设备发送待识别语音信号,然后接收第一终端设备反馈的通知信号,该通知信号用于指示第二终端设备进入唤醒状态,再由第二控制器响应于该通知信号,执行唤醒操作,使得第二终端设备进入唤醒状态。实现了在第一终端设备和第二终端设备所形成的系统中,降低功耗,提升唤醒性能的目的。
图3为本申请实施例提供的第一终端设备或第二终端设备中软件配置示意图,如图3所示,将系统分为四层,从上至下分别为应用程序(Applications)层(简称“应用层”),应用程序框架(Application Framework)层(简称“框架层”),安卓运行时(Android runtime)和系统库层(简称“系统运行库层”),以及内核层。内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、以及电源驱动等。
综上,本申请实施例提供了终端设备和语音唤醒方法,在第一终端设备和第二终端设备通过短距离无线通信方式连接的情况下,用户需要语音控制第二终端设备但存在第一终端设备的噪声干扰时,第一终端设备通过第一通信器接收第二终端设备发送的待识别语音信号,再由第一控制器响应于该待识别语音信号,采集第一终端设备本机的音频参考信号,然后从待识别语音信号中去除音频参考信号,以得到目标识别信号,进一步通过第一通信器向第二终端设备发送通知信号,从而通知第二终端设备利用目标识别信号执行相应的操作,或者通知第二终端设备执行唤醒操作。通过上述语音唤醒方法,消除了其他设备所产生的噪声的干扰,提升了唤醒率,降低了误唤醒率。
如图4所示,图4为本申请实施例提供的一种语音唤醒方法的流程示意图一,该方法包括:
S401、第二终端设备向第一终端设备发送待识别语音信号。
其中,第二终端设备是用户期望的执行语音所指示的操作的终端设备,第一终端设备 是与第二终端设备处于同一环境中正在播放音频或视频等多媒体数据的终端设备。第二终端设备设置有麦克风阵列,第一终端设备和第二终端设备通过短距离无线通信方式连接。
上述短距离无线通信方式可以包括但不限于:有线网络,无线网络,其中,该有线网络包括局域网;该无线网络包括:蓝牙(Bluetooth)、无线局域网802.11(Wi-Fi)、红外数据传输(Infrared Data Association,IrDA)及其他实现无线通信的网络。
上述麦克风阵列是将一组麦克风传感器按某种方式放置在第二终端设备上,在空间上接收声音信号。经过一定的处理过程,人们可以提取接收信号的有关特征信息,如幅度、频率、方向等。麦克风阵列按麦克风传感器在空间位置的不同分布,会有如下的拓扑结构:线性阵列、圆形阵列、球形阵列等等,严谨的应该是一字、十字、平面、螺旋、球形及无规则阵列等。至于麦克风阵列的阵元数量,也就是麦克风数量,可以是4个,本申请对此不做限制。
一些实施例中,第二终端设备通过麦克风阵列接收用户输入的待识别语音信号,其中,待识别语音信号是直接获取用户语音进行模数转换后得到的语音信号。
在第二终端设备接收到待识别语音信号之后,响应于该待识别语音信号,进行语音识别,以得到该待识别语音信号中包括的多个关键词。进一步的,判断这多个关键词中是否包括预设唤醒词,在这多个关键词中包括预设唤醒词的情况下,确定第二终端设备进入待唤醒状态,需要进行二次唤醒校验从而最终确定第二终端是否进入唤醒状态,以保证唤醒率。其中,待唤醒状态是介于待机状态和唤醒状态之间的状态。
示例性的,电视为第一终端设备,智能音箱为第二终端设备,智能音箱与电视通过蓝牙连接,预设唤醒词为小A同学。用户通过语音的方式唤醒智能音箱:“小A同学”,智能音箱接收到用户语音后,进行语音识别,得到多个关键词:小、A、同、学、小A、同学、小A同学等,判断得到多个关键词中包括预设唤醒词“小A同学”,则确定智能音箱进入待唤醒状态。
本申请实施例中,在第一终端设备产生噪声干扰且第一终端设备算力较强的情况下,为减少第一终端设备和第二终端设备所构成的系统的功耗,在第二终端设备保持较低算力的情况下,利用第一终端设备较强的算力进行二次验证,一方面提升了唤醒率,另一方面减少了设备功耗,节能。
一些实施例中,在基于待识别语音信号进行语音识别的过程中,本申请实施例提供一种实施方式,由于不同用户的语音对应不同的声纹特征,因此第二终端设备根据待识别语音信号中包括的声纹特征确定待识别语音信号对应的用户是否为合法用户,合法用户是指预先注册登陆的用户,例如,智能家居环境下,预先在第二终端设备注册并登陆用户账号的房屋主人。在确定待识别语音信号对应的用户是合法用户的情况下,进行语音识别,从而判断是否进入待唤醒状态,提升了语音唤醒的安全性。
另一些实施例中,在对该待识别语音信号进行语音识别之前,由于待识别语音信号中包括白噪音或环境噪声等非人声信号,需要进行降噪处理,以去除非人声信号,提升语音识别的准确率。降噪方法包括但不限于:自适应(Least Mean Square,LMS)滤波器、自适应陷波器、基本谱减法、维纳滤波器等,本申请对降噪方法不做限定。
上述实施例中,第二终端设备向第一终端设备发送待识别语音信号,以由第二终端设备进行二次验证。在此过程中,通过麦克风阵列接收用户输入的语音,然后可以通过声纹特征不同对用户身份进行识别,从而保障安全性,也可以通过降噪方法对语音中包括的非人声信号进行去除,以提升语音识别的准确率。
S402、第一终端设备接收第二终端设备发送的待识别语音信号。
S403、第一终端设备响应于待识别语音信号,采集音频参考信号。
其中,音频参考信号由第一终端设备播放的多媒体数据所产生。
一些实施例中,在智能家居场景下,由于待识别语音信号中包含第一终端设备所产生的音频参考信号,因此由第一终端设备采集本设备所播放的音频参考信号,本申请实施例提供一种实施方式进行音频参考信号的采集,采集第一终端设备配置的功放输出的数字信号作为音频参考信号,或者,采集第一终端设备配置的扬声器输出的模拟信号作为数字音频信号。其中,数字信号便于进行处理,模拟信号更接近待识别语音信号中夹杂的第一终端设备所播放的音频信号。
S404、第一终端设备从待识别语音信号中去除音频参考信号,以得到目标识别信号。
一些实施例中,由于第一终端设备和第二终端设备通过短距离通信方式连接,在通信交互过程中存在时延,例如第一终端设备和第二终端设备通过蓝牙连接时,语音信号的时延是小于80ms的。需要强调的是,实际应用中,待识别语音信号和音频参考信号之间的时延小于100ms即可保证两信号在进行后续处理时的同步性。
为准确待识别语音信号中去除音频参考信号,需要限制待识别语音信号和音频参考信号之间存在的时延小于或等于预设时延阈值。因此,如图5所示,图5为本申请实施例提供的一种语音唤醒方法的流程图二,步骤S404包括以下步骤S404a~S404d:
S404a、计算待识别语音信号和音频参考信号之间的时延。
其中,时延是指传播时延,是待识别语音信号在信道中传播一定距离所花费的时间。
基于公式:时延=信道长度/信号在信道上的传播速率,进行计算待识别语音信号和音频参考信号之间的时延。
S404b、判断待识别语音信号和音频参考信号之间的时延是否大于预设阈值。
在待识别语音信号和音频参考信号之间的时延大于预设阈值的情况下,执行S404c;在待识别语音信号和音频参考信号之间的时延小于或等于预设阈值的情况下,确定待识别语音信号和音频参考信号同步,执行S404d。
S404c、基于待识别语音信号对音频参考信号进行校正,以得到与待识别语音信号同步的音频参考信号。
S404d、从待识别语音信号中,去除同步后的音频参考信号,以得到目标识别信号。
一些实施例中,基于回声消除算法,从待识别语音信号中去除音频参考信号,以得到目标识别信号。其中,回声消除算法包括但不限于:最小均方(Least Mean Square,LMS),标准化最小均方误差(Normalized Least Mean Square,NLMS)算法。
示例性的,如图6所示,图6中(a)为待识别语音信号的波形图,图6中(b)为音频参考信号的波形图,图6中(c)为目标识别信号的波形图,基于回声消除算法可以从(a) 所示的待识别语音信号的波形图中去除(a)所示的音频参考信号,从而得到(c)所示的目标识别信号。
一些实施例中,在得到目标识别信号之后,由第一终端设备进行二次唤醒校验。
其中,如图7所示,图7为本申请实施例提供的二次唤醒校验的流程示意图,图中包括以下步骤S701~S704:
S701、基于预设唤醒词模型,对目标识别信号进行识别,得到目标识别信号中包括的多个关键词。
一些实施例中,在对目标识别信号进行识别的过程中,可进行人声检测(Voice Activity Detection,VAD)以消除目标识别信号中长时间的静音片段,从而去除不必要的信号,减少唤醒识别的数据处理量,提高了识别的效率。
S702、判断多个关键词中是否包括目标唤醒词。
一些实施例中,唤醒词模型为1个,唤醒词模型中包括多个预设唤醒词。分别计算识别得到的多个关键词与唤醒词模型中包括多个预设唤醒词之间的相似度,得到多个相似度,再将多个相似度进行加权求和以得到总相似度,在总相似度达到预设相似度阈值的情况下,确定关键词为目标唤醒词。针对多个关键词中的每个关键词一一执行上述操作,以确定每个关键词是否为目标唤醒词。
在另一些实施例中,唤醒词模型为多个,分别计算每个唤醒模型对应的关键词与预设唤醒词之间的相似度,当达到设定阈值的唤醒模型的数量与唤醒模型总数量之间的比例超过二分之一时,则达到唤醒条件。
示例性的,假设第一终端设备中的唤醒模块中有3个不同类型的模型A、模型B和模型C,分别将目标识别信号输入到模型A、模型B和模型C中,并得到与每个模型对应的3个关键字。在3个关键字中的2个关键字包括目标唤醒词的情况下,则确定经过3个模型识别后的目标识别信号中包括唤醒词。
在多个关键词中包括目标唤醒词的情况下,执行S703;在多个关键词均不包括目标唤醒词的情况下,执行S704。
S703、生成通知信号,指示第二终端设备进入唤醒状态。
S704、生成通知信号,指示第二终端设备返回待机状态,等待下次被唤醒。
上述步骤S701~S704,通过唤醒词模型确定目标识别信号中是否包括目标唤醒词,从而实现了由第一终端设备进行二次唤醒校验,提升了唤醒率。
S405、第一终端设备将通知信号发送至第二终端设备。
其中,通知信号为目标识别信号,或者,通知信号用于指示第二终端设备进入唤醒状态。
一些实施例中,在得到目标识别信号之后,第一终端设备将目标识别信号直接发送至第二终端设备,以由第二终端设备根据目标识别信号执行识别操作。由于目标识别信号去除了第一终端设备所产生的音频参考信号,因此第二终端设备对目标识别信号的识别会更加准确,提升了用户的使用体验感。
另一些实施例中,在第一终端设备对目标识别信号进行识别后,根据识别得到的结果 生成通知信号。在识别得到目标识别信号中包括目标唤醒词的情况下,表示用户通过语音期望唤醒第二终端设备,因此第一终端设备向第二终端设备发送的通知信号用于指示第二终端设备进入唤醒状态;而在识别得到目标识别信号中不包括目标唤醒词的情况下,表示第一终端设备所产生的音频参考信号夹杂在待识别语音信号中,从而造成了第二终端设备的误唤醒,因此第一终端设备向第二终端设备发送的通知信号用于指示第二终端设备退出待唤醒状态,进入待机状态以等待下一次的唤醒。
上述实施例,由第一终端设备向第二终端设备发送不同的通知信号,其中,通知信号是目标识别信号,或者是用于指示第二终端设备进入唤醒状态的信号。基于不同的通知信号,下述将分别在通知信号为目标识别信号的情况下,以及在通知信号用于指示第二终端设备进入唤醒状态的情况下,对第二终端设备的处理过程进行介绍:
(1)通知信号为目标识别信号
一些实施例中,第二终端设备接收到第一终端设备发送的目标识别信号之后,首先基于唤醒词模型,对目标识别信号进行识别,得到目标识别信号中包括的多个关键词;在对目标识别信号进行识别的过程中,可进行人声检测(Voice Activity Detection,VAD)以消除目标识别信号中长时间的静音片段,从而去除不必要的信号,减少唤醒识别的数据处理量,提高了识别的效率。
然后,判断多个关键词中是否包括目标唤醒词;一些实施例中,唤醒词模型为1个,唤醒词模型中包括多个预设唤醒词。分别计算识别的得到的多个关键词与唤醒词模型中包括多个预设唤醒词之间的相似度,得到多个相似度,再将多个相似度进行加权求和以得到总相似度,在总相似度达到预设相似度阈值的情况下,确定关键词为目标唤醒词。针对多个关键词中的每个关键词一一执行上述操作,以确定每个关键词是否为目标唤醒词。
在另一些实施例中,唤醒词模型为多个,分别计算每个唤醒模型对应的关键词与预设唤醒词之间的相似度,当达到设定阈值的唤醒模型的数量与唤醒模型总数量之间的比例超过二分之一时,则达到唤醒条件。
在多个关键词中包括目标唤醒词的情况下,确定执行唤醒操作,使得第二终端设备进入唤醒状态。
另外,在识别得到多个关键词中不包括目标唤醒词的情况下,确定第二终端设备进入待机状态,等待下一次的唤醒。
(2)通知信号用于指示第二终端设备进入唤醒状态
一些实施例中,在第二终端设备接受到第一终端设备发送的通知信号后,由于通知信号是第一终端设备识别处理后所生成的信号,指示第二终端设备进入唤醒状态,因此第二终端设备直接响应于该通知信号,
一些实施例中,通知信号指示第二终端设备进入待机状态,则第二终端设备响应于该通知信号执行相应操作,使得在第二终端设备处于待唤醒状态时,退出待唤醒状态进入待机状态;或者在初次校验的情况下,第二终端设备直接进入待机状态。
综上,本申请实施例提供一种语音唤醒方法,在第一终端设备和第二终端设备通过短距离无线通信方式连接的情况下,用户需要语音控制第二终端设备但存在第一终端设备的 噪声干扰时,由第一终端设备接收第二终端设备发送的待识别语音信号,响应于该待识别语音信号,采集第一终端设备本机的音频参考信号,然后从待识别语音信号中去除音频参考信号,以得到目标识别信号,进一步向第二终端设备发送通知信号,从而通知第二终端设备利用目标识别信号执行相应的操作,或者通知第二终端设备执行唤醒操作。通过上述方法,消除了其他设备所产生的噪声的干扰,提升了唤醒率,降低了误唤醒率。
如图8所示,图8为本申请实施例提供另一种语音唤醒方法的流程图,应用于第二终端设备,该方法包括:
S801、向第一终端设备发送待识别语音信号。
其中,待识别语音信号通过第二终端设备设置的麦克风阵列接收得到,其中包括用户的语音信号以及第一终端设备所产生的音频参考信号。
S802、接收第一终端设备反馈的目标识别信号。
S803、响应于目标识别信号,基于预设唤醒词模型,对目标识别信号进行识别,得到目标识别信号中包括的多个关键词。
S804、判断多个关键词中是否包括目标唤醒词。
在多个关键词中包括目标唤醒词的情况下,执行S805;在多个关键词中不包括目标唤醒词的情况下,执行S806。
S805、控制进入唤醒状态。
S806、控制进入待机状态,等待下一次唤醒。
上述步骤中的一些实施例的详细实现方式与步骤S401~S405中说明的实施例相同或相似,本申请在此不做赘述。
如图9所示,图9为本申请实施例提供再一种语音唤醒方法的流程图,应用于第二终端设备,该方法包括:
S901、向第一终端设备发送待识别语音信号。
其中,在向第一终端设备发送待识别语音信号,第二终端设备接收用户输入的待识别语音信号,然后响应于该待识别语音信号,进行语音识别,具体的识别操作如上述一种语音唤醒方法中的一些实施例所提到的操作,在此不做赘述。在识别得到待识别语音信号中包括预设唤醒词的情况下,确定第二终端设备进入待唤醒状态,需要通过第一终端设备进行二次唤醒校验。
在待唤醒状态下,向第一终端设备发送待识别语音信号。
S902、接收第一终端设备反馈的通知信号。
通知信号用于指示第二终端设备进入唤醒状态。
S903、响应于通知信号,控制进入唤醒状态。
除此之外,在接收到的第一终端设备反馈的通知信号指示第二终端设备退出待唤醒状态进入待机状态时,则根据通知信号的指示执行相应的操作。
上述步骤中的一些实施例的详细实现方式与步骤S401~S405中说明的实施例相同或相似,本申请在此不做赘述。
上面介绍了一种借助第一终端设备较强的算力进行二次验证的语音唤醒方法,下面来 介绍一种基于本机模块间的协作完成设备唤醒的控制方法,该方法适用于上述第一终端设备或第二终端设备。在具体介绍控制方法之前,先对相关技术和存在的问题作如下简单概述:
相关技术中,当终端设备处于关机或待机状态时,通常需要先唤醒该终端设备,具体的,可以直接向终端设备输入语音唤醒词,当终端设备上的唤醒模块接收到唤醒词后来唤醒该终端设备,或者,也可以在控制终端上输入语音唤醒词,由控制终端的唤醒模块根据语音唤醒词,来控制该终端设备的唤醒。然而,由于高性能的主芯片功耗较高,为了降低功耗,无论是控制终端上的唤醒模块,还是终端设备上的唤醒模块,通常都配置的是低功耗唤醒单元。然而,低功耗唤醒单元的运算能力有限,无法处理多路麦克数据和回采信号数据,在非安静环境和设备播放条件下,唤醒率急剧下降,甚至出现无法唤醒或误唤醒的情况,严重影响用户体验。
需要说明的是,上述终端设备可以是任意具备语音交互功能的电子设备,例如是,手机、平板电脑、电视机等显示设备,也可以是冰箱、洗衣机、空调等家电,本申请实施例不做具体限定。
有鉴于此,本申请实施例提供的一种控制方法,通过低功耗的唤醒模块和高性能的主芯片共同实现终端设备的唤醒,先由低功耗唤醒模块确定是否满足唤醒条件,当满足时,再启动高性能的主芯片,由主芯片进一步确定是否开启主机,从而避免误唤醒、无法正常唤醒终端设备的情况,以提升用户体验。同时,定制U-boot进程用于引导开机过程,在U-boot进程中实现对音频信号的检测,从而启动主机,相比相关技术中在主机启动后再对音频信号进行检测,可以提升终端设备的唤醒速度,同时还能有效防止无效噪声对主机的启动过程造成干扰。
另外,由于唤醒模块未控制主芯片进入U-boot进程时,高性能的主芯片处于关闭状态,可以降低上述终端设备的功耗。
需要说明的是,上述的唤醒模块可以为第一终端设备中的模块,也可以为第二终端设备中的模块,在实际应用中不做限定。接下来,以唤醒模块为第二终端设备中的模块为例,以具体地实施例对本申请的方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图10为本申请实施例提供的第二终端设备的结构示意图一。如图10所示,该第二终端设备100包括:唤醒模块101、主芯片102以及主机103。
在一些实施例中,唤醒模块101和主芯片102通信连接,主芯片102和主机103通信连接。
其中,唤醒模块101用于采集音频信号。
在本申请实施例中,对于主芯片102的具体类别不做限定。例如,在一些实施例中,主芯片102可以为一个或多个特定集成电路(Application Specific Integrated Circuit,ASIC),或,一个或多个数字信号处理器(Digital Signal Processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,当以上某个模块通过处 理元件调度程序代码的形式实现时,该主芯片102可以是通用处理器,例如任意形式的可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(System-on-a-Chip,SOC)的形式实现等等。
需要说明的是,主机103可以为一个或多个元件的总称,对于这些元件的类型,本申请实施例不做具体限定,例如,主机103可以包括:触摸板、传感器、通信接口、存储器中的至少一种。其中,通信接口例如是Wifi芯片、蓝牙模块、NFC中的至少一种,此处不再一一列举。
若上述终端设备为第一终端设备,那么,主机可以包括:显示屏、调谐解调器、通信器、检测器、存储器中的至少一种。其中,检测器例如是温度传感器、湿度传感器等;通信器例如是,Wifi芯片、蓝牙通信协议芯片、有线以太网通信协议芯片等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种;调谐解调器可以通过有线或无线接收方式接收信号,并进行放大、混频和谐振等调制解调处理,此处不再一一列举。
接下来,结合具体的实施例对上述的第二终端设备的控制方法进行详细说明:
图11为本申请的实施例提供的第二终端设备的控制方法的流程示意图一。如图11所示,本申请实施例提供的上述第二终端设备100的控制方法,具体包括如下步骤:
S1101、唤醒模块响应于采集到第一音频信号,控制主芯片进入U-boot进程。
在实际应用中,本申请实施例中的唤醒模块可以设置为低功耗的唤醒单元,由于其功耗较低,其可以实时的检测周围的音频信号,且不会耗费太多的功耗。
可选的,唤醒模块可以包括麦克风或者检测电路,此类唤醒模块成本较低,可以降低第二终端设备的成本。
在一些实施方式中,第一音频信号可以为任意类型的音频信号。
也就是说,唤醒模块采集到的第二终端设备周围任意的音频信号,均可能是用于唤醒第二终端设备的,需要主芯片进行进一步判断是否需要唤醒第二终端设备,因而,在采集到任意音频信号后,将其视为第一音频信号,并控制主芯片进入U-boot流程。通过此方式,可以避免遗漏用于唤醒第二终端设备的音频信号。
在另一些实施方式中,第一音频信号可以为人声信号和/或包括唤醒词的音频信号。即当唤醒模块采集到第二终端设备周围的音频信号时,需要对音频信号进行初步筛选,确定音频信号中的人声信号和/或包含唤醒词的音频信号为第一音频信号。
具体的,在第一方面,通过唤醒模块实时的检测周围的音频信号,并判断音频信号中是否包含人声,若包含人声,则说明当前的音频信号可能是用于唤醒第二终端设备,此时,需要主芯片进行进一步判断是否需要唤醒第二终端设备。
本方案中,通过唤醒模块对采集到的音频信号进行初步判断,能够准确的检测出人声,排除环境中的噪音干扰,进而避免由于噪音而造成主芯片被多次启动的情况,可以最大程度的降低第二终端设备的功耗。
在第二方面中,唤醒模块实时的检测周围的音频信号,并判断音频信号是否包含目标唤醒词或者与目标唤醒词相似的唤醒词;若包含,则确定当前的音频信号很可能是用于唤醒第二终端设备,此时,需要主芯片进行进一步判断是否需要唤醒第二终端设备。
其中,目标唤醒词为该第二终端设备预设的唤醒词,对于唤醒词的具体内容,本申请实施例不做限定,例如是“开机”、“关机”、“待机”等等,也可以是控制第二终端设备的参数的唤醒词,例如是“音量”、“温度”、“分辨率”等等,此处不再一一赘述。
相比于人声检测,通过检测音频信号中的唤醒词来启动主芯片,其准确性更高,能够降低主芯片被误启动的概率,降低第二终端设备的功耗。
具体的,在本申请实施例中,唤醒模块可以向主芯片发送激活指令,以通过激活指令指示主芯片进入U-boot流程。
示例性的,若音频信号为“请在10点开机”,则唤醒模块会检测到了“开机”这一唤醒词,则确定当前的音频信号可能是用于唤醒第二终端设备,此时向主芯片发送激活指令。
S1102、主芯片进入U-boot进程,对第二终端设备进行初始化,并获取第二音频信号。
相应的,主芯片在接收到唤醒模块发送的激活指令之后,即进入U-boot进程,其中,U-Boot进程主要用于启动主引导程序。
其中,进行初始化的硬件可以根据第二终端设备的硬件配置执行,依据不同类型的第二终端设备,进行初始化的硬件不同,通常包括:触摸板、按键、蓝牙模块等,还可以包括:传感器、WiFi芯片等,本申请实施例不做具体限定。
需说明的是,若上述终端设备为第一终端设备,那么,进行初始化的硬件通常包括:显示屏、音频模块、通讯模块等,还可以包括:摄像头、射频等模块,本申请实施例不做具体限定。
需要说明的是,第二音频信号中包括第一音频信号和唤醒模块当前采集到的音频信号。
具体的,唤醒模块在检测周围的音频信号的同时,会实时的缓存所检测到的音频信号,并在向主芯片发送激活指令的同时,向主芯片发送所采集到的音频信号。
在一些场景中,用户在通过语音命令唤醒第二终端设备时,可能在唤醒语音中包含有控制指令,例如,当唤醒语音为“××设备,请开机,并将温度调节至××度”时,当唤醒设备采集到该语音信号时,会将该语音信号作为第一音频信号,控制主芯片进入U-boot进程,从而控制第二终端设备开机。而只有将该音频信号发送给主芯片,才能够实现唤醒第二终端设备的同时,对第二终端设备的准确控制,以将温度调节至××度,否则无法执行此指令。因此,在本申请实施例中,需要将唤醒模块采集到的第一音频信号也发送给主芯片,防止遗漏控制指令而造成控制失败的情况,提升交互效率,保障控制效果。
在另一些场景中,在用户的唤醒语音中不包括控制指令,例如,当唤醒语音为“××设备,请开机”时,当唤醒设备采集到该语音信号时,会将该语音信号作为第一音频信号,控制主芯片进入U-boot进程,从而控制第二终端设备开机。但此语音中未包含其他的控制指令,因此,需要唤醒模块继续采集之后的音频信号,并将这些音频信号实时的发送给主芯片,使得主芯片可以根据这些音频信号实现更准确的控制。
可选的,第二音频信号可以携带在激活指令中向主芯片发送,也可以单独向主芯片发送,本申请实施例不做具体限定。
S1103、主芯片响应于第二音频信号达到能量阈值,提取第二音频信号的音频特征。
发明人发现,由于唤醒模块仅对第一音频信号进行了初步筛选,当唤醒模块仅实现人 声检测时,只要音频数据中包含人声,其就会向主芯片发送激活指令以启动主芯片;或者,当唤醒模块实现唤醒词检测时,由于其性能较低,也有可能出现判断错误的情况,此时也会发送激活指令以启动主芯片。上述两种示例中,均会使得主芯片接收到的第二音频信号并非用于唤醒该第二终端设备的情况。
有鉴于此,本申请实施例中,需要主芯片根据第二音频信号的能量值,进一步判断其是否用于唤醒第二终端设备。需要说明的是,对于能量阈值的类型,本申请实施例不做具体限定,例如,可以为第二音频信号对应的短时过零率,和/或,短时能量。
具体的,在确定第二音频信号是否达到能量阈值时,具体包括如下操作:
操作1、对第二音频信号进行分帧处理,获得第二音频信号对应的语音帧;
操作2、根据语音帧,计算第二音频信号的短时能量,和/或,短时过零率;
操作3、响应于短时过零率大于或等于预设过零率,和/或,短时能量大于或等于预设短时能量,则确定第二音频信号达到能量阈值,提取第二音频信号的音频特征。
需要说明的是,对于获取语音帧对应的短时能量和短时过零率的具体方式,以及获取第二音频信号的音频特征的方式,本申请实施例均不做详细说明。
应当理解的是,当短时过零率大于或等于预设过零率,和/或,短时能量大于或等于预设短时能量时,则说明第二音频信号为有效的人声信号,否则,说明第二音频信号为无效的人声信号。本申请实施例中,通过能量阈值对第二音频信号进行进一步判断,当第二音频信号是有效的人声信号时,才进行后续的启动流程,可以进一步防止主机被误启动的情况,提升用户的交互体验。
S1104、主芯片确定音频特征是否满足预设条件,在响应于音频特征满足预设条件时,根据第二音频信号控制主机启动。
需要说明的是,对于预设条件的类型,本申请实施例也不做具体限定。例如,预设条件可以设置为:比较音频特征和预设特征序列的相似度,当相似度满足预设相似度时,说明第二音频特征满足预设条件。
需要说明的是,预设特征序列有多种获取方式。在一些实施例中,对于同一第二终端设备,其控制指令通常具备一定的相似性,示例性的,对于语音交互空调来说,其控制指令通常用于调节温度,例如是“将温度调节到××度”、“调低(提高)温度”等,而对于语音交互电视来说,其控制指令通常用于更换节目类型,或者调节电视参数,例如是“调节到××频道”、“调节到××节目”、“降低(提高)亮度、分辨率、声音”等。
本申请实施例中,可以将这些控制指令对应音频特征作为预设特征序列,从而作为基准数据,在获取到第二音频信号时,将第二音频信号对应的音频特征与预设特征序列进行比对,当相似度大于或预设相似度时,说明当前的第二音频信号用于控制该第二终端设备,进而实现精准控制。
在另一些实施例中,可以将用户的历史语音控制指令作为基准数据,并根据这些历史语音控制指令获取预设特征序列,在获取到第二音频信号时,将第二音频信号对应的音频特征与预设特征序列进行比对,当相似度大于或预设相似度时,说明当前的第二音频信号用于控制该第二终端设备。
在本申请实施例中,由于对于同一第二终端设备,其使用者通常为固定用户,同一个用户在不同时间对第二终端设备进行控制时,其控制指令具备相似性。采用这些用户的历史语音控制指令作为基准数据,可以保障判断结果的准确性。
本申请实施例提供的一种控制方法中,通过低功耗的唤醒模块和高性能的主芯片共同实现第二终端设备的唤醒,先由唤醒模块确定是否满足唤醒条件,当满足时,再由主芯片进一步确定是否开启主机,从而避免误唤醒、无法正常唤醒第二终端设备的情况,以提升用户体验。同时,定制U-boot进程用于引导开机过程,在U-boot进程中实现对音频信号的检测,从而启动主机,相比相关技术中在主机启动后再对音频信号进行检测,可以提升第二终端设备的唤醒速度,同时还能有效防止无效噪声对主机的启动过程造成干扰。
另外,由于唤醒模块未控制主芯片进入U-boot进程时,主芯片处于关闭状态,可以降低第二终端设备的功耗。
作为步骤S1103和S1104的一种替换方案,还可以通过判断第二音频信号中是否包含目标语音数据,进而判断第二音频信号是否用于唤醒第二终端设备。
具体的,对第二音频信号进行语义分析,当第二音频信号中包含用于唤醒第二终端设备的目标语音数据时,确定音频特征满足预设条件,并在响应于音频特征满足预设条件时,根据第二音频信号控制主机启动。本申请实施例中,通过可对第二音频数据进行语义分析,可以获得更加准确的用户意图,从而实现对第二终端设备的精准控制。
在一些可选的实施方式中,当唤醒模块确定接收到的音频信号不是用于唤醒第二终端设备时,可以删除当前缓存的音频信号,以降低唤醒模块的存储压力。
在一些可选的实施方式中,当第二音频信号的能量值不满足能量阈值,和/或,主芯片确定音频特征不满足预设条件时,可以向唤醒模块发送指示信息。其中,指示信息用于指示唤醒模块停止发送音频信号。相应的,在唤醒模块接收到指示信息之后,即停止向主芯片发送当前采集的音频信号。通过此设置,可以及时控制唤醒模块停止发送音频信号,一定程度上可以降低唤醒模块和主芯片的功耗。
在一些可选的实施方式中,当主芯片确定音频特征不满足预设条件时,还可以关闭主芯片,从而降低主芯片的功耗,直到主芯片接收到唤醒模块发送的下一条激活指令时,再按照上述步骤进行相同的处理。
图12为本申请的实施例提供的第二终端设备的结构示意图二。如图12所示,本申请实施例提供的第二终端设备100中,主芯片102包括:音频信号检测模块1021和远场语音模块1022。
其中,音频信号检测模块1021为主芯片102中用于处理音频信号的至少一个计算核心。
在一种可选的实施方式中,唤醒模块101包括:音频采集电路1011以及激活电路1012。
其中,音频采集电路1011应用于采集音频信号,并响应于接收到第一音频信号,确定第一音频信号中是否包含人声和/或目标唤醒词。
激活电路1012用于响应于音频信号中包含人声和/或目标唤醒词时,向主芯片发送激活指令,激活指令用于指示主芯片进入U-boot进程。
需要说明的是,本申请实施例中的音频采集电路1011和激活电路1012所执行的方案与图11所示实施例中,唤醒模块101所执行的方案和原理类似,具体可参考上述实施例,此处不做赘述。
接下来,结合图13对图12所示实施例中的第二终端设备的控制方法进行更详细的说明。图13为本申请的实施例提供的第二终端设备的控制方法的流程示意图二。如图12所示,本申请实施例提供的控制方法包括如下步骤:
S1301、唤醒模块响应于采集到第一音频信号,控制主芯片进入U-boot进程。
S1302、在U-boot进程中,主芯片对第二终端设备进行初始化,并获取第二音频信号。
具体的,唤醒模块101响应于采集到第一音频信号时,向主芯片102中的音频信号检测模块1021发送激活指令,使得主芯片进行U-boot进程,同时,在U-boot进程中,音频信号检测模块1021首先被唤醒。
需要说明的是,步骤S1301~S1302中唤醒音频信号检测模块1021的方案与图11所示实施例中的步骤S1101~S1102中唤醒主芯片102的方案和原理类似,具体可参考上述实施例,此处不再赘述。
S1303、音频信号检测模块确定第二音频信号是否达到能量阈值。
S1304、音频信号检测模块响应于第二音频信号未达到能量阈值,控制主芯片中断U-boot进程。
需要说明的是,当第二音频信号未达到能量阈值,说明该第二音频信号并非用于控制第二终端设备,可以通过中断U-boot进程,从而停止该第二终端设备的启动过程。本申请实施例中,由于通过第二音频信号的能量值,可以准确的判断第二音频信号是否用于控制该第二终端设备,在第二终端设备的启动进程前期即可实现判定,从而无需进行后续的启动流程,可以防止第二终端设备被误启动,同时,由于在此过程中只需要唤醒音频信号检测模块,而无需唤醒整个主芯片,可以降低主芯片的能耗。
S1305、音频信号检测模块响应于第二音频信号达到能量阈值,提取第二音频信号的音频特征。
其中,能量阈值可以为第二音频信号对应的短时过零率,和/或,短时能量等。
具体的,在本申请实施例中,当短时过零率大于或等于预设过零率,和/或,短时能量大于或等于预设短时能量时,确定第二音频信号达到能量阈值;相应的,当短时过零率小于预设过零率,和/或,短时能量小于预设短时能量时,确定第二音频信号未达到能量阈值。
需要说明的是,音频信号检测模块获取短时能量和短时过零率的具体方案和有益效果请参见图11所示实施例中的步骤S1103,此处不做赘述。
S1306、音频信号检测模块确定音频特征是否满足预设条件。
需要说明的是,步骤S1303~S1305与图11所示实施例中的步骤S1103~S1104中主芯片102所执行的方案和原理类似,具体可参考上述实施例,此处不再赘述。
S1307、音频信号检测模块响应于音频特征不满足预设条件,控制主芯片中断U-boot进程。
S1308、音频信号检测模块响应于音频特征满足预设条件时,启动远场语音模块。
需要说明的是,当音频特征满足预设条件时,说明该第二音频信号用于控制第二终端设备,此时,进一步唤醒主芯片102中的远场语音模块1022,从而通过远场语音模块1022提供更准确的语音服务。
而当音频特征不满足预设条件时,说明该第二音频信号并非用于控制第二终端设备,此时,也可以通过中断U-boot进程,从而停止该第二终端设备的启动过程。
本申请实施例中,可以对第二音频信号进行更进一步的判断,可以防止由于第二音频信号的能量值判断不准确,而导致第二终端设备被误启动的情况,同时,由于在此过程中可以及时中断U-boot进程,防止主芯片的远场语音模块被唤醒,可以降低主芯片的能耗。
S1309、远场语音模块在启动后,根据第二音频信号控制主机启动。
具体的,远场语音模块启动后,获取第二音频信号中的控制指令,并基于控制指令控制主机的启动。
发明人发现,由于第二音频信号中包括唤醒模块实时采集音频信号,在启动第二终端设备的过程中,唤醒模块可能会接收到多条音频信号,这就导致第二音频信号中可能会包括不满足上述预设条件的部分音频信号,这些音频信号会对远场语音模块启动主机的过程造成干扰。有鉴于此,在一些实施例中,上述步骤S1307具体包括如下操作,以解决上述问题:
操作1、音频信号检测模块获取第二音频信号中满足预设条件的第三音频信号。
操作2、音频信号检测模块启动远场语音模块,并向远场语音模块发送第三音频信号。
相应的,上述步骤S1309具体为:远场语音模块接收第三音频信号,根据第三音频信号中的唤醒词,控制主机启动。
本申请实施例中,由于主芯片为基于唤醒词检测的高性能引擎,其可以对缓存的全路麦克的音频信号进行降噪处理和唤醒词检测,可以保障唤醒性能,从而避免第二终端设备被误唤醒或无法正常唤醒等情况。另外,由唤醒模块根据音频信号来启动主芯片,使得主芯片在未接收到启动指令时均处于关闭状态,其不会产生太大的功耗,进而可以在保障第二终端设备的唤醒性能的同时,降低功耗,提升用户体验。
其次,在启动主芯片的过程中,先启动主芯片中的音频信号检测模块,通过此模块对第二音频信号进行初步判断,当通过时,再启动主芯片的远场语音模块,通过此方式,可以在保障第二终端设备的唤醒性能的同时,最大程度的降低主芯片的功耗,且通过远场语音模块可以实现更精准的控制。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
Claims (18)
- 一种第一终端设备,包括:第一通信器,被配置为:接收第二终端设备发送的待识别语音信号,所述第一终端设备和所述第二终端设备通过短距离无线通信方式连接;第一控制器,被配置为:响应于所述待识别语音信号,采集音频参考信号;从所述待识别语音信号中去除所述音频参考信号,以得到目标识别信号;所述第一通信器,还被配置为:将通知信号发送至所述第二终端设备,所述通知信号为所述目标识别信号,或者,所述通知信号用于指示所述第二终端设备进入唤醒状态。
- 根据权利要求1所述的设备,所述第一控制器,具体被配置为:计算所述待识别语音信号与所述音频参考信号之间的时延;若所述时延大于预设时延阈值,则基于所述待识别语音信号对所述音频参考信号进行校正,以得到与所述待识别语音信号同步的音频参考信号;从所述待识别语音信号中,去除同步后的所述音频参考信号,以得到所述目标识别信号。
- 根据权利要求1所述的设备,所述第一控制器,具体被配置为:从所述待识别语音信号中去除所述音频参考信号,得到所述目标识别信号;基于唤醒词模型,对所述目标识别信号进行识别,得到所述目标识别信号中包括的多个关键词;判断所述多个关键词中是否包括目标唤醒词;在所述多个关键词中包括所述目标唤醒词的情况下,生成所述通知信号,以指示所述第二终端设备进入所述唤醒状态。
- 根据权利要求3所述的设备,所述唤醒词模型中包括多个预设唤醒词,所述第一控制器,具体被配置为:分别计算所述唤醒词模型中每个预设唤醒词与所述关键词之间的相似度;将多个相似度进行加权求和得到总相似度;在所述总相似度达到预设相似度阈值的情况下,确定所述关键词为目标唤醒词。
- 一种第二终端设备,所述第二终端设备设置有麦克风阵列,包括:第二通信器,被配置为:向第一终端设备发送待识别语音信号;接收所述第一终端设备反馈的目标识别信号;第二控制器,被配置为:响应于所述目标识别信号,基于唤醒词模型,对所述目标识别信号进行识别,得到所述目标识别信号中包括的多个关键词;判断所述多个关键词中是否包括目标唤醒词;在所述多个关键词中包括所述目标唤醒词的情况下,控制进入唤醒状态。
- 一种第二终端设备,所述第二终端设备设置有麦克风阵列,包括:第二通信器,被配置为:向第一终端设备发送待识别语音信号;接收所述第一终端设备反馈的通知信号,所述通知信号用于指示所述第二终端设备进入唤醒状态;第二控制器,被配置为:响应于所述通知信号,控制进入唤醒状态。
- 根据权利要求6所述的设备,所述第二通信器,还被配置为:接收用户输入的所述待识别语音信号;所述第二控制器,还被配置为:响应于所述待识别语音信号,进行语音识别;在所述待识别语音信号中包括预设唤醒词的情况下,控制所述第二终端设备进入待唤醒状态;在所述待唤醒状态下,向所述第一终端设备发送所述待识别语音信号。
- 根据权利要求5至7任一项所述的设备,所述第二控制器包括:唤醒模块、主芯片以及主机;所述唤醒模块,具体被配置为:响应于采集到第一音频信号,控制所述主芯片进入U-boot进程;在U-boot进程中,所述主芯片,被配置为:对所述设备进行初始化,并获取第二音频信号;响应于所述第二音频信号达到能量阈值,提取所述第二音频信号的音频特征;确定所述音频特征是否满足预设条件,在响应于所述音频特征满足所述预设条件时,根据所述第二音频信号控制所述主机启动,所述第二音频信号中包含所述第一音频信号和所述唤醒模块当前采集到的音频信号。
- 根据权利要求8所述的设备,所述主芯片包括:音频信号检测模块和远场语音模块;所述主芯片被配置为响应于所述第二音频信号达到能量阈值,提取所述第二音频信号的音频特征时,具体包括:所述音频信号检测模块响应于所述第二音频信号达到能量阈值,提取所述第二音频信号的音频特征;所述主芯片被配置为确定所述音频特征是否满足预设条件,并响应于所述音频特征满足所述预设条件,根据所述第二音频信号控制所述主机启动,具体包括:所述音频信号检测模块确定所述音频特征是否满足所述预设条件;响应于所述音频特征满足所述预设条件时,启动所述远场语音模块;所述远场语音模块在启动后,根据所述第二音频信号控制所述主机启动。
- 根据权利要求9所述的设备,所述音频信号检测模块响应于所述第二音频信号达到能量阈值,提取所述第二音频信号的音频特征时,具体被配置为:对所述第二音频信号进行分帧处理,获得所述第二音频信号对应的语音帧;根据所述语音帧,计算所述第二音频信号的短时能量,和/或,短时过零率;响应于所述短时过零率大于或等于预设过零率,和/或,所述短时能量大于或等于预设短时能量,确定所述第二音频信号达到能量阈值,提取所述第二音频信号的音频特征。
- 根据权利要求10所述的设备,所述音频信号检测模块,还被配置为:响应于所述短时过零率小于所述预设过零率,和/或,所述短时能量小于所述预设短时能量,确定所述第二音频信号未达到能量阈值,控制所述主芯片中断所述U-boot进程。
- 根据权利要求9所述的设备,所述音频信号检测模块确定所述音频特征是否满足所述预设条件时,具体被配置为:根据所述音频特征和预设特征序列,确定所述音频特征与预设特征序列的相似度;响应于所述相似度大于或等于预设相似度,确定所述音频特征满足预设条件;响应于所述相似度小于预设相似度,确定所述音频特征不满足预设条件。
- 根据权利要求9所述的设备,所述音频信号检测模块,还被配置为:响应于所述音频特征不满足所述预设条件,控制所述主芯片中断U-boot进程。
- 根据权利要求8所述的设备,所述唤醒模块包括:音频采集电路以及激活电路;所述唤醒模块被配置为响应于接收到第一音频信号,控制所述主芯片进入U-boot进程时,具体包括:所述音频采集电路响应于接收到所述第一音频信号,确定所述第一音频信号中是否包含人声和/或目标唤醒词;所述激活电路响应于所述音频信号中包含人声和/或目标唤醒词,则向所述主芯片发送激活指令,所述激活指令用于指示所述主芯片进入U-boot进程。
- 根据权利要求9所述的设备,所述音频信号检测模块在响应于所述音频特征满足所述预设条件,启动所述远场语音模块时,具体被配置为:所述音频信号检测模块响应于所述音频特征满足所述预设条件,获取所述第二音频信号中满足所述预设条件的第三音频信号;启动所述远场语音模块,并向所述远场语音模块发送所述第三音频信号;所述远场语音模块在启动后,根据所述第二音频信号控制所述主机启动时,具体被配置为:所述远场语音模块接收所述第三音频信号,根据所述第三音频信号中的唤醒词,控制所述主机启动。
- 一种语音唤醒方法,应用于第一终端设备,包括:接收第二终端设备发送的待识别语音信号,所述第一终端设备和所述第二终端设备通过短距离无线通信方式连接;响应于所述待识别语音信号,采集音频参考信号;从所述待识别语音信号中去除所述音频参考信号,以得到目标识别信号;将通知信号发送至所述第一终端设备,所述通知信号为所述目标识别信号,或者,所述通知信号用于指示所述第二终端设备进入唤醒状态。
- 一种语音唤醒方法,应用于第二终端设备,包括:向第一终端设备发送待识别语音信号;接收所述第一终端设备反馈的目标识别信号;响应于所述目标识别信号,基于唤醒词模型,对所述目标识别信号进行识别,得到所述目标识别信号中包括的多个关键词;判断所述多个关键词中是否包括目标唤醒词;在所述多个关键词中包括所述目标唤醒词的情况下,控制进入唤醒状态。
- 一种语音唤醒方法,应用于第二终端设备,包括:向第一终端设备发送待识别语音信号;接收所述第一终端设备反馈的通知信号,所述通知信号用于指示所述第二终端设备进 入唤醒状态;响应于所述通知信号,控制进入唤醒状态。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210148501.9A CN114373462A (zh) | 2022-02-17 | 2022-02-17 | 语音交互设备及其控制方法、控制装置 |
CN2022101485019 | 2022-02-17 | ||
CN202210187574.9A CN114694661A (zh) | 2022-02-28 | 2022-02-28 | 一种第一终端设备、第二终端设备和语音唤醒方法 |
CN2022101875749 | 2022-02-28 | ||
PCT/CN2022/142800 WO2023155607A1 (zh) | 2022-02-17 | 2022-12-28 | 终端设备和语音唤醒方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118591839A true CN118591839A (zh) | 2024-09-03 |
Family
ID=87577481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280085596.2A Pending CN118591839A (zh) | 2022-02-17 | 2022-12-28 | 终端设备和语音唤醒方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN118591839A (zh) |
WO (1) | WO2023155607A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117012206B (zh) * | 2023-10-07 | 2024-01-16 | 山东省智能机器人应用技术研究院 | 一种人机语音交互系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
CN110166882B (zh) * | 2018-09-29 | 2021-05-25 | 腾讯科技(深圳)有限公司 | 远场拾音设备、及远场拾音设备中采集人声信号的方法 |
CN109920437B (zh) * | 2019-04-26 | 2021-03-09 | 北京小米智能科技有限公司 | 干扰去除的方法及装置 |
CN112735462B (zh) * | 2020-12-30 | 2024-05-31 | 科大讯飞股份有限公司 | 分布式麦克风阵列的降噪方法和语音交互方法 |
CN113593563A (zh) * | 2021-08-06 | 2021-11-02 | 歌尔科技有限公司 | 语音处理方法、遥控器及系统 |
CN113889109B (zh) * | 2021-10-21 | 2024-10-22 | 深圳市中科蓝讯科技股份有限公司 | 语音唤醒模式的调节方法、存储介质及电子设备 |
CN114373462A (zh) * | 2022-02-17 | 2022-04-19 | 海信视像科技股份有限公司 | 语音交互设备及其控制方法、控制装置 |
CN114694661A (zh) * | 2022-02-28 | 2022-07-01 | 海信视像科技股份有限公司 | 一种第一终端设备、第二终端设备和语音唤醒方法 |
-
2022
- 2022-12-28 WO PCT/CN2022/142800 patent/WO2023155607A1/zh active Application Filing
- 2022-12-28 CN CN202280085596.2A patent/CN118591839A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2023155607A1 (zh) | 2023-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11443744B2 (en) | Electronic device and voice recognition control method of electronic device | |
US11765234B2 (en) | Electronic device, server and recording medium supporting task execution using external device | |
CN105575395A (zh) | 语音唤醒方法及装置、终端及其处理方法 | |
CN110827818A (zh) | 一种智能语音设备的控制方法、装置、设备及存储介质 | |
CN109166575A (zh) | 智能设备的交互方法、装置、智能设备和存储介质 | |
EP2959474A2 (en) | Hybrid performance scaling or speech recognition | |
US11631406B2 (en) | Method for responding to user utterance and electronic device for supporting same | |
CN109101517B (zh) | 信息处理方法、信息处理设备以及介质 | |
US11514890B2 (en) | Method for user voice input processing and electronic device supporting same | |
CN110675873B (zh) | 智能设备的数据处理方法、装置、设备及存储介质 | |
CN113160815B (zh) | 语音唤醒的智能控制方法、装置、设备及存储介质 | |
CN112739507B (zh) | 一种交互沟通实现方法、设备和存储介质 | |
US11636867B2 (en) | Electronic device supporting improved speech recognition | |
CN112233676B (zh) | 智能设备唤醒方法、装置、电子设备及存储介质 | |
CN114373462A (zh) | 语音交互设备及其控制方法、控制装置 | |
WO2024103926A1 (zh) | 语音控制方法、装置、存储介质以及电子设备 | |
WO2023155607A1 (zh) | 终端设备和语音唤醒方法 | |
CN110933345A (zh) | 一种降低电视待机功耗的方法、电视机及存储介质 | |
CN113519022A (zh) | 电子设备及其控制方法 | |
CN114694661A (zh) | 一种第一终端设备、第二终端设备和语音唤醒方法 | |
US11244676B2 (en) | Apparatus for processing user voice input | |
US20230126305A1 (en) | Method of identifying target device based on reception of utterance and electronic device therefor | |
CN116229962A (zh) | 终端设备及语音唤醒方法 | |
CN116129942A (zh) | 语音交互设备和语音交互方法 | |
US11967322B2 (en) | Server for identifying false wakeup and method for controlling the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |