CN117809625A

CN117809625A - 一种终端设备及双模型校验的唤醒方法

Info

Publication number: CN117809625A
Application number: CN202310997773.0A
Authority: CN
Inventors: 方依云; 李俊彦
Original assignee: Hisense Electronic Technology Wuhan Co ltd
Current assignee: Hisense Electronic Technology Wuhan Co ltd
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2024-04-02

Abstract

本申请一些实施例提供一种终端设备及双模型校验的唤醒方法，所述方法可以获取语音数据，并对语音数据执行音量归一化处理。再通过第一唤醒模型检测语音数据的第一置信度，以及通过第二唤醒模型检测语音数据的第二置信度。其中，训练第一唤醒模型时的正样本多于训练第二唤醒模型时的正样本。设置语音数据的输入步长，并计算第一目标置信度与第二目标置信度的和值。其中，第一目标置信度为大于第一唤醒阈值的第一置信度，第二目标置信度为大于第二唤醒阈值的第二置信度，且二者对应的语音数据间隔输入步长。在和值大于第三唤醒阈值时，唤醒终端设备。所述方法基于双模型对语音数据执行校验，并设置三个不同的唤醒阈值，可提高语音唤醒的精确度。

Description

一种终端设备及双模型校验的唤醒方法

技术领域

本申请涉及语音识别技术领域，尤其涉及一种终端设备及双模型校验的唤醒方法。

背景技术

终端设备是指具有声音采集功能的电子设备，可以是智能电视、手机、智能音箱、电脑、机器人等电子设备。以智能电视为例，智能电视是基于Internet应用技术，具备开放式操作系统与芯片，拥有语音识别功能模块，可实现双向人机交互功能的电视产品，用于满足用户多样化和个性化需求。

用户还可以通过语音唤醒终端设备的语音辅助功能，比如可以通过唤醒使终端设备从待机状态进入工作状态或在工作状态时启动语音助手。语音唤醒又称为关键词检测，是语音识别技术的重要分支。语音唤醒是指终端设备从连续不断的语音流中检测特定的关键词，在检测到特定的关键词时发出信号，进而唤醒终端设备。其中，特定的关键词即为唤醒词，用户可以通过携带有唤醒词的语音唤醒对应的终端设备。

语音唤醒的过程是通过终端设备中内置的唤醒模型执行的，而唤醒模型的计算能力与模型的复杂度呈正相关。也就是说，唤醒模型的复杂度越高，其对应的计算能力则越强，所占用的系统资源也越多。但是，部分终端设备的内存体积较小，无法适配复杂度较高的唤醒模型。如果采用复杂度较低的唤醒模型，则会导致唤醒模型的误唤醒率增加，降低终端设备中语音唤醒的精准度。

发明内容

本申请提供了一种终端设备及双模型校验的唤醒方法，以解决终端设备中语音唤醒精准度低的问题。

第一方面，本申请一些实施例提供一种终端设备，包括声音采集器与控制器。其中，所述声音采集器被配置为采集用户输入的语音数据；所述控制器被配置为：

获取语音数据，以及对所述语音数据执行音量归一化处理；

通过第一唤醒模型检测所述语音数据的第一置信度，以及通过第二唤醒模型检测所述语音数据的第二置信度；所述第一唤醒模型与所述第二唤醒模型基于正样本数据、负样本数据训练获得，训练所述第一唤醒模型时的正样本数据多于训练所述第二唤醒模型时的正样本数据；

设置所述语音数据的输入步长；

计算第一目标置信度与第二目标置信度的和值；所述第一目标置信度为大于第一唤醒阈值的第一置信度，所述第二目标置信度为大于第二唤醒阈值的第二置信度，所述第一目标置信度对应的语音数据与所述第二目标置信度对应的语音数据间隔所述输入步长；

在所述和值大于第三唤醒阈值时，唤醒所述终端设备，所述第三唤醒阈值大于所述第一唤醒阈值与所述第二唤醒阈值。

本申请一些实施例中，所述正样本数据包括唤醒词语音数据与静音数据，所述唤醒词语音数据为包括唤醒词特征的语音数据，所述静音数据为不包括人声的音频数据；所述负样本数据包括非唤醒词语音数据，所述非唤醒词语音数据为不包括唤醒词特征的语音数据。

本申请一些实施例中，所述控制器还被配置为：获取第一样本数据，所述第一样本数据包括所述第一唤醒模型的正样本数据与负样本数据；所述第一样本数据中所述静音数据的数据流长度为第一长度；通过所述第一样本数据训练所述第一唤醒模型；获取第二样本数据，所述第二样本数据包括所述第二唤醒模型的正样本数据与负样本数据；所述第二样本数据中所述静音数据的数据流长度为第二长度，所述第二长度大于第一长度；通过所述第二样本数据训练所述第二唤醒模型。

本申请一些实施例中，所述控制器执行通过第一唤醒模型检测所述语音数据的第一置信度，以及通过第二唤醒模型检测所述语音数据的第二置信度，被配置为：解析所述语音数据的声学特征；计算所述声学特征与所述唤醒词特征的相似度。

本申请一些实施例中，所述控制器还被配置为：获取正样本音量范围与负样本音量范围，所述正样本音量范围包括一个音量区间，所述负样本音量范围包括至少两个音量区间；按照所述正样本音量范围对所述正样本数据执行音量归一化处理，以及按照所述负样本音量范围对所述负样本数据执行音量归一化处理。

本申请一些实施例中，所述控制器还被配置为：获取所述第一唤醒模型的校验状态参数；如果所述校验状态参数为初始参数，对所述语音数据执行预处理，并将所述语音数据输入至所述第一唤醒模型，以通过第一唤醒模型检测所述语音数据的第一置信度；如果所述校验状态参数为非初始参数，对所述语音数据执行预处理，并将所述语音数据输入至所述第二唤醒模型，以通过第二唤醒模型检测所述语音数据的第二置信度。

本申请一些实施例中，所述控制器执行设置所述语音数据的输入步长，被配置为：监测所述第一唤醒模型输出的第一置信度；如果所述第一置信度大于所述第一唤醒阈值，则调整所述输入步长为第一步长；如果所述第一置信度小于或等于所述第一唤醒阈值，则调整所述输入步长为第二步长，所述第二步长为所述第一步长的二倍。

本申请一些实施例中，所述控制器执行设置所述语音数据的输入步长，还被配置为：监测所述第二唤醒模型输出的第二置信度；如果所述第二置信度大于所述第二唤醒阈值，则调整所述输入步长为所述第一步长；如果所述第二置信度小于或等于所述第二唤醒阈值，则调整所述输入步长为所述第二步长。

本申请一些实施例中，还包括显示器，所述显示器被配置为显示用户界面；所述控制器执行唤醒所述终端设备，被配置为：获取所述语音数据的唤醒点，所述唤醒点为所述和值大于第三唤醒阈值时语音数据的时间点；清除早于所述唤醒点的语音数据；根据所述语音数据生成语音指令；响应所述语音指令，以及控制所述显示器显示唤醒应答界面。

第二方面，本申请一些实施例还提供一种双模型校验的唤醒方法，包括：

获取语音数据，以及对所述语音数据执行音量归一化处理；

设置所述语音数据的输入步长；

在所述和值大于第三唤醒阈值时，唤醒终端设备，所述第三唤醒阈值大于所述第一唤醒阈值与所述第二唤醒阈值。

由以上技术方案可知，本申请一些实施例提供的终端设备及双模型校验的唤醒方法，所述方法可以获取语音数据，并对语音数据执行音量归一化处理。再通过第一唤醒模型检测语音数据的第一置信度，以及通过第二唤醒模型检测语音数据的第二置信度。其中，训练第一唤醒模型时的正样本多于训练第二唤醒模型时的正样本。设置语音数据的输入步长，并计算第一目标置信度与第二目标置信度的和值。其中，第一目标置信度为大于第一唤醒阈值的第一置信度，第二目标置信度为大于第二唤醒阈值的第二置信度，且二者对应的语音数据间隔输入步长。在和值大于第三唤醒阈值时，唤醒终端设备。所述方法基于双模型对语音数据执行校验，并设置三个不同的唤醒阈值，可提高语音唤醒的精确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一些实施例提供的终端设备语音交互的交互场景示意图；

图2为本申请一些实施例提供的终端设备的硬件配置示意图；

图3为本申请一些实施例提供的控制装置的软件配置示意图；

图4为本申请一些实施例提供的一种语音交互的网络架构示意图；

图5为本申请一些实施例提供的通过唤醒词语音唤醒终端设备的流程示意图；

图6为本申请一些实施例提供的终端设备执行双模型校验的流程示意图；

图7为本申请一些实施例提供的一种双模型校验的唤醒方法的流程示意图；

图8为本申请一些实施例提供的正样本数据唤醒点前移的前后对比效果示意图；

图9为本申请一些实施例提供的正样本数据与负样本数据执行音量归一化的流程示意图；

图10为本申请一些实施例提供的唤醒终端设备的流程示意图；

图11为本申请一些实施例提供的唤醒应答界面的效果示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

图1示出了可以应用本申请的终端设备200执行语音交互的示例性系统架构。如图1所示，其中，10为服务器，200为终端设备，示例性包括(智能电视200a,移动设备200b,智能音箱200c)。

本申请中服务器10与终端设备200通过多种通信方式进行数据通信。可允许终端设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器10可以向终端设备20提供各种内容和互动。示例性的，终端设备200与服务器10可以通过发送和接收信息，以及接收软件程序更新。

服务器10可以是提供各种服务的服务器，例如对终端设备200采集的音频数据提供支持的后台服务器。后台服务器可以对接收到的音频等数据进行分析等处理，并将处理结果(例如端点信息)反馈给终端设备。服务器10可以是一个服务器集群，也可以是多个服务器集群，可以包括一类或多类服务器。

终端设备200可以是硬件，也可以是软件。当终端设备200为硬件时，可以是具有声音采集功能的各种电子设备，包括但不限于智能音箱、智能手机、电视、平板电脑、电子书阅读器、智能手表、播放器、计算机、AI设备、机器人、智能车辆等等。当终端设备200为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供声音采集服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的远场语音的待机唤醒方法可以通过服务器10执行，也可以通过终端设备20执行，还可以通过服务器10和终端设备20共同执行，本申请对此不做限定。

图2示出了根据示例性实施例中终端设备200的硬件配置框图。如图2所示终端设备200包括通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。终端设备200可以通过通信器220服务器10建立控制信号和数据信号的发送和接收。

用户接口，可用于接收外部的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器231，如麦克风等，用于接收外部声音。

声音采集器231可以是麦克风，也称“话筒”，“传声器”，可以用于接收用户的声音，将声音信号转换为电信号。终端设备200可以设置至少一个麦克风。在另一些实施例中，终端设备200可以设置两个麦克风，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端设备200还可以设置三个，四个或更多麦克风，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

此外，麦克风可以是内置在终端设备200上，或者麦克风通过有线或者无线的方式与终端设备200相连接。当然，本申请实施例对麦克风在终端设备200上的位置不作限定。或者，终端设备200可以不包括麦克风，即上述麦克风并未设置于终端设备200中。终端设备200可以通过接口(如USB接口)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在终端设备200上。

控制器250，通过存储在存储器上中各种软件控制程序，来控制终端设备的工作和响应用户的操作。控制器250控制终端设备200的整体操作。

示例性的，控制器包括中央处理器(Central Processing Unit，CPU)，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random Access Memory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

在一些示例中，终端设备200的操作系统为Android系统为例，如图3所示，终端设备200从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21，内核层22和硬件层23。

其中，如图3所示，硬件层可包括图2所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为系统应用，也可以为第三方应用。如，应用层21包括语音识别应用，语音识别应用可以提供语音交互界面和服务，用于实现智能电视200-1与服务器10的连接。

内核层22作为硬件层和应用层21之间的软件中间件，用于管理和控制硬件与软件资源。

在一些示例中，内核层22包括检测器驱动，检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。示例性的，终端设备200中的语音识别应用启动，终端设备200与服务器10建立了通信连接的情况下，检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后，语音识别应用将包含该语音数据的查询信息发送至服务器中的意图识别模块202。意图识别模块202用于将终端设备200发送的语音数据输入至意图识别模型。

为清楚说明本申请的实施例，下面结合图4对本申请实施例提供的一种语音识别网络架构进行描述。

参见图4，图4为本申请实施例提供的一种语音交互网络架构示意图。图4中，终端设备200用于接收输入的信息以及输出对该信息的处理结果。语音识别模块部署有语音识别服务，用于将音频识别为文本；语义理解模块部署有语义理解服务，用于对文本进行语义解析；业务管理模块部署有业务指令管理服务，用于提供业务指令；语言生成模块部署有语言生成服务(NLG)，用于将指示终端设备200执行的指令转化为文本语言；语音合成模块部署有语音合成(TTS)服务，用于将指令对应的文本语言处理后发送至扬声器进行播报。在一个实施例中，图4所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

在一些实施例中，下面对基于图4所示架构处理输入终端设备200的信息的过程进行举例描述，以输入终端设备200的信息为通过语音输入的查询语句为例：

[语音识别]

终端设备200可在接收到通过语音输入的查询语句后，终端设备200可对查询语句的音频进行降噪处理和特征提取，这里的去噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

利用声学模型和语言模型，对识别出的候选文本和相关联的上下文信息进行自然语言理解，将文本解析为结构化的、机器可读的信息，业务领域、意图、词槽等信息以表达语义等。得到可执行意图确定意图置信度得分，语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图，

[业务管理]

语义理解模块根据对查询语句的文本的语义解析结果，向相应的业务管理模块下发查询指令以获取业务服务给出的查询结果，以及执行“完成”用户最终请求所需的动作，并将查询结果对应的设备执行指令进行反馈。

[语言生成]

自然语言生成(NLG)被配置为将信息或者指令生成语言文本。具体可分为闲聊型、任务型、知识问答型和推荐型。其中，闲聊型对话中的NLG就是根据上下文进行意图识别、情感分析等，然后生成开放性回复；任务型对话中需根据学习到的策略来生成对话回复，一般回复包括澄清需求、引导用户、询问、确认、对话结束语等；知识问答型对话中根据问句类型识别与分类、信息检索或文本匹配而生成用户需要的知识(知识、实体、片段等)；推荐型对话系统中根据用户的爱好来进行兴趣匹配以及候选推荐内容排序，然后生成给用户推荐的内容。

[语音合成]

语音合被配置为呈现给用户的语音输出。语音合成处理模块基于数字助理提供的文本来合成语音输出。例如，所生成的对话响应是文本串的形式。语音合成模块将文本串转换成可听语音输出。

需要说明的是，图4所示架构只是一种示例，并非对本申请保护范围的限定。本申请实施例中，也可采用其他架构来实现类似功能，例如：上述过程全部或部分可以由终端设备200来完成，在此不做赘述。

基于上述终端设备200，用户可以通过语音指令与终端设备200进行交互。并且，在一些实施例中，终端设备200接收用户输入的语音数据，以及解析语音数据。在语音数据中包含唤醒词特征时，唤醒终端设备200，以启动终端设备200的对话管理功能。比如，在待状态下，终端设备200接收到包括唤醒词特征的语音数据后，可以将待机状态切换为运行状态，即用户还可以根据唤醒词唤醒待机状态下的终端设备200。

例如：以终端设备200为显示设备为例。显示设备可以包括智能电视、智能手机、平板电脑、带屏的智能家居设备、带屏的智能教育设备等；显示设备中配置有语音交互功能，唤醒词为“Hi ABC”。如图5所示，显示设备处于待机状态时，用户向显示设备说出“Hi ABC”，显示设备则接收“Hi ABC”的语音并进行解析识别。在识别出唤醒词特征“Hi ABC”后，显示设备则从待机状态切换至运行状态。

显然，在终端设备200中已配置有唤醒词时，用户才可以通过输入包括唤醒词特征的语音数据唤醒终端设备200。在一些实施例中，唤醒词可以为终端设备200配置的固定关键词，也可以为用户在终端设备200中自定义的关键词。如果唤醒词为固定关键词，则根据固定关键词训练唤醒模型，以及通过训练后的唤醒模型识别用户输入的语音数据；如果唤醒词为自定义的关键词，则通过通用的唤醒模型识别用户输入的语音数据。

因此，在一些实施例中，唤醒词为固定唤醒词时，终端设备200中内置固定唤醒词的语音特征模板；自定义唤醒词时，则需要用户在终端设备200中预先注册自定义唤醒词的语音特征模板。唤醒模型再基于语音特征模型，计算语音数据的置信度。

由于唤醒词的音节覆盖越多、音节差异越大时，终端设备200中唤醒模型相对的唤醒词检测性能越好。因此，在一些实施例中，终端设备200预置的唤醒词模板的音节差异及音节覆盖大于一定的差异阈值，进而降低唤醒模型的误唤醒率。

在一些实施例中，终端设备200通过内置的唤醒模型对用户输入的语音数据进行识别时，将语音数据作为唤醒模型的输入特征，通过唤醒模型识别语音数据是否包括唤醒词特征。比如，可以通过终端设备200的唤醒模型计算出语音数据与预置的语音特征模板的相似度；在计算得出的相似度大于或等于相似度阈值时，唤醒终端设备200，以便于用户与终端设备200进行交互。

为了使终端设备200可以准确地在语音数据中识别出唤醒词特征，在一些实施例中，通过大量的样本数据训练终端设备200的初始唤醒模型，以生成唤醒模型。终端设备200在使用过程中，通过训练好的唤醒模型计算用户输入语音数据的置信度。在置信度大于预设的阈值时，唤醒终端设备。其中，唤醒模型的计算能力与模型自身的复杂度成正相关，即唤醒模型的复杂度越高，模型的计算能力则越强。

为了减少终端设备200的误唤醒率，终端设备200还可以将用户的声音特征添加至唤醒模型中。在一些实施例中，获取与用户注册唤醒词的语音数据，终端设备200再基于语音端点检测算法提取唤醒词语音，以及对唤醒词语音执行降噪处理。然后从唤醒词语音中提取声学特征与身份认证矢量。再将声学特征与身份认证矢量拼接为特征向量，以及通过特征向量训练唤醒模型。那么，训练后的唤醒词模型即携带有说话人信息，具有更详细的特征信息，可减少终端设备200的误识别情况。

显然，结合身份认证矢量，可以使终端设备200仅识别所绑定的说话人的语音。但是，部分终端设备200为多个用户共用的电子设备，比如智能电视等。那么，仅认证一个身份认证矢量，则不方便使用终端设备200的语音唤醒功能。因此，在一些实施例中，在自定义唤醒词时，终端设备200可提供身份认证的选择功能，用户可以选择多个身份认证，以使终端设备200提取多个身份认证矢量，识别多个身份的用户语音。

然而，唤醒模型的复杂度越高，其占用的系统资源也越多。这样，部分微型的终端设备200则没有足够的空间适配复杂度较高的模型。而如果采用复杂度低的模型，终端设备200的误唤醒率则会增加，导致终端设备200中语音唤醒的精确率降低。

基于上述应用场景，为了改善终端设备200中语音唤醒精准度低的问题，本申请一些实施例提供一种终端设备200，如图6所示，包括声音采集器231与控制器250。其中，所述声音采集器231被配置为采集用户输入的语音数据；如图7所示，所述控制器被配置为执行以下程序步骤：

S100：获取语音数据，以及对语音数据执行音量归一化处理。

终端设备200在使用过程中，声音采集器231对终端设备200采集范围内的声音进行实时采集。在采集到用户输入的语音数据后，终端设备200可以将采集的声音转换为电信号的形式进行储存，以获取语音数据，形成语音数据的音频数据流。同时，对获取到的音频数据流执行音量归一化处理，将语音数据的音量控制在一定的区间范围，以便于终端设备200执行后续的唤醒词检测。

在一些实施例中，终端设备200在获取语音数据时，获取语音数据的更新信息，并按照终端设备200配置的固定长度，更新语音数据的数据流。其中，更新信息包括数据流的固定输入长度及数据流当前位置等。

S200：通过第一唤醒模型检测所述语音数据的第一置信度，以及通过第二唤醒模型检测所述语音数据的第二置信度。

终端设备200在获取到语音数据后，通过其内置的第一唤醒模型及第二唤醒模型检测语音数据的置信度，以判断当前获取的语音数据是否包括唤醒词特征。其中，为了保证低资源占用及降低终端设备的误唤醒率，第一唤醒模型与第二唤醒模型的主线保持串联连接，第一唤醒模型与第二唤醒模型基于正样本数据、负样本数据训练获得，且训练第一唤醒模型的正样本数据多于训练第二唤醒模型时的正样本数据。

在一些实施例中，正样本数据包括唤醒词语音数据与静音数据，唤醒词语音数据为包括唤醒词特征的语音数据，静音数据为不包括人声的音频数据；负样本数据包括非唤醒词语音数据，非唤醒词语音数据为不包括唤醒词特征的语音数据。其中，为了增加负样本数据空间的广泛性，负样本数据可以包括部分重复数据，其余的数据为不同的负样本数据。

例如，在训练第一唤醒模型及第二唤醒模型时，采用基于分类的唤醒方案，预测共三类：silence、unknown、hxxj。其中silence为不包含人声的数据，unknown为非hxxj类数据，hxxj为固定1.5s的音频。第一唤醒模型相较于第二唤醒模型增加10w正样本数据，二者正样本数据的数据差异性如图8所示，第一唤醒模型的唤醒点可比第二唤醒模型前移200ms。并且，第一唤醒模型与第二唤醒模型的负样本保证80％的重复数据，其余数据采用不同场景的音频数据。

在一些实施例中，终端设备200获取第一样本数据。其中，第一样本数据包括第一唤醒模型的正样本数据与负样本数据，第一样本数据中静音数据的数据流长度为第一长度。再通过第一样本数据训练第一唤醒模型。获取第二样本数据。其中，第二样本数据包括第二唤醒模型的正样本数据与负样本数据。其中，第二样本数据中静音数据的数据流长度为第二长度，第二长度大于第一长度。再通过第二样本数据训练第二唤醒模型。

也就是说，终端设备200通过控制静音数据的长度，将第一唤醒模型的唤醒点前移，从而实现在唤醒模型串联时不会因为第一唤醒模型唤醒后，语音数据更新导致第二唤醒模型所检测的置信度降低的问题。同时，还可以减少双唤醒模型的资源消耗，降低终端设备200的能耗。

由于第一唤醒模型及第二唤醒模型检测置信度的过程，为判断用户数据的语音数据是否包括唤醒词特征。因此，在一些实施例中，终端设备200通过第一唤醒模型检测语音数据的第一置信度，以及通过第二唤醒模型检测语音数据的第二置信度时，解析语音数据的声学特征，并计算声学特征与唤醒词特征的相似度。

在一些实施例中，所述声学特征包括FFT(fast Fourier transform，快速傅里叶变换)、Pitch(基音频率)、MFCC(Mel Frequency Cepstrum Coefficient)、Fbank(FilterBank)以及PCEN(Per-channel energy normalization)等。

需要说明的是，本申请实施例中声学特征的相似度计算可以为多种方式，且唤醒词的判定条件也可以为多种方式。对此，本申请不作限制。

并且，在训练第一唤醒模型与第二唤醒模型时，为了保证正样本数据中唤醒词特征置信度一致性以及负样本数据中非唤醒词特征置信度的差异性，在一些实施例中，如图9所示，终端设备200还获取正样本音量范围与负样本音量范围，其中，正样本音量范围包括一个音量区间，负样本音量范围包括至少两个音量区间。按照正样本音量范围对正样本数据执行音量归一化处理，以及按照负样本音量范围对负样本数据执行音量归一化处理。这样，既可以保证正样本数据的置信度一致，又可以增加负样本数据的广泛性。

例如，正样本音量范围为[0.001,0.3]，负样本音量范围为[0.001，0.5]和[0.2，0.7]。终端设备200在训练第一唤醒模型与第二唤醒模型时，则对正样本数据执行[0.001,0.3]的音量归一化，同时将负样本数据分别归一化到[0.001，0.5]和[0.2，0.7]，进而保证负样本数据的空间广泛性。

在一些实施例中，第一唤醒模型与第二唤醒模型均采用nception-ResNet(深度残差网络)为基础框架，再通过正样本数据与负样本数据训练而成。这样，则可以通过上述差异性训练方式分别训练得出第一唤醒模型与第二唤醒模型，提高终端设备200整体的唤醒精度。

终端设备200获取语音数据的数据流输入时，还需要对第一唤醒模型及第二唤醒模型的校验状态参数进行检测。即在一些实施例中，终端设备200还获取第一唤醒模型的校验状态参数。如果校验状态参数为初始参数，对语音数据执行预处理，并将语音数据输入至第一唤醒模型，以通过第一唤醒模型检测语音数据的第一置信度。如果校验状态参数为非初始参数，对所音数据执行预处理，并将语音数据输入至第二唤醒模型，以通过第二唤醒模型检测语音数据的第二置信度。其中，预处理包括音量归一化及将语音数据以固定长度分段输入等，输入第一唤醒模型与输入第二唤醒模型时采取的预处理参数可以为不同的参数。

例如，终端设备200中第一唤醒模型的初始参数为1，在对语音数据进行校验之前，则将第一唤醒模型的校验状态参数初始化为1。当用户向终端设备200输入语音数据后，终端设备200则获取第一唤醒模型的校验状态参数，检测到校验状态参数为1时，将当前语音数据的数据流输入第一唤醒模型，将第一唤醒模型的校验状态参数调整为2，并通过第一唤醒模型计算当前语音数据的置信度。

同理，在一些实施例中，第二唤醒模型也设有校验状态参数。将语音数据输入第二唤醒模型前，终端设备200还检测第二唤醒模型的校验状态参数。即当第一唤醒模型的校验状态参数不为初始参数，将语音数据输入至第二唤醒模型。再检测第二唤醒模型的校验状态参数，如果第二唤醒模型的校验状态参数为初始参数，则通过第二唤醒模型检测语音数据的第二置信度。

例如，终端设备200中第一唤醒模型、第二唤醒模型的初始参数为1，在对语音数据进行校验之前，则将第一唤醒模型、第二唤醒模型的校验状态参数初始化为1。当用户向终端设备200输入语音数据后，终端设备200则获取第一唤醒模型的校验状态参数，检测到校验状态参数为2时，将当前语音数据的数据流输入至第二唤醒模型，并检测第二唤醒模型的校验状态参数。当第二唤醒模型的状态参数等于初始参数1时，通过第二唤醒模型计算当前语音数据的置信度。

S300：设置语音数据的输入步长。

终端设备200通过第一唤醒模型、第二唤醒模型计算出语音数据的置信度后，则根据计算出的置信度设置语音数据的输入步长，通过调整输入步长的数值，更改语音数据的数据流输入步长。

在一些实施例中，设置语音数据的输入步长时，包括：监测第一唤醒模型输出的第一置信度。如果第一置信度大于第一唤醒阈值，则调整输入步长为第一步长；如果第一置信度小于或等于第一唤醒阈值，则调整输入步长为第二步长。其中，第二步长为第一步长的二倍，例如第一步长为50ms，第二步长则为100ms。

同理，在一些实施例中，设置语音数据的输入步长时，还包括：监测第二唤醒模型输出的第二置信度。如果第二置信度大于第二唤醒阈值，则调整输入步长为所述第一步长；如果第二置信度小于或等于第二唤醒阈值，则调整输入步长为第二步长。

也就是说，当第一唤醒模型或第二唤醒模型任意一个模型被唤醒时，终端设备200均需要将输入步长设置为第一步长，通过间隔第一步长的时间追踪另一个模型所输出的置信度是否大于器对应的唤醒阈值；反之，如果第一唤醒模型或第二唤醒模型任意一个模型输出的置信度小于唤醒阈值时，则将输入步长设置为第二步长，以继续交叉第一唤醒模型与第二唤醒模型范围检索。

例如，第一步长为50ms，第二步长则为100ms，第一唤醒模型的第一唤醒阈值为θ₁，输出的第一置信度为α₁，第二唤醒模型的第二唤醒阈值为θ₂，输出的第二置信度为α₂。当第一唤醒模型输出的置信度α₁>θ₁时，设置输入步长为50ms，以间隔设置50ms追踪第二唤醒模型的置信度α₂；或者，当第二唤醒模型输出的置信度α₂>θ₂时，设置输入步长为50ms，以间隔设置50ms追踪第一唤醒模型的置信度α₁；否则，设置输入步长为100ms，间隔设置100ms继续交叉模型范围检索。

S400：计算第一目标置信度与第二目标置信度的和值。

终端设备200在通过第一唤醒模型及第二唤醒模型检测语音数据的置信度后，可分别判断第一唤醒模型、第二唤醒模型是否被唤醒。第一唤醒模型中设有第一唤醒阈值，第一置信度大于第一唤醒阈值时，第一唤醒模型则被唤醒；第二唤醒模型中设有第二唤醒阈值，第二置信度大于第二唤醒阈值时，第二唤醒模型则被唤醒。这样，仅有一个唤醒模型被唤醒时，可通过另一个唤醒模型拦截误唤醒的情况。

并且，为了加强终端设备200的语音唤醒精确度，还计算第一目标置信度与第二目标置信度的和值。其中，第一目标置信度为大于第一唤醒阈值的第一置信度，第二目标置信度为大于第二唤醒阈值的第二置信度，第一目标置信度对应的语音数据与第二目标置信度对应的语音数据间隔输入步长。终端设备200中设有不同于第一唤醒阈值、第二唤醒阈值的第三唤醒阈值，再次对语音数据进行判断，可进一步降低语音唤醒的误唤醒率。

S500：在和值大于第三唤醒阈值时，唤醒终端设备。

终端设备200计算出第一目标置信度与第二目标置信度的和值后，对比该和值与第三唤醒阈值的数值大小。其中，第三唤醒阈值大于第一唤醒阈值与第二唤醒阈值。通过第三唤醒阈值再次对语音数据进行判断，在和值大于第三阈值时才可以唤醒终端设备200，启动对话管理功能，进而确保终端设备200的唤醒精确度。

例如，第一步长为50ms，第二步长为100ms，第一唤醒模型的第一唤醒阈值为θ₁，输出的第一置信度为α₁，第二唤醒模型的第二唤醒阈值为θ₂，输出的第二置信度为α₂，第三唤醒阈值为θ₃。当第一唤醒模型输出的置信度α₁>θ₁时，设置输入步长为50ms，以间隔设置50ms追踪第二唤醒模型的置信度α₂；α₂>θ₂时，计算α₁与α₂的和值，且当α₁+α₂>θ₃时，唤醒终端设备200。

在一些实施例中，终端设备200还包括显示器260，所述显示器260被配置为显示用户界面。如图10所示，控制器250在执行唤醒终端设备200时，获取语音数据的唤醒点。其中，唤醒点为和值大于第三唤醒阈值时语音数据的时间点。清除早于唤醒点的语音数据，并根据语音数据生成语音指令。响应语音指令，以及控制显示器260显示唤醒应答界面。唤醒应答界面用于辅助用户与终端设备200的语音交互过程。

在一些实施例中，终端设备200在控制显示器260显示唤醒应答界面时，还检测终端设备200的媒资播放状态。如果终端设备200处于正在播放的状态，则暂停当前播放媒资的播放，并在媒资播放界面的上层显示所述唤醒应答界面。其中，播放的媒资类型可以为音频媒资或视频媒资。

例如，终端设备200的唤醒词为“Hi ABC”。用户在终端设备200的采集范围内说出“Hi ABC”，终端设备200则响应于用户输入的语音数据，通过第一唤醒模型及第二唤醒模型构成的双模型架构检测语音数据的置信度，以判断当前采集的语音数据是否包括唤醒词特征。当终端设备200的双模型架构判定唤醒时，如图11所示，终端设备200则清空位于唤醒点之前的语音数据，并在显示器260中显示“我在”的唤醒应答界面，等待用户指令。

在一些实施例中，终端设备200被唤醒后的预设时间段内，如果声音采集器231未采集到用户输入的语音数据，终端设备200则关闭唤醒应答界面。比如，在1分钟内未采集到用户输入的语音数据，则关闭唤醒应答界面。

在一些实施例中，终端设备200可以基于语音数据中位于唤醒点之后的语音数据生成语控制指令，以及响应所述控制指令。例如，终端设备200的唤醒词为“Hi ABC”，用户可直接向终端设备200输入“Hi ABC，请帮我播放《媒资A》”；终端设备200则可以根据“Hi ABC”唤醒终端设备200，并直接执行“播放《媒资A》”对应的程序。

在一些实施例中，控制器250在执行唤醒终端设备200时，还通过输出预置的应答语音，以辅助用户使用终端设备的对话管理功能。例如，设有显示器260的终端设备200可以在显示唤醒应答界面时，同步输出“我在”的语音提示；或者，未设有显示器260的终端设备200，可在唤醒时直接输出“我在”的语音提示，以便于用户确定当前终端设备200已经处于被唤醒的状态。

并且，为了改善用户等待终端设备200唤醒过程时的交互体验，在一些实施例中，终端设备200还包括指示灯，所述指示灯被配置为呈现指示灯效。终端设备200可以通过呈现不同的指示灯效，提示用户当前终端设备200的唤醒状态。例如，在通过第一唤醒模型、第二唤醒模型检测语音数据的置信度时，指示灯可以呈现闪烁的指示灯效；在终端设备200被唤醒时，指示灯呈现长亮的指示灯效。

此外，在一些实施例中，如果所述语音数据的第一置信度小于或等于第一唤醒阈值，或，所述语音数据的的第二置信度小于或等于第二唤醒阈值，或，所述语音数据第一目标置信度与第二目标置信度的和值小于或等于第三唤醒阈值，终端设备200则释放所述语音数据，以减少终端设备200中系统资源的占用。

基于上述终端设备200，本申请部分实施例还提供一种双模型校验的唤醒方法，如图7所示，所述方法包括以下程序步骤：

S100：获取语音数据，以及对所述语音数据执行音量归一化处理；

S200：通过第一唤醒模型检测所述语音数据的第一置信度，以及通过第二唤醒模型检测所述语音数据的第二置信度；所述第一唤醒模型与所述第二唤醒模型基于正样本数据、负样本数据训练获得，训练所述第一唤醒模型时的正样本数据多于训练所述第二唤醒模型时的正样本数据；

S300：设置所述语音数据的输入步长；

S400：计算第一目标置信度与第二目标置信度的和值；所述第一目标置信度为大于第一唤醒阈值的第一置信度，所述第二目标置信度为大于第二唤醒阈值的第二置信度，所述第一目标置信度对应的语音数据与所述第二目标置信度对应的语音数据间隔所述输入步长；

S500：在所述和值大于第三唤醒阈值时，唤醒终端设备，所述第三唤醒阈值大于所述第一唤醒阈值与所述第二唤醒阈值。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种终端设备，其特征在于，包括：

声音采集器，被配置为采集用户输入的语音数据；

控制器，被配置为：

获取语音数据，以及对所述语音数据执行音量归一化处理；

设置所述语音数据的输入步长；

2.根据权利要求1所述的终端设备，其特征在于，所述正样本数据包括唤醒词语音数据与静音数据，所述唤醒词语音数据为包括唤醒词特征的语音数据，所述静音数据为不包括人声的音频数据；所述负样本数据包括非唤醒词语音数据，所述非唤醒词语音数据为不包括唤醒词特征的语音数据。

3.根据权利要求2所述的终端设备，其特征在于，所述控制器还被配置为：

获取第一样本数据，所述第一样本数据包括所述第一唤醒模型的正样本数据与负样本数据；所述第一样本数据中所述静音数据的数据流长度为第一长度；

通过所述第一样本数据训练所述第一唤醒模型；

获取第二样本数据，所述第二样本数据包括所述第二唤醒模型的正样本数据与负样本数据；所述第二样本数据中所述静音数据的数据流长度为第二长度，所述第二长度大于第一长度；

通过所述第二样本数据训练所述第二唤醒模型。

4.根据权利要求2所述的终端设备，其特征在于，所述控制器执行通过第一唤醒模型检测所述语音数据的第一置信度，以及通过第二唤醒模型检测所述语音数据的第二置信度，被配置为：

解析所述语音数据的声学特征；

计算所述声学特征与所述唤醒词特征的相似度。

5.根据权利要求1所述的终端设备，其特征在于，所述控制器还被配置为：

获取正样本音量范围与负样本音量范围，所述正样本音量范围包括一个音量区间，所述负样本音量范围包括至少两个音量区间；

按照所述正样本音量范围对所述正样本数据执行音量归一化处理，以及按照所述负样本音量范围对所述负样本数据执行音量归一化处理。

6.根据权利要求1所述的终端设备，其特征在于，所述控制器还被配置为：

获取所述第一唤醒模型的校验状态参数；

如果所述校验状态参数为初始参数，对所述语音数据执行预处理，并将所述语音数据输入至所述第一唤醒模型，以通过第一唤醒模型检测所述语音数据的第一置信度；

如果所述校验状态参数为非初始参数，对所述语音数据执行预处理，并将所述语音数据输入至所述第二唤醒模型，以通过第二唤醒模型检测所述语音数据的第二置信度。

7.根据权利要求1所述的终端设备，其特征在于，所述控制器执行设置所述语音数据的输入步长，被配置为：

监测所述第一唤醒模型输出的第一置信度；

如果所述第一置信度大于所述第一唤醒阈值，则调整所述输入步长为第一步长；

如果所述第一置信度小于或等于所述第一唤醒阈值，则调整所述输入步长为第二步长，所述第二步长为所述第一步长的二倍。

8.根据权利要求7所述的终端设备，其特征在于，所述控制器执行设置所述语音数据的输入步长，还被配置为：

监测所述第二唤醒模型输出的第二置信度；

如果所述第二置信度大于所述第二唤醒阈值，则调整所述输入步长为所述第一步长；

如果所述第二置信度小于或等于所述第二唤醒阈值，则调整所述输入步长为所述第二步长。

9.根据权利要求1所述的终端设备，其特征在于，还包括显示器，所述显示器被配置为显示用户界面；所述控制器执行唤醒所述终端设备，被配置为：

获取所述语音数据的唤醒点，所述唤醒点为所述和值大于第三唤醒阈值时语音数据的时间点；

清除早于所述唤醒点的语音数据；

根据所述语音数据生成语音指令；

响应所述语音指令，以及控制所述显示器显示唤醒应答界面。

10.一种双模型校验的唤醒方法，其特征在于，包括：

获取语音数据，以及对所述语音数据执行音量归一化处理；

设置所述语音数据的输入步长；