CN105009203A

CN105009203A - 用于检测语音命令的方法和装置

Info

Publication number: CN105009203A
Application number: CN201480013903.1A
Authority: CN
Inventors: V·塞吉诺哈; P·A·范马尔伯戈特; G·E·威尔逊; W·F·伽侬
Original assignee: Nuance Communications Inc
Current assignee: Serenes operations
Priority date: 2013-03-12
Filing date: 2014-03-12
Publication date: 2015-10-28
Also published as: WO2014159581A1; EP3709293A1; EP2946383B1; EP2946383A1

Abstract

根据一些方面，提供了一种监视移动设备的声学环境的方法、至少一个用指令编码的计算机可读介质(其中当指令被执行时，执行这种方法)、和/或被配置为执行这种方法的移动设备。该方法包括通过移动设备接收来自移动设备的环境的声学输入、在无需接收来自用户的显式触发的情况下检测声学输入是否包括来自用户的语音命令、及发起对检测到的语音命令的响应。

Description

用于检测语音命令的方法和装置

背景技术

诸如智能电话的许多移动通信设备都装备有语音应答系统(例如，虚拟助理或代理)，其可以识别讲话并响应语音命令来执行期望的任务(执行因特网搜索、打电话、提供导航、回答问题、做出建议、安排预约，等等)。但是，在系统被接合并准备好响应来自用户的讲话输入之前，接合语音应答系统常规地需要用户的一个或多个手动动作。例如，用户可能必须激活图标(例如，通过触摸)来启动虚拟助理应用，或者操纵移动设备上的软件或硬件接口控制部来接合语音应答系统(例如，激活麦克风显示图标、按下按钮、激活开关，等等)。

在本文被称为“手动触发”的这种需要用户手的手动动作使与移动设备的交互复杂化，并且在一些情况下，可能是被禁止的(例如，当用户的手被其它事情占用时)。已经实现了语音触发来减少至少一些激活语音应答系统所需的手动动作，以试图一般地提供对语音应答系统的免提(hands-free)访问。但是，常规的语音应答系统在有限的上下文中响应语音触发，例如，当移动设备是活动的(即，醒着的)并且需要显式触发单词或短语来接合移动设备的语音响应能力时。因此，用户必须说出被称为显式语音触发的特定和预定的单词或短语来接合语音应答系统并且常规地只可以当移动设备是活动的时才这样做。即，常规的语音应答系统在移动设备睡眠时是非响应的。

当移动设备在低功率模式下(例如，在睡眠、休眠或空闲模式下)操作时，接合语音应答系统所需的动作通常变得甚至更加广泛。具体地，在语音应答系统可以利用手动动作或显式语音触发被接合之前用户首先需要唤醒移动设备本身。例如，用户可能必须按下按钮来打开显示器和/或启用一个或多个处理器，可能必须操纵一个或多个控制部来使移动设备准备好以供使用，和/或如果移动设备已经在某个时间段不活动那么可能必须输入密码。

因此，唤醒动作会进一步妨碍语音应答系统的使用，妨碍的方式是在正常情况下会很不方便或者恼人并且在其它情况下会是禁止的(例如，当驾驶车辆时，或从事占用用户手的其它任务时)。常规地，这些唤醒动作是不可避免的。而且，为了从低功率模式中接合语音应答系统，一个或多个唤醒动作后面接着必须跟着一个或多个手动和/或显式语音触发来接合语音应答系统以准备好响应用户的讲话。

发明内容

一些实施例包括监视移动设备的声学环境的方法，该方法包括通过移动设备接收来自移动设备的环境的声学输入，在无需接收来自用户的显式触发的情况下检测声学输入是否包括来自用户的语音命令，及发起对检测到的语音命令的响应。

一些实施例包括用指令编码的至少一个计算机可读介质，当指令在该至少一个处理器上被执行时，执行监视移动设备的声学环境以接收来自移动设备的环境的声学输入的方法，该方法包括在无需接收来自用户的显式触发的情况下检测声学输入是否包括来自用户的语音命令，及发起对检测到的语音命令的响应。

一些实施例包括移动设备，该移动设备包括用于接收来自移动设备的环境的声学输入的至少一个输入部、及至少一个处理器，该处理器被配置为在无需接收来自用户的显式触发的情况下检测声学输入是否包括来自用户的语音命令，及发起对检测到的语音命令的响应。

一些实施例包括当移动设备在低功率模式下操作时对移动设备的声学环境监视语音命令的方法，该方法包括当移动设备在低功率模式下操作时接收来自移动设备的环境的声学输入，基于在声学输入上执行多个处理阶段检测声学输入是否包括语音命令，其中多个处理阶段中的至少一个阶段是当移动设备在低功率模式下操作时执行的，并且该方法包括利用至少一个上下文线索来帮助检测声学输入是否包括语音命令。

一些实施例包括用指令编码的至少一个计算机可读介质，当指令在该至少一个处理器上被执行时，执行监视移动设备的声学环境以当移动设备在低功率模式下操作时接收来自移动设备的环境的声学输入的方法，该方法包括基于在声学输入上执行多个处理阶段检测声学输入是否包括语音命令，其中多个处理阶段中的至少一个阶段是当移动设备在低功率模式下操作时执行的，并且该方法包括利用至少一个上下文线索来帮助检测声学输入是否包括语音命令。

一些实施例包括移动设备，该移动设备包括当移动设备在低功率模式下操作时接收来自移动设备的环境的声学输入的至少一个输入部，被配置为基于在声学输入上执行多个处理阶段检测声学输入是否包括语音命令及利用至少一个上下文线索来帮助检测声学输入是否包括语音命令的至少一个处理器，其中多个处理阶段中的至少一个阶段是当移动设备在低功率模式下操作时执行的。

一些实施例包括当移动设备在低功率模式下操作时对移动设备的声学环境监视语音命令的方法，该移动设备具有第一处理器和第二处理器，该方法包括当移动设备在低功率模式下操作时接收声学输入，在接合第二处理器来处理声学输入之前利用第一处理器在声学输入上执行至少一个第一处理阶段以评估声学输入是否包括语音命令，如果需要进一步的处理来确定声学输入是否包括语音命令，则利用第二处理器在声学输入上执行至少一个第二处理阶段以评估声学输入是否包括语音命令，及当或者该至少一个第一处理阶段或者该至少一个第二处理阶段确定声学输入包括语音命令时发起对语音命令的响应。

一些实施例包括存储有指令的至少一个计算机可读介质，当指令在至少一个处理器上被执行时，执行当移动设备在低功率模式下操作时监视移动设备的声学环境以接收来自移动设备的环境的声学输入的方法，该移动设备具有第一处理器和第二处理器，该方法包括在接合第二处理器来处理声学输入之前利用第一处理器在声学输入上执行至少一个第一处理阶段以评估声学输入是否包括语音命令，如果需要进一步的处理来确定声学输入是否包括语音命令，则利用第二处理器在声学输入上执行至少一个第二处理阶段以评估声学输入是否包括语音命令，及当或者该至少一个第一处理阶段或者该至少一个第二处理阶段确定声学输入包括语音命令时发起对语音命令的响应。

一些实施例包括移动设备，该移动设备包括当移动设备在低功率模式下操作时接收来自移动设备的环境的声学输入的至少一个输入部、在声学输入上执行至少一个第一处理阶段来评估声学输入是否包括语音命令的第一处理器、在声学输入上执行至少一个第二处理阶段来评估声学输入是否包括语音命令的第二处理器，其中该至少一个第一处理阶段是在接合第二处理器之前执行的，其中如果需要进一步处理来确定声学输入是否包括语音命令则执行该至少一个第二处理阶段，并且其中当或者该至少一个第一处理阶段或者该至少一个第二处理阶段确定声学输入包括语音命令时发起对语音命令的响应。

附图说明

本申请的各个方面和实施例将参考以下附图进行描述。

图1A示出了其上可以实现语音应答技术的示例性移动设备；

图1B示出了其上可以实现语音应答技术的说明性移动设备的示例性系统组件；

图2是示出根据一些实施例的在不利用显式触发的情况下确定从移动设备的环境中接收到的声学输入是否包括语音命令的方法的流程图；

图3是示出根据一些实施例的用于确定从移动设备的环境中接收到的声学输入是否包括语音命令的多阶段处理方法的流程图；

图4是示出根据一些实施例的用于利用至少一个第一处理阶段、后面跟着至少一个第二处理阶段来确定从移动设备的环境中接收到的声学输入是否包括语音命令的多阶段处理方法的流程图；

图5是示出根据一些实施例的用于利用至少一个上下文线索确定从移动设备的环境中接收到的声学输入是否包括语音命令的方法的流程图；

图6是示出根据一些实施例的用于利用多个处理器确定从移动设备的环境中接收到的声学输入是否包括语音命令的方法的流程图；

图7A和7B示出根据一些实施例的用于在无需显式触发的情况下确定从移动设备的环境中接收到的声学输入是否包括语音命令的语音应答系统的例子；

图8A和8B示出根据一些实施例的用于当移动设备在低功率模式下操作时确定从移动设备的环境中接收到的声学输入是否包括语音命令的语音应答系统的例子；

图9示出根据一些实施例的包括能够访问一个或多个网络资源以帮助评定声学输入是否包括语音命令的移动设备的系统；及

图10示出其上可以实现本文所描述技术的示例性计算机系统。

具体实施方式

如以上所讨论的，常规的语音应答系统需要一个或多个显式触发来接合语音应答系统。“显式触发”在本文指接合语音应答系统所需的一个或多个特定的、指定的和预定的动作，并且包括手动触发(即，通过用户的手在移动设备上执行的动作)和显式的语音触发(即，说出特定的，指定的单词或短语来接合语音应答系统)。

发明人已认识到，如果用户可以简单地通过说出一个或多个期望的语音命令而无需发出一个或多个显式触发来与移动设备的语音应答系统交互，那么用户与移动设备的交互可以得到改善。术语“语音命令”在本文指从用户到语音应答系统的任何类型的可执行(actionable)语音输入，包括但不限于语音请求(例如，“将我的医生预约安排在明天上午9点”、“给Tom打电话”、“提醒我今晚接孩子”、“请推荐附近的中国餐馆”、“搜索波士顿的景点”、“开始记录”，等等)、语音查询(例如，“最近的加油站在哪？”、“波士顿的温度是多少？”、“我从这怎么到Mass Pike？”、“我今天都安排了什么预约？”、“杯子里有多少个勺子？”，等等)、以及接合语音应答系统的显式语音触发(例如，“你好，Dragon”)。

移动设备一般是电力受限的，因为人们常常期望它们用电池电源工作相对延长的时间段。为了节省电力，移动设备在一段时间不活动之后经常进入低功率模式(例如，睡眠或休眠模式)。低功率模式一般地指进入以节省电力的任何模式或状态，其通常需要一个或多个手动唤醒动作来退出(例如，来激活移动设备)。移动设备可以具有多于一个的低功率模式并且不同的移动设备在进入低功率模式时可以把不同的组件断电。但是，移动设备通常将具有低功率模式的一些变化，其常规地需要手动动作来退出低功率模式并转换到活动模式。

进入低功率模式可以包括关闭显示屏、关闭一个或多个处理器(例如，禁用与一个或多个处理器相关联的时钟树)和/或去激活否则如果保持操作将会汲取电力的组件。在指定的时间间隔之后自动进入低功率模式可以显著地延长移动设备在需要充电之前可以用电池电源操作的时间段。鉴于在移动设备中节省电力的相对重要性，许多移动设备缺省为在关闭电源和进入睡眠之前有相对短的不活动持续时间，使得当用户想要访问移动设备上的功能时，移动设备会经常处于低功率模式。

如以上所讨论的，在设备可以被使用之前，必须执行一个或多个手动动作来唤醒移动设备。常规的唤醒触发是手动的，因为它们需要用户的手来激活移动设备。虽然许多移动设备被设计为当某些事件发生时(例如，当接收到到来的电话呼叫时、当提醒或闹钟被设置并执行时)至少部分地唤醒，但是如果用户想要接合语音应答系统，用户一般必须执行适当的手动触发来实现用户发起的移动设备唤醒。这种手动触发会很不方便、恼人，并且/或者在一些情况下是禁止的(例如，当用户正在驾驶或用户的手被其它事情占用)。

发明人已认识到，如果即使当移动设备在低功率模式下操作时用户也可以通过语音激活与移动设备接合，那么会得到用户体验改善。此外，发明人已认识到，语音激活功能在几乎任何情况下都可以便利与移动设备的免提交互，而与移动设备是正在活动模式或正在低功率模式(例如，睡眠模式)下操作无关。即，从移动设备的响应性角度来看，发明人已认识到提供语音激活功能的实用性，其通过监视声学环境使得移动设备看起来像是“永远开启(always-on)”(例如，无论设备是处于活动模式还是处于低功率模式，移动设备的语音应答系统都可以被语音启动或激活)。

本文使用术语“永远开启”来描述当移动设备处于活动时和当设备已进入低功率模式时这两种情况下移动设备的语音应答系统对语音的一般响应能力(例如，当语音命令被说出时能够检测到)。为了实现这种“永远开启”功能，移动设备的声学环境可能需要在活动和低功率模式下都被监视以获得声学输入并确定声学输入是否包括语音命令或声音输入是否由于乱真声活动(spurious acoustic activity)导致。术语“乱真声活动”一般地指在移动设备的声学环境中检测到的、不对应于语音命令的任何声学活动(包括讲话)，其中语音应答系统可以或者应该根据语音命令行动。

根据一些实施例，移动设备的声学环境被监视，以当移动设备处于低功率模式时接收声学输入并检测声学输入何时包括语音命令。当移动设备被断电在低功率模式下时(例如，当移动设备在睡眠或以其它方式处于常规地需要一个或多个唤醒动作的非活动状态时)，使移动设备对语音响应存在挑战，尤其鉴于移动设备的相对严格的电力消耗约束。移动设备通常寄居在与其用户相同的嘈杂环境中。每当声学输入被移动设备接收到时(例如，当麦克风检测到声学活动时)就征用移动设备的相对功率密集型资源来评定是否已说出语音命令会使用足够大量的处理功率，从而抵消了最初将移动设备断电到低功率模式中所做的努力。

发明人已认识到，当在接收到的声学输入上执行处理以确定声学输入是否包括语音命令时将电力消耗最小化到合理程度的重要性。为此，一些实施例利用分层级的方法来监视和处理声学输入，其首先对接收到的声学信息应用相对低功率的处理，并且根据需要应用通常较高功率的处理来评估声学信息包括语音命令的可能性。根据一些实施例，评估声学输入是否包括语音命令的多个处理阶段被执行，其中所述多个处理阶段中的至少一个后续阶段只有在一个或多个之前处理阶段不能断定声学输入对应于乱真声活动时才执行。

实现可行的“永远开启”操作可以涉及试图一般地优化假阳性和假阴性率，同时在合理的程度上使功率保持在最小。根据一些实施例，对用于确定声学输入是否包括语音命令的这一个或多个处理阶段进行选择以试图避免过度包含，过度包含会导致可察觉到的电池寿命减少和/或移动设备响应于乱真声活动而频繁唤醒的滋扰，其中这两种结果中的任何一种都会使用户不满意。另一方面，过度排除会导致语音应答系统太频繁地丢失语音命令，使得移动设备被用户感觉到是不响应的。一些实施例包括设计为在这点上达到可接受的平衡的技术。

发明人已认识到，考虑一个或多个上下文线索可以便于改善对声学信息是否包括语音命令的评定。术语“上下文线索”一般地指除了被评估为包含语音命令的特定声学输入的属性或特性之外的信息。例如，当用户准备说出语音命令时，用户会拿起其移动设备或使移动设备更靠近用户的嘴巴。因此，运动可以被用作上下文线索来影响声学输入是否可能包括语音命令的评估。可以被单独或以任何组合形式考虑的其它上下文线索包括(但不限于)移动设备的位置、一天中的时间、移动设备的电力状态、移动设备上发生的事件、移动设备上的最近活动、声学环境，等等。可以使用上下文线索来偏向一个或多个处理阶段、帮助选择和/或省略一个或多个处理阶段、作为处理阶段本身来操作，或以其它方式帮助确定声学输入是否包括语音命令，如下面进一步详细讨论的。

如以上所讨论的，节省电力会是实现“永远开启”功能的重要组成部分。发明人已认识到，移动设备上的相对低功率的处理器(诸如辅助、专用和/或低功率处理器)可被用于执行一个或多个初始处理阶段来确定接收到的声学输入是否对应于乱真声活动，或者是否需要更高级别(并且通常更高功率)的处理来断定声学信息包括语音命令。如果一个或多个初始处理阶段不可以将声学输入作为乱真声活动丢弃，则可以接合移动设备的主处理器(例如，主中央处理单元(CPU))来执行一个或多个后续处理阶段。因此，由移动设备接收到的相对大量的声学输入可以被评估并识别为乱真声活动(并在其后被忽略)，而无需激活主处理器，如下面进一步详细讨论的。

本文描述了用于处理从监视移动电话的声学环境中获得的“声学输入”的多种示例性技术。不同的技术可以在声学输入被转换、减少、补充或以其它方式修改之前和之后的不同阶段处理声学输入。例如，一些处理阶段可以将技术应用到模拟形式的声学输入，而其它阶段可以处理以数字形式的声学输入。一些处理阶段可以在作为音频信号的声学输入上操作，而其它阶段可以在已至少部分地被识别为其构成单词的声学输入上操作。

因此，“声学输入”一般地指从声学环境中接收到的信息或从中推导出的信息。当多个处理阶段被描述为处理给定的声学输入时，应当理解，由每个处理阶段操作的声学输入可以是不同的形式并包含不同的信息(或者可以是相同的形式并包含基本上相同的信息)，因为当各个处理阶段在给定的声学输入上操作时，该给定的声学输入可能已经历了不同数量和类型的修改和处理。因此，除非另外明确地说明，否则声学输入一般地指它可以采取的任何形式。

下面跟着的是关于用于实现接合语音应答系统的技术的方法和装置的各种概念及其实施例的更详细描述。应该理解，本文所描述的各个方面可以以任何多种方式来实现。本文提供的具体实现的例子仅仅用于说明的目的。此外，下面实施例中描述的各个方面可以被单独使用或以任意组合使用，并且不限于本文明确描述的组合。

图1A示出了其上可以实现一个或多个语音激活技术的示例性移动设备。移动设备100被示为具有“智能电话”的若干组件特性，但是应当理解，移动设备100可以是能够无线通信和包括能够接收声学输入的输入部(例如，一个或多个麦克风)的任何一般的便携式设备。移动设备100包括一个或多个换能器130，用于将声能转换为电能，反之亦然。例如，换能器130可以包括布置在移动设备上的一个或多个扬声器和/或一个或多个麦克风，以允许声学信息的输入/输出(I/O)。不同的移动设备可以包括不同数量和布置的换能器，其中任何一个都可以适于便利声学I/O。

移动设备100还可以包括一个或多个无线通信组件160。例如，诸如蜂窝电话的移动通信设备通常将具有能够与一个或多个蜂窝网络通信的无线收发器。另选地或附加地，无线通信组件160可以包括能够与一个或多个其它网络或外部设备通信的无线收发器。例如，无线通信组件160可以包括被配置为经IEEE 802.11标准(Wi-Fi)通信的组件以连接到局域网(LAN)、诸如因特网的广域网(WAN)，和/或可以包括收发器以连接到兼容的设备。无线通信组件160还可以包括全球定位系统(GPS)来与卫星网络通信以确定移动设备的位置，或者可以包括一个或多个其它的无线通信收发器。

为了简化示例性移动设备100的图示，无线通信组件160被用来表示在移动设备100上实现的任何无线通信组件160，并且可以包括一个或多个组件，这些组件可以是单独的或集成的组件、可以是独立的系统组件、或者可以是与一个或多个其它无线组件通信的不同系统组件。即，无线通信组件160表示可以在移动设备上实现的、允许移动设备100与一个或多个网络、系统和/或其它设备无线通信的组件中的一个或任意组合。

移动设备100还可以包括用于向用户可视地呈现信息的显示器110。显示器110也可以被配置为输入设备，例如通过响应触摸、笔输入等。移动设备100可以包括允许用户与移动设备交互的一个或多个其它输入组件120。例如，按钮120a可以用来当移动设备已进入诸如睡眠模式的低功率模式时发起对移动设备的唤醒和/或当移动设备活动时可以用作选择按钮或可以包括任何其它功能。按钮120b可以是电源按钮、音量按钮、或具有任何期望功能的任何其它输入组件。取决于移动设备的设计，不同的移动设备可以具有不同数量和布置的输入组件120。

移动设备100还可以包括其它组件，诸如一个或多个相机150、一个或多个发光二极管(LED)170、一个或多个运动检测器(在下面进一步详细讨论)和/或任何其它组件。移动设备100还可以包括用于将移动设备连接到电源(例如，墙上电源)的电源端口190和/或用于向/从经数据电缆连接的另一个设备提供/接收数据的数据端口。根据一些移动设备设计，数据和电源端口是同一端口并且可用于电源和用于数据两者。

应当理解，移动设备100仅仅是适于与本文描述的语音激活技术中的任何一种或组合一起使用的移动设备的例子。移动设备组件被描述以说明智能电话的共同特征，但是这些组件中任何特定的一个或组合都不是必需的。本文所描述的技术不限于与具有任何特定数量或布置的组件的任何特定移动设备一起使用，并且具有接收声学输入能力的任何移动设备都可以适合，因为本文所描述的各方面在这点上没有限制。

图2是示出根据一些实施例的监视移动设备的声学环境以检测语音命令的方法的流程图。如以上所讨论的，发明人已认识到具有在无需显式触发的情况下评估接收到的声学输入来确定用户是否已说出语音命令的语音应答系统的移动设备的好处。在动作210，来自移动设备的环境的声学输入被移动设备接收。例如，一个或多个麦克风可以感测环境中的声学活动并且获得结果得到的声学输入用于进一步的处理，以评估声学输入是否包括语音命令。

当启用语音应答系统来监视声学环境时，动作210可以连续地执行或者以某个频率定期地执行，该频率提供看起来像是连续的监视，即使它可能不是严格连续的。可以在处理声学输入之前监视声学环境以获得在期望的时间间隔上的声学输入，声学环境可以被定期地采样以获得声学输入，事件可以触发声学输入的收集和处理(例如，麦克风可以指示已检测到给定阈值的声音)，或者可以使用监视声学环境的任何其它方法，使得接收到声学输入用于进一步的处理。

在接收到的声学输入正在被评估的同时，声学环境可以被继续监视(例如，当其它处理被执行时，动作210可以基本上在连续的、接近连续的或正在进行的基础上执行)。在先前的声学输入被评估时接收到的新的声学输入可以被缓冲或与先前的声学输入并行被处理。根据一些实施例，新的声学输入被处理，以帮助评估先前的声学输入是否包括语音命令。以这种方式，可以使用新的声学输入来通知先前接收到的声学输入的评估。此外，关于先前接收到的声学输入所确定的信息可以用来通知随后接收到的新的声学输入的评估。即，如下面进一步详细讨论的，接收到的声学输入可以用在前馈或反馈配置中来通知之前或之后接收到的声学输入的处理。一些实施例包括关于已被移动设备接收到的声学输入的前馈和反馈信息两者，以更好地评估是否已从用户接收到语音命令。因此，在一些实施例中，当使得语音应答系统能够监视声学环境时，动作210可以反映通常正在进行的过程。

根据一些实施例，可以在活动和低功率模式两者中使得语音应答系统能够监视声学环境，而在一些实施例中，监视声学环境被限制在或者活动或者低功率模式中。根据一些实施例，语音应答系统是在活动模式、低功率模式还是这两者中监视声学环境是用户可选择的。以这种方式，用户可以选择何时移动设备应该在“永远开启”模式下操作，并且可以选择什么操作模式移动设备应该执行“永远开启”功能。

在动作220，声学输入被处理以确定声学输入是否包括语音命令，而无需显式触发来这样做。即，用户不需要手动地接合语音应答系统(例如，通过执行一个或多个手动触发，诸如用手操纵一个或多个界面控件)，用户也不需要说出显式语音触发来通知语音应答系统用户正在说出或将内在地说出可执行语音命令(尽管在一些实施例中，用户可以可选地使用显式语音触发——如果用户这么期望的话，但是不要求用户这样做)。因此，根据一些实施例，用户可以自由地仅仅开始向移动设备说话来接合语音应答系统。

实现“永远开启”功能对于平衡假阳性和假阴性率存在挑战。如果前者太高(例如，语音应答系统过于包含)，则移动设备将太频繁地响应乱真声活动，而如果后者太高(例如，语音应答系统过于排除)，则移动设备将被感受到为不响应。根据一些实施例，可以使用多阶段处理方法来便利假阳性和假阴性率的平衡，同时最小化(到合理的程度)在确定声学输入是对应于乱真声活动还是包括语音命令时所消耗的电量。

根据一些实施例，动作220可以包括执行一个或多个语音活动检测(VAD)处理阶段，该阶段评估声学输入是否具有语音/讲话的特性或者声学输入是否更可能是环境中非语音声学活动的结果。VAD技术一般地指那些分析声学输入的一个或多个属性或特性(例如，声学输入的信号特性)以评估这一个或多个属性/特性是否暗示讲话的技术，其中的一些技术在下面进一步详细描述。执行一个或多个VAD处理阶段的结果可以包括评定声学输入包括语音内容的可能性，该评定可以用来确定声学输入是否可以作为乱真声活动被忽略，或者声学输入是否应该被进一步处理以确定声学输入的内容(例如，确定讲话的内容和/或理解讲话的内容)。

对于评估包含讲话的声学输入的内容，动作220可以包括被配置为学习有关声学输入的内容的事情的一个或多个讲话处理阶段。例如，在采用一个或多个VAD处理阶段的实施例中，可以在已通过一个或多个VAD处理阶段针对其检测到语音内容的声学输入上执行讲话处理阶段(或多个讲话处理阶段)。讲话处理阶段可以评估声学输入来确定其中所包含的讲话内容以评估用户是否已说出语音命令。

语音处理阶段可以包括但不限于自动讲话识别(ASR)过程中的任何一个或组合，诸如有限词汇表ASR(例如，评估声学输入来确定用户是否说出显式语音触发，评估声学输入以确定声学输入是否包括语音命令的某些单词特性，等等)、无限制和/或大词汇表ASR，等等。讲话处理阶段可以包括一个或多个语言处理，其寻求理解声学输入中的单词是否是语音命令的特性和/或理解用户所说的含义。例如，讲话处理阶段可以包括一个或多个统计分类器、自然语言处理(NLP)或设计为分类或理解内容以帮助确定是否已说出语音命令的任何合适的语言技术。可以被利用的讲话处理阶段的一些非限制性例子将在下面进一步详细讨论。

根据实现多阶段方法的一些实施例，当执行动作220时，一般地低功率处理阶段可以在接合一个或多个较高功率处理阶段之前执行。通过这样做，大量的声学输入可以作为对应于乱真声活动而被丢弃，同时消耗相对少的电力来一般地最小化对电池的影响。可以保留后续处理阶段用于评定不可以由较早(和一般低功率)的处理阶段针对其做出关于声学输入是否包括语音命令或对应于乱真声活动的结论的声学输入。以这种方式，可以选择阶段的顺序来一般地优化假阳性和假阴性率，同时试图使电力消耗保持在最低。

当执行动作220时，可以使用其它技术来帮助最小化假阳性和假阴性率，同时使电力消耗保持相对地低。例如，动作220可以利用一个或多个上下文线索来影响声学输入是否包括语音命令的确定，其中的一些示例性上下文线索将在下面进一步详细描述。另选地或附加地，一个或多个处理阶段可以在辅助处理器(例如，低功率处理器)上执行并且只有需要断定声学输入是否包括语音命令时才接合主处理器(例如，主CPU)，如在下面进一步详细讨论的。应当理解，可以使用本文所描述的技术中的任何一种或组合来确定声学输入是否包括语音命令，因为各方面不限于使用任何特定的技术或技术组合。

如果确定声学输入包括语音命令，则语音应答系统可以启动一个或多个处理来响应语音命令(动作230)。例如，语音应答系统可以执行进一步的语言处理以理解语音命令的含义并接合承接语音命令的指令的执行所需的必要过程/组件。否则，移动设备可以中止声学输入的进一步处理并且将其忽略作为乱真声活动(例如，非讲话声音、背景噪声、不对应于语音命令的讲话、或根据一些实施例的来自不是移动设备用户的一个或多个人的讲话，如在下面进一步详细讨论的)。语音应答系统接着可以继续监视声学环境，以获得进一步的声学输入(例如，语音应答系统可以返回到或继续执行动作210)。

当声学输入被确定包括语音命令时启动一个或多个进一步的处理可以包括但不限于接合一个或多个语言处理阶段来理解语音命令的含义，启动执行语音命令所需的一个或多个任务(诸如发起搜索)，启动一个或多个应用或进程以例如发起搜索、安排预约、更新日历、创建警告、闹钟或其它电子提醒、生成文本或电子邮件、进行电话呼叫、访问网站等等，用对关于语音命令的更多信息或确认对语音命令的理解的请求来响应用户，和/或在移动设备上以本地方式和/或经由移动设备能够连接到并与其交互的一个或多个网络远程地发起或执行语音应答系统能够启动、接合和/或执行的任何其它任务。启动进一步的处理可以包括例如当检测到的语音命令包括显式语音触发时，评估或修改后续接收到的声学输入的评估。

如以上所讨论的，可以执行在图2中描述的语音激活方法来当移动设备在活动模式下操作时、当移动设备在低功率模式下操作时、或在两种情况下时监视声学环境以检测语音命令。根据一些实施例，声学输入被处理的方式可以取决于移动设备是在活动还是低功率模式下操作。例如，如果移动设备处于活动模式中，则显示器可以是打开的，主处理器是启用的和/或其它组件是活动的，使得这些资源可以更及时地被利用，而不必首先激活它们(例如，如果主处理器和/或其它组件已经被接合，则某些处理阶段会用较少的开销来执行和/或若干上下文线索会更容易地被访问，而不会导致相对大量的开销来接合提供上下文线索并处理这种信息的组件)。

因此，在活动模式中，在早期使用某些处理阶段可能是有道理的，而当在低功率模式下操作时，情况不是这样(例如，由于开销、用户对睡眠中的移动设备的期望、电力消耗的顾虑、语音应答系统对用户侵扰的感知，等等)。当移动设备是在低功率模式下操作时，用于确定声学输入是否包括语音命令的处理策略会对利用资源和/或执行较高级别的处理阶段更保守地进行，从而将进一步的处理保留在当需要时使用。但是，应该理解，尽管操作模式在一些情况下会有利地用来定制处理策略，但是处理阶段的选择和/或次序不必依赖移动设备的操作模式，并且评估声学输入可以独立于移动设备的操作模式以类似或相同的方式进行，因为各方面在这点上没有限制。用于选择执行哪些处理阶段和以什么次序确定声学输入是否包括语音命令的各种技术将在下面进一步详细讨论。

如以上所讨论的，移动设备一般地是电力有限的，因此，节省电力在这种设备上会是优先的。图3示出了根据一些实施例的利用多阶段方法来相对低功率地监视移动设备的声学环境以检测说出的语音命令的方法。方法300可以当移动设备处于活动模式中、当移动设备处于低功率模式中(例如，睡眠、休眠、空闲等)、或这两种情况下时被利用。初始地，在动作310接收要被评估的声学输入(例如，以以上结合动作210描述的任何方式或任何其它适当的方式接收声学输入)。在动作320，在声学输入上执行多个处理阶段，以评估声学输入是否可能包括语音命令，或者声学输入是否可能是乱真声活动的结果。多个阶段可以一般地按顺序(例如串行的)来执行，可以并行地来执行，或者以串行和并行处理的组合执行。

确定声学输入可能对应于乱真声活动的处理阶段可以终止声学输入的进一步处理，以避免消耗额外的电力。断定声学输入可能对应于语音命令(例如，达到期望水平的置信度)的处理阶段可以启动进一步的处理来响应语音命令(动作330)。当顺序地处理一个或多个阶段时，既不断定声学输入包括语音命令、也不断定声学输入对应于乱真声活动的处理阶段可以接合后续的处理阶段来继续声学输入的进一步评估。因此，可以将附加的处理保留用于其中需要得出关于声学输入性质的结论的情况，以节省电力。

选择后续阶段可以取决于阶段本身、处理阶段(或一个或多个之前的阶段)在其评定中具有的置信度、一个或多个上下文线索和/或任何其它合适的因素。根据一些实施例，所使用的处理阶段的顺序是动态选择的，其意图在于优化假阳性和假阴性率，同时消耗尽可能合理少的电力，其中的一些技术将在下面进一步详细讨论。但是，在一些实施例中，所使用的阶段的顺序基本上是静态的并且声学输入的处理一般地按照规定的方式进行，直到声学输入或者被确定为包括语音命令或者对应于乱真声活动。

当并行地执行处理阶段时，来自并行处理阶段的结果可以被一起使用，以评定声学输入包括语音命令的可能性。例如，来自并行处理阶段的结果可以被用于表决方案、加权决定、或评估来自多个处理阶段的信息以帮助确定声学输入是否包括语音命令的其它合适的方式中。

根据一些实施例，关于为评定声学输入是否包括语音命令而执行的多个处理阶段，使用了顺序/串行处理和并行处理两者。例如，多个处理阶段可以被并行地执行并且可以使用结果，来确定是否需要进一步的处理和/或为了性能应该选择哪一个或多个后续处理阶段。顺序和并行处理可以以其它方式在一起使用，因为各方面在这点上没有限制。

图4示出了用于确定声学输入是否包括语音命令的多阶段方法，其中至少一些处理阶段是按顺序执行的。方法400在某些方面可以类似于图3中示出的方法，因为声学输入被接收到并利用多个处理阶段进行处理，以确定它是否包括语音命令或者声学输入是否可能由乱真声活动产生。方法400提供了多阶段处理的分层级方法，以便于节省移动设备的电力资源。

特别地，执行多个处理阶段来处理声学输入包括在执行至少一个第二处理阶段(动作424)之前执行至少一个第一处理阶段(动作422)。该至少一个第一处理阶段可以包括被设计为确定声学输入是否可能潜在地包括语音命令、或者断定声学输入对应于乱真声活动的一个或多个阶段。如果该至少一个第一处理阶段确定声学输入对应于乱真声活动，则可以终止声学输入的进一步处理并且可以评估从监视声学环境接收到的进一步的声学输入(例如，语音应答系统可以返回到或继续执行动作410)。

否则，如果该至少一个第一处理阶段不能断定声学输入对应于乱真声活动，则可以执行至少一个第二处理阶段来评定声学输入是否包括语音命令、或对应于乱真声活动。该至少一个第二处理阶段可以包括被配置为断定声学输入是否包括语音命令、或者替代地对应于乱真声活动的一个或多个处理阶段。如果该至少一个第二处理阶段确定声学输入包括语音命令，则可以启动响应语音命令的过程(动作430)。例如，如果声学输入被确定为包括显式语音触发，则可以准备好语音应答系统，以期待要根据其来行动的一个或多个语音命令。如果声学输入包括可执行语音命令，则执行对语音命令进行响应所需的动作的过程的启动可以被调用。

根据一些实施例，该至少一个第一处理阶段包括一个或多个相对低功率的处理阶段，并且该至少一个第二处理阶段包括一个或多个一般较高功率的处理阶段。以这种方式，需要更多处理功率的处理阶段可以被保留，用于其中该至少一个相对低功率的处理阶段不能断定声学输入对应于乱真声活动使得进一步的评估可能是必要的情况。

根据一些实施例，该至少一个第一处理阶段包括被配置为确定声学输入是否有可能包含语音内容或声学输入是否更可能包含非讲话声学活动的一个或多个VAD处理阶段。该至少一个第二处理阶段可以包括一个或多个讲话处理阶段，其被配置为确定被一个或多个VAD处理阶段评定为在声学输入中存在的讲话的内容和/或讲话的含义。以这种方式，讲话处理阶段可以被保留用于被评定为包括语音内容的声学输入，从而通过在确定讲话内容之前首先检测讲话的存在来将电力节省到合理的程度。一些示例性VAD和讲话处理阶段将在下面进一步详细讨论。

根据一些实施例，该至少一个第一处理阶段是在辅助处理器(例如，移动设备上相对低功率的数字信号处理器(DSP))上执行的，并且该至少一个第二处理阶段是在主处理器(例如，移动设备的主中央处理单元(CPU))上执行的。以这种方式，辅助处理器可能能够放弃一些相当百分比的接收到的声学输入，而不是必须接合主处理器，从而节省电力资源并按需对它们进行分配。当移动设备在其中主处理器被断电或者至少部分地被禁用或去激活的低功率模式下操作时，这会是尤其有用的。因此，监视声学环境可以在不是必须频繁地唤醒移动设备的相对功率密集型组件来评估是否已接收到语音命令的情况下来实现。

多阶段处理的上述例子可以帮助实现“永远开启”的语音应答系统，该系统可以监视并响应语音命令，同时在移动设备处于活动时和/或在移动设备处于低功率模式时(其中，减少电力消耗会是或被用户感觉到是更关键或更重要的)，一般地最小化电力消耗。虽然下面描述了可以用来实现多阶段语音响应/激活的一些示例性处理阶段，但是与监视声学输入和评估声学输入是否包括语音命令有关的各方面不限于本文所提供的例子，并且任何特定的处理阶段也不是必须的，因为处理阶段中的任何一个阶段或组合都可以适于实现“永远开启”的语音应答系统。

当移动设备在低功率模式下操作时，语音应答系统可以以多种方式将移动设备从低功率模式转换到活动模式。一般地，语音应答系统可以被配置为尽可能使更多的组件保持在低功率模式以减少对移动设备电池的影响。因此，语音应答系统可以通过只根据需要激活资源来递增地或逐步地将移动设备从低功率模式转换到活动模式。例如，语音应答系统可以激活辅助处理器来执行一个或多个处理阶段，同时使主处理器保留在低功率模式，直到和/或除非需要主处理器。

一个或多个处理器可以包括低功率状态，从而某些过程可以被执行而无需完全地激活处理器(例如，一个或多个低功率时钟可以允许低功率操作)，并且在将处理器带到全功率状态或以其它方式使处理器完全地可操作之前，语音应答系统可以尽可能地利用这种低功率操作状态。一些组件(诸如显示器)可以保持在低功率模式，直到语音应答系统自信声学输入包括语音命令。应该理解，存在许多合适的方法用于将移动设备从低功率模式转换到活动模式，或者逐步地或者更加即刻地，并且其中执行移动设备唤醒的方式可以依赖于用于确定声学输入是否包括语音命令的处理策略。

应当理解，递增或分阶段的唤醒还可以包括酌情逐步唤醒移动设备上的其它组件(例如，除一个或多个处理器之外的其它组件)。例如，移动设备可以包括多个麦克风来监视移动设备的声学环境。当在低功率模式下操作时，麦克风中的一个或多个可以被断电或关闭以节省电力，但至少一个麦克风保持在至少部分地开启，使得当移动设备在低功率模式下操作时继续监视声学环境来接收声学输入。当语音应答系统确定声学输入可能包括讲话和/或语音命令时，语音应答系统可以打开一个或多个另外的麦克风。

应该理解，其中另外的麦克风被激活的处理阶段不限于处理中的任何特定阶段。例如，当一个或多个VAD处理阶段已确定声学输入可能包含讲话时，语音应答系统可以激活一个或多个另外的麦克风。当检测到显式语音触发时、或者当已识别出一个或多个关键词时，语音应答系统可以激活一个或多个另外的麦克风。另外，一个或多个另外的麦克风可以在相对早的处理确定声学输入超过诸如幅度、持续时间、能量等某个低水平阈值查询之后被激活。因此，本文描述的任何处理阶段都可以触发一个或多个另外麦克风的激活，因为各方面在这点上没有限制。

当移动设备在低功率模式下操作时，能够提供一个或多个上下文线索的多种多样的移动设备组件中的任何组件也可以被激活作为分阶段或递增唤醒的一部分，其中组件包括但不限于分别提供位置信息、运动信息和一天中的时间的GPS系统、加速计或时钟。任何各种系统资源都可以被激活来例如检查最近的活动、检查事件的发生、检查电池电力等等，以按需递增地唤醒移动设备的部分。当移动设备在低功率模式下操作时，网络组件也可以在分阶段唤醒中被激活。如以上所讨论的，一个或多个处理阶段可以涉及通过网络发送至少一部分声学输入以被一个或多个网络服务器处理，并且当移动设备在低功率模式下操作时，与适当的网络通信所需的网络收发器和/或其它组件可以被激活。因此，在移动设备保持在低功率模式时，诸如ASR和/或NLP资源的网络资源却可以被利用。

存在若干且多种多样的可用于帮助决定由移动设备接收到的声学输入是否包括语音命令或对应于乱真声活动的处理阶段。以下是处理阶段的一些非限制性例子的描述，这些处理阶段在用于检测何时已说出语音命令的处理策略中可以被单独地或以任意组合使用。可以使用除本文所描述的说明性处理阶段之外的其它处理阶段，因为各方面在这点上没有限制。

可以利用的第一类处理阶段包括被配置为检测声学输入中语音内容的存在的VAD处理阶段。例如，可以处理响应于环境中的声学活动而从一个或多个麦克风中接收到的音频信号，以确定音频信号是否包含语音内容。执行一个或多个VAD处理阶段可以包括评估由麦克风生成的音频信号的幅度。通常的情况是，说出语音命令的用户将至少以某个最小的音量在移动设备附近说话，使得低于给定阈值的低幅度音频信号可以被认为是从背景或环境声学活动中产生的声学输入。另选地或附加地，可以评估声学活动的持续时间以排除声学活动的尖峰或持续时间太简短以至于不可能对应于讲话的其它声学活动。

VAD处理阶段还可以包括评估声学输入以评定声学输入是否具有讲话的特性。例如，由移动设备上的麦克风接收到的声学输入的能量可以被评估以评定能量内容是否暗示讲话。频谱斜率分析、信号周期性评估、倒频谱分析、或评估声学输入的一个或多个属性的任何其它技术来确定声学输入是否具有讲话的特性。VAD处理阶段可以包括分析声学输入的音素内容，以确定声学输入包括讲话的可能性。例如，一个或多个VAD处理阶段可以利用有限数量的存储的音素模型(或完整集合)并将声学输入与音素模型比较来评估声学输入是否具有音素内容。例如，如果声学输入的部分匹配所利用的音素模型中的一个或多个，则可以确定声学输入可能包括讲话的音素内容特性。

这种处理阶段所具有的、对声学输入包括音素内容并因此声学输入包括语音内容的置信度可能与声学输入的部分多好地匹配所利用的音素模型集合和/或可以找到多少匹配有关。为了减少所需的处理量，一个或多个这种处理阶段可以被配置为当找到特定数量的匹配和/或一个或多个匹配的质量足以强烈地暗示讲话时，断定语音内容存在，从而就此中断进一步的处理。可以使用一个或多个电话环路(phoneloop)技术来确定声学输入的音素内容。这种音素处理可以作为ASR的前导并且使用比识别单词所要求的更少的计算功率来相对便宜地执行。根据一些实施例，音素分析的结果可以被传播到后续的ASR处理阶段。

在包括一个或多个VAD处理阶段的实施例中，处理阶段可以顺序地(例如，可以将低水平幅度检查执行为阈值查询，如果幅度足以暗示它可能与语音相关联，则后面跟着音频信号特性的一个或多个评估)、并行地(例如，一个或多个信号特性处理阶段可以相对同时地或作为同一处理阶段的一部分来执行，并且这些结果可以一起进行评估以评定声学输入是否暗示讲话)、或以两者的组合来执行。根据一些实施例，可以利用一个或多个VAD处理阶段来确定是否相信声学输入包含讲话，并且如果不是，则声学输入的进一步处理可以被终止。

可以被执行以确定声学输入是否包括语音命令的另一类处理阶段是讲话处理阶段，其在本文指评估或评定在声学输入中包含的讲话内容的处理阶段(例如，与如被典型的VAD处理阶段执行的确定是否相信语音内容存在相对照)。评估声学输入的内容可以包括但不限于自动讲话识别(ASR)(例如，确定在包含讲话的声学输入中存在哪些词)、分类(例如，将讲话归类)、语言理解(例如，确定讲话的语义内容)和/或讲话者验证(例如，确定讲话是否由特定的讲话者发出)，其中进一步的细节将在下面讨论。可以以任何数量和以任意组合使用讲话处理阶段，因为各方面在这点上没有限制。

有限词汇表ASR是可以适于确定是否已说出语音命令的讲话处理的一个例子。作为一般原则，识别讲话所需的处理随着可被识别的单词的词汇表大小的增加而增加。因此，利用受限制的词汇表可以允许ASR被快速并高效地执行，同时消耗相对少的电力。

可以使用有限词汇表ASR来执行显式语音触发检测。例如，示例性的讲话处理阶段可以包括利用限制为显式语音触发短语中的单词的词汇表(其可以包括少至一个单词)执行ASR。例如，对于显式语音触发“你好，Dragon”，词汇表可以被限制为两个单词“你好”和“Dragon”。通过将词汇表限制到在显式语音触发中所允许的单词，ASR可以利用很少的处理来执行，以评定声学输入是否包括语音命令(例如，声学输入是否包括显式语音触发)。

有限词汇表ASR也可以用在除检测显式语音触发之外的上下文中，作为显式语音触发检测的另选或附加。例如，有限词汇表ASR可以利用具有期望数量的关键词的受限的词汇表来执行，其中的关键词是当人们说出语音命令时频繁说出的单词。例如，诸如“什么”、“哪里”、“如何”等的术语会在说出语音查询时被频繁使用。诸如“搜索”、“安排”、“定位”、“呼叫”、“联系”、“提醒”等动词也可以是当说出语音命令时发出的常用单词。应当理解，任何被认为是暗示语音命令的单词都可以被包括在有限词汇表中，以便利相对快速、相对低功率的ASR以获得关于声学输入是否包括语音命令的信息。

有限词汇表在这点上也可以基于用户的行为来构建、学习或修改。例如，由用户在过去的语音命令中说出的单词可以被加到有限词汇表中。根据一些实施例，在如此识别的语音命令中由用户说出的单词可以被存储并且每次给定的单词再次被用户说出时，可以递增对那个单词的使用计数。其中说出给定单词的时间也可被记录，使得可以确定使用的频率。以这种方式，可以获得当说出语音命令时用户说特定单词多少次和/或有多频繁的记录。当没有出现在有限词汇表中的单词达到某个阈值计数和/或被足够频繁地说出时(例如，在给定的时间间隔内说了足够多次)，该单词可以被包括在有限词汇表中。如果确定当说出语音命令时用户没有经常地使用或根本没有使用包括在有限词汇表中的一个或多个单词，则这一个或多个单词可以被去除。可以基于用户的行为使用其它合适的技术来修改有限词汇表，以一般地为该用户裁剪有限词汇表，因为这个概念不限于任何特定的技术或技术集合。

根据一些实施例，有限词汇表ASR后面可以跟着更全面的ASR(例如，大词汇表ASR、一般无限制ASR，等等)。例如，有限词汇表ASR可以检测显式语音触发被说出，并且调用更全面的ASR来识别在声学输入中出现的其它单词，或者来识别在检测显式语音触发的后续接收到的声学输入中存在的单词。根据一些实施例，可以使用有限ASR来识别暗示语音命令的一个或多个关键词，并且如果确定所识别的单词提供了语音命令的足够证据，则可以执行更全面的ASR来识别在声学输入中所包含的讲话的其余部分，以便或者确认语音命令存在或者准备响应语音命令，或者这两者。

根据一些实施例，可以执行一般无限制的ASR(例如，在不约束或限制位于移动设备上的ASR组件的可用词汇表的情况下执行的ASR)，而无需首先执行有限词汇表ASR，因为各方面在这点上没有限制。语音处理阶段也可以包括利用在移动设备上不可用的ASR资源。例如，一些实施例包括讲话处理阶段，其将声学输入无线地发送到网络，其中声学输入可以利用例如位于连接到网络的一个或多个服务器的期望的ASR组件进行识别。这可以允许执行相对来说在计算上昂贵的ASR，而无需在移动设备自身上产生这些处理成本。有限ASR也可以在网络服务器上而不是在移动设备上执行，因为本地或网络资源的使用不限于任何特定的处理阶段。一般地，可以使用ASR处理阶段中的任何一个阶段或组合来帮助确定声学输入是否包括语音命令。

可以用来评估是否已说出语音命令的讲话处理阶段包括一个或多个统计分类阶段，以将声学输入归类为或者对应于或者不对应于语音命令。可以利用任何类型的统计分类器，并且可以以任意的组合，包括但不限于二元或多类分类、线性分类器、隐藏马尔可夫模型(hidden Markov model，HMM)、贝叶斯网络、支持向量机、神经网络、决策树，等等。根据一些实施例，可以利用训练数据将说出的话语聚类到类中(例如，语音命令和不对应于语音命令的讲话)。在声学输入中识别的单词可以与训练的聚类进行比较，以将说出的话语归类为或者可能与语音命令相关联或者可能不与语音命令相关联。

这种分类可以是二元决定，或者分类器(例如，聚类)可以包括更多数量的分类。根据一些实施例，二元分类可用来评定讲话是否对应于语音命令，并且当确定讲话对应于语音指令时，可以执行进一步的分析来理解语音命令的内容(例如，可以执行一个或多个自然语言处理阶段)。可替代地，可以执行多类分类来更好地理解语音命令应该如何被响应。可以使用任何的多种合适的统计分类器来确定讲话是否对应于语音命令，并且统计分类器处理阶段不限于任何一种技术、特定的技术或技术的组合。

可以用来评估输入内容的讲话处理阶段还包括一个或多个自然语言处理阶段来确定利用一个或多个ASR处理阶段所识别的讲话的语义含义。可以使用NLP阶段来或者评估声学输入中所包含的讲话是否对应于语音命令，或者确定语音命令的含义和/或用户的意图使得语音命令可以被执行。

应当理解，被配置为评估声学输入是否包括语音命令的任何处理阶段(例如，本文描述的任何示例性处理阶段)可以在移动设备上或经由到一个或多个网络服务器的网络连接远程地执行。在一些情况下，将一个或多个处理阶段委托给网络资源可以进一步一般地优化假阳性和假阴性率，同时一般地最小化电力消耗，和/或可以利用在移动设备上不可得的资源。

如以上所讨论的，当实现“永远开启”功能时，一般地优化假阳性和假阴性率以确保移动设备被感知为对语音命令有响应、同时避免太频繁地试图响应乱真声活动可以是一种考虑。当移动设备在低功率模式下操作时，其重要性会增加，其中在低功率模式下，不必要地唤醒移动设备不仅从电池电力损耗的角度看会使用户尤其感到沮丧，而且会变得使用户恼怒——用户接着可能偏好禁用该功能。

发明人已认识到，考虑一个或多个上下文线索可以改善假阳性和/或假阴性率。特别地，发明人已认识到，当与用于评估声学输入本身的技术结合使用时(例如，与任何以上描述的处理阶段和技术结合)，考虑除接收到的声学输入内容之外的其它因素可以改善准确地检测声学输入是否包括语音命令。

图5示出了利用至少一个上下文线索帮助确定声学输入是否包括语音命令的方法。方法500可以在某些方面类似于方法200、300或400，因为声学信息被获得(510)并且接着以某种方式被处理以评估声学输入是否包括语音命令(例如，利用本文所描述的技术中的任何一种或组合)。在动作520，使用至少一个上下文线索来帮助确定声学输入是否包括语音命令。上下文线索的例子包括但不限于，一天中的时间、移动设备的位置、移动设备的运动、移动设备上的最近活动、生物计量信息、电源的状态、有关声学环境的信息，等等，其中进一步的细节将在下面提供。

上下文线索可以以多种方式使用来影响声学输入是否包括语音命令的确定。例如，一个或多个上下文线索可以增加或减少与一个或多个处理阶段相关联的置信度值。作为说明，当移动设备的移动暗示用户已拿起移动设备时，它可以影响一个或多个VAD处理阶段的决定，因为这种动作可以指示近似时间接收到的声学输入包括语音内容。

可以使用上下文线索来确定执行哪些处理阶段和以什么次序执行(例如，处理阶段的选择和/或顺序可以至少部分地基于对一个或多个上下文线索的评估)。例如，指示移动设备位于车辆中的位置线索可以用来启动特定的噪声消除处理阶段，否则如果移动设备被确定位于办公室或家里或具有不同声学简档(profile)的其它位置，则该特定的噪声消除处理阶段不会被执行。低电池状态可以用来帮助选择特定的(或附加的)低功率处理阶段和/或阻止较高功率处理阶段的选择。在一些情况下，可以使用一个或多个上下文线索来完全地终止进一步的处理(例如，确定接收到的讲话不是由移动设备的用户说出可以触发停止进一步的处理)。另外，可以使用上下文线索来发起获得一个或多个其它上下文线索。上下文线索可以以任何适当的方式使用以帮助确定和/或影响声学输入是否包括语音命令的评估，因为各方面在这点上没有限制。

以下是各种示例性上下文线索的更详细描述。本文提供的特定上下文线索的例子是用于说明性目的，因为任何上下文线索都可以以任何适当的组合加以利用，并不限于本文明确描述的类型或组合。

发明人已认识到，一天中的时间可以是声学输入是否包括语音命令的指示器，并且其中接收到声学输入的时间可以用来影响用户是否已说出语音命令的评估。例如，当人们通常在睡觉时接收到的声学输入可以暗示该声学输入不包括语音命令。可以使用这个信息来阻止激活语音应答系统，除非其它的指示器更强烈地暗示该声学输入事实上确实包括语音命令。在一天中的其它时间接收到的声学输入可以暗示声学输入更可能地包括语音命令，并且可以使用这个信息来影响评估(例如，在某个期望的程度上使关于是否已说出语音命令的决定偏向)。

根据一些实施例，系统可以记录给定用户在过去说出语音命令的一天中的时间。通过这样做，可以编译特定用户何时发出语音命令的分布。这种分布指示何时用户更可能和较不可能发出语音命令。因此，当接收到声学输入时，可以获得时间并可以与该分布相比较，以查看声学输入的接收是否对应于用户频繁地或不频繁地说出语音命令的时间。可以使用这种比较来影响声学输入是否可能包括语音命令的确定。

作为例子，如果声学输入的接收时间一般地对应于当用户频繁地说出语音命令的一天中的时间，则可以在期望的程度上(例如，与用户在一天中的当前时间多频繁地说出语音命令成比例)使确定朝找到语音命令来偏向。另一方面，如果当前时间对应于当用户不频繁说出语音命令的一天中的时间，则可以使用比较来影响评估，以在期望的程度上阻止得出声学输入包括语音命令的结论。应当理解，可以收集和以其它方式利用过去语音命令的时间历史记录来影响声学输入是否包括语音命令的确定，或者可以不利用历史数据，因为这些技术在这点上没有限制。

根据一些实施例，语音应答系统可以获得在接收到声学输入时的当前时间并且访问用户的日历来检查用户是否可能具有安排的、会使用户或多或少可能将说出语音命令的预约、会议或事件。语音应答系统可能能够访问日历或计划，其允许用户指定用户不想让“永远开启”功能运行、但是希望移动设备自动地启用和禁用该功能的某些时间。因此，当接收到声学输入时，系统可以在继续进一步处理之前初始地检查以查看当前时间是否在用户已指示用户想让“永远开启”功能被禁用的时间间隔内。可以以其它方式利用声学输入被接收的时间来影响用户是否已发出语音命令，因为各方面不限于本文所描述的例子。

许多移动设备都装备有可以通常通过感测加速度(例如，利用陀螺仪或响应加速力的其它组件)来检测移动设备的运动的一个或多个组件。发明人已认识到，这种运动检测器可以被用作上下文线索来促进关于检测语音命令的改善的性能。例如，用户常常正好在说出语音命令之前或同时拿起移动设备或以其它方式使移动设备更靠近他们的嘴巴，这个动作可以用来促进对声学输入的改善的评估。尤其，来自运动检测器的响应可被用作声学输入可能包括语音命令的线索(例如，当接收到的声学输入在时间上紧密靠近来自运动检测器的响应时，可以假定很可能用户说出了语音命令)。

运动检测器(例如，加速计)响应可以通过利用运动检测器响应被结合到评估中，其中该运动检测器响应结合、补充、增强或以其它方式影响一个或多个处理阶段(或一个或多个处理阶段的结果)，以偏向有利于声学输入包括语音命令的评估。例如，可以使用运动响应来降低一个或多个VAD处理阶段的阈值、放松一个或多个ASR和/或自然语言处理阶段的要求、在表决方案中提供有利于声学输入包括语音命令的表决，等等。来自一个或多个运动检测器的响应可以以任何适当的方式被使用来影响声学输入是否包括语音命令的确定，因为各方面在这点上没有限制。

许多移动设备都装备有位置确定能力，诸如GPS。发明人已认识到，移动设备的位置可以被用作线索来影响声学输入是否包括语音命令的确定。例如，用户在驾驶时可能比当在办公室或家里时更频繁地发出语音命令，或反之亦然。语音应答系统可以把这种信息结合到声学输入的评估中来影响关于是否已说出语音命令的决定。系统还可以被配置为是在某些地点更倾向于或更不愿意断定声学输入包括语音命令，而与用户在特定的位置多频繁地说出语音命令无关。

语音应答系统可能已存储关于与家、办公室或其它地点相关联的一般区域的信息，使得当位置确定组件(诸如GPS)生成位于这些区域内的坐标时，语音应答系统可以确定移动设备位于已知的位置中。关于车辆，语音应答系统可以被配置为识别何时移动设备的位置正在快速变化并使用该信息来推断移动设备位于移动的车辆中。

确定位置不限于利用确定移动设备坐标的电子组件，并且移动设备的位置可以通过利用其它线索的推理来确定。例如，语音应答系统可以通过检测免提驻坞站的连接、检测位于车辆中的无线设备(例如，蓝牙设备)的存在、或确定移动设备能够与车辆的车载系统中的一个或多个系统通信来断定移动设备当前位于用户的车辆中。语音应答系统也可以通过检测无线接入点(例如，用户的家庭网络、办公室LAN，等等)的存在确定移动设备位于特定的位置。

可以使用通常由于接近度、连接和/或与其它设备、组件和/或网络通信的能力来推断移动设备位置的技术来确定移动设备的位置，在任何合适并且可以做出这种推断的情况下都可以使用这些技术，因为各方面在这点上没有限制。一般地，位置可以以任何多种多样的方式被使用来帮助确定声学输入是否包括语音命令，因为各方面在这点上没有限制。

根据一些实施例，语音应答系统可以学习关于用户最有可能在哪里说出语音命令的用户行为。例如，当已确定用户已说出语音命令时，可以记录位置和并且可以获得捕捉用户在哪里频繁说出语音命令的分布。当接收到声学输入时，移动设备的当前位置可以与这个分布进行比较，以基于移动设备是否位于用户频繁地或不频繁地说出语音命令的地方，要么偏向有利于要么偏向阻止声学输入包括语音命令的确定。可以使用用于学习关于用户说出语音命令的习惯的其它技术，因为各方面在这点上没有限制。

移动设备上的事件和/或最近活动的发生可用作上下文线索来影响关于声学输入是否包括语音命令的决定。例如，移动设备上的某些事件可能触发来自用户的语音响应。例如，当移动设备上的闹钟响起时，用户可能感兴趣通过语音命令处理闹钟，该语音命令诸如“催醒闹钟”、“关闭闹钟”、或者将闹钟设置在稍后时间的命令(例如，“把闹钟设在8点”、“将闹钟再设一个小时”，等等)。在日历警告激活之后，用户可能倾向于采取某种行动，诸如“给我显示日历”，或响应于提醒呼叫John，用户可以指示移动设备“呼叫John Doe”来发起电话呼叫。响应于到来的电话呼叫，用户可能想经带有指令的语音来处理交互，该带有指令的语音诸如“接听电话”、“发送到语音邮件”、“把手机静音”，等等。用户可能想要当接收到文本时经语音通过命令移动设备“响应最近的文本”来做出响应，或者可能想要通过说出命令“听语音邮件”来响应刚收到语音邮件的提醒。

移动设备上用户自己的活动也可以用来影响关于声学输入是否包括语音命令的决定。例如，如果用户打开文本或电子邮件，则用户可以通过命令移动设备“做记录”来指示想说出信息的期望。打开日历或日程安排应用可以是用户可能想要利用语音安排一些事情的线索(例如，“安排明天中午与Jane的午餐”)。此外，用户如何新近地与移动设备交互也可以被认为是上下文线索。例如，自从用户上次激活移动设备的时间长度、多久以前用户最后一次说出语音命令、多久以前用户在移动设备上执行了一个或多个任务等也可以被认为是上下文线索来影响一个或多个处理阶段的评估。

上述事件和活动仅仅是示例性的，并且移动设备上的任何事件或事件或活动的组合都可以被用作上下文线索。本文使用术语事件信息来描述关于在移动设备上发生的事件和在移动设备上发生的最近活动所获得的信息。因此，根据一些实施例，语音应答系统监视在移动设备上的一个或多个事件和/或最近的活动并使用作为结果获得的事件信息来影响在时间上接近于事件信息的接收到的声学输入的评估。事件信息可以用来或者偏向有利于或者偏向阻止声学输入包括语音命令的确定。

如以上所讨论的，当实现“永远开启”功能时，节省电力会是重要的考虑因素。因此，在一些实施例中，可以使用剩余的电池电力来帮助处理阶段的最优选择和/或选择应该以什么次序执行处理阶段。例如，如果移动设备具有足够的电池电力(例如，移动设备最近已被充电)，则语音应答系统可能愿意消耗更多的电力来实现较低的假阳性和/或假阴性率。因此，处理阶段的选择可以被选择来实现这个结果。但是，当电池电力低时，节省电力会变得越来越重要。在这种情况下，可以使用低电池状态的指示来阻止将声学信息传递用于进一步处理，使得额外的电力消耗只在其中声学输入包括语音命令的置信度非常高的情况下才发生(例如，这可以通过当检测到低电池状态时修改在一个或多个处理阶段的阈值来实现)。

此外，如果系统检测到移动设备被插入到电源中使得处理阶段的选择一般不受或者明显较少地受关于电力消耗的约束，则语音应答系统可以选择通常将以最佳准确度地确定是否存在语音命令的处理阶段，同时放松对用来做出确定的处理的功率量的约束。

移动设备的声学环境也可以用作上下文线索。例如，当已接收到声学输入并将其评定为由乱真声活动导致时，声学输入可以被存储为反映声学环境的声学信息并在以后进行参考以帮助评估随后获得的声学输入。根据一些实施例，存储的声学信息、或从其导出的信息(例如，频谱信息、被认为对应于噪声的显著成分，等等)可以与接收到的声学输入相比较，或从接收到的声学输入中减去，以消除背景声学环境中的至少一些部分。声学信息也可以通过定期地采样声学环境以获得可以被处理并存储为相对于移动设备的声学环境的参考的信息，来获得。也可以通过将关于环境的声学信息与移动设备频繁位于的环境(例如，汽车)的存储模板进行比较来使用该关于环境的声学信息来确定移动设备的位置。

语音已被用作生物计量签名来便利电子地验证或认证说话者的身份。用于执行这种说话者识别的技术常常利用存储的说话者的“声纹(voice print)”，其可以与接收到的音频信号进行比较，以评定音频信号的特性是否匹配通过声纹捕获的那些特性。声纹通常包括具有用于将说话者彼此区分开来的附加功能(facility)的一个或多个特性。当接收到声学输入时，可以提取一个或多个特性并将它们与声纹比较，以评定认为声学输入是否来自与从其获得声纹的说话者相同的说话者。

说话者识别技术可以用作确定声学输入是否包括可执行语音命令的过程的一部分。根据一些实施例，语音应答系统可以被配置为只响应由移动设备的特定用户(例如，拥有者)说出的语音命令。因此，当声学输入已被确定可能包含讲话时(例如，利用一个或多个VAD技术)，声学输入可以经历说话者识别以确定讲话是来自该用户还是来自一个或多个其它的说话者。系统可以被配置为如果确定声学输入不是源自特定的用户，则丢弃声学输入，无论它是否包括语音命令。在其中系统能够执行讲话人识别的一些实施例中，这种能力可以被用户启用和禁用，以允许其它讲话者说出可以被执行的语音命令。

移动设备可以包括多个麦克风。可以利用这种配置来计算给定用户正在从哪个方向说话。例如，可以使用到达时间延迟(TDOA)技术来计算给定用户正在从哪个方向说话，其至少部分地基于用户的讲话在移动设备上的两个不同麦克风处被接收到的时间之间的延迟，其中假设移动设备上的麦克风之间存在某一足够的距离。例如，图1A中的换能器130可以包括位于上面部分和下面部分上的至少一个麦克风，以提供足以执行TDOA计算的传播。

当给定的用户说话时，可以计算讲话从中到来的方向。应当理解，可以使用任何技术来计算用户的方向，因为在这点上没有限制。当移动设备接收到声学输入时，声学信息的方向可以被计算出并与存储的方向进行比较。如果声学输入来自不同的方向，则语音应答系统可以忽视该声学输入，如同其不包括来自给定用户的语音命令。另选地或附加地，该存储的方向可以用来过滤掉从其它方向接收到的声学信息，使得声学输入包括更多来自用户大致方向的信号，以改善声学输入的后续处理。

应该理解，以上描述的上下文线索和其它线索仅仅是示例性的并且可以使用不同性质的一个或多个其它上下文线索通过影响从移动设备的声学环境中接收到的声学输入的评估来帮助检测语音命令，因为各方面不限于与任何特定的上下文线索或上下文线索的组合使用。上下文线索可以用在处理的任何阶段，在这些阶段中暗示声学输入或多或少可能包括语音命令的信息会是有用的。

图1B示出了诸如图1A中示出的移动设备100的移动设备的内部系统组件的示例配置。移动设备的示例性系统组件可以包括主处理器115、辅助处理器125和音频编解码器105，所有都为了示出的方便和清楚起见而被示出为经由公共总线155互连。应该理解，根据一些实施例，给定的移动设备可以包括利用任何类型的互连以任何多种方式互连的更多或更少的处理组件，并且提供了在图1B中示出的特定配置以说明关于一般低功率“永远开启”功能的一些概念。

应当理解，本文所描述的任何技术都可以在具有单个处理器的移动设备上实现(或即使当多个处理器可用时也在单个处理器上执行)，并且提供了以下相对于图1B的讨论，以描述用于利用具有多个处理器的移动设备的处理能力的示例性技术。因此，图1B中的配置仅仅用于说明具有能够处理信息和经由某种类型的互连或某些系列的互连或耦合来交换信息的主处理器和辅助处理器的移动设备，并不是限制其上可以实现本文所描述技术的移动设备的类型。本文所描述的关于监视移动设备的声学环境来检测语音命令的技术可以与具有以任何适当方式互连的任意数量的处理组件的任何合适的系统配置一起使用。

处理器115可以是系统的主处理器或主要处理器并且一般地操作为用于移动设备的中央处理单元，因此可以包括在操作时(例如，当时钟树被启用并且处理器正在执行指令时)会消耗相对大量电力的高速处理器。因此，当移动设备进入低功率模式时(例如，断电进入到睡眠或空闲模式中)，主处理器可以被断电到期望的程度(例如，时钟树中的一个或多个时钟可以被禁用以节省电力)。当移动设备唤醒时(例如，进入活动模式)，主处理器可以被激活或通电以执行所需的处理任务。

处理器125可以是诸如数字信号处理器(DSP)、协处理器和/或专用处理器的辅助处理器，以处理由移动设备执行的处理任务中的一些部分或方面、帮助主处理器执行某个功能、处理某些专门的处理任务，等等。例如，辅助处理器可以包括被配置为处理来自一个或多个无线通信组件160的信号的数字信号处理器，例如，以处理至少一些在蜂窝通信中涉及的处理。辅助处理器可以包括主处理器的协处理器或专用处理器，诸如处理显示能力的图形处理单元(GPU)。

辅助处理器可以是比主处理器更低功率的处理器，因为当辅助处理器被启用并执行指令时其会消耗较少的电力。在一些实施例中，辅助处理器可以被配置为以较低功率操作和/或可以是较简单地并需要较少电力来上电和/或保持启用/通电，或以其它方式从电力角度看一般地有吸引力。在一些实施例中，在辅助处理器上实现某些处理阶段可能更简单、更高效和/或较不功率密集的，或者可能存在除了使得辅助处理器从电力角度、从效率角度或者这两者的角度有利的辅助处理器的操作特性之外的其它原因。

如以上所讨论的，发明人已认识到，当确定声学输入是否包括语音命令时利用辅助处理器来执行一个或多个处理阶段可以提供较低功率的“永远开启”功能。图6示出了根据一些实施例的利用包括主处理器和辅助处理器的移动设备的系统配置来监视声学环境以检测语音命令的方法。在动作610，监视移动设备的声学环境并接收声学输入。声学输入可以被移动设备的一个或多个组件处理，例如，一个或多个换能器130(例如，麦克风)可以检测声学活动并处理声学输入，音频编解码器105可以将声学输入从模拟转换到数字、在声学输入上执行一个或多个操作，等等。

在动作622，辅助处理器在声学输入上执行至少一个第一处理阶段来评估声学输入是否包括语音命令或可能对应于乱真声活动。如果在执行该至少一个第一处理阶段之后，确定声学输入对应于乱真声活动，则声学输入可以被忽略并且可以接收进一步的声学输入用于评估(例如，动作610可以被重复或继续被执行)。

该至少一个第一处理阶段可以包括一个或多个VAD处理阶段和/或处理一个或多个上下文线索来评定声学输入是否可能包括语音，并且如果声学输入被确定为是乱真声活动的结果，则语音应答系统可以中断声学输入的进一步处理。该至少一个第一处理阶段还可以包括一个或多个讲话处理阶段，只要辅助处理器具有实现的处理能力和/或功能来这样做。例如，辅助处理器可以被配置为在声学输入上执行有限词汇表ASR，诸如检测显式语音触发或关键词定位。

通过在辅助处理器上首先执行该至少一个第一处理阶段，有可能在不需要利用主处理器的情况下排除大量的声学输入。当移动设备操作在低功率模式下，其中主处理器通常不活动或被禁用时，有可能免掉相当量的声学输入而无需“唤醒”主处理器，从而实现了减少在实现“永远开启”功能时的电力需求。因此，主处理器可以被保留用于其中需要附加处理来评估声学输入的情况(例如，当辅助处理器自身不可以得出具有足够确定性的结论时)。

在检查显式语音触发并且其中辅助处理器被配置为执行这种显式语音触发检测的实施例中，可以确定声学输入包括语音命令而无需接合主处理器，或者如果在低功率模式中则根本无需启用、激活和/或唤醒主处理器。语音应答系统接着可以准备好，来处理预期跟在显式语音触发后面的后续声学输入，或者如果声学输入除了包括显式语音触发之外还包括可执行语音命令则进一步处理声学输入。进一步的处理可以接合主处理器来帮助理解语音命令和/或来执行语音命令的指令。

在动作624，如果在执行一个或多个第一处理阶段之后，不可以断定声学输入对应于乱真声活动(动作623)，则可以由主处理器在声学输入上执行至少一个第二处理阶段来进一步评估声学输入是否包括语音命令。该至少一个第二处理阶段可以包括需要更多处理功率、更复杂的处理、和/或辅助处理器没有被配置为执行的能力或功能的一个或多个处理阶段。该至少一个第二处理阶段可以包括识别声学输入中的讲话内容和/或确定声学输入中讲话的语义内容的一个或多个讲话处理阶段。

虽然将主处理器保留用于其中辅助处理器不可以得出结论和/或其中需要更多计算功率、资源或功能的情况会是有利的，但是应当理解，以上描述的任何示例性讲话处理阶段，或者单独地或以任何组合，可以被主处理器执行来确定声学输入是否包括语音命令。当确定声学输入包括语音命令时，可以启动响应语音命令所需的进一步处理(动作640)。

根据一些实施例，该至少一个第一处理阶段和/或该至少一个第二处理阶段包括连接到网络和通过网络发送至少一些要被一个或多个连接到网络的服务器处理的声学输入。例如，声学输入可以被发送到ASR服务器来识别讲话和/或被发送到自然语言理解服务器来确定声学输入的语义含义。虽然连接到网络和通过网络发送声学输入消耗电力(例如，当在低功率模式下时，可能需要激活适当的无线收发器并启用必要的处理组件(例如，无线编解码器)来将声学输入提供给一个或多个网络服务器)，但是一旦声学输入被一个或多个服务器接收到，声学输入就可以利用网络资源进行处理，而无需进一步消耗移动设备的电池电力。

因此，利用网络资源来执行一个或多个处理阶段会导致移动设备的电池电力的净节省。即，在一些情况下，利用网络的计算资源会证明招致通过网络发送声学输入和接收返回的相关结果所需要的电力消耗是合理的(例如，由于利用网络资源产生的电力节省可以证明连接和维护网络通信所需的处理功率是合理的)。当移动设备在活动模式下操作时、当移动设备在低功率模式下操作时、或者在这二者时，可以利用网络资源在声学输入上执行一个或多个处理阶段。在活动模式中，执行网络通信所需的组件可能已经是活动的并且在这方面的开销会是相对很小的。当在低功率模式中时，语音应答系统可以只激活那些执行网络通信所需的组件，并允许其余已断电的组件保持在低功率模式中，以尽可能地限制电力消耗。

虽然在许多情况下在移动设备上执行某些处理阶段(例如，一个或多个VAD处理阶段和/或有限词汇表ASR)并且利用网络资源用于诸如更复杂的ASR和/或NLP的更加计算密集的处理阶段会是有利的，但是在这点上没有限制，并且声学输入可以在处理的任何阶段通过网络来发送并且网络资源可以被用来执行适于给定处理策略的处理阶段中的任何一个阶段或组合。

根据一些实施例，一个或多个VAD处理阶段是在辅助处理器上执行的，并且如果检测到语音，则主处理器被接合以执行一个或多个讲话处理阶段。应该理解，尽管从电力角度来说，在辅助处理器上执行VAD处理阶段可能是有利的，但是一个或多个VAD处理阶段也可以在主处理器上执行，因为利用两个或更多处理器的方面不限于在辅助处理器或主处理器上执行任何特定的处理阶段或处理阶段的组合。

可以以任何适当的方式利用辅助处理器来实现便于实现相对低功率的“永远开启”功能、同时具有令人满意的假阳性和假阴性率的处理策略。一些处理策略可以受以下原则的指导，即只要当必须关于声学输入是否包括语音命令或是否是乱真声活动的结果做出断定时，才应该执行声学输入的进一步处理以及/或者接合或激活附加的系统组件。但是，辅助和主处理器资源可以以任何方式加以利用，因为各方面在这点上没有限制。

图7A和7B示出了语音应答系统750的例子，其被配置为监视移动设备700的声学环境以接收声学输入并确定声学输入是否包括语音命令，而无需用户说出显式语音触发。具体地，在无需首先利用显式语音触发来提醒语音应答系统的情况下，用户790可以向移动设备700说出命令“明天我有什么预约？”。根据一些实施例，当移动设备处于活动模式、低功率模式、或者这两者时，语音应答系统都可以对这种语音命令(即，在用户不说出显式语音触发的情况下说出的语音命令)响应。

移动设备700可以是用户的智能电话或被配置为从用户接收语音输入的其它移动设备。移动设备700可能能够连接到一个或多个网络795，包括但不限于蜂窝网络、一个或多个LAN、一个或多个WAN、因特网，等等。语音应答系统750可以包括硬件、软件或两者的组合并且至少部分地在移动设备700上实现以监视移动设备700的声学环境来接收声学输入705，并确定声学输入705是否包括语音命令，其例子在图7B中示出，用于在图7A中示出的示例性语音命令。

语音应答系统750可以利用一个或多个VAD处理阶段710处理声学输入705，以确定声学输入是否包括讲话内容或对应于非讲话声学活动。如以上所讨论的，VAD处理阶段可以包括任何数量的处理阶段，这些处理阶段评估声学输入的属性以评定属性是否是讲话的特性，包括但不限于关于声学输入的幅度、能量和/或持续时间的初始阈值查询，诸如频谱分析、周期性、频谱斜率、倒频谱分析的信号特性分析，等等。

根据一些实施例，可以选择VAD处理阶段的数量和类型，以最小化断定声学输入包括语音内容或断定声学输入是非讲话声学活动的结果所需的处理阶段的数量。例如，如果给定的VAD处理阶段以足够高的置信度断定声学输入包括语音内容，则进一步的VAD处理阶段可以被省略，有助于直接前进到一个或多个讲话处理阶段来评估讲话的内容。如果给定的VAD处理阶段将声学输入的可能性评估为足够低，则可以中断进一步的处理并将声学输入归类为非讲话输入。

但是，如果给定的VAD处理阶段不可以以一种或其它种方式做出断定，则可以执行进一步的VAD处理阶段来做出关于声学输入是否包括语音内容的断定。给定的VAD处理阶段的结果可以确定选择哪个后续的VAD处理阶段。例如，来自某些类型的VAD处理阶段的结果可以建议应该执行哪个随后的VAD处理阶段。以这种方式，处理阶段的数量、类型和次序可以被动态地确定，以便于声学输入相对低功率的VAD处理。根据一些实施例，多个VAD处理阶段可以被并行地执行，并且来自并行阶段的结果被比较，以评估声学输入是否包括语音内容。例如，基于来自多个VAD处理阶段的结果，可以使用表决方案，该方案可以是加权或者没有加权。

在图7A和7B示出的例子中，VAD处理阶段710确定声学输入705包括语音内容并且语音应答系统利用一个或多个讲话处理阶段720进一步评估声学输入705以确定声学输入是否包括语音命令。如以上所讨论的，讲话处理阶段可以包括ASR、分类(例如，利用一个或多个统计分类器)、NLP，等等。例如，根据一些实施例，声学输入705可以经历有限词汇表ASR来执行关键词定位，对于关键词定位来说可以使用任何技术来识别声学输入705是否包含任何被认为是暗示语音命令的单词和/或来识别执行分类所需的单词。取决于被使用的处理策略，可以利用其它的ASR技术来识别在声学输入中所包含的讲话中的一个或多个单词。如果不可以识别出具有足够置信度的单词，则可能是VAD处理阶段710错误地断定声学输入包括讲话的情况。在这种情况下，语音应答系统可以中断进一步的处理，以避免进一步消耗电力。

当利用ASR已识别出一个或多个单词时，识别的单词可以经历分类。在这个处理阶段，作为执行一个或多个ASR处理阶段的结果，声学输入705可以包括一个或多个识别出的单词，并且可以至少部分地基于一个或多个识别出的单词在声学输入705上执行一个或多个统计分类器来将声学输入归类为对应于或不对应于语音命令。可以作为上述示例性讲话处理阶段的或者另选方案或者附加来利用其它讲话处理阶段，因为各方面在这点上没有限制。

在图7B中在声学输入705上操作的示例性处理顺序中，一个或多个统计分类器可能已断定声学输入705中的讲话对应于语音指令。做出这种断定之后，移动设备的某些部分就可以在其中移动设备700在低功率模式下操作的情况下被激活，其中的一些示例性唤醒技术将在以下结合图8A和8B进行讨论。一般来说，高效地确定语音命令的含义并响应语音命令的指令所需的移动设备的基本组件可以依照声学输入705包括语音命令的确定而被接合或激活。但是，语音应答系统一直等到语音命令的含义被评估以更好地理解会需要哪些组件来执行语音命令的指令，才激活移动设备700的一个或多个组件。

在断定语音命令存在之后，语音应答系统750可以执行NLP阶段730来评估声学输入的语义内容，以理解当用户说出语音命令时想要语音应答系统做什么。在这点上，在声学输入被NLP阶段730(或者可能执行了大词汇表和/或无限制的ASR作为NLP处理的一部分)处理之前，声学输入可以被完全地识别到之前的ASR阶段不能(或没有被配置为)完全识别在该声学输入中所包含的讲话的程度。在图7B所示的例子中，NLP阶段730可以确定用户想查看他/她的日历，以检查明天安排了什么预约。因此，语音应答系统750可以检查以查看明天的日期并启动日历应用(参见过程740)，并向日历应用传递任何合适的参数785，诸如明天的日期，使得日历可以显示用户感兴趣的那一天和/或在日历上列出安排在指示的日期的预约。

在一些情况下，可能会是这种情况，即，语音应答750会需要来自用户的进一步信息并且会询问用户进一步的信息，或者会通过经讲话合成制定确认讲话并将该确认经移动设备700上的一个或多个扬声器提供给用户来确认语音命令被正确地理解。语音应答系统接着可以继续来自用户的确认。如由图7B中的虚线箭头所表示的，可以在任何处理阶段评估一个或多个上下文线索715，以通过影响在声学输入上执行的一个或多个处理阶段的评估帮助检测语音命令。如在图7A中所示出的，移动设备700能够通过网络795通信并且语音应答系统750可以选择让网络资源在声学输入上执行一个或多个处理阶段。例如，一个或多个ASR阶段和/或一个或多个NLP阶段可以被连接到网络795的一个或多个服务器775执行。

应该理解，当检测到语音命令并确定命令的意图时，启动的进一步处理将取决于命令的内容和/或移动设备的操作模式。当移动设备在低功率模式下操作时，一些命令会引起移动设备转换到活动模式，而其它命令会在无需进一步唤醒移动设备的情况下被执行。例如，对于后者而言，一些移动设备能够在处于低功率模式时播放音乐。诸如“下一曲目”、“上一曲目”、“重复曲目”、“暂停音乐”、“减小音量”、“提高音量”等的语音命令可以被执行而不用必须退出低功率模式。因此，声学输入可以在低功率模式下进行处理(例如，其中某些组件在“按需”的基础上被激活)来检测语音命令，并且语音命令可以在无需进一步将移动设备转换到活动模式中的情况下被执行。在这个例子中，音乐应用或播放器正在以低功率模式在移动设备上执行的事实也可以操作为上下文线索来偏向声学输入的评估，以帮助检测与音乐播放器有关的语音命令(例如，可以使用可被操作的音乐播放器来选择包括有限词汇表ASR的处理阶段，其中有限词汇表被选择以包括频繁地与控制音乐播放器相关联的术语，诸如，“曲目”、“音量”、“继续”、“暂停”、“重复”、“跳过”，“重排”等中的一个或任意组合，或者被认为是暗示控制音乐播放器的语音命令的任何其它单词或术语)。

根据一些实施例，语音应答系统被配置为对其进行响应的任务可以具有当对应的任务被识别时关于移动设备是否应当被转变为活动模式的相关联的指示和/或可以包括指定哪些组件应该被激活以执行对应任务的信息。以这种方式，其中语音应答系统响应语音命令的方式可以通过按需激活移动设备或移动设备的组件的某个子集来执行用户想要被执行的一个或多个任务或动作而被裁剪以消耗较少的电力。

应当理解，另选地或附加地，可以执行任何数量的没有具体提到的其它处理阶段，并且结合图7B描述的阶段的类型和顺序仅仅是示例性的。例如，在允许显式语音触发的实施例中，可以执行显式语音触发检测。在图7A和7B中示出的示例性语音命令的上下文中，显式语音触发检测将会失败，因为用户选择简单地在这个特殊的时刻开始说语音命令。因此，选择执行显式语音触发检测将会不必要地消耗电力。考虑到不同的操作模式在这点上可以帮助优化性能。

如以上所讨论的，虽然一些实施例确定声学输入是否包括语音命令而无需显式语音触发来这样做，但是一些实施例可以要求显式语音触发。其中不需要显式触发短语的实施例可以或者通过评估(但是不依赖于)声学输入是否包括显式触发短语、或者通过简单地前述显式语音触发的任何检测来操作。例如，不需要显式语音触发的实施例可以仍然执行检测显式语音触发是否存在的一个或多个处理阶段，以在用户选择说出显式触发短语的情况下更快地做出断定。但是，由于语音应答系统即使在没有显式语音触发的情况下也可以检测和响应语音命令的能力，因此没有显式触发短语将并不会使评估结束。在其中不需要显式语音触发的其它实施例中，不执行检测显式语音触发的处理(例如，在不具有或不考虑显式语音触发的语音应答实现中)。

以上描述的每个关于灵活性和处理策略的能力都有优点和缺点。例如，不需要但允许显式语音触发可以向用户提供最大的灵活性。特别地，用户可以自由地接合语音应答系统，接合语音应答系统或者通过说出显式语音触发或者通过简单地说出用户希望语音应答系统响应的语音命令(考虑到显式语音触发还向用户提供更加保险的机制以在隐式唤醒在给定情况下不响应时接合语音应答系统)。但是，这种灵活性的获得可能是以增加确定声学输入是否包括语音命令所需的处理为代价的，因为系统将可能需要既确定是否已说出显式语音触发又要在没有显式语音触发时执行一个或多个其它处理阶段来确定声学输入是否包括语音命令，如在下面进一步详细讨论的。

不需要显式语音触发、但是也不考虑显式语音触发的实施例在这点上可以更高效地执行隐式的唤醒，因为可以消除评估是否已说出显式语音触发的处理阶段，从而有利于通过评估其它特性来分析声学输入以检测语音命令的处理阶段，而不是必须做这两件事。另一方面，要求显式语音触发可以提供具有一般最优的假阳性和假阴性率的最高效的语音命令检测，但是是以潜在地负面影响用户体验为代价，因为说出用户想要执行的命令需要用户首先说出显式语音触发。

根据一些实施例，语音应答系统可以被配置为以多于一种以上描述的方式操作。通过在这点上具有多个操作模式，语音应答系统在其中操作的模式可以由用户来选择，或者由移动设备自身来选择。关于前者，在一些环境中，用户可能喜欢在一种或另一种模式中操作。例如，在一些情况下，降低假阳性可能比降低假阴性更重要，或反之亦然。此外，在一些情况下，电池电力节省可能是高度重要的，使得用户可能更偏向需要最少电力消耗的模式。其它因素也可能导致用户想选择特定的模式，或者暂时地、或者作为更永久的偏好。关于后者，语音应答系统可以基于移动设备的上下文或环境根据安排(其可以是用户定义的)在模式间自动地切换和/或可以学习用户的习惯或行为并相应地在模式之间切换。

图8A和8B示出了被配置为监视移动设备800的声学环境以接收声学输入805并确定声学输入是否包括语音命令的语音应答系统850的例子。在这个例子中，移动设备800在低功率模式下操作。例如，移动设备800可能已不活动一段时间，使得为了节省电池电力，移动设备已关闭显示器、将一个或多个处理器断电和/或禁用某些系统组件。常规地，唤醒移动设备使其功能可用需要一个或多个手动动作来重新接合移动设备。没有这些手动动作，当在低功率模式下操作时，常规的移动设备呈现出对语音无响应。

语音应答系统850被配置为即使当移动设备800在低功率模式下操作时也对语音响应。在图8A和8B所示的例子中，用户890已说出单词“你好，Dragon”来唤醒移动设备并接合语音应答系统，或以其它方式利用移动设备的功能。在这个例子中，“你好，Dragon”表示被语音应答系统850理解的显式语音触发。用户的讲话可以通过位于移动设备上的一个或多个麦克风检测到，该一个或多个麦克风至少部分地被保持为打开和启用以便监视移动设备的声学环境。以这种方式，即使当移动设备在低功率模式下操作时也可以接收到用于处理的声学输入805。

如在图8B中所示出的，一个或多个VAD处理阶段810可以在声学输入805上执行。如以上所讨论的，VAD技术中的任何一个或组合都可以被应用和以任何期望的次序应用。在这点上，VAD处理阶段810可以在一些方面类似于VAD处理阶段710，因为两者都会试图一般地最小化得出关于声学输入是否包括语音内容的结论所需的电力，并相应地基于那个评估继续。

在一些实施例中，一个或多个一般低级别声学输入处理阶段可以通过麦克风来执行(例如，评定幅度水平、确定信号能量特性，等等)。特别地，一些麦克风(例如，MEMS麦克风)包括耦合到换能器的集成电路，其执行来自换能器的电信号的一些最低级别的处理。例如，麦克风IC可以施加增益或以其它方式根据需要放大电信号和/或麦克风IC可以执行一些级别的噪声去除和/或过滤以增强/抑制换能器信号的特性。

麦克风IC可以被配置为执行便于确定由麦克风感测到的声学输入是否包括语音命令或仅仅是不相关的声学活动的一个或多个VAD技术。例如，麦克风IC可以评估信号幅度、信号能量、信号持续时间中的一个或任意组合，以评定接收到的信号是否值得传递给进一步的处理阶段。以这种方式，至少一些声学活动可以被麦克风本身丢弃而无需从移动设备消耗进一步的处理功率。一些移动设备实现音频编解码器来在模拟和数字信号之间进行转换。一个或多个VAD处理阶段也可以通过音频编解码器来执行，以预先提供一些VAD的测量，以潜在的避免进一步的处理。

在图8A和8B的例子中，VAD处理阶段810断定声学输入805包括语音内容，并且语音应答系统基于存在语音的评估决定调用显式语音触发检测820来确定在声学输入805中检测到的讲话是否对应于显式语音触发。一般而言，显式语音触发的检测涉及确定用户是否以特定的次序说出特定的单词。显式语音触发通常被选择为包括预计在正常谈话过程中不会频繁使用的一个或多个单词和/或具有相对低的发生预期的单词次序。例如，显式语音触发“你好Dragon”或“醒来Dragon”包括单词“Dragon”，其单独地在正常讲话中会具有相对低的发生率，因此可用作触发短语，前面带有单词“你好”或“醒来”以提供除非用户想要接合语音应答系统否则相对地不太可能说出的显式语音触发。

显式语音触发检测可以利用任何数量的技术来执行，诸如基于规则的方法、利用语法等。在一些实施例中，单词和/或单词次序可以被严格地执行。即，可以限制用户以正确的次序说出正确的单词，以让系统确定用户已说出显式触发短语。根据一些实施例，可以在显式语音触发检测中关于单词选择和/或单词次序建立一些灵活性，以向用户在这方面提供一些余地。例如，“你好Dragon”和“醒来Dragon”都可以被识别为可接受的显式语音触发，从而关于单词选择提供一些灵活性。作为另一个例子，“Dragon你好”和/或“Dragon醒来”也可以被识别为可接受的话语，从而关于单词次序提供一些灵活性。作为一般事项，关于说出可接受的显式语音触发给用户越高的灵活性，将需要越多的处理来检测显式语音触发，从而导致功率增加。因此，在这点上，可以在提供灵活性和实现最高效的处理之间存在权衡。

移动设备800可以包括单个处理器，或者可以包括多个处理器。当移动设备800包括单个处理器时(或包括多个处理器，但只有单个处理器能够执行一个或多个处理阶段)，语音应答系统800可以将处理器激活到用给定的处理策略执行各种处理阶段所需的程度。在低功率模式中，当多个处理器可用时，主处理器可被断电进入到空闲或睡眠状态，并且可以利用辅助处理器来执行VAD处理阶段810的至少一部分和/或显式语音检测820的至少一部分。以这种方式，至少一些重要的处理可以被执行，而不用必须唤醒或以其它方式激活主处理器(例如，主处理器的时钟系统可以基本上保持在移动设备在其中操作的低功率模式下的断电状态)。根据一些实施例，VAD处理和显式语音检测可以由辅助处理器来执行，而无需必须唤醒主处理器来这样做。

在图8A和8B的例子中，显式语音检测820确定用户说出了可允许的显式语音触发。作为响应，语音应答系统850可以将移动设备从低功率模式转换到活动模式(例如，语音应答系统可以酌情递增地唤醒移动设备，或完全激活移动设备)。语音应答系统唤醒移动设备的程度可取决于语音应答系统的设计。根据一些实施例，语音应答系统可以将移动设备唤醒到与当用户执行唤醒设备所需的手动动作时移动设备被激活的相同的程度(例如，语音应答系统可以打开显示器、激活主处理器和/或以其它方式准备好移动设备以执行任何其可用的功能)。根据一些实施例，语音应答系统将某些组件维持在低功率模式中。例如，语音应答系统可以保持显示器关闭、但是将主处理器激活到在检测到显式语音触发之后语音应答系统没有被接合的程度上，或者语音应答系统可以选择使主处理器去激活到与在检测到显式语音触发之后主处理器所处于的相同的程度，直到需要处理进一步的声学信息(例如，以处理显式语音触发后面跟着的一个或多个可执行语音命令)。这同样适用于其中只有单个处理器被利用以及当多个处理器被利用时的情况。

根据一些实施例，语音应答系统850可以向用户提供检测到显式语音触发的指示。例如，语音应答系统可以合成经移动设备上的一个或多个扬声器要被呈现给用户的语音确认，和/或可以打开、闪烁或以其它方式利用移动设备上的LED来指示显式语音触发被接收到和/或被理解。语音应答系统可以以其它方式指示检测到显式语音触发以及系统当前正在等待后续的讲话输入以采取行动或当前正在处理声学输入805中包含的讲话的任何剩余部分。

语音应答系统也可以一般地向用户提供已接收到声学输入的反馈。例如，移动设备可以发出蜂鸣声或提供已接收到声学输入的一些其它可听指示。语音应答系统可以一直等待到声学输入包括用户讲话已达到某种水平的置信度时才提供这种指示。声学输入的接收也可以利用视觉指示器来执行，诸如利用一个或多个LED、闪烁显示器、或通过诸如振动的非视觉指示器让用户知道接收到声学输入。在一些实施例中，一个或多个指示器可以基于由移动设备感测到的任何声学活动立即向用户提供反馈。例如，移动设备上的一个或多个LED可以对应于到来声学信息的幅度进行供电，从而提供品质计量(a meter ofsorts)以向用户显示由移动设备感测到的声学信息的强度。

根据检测到的显式语音触发，语音应答系统850可以在可能包括用户期望语音应答系统响应的可执行语音命令的随后接收到的声学输入805'或声学输入805的任何剩余部分上执行一个或多个处理阶段840。处理阶段840可以包括本文描述的、被配置为理解用户语音命令内容的处理阶段中的任何一个阶段或组合。例如，处理阶段840可以包括一个或多个讲话处理阶段，诸如ASR或NLP，来识别和理解语音命令，以便采取执行用户命令的指令所需的任何行动。

应当理解，处理阶段840中的任何一个阶段或组合都可以被执行，并且这些处理可以在本地或利用网络资源执行，因为各方面在这点上没有限制。如由图8B中的虚线箭头所表示的，一个或多个上下文线索815可以在处理的任何阶段进行评估，以通过影响在声学输入上所执行的一个或多个处理阶段的评估来帮助检测语音命令。但是，语音应答系统不一定利用上下文线索，因为各方面在这点上没有限制。

在一些情况下，语音应答系统可以检测到声学输入包括语音命令，但可能不能确定用户的意图和/或用户想要执行的动作。例如，一个或多个ASR和/或一个或多个NLP阶段可以以很高程度的可能性检测到声学输入包括语音命令，但是可能不能将语音命令映射到一个或多个具体的任务或动作。根据一些实施例，当检测到语音命令、但是关于语音命令的意图存在足够的不确定性和/或语音命令不会被适当地映射到具体的任务或任务集合时，可以执行缺省的动作。缺省的动作可以是例如，利用一个或多个在声学输入中识别的单词进行互联网搜索。另选地，缺省的动作可以包括制定要被呈现给用户以获得关于语音命令的进一步信息和/或澄清的问题。应当理解，任何缺省的动作都可以分配给已检测到的、但对其的具体任务或任务集合还未被识别(例如，以足够的确定性水平)的语音命令，因为各方面在这点上没有限制。

这种“抓住全部(catch-all)”功能允许语音应答系统或者通过执行通用动作或者通过接合与用户的对话以关于该语音命令澄清用户意图来更好地响应用户，即使关于用户的意图存在不确定性。根据一些实施例，这种“抓住全部”功能可以当移动设备在低功率模式下操作时被禁用，以避免移动设备每当识别一系列的单词时就采取行动。在其它实施例中，“抓住全部”功能可以在低功率模式、活动模式或这两种模式下被启用，因为各方面在这点上没有限制。

如以上所讨论的，根据一些实施例，一个或多个处理阶段可以被通过网络可用的资源执行。图9示出了可以被语音应答系统在评定声学输入是否包括语音命令时利用的示例性网络资源。例如，移动设备900可以经网络995与自动讲话识别(ASR)组件930和/或自然语言处理(NLP)组件940通信，以执行一个或多个处理阶段。这些网络资源中的每一个都可以用软件、硬件、或软件和硬件的组合来实现。用软件实现的组件可以包括处理器可执行的指令集合，其可以被一个或多个网络计算机的一个或多个处理器执行，一个或多个网络计算机诸如一个网络服务器或多个网络服务器。每个ASR组件930和NLP组件940都可以实现为单独的组件，或者这些组件的任意组合都可以被集成到单个组件中或被集成到在一个或多个网络计算机(例如，网络服务器)上实现的一组分布式组件中。此外，ASR组件930和NLP组件940中的任何一个都可以实现为一组多个软件和/或硬件组件。

根据一些实施例，声学输入可以被发送到ASR组件930以进行识别。在将声学输入提供给ASR组件930之前，声学输入可以以任何适当的方式被处理。例如，声学输入可以被预处理，以去除信息、格式化声学输入或修改声学输入为ASR做准备(例如，声学输入可以被格式化为符合期望的音频格式和/或准备流处理为音频流或准备为适当的音频文件)，使得声学输入可以被提供为到ASR组件930的音频输入(例如，通过网络发送的)。

ASR组件930可以被配置为处理接收到的音频输入(例如，表示声学输入的音频输入)，以形成音频输入的文本表示(例如，声学输入中可以被进一步处理以理解构成单词的含义的构成单词的文本表示)。这种产生文本表示的处理可以以任何适当的方式来执行。在一些实施例中，ASR组件930可以将讲话转换为除文本表示之外的其它表示，或者讲话可以不被识别为单词，而是一系列或一组抽象的概念。应当理解，在声学输入表示的单词和/或概念可以以任何适当的形式被表示和/或存储为数据，因为各方面在这点上没有限制。ASR组件930可以通过网络发送识别的声学输入以被移动设备接收和/或ASR组件930可以向NLP组件940提供识别的声学输入来帮助理解声学输入的语义内容以评估声学输入是否包括语音命令。根据一些实施例，ASR组件930可以被配置为利用适当的声学模型、词汇表/词法、语法、语言模型等中的一种或任意组合来执行有限词汇表识别和/或一般地无限制的识别，以执行识别，因为各方面不限于用任何特定的ASR实现使用。任何本文描述的ASR处理阶段都可以被ASR组件930执行。

如以上所讨论的，一个或多个处理阶段可以由被配置为处理声学输入(例如，声学输入的文本表示或声学输入的一部分)的NLP组件940执行，以确定声学输入的语义内容。NLP组件940可以使用任何适当的语言理解技术来确定声学输入的含义，以便帮助评定声学输入是否包括语音命令和/或其中指定了什么任务或动作。例如，NLP组件可以被配置为识别并提取声学输入的语法和/或句法成分，诸如讲话的部分、或属于已知语义类别的单词或短语，以便于对声学输入的理解。例如，NLP组件940可以识别动词(例如，暗示具体任务或动作的动词)、主语单词、主题词、和/或NLP组件940会认为与确定声学输入的语义形式或内容相关的任何其它类型或种类的单词，以便于确定声学输入是否包括语音命令和/或其中指定了什么任务或动作(例如，理解用户的意图)。

NLP组件140可以使用、采用或实现一个或多个统计模型来从自然语言输入中提取语义实体。一般地，一些统计模型可以被描述为功能组件，其设计成和/或训练成基于之前训练输入中观察到的概率模式分析新的输入。在这个意义上，统计模型不同于“基于规则”的模型，其中“基于规则”的模型通常应用硬编码的确定性规则将来自具有特定特性的输入映射到特定输出。作为对照，统计模型可以操作以通过考虑具有那些相同特性(或类似特性)的训练输入多经常地(例如，具有什么概率)与统计模型的训练数据中的特定输出相关联来为具有特定特性的输入确定特定的输出。例如，在语音应答系统的上下文中，模型在其上操作的输入可以对应于声学输入(或从中得到的表示)并且输出可以包括语音命令存在的标识和/或由语音命令指定的一个或多个任务或动作的标识和/或一个或多个相关联的参数。

为了提供允许统计模型从与过去例子中的特定输出相关联的特定输入特性的趋势来推断的概率数据，统计模型通常在具有足够大数量的示例输入的训练语料库上进行训练(或“构建”)。通常，示例输入常常被人类标记员(例如，具有领域专业知识的)或有时自动地标有它们应当关联的已知的输出(例如，声学输入的语料库可以标有指令指定的正确任务)。感兴趣的特性(称作“特征”)从输入中被识别(“提取”)，并且统计模型基于具有那些特征的训练输入多经常地与那些输出相关联来学习不同特征与不同输出相关联的概率。当同样的特征从新的输入中被提取时(例如，还没有(例如由人)标有已知输出的输入)，统计模型接着可以为提取的特征使用学到的概率(如从训练数据中学到的)，以确定哪个输出对于新的输入最有可能是正确的。在评估识别的声学输入的上下文中，特征可以对应于在声学输入中识别的单词、概念、关联、关系等，并且统计模型可以确定这样的特征是否暗示语音命令和/或哪一个或多个任务或动作最有可能基于这些特征及其关系被指定。

NLP组件940也可以包括(或另选地包括)一个或多个基于规则的模型，它们提供关于如何将声学输入中的单词或短语映射到语音命令和/或对应的任务的一组规则并且/或者将声学输入中的单词或短语映射到识别的任务的参数。例如，NLP组件940可以包括基于规则的自然语言处理组件以提取关于在声学输入中识别的构成单词的相关事实、将事实链接到概念或以其它方式帮助评定语音命令是否存在和/或识别在声学输入中指定的一个或多个任务。在基于规则的系统中，语言学家和/或其它个人可以创建多个规则，该多个规则可以指定哪些单词或单词的组合证明识别的声学输入包括语音命令和/或指定特定的任务。基于规则的技术可以被NLP组件940采用以确定声学输入是否包括语音命令和/或识别在声学输入中指定的一个或多个任务或动作和/或与识别的任务相关联的任何参数。

应当理解，NLP组件可以利用以上所描述技术中的一个或任意组合来确定语音命令是否存在和/或识别声学输入中的任务和/或识别与所识别的任务相关联的任何参数，因为各方面不限于用任何特定的技术或技术组合来使用。根据本文描述的一种实施例，使用了混合方法，其中NLP组件940采用统计模型和基于规则的组件两者来评估声学输入是否包括语音命令和/或识别在声学输入中指定的一个或多个任务。这种混合方法可以以任何多种方式来实现，因为采用混合方法的各方面不限于任何特定的实现技术。根据一些实施例，NLP组件940的统计模型和基于规则的组件可以在同一声学输入上并行操作，并且在一些实施例中，它们可以串行操作。在并行或串行操作中，统计模型和基于规则的组件可以独立地操作，或者可以交换信息以便于声学输入的语义内容的评估(例如，以评定语音命令是否存在和/或识别在声学输入中指定的任务，和/或与识别的任务相关联的参数)。

根据一些实施例，基于规则的组件可以通过例如提取关于所使用语言的相关事实、将单词或短语链接到概念中、和/或识别已知任务的其它特性来在声学输入上执行第一遍历来识别语义实体。此后，可以使用统计模型来处理语义实体，以确定声学输入最有可能与哪一个或多个任务相关。即，基于规则的组件的输出可被用作用于统计模型的特征。例如，当规则触发或以其它方式指示规则已被满足时，这可能是被统计模型评估的特征。一些规则可以是相当的具体，使得规则的触发以很高的概率指示由此表达的确定是准确的(例如，单词“呼叫”的检测结合识别正确的名称可以以很高的概率指示声学输入包括拨打电话的语音命令)。

根据一些实施例，统计模型可以操作，以识别最有可能被声学输入指定的一个或多个任务，并且可以使用基于规则的组件来从与所识别的任务相关联的声学输入中识别一个或多个参数。统计模型和基于规则的组件可以以其它合适的方式使用，因为各方面在这点上没有限制。根据一些实施例，取决于声学输入的内容，可以做出关于是使用统计模型还是使用基于规则的组件的确定。例如，非常结构化的一些语音命令会服从规则，而在用自然语言如何表达语音命令方面具有显著可变性的语音命令类型可能更适合于使用统计模型。

同样，以上提供的用于合并基于规则的组件的使用和统计模型的描述仅仅是说明性的，因为本文所描述的技术不限于任何特定的实现或技术选择。本文描述的技术可以只利用统计模型、只利用基于规则的组件、或任意组合来实现，因为它们不限于任何特定的实现技术。即，由NLP组件940的处理可以如所期望的那样简单或复杂，以适当地评估声学输入是否包括语音命令和/或当它们出现在声学输入中时识别一个或多个任务。

如以上所讨论的，当移动设备在低功率模式下操作时，在一些情况下，从电力消耗的角度看，通过网络发送声学输入并允许可用的网络资源(例如，ASR组件930和/或NLP组件940)来评估声学输入是否包括语音命令是有道理的。在一些实施例中，只有进行这种网络交易所需的组件需要被激活以访问和利用网络资源，而其它组件可以保持在低功率状态。应当理解，以上结合ASR组件930和/或NLP组件940描述的任何技术可以另选地(或附加地)在移动设备上实现。

图10中示出了可以用来实现本文所描述的一种或多种语音应答技术的计算机系统1000的说明性实现。计算机系统1000可以包括一个或多个处理器1010和一个或多个非暂态计算机可读存储介质(例如，存储器1020和一个或多个非易失性存储介质1030)。处理器1010可以以任何合适的方式控制向/从存储器1020和非易失性存储设备1030写/读数据，因为本文所描述的本发明的各方面在这点上没有限制。处理器1010例如可以是移动设备上的处理器。

为了执行本文所描述的功能和/或技术，处理器1010可以执行存储在一个或多个计算机可读存储介质(例如存储器1020，存储介质等)中的一条或多条指令，其中计算机可读存储介质可以充当存储用于被处理器1010执行的指令的非暂态计算机可读存储介质。计算机系统1000还可以包括任何其它处理器、控制器或路由数据、执行计算、执行I/O功能等所需的控制单元。例如，计算机系统1000可以包括任何数量和类型的输入功能来接收数据和/或可以包括任何数量和类型的输出功能来提供数据，并且可以包括控制装置来执行I/O功能。

结合确定声学输入是否包括语音命令，被配置为接收声学输入、在声学输入上执行一个或多个处理阶段或以其它方式执行本文所描述的功能的一个或多个程序可以被存储在计算机系统1000的一个或多个计算机可读存储介质上。特别地，语音应答系统中的一些部分或全部可以被实现为存储在一个或多个计算机可读存储介质上的指令。处理器1010可以执行通过被存储在计算机系统1000本地上或可通过网络访问而对处理器可用的这种程序中的任何一个或组合。本文所描述的任何其它软件、程序或指令也可以被计算机系统1000存储和执行。计算机系统1000可以是移动设备上的计算机系统。计算机系统1000也可以实现为独立的计算机、服务器、分布式计算系统的一部分，并且可以被连接到网络并能够通过网络访问资源和/或与连接到网络的一个或多个其它计算机通信(例如，计算机系统1000可以是对在移动设备上实现的语音应答系统可用的网络资源的一部分)。

本文使用的术语“程序”或“软件”在一般意义上指任何类型的计算机代码或处理器可执行指令的集合，该计算机代码或处理器可执行指令集合可以用来对计算机或其它处理器编程以实现如上文讨论的实施例的各个方面。此外，应当理解，根据一个方面，在被执行时执行本文提供的公开内容的方法的一个或多个计算机程序无需驻留在单个计算机或处理器上，而是可以以模块的形式分布在多个不同的计算机或处理器之中以实现本文提供的公开内容的各个方面。

处理器可执行指令可以是以多种形式的，诸如由一个或多个计算机或其它设备执行的程序模块。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。通常，在各种实施例中可以如所期望地组合或分布程序模块的功能。

而且，数据结构可以以任何适当形式存储在一个或多个非暂态计算机可读存储介质中。为简化说明，可以将数据结构示为具有通过数据结构中的位置来相关的字段。这种关系同样可以通过向用于字段的存储分配传达字段之间关系的非暂态计算机可读介质中的位置来实现。但是，可以使用任何适当的机制以在数据结构的字段中的信息之间建立关系，包括通过使用指针、标签或在数据元素之间建立关系的其它机制。

而且，各种发明性概念可以体现为一个或多个过程，其中已提供了这些过程的多个例子。作为每个过程的一部分执行的动作可以以任何适当的方式进行排序。因此，实施例可以被构造为其中动作是以不同于图示的次序执行的，其中可以包括并发地执行一些动作，尽管在说明性实施例中示为顺序的动作。

如本文所定义和使用的，所有的定义都应该被理解为优先于所定义术语的字典定义和/或所定义术语的普通含义。

如本文在说明书和权利要求中所使用的，短语“至少一个”在引用一个或多个元素的列表时应当理解为意味着从元素列表中的元素中的任何一个或多个元素中选择的至少一个元素、但是未必包括在元素列表内具体列举的每一个元素中的至少一个元素并且未排除元素列表中的元素的任何组合。这一定义也允许可以可选地存在除了在短语“至少一个”引用的元素列表内具体识别的元素之外的、无论是与具体识别的那些元素有关还是无关的元素。因此，作为非限制性的例子，在一种实施例中，“A和B中的至少一个”(或等价地，“A或B中的至少一个”，或等价地，“A和/或B中的至少一个”)可以指至少一个，可选地包括多于一个A，其中不存在B(并且可选地包括除B之外的元素)；在另一种实施例中，指至少一个，可选地包括多于一个B，其中不存在A(并且可选地包括除A之外的元素)；在还有的另一种实施例中，指至少一个，可选地包括多于一个A，和至少一个，可选地包括多于一个B(并且可选地包括其它元素)；等等。

如本文在说明书和在权利要求中所使用的，短语“和/或”应当被理解为是指如此连接的元素的“任何一个或两者”，即，在一些情况下结合存在并且在另一些情况下分离存在的元素。利用“和/或”列出的多个元素应该以同样的方式进行解释，即，如此连接的元素的“一个或多个”。除由“和/或”子句具体识别的元素之外，其它元素也可以可选地存在，无论是与具体识别的那些元素有关还是无关。因此，作为非限制性的例子，当结合诸如“包括”的开放式语言使用时，对“A和/或B”的引用可以在一种实施例中仅仅指A(可选地包括除B之外的元素)；在另一种实施例中，仅仅指B(可选地包括除A之外的元素)；在还有的另一种实施例中，指A和B两者(可选地包括其它元素)；等等。

在权利要求中使用诸如“第一”、“第二”、“第三”等序数术语来修饰权利要求要素本身并不意味着一个权利要求要素较另一权利要求要素而言的任何优先级、优越性或顺序、或者执行方法动作的时间顺序。这些术语仅用作标记来区分具有某个名称的一个权利要求要素与具有相同名称(但用于使用序数术语)的另一要素。

本文使用的措词和术语是为了描述的目的，而不应被认为是限制。使用“包括”、“包含”、“具有”、“涉及”及其变形意味着涵盖其后列出的项目和其它项目。

已经详细描述了本文描述的技术的若干种实施例，对于本领域技术人员来说，将很容易地想到各种修改和改进。这种修改和改进要属于本公开内容的精神和范围之内。因此，前面的描述仅仅是作为例子，并不是要作为限制。本技术只被限制为由以下权利要求及其等价物所限定的。

Claims

1.一种监视移动设备的声学环境的方法，该方法包括：

通过移动设备接收来自该移动设备的环境的声学输入；

在无需接收来自用户的显式触发的情况下，检测声学输入是否包括来自该用户的语音命令；及

发起对检测到的语音命令的响应。

2.如权利要求1所述的方法，其中接收声学输入包括当移动设备在低功率模式下操作时接收声学输入。

3.如权利要求1所述的方法，其中检测声学输入是否包括来自用户的语音命令包括对该声学输入执行多个处理阶段来评估该声学输入是否包括语音命令或是否对应于乱真声活动。

4.如权利要求3所述的方法，其中执行所述多个处理阶段中的至少一个处理阶段提供声学输入包括语音命令的置信度的指示，该方法还包括至少部分地基于来自所述多个处理阶段中的至少一个处理阶段的置信度的指示，选择后续的处理阶段来接着处理声学输入。

5.如权利要求3所述的方法，还包括：

如果所述多个处理阶段中的给定处理阶段确定声学输入由乱真声活动导致，则中断对声学输入的进一步处理；

如果该给定的处理阶段确定声学输入包括语音命令，则发起对语音命令的响应；及

如果该给定的处理阶段不能断定声学输入是否包括语音命令，则在从所述多个处理阶段中选择的后续处理阶段中处理声学输入。

6.如权利要求3所述的方法，其中执行所述多个处理阶段包括执行至少一个语音活动检测处理阶段。

7.如权利要求6所述的方法，其中执行所述至少一个语音活动检测处理阶段包括对声学输入执行频谱分析以评估声学输入的频谱是否指示语音活动。

8.如权利要求6所述的方法，其中执行所述至少一个语音活动检测处理阶段包括执行周期性分析以评估信号周期性是否指示语音活动。

9.如权利要求6所述的方法，其中执行所述至少一个语音活动检测处理阶段包括使用电话环路来评估声学输入是否包括讲话。

10.如权利要求3所述的方法，其中执行所述多个处理阶段中的至少一个处理阶段包括对声学输入执行至少一个生物计量分析以评估声学输入是否是从移动设备的用户接收到的。

11.如权利要求3所述的方法，其中执行所述多个处理阶段包括执行至少一个讲话处理阶段。

12.如权利要求10所述的方法，其中执行所述至少一个讲话处理阶段包括对声学输入执行有限词汇表自动讲话识别。

13.如权利要求11所述的方法，其中执行所述至少一个讲话处理阶段包括执行声学输入的分类，包括应用一个或多个统计分类器来评估识别出的讲话是否是语音命令的特性。

14.如权利要求10所述的方法，其中执行所述至少一个讲话处理阶段包括执行至少一个自然语言处理阶段。

15.如权利要求3所述的方法，其中移动设备被耦合到多个麦克风，并且其中移动设备存储使用从所述多个麦克风接收到的信号计算出的第一方向，第一方向指示从中接收到来自移动设备的用户的讲话的方向，并且其中执行所述多个处理阶段中的至少一个处理阶段包括：

确定从中接收到声学输入的第二方向；及

比较第一方向和第二方向以评估声学输入是从用户接收到的可能性。

16.如权利要求3所述的方法，其中移动设备包括主处理器和辅助处理器，并且其中在接合主处理器来处理声学输入之前，由辅助处理器执行所述多个处理阶段中的至少一个第一处理阶段。

17.如权利要求16所述的方法，其中只有在所述至少一个第一处理阶段既没有断定声学输入包括语音命令又没有断定声学输入是乱真声活动的结果之后，才由主处理器执行所述多个处理阶段中的至少一个第二处理阶段。

18.如权利要求3所述的方法，其中执行所述多个处理阶段中的至少一个处理阶段包括评估至少一个上下文线索，所述至少一个上下文线索选自由以下各项构成的组：一天中的时间、移动设备的运动、移动设备的位置、移动设备上事件的发生、移动设备上的最近活动、和向移动设备供电的电池的状态。

19.如权利要求1所述的方法，其中移动设备能够经由网络连接到至少一个服务器，该方法还包括经由网络将声学信息的至少一部分发送到所述至少一个服务器用于由所述至少一个服务器处理。

20.如权利要求18所述的方法，其中自动讲话处理和自然语言处理中的至少一个是通过所述至少一个服务器对声学输入的所述至少一部分执行的。

21.至少一种用指令编码的计算机可读介质，当指令在至少一个处理器上执行时，执行监视移动设备的声学环境以接收来自移动设备的环境的声学输入的方法，该方法包括：

在无需接收来自用户的显式触发的情况下，检测声学输入是否包括来自用户的语音命令；及

发起对检测到的语音命令的响应。

22.一种移动设备，包括：

用于接收来自移动设备的环境的声学输入的至少一个输入部；

至少一个处理器，所述至少一个处理器被配置为：

发起对检测到的语音命令的响应。

23.一种当移动设备在低功率模式下操作时对移动设备的声学环境监视语音命令的方法，该方法包括：

当移动设备在低功率模式下操作时，接收来自移动设备的环境的声学输入；

基于对声学输入执行多个处理阶段来检测声学输入是否包括语音命令，其中所述多个处理阶段中的至少一个处理阶段是当移动设备在低功率模式下操作时执行的；及

使用至少一个上下文线索来帮助检测声学输入是否包括语音命令。

24.如权利要求23所述的方法，还包括当检测到声学输入包括语音命令时，将移动设备从低功率模式转换到活动模式。

25.如权利要求23所述的方法，其中所述至少一个上下文线索包括以下中的至少一项：接收到声学输入的时间、移动设备的运动、移动设备的位置、移动设备上事件的发生、移动设备上的最近活动、所存储的移动设备的声学环境的样本、以及移动设备的电源。

26.如权利要求25所述的方法，其中所述至少一个上下文线索包括接收到声学输入的时间，该方法还包括基于接收到声学输入的时间来影响所述多个处理阶段中的至少一个处理阶段的评估。

27.如权利要求25所述的方法，其中所述至少一个上下文线索包括移动设备上的最近活动，该方法还包括基于以下至少一项来影响所述多个处理阶段中的至少一个处理阶段的评估：用户有多新近地激活移动设备，用户有多新近地发出语音命令，以及用户有多新近地在移动设备上执行至少一个动作。

28.如权利要求25所述的方法，其中所述至少一个上下文线索包括移动设备上事件的发生，该方法还包括基于接收到声学输入的时间是否接近于事件发生的时间来影响所述多个处理阶段中的至少一个处理阶段的评估。

29.如权利要求25所述的方法，其中所述至少一个上下文线索包括作为来自移动设备的加速计的输入被接收的移动设备的运动，该方法还包括基于评定用户移动移动设备的时间是否接近于接收到声学输入的时间来影响所述多个处理阶段中的至少一个处理阶段的评估，其中评定用户移动移动设备的时间是否接近于接收到声学输入的时间至少部分地基于来自加速计的输入。

30.如权利要求25所述的方法，其中所述至少一个上下文线索包括移动设备的位置，该方法还包括基于确定移动设备是否位于移动设备用户的工作地点、家里、或车辆中的至少一个来影响所述多个处理阶段中的至少一个处理阶段的评估。

31.如权利要求25所述的方法，其中所述至少一个上下文线索包括移动设备的电源，该方法还包括基于以下中的至少一项来影响所述多个处理阶段中的至少一个处理阶段的评估：确定移动设备是正在使用电池还是连接到墙上电源来供电，以及如果移动设备正在使用电池供电时的电池的状态。

32.如权利要求25所述的方法，其中所述至少一个上下文线索包括由移动设备通过存储由该移动设备之前接收到并被确定为不包括语音命令的声学输入所获得的声学环境的样本，该方法还包括从声学输入中减去声学环境的样本。

33.如权利要求23所述的方法，其中至少部分地通过所述至少一个上下文线索确定执行所述多个处理阶段的顺序。

34.如权利要求23所述的方法，其中移动设备包括主处理器和辅助处理器，并且其中在接合主处理器来处理声学输入之前，由辅助处理器执行所述多个处理阶段中的至少一个第一处理阶段。

35.如权利要求34所述的方法，其中只有在所述至少一个第一处理阶段被执行并且既没有断定声学输入包括语音命令又没有断定声学输入是乱真声活动的结果之后，才由主处理器执行所述多个处理阶段中的至少一个第二处理阶段。

36.如权利要求34所述的方法，其中执行所述至少一个第一处理阶段包括执行至少一个语音活动检测处理阶段，其包括执行以下中的至少一项：对声学输入的频谱分析以评估声学输入的频谱是否指示语音活动，周期性分析以评估信号周期性是否指示语音活动，和电话回路分析以评估声学输入是否包括讲话。

37.如权利要求34所述的方法，其中执行所述至少一个第一处理阶段包括对声学输入执行有限词汇表自动讲话识别来检测声学输入是否包括显式语音触发。

38.如权利要求34所述的方法，其中执行所述至少一个第二处理阶段包括执行至少一个讲话处理阶段，其包括以下中的至少一项：对声学输入的自动讲话识别，和至少一个自然语言处理阶段以理解语音命令的含义。

39.如权利要求23所述的方法，其中移动设备能够经由网络连接到至少一个服务器，该方法还包括经由网络将声学信息的至少一部分发送到所述至少一个服务器用于由所述至少一个服务器处理。

40.如权利要求23所述的方法，还包括当特定任务不能根据声学输入确定时，执行一个或多个缺省动作。

41.至少一种用指令编码的计算机可读介质，当指令在至少一个处理器上执行时，执行当移动设备在低功率模式下操作时监视移动设备的声学环境以接收来自移动设备的环境的声学输入的方法，该方法包括：

42.一种移动设备，包括：

当移动设备在低功率模式下操作时接收来自移动设备的环境的声学输入的至少一个输入部；

至少一个处理器，所述至少一个处理器被配置为：