CN107390851A - 支持准始终聆听的智能聆听模式 - Google Patents
支持准始终聆听的智能聆听模式 Download PDFInfo
- Publication number
- CN107390851A CN107390851A CN201710270086.3A CN201710270086A CN107390851A CN 107390851 A CN107390851 A CN 107390851A CN 201710270086 A CN201710270086 A CN 201710270086A CN 107390851 A CN107390851 A CN 107390851A
- Authority
- CN
- China
- Prior art keywords
- electronic installation
- user
- time
- machine learning
- send
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/02—Power saving arrangements
- H04W52/0209—Power saving arrangements in terminal devices
- H04W52/0225—Power saving arrangements in terminal devices using monitoring of external events, e.g. the presence of a signal
- H04W52/0229—Power saving arrangements in terminal devices using monitoring of external events, e.g. the presence of a signal where the received signal is a wanted signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3287—Power saving characterised by the action undertaken by switching off individual functional units in the computer system
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W8/00—Network data management
- H04W8/22—Processing or transfer of terminal data, e.g. status or physical capabilities
- H04W8/24—Transfer of terminal data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Telephone Function (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供用于支持电子装置上的准始终聆听的智能聆听模式。在一个实施例中,所述电子装置可确定用户可能发出用以接入所述电子装置的所述始终聆听功能性的语音触发。响应于此确定,所述电子装置可自动启用所述始终聆听功能性。类似地,所述电子装置可确定用户不再可能发出用以接入所述电子装置的所述始终聆听功能性的所述语音触发。响应于此第二确定,所述电子装置可自动停用所述始终聆听功能性。
Description
相关申请案的交叉参考
本申请案主张2016年4月25日提出申请的、标题为“支持准始终语音处理的智能聆听模式(SMART LISTENING MODES SUPPORTING QUASI ALWAYS-ON VOICE PROCESSING)”的第62/327,112号美国临时专利申请案的权益及优先权。本申请案的全部内容出于所有目的以其全文引用的方式并入本文中。
技术领域
本申请案涉及电子装置,明确地说涉及支持准始终聆听的智能聆听模式。
背景技术
现今可获得的许多电子装置均支持“始终聆听”,所述“始终聆听”涉及连续聆听特定唤醒词或短语(也称为语音触发)及接着将后续言语处理为自然语言接口的一部分。虽然此特征对于启用此类装置的免提命令及控制是有用的,但聆听及辨识语音触发的过程是需要显著电力量的计算上复杂的任务。因此,始终聆听对于其中电池容量相对受限的小形状因子电池供电式装置(例如,移动装置及随身装置)无法被使用达长时间周期。
一些移动装置制造商已尝试通过以下方式来解决此问题:仅在(例如)其装置连接到AC电力时(在苹果公司产品(Apple)的情形中)或在专用于此功能的特定应用程序放置于移动操作系统(OS)前台中时(在谷歌公司产品(Google)的情形中)允许始终聆听。关于这些限制因素的问题是:其会妨碍始终聆听在其中用户可能想要或需要利用此功能性的许多常见情景中的使用。举例来说,用户可能正带着以电池电力操作的其装置在健身房进行锻炼且可能想要使用始终聆听来请求回放特定歌曲。另一选择为,用户可能在开车时正主动地使用GPS应用程序(使得GPS应用程序在OS前台中)且可能想要使用始终聆听来请求其开车去的商店的营业时间。对于这些及许多其它类似情景,需要以更智能且灵活的方式来管理始终聆听的电力消耗的经改进技术。
发明内容
本发明提供用于支持电子装置上的准始终聆听的智能聆听模式。在一个实施例中,所述电子装置可确定用户可能发出用以接入所述电子装置的所述始终聆听功能性的语音触发。响应于此确定,所述电子装置可自动启用所述始终聆听功能性。类似地,所述电子装置可确定用户不再可能发出用以接入所述电子装置的所述始终聆听功能性的所述语音触发。响应于此第二确定,所述电子装置可自动停用所述始终聆听功能性。
参考说明书的其余部分及附图可实现对本文中所揭示的实施例的本质及优点的进一步理解。
附图说明
图1描绘根据一个实施例的系统环境的框图。
图2及3描绘根据一个实施例的用于实施基于机器学习的智能聆听模式的工作流程。
图4描绘根据一个实施例的用于实施基于事件的智能聆听模式的工作流程。
图5描绘根据一个实施例的计算装置/系统的框图。
具体实施方式
在以下说明中,出于阐释的目的,陈述了众多实例及细节以便提供对特定实施例的理解。然而,所属领域的技术人员将明白,某些实施例可在没有这些细节中的一些细节的情况下实践或可以对这些细节的修改或等效形式来实践。
1.概述
本发明的实施例针对于允许电子装置支持“准始终聆听”(即,由装置动态地且自主地启用及停用的始终聆听功能性)的智能聆听模式。更具体来说,利用这些智能聆听模式,电子装置可在其中装置确定用户正对着装置说话(或即将对着装置说话)的可能性相对较高的情景中自动启用(即,接通)装置的始终聆听功能性,且可在其中装置确定用户正对着装置说话(或即将对着装置说话)的可能性相对较低的情景中自动停用(即,关断)装置的始终聆听功能性。以此方式,电子装置可智能地控制其始终聆听行为以减小此特征所消耗的电力量,同时还确保在用户将最可能想要或需要使用所述特征时用户将可利用所述特征。
根据一组实施例,电子装置可实施第一智能聆听模式,所述第一智能聆听模式依靠对装置用户与装置及/或其始终聆听功能性的当前及过去交互作用的基于机器学习的分析而持续地确定在任何给定时间点是否应启用或停用所述功能性。此分析可考虑到若干不同因素,所述因素包含(但不限于):(1)当前一天中的时间及用户通常使用装置或其始终聆听功能性的过去一天中的时间;(2)装置的当前地理位置及用户通常使用装置或其始终聆听功能性的过去地理位置;(3)装置所感测到的当前环境状况及用户通常使用装置或其始终聆听功能性的过去环境状况;(4)装置的当前物理状态(例如,定向、加速度等)及用户通常使用装置或其始终聆听功能性的过去物理状态;及(5)装置的当前软件状态及用户通常使用装置或其始终聆听功能性的过去软件状态。
根据另一组实施例,电子装置可实施使用一或多个预编程或用户定义的“触发事件”的第二智能聆听模式。当电子装置确定已发生特定触发事件时,装置可自动将其始终聆听功能性接通达特定时间周期(例如,X秒或分钟),且接着一旦已经过所述时间间隔便自动关断所述功能性。此类触发事件的实例可包含(例如)特定应用程序的开启或关闭、通话的终止、装置的物理状态的改变、播放媒体文件(例如,歌曲、视频等)的起始等等。
根据又一组实施例,电子装置可实施第三智能聆听模式,所述第三智能聆听模式涉及:确定用户何时在物理上接近装置(即,“存在”),及在做出此确定后,即刻自动接通装置的始终聆听功能性。如果用户随后移动远离装置超过某一距离阈值(即,被视为不再存在),那么电子装置可自动关断始终聆听功能性并使所述始终聆听功能性保持为关断的直到装置再次确定用户存在为止。此基于存在的确定可以各种方式执行,例如经由检测用户所拥有/使用/携带的第二因素装置的存在而执行,或经由使用可确定用户与装置的相对位置的各种传感器而执行。
下文进一步详细描述本发明的前述及其它方面。
1.系统环境
图1描绘其中可实施本发明的实施例的实例性系统环境100。如所展示,系统环境100包含通信地耦合到音频输入/捕获装置104的电子装置102。在一组实施例中,电子装置102可为小形状因子的基于电池的装置,例如智能手机、平板计算机、智能手表等等。在其它实施例中,电子装置102可为较大的基于AC电力的装置或系统,例如智能扬声器、家庭自动化或安全系统、媒体流装置、智能电视、视频游戏控制台、公共信息亭、车载计算机系统等等。
音频输入/捕获装置104可为(例如)麦克风、录音机、耳机等等。在一些实施例中,音频输入/捕获装置104可并入到(即,整体地包含于)电子装置102中。在其它实施例中,音频输入/捕获装置104可独立于电子装置102且可经由外部连接机构(例如,点对点电缆或无线协议、局域网络或广域网络等)与装置102通信。
除电子装置102及音频输入/捕获装置104之外,系统环境100进一步包含始终聆听模块106,所述始终聆听模块可在电子装置102上运行(如图1中所展示)或在另一装置/系统(例如,基于云的服务器)上运行(未展示)。在操作中,始终聆听模块106可通过以下方式持续地聆听预定义语音触发的发出:接收经由音频输入/捕获装置104捕获的连续音频流并处理所述连续音频流(例如,使用短语辨别(phrase spotting)算法)以确定是否已说出语音触发。如果始终聆听模块106确定已说出语音触发,那么模块106可辨识并处理音频流中所包含的紧跟着语音触发的一或多个语音查询或命令。
如背景章节中所述,关于支持始终聆听的一个挑战是持续地聆听语音触发所需的处理是计算上昂贵的且因此需要显著量的电力。此使得难以或不可能在小形状因子电池供电式装置上使用始终聆听达长时间周期。此外,即使在较大的AC供电式装置的情形中,出于效率目的减小始终聆听的电力要求也将是较合意的。
为解决前述及其它类似问题,图1的电子装置102经增强以实施新颖“智能聆听”模块108。在高电平下,智能聆听模块108可基于其对以下内容的理解而调节始终聆听模块106的操作(即,动态地接通及关断模块106的功能性):电子装置102的用户是否可能正对着装置102说话(或即将对着装置102说话)以用于向始终聆听模块106提交语音命令/查询的目的。换句话说,智能聆听模块108可在其中确定用户正对着装置102说话(或即将对着装置102说话)的可能性较高的情形中自动接通始终聆听,且可在其中确定用户正对着装置102说话(或即将对着装置102说话)的可能性较低的情形中自动关断始终聆听。以此方式,智能聆听模块108可确保在用户想要/需要使用始终聆听模块106的功能性时用户可利用所述功能性,同时减小此特征所消耗的装置电力总量。
在一组实施例中,智能聆听模块108可通过以“基于机器学习的智能聆听模式”进行操作而执行上文所描述的功能,所述“基于机器学习的智能聆听模式”使用机器学习模型来确定用户说话概率。在另一组实施例中,智能聆听模块108可通过以“基于事件的智能聆听模式”进行操作而执行上文所描述的功能,所述“基于事件的智能聆听模式”基于一或多个触发事件的发生而确定用户说话概率。在又一组实施例中,智能聆听模块108可通过以“基于存在的智能聆听模式”进行操作而执行上文所描述的功能,所述“基于存在的智能聆听模式”基于用户与电子装置102的地理接近度而确定用户说话概率。以下章节中描述这些模式中的每一者的细节,所述模式可单独实施或以组合方式实施。
应了解,图1的系统环境100是说明性的且并不打算限制本发明的实施例。举例来说,图1中所展示的各种实体可根据不同配置而布置或可包含未明确描述的子组件或功能。所属领域的一般技术人员将认识到其它变化形式、修改形式及替代方案。
2.基于机器学习的智能聆听模式
当智能聆听模块108以基于机器学习的智能聆听模式进行操作时,模块108可创建并完善基于机器学习的模型,所述基于机器学习的模型输出在从用户的过去(即,历史)使用型式及行为捕获的各种装置状态及使用情景下用户是否正对着装置说话(或即将对着装置说话)的概率(即,“用户说话概率”)。智能聆听模块108接着可将基于机器学习的模型应用于用户的当前装置交互作用以持续地确定始终聆听模块106的功能性是应自动关断还是应自动接通。
图2及3描绘根据一实施例的分别用于实施模型创建及模型应用步骤的工作流程200及300。以工作流程200的框202开始,智能聆听模块108可首先创建经配置以在所有情况下均输出高用户说话概率的“基础”模型。此基础模型充当用于启用或停用始终聆听的保守基础智能水平,这是因为用户可能够经常地使用始终聆听。取决于所使用的机器学习技术,模块108执行此创建步骤的特定方式以及所述模型的实施方案细节将不同。举例来说,在一个实施例中,所述模型可为深度神经网络(DNN)。在另一实施例中,所述模型可为机器学习决策树。在又一实施例中,所述模型可为具有长短期记忆(LSTM)的递归神经网络。所属领域的一般技术人员将认识到可用于此目的的许多不同类型的机器学习技术。
在框204处,智能聆听模块108可与始终聆听模块106通信以监测被模块106所理解的语音触发的发出。在确定已发出始终聆听触发(指示用户希望提交语音命令/查询)(框206)后,智能聆听模块108可收集(经由电子装置102的软件及/或硬件传感器)关于装置102的状态、用户与装置102的交互作用及/或在语音触发发出时存在的其它状况的各种类型的信息(框208)。以此方式,智能聆听模块108可理解用户调用装置102的始终聆听功能性的特定情况。在框208处所收集的信息的类型可包含但不限于:一天中的时间、装置102的地理位置、装置102附近的环境状况(例如,光水平、环境噪声量等)、装置102的物理状态(例如,定向、加速度、移动速度等)及装置102的软件状态(例如,什么应用程序正开着或在前台等)。
一旦已收集前述信息,智能聆听模块108便可以如下方式更新/完善在框202处所创建的模型:在其中所收集信息中所捕获的状况不适用/不存在的情景中致使所述模型输出较低用户说话概率(框210)。举例来说,如果在框208处所收集的信息指示用户曾在旧金山于上午10时发出语音触发,那么智能聆听模块108可针对其中装置不在旧金山及/或其中当前时间并非上午的情景将模型更新为输出较低用户说话概率。最后,在框210的结尾处,智能聆听模块108可返回到框204以监测语音触发的进一步发出并适当地更新模型。
利用工作流程200,智能聆听模块108可有效地创建、完善及调适其基于机器学习的模型以学习用户最可能对着装置102说话以用于使用其始终聆听功能性的目的的情况。智能聆听模块108可在某一时间周期(例如,X天的训练周期)内持续执行工作流程200直到为学习用户的行为型式已收集充分量的信息为止。
现在转到图3的工作流程300,一旦已创建及完善基于机器学习的模型,智能聆听模块108便可周期性地收集关于当前状况及围绕用户与装置的持续交互作用的行为的信息(框302)。在框302处所收集的特定信息可与在图2的模型创建/更新工作流程期间所捕获的信息的类型一致,例如一天中的时间、地理装置位置、环境状况、物理装置状态及软件装置状态。
在框304处,智能聆听模块108可将所收集信息应用于其基于机器学习的模型,并借此针对当前时间点基于模型的输出而确定用户说话概率。智能聆听模块108接着可将用户说话概率与预定义概率阈值进行比较(框306)。
如果用户说话概率超过阈值,那么智能聆听模块108可自动启用装置102的始终聆听功能性(如果其尚未被启用的话)(框308)。相反地,如果用户说话概率等于或下降到低于阈值,那么智能聆听模块108可自动停用装置108的始终聆听功能性(如果其尚未被停用的话)(框310)。以此方式,模块108可基于模型对用户是否可能想要/需要现在使用此功能性的理解而动态地接通或关断此功能性。
最后,在框308或框310的结尾处,智能聆听模块108可返回到框302并在下一周期性间隔内重复所述工作流程。
3.基于事件的智能聆听模式
当智能聆听模块108以基于事件的智能聆听模式进行操作时,模块108可依靠预编程到电子装置102中(例如,由装置制造商或OS提供者)及/或由装置用户定义的一组“触发事件”。这些触发事件可包含但不限于:开始回放歌曲、结束回放歌曲、激活装置按钮、通话结束、装置的物理状态(例如,定向/速度/加速度等)改变等等。一般来说,触发事件可指示用户在短时间内将想要使用电子装置102的始终聆听功能性的高概率。因此,在检测到此事件的发生后,智能聆听模块108即刻可自动将始终聆听接通达特定时间周期(例如,X秒或Y分钟),且接着一旦已经过所述周期便自动关断始终聆听。
图4描绘根据一实施例的用于实施此基于事件的智能聆听模式的工作流程400。以框402开始,智能聆听模块108可检索电子装置102上所定义的触发事件列表。如先前所提及,触发事件可预编程到装置102中或可由装置用户定义。在一些情形中,一或多个触发事件可先被预编程,但随后由装置用户定制/调整。这些触发事件的实例包含(例如)与媒体回放有关的事件、与和电子装置102的硬件的交互作用有关的事件(例如,按钮激活、触摸手势等)、与时间或位置有关的事件、与环境状况有关的事件等等。
在框404处,智能聆听模块108可监测在框402处所检索的触发事件的发生。模块108执行此监测的特定方式可取决于每一触发事件的本质。举例来说,如果触发事件是硬件按钮激活,那么智能聆听模块108可轮询电子装置102的操作系统以确定此按钮激活的发生。另一选择为,如果触发事件是媒体文件的回放,那么智能聆听模块108可与电子装置102的媒体播放器组件通信以确定此回放的起始。
在框406及408处,智能聆听模块108可检测到已发生特定触发事件,且作为响应,可自动启用始终聆听达预配置时间间隔(例如,X秒、Y分钟等)。在一个实施例中,预配置时间间隔跨越所有触发事件可为相同的。在其它实施例中,预配置时间间隔可基于每个事件而定义。注意,当此间隔的持续时间增加时,电子装置102所消耗的电力量也将增加,但用户也将被赋予更长的时窗来提交语音命令/查询。
最后,在框410处,智能聆听模块108可在时间间隔结束时自动关断始终聆听且可返回到框404以监测进一步触发事件。
4.基于存在的智能聆听模式
当智能聆听模块108以基于存在的智能聆听模式进行操作时,模块108可基于用户与装置之间的相对距离而确定用户是否正对着电子装置102说话(或即将对着电子装置102说话)的可能性。因此,举例来说,如果用户进入电子装置102的某一阈值距离内,那么智能聆听模块108可推断存在高用户说话概率并自动接通始终聆听。另一方面,如果用户随后移动超出阈值距离,那么智能聆听模块108可推断存在低用户说话概率并自动关断始终聆听。
智能聆听模块108可以若干种不同方式检测用户的存在或不存在。举例来说,在一个实施例中,智能聆听模块108可监测已知为用户所拥有/用户所携带/与用户相关联的第二因素装置(例如基于蓝牙的安全软件保护器、智能手表、电话等等)的存在。在检测到存在此第二因素装置后,智能聆听模块108即刻可推断用户存在并启用始终聆听(如果其尚未被启用的话)。此外,在确定可不再能检测到第二因素装置后,智能聆听模块108即刻可推断用户已离开附近区域并可停用始终聆听(如果其尚未被停用的话)。
在另一实施例中,可使用一或多个第三方传感器用于此基于存在的分析。举例来说,智能聆听模块108可经配置以与家庭智能供电安全摄像机及/或其它存在感测装置中的运动检测器通信。基于此通信,智能聆听模块108可识别用户在(例如)家庭的特定房间内或在正经由传感器监测的某一其它位置。模块108接着可使用此信息来辅助进行对启用还是停用始终聆听的其基于存在的分析。在一些实施例中,基于存在的分析还可用作以上在章节(2)中所描述的基于机器学习的模型中的输入/因素。
5.实例性计算系统/装置
图5描绘其中可实施本发明的特定实施例的实例性计算系统/装置500。计算系统/装置500可用于实施图1中所描绘及本发明通篇中所描述的电子装置102。
如所展示,计算系统/装置500可包含经由总线子系统504与若干外围装置通信的一或多个处理器502。这些外围装置可包含存储子系统506(包括存储器子系统508及文件存储子系统510)、用户接口输入装置512、用户接口输出装置514及网络接口子系统516。
总线子系统504可提供用于使计算系统/装置500的各种组件及子系统按照预期彼此通信的机制。尽管总线子系统504被示意性地展示为单个总线,但总线子系统的替代实施例可利用多个总线。
网络接口子系统516可充当用于在计算系统/装置500与其它计算装置或网络之间传递数据的接口。网络接口子系统516的实施例可包含有线(例如,同轴、双绞线或光纤以太网)及/或无线(例如,Wi-Fi、蜂窝式、蓝牙等)接口。
用户接口输入装置512可包含键盘、指向装置(例如,鼠标、轨迹球、触摸垫等)、扫描仪、条形码扫描仪、并入到显示器中的触摸屏、音频输入装置(例如,语音辨识系统、麦克风等)及其它类型的输入装置。一般来说,术语“输入装置”的使用打算包含用于将信息输入到计算系统/装置500中的所有可能类型的装置及机构。
用户接口输出装置514可包含显示子系统、打印机、传真机或非视觉显示器(例如音频输出装置等)。所述显示子系统可为阴极射线管(CRT)、平板装置(例如液晶显示器(LCD))或投影装置。一般来说,术语“输出装置”的使用打算包含用于从计算系统/装置500输出信息的所有可能类型的装置及机构。
存储子系统506可包含存储器子系统508及文件/磁盘存储子系统510。子系统508及510表示可存储提供本文中所描述的各种实施例的功能性的程序代码及/或数据的非暂时性计算机可读存储媒体。
存储器子系统508可包含若干存储器,包含用于在程序执行期间存储指令及数据的主随机存取存储器(RAM)518及其中存储固定指令的只读存储器(ROM)520。文件存储子系统510可为程序及数据文件提供持久性(即,非易失性)存储且可包含磁性或固态硬盘驱动器、光学驱动器连同相关联可拆卸媒体(例如,CD-ROM、DVD、蓝光(Blu-Ray)等)、可拆卸的基于快闪存储器的驱动器或卡,及/或所属领域中已知的其它类型的存储媒体。
应了解,计算系统/装置500是说明性的且具有比计算系统/装置500多或少的组件的许多其它配置是可能的。
以上说明图解说明各种实施例以及可如何实施所述实施例的各方面的实例。以上实例及实施例不应被认为是仅有的实施例,且呈现其是为了图解说明由所附权利要求书所定义的本发明的灵活性及优点。举例来说,尽管已关于特定工艺流程及步骤描述了某些实施例,但所属领域的技术人员应明了,本发明的范围并不严格限于所描述的流程及步骤。被描述为顺序的若干步骤可并行执行,可改变若干步骤的次序,且可修改、组合、添加或省略若干步骤。作为另一实例,尽管已使用硬件与软件的特定组合描述了某些实施例,但应认识到,可存在硬件与软件的其它组合,且被描述为以软件实施的特定操作也可以硬件来实施,且反之亦然。
因此,应将本说明书及图式视为具有说明性意义而非限制性意义。所属领域的技术人员将明了且可采用其它布置、实施例、实施方案及等效形式,此并不背离所附权利要求书中所陈述的本发明的精神及范围。
Claims (24)
1.一种方法,其包括:
由电子装置确定用户可能发出用以接入所述电子装置的始终聆听功能性的语音触发;及
响应于所述确定,由所述电子装置启用所述始终聆听功能性。
2.根据权利要求1所述的方法,其进一步包括在所述启用之后:
确定所述用户不再可能发出用以接入所述电子装置的所述始终聆听功能性的所述语音触发;及
响应于确定所述用户不再可能发出所述语音触发,停用所述始终聆听功能性。
3.根据权利要求1所述的方法,其中使用基于机器学习的分析来执行所述确定,所述基于机器学习的分析使用所述用户与所述电子装置的过去交互作用的机器学习模型来确定所述用户是否可能发出所述语音触发的概率。
4.根据权利要求3所述的方法,其中所述基于机器学习的分析考虑到多种因素,所述因素包含一天中的时间、所述电子装置的地理位置、环境状况、装置物理状态及装置软件状态。
5.根据权利要求1所述的方法,其中通过检测预定义触发事件的发生而执行所述确定。
6.根据权利要求5所述的方法,其中如果检测到所述预定义触发事件,那么启用所述始终聆听功能性达预配置时间周期。
7.根据权利要求1所述的方法,其中通过确定所述用户在物理上接近于所述电子装置而执行所述确定。
8.根据权利要求7所述的方法,其中确定所述用户在物理上接近于所述电子装置包括:检测与所述用户相关联的第二因素装置的存在。
9.一种非暂时性计算机可读存储媒体,其上存储有可由电子装置执行的程序代码,所述程序代码致使所述电子装置:
确定用户可能发出用以接入所述电子装置的始终聆听功能性的语音触发;及
响应于所述确定,启用所述始终聆听功能性。
10.根据权利要求9所述的非暂时性计算机可读存储媒体,其中所述程序代码在所述启用之后进一步致使所述电子装置:
确定所述用户不再可能发出用以接入所述电子装置的所述始终聆听功能性的所述语音触发;及
响应于确定所述用户不再可能发出所述语音触发,停用所述始终聆听功能性。
11.根据权利要求9所述的非暂时性计算机可读存储媒体,其中使用基于机器学习的分析来执行所述确定,所述基于机器学习的分析使用所述用户与所述电子装置的过去交互作用的机器学习模型来确定所述用户是否可能发出所述语音触发的概率。
12.根据权利要求11所述的非暂时性计算机可读存储媒体,其中所述基于机器学习的分析考虑到多种因素,所述因素包含一天中的时间、所述电子装置的地理位置、环境状况、装置物理状态及装置软件状态。
13.根据权利要求9所述的非暂时性计算机可读存储媒体,其中通过检测预定义触发事件的发生而执行所述确定。
14.根据权利要求13所述的非暂时性计算机可读存储媒体,其中如果检测到所述预定义触发事件,那么启用所述始终聆听功能性达预配置时间周期。
15.根据权利要求9所述的非暂时性计算机可读存储媒体,其中通过确定所述用户在物理上接近于所述电子装置而执行所述确定。
16.根据权利要求15所述的非暂时性计算机可读存储媒体,其中确定所述用户在物理上接近于所述电子装置包括:检测与所述用户相关联的第二因素装置的存在。
17.一种电子装置,其包括:
处理器;及
非暂时性计算机可读媒体,其上存储有程序代码,所述程序代码在由所述处理器执行时致使所述处理器:
确定用户可能发出用以接入所述电子装置的始终聆听功能性的语音触发;及
响应于所述确定,启用所述始终聆听功能性。
18.根据权利要求17所述的电子装置,其中所述程序代码在所述启用之后进一步致使所述处理器:
确定所述用户不再可能发出用以接入所述电子装置的所述始终聆听功能性的所述语音触发;及
响应于确定所述用户不再可能发出所述语音触发,停用所述始终聆听功能性。
19.根据权利要求17所述的电子装置,其中使用基于机器学习的分析来执行所述确定,所述基于机器学习的分析使用所述用户与所述电子装置的过去交互作用的机器学习模型来确定所述用户是否可能发出所述语音触发的概率。
20.根据权利要求19所述的电子装置,其中所述基于机器学习的分析考虑到多种因素,所述因素包含一天中的时间、所述电子装置的地理位置、环境状况、装置物理状态及装置软件状态。
21.根据权利要求17所述的电子装置,其中通过检测预定义触发事件的发生而执行所述确定。
22.根据权利要求21所述的电子装置,其中如果检测到所述预定义触发事件,那么启用所述始终聆听功能性达预配置时间周期。
23.根据权利要求17所述的电子装置,其中通过确定所述用户在物理上接近于所述电子装置而执行所述确定。
24.根据权利要求23所述的电子装置,其中确定所述用户在物理上接近于所述电子装置包括:检测与所述用户相关联的第二因素装置的存在。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662327112P | 2016-04-25 | 2016-04-25 | |
US62/327,112 | 2016-04-25 | ||
US15/463,805 | 2017-03-20 | ||
US15/463,805 US10880833B2 (en) | 2016-04-25 | 2017-03-20 | Smart listening modes supporting quasi always-on listening |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107390851A true CN107390851A (zh) | 2017-11-24 |
Family
ID=60090552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710270086.3A Pending CN107390851A (zh) | 2016-04-25 | 2017-04-24 | 支持准始终聆听的智能聆听模式 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10880833B2 (zh) |
CN (1) | CN107390851A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110491384A (zh) * | 2019-08-29 | 2019-11-22 | 联想(北京)有限公司 | 一种语音数据处理方法及装置 |
CN111933140A (zh) * | 2020-08-27 | 2020-11-13 | 恒玄科技(上海)股份有限公司 | 检测耳机佩戴者的语音的方法、装置及存储介质 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10609475B2 (en) | 2014-12-05 | 2020-03-31 | Stages Llc | Active noise control and customized audio system |
US10945080B2 (en) | 2016-11-18 | 2021-03-09 | Stages Llc | Audio analysis and processing system |
KR102391683B1 (ko) * | 2017-04-24 | 2022-04-28 | 엘지전자 주식회사 | 오디오 장치 및 그 제어 방법 |
US10978061B2 (en) | 2018-03-09 | 2021-04-13 | International Business Machines Corporation | Voice command processing without a wake word |
US20190333506A1 (en) | 2018-04-30 | 2019-10-31 | Avnera Corporation | Personal interactive speaker device having audio recognition neural net processor architecture |
KR102040406B1 (ko) * | 2018-07-27 | 2019-11-05 | (주)휴맥스 | 스마트 디바이스 및 그 제어 방법 |
US11026051B2 (en) * | 2019-07-29 | 2021-06-01 | Apple Inc. | Wireless communication modes based on mobile device orientation |
US11418358B2 (en) | 2019-11-04 | 2022-08-16 | International Business Machines Corporation | Smart device active monitoring |
US11676574B2 (en) | 2020-09-04 | 2023-06-13 | International Business Machines Corporation | Duration based task monitoring of artificial intelligence voice response systems |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080117038A1 (en) * | 2002-11-08 | 2008-05-22 | Bose Corporation | Automobile Audio System |
CN102609091A (zh) * | 2012-02-10 | 2012-07-25 | 北京百纳信息技术有限公司 | 一种移动终端以及启动移动终端语音操作的方法 |
CN102918493A (zh) * | 2010-03-26 | 2013-02-06 | 谷歌公司 | 话音输入的预测性音频预录制 |
CN103282957A (zh) * | 2010-08-06 | 2013-09-04 | 谷歌公司 | 基于上下文自动监测话音输入 |
CN103581419A (zh) * | 2012-08-06 | 2014-02-12 | 百度在线网络技术(北京)有限公司 | 移动通信设备及其控制方法 |
CN103578474A (zh) * | 2013-10-25 | 2014-02-12 | 小米科技有限责任公司 | 一种语音控制方法、装置和设备 |
CN103905638A (zh) * | 2014-03-10 | 2014-07-02 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104144252A (zh) * | 2013-11-28 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种语音通信方法及移动终端 |
US20150039311A1 (en) * | 2013-07-31 | 2015-02-05 | Motorola Mobility Llc | Method and Apparatus for Evaluating Trigger Phrase Enrollment |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US20130054945A1 (en) * | 2011-08-24 | 2013-02-28 | Microsoft Corporation | Adaptive sensing for early booting of devices |
US9330257B2 (en) * | 2012-08-15 | 2016-05-03 | Qualcomm Incorporated | Adaptive observation of behavioral features on a mobile device |
US20140122078A1 (en) * | 2012-11-01 | 2014-05-01 | 3iLogic-Designs Private Limited | Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain |
DE102013001219B4 (de) * | 2013-01-25 | 2019-08-29 | Inodyn Newmedia Gmbh | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
WO2014124332A2 (en) * | 2013-02-07 | 2014-08-14 | Apple Inc. | Voice trigger for a digital assistant |
US9112984B2 (en) * | 2013-03-12 | 2015-08-18 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US11393461B2 (en) * | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
US20160037345A1 (en) * | 2013-03-15 | 2016-02-04 | Apple Inc. | Controlling access to protected functionality of a host device using a wireless device |
CN108762387B (zh) * | 2013-03-15 | 2019-09-20 | 苹果公司 | 使用无线设备来促进对特定于位置的信息的访问 |
WO2014143843A1 (en) * | 2013-03-15 | 2014-09-18 | Bodhi Technology Ventures Llc | Controlling wireless device access to host device functionality |
US9602963B2 (en) * | 2013-03-15 | 2017-03-21 | Apple Inc. | Facilitating access to location-specific information using wireless devices |
EP3008943A4 (en) * | 2013-06-11 | 2017-02-22 | Seven Networks, LLC | Optimizing keepalive and other background traffic in a wireless network |
US20150112690A1 (en) * | 2013-10-22 | 2015-04-23 | Nvidia Corporation | Low power always-on voice trigger architecture |
CN103570474A (zh) | 2013-11-11 | 2014-02-12 | 双赢集团有限公司 | 肥料 |
US10079019B2 (en) * | 2013-11-12 | 2018-09-18 | Apple Inc. | Always-on audio control for mobile device |
US20150170053A1 (en) * | 2013-12-13 | 2015-06-18 | Microsoft Corporation | Personalized machine learning models |
US9513703B2 (en) * | 2013-12-27 | 2016-12-06 | Intel Corporation | Gesture-based waking and control system for wearable devices |
US9519408B2 (en) * | 2013-12-31 | 2016-12-13 | Google Inc. | Systems and methods for guided user actions |
US10133332B2 (en) * | 2014-03-31 | 2018-11-20 | Intel Corporation | Location aware power management scheme for always-on-always-listen voice recognition system |
US9801058B2 (en) * | 2014-04-29 | 2017-10-24 | Tarik Tali | Method and system for authenticating an individual's geo-location via a communication network and applications using the same |
US10708778B2 (en) * | 2014-04-29 | 2020-07-07 | Taliware, Inc. | Method and system for authenticating an individual's geo-location via a communication network and applications using the same |
US10812900B2 (en) * | 2014-06-02 | 2020-10-20 | Invensense, Inc. | Smart sensor for always-on operation |
US20150350772A1 (en) * | 2014-06-02 | 2015-12-03 | Invensense, Inc. | Smart sensor for always-on operation |
US20160044394A1 (en) * | 2014-08-07 | 2016-02-11 | Nxp B.V. | Low-power environment monitoring and activation triggering for mobile devices through ultrasound echo analysis |
US9549273B2 (en) * | 2014-08-28 | 2017-01-17 | Qualcomm Incorporated | Selective enabling of a component by a microphone circuit |
US10789041B2 (en) * | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
US9812126B2 (en) * | 2014-11-28 | 2017-11-07 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
US10048934B2 (en) * | 2015-02-16 | 2018-08-14 | International Business Machines Corporation | Learning intended user actions |
US10346441B2 (en) * | 2015-06-05 | 2019-07-09 | Apple Inc. | Systems and methods for providing predictions to applications executing on a computing device |
US20160379105A1 (en) * | 2015-06-24 | 2016-12-29 | Microsoft Technology Licensing, Llc | Behavior recognition and automation using a mobile device |
US9622177B2 (en) * | 2015-08-06 | 2017-04-11 | Qualcomm Incorporated | Context aware system with multiple power consumption modes |
US9928398B2 (en) * | 2015-08-17 | 2018-03-27 | Invensense, Inc. | Always-on sensor device for human touch |
US9344436B1 (en) * | 2015-11-03 | 2016-05-17 | Fmr Llc | Proximity-based and user-based access control using wearable devices |
KR102558437B1 (ko) * | 2015-11-27 | 2023-07-24 | 삼성전자주식회사 | 질의 응답 처리 방법 및 이를 지원하는 전자 장치 |
US10089989B2 (en) * | 2015-12-07 | 2018-10-02 | Semiconductor Components Industries, Llc | Method and apparatus for a low power voice trigger device |
US9916832B2 (en) * | 2016-02-18 | 2018-03-13 | Sensory, Incorporated | Using combined audio and vision-based cues for voice command-and-control |
-
2017
- 2017-03-20 US US15/463,805 patent/US10880833B2/en active Active
- 2017-04-24 CN CN201710270086.3A patent/CN107390851A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080117038A1 (en) * | 2002-11-08 | 2008-05-22 | Bose Corporation | Automobile Audio System |
CN102918493A (zh) * | 2010-03-26 | 2013-02-06 | 谷歌公司 | 话音输入的预测性音频预录制 |
CN103282957A (zh) * | 2010-08-06 | 2013-09-04 | 谷歌公司 | 基于上下文自动监测话音输入 |
CN102609091A (zh) * | 2012-02-10 | 2012-07-25 | 北京百纳信息技术有限公司 | 一种移动终端以及启动移动终端语音操作的方法 |
CN103581419A (zh) * | 2012-08-06 | 2014-02-12 | 百度在线网络技术(北京)有限公司 | 移动通信设备及其控制方法 |
US20150039311A1 (en) * | 2013-07-31 | 2015-02-05 | Motorola Mobility Llc | Method and Apparatus for Evaluating Trigger Phrase Enrollment |
CN103578474A (zh) * | 2013-10-25 | 2014-02-12 | 小米科技有限责任公司 | 一种语音控制方法、装置和设备 |
CN104144252A (zh) * | 2013-11-28 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种语音通信方法及移动终端 |
CN103905638A (zh) * | 2014-03-10 | 2014-07-02 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110491384A (zh) * | 2019-08-29 | 2019-11-22 | 联想(北京)有限公司 | 一种语音数据处理方法及装置 |
CN110491384B (zh) * | 2019-08-29 | 2022-04-22 | 联想(北京)有限公司 | 一种语音数据处理方法及装置 |
CN111933140A (zh) * | 2020-08-27 | 2020-11-13 | 恒玄科技(上海)股份有限公司 | 检测耳机佩戴者的语音的方法、装置及存储介质 |
CN111933140B (zh) * | 2020-08-27 | 2023-11-03 | 恒玄科技(上海)股份有限公司 | 检测耳机佩戴者的语音的方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US10880833B2 (en) | 2020-12-29 |
US20170311261A1 (en) | 2017-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107390851A (zh) | 支持准始终聆听的智能聆听模式 | |
JP6335139B2 (ja) | 手動始点/終点指定及びトリガフレーズの必要性の低減 | |
CN103456306B (zh) | 用于在电子装置中执行语音命令的方法和设备 | |
TWI665584B (zh) | 語音控制系統及方法 | |
US11282519B2 (en) | Voice interaction method, device and computer readable storage medium | |
JP6466565B2 (ja) | 発語トリガを常時リッスンするための動的閾値 | |
CN109243431A (zh) | 一种处理方法、控制方法、识别方法及其装置和电子设备 | |
CN106471518B (zh) | 基于用户相关信号在两种电源状态之间的转换 | |
KR20170096774A (ko) | 전자기기의 사용자 행동기반 정황인식 작동모드 | |
CN109493849A (zh) | 语音唤醒方法、装置及电子设备 | |
US10854199B2 (en) | Communications with trigger phrases | |
CN107147792A (zh) | 一种自动配置音效的方法、装置、移动终端及存储装置 | |
CN111083678B (zh) | 蓝牙音箱的播放控制方法、系统及智能设备 | |
CN103677261A (zh) | 用户装置的情景感知服务提供方法和设备 | |
CN107180631A (zh) | 一种语音交互方法及装置 | |
CN102081501A (zh) | 提供用户快捷操作应用程序的方法、装置及移动终端 | |
CN105677004A (zh) | 一种终端的处理方法和终端 | |
CN106874057B (zh) | 一种信息录入方法及其设备 | |
CN107636541A (zh) | 用投射闹钟或闹钟加内容提示唤醒 | |
CN110096249A (zh) | 用于提示快捷唤醒词的方法、装置和系统 | |
CN104952219A (zh) | 一种基于智能器件寻找物品的方法及智能器件 | |
CN111862965A (zh) | 唤醒处理方法、装置、智能音箱及电子设备 | |
Yang et al. | An intelligent voice interaction system based on Raspberry Pi | |
CN103098449A (zh) | 用户设备,服务器和操作条件设定系统 | |
CN103853646A (zh) | 被叫提示系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171124 |
|
RJ01 | Rejection of invention patent application after publication |