CN105723448B

CN105723448B - 电子设备及其语音识别方法

Info

Publication number: CN105723448B
Application number: CN201480061513.1A
Authority: CN
Inventors: 权男暎; 柳熙涉; 朴劲美; 卜璨式; 崔赞熙
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-01-21
Filing date: 2014-12-18
Publication date: 2021-01-12
Anticipated expiration: 2034-12-18
Also published as: KR20150087025A; WO2015111845A1; US20240265919A1; EP4276819A3; EP4276819A2; EP3039673A1; US10304443B2; KR102210433B1; US20190244619A1; US11011172B2; EP3039673A4; US20150206529A1; US20210264914A1; US11984119B2; CN105723448A; CN112700774A

Abstract

提供一种电子设备及其语音识别方法。电子设备的语音识别方法包括：接收触发语音，通过分析触发语音存储触发语音的特性以进行语音验证。当用户发出语音命令时，确定用户语音命令是否包括属于触发语音的特性，并且基于所述确定来执行与用户语音命令相对应的电子设备的功能。因此，用户可以容易地使用电子设备的语音识别功能。

Description

电子设备及其语音识别方法

技术领域

根据示例性实施例的装置和方法涉及一种电子设备及其语音识别方法，更具体地，涉及一种用于使用触发语音执行语音识别的电子设备和方法。

背景技术

期望方便地使用电子设备。因此，已经不断开发了用于方便地控制电子设备的技术。用于方便地控制电子设备的技术开始于用于使用设置在电子设备上/附着于电子设备的输入单元控制电子设备的方法，并且已经发展到使用可以短距离地控制电子设备的遥控器控制电子设备的方法。随着包括具有触摸面板的显示器的电子设备的使用快速增长，已经越来越多地使用用于使用触摸输入来控制电子设备的技术。

然而，为了通过触摸控制电子设备，用户总是必须在手臂的长度距离内，以能够触摸电子设备。因此，用于在不使用外部设备(诸如遥控器)的情况下利用或不利用触摸屏在短距离处控制电子设备的需要日益增长。

因此，已经开发了语音识别技术。然而，由于语音识别技术容易被外部噪音(例如，宠物的声音、来自其他电子设备的噪音等)以及用户语音扰乱而导致语音识别技术效率低。因此，为了使用语音识别技术仅响应用户的语音，已经开发了一种按下设置在电子设备或遥控器上的按钮的方法，并且只要用户发出语音命令就使用该方法。

然而，因为每次用户发出语音命令时用户必须按下设置在电子设备或遥控器上的按钮，所以需要到电子遥控设备外壳的距离在手臂长度内仍然对用户不便。

因此，需要容易地使用即使当存在外部噪音时或当存在多个人且正在交流时也不被扰乱的语音识别功能。

发明内容

技术问题

示例性实施例克服上述缺点以及以上未描述的其他缺点。此外，实施例不需要克服以上描述的缺点，且示例性实施例可以不克服以上描述的任何问题。

不同的示例性实施例提供使得用户能够容易地使用语音识别功能的电子设备及其语音识别方法。

问题的解决方案

根据示例性实施例的一方面，一种电子设备的语音识别方法包括：接收用户语音输入，确定接收的用户语音是否是触发语音，将电子设备的操作模式改变为语音识别模式，分析接收的用户语音，并存储用户语音的至少一个特性，如果确定用户语音是触发语音，则接收语音命令输入，分析语音命令，将分析的语音命令的至少一个特性与存储的用户语音的至少一个特性进行比较，并基于比较结果执行与语音命令相对应的功能。

根据另一示例性实施例，所述存储包括存储以下中的至少一个：用户语音的能量、频率带宽、正输入用户语音时的混响时间(RT)或语音信号噪声比(SNR)。

根据另一示例性实施例，所述执行包括：如果语音命令的能量、频率带宽、正输入语音命令时的混响时间(RT)和语音信号噪声比(SNR)中的至少一个的分析数据在触发语音的能量、频率带宽、正输入触发语音时的RT和语音SNR中的至少一个的分析数据的预定范围内，则执行与语音命令相对应的功能。

根据另一示例性实施例，所述比较包括：如果输入多个用户语音，则分析所述多个用户语音，并从分析的所述多个用户语音之中，将分析的用户语音中的具有与存储的用户语音的至少一个特性匹配的至少一个特性的至少一个用户语音确定为语音命令，并且所述执行包括：执行与确定的语音命令相对应的功能。

根据另一示例性实施例，所述方法包括：如果分析的语音命令的至少一个特性不同于存储的用户语音的至少一个特性，则旁路掉语音命令。

根据另一示例性实施例，所述方法包括：如果确定用户语音是触发语音并且电子设备将其操作模式改变为语音识别模式，则显示对语音识别模式的激活加以指示的用户界面(UI)。

根据另一示例性实施例，所述显示包括：如果执行与语音命令相对应的功能，则在UI上显示指示语音命令的指示器。

根据另一示例性实施例，触发语音是设置为将电子设备的操作模式改变为语音识别模式以执行语音识别的预定语音。

根据另一示例性实施例，通过外部设备或电子设备中的至少一个中包括的麦克风接收用户语音和语音命令。

根据另一示例性实施例，所述方法包括：如果在预定时间段内没有输入语音命令，则结束语音识别模式。

根据另一示例性实施例，所述确定包括：如果用户语音是在按下外部设备上的按钮之后首先接收的语音，则确定接收的用户语音是触发语音。

根据示例性实施例的一方面，一种电子设备包括：语音接收器，被配置为接收用户语音；语音信号分析器，被配置为分析接收的用户语音；存储器，被配置为存储用户语音的至少一个特性；以及控制器，被配置为确定接收的用户语音是否是触发语音，如果确定接收的用户语音是触发语音，则将电子设备的操作模式改变为语音识别模式，分析接收的用户语音，并将用户语音的至少一个特性存储在存储器中，其中，如果输入用于控制电子设备的语音命令，则控制器还被配置为控制语音信号分析器分析语音命令，将分析的语音命令的至少一个特性与存储的用户语音的至少一个特性进行比较，并基于比较结果执行与语音命令相对应的功能。

根据另一示例性实施例，控制器还被配置为将用户语音的能量、频率带宽、正输入用户语音时的混响时间(RT)或语音信号噪声比(SNR)中的至少一个作为用户语音的所述至少一个特性存储在存储器中。

根据另一示例性实施例，如果语音命令的能量、频率带宽、正输入语音命令时的混响时间(RT)或语音信号噪声比(SNR)中的至少一个的分析数据在触发语音的能量、频率带宽、正输入触发语音时的RT和语音SNR中的至少一个的分析数据的预定范围内，则控制器执行与语音命令相对应的功能。

根据另一示例性实施例，当通过语音接收器输入多个用户语音时，控制器控制语音信号分析器分析所述多个用户语音，将所述多个用户语音中的具有与存储的用户语音的至少一个特性匹配的分析的至少一个特性的至少一个用户语音确定为语音命令，并执行与确定的语音命令相对应的功能。

根据另一示例性实施例，当分析的语音命令的至少一个特性不同于存储的用户语音的至少一个特性时，控制器旁路掉语音命令。

根据另一示例性实施例，所述电子设备还包括显示器，如果确定用户语音是触发语音并且电子设备将其操作模式改变为语音识别模式，则控制器控制显示器显示对语音识别模式的激活加以指示的用户界面(UI)。

根据另一示例性实施例，当执行与语音命令相对应的功能时，控制器控制显示器在UI上显示指示语音命令的指示器。

根据另一示例性实施例，所述电子设备还包括通信器，当通过外部设备接收到用户语音和语音命令时，控制器控制通信器接收用户语音和语音命令。

根据另一示例性实施例，当在预定时间段内没有输入语音命令时，控制器结束语音识别模式。

根据另一示例性实施例，控制器还被配置为：如果用户语音是在按下外部设备上的按钮之后首先接收的语音，则确定输入的用户语音是触发语音。

根据示例性实施例的一方面，一种电子设备的语音识别方法包括：接收第一语音输入，对接收的第一语音输入执行语音至文本识别以获得第一文本，确定第一文本是否与用于进入语音识别模式的命令相对应，并且如果确定第一文本与用于进入语音识别模式的命令相对应，则：进入语音识别模式，存储第一语音输入的第一特性，接收第二语音输入，通过将第二语音输入的第二特性与第一语音输入的第一特性进行比较来对第二语音输入执行语音验证，并且如果第二语音输入的第二特性与第一语音输入的第一特性相对应，则执行与第二语音输入相对应的功能。

根据另一示例性实施例，执行与第二语音输入相对应的功能包括：对接收的第二语音输入执行语音至文本识别以获得第二文本，确定第二文本是否与电子设备的功能相对应，并基于所述确定来执行所述功能。

根据另一示例性实施例，第一特性和第二特性包括用户语音的能量、频率带宽、正输入用户语音时的混响时间(RT)或语音信号噪声比(SNR)中的至少一个，作为用户语音的至少一个特性。

根据另一示例性实施例，如果第一语音输入的第一特性和第二语音输入的第二特性在预定范围内，则第二特性与第一特性相对应。

根据另一示例性实施例，所述方法还包括：如果在预定时间量内没有接收到第二语音输入，则退出语音识别模式。

根据另一示例性实施例，所述方法还包括：如果第二语音输入的第二特性与第一语音输入的第一特性不对应，则旁路掉第二语音输入。

发明的有益效果

根据多个示例性实施例，用户可以通过确定用户所说出的语音是否是有意的而容易地使用电子设备的语音识别功能。

在后面的描述中将部分地阐述附加和/或其他方面以及优点，这些附加和/或其他方面以及优点部分根据说明书是显而易见的，或者可以通过不同示例性实施例的实践而得以学习。

附图说明

通过参照附图描述特定示例性实施例，上述和/或其他方面将更加显然，在附图中：

图1示出了根据示例性实施例的用于将触发语音输入到电子设备的方法；

图2示出了根据示例性实施例的用于使用外部设备输入触发语音的方法；

图3是示出了根据示例性实施例的电子设备的实施例的框图；

图4是示出了根据示例性实施例的电子设备的另一实施例的框图；

图5是描述了根据示例性实施例的用于分析用户语音并执行语音识别的方法的流程图；

图6是描述了根据示例性实施例的用于分析用户语音，执行语音识别并完成语音识别过程的方法的流程图；以及

图7至图10示出了根据示例性实施例的经由语音识别控制的设备上显示的用户界面(UI)的不同示例。

具体实施方式

现在，将参照附图来更详细地描述特定示例性实施例。

在下面的描述中，即使在不同的附图中，相同的附图标记也用于相同的元件。提供在描述中定义的诸如详细结构和元件的内容以帮助全面理解。因此，显然的是，可以执行示例性实施例而不需要那些具体定义的内容。此外，由于公知的功能或构造会以不必要的细节而模糊实施例，没有对其进行详细地描述。

图1示出了根据示例性实施例的用于将触发语音输入到电子设备100的方法。在图1中，将电视用作电子设备100的实施例，但是电子设备100不限于此。本领域普通技术人员将理解，也可以使用多个不同电子设备(音乐系统、个人计算机、游戏系统等)。电子设备100可以使用具有语音识别功能的多种电子设备来实现，诸如移动电话、平板计算机、数码摄像机、摄录机、笔记本计算机和个人数字助理(PDA)。

电子设备100可以包括麦克风。因此，电子设备100可以在预定距离内从用户接收语音命令，分析接收的语音命令，并确定接收的语音命令是否是触发语音。触发语音是触发电子设备100的功能被激活的预定短词/短语，诸如“你好，电视”。

当确定接收的语音是触发语音时，电子设备100进入语音识别模式。另外，电子设备100存储记录在触发语音中的用户语音的特性。

更具体地，用户语音的特性可以包括用户语音条件和语音环境。用户语音条件可以包括用户语音的能量和用户语音的频带分布。语音环境可以包括发出语音命令时的混响时间(RT)或语音信号噪声比(SNR)。

也就是，用户语音的特性可以包括用户语音的能量、用户语音的频带分布、发出语音命令时的混响时间(RT)和/或语音信号噪声比(SNR)。

例如，当用户发出诸如“你好，电视”等语音命令时，用户语音的特性可以包括用户语音的能量、根据用户性别和/或年龄的用户语音的频带分布、根据电子设备100位置的用户语音的RT或者根据安静室内条件、存在工地、存在宠物或附近人数的语音SNR。

当输入了用户语音时，在将对触发语音的分析结果存储为用户语音的特性之后，电子设备100分析输入的用户语音，并确定输入的用户语音是否包括与属于存储的触发语音的存储的用户语音匹配的特性。也就是，电子设备100确定输入的用户语音的特性是否与属于存储的触发语音的存储的用户语音的存储特性相似。

另外，当确定输入的用户语音的特性与属于存储的触发语音的存储的用户语音的存储特性相似时，电子设备100对输入的用户语音执行语音识别。例如，当用户说出被存储为触发语音的“你好，电视”并且随后说出与属于触发语音的存储的用户语音具有相同特性的“频道13”时，电子设备100将频道改变到频道13。

图2示出了根据示例性实施例的用于使用外部设备/遥控器10输入触发语音的方法。

根据示例性实施例，为了便于电子设备100通过遥控器10接收用户语音并运行语音识别功能，用户按下遥控器10上的输入按钮20，并发出语音命令。此时，在按下输入按钮20之后首先接收的用户语音可以被存储为触发语音。也就是，即使当将诸如“你好，电视”等词语预先确定为触发语音时，在按下输入按钮20之后首先接收的用户语音也由于电子设备100接收到指示通过输入按钮20输入了语音的信号而变成触发语音。

因此，当用户按下输入按钮20并如图2的实施例中所示发出诸如“频道10”等语音命令时，电子设备100将“频道10”识别为触发语音。之后，电子设备100根据触发语音“频道10”进入语音识别模式，并执行语音识别。因此，电子设备100在图2所示的示例性实施例中改变到频道10。

相应地，用户可以通过发出触发语音命令容易地使用电子设备100的语音识别功能。稍后将描述用于使用电子设备100执行语音识别的具体方法。

图3是示出了根据示例性实施例的电子设备100的实施例的框图。参照图3，电子设备100可以包括语音接收器110、语音信号分析器120、存储器130和控制器140。电子设备100可以实现在具有语音识别功能的多种电子设备中，诸如平板计算机、数码摄像机、摄录机、笔记本计算机、PDA和移动电话。

语音接收器110接收用户语音。语音接收器110可以包括麦克风(未示出)，并通过麦克风接收用户语音。麦克风可以包括在电子设备100中或者可以是外部设备的一部分。例如，外部设备可以是遥控器。遥控器可以通过麦克风接收用户语音，并将用户语音发送到电子设备100的语音接收器110。

也就是，语音接收器110可以接收通过麦克风输入的用户语音，并将用户语音处理为电音频数据。另外，语音接收器110可以将处理的音频数据发送到语音信号分析器120。

语音信号分析器120分析从语音接收器110接收的语音。例如，根据示例性实施例，语音信号分析器120分析用户语音以获得用户语音的能量、频带分布或混响时间(RT)。

当接收用户语音时，还可能接收用户周围的噪声。因此，语音信号分析器120可以分析用户语音以获得用户语音信号噪声比(SNR)。

存储器130存储语音信号分析器120的多个分析结果。更具体地，存储器130可以存储分析的用户语音的特性，即，用户语音的能量、频带分布、用户语音的RT和/或用户语音SNR。

另外，存储器130存储用于驱动电子设备100的多个软件模块和数据。例如，根据示例性实施例，存储器130可以存储软件，其中包括语音识别模块、基础模块、感测模块、通信模块、呈现模块、web浏览器模块和服务模块。

控制器140控制电子设备100的整体操作。具体地，控制器140确定通过语音接收器110输入的用户语音是否是触发语音。

触发语音是用于将电子设备100的操作模式改变为语音识别模式以执行语音识别的语音。更具体地，触发语音是存储在电子设备100中的预定短词/短语。例如，电子设备100可以将“你好，电视”初始设置为触发语音。换言之，触发语音可以是预先确定的如上所述通过语音接收器110接收的用户语音，或者可以是在用户按下设置在电子设备100的外部设备(例如，遥控器)上的输入按钮之后首先输入的用户语音。

当控制器140确定输入语音是触发语音时，控制器140控制电子设备100进入语音识别模式。另外，控制器140控制语音信号分析器120分析触发语音，并控制存储器130存储用户语音的特性。

用户语音的特性可以包括用户语音的能量、频带分布、用户语音的RT或用户语音的SNR，作为语音信号分析器120的分析结果。

另外，当输入了语音命令来控制电子设备100时，控制器140控制语音信号分析器120分析语音命令。

控制器140将分析的语音命令的特性与存储在存储器130中的用户语音的特性进行比较。之后，控制器140基于比较结果控制电子设备100执行与语音命令相对应的功能。

更具体地，当通过分析经由语音接收器110输入的语音命令的能量、频率带宽、输入语音命令期间的RT或语音SNR中的至少一个所获得的数据在通过分析存储的触发语音的能量、频率带宽、RT中的至少一个所获得的数据的预定范围内且用户语音的语音SNR对应于触发语音时，控制器140控制电子设备100执行与语音命令相对应的功能。

另外，控制器140控制存储器130将由语音信号分析器120分析的用户语音的用户语音条件或用户语音环境存储为用户语音的特性。

控制器140在预定时间段之后完成语音识别模式。更具体地，在通过语音接收器110输入的用户语音是引起电子设备100进入语音识别模式的触发语音之后，如果在预定时间段期间没有输入语音命令，则控制器140完成语音识别模式，即，控制电子设备100退出语音识别模式。

另外，当由语音信号分析器120分析的语音命令的特性与存储在存储器130中的用户语音的特性不相似时，控制器140旁路掉语音命令。

参照图4，电子设备100可以包括语音接收器110、语音信号分析器120、存储器130、控制器140、图像接收器150、图像处理器160、显示器170、音频处理器180、音频输出器190、通信器200和输入器210。图4示出了电子设备100的实施例，其中，电子设备100是具有多种功能的设备，例如语音识别功能、通信功能、视频回放功能、显示功能等。根据示例性实施例，可以省略或改变图4中示出的一些组件，并且可以添加其他组件。

语音接收器110接收用户语音。语音接收器110可以包括麦克风(未示出)，并通过麦克风接收用户语音。麦克风可以包括在电子设备100或外部设备中。外部设备可以是遥控器。遥控器可以通过麦克风接收用户语音，并将用户语音发送到语音接收器110。

也就是，语音接收器110可以接收通过麦克风输入的用户语音，并可以将用户语音处理为电子音频数据。另外，语音接收器110可以将处理的音频数据发送到语音信号分析器120。

语音信号分析器120分析通过语音接收器110接收的语音。例如，语音信号分析器120分析用户语音以获得用户语音的能量、频带分布或混响时间(RT)。

存储器130存储语音信号分析器120的多个分析结果。更具体地，存储器130可以存储分析的用户语音的特性，即，用户语音的能量、频带分布、用户语音的RT或用户语音SNR。

另外，存储器130存储用于驱动电子设备100的多种软件模块和数据。例如，根据示例性实施例，存储器130可以存储软件，其中包括语音识别模块、基础模块、感测模块、通信模块、呈现模块、web浏览器模块和服务模块。

控制器140控制电子设备100的整体操作。具体地，控制器140确定通过语音接收器110输入的语音是否是触发语音。

触发语音是用于将电子设备100的操作模式改变为语音识别模式以执行语音识别的语音。更具体地，触发语音是存储在电子设备100中的预定短词/短语。例如，电子设备100可以将“你好，电视”初始设置为触发语音。换言之，触发语音可以是作为如上所述通过语音接收器110接收的预定词语/短语的用户语音，或者可以是在用户按下设置在电子设备100的外部设备(例如，遥控器)上的输入按钮之后首先输入的用户语音。

更具体地，如果存储在电子设备100中的所述预定词语/短语是“你好，电视”，则当通过麦克风输入了“你好，电视”时，控制器140将电子设备100的操作模式改变为语音识别模式，并控制语音信号分析器120分析输入的用户语音“你好，电视”。麦克风可以包括在电子设备100或电子设备100的外部设备(例如遥控器)中。另外，当输入了按下遥控器的输入按钮的用户命令并且随后首先输入了语音时，控制器140可以确定首先输入的语音是触发语音。

也就是，当控制器140确定输入的语音是预定的触发语音时，控制器140将电子设备100的操作模式改变为语音识别模式，控制语音信号分析器120分析触发语音，并控制存储器130存储用户语音的特性。例如，控制器140控制存储器130存储触发语音的分析结果，例如触发语音的能量、频率带宽、说出语音时的混响时间(RT)和/或语音信号噪声比(SNR)。

当在电子设备已进入语音识别模式之后通过语音接收器110输入了语音命令时，控制器140控制语音信号分析器120分析语音命令。语音命令可以包括用于控制电子设备100的功能的所有用户语音。另外，控制器140控制语音信号分析器120将具有多于预定能量的能量的用户语音识别为语音命令，并分析该用户语音。

例如，当在电子设备100已进入语音识别模式之后通过语音接收器110输入了控制语音“频道13”时，控制器140控制语音信号分析器120分析语音命令“频道13”的能量、频率带宽、输入语音命令时的RT和/或语音SNR。

根据示例性实施例，当关于控制语音“频道13”的能量、频率带宽、输入语音命令时的RT和/或语音SNR的分析结果在关于存储在存储器130中的触发语音的能量、频率带宽、输入触发语音时的RT和/或语音SNR的分析结果的预定范围内时，控制器140对语音命令执行语音识别，并将电子设备100改变到频道13。

另外，当用户按下外部设备的输入按钮并说出“频道13”时，控制器140确定“频道13”是触发语音。之后，控制器140基于前述方法分析“频道13”，将分析结果存储为用户语音的特性，并将电子设备100的操作模式改变为语音识别模式。另外，控制器140将电子设备100改变到频道13。

当在改变到频道13之后通过语音接收器110接收到语音命令“增大音量”时，控制器140使用语音信号分析器120分析接收到的语音命令，并确定分析结果是否在用户语音的特性的预定范围内。当分析结果在用户语音的特性的预定范围内时，控制器140执行语音识别并增大音量。

当在改变为语音识别模式之后接收到多个用户语音时，控制器140控制语音信号分析器120分析每个用户语音。另外，控制器140确定在这些用户语音之中具有与存储在存储器130中的用户语音的特性相似的分析结果的用户语音是语音命令。因此，控制器140根据确定的语音命令执行语音识别。

例如，如果第一用户、第二用户和第三用户正在电子设备100周围交流并且第一用户发出预定触发语音“你好，电视”，则语音接收器110接收第一用户的语音，控制器140将电子设备100的操作模式改变为语音识别模式，并控制语音信号分析器120分析第一用户的触发语音。

更具体地，语音信号分析器120可以分析第一用户语音的能量和频带分布。另外，语音信号分析器120可以分析输入第一用户语音时的RT和第一用户语音SNR。控制器140控制存储器130将第一用户的触发语音的分析结果存储为用户语音的特性。

当在存储了用户语音的特性之后第一用户、第二用户和第三用户分别说出“增大音量”、“完成”和“频道13”时，并且当语音接收器110接收到用户语音时，控制器140控制语音信号分析器120分析接收到的每个用户的语音。

语音信号分析器120分析每个用户的能量、频道分布、RT或SNR中的至少一个。另外，控制器140将关于每个用户语音的特性的分析结果与存储在存储器130中的用户语音的特性进行比较。电就是，控制器140确定由同一用户(第一用户)输入的“增大音量”语音的分析结果与存储在存储器130中的用户语音的特性最相似，并因此，根据由第一用户输入的语音命令“增大音量”来增大电子设备100的音量。

另外，控制器140旁路掉具有与存储在存储器130中的用户语音的特性不同的分析结果的第二用户语音和第三用户语音。因此，虽然电子设备100通过语音接收器110接收到“完成”和“频道13”，但是电子设备100不执行它们的对应功能。

当在执行了语音识别之后过去了预定时间段时，控制器140可以完成语音识别会话，即，控制电子设备100退出语音识别模式。换言之，根据示例性实施例，即使用户没有输入用于完成语音识别的命令，当在预定时间段期间没有通过语音接收器110接收到包括语音命令的任何用户语音时，控制器140也控制电子设备100完成语音识别会话。

另外，当由语音信号分析器120分析的语音命令的特性与存储在存储器130中的用户语音的特性不同时，控制器140旁路掉语音命令。

例如，控制器140控制语音信号分析器120分析被确定为触发语音的用户语音，并控制存储器130将用户语音的能量和语音SNR存储为用户语音的特性。

当在存储了用户语音的特性之后语音接收器110接收到语音命令时，控制器140确定由语音信号分析器120分析的语音命令的分析结果是否与存储在存储器130中的用户语音的特性相似。当确定语音命令的能量或语音SNR不同于存储在存储器130中的用户语音的特性时，控制器140旁路掉该语音命令，从而可以不根据如上所述的语音命令控制电子设备100。

图像接收器150通过多种源接收图像数据。例如，根据示例性实施例，图像接收器150可以从外部广播站接收广播数据，从外部服务器实时接收图像数据，或者接收存储在存储器130中的图像数据。

图像处理器160处理由图像接收器150接收的图像数据。根据示例性实施例，图像处理器160对图像数据执行多种图像处理，例如解码、缩放、噪声过滤、帧率转换和分辨率转换。

根据示例性实施例，显示器170显示来自图像接收器150接收的图像数据的由图像处理器160处理的视频帧以及由图形处理器143产生的多个屏幕中的至少一个屏幕。

具体地，显示器170可以显示指示语音识别模式的用户界面(UI)。例如，当“你好，但是”通过语音接收器110被输入，被语音信号分析器120分析，并因此被确定为触发语音时，显示器170显示如下UI，该UI指示已经识别出触发语音并且电子设备100已经进入语音识别模式。

更具体地，显示器170可以显示如图7所示的诸如“你可以按如下说”、“频道19”和“增大音量”的语音命令输入的示例。另外，显示器170可以显示诸如“你想说什么？”等短语，从而指示电子设备100准备接收语音命令。

另外，在语音识别模式下，当输入语音命令并且执行与语音命令相对应的功能时，显示器170可以在控制器140的控制下在UI上显示指示器。

更具体地，根据示例性实施例，在语音识别模式下，当语音命令通过语音接收器110被输入并且被语音信号分析器120分析时，显示器170可以在显示器170的一部分上显示预定颜色(例如，白色)，或者显示以预定颜色(例如，白色)闪烁的指示器，从而指示语音命令正被分析。本领域普通技术人员将理解，可以在UI上显示无限不同类型的指示器，以指示如上所述的信息。显示器170可以在UI上显示指示语音识别模式的多种类型的指示器。

例如，显示器170可以如图8所示在UI上显示麦克风形状的图标的指示器。另外，根据示例性实施例，为了指示语音正被识别，显示器170可以显示诸如“语音正被识别”等短语。

可以在显示器170的一部分上显示指示语音识别模式的UI。例如，根据示例性实施例，当输入了触发语音和语音命令时，显示器170可以继续显示内容，并如图9所示在显示器170的一部分上显示指示语音识别模式的UI。

此外，根据示例性实施例，当语音命令被输入且正被分析时，显示器170可以继续显示内容，并如图10所示在显示器170的一部分上的指示语音识别模式的UI上显示指示器。

音频处理器180处理音频数据。音频处理器180可以对音频数据执行诸如解码、放大和噪声过滤等多种处理。根据示例性实施例，由音频处理器180处理的音频数据可以输出到音频输出器190。

音频输出器190输出多种通知声音和语音消息以及由音频处理器180处理的多种音频数据。根据示例性实施例，音频输出器190可以用扬声器来实现。根据另一示例性实施例，音频输出器190可以用音频端来实现。

通信器200根据多种类型的通信方法来与多种类型的外部设备进行通信。根据不同示例性实施例，通信器200可以包括多种通信模块，例如通用串行总线(USB)模块、无线保真(Wi-Fi)模块、蓝牙模块、近场通信(NFC)模块和无线通信模块。Wi-Fi模块、蓝牙模块和NFC模块分别执行基于Wi-Fi方法、蓝牙方法和NFC方法的通信。NFC模块是基于NFC方法进行操作的芯片，NFC方法使用多种射频识别(RFID)频带(例如135kHz、13.56MHz、433MHz、860-960MHz和2.45GHz)之中的13.56MHz频带。在使用Wi-Fi模块或蓝牙模块的情况下，首先发送和接收诸如子系统标识(SSID)和会话密钥的多种连接信息，接着，可以发送和接收多个信息。

另外，当通过外部设备输入了用户语音或语音命令时，通信器200接收输入的语音。例如，当通过安装在遥控器中的麦克风输入了用户语音时，电子设备100通过通信器200接收输入的语音。

输入器210接收用户命令以控制电子设备100的总体操作。根据示例性实施例，输入器210可以用遥控器来实现，其中，遥控器包括用于上、下、左和右方向的四个方向键以及确认键。输入器210可以用多种输入设备来实现，例如触摸屏、鼠标、指向设备。

另外，如果输入器210是遥控器，则遥控器可以包括用于接收语音输入的输入按钮。用户按下遥控器上的输入按钮，并输入语音命令。另外，在按下输入按钮之后首先接收的用户语音可以被视为触发语音。

如图4所示，控制器140可以包括随机存取存储器(RAM)141、只读存储器(ROM)142、图形处理器143、主中央处理单元(CPU)144、第一到第n接口145-1到145-n以及总线146。根据示例性实施例，RAM 141、ROM 142、图形处理器143、主CPU 144以及第一到第n接口145-1到145-n可以经由总线146相互连接。

ROM 142可以存储引导系统的命令集。当输入开启命令并且供电时，主CPU 144将存储在存储器130中的操作系统(OS)复制到RAM 141并根据ROM 142中存储的命令执行OS使得能够启动系统。根据示例性实施例，当启动完成时，主CPU 144将存储在存储器130中的多个应用程序复制到RAM 141，并运行复制的应用程序，以便能够执行多种操作。

图形处理器143使用操作器(未示出)和呈现器(未示出)产生包括多种对象(例如，图标、图像和文本)的屏幕。根据示例性实施例，操作器使用从输入器210接收的控制命令，根据屏幕的布局，对每个对象的属性值(例如坐标值、形状、大小和颜色)进行操作。呈现器基于操作器所操作的属性值来产生包括对象的具有多种布局的屏幕。在显示器170的显示区域上显示由渲染器产生的屏幕。具体地，根据示例性实施例，图形处理器143产生如下UI，该UI指示触发语音被识别并且用户语音可以被接收。

主CPU 144访问存储器130，并使用存储器130中存储的OS启动系统。另外，根据示例性实施例，主CPU 144使用存储在存储器130中的多种程序、内容和数据执行多种操作。

根据示例性实施例，第一至第n接口145-1至145-n经由总线146连接到前述组件。

图5是描述了根据示例性实施例的用于分析用户语音并执行语音识别的方法的流程图。

首先，电子设备100接收用户语音(S500)。电子设备100可以通过包括在电子设备100中的麦克风或者通过包括在外部设备(诸如遥控器)中的麦克风来接收用户语音。

电子设备100确定接收的用户语音是否是触发语音(S510)。触发语音可以是用于将电子设备100的操作模式改变为语音识别模式以执行语音识别的语音。另外，触发语音可以是存储在电子设备100中的预定词语/短语，或者可以是具有由用户设置的预定长度的短语。例如，当“你好，电视”是被存储为触发语音的预定短语时，电子设备100确定接收的用户语音是否是“你好，电视”。当确定接收的用户语音是“你好，电视”时(S510-是)，电子设备100将其操作模式改变为语音识别模式(S520)。

另一方面，当通过诸如遥控器等外部设备接收到用户语音时，电子设备100识别在按下设置在外部设备上的输入按钮之后首先接收的用户语音是触发语音。例如，如果“你好，电视”是被存储为触发语音的预定短语，则当在按下外部设备上的输入按钮之后首先输入“频道13”时，电子设备100将“频道13”识别为触发语音。

如果确定接收的用户语音不是触发语音(S510-否)，则电子设备100不将其操作模式改变为语音识别模式，并且处理返回到步骤S500。

之后，电子设备100分析被确定为触发语音的用户语音，并存储用户语音的特性(S530)。更具体地，用户语音的特性可以包括用户语音条件和语音环境。用户语音条件可以包括用户语音的能量和用户语音的频带分布。语音环境可以包括正输入用户语音时的混响时间(RT)或语音信号噪声比(SNR)。也就是，用户语音的特性可以包括用户语音的能量、用户语音的频带分布、正输入用户语音时的混响时间(RT)或语音信号噪声比(SNR)。

如果输入了用于控制电子设备100的语音命令(S540-是)，则电子设备100分析语音命令，并将语音命令的特性与存储的用户语音的特性进行比较(S550)。语音命令可以包括用于控制电子设备100的功能的所有用户语音。另外，电子设备100可以将具有多于预定能量的能量的用户语音识别为语音命令，并分析该用户语音。

之后，电子设备100基于比较结果执行与语音命令相对应的功能(S560)。更具体地，当通过分析语音命令的能量、频率带宽、正输入语音命令时的RT和语音SNR中的至少一个所获得的数据在通过分析与触发语音相对应的用户语音的能量、频率带宽、正输入触发语音时的RT和语音SNR中的至少一个所获得的数据的预定范围内时，电子设备100执行与语音命令相对应的功能。

例如，如果输入的用户语音“你好，电视”被确定为触发语音，则电子设备100将其操作模式改变为语音识别模式，将“你好，电视”的能量和输入“你好，电视”时的RT存储为用户语音的特性，接着，电子设备100接收语音命令“频道13”。

电子设备100分析输入的语音命令“频道13”的能量和输入语音命令时的RT。当分析的数据在关于存储的与触发语音相对应的用户语音的特性的数据的10％的误差幅度内时，电子设备100可以确定发出触发语音的用户与发出语音命令的用户相同。另外，电子设备100可以确定输入的语音命令表示用户关于控制电子设备100的意图。因此，根据示例性实施例，电子设备100将频道改变到频道13。

用于比较数据的10％的误差幅度仅是示例性实施例。误差幅度可以根据初始设置或环境而改变。

另外，语音能量和RT仅是用户语音特性的示例。根据不同示例性实施例，根据用户或语音环境变化的任何值(例如频带分布、输入语音时的RT和语音SNR)可以被分析并被存储为用于识别用户语音的条件。

图6是描述了根据示例性实施例的用于分析用户语音，执行语音识别并完成语音识别过程的方法的流程图。

首先，电子设备100接收用户语音(S600)。电子设备100可以通过包括在电子设备100中的麦克风或者通过包括在外部设备(诸如遥控器)中的麦克风来接收用户语音。

电子设备100确定接收的用户语音是否是触发语音(S610)。触发语音可以是用于将电子设备100的操作模式改变为语音识别模式以执行语音识别的语音。另外，触发语音可以是存储在电子设备100中的预定词语/短语，或者可以是具有由用户设置的预定长度的短语。例如，当“你好，电视”是被存储为触发语音的预定短语时，电子设备100确定接收的用户语音输入是否是“你好，电视”。当确定接收的用户语音输入是你好，电视”时(S610-是)，电子设备100将其操作模式改变为语音识别模式(S620)。

如果确定接收的用户语音不是触发语音(S610-否)，则电子设备100不将其操作模式改变为语音识别模式，并且处理返回到步骤S600。

之后，电子设备100分析被确定为触发语音的用户语音，并存储用户语音的特性(S630)。更具体地，用户语音的特性可以包括用户语音条件和语音环境。用户语音条件可以包括用户语音的能量和用户语音的频带分布。语音环境可以包括被输入语音时的混响时间(RT)或语音信号噪声比(SNR)。也就是，用户语音的特性可以包括用户语音的能量、用户语音的频带分布、正输入语音时的混响时间(RT)或语音信号噪声比(SNR)。

当输入了用于控制电子设备100的语音命令时(S640-是)，则电子设备100分析语音命令，并将分析的语音的特性与用户语音的特性进行比较(S650)。语音命令可以包括用于控制电子设备100的功能的所有用户语音。另外，电子设备100可以将具有多于预定能量的能量的用户语音识别为语音命令，并分析用户语音。如果没有接收到用于控制电子设备100的语音命令(S640-否)，则电子设备100等待接收语音命令。

当分析的语音命令的特性在存储的用户语音特性的预定范围内时(S660-是)，电子设备100执行与语音命令相对应的功能(S670)。

当分析的语音命令的特性在存储的用户语音特性的预定范围之外时(S660-否)，电子设备100旁路掉语音命令(S680)。

例如，如果输入的用户语音“你好，电视”被确定为触发语音，则电子设备100将其操作模式改变为语音识别模式，将“你好，电视”的能量和输入“你好，电视”语音时的RT存储为用户语音的特性，并且电子设备100接收语音命令“频道13”。

电子设备100分析输入的语音命令“频道13”的能量和正输入该语音命令时的RT。根据示例性实施例，当分析的数据在关于存储的与触发语音相对应的用户语音的特性的数据的10％的误差幅度内时，电子设备100可以确定发出触发语音的用户与发出语音命令的用户相同。另外，电子设备100可以确定输入的语音命令与用户用于控制电子设备100的意图相对应。因此，电子设备100将频道改变到频道13。

然而，当通过分析输入的控制语音“频道13”的能量和正输入该语音命令时的RT所获得的数据在通过分析触发语音“你好，电视”的能量和正输入触发语音时的RT所获得的数据的10％的误差幅度之外时，电子设备100可以旁路掉输入的控制语音“频道13”。因此，电子设备100不改变频道。

用于比较数据的10％的误差幅度仅是示例性实施例，并不限于此。误差幅度可以根据初始设置或环境而改变。

另外，语音能量和RT仅是用户语音特性的示例。根据用户或语音环境变化的任何值(例如频带分布、正输入语音时的RT和语音SNR)可以被分析并被存储为用于识别用户语音的条件。

在过去预定时间段之后(S690-是)，电子设备100通过结束语音识别模式而完成语音识别会话(S700)。也就是，当在执行了与之前语音命令相对应的功能之后在预定时间段期间没有输入其他语音命令时，电子设备100自动结束语音识别模式，而无需输入用于完成语音识别模式的用户命令。因此，在语音识别模式已经结束并且电子设备100已经结束语音识别会话之后，电子设备100不响应用户语音输入，直到用户语音被确定为触发语音为止。

然而，如果没有过去预定时间量(S690-否)，则确定用户是否已经发出另一语音命令(S695)。如果用户发出了语音命令，则处理进行到步骤S650，在步骤S650，分析语音命令，并将其特性与存储的用户语音的特性进行比较，接着，进行上述其他处理。然而，如果没有发出语音命令，则处理再次进行到步骤S690，在步骤S690，确定是否经过了预定时间量。

根据前述语音识别方法，用户可以通过在没有单独操纵/输入的情况下发出语音命令，容易地、无误地控制电子设备100的功能。

根据上述多个示例性实施例的电子设备100的语音识别方法可以被编码为软件并且被存储在非暂时性计算机可读介质中。非暂时性计算机可读介质可以安装在多种不同类型的设备中。

例如，可以将用于进行以下操作的程序代码存储在非暂时性计算机可读介质中：当输入用户语音时确定输入的用户语音是否是触发语音，当确定输入的用户语音是触发语音时将电子设备的操作模式改变为语音识别模式，分析用户语音，并存储用户语音的特性，以及当输入用于控制电子设备的语音命令时，分析语音命令，将分析的语音命令的特性与存储的用户语音的特性进行比较，并基于比较结果执行与语音命令相对应的功能。

非暂时性计算机可读介质是可以半永久地存储数据的介质而不是诸如寄存器、高速缓存和存储器之类临时存储数据的介质，并且可以由设备读取。更具体地，非暂时性计算机可读介质可以是紧凑盘(CD)、数字视频盘(DVD)、硬盘、蓝光盘、通用串行总线(USB)、记忆卡和只读存储器(ROM)。

上述示例性实施例和优点仅是示例并不应视为限制。本发明的教导易于应用于其他类型的设备。此外，示例性实施例的描述意在说明性的，而不是限制权利要求的范围，并且本领域技术人员将清楚多种替代、改进和变化。

Claims

1.一种电子设备的语音识别方法，所述方法包括：

基于用户语音被输入到所述电子设备的麦克风，识别所述用户语音是否对应于触发语音，基于识别到所述用户语音对应于所述触发语音，将所述电子设备的模式设置为语音识别模式，并且显示对所述电子设备在语音识别模式下加以指示的用户界面UI；以及

基于从外部设备接收到用户语音，即使从所述外部设备接收到的用户语音与所述触发语音不对应，也将所述电子设备的操作模式设置为语音识别模式，并且显示对在语音识别模式下处理所述用户语音加以指示的UI，

其中，从所述外部设备接收到的用户语音是在按压所述外部设备的按钮之后输入到所述外部设备的麦克风的用户语音。

2.根据权利要求1所述的方法，还包括：当基于被输入到所述电子设备的麦克风的用户语音所述电子设备操作在语音识别模式下时，执行与输入到所述电子设备的麦克风的后续用户语音相对应的功能；以及

当基于从所述外部设备接收到的用户语音所述电子设备操作在语音识别模式下时，执行与从所述外部设备接收到的用户语音相对应的功能。

3.根据权利要求1所述的方法，还包括：

基于从所述外部设备接收到用户语音，将所述电子设备的模式设置为语音识别模式，而不识别所述用户语音是否对应于所述触发语音。

4.根据权利要求1所述的方法，还包括：

基于在显示器上显示内容的同时与所述触发语音相对应的用户语音被输入到所述电子设备的麦克风，在所述显示器的第一区域中显示对所述电子设备在语音识别模式下加以指示的用户界面UI，并且在所述显示器的第二区域中显示所述内容。

5.根据权利要求4所述的方法，其中，基于后续用户语音被输入到所述电子设备的所述麦克风，在所述显示器的第二区域中显示内容的同时在所述显示器的第一区域中显示对正处理所述后续用户语音加以指示的UI。

6.根据权利要求1所述的方法，其中，基于在与所述触发语音相对应的用户语音被输入到所述电子设备的麦克风之后预定时间段内后续用户语音没有被输入到所述电子设备的麦克风，终止所述语音识别模式。

7.根据权利要求1所述的方法，其中，基于所述外部设备的所述按钮被按压，接收按压所述按钮由所述外部设备产生的信号，

基于接收到所述信号，将所述电子设备的模式设置为语音识别模式，并且

基于从所述外部设备接收到所述用户语音，执行与从所述外部设备接收到的用户语音相对应的功能，而无需识别所述用户语音是否与所述触发语音相对应。

8.根据权利要求1所述的方法，其中，从所述外部设备接收到的所述用户语音是在自所述外部设备的所述按钮被按压时预定时间内输入到所述外部设备的所述麦克风的用户语音。

9.一种电子设备，包括：

麦克风；

通信器；以及

处理器，被配置为：

基于用户语音被输入到所述麦克风，识别所述用户语音是否对应于触发语音，基于识别到所述用户语音对应于所述触发语音，将所述电子设备的模式设置为语音识别模式，并且控制显示对所述电子设备在语音识别模式下加以指示的用户界面UI；以及

基于通过所述通信器从外部设备接收到用户语音，即使从所述外部设备接收到的用户语音与所述触发语音不对应，也将所述电子设备的操作模式设置为语音识别模式，并且控制显示对在语音识别模式下处理所述用户语音加以指示的UI，

10.根据权利要求9所述的电子设备，其中，所述处理器还被配置为：

当基于被输入到所述电子设备的麦克风的用户语音所述电子设备操作在语音识别模式下时，执行与输入到所述电子设备的麦克风的后续用户语音相对应的功能；以及

11.根据权利要求9所述的电子设备，其中，所述处理器还被配置为：

12.根据权利要求9所述的电子设备，还包括：

显示器，

其中，所述处理器还被配置为：

基于在所述显示器上显示内容的同时与所述触发语音相对应的用户语音被输入到所述电子设备的麦克风，控制所述显示器在所述显示器的第一区域中显示对所述电子设备在语音识别模式下加以指示的用户界面UI，并且在所述显示器的第二区域中显示所述内容。

13.根据权利要求12所述的电子设备，其中，基于后续用户语音被输入到所述电子设备的所述麦克风，控制所述显示器在所述显示器的第二区域中显示内容的同时在所述显示器的第一区域中显示对正处理所述后续用户语音加以指示的UI。

14.根据权利要求9所述的电子设备，其中，基于在与所述触发语音相对应的用户语音被输入到所述电子设备的麦克风之后预定时间段内后续用户语音没有被输入到所述电子设备的麦克风，终止所述语音识别模式。

15.根据权利要求9所述的电子设备，其中，所述处理器还被配置为：

基于所述外部设备的所述按钮被按压，通过所述通信器接收按压所述按钮由所述外部设备产生的信号，

基于通过所述通信器从所述外部设备接收到所述用户语音，执行与从所述外部设备接收到的用户语音相对应的功能，而无需识别所述用户语音是否与所述触发语音相对应。

16.根据权利要求9所述的电子设备，其中，从所述外部设备接收到的所述用户语音是在自所述外部设备的所述按钮被按压时预定时间内输入到所述外部设备的所述麦克风的用户语音。

17.一种非暂时计算机可读记录介质，存储用于使用电子设备执行语音识别方法的程序，其中，所述电子设备的语音识别方法包括：