CN107801413A

CN107801413A - 对电子设备进行控制的终端及其处理方法

Info

Publication number: CN107801413A
Application number: CN201680037105.1A
Authority: CN
Inventors: 秦超; 郜文美; 陈心
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-06-28
Filing date: 2016-06-28
Publication date: 2018-03-13
Anticipated expiration: 2036-06-28
Also published as: WO2018000200A1; CN107801413B; US20190258318A1

Abstract

本申请涉及通信领域，尤其涉及一种用于对电子设备进行控制的终端及其处理方法。终端通过检测手指或手臂方向来协助确定语音指令的执行对象，用户发出语音指令时，能够快速准确的确定语音指令的执行对象，而无需说出执行命令的设备，使得操作更符合用户习惯，而且响应更加迅速。

Description

对电子设备进行控制的终端及其处理方法

技术领域

本发明涉及通信领域，尤其涉及一种用于对电子设备进行控制的终端及其处理方法。

背景技术

随着科技的进步，电子设备所具有的智能化程度越来越高，利用声音对电子设备进行控制是当前电子设备向智能化发展的一个重要方向。

目前对电子设备进行声控的实现方式通常是建立在语音识别的基础上的，该实现方式具体为：电子设备对用户发出的声音进行语音识别，并根据语音识别结果来判断用户希望电子设备执行的语音指令，之后，电子设备通过自动执行该语音指令，实现了电子设备的声控。

然而，当用户所处的环境中存在多个电子设备时，类似的或者相同的语音指令可以被多个电子设备执行，例如用户家中存在智能电视、智能空调、智能电灯等多个智能电器时，如果用户的命令没有被正确地识别，用户意图之外的操作可能被其他电子设备错误执行，因此如何快速的确定语音指令的执行对象，是业界迫切需要解决的技术问题。

发明内容

针对上述技术问题，本发明的目的在于提供一种对电子设备进行控制的终端及其处理方法，通过检测手指或手臂方向来协助确定语音指令的执行对象，用户发出语音指令时，能够快速准确的确定语音指令的执行对象，而无需说出执行命令的设备，使得操作更符合用户习惯，而且响应更加迅速。

第一方面提供一种方法，应用于终端，所述方法包括：收到用户发出的未指明执行对象的一个语音指令；识别用户的手势动作，根据所述手势动作确定用户指向的目标，所述目标包括电子设备、电子设备上安装的应用程序或电子设备上安装的应用程序的功能界面中的操作选项；将所述语音指令转换为操作指令，所述操作指令可被所述电子设备执行；发送所述操作指令给所述电子设备。通过上述方法可以实现通过手势动作确定语音指令的执行对象。

在一个可能的设计中，收到用户发出的已指明执行对象的另一个语音指令；将所述另一个语音指令转换为可被所述执行对象执行的另一个操作指令；发送所述另一个操作指令给所述执行对象。当语音指令中已明确执行对象时，可以使该执行对象执行语音指令。

在一个可能的设计中，所述识别用户的手势动作，根据所述手势动作确定用户指向的目标，包括：识别用户伸出一根手指的动作，获取用户的主视眼在三维空间中的位置和所述手指的指尖在三维空间中的位置，确定连接所述主视眼和所述指尖的直线在所述三维空间中指向的目标。通过用户主视眼和手指尖的连线，可以准确确定用户指向的目标。

在一个可能的设计中，所述识别用户的手势动作，根据所述手势动作确定用户指向的目标，包括：识别用户抬起手臂的动作，确定手臂的延长线在三维空间中指向的目标。通过手臂的延长线，可以方便的确定用户指向的目标。

在一个可能的设计中，所述确定连接所述主视眼和所述指尖的直线在所述三维空间中指向的目标，包括：所述直线在三维空间中指向至少一个电子设备，提示用户选择其中的一个电子设备。当指向方向上存在多个电子设备时，用户可以选择其中一个执行语音指令。

在一个可能的设计中，所述确定手臂的延长线在三维空间中指向的目标，包括：所述延长线在三维空间中指向至少一个电子设备，提示用户选择其中的一个电子设备。当指向方向上存在多个电子设备时，用户可以选择其中一个执行语音指令。

在一个可能的设计中，所述终端为头戴式显示设备，在所述头戴式显示设备中突出显示用户指向的目标。使用头戴式设备可以通过增强现实模式提示用户已指向的目标，具有更好的提示效果。

在一个可能的设计中，所述语音指令用于支付，在发送所述操作指令给所述电子设备之前，检测所述用户的生物特征是否与已注册的用户生物特征匹配，可以提供支付安全性。

第二方面提供一种方法，应用于终端，所述方法包括：收到用户发出的未指明执行对象的一个语音指令；识别用户的手势动作，根据所述手势动作确定用户指向的电子设备，所述电子设备不能响应所述语音指令；将所述语音指令转换为操作指令，所述操作指令可被所述电子设备执行；发送所述操作指令给所述电子设备。通过上述方法可以实现通过手势动作确定执行语音指令的电子设备。

在一个可能的设计中，收到用户发出的已指明执行对象的另一个语音指令，所述执行对象为电子设备；将所述另一个语音指令转换为可被所述执行对象执行的另一个操作指令；发送所述另一个操作指令给所述执行对象。当语音指令中已明确执行对象时，可以使该执行对象执行语音指令。

在一个可能的设计中，所述识别用户的手势动作，根据所述手势动作确定用户指向的电子设备，包括：识别用户伸出一根手指的动作，获取用户的主视眼在三维空间中的位置和所述手指的指尖在三维空间中的位置，确定连接所述主视眼和所述指尖的直线在所述三维空间中指向的电子设备。通过用户主视眼和手指尖的连线，可以准确确定用户指向的电子设备。

在一个可能的设计中，所述识别用户的手势动作，根据所述手势动作确定用户指向的电子设备，包括：识别用户抬起手臂的动作，确定手臂的延长线在三维空间中指向的电子设备。通过手臂的延长线，可以方便的确定用户指向的电子设备。

在一个可能的设计中，所述确定连接所述主视眼和所述指尖的直线在所述三维空间中指向的电子设备，包括：所述直线在三维空间中指向至少一个电子设备，提示用户选择其中的一个电子设备。当指向方向上存在多个电子设备时，用户可以选择其中一个执行语音指令。

在一个可能的设计中，所述确定手臂的延长线在三维空间中指向的电子设备，包括：所述延长线在三维空间中指向至少一个电子设备，提示用户选择其中的一个电子设备。当指向方向上存在多个电子设备时，用户可以选择其中一个执行语音指令。

第三方面提供一种方法，应用于终端，所述方法包括：收到用户发出的未指明执行对象的一个语音指令；识别用户的手势动作，根据所述手势动作确定用户指向的对象，所述对象包括电子设备上安装的应用程序或电子设备上安装的应用程序的功能界面中的操作选项，所述电子设备不能响应所述语音指令；将所述语音指令转换为对象指令，所述对象指令包括用于标识所述对象的指示，所述对象指令可被所述电子设备执行；发送所述对象指令给所述电子设备。通过上述方法可以实现通过手势动作确定用户希望控制的应用程序或操作选项。

在一个可能的设计中，收到用户发出的已指明执行对象的另一个语音指令；将所述另一个语音指令转换为另一个对象指令；发送所述另一个对象指令给所述已指明执行对象所在的电子设备。当语音指令中已明确执行对象时，可以使该执行对象所在的电子设备执行语音指令。

在一个可能的设计中，所述识别用户的手势动作，根据所述手势动作确定用户指向的对象，包括：识别用户伸出一根手指的动作，获取用户的主视眼在三维空间中的位置和所述手指的指尖在三维空间中的位置，确定连接所述主视眼和所述指尖的直线在所述三维空间中指向的对象。通过用户主视眼和手指尖的连线，可以准确确定用户指向的对象。

在一个可能的设计中，所述识别用户的手势动作，根据所述手势动作确定用户指向的对象，包括：识别用户抬起手臂的动作，确定手臂的延长线在三维空间中指向的对象。通过手臂的延长线，可以方便的确定用户指向的对象。

在一个可能的设计中，所述终端为头戴式显示设备，在所述头戴式显示设备中突出显示用户指向的目标。使用头戴式设备可以通过增强现实模式提示用户已指向的对象，具有更好的提示效果。

第四方面提供一种终端，该终端包括用于执行第一至第三方面或第一至第三方面的任一种可能实现方式所提供的方法的单元。

第五方面提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当被终端执行时使所述终端执行第一至第三方面或第一至第三方面的任一种可能实现方式所提供的方法。

第六方面提供一种终端，所述终端可以包括：一个或多个处理器、存储器、显示器、总线系统、收发器以及一个或多个程序，所述处理器、所述存储器、所述显示器和所述收发器通过所述总线系统相连；

其中，所述一个或多个程序被存储在所述存储器中，所述一个或多个程序包括指令，所述指令当被所述终端执行时使所述终端第一至第三方面或第一至第三方面的任一种可能实现方式所提供的方法。

第七方面提供一种终端上的图形用户界面，所述终端包括存储器、多个应用程序、和用于执行存储在所述存储器中的一个或多个程序的一个或多个处理器，所述图形用户界面包括执行第一至第三方面或第一至第三方面的任一种可能实现方式所提供的方法显示的用户界面。

可选地，以下可能的设计可结合到本发明的上述第一方面至第七方面：

在一个可能的设计中，终端是悬挂或放置在三维空间内的主控设备，可以减轻用户佩戴头戴式显示设备的负担。

在一个可能的设计中，用户通过弯曲手指或伸出不同数量的手指来选择多个电子设备中的一个。通过识别用户进一步的手势动作，可以确定用户指向的目标是同一直线或延长线上的多个电子设备中的哪一个。

通过上述技术方案，可以实现快速准确的确定用户语音指令的执行对象。用户发出语音指令时，不必说出具体执行该命令的设备，与常规语音指令相比，响应时间可减少一半以上。

附图说明

图1为本发明的一种可能的应用场景示意图；

图2为本发明的透视显示系统的结构示意图；

图3为本发明的透视显示系统的框图；

图4为本发明的终端控制电子设备的方法流程图；

图5为本发明实施例提供的主视眼判断方法的流程图；

图6(a)和图6(b)为本发明实施例提供的根据第一手势动作判定语音指令执行对象的示意图；

图6(c)为根据第一手势动作判定执行对象时，用户看到的第一视角图像的示意图；

图7(a)为本发明实施例提供的根据第二手势动作判定语音指令执行对象的示意图；

图7(b)为根据第二手势动作判定执行对象时，用户看到的第一视角图像的示意图；

图8为本发明实施例提供的对电子设备上的多个应用进行控制的示意图；

图9为本发明实施例提供的对同一条直线上的多个电子设备进行控制的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

当本发明实施例提及“第一”、“第二”等序数词时，除非根据上下文其确实表达顺序之意，应当理解为仅仅起区分的作用。

本发明中描述的“电子设备”可以是被布置在室内各处的可通信设备，并且包括执行预设功能和附加功能的家电。例如，家电包括照明设备、电视、空调、电风扇、冰箱、插座、洗衣机、自动窗帘、用于安全的监控设备等等。“电子设备”也可以是包含个人数字助理(PDA)和/或便携式多媒体播放器(PMP)功能的便携式通信设备，诸如笔记本电脑、平板电脑、智能手机、车载显示器等。在本发明中，“电子设备”也被称为“智能设备”或“智能电子设备”。

透视显示系统，例如头戴式显示设备(HMD，Head-Mounted Display)或其他近眼显示设备可以用于向用户呈现背景场景的增强现实(AR，Augmented Reality)视图。此类增强的现实环境可以包括用户可经由用户输入(诸如，语音输入、姿势输入、眼睛跟踪输入、运动输入和/或任何其他合适的输入类型)与其交互的各种虚拟对象和真实对象。作为更加具体的示例，用户可以使用语音输入来执行与增强现实环境中所选对象相关联的命令。

图1示出了头戴式显示设备104(HMD104)的使用环境的示例实施例，其中环境100采用了客厅的形式。用户正在通过透视HMD104形式的增强现实计算设备查看客厅房间，并且可以经由HMD104的用户界面与增强的环境进行交互。图1还描绘了用户视野102，其包括通过HMD104可查看的部分环境，并且因此所述部分环境可用HMD104显示的图像来增强。增强环境可以包括多个显示对象，例如，显示对象为用户可以与其进行交互的智能设备。在图1所示的实施例中，增强环境中的显示对象包括电视设备111、照明设备112以及媒体播放器设备115。增强环境中的这些对象中的每一个可以被用户106选择，从而使用户106可以对所选对象执行动作。除了上述多个真实的显示对象之外，增强环境也可以包括多个虚拟对象，例如下面将要详细描述的设备标签110。在某些实施例中，用户视野102实质上可以与用户的实际视界具有相同范围，而在其它实施例中，用户视野102可以小于用户的实际视界。

如下面将要更详细描述的，HMD104可以包括一个或多个朝外的图像传感器(例如，RGB相机和/或深度相机)，其配置为在用户浏览环境时获取表示环境100的图像数据(例如，彩色/灰度图像、深度图像/点云图像等)。这种图像数据可被用于获取与环境布局(例如，三维表面图等)和其中包含的对象(诸如，书柜108、沙发114和媒体播放器设备115等)有关的信息。一个或多个朝外的图像传感器还用于对用户的手指和手臂进行定位。

HMD104可以将一个或多个虚拟图像或对象覆盖在用户视野102中的真实对象上。图1中描绘的示例虚拟对象包括在照明设备112附近显示的设备标签110，该设备标签110用于指示被成功识别的设备类型，用于提醒用户该设备已被成功识别，在本实施例中设备标签110显示的内容可为“智能灯”。可以三维显示虚拟图像或对象从而使得在用户视野102内的这些图像或对象对用户106看起来处于不同深度。HMD104所显示的虚拟对象可以只对用户106可见，并可以随用户106移动而移动，或者可以不管用户106如何移动都处于设定的位置。

增强现实用户界面的用户(例如，用户106)能够对增强现实环境中的真实对象和虚拟对象执行任何合适的动作。用户106能够以HMD104可检测的任何合适方式选择用于交互的对象，例如发出一个或多个可被麦克风检测到的语音指令。用户106还可以通过姿势输入或运动输入来选择交互对象。

在一些示例中，用户可以仅选择增强现实环境中的单个对象以便在该对象上执行动作。在一些示例中，用户可以选择增强现实环境中的多个对象以便在多个对象中的每个对象上执行动作。例如，用户106发出语音指令“减小音量”时，可以选择媒体播放器设备115和电视设备111以便执行命令来减小这两种设备的音量。

在选择多个对象同时执行动作之前，应当先识别用户发出的语音指令是否朝向特定对象，该识别方法的具体细节将在后续实施例中详细阐述。

根据本发明公开的透视显示系统可以采用任何合适的形式，包括但不限于诸如图1的头戴式显示设备104之类的近眼设备，例如，透视显示系统还可以是单眼设备或头戴式头盔结构等。下面参考图2-3来讨论透视显示系统300的更多细节。

图2示出了透视显示系统300的一个示例，而图3显示了显示系统300的框图。

如图3中所示，透视显示系统300包括通信单元310、输入单元320、输出单元330、处理器340、存储器350、接口单元360、以及电源单元370等。图3示出具有各种组件的透视显示系统300，但是应当理解的是，透视显示系统300的实现并不一定需要被图示的所有组件。可以通过更多或更少的组件来实现透视显示系统300。

在下文中，将会解释上面的组件中的每一个。

通信单元310通常包括一个或多个组件，该组件允许在透视显示系统300与增强环境中的多个显示对象之间进行无线通信，以传输命令和数据，该组件也可以允许在多个透视显示系统300之间进行通信、以及透视显示系统300与无线通信系统之间进行无线通信。例如，通信单元310可以包括无线因特网模块311和短程通信模块312中的至少一个。

无线因特网模块311为透视显示系统300接入无线因特网提供支持。在此，作为一种无线因特网技术，无线局域网(WLAN)、Wi-Fi、无线宽带(WiBro)、全球微波互联接入(WiMax)、高速下行链路分组接入(HSDPA)等可以被使用。

短程通信模块312是用于支持短程通信的模块。短程通信技术中的一些示例可以包括蓝牙(Bluetooth)、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂(ZigBee)、D2D(Device-to-Device)等。

通信单元310还可以包括GPS(全球定位系统)模块313，GPS模块从地球轨道上的多个GPS卫星(未示出)接收无线电波，并可以使用从GPS卫星到透视显示系统300的到达时间来计算透视显示系统300所处的位置。

输入单元320被配置为接收音频或者视频信号。输入单元320可以包括麦克风321、惯性测量单元(IMU)322和照相机323。

麦克风321可接收与用户106的语音指令相对应的声音和/或在透视显示系统300周围生成的环境声音，并且把接收到的声音信号处理成电语音数据。麦克风可使用各种噪声去除算法中的任何一种来去除在接收外部声音信号的同时生成的噪声。

惯性测量单元(IMU)322用于感测透视显示系统300的位置、方向和加速度(俯仰、滚转和偏航)，通过计算确定透视显示系统300与增强环境中的显示对象之间的相对位置关系。穿戴透视显示系统300的用户106在首次使用该系统时，可以输入与该用户眼睛相关的参数，例如瞳孔间距、瞳孔直径等。当透视显示系统300在环境100中的x、y和z位置确定后，通过计算可以确定穿戴透视显示系统300的用户106的眼睛所在的位置。惯性测量单元322(或IMU 322)包括惯性传感器，诸如三轴磁力计、三轴陀螺仪以及三轴加速度计。

照相机323在视频捕捉模式或者图像捕捉模式下处理通过图像捕捉装置获取的视频或者静止图画的图像数据，进而获取用户查看的背景场景和/或物理空间的图像信息，所述背景场景和/或物理空间的图像信息包括前述多个可与用户进行交互的显示对象。照相机323可选的包括深度相机和RGB相机(也称为彩色摄像机)。

其中深度相机用于捕捉上述背景场景和/或物理空间的深度图像信息序列，构建上述背景场景和/或物理空间的三维模型。深度相机还用于捕捉用户的手臂和手指的深度图像信息序列，确定用户的手臂和手指在上述背景场景和/或物理空间的位置、手臂和手指与显示对象之间的距离。深度图像信息可以使用任何合适的技术来获得，包括但不限于飞行时间、结构化光、以及立体图像。取决于用于深度传感的技术，深度相机可能需要附加的组件(例如，在深度相机检测红外结构化光图案的情况下，需要设置红外光发射器)，尽管这些附加的组件可能不一定与深度相机处于相同位置。

其中RGB相机(也称为彩色摄像机)用于在可见光频率处捕捉上述背景场景和/或物理空间的图像信息序列，RGB相机还用于在可见光频率处捕捉用户的手臂和手指的图像信息序列。

根据透视显示系统300的配置可以提供两个或者更多个深度相机和/或RGB相机。上述RGB相机可使用具有较宽视野的鱼眼镜头。

输出单元330被配置为以视觉、听觉和/或触觉方式提供输出(例如，音频信号、视频信号、报警信号、振动信号等)。输出单元330可以包括显示器331和音频输出模块332。

如在图2中所示的，显示器331包括透镜302和304，从而使增强环境图像可以经由透镜302和304(例如，经由透镜302上的投影、纳入透镜302中的波导系统，和/或任何其他合适方式)被显示。透镜302和304中的每一个可以充分透明以允许用户透过透镜进行观看。当图像经由投影方式被显示时，显示器331还可以包括未在图2中示出的微投影仪333，微投影仪333作为光波导镜片的输入光源，提供显示内容的光源。显示器331输出与透视显示系统300执行的功能有关的图像信号，例如对象已被正确识别、以及下面详述的手指已选中对象等。

音频输出模块332输出从通信单元310接收的或者存储在存储器350中的音频数据。另外，音频输出模块332输出与透视显示系统300执行的功能有关的声音信号，例如语音指令接收音或者通知音。音频输出模块332可包括扬声器、接收器或蜂鸣器。

处理器340可以控制透视显示系统300的整体操作，并且执行与增强现实显示、语音交互等相关联的控制和处理。处理器340可以接收并解释来自输入单元320的输入，执行语音识别处理，将通过麦克风321接收的语音指令与存储在存储器350中的语音指令进行对比，确定该语音指令的执行对象。当所述语音指令没有明确的执行对象时，处理器340还能够基于用户的手指/手臂的动作和位置，确定用户希望语音指令被执行的对象。当确定语音指令的执行对象后，处理器340还可以对所选择的对象执行动作或命令和其他任务等。

可以通过单独设置或包括在处理器340中的确定单元，来根据所述输入单元接收的手势动作确定用户指向的目标。

可以通过单独设置或包括在处理器340中的转换单元，将输入单元接收的语音指令转换为可被电子设备执行的操作指令。

可以通过单独设置或包括在处理器340中的通知单元，通知用户选择多个电子设备中的一个。

可以通过单独设置或包括在处理器340中的检测单元，对用户的生物特征进行检测。

存储器350可以存储由处理器340执行的处理和控制操作的软件程序，并且可以存储输入或输出的数据，例如用户手势含义、语音指令、指向判断结果、增强环境中的显示对象信息、前述背景场景和/或物理空间的三维模型等。而且，存储器350还可以存储与上述输出单元330的输出信号有关的数据。

使用任何类型的适当的存储介质可以实现上述存储器，该存储介质包含闪存型、硬盘型、微型多媒体卡、存储卡(例如，SD或者DX存储器等)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘、光盘等等。而且，头戴式显示设备104可以与因特网上的、执行存储器的存储功能的网络存储装置有关地操作。

接口单元360通常可以被实现为连接透视显示系统300和外部设备。接口单元360可以允许接收来自于外部设备的数据，将电力输送给透视显示系统300中的每个组件，或者将来自透视显示系统300的数据传输到外部设备。例如，接口单元360可以包括，有线/无线头戴式耳机端口、外部充电器端口、有线/无线数据端口、存储卡端口、音频输入/输出(I/O)端口、视频I/O端口等。

电源单元370用于向头戴式显示设备104的上述各个元件供应电力，以使得头戴式显示设备104能够操作。电源单元370可包括充电电池、电缆、或者电缆端口。电源单元370可布置在头戴式显示设备104框架上的各种位置。

本文描述的各种实施方式可以例如利用软件、硬件或其任何组合在计算机可读介质或其类似介质中实现。

对于硬件实现来说，通过使用被设计为执行在此描述的功能的专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、中央处理器(CPU)、通用处理器、微处理器、电子单元中的至少一个，可以实现在此描述的实施例。在一些情况下，可以通过处理器340本身实现此实施例。

对于软件实现，可以通过单独的软件模块来实现在此描述的诸如程序或者功能的实施例。每个软件模块可以执行在此描述的一个或者多个功能或者操作。

通过以任何适合的编程语言所编写的软件应用能够实现软件代码。软件代码可以被存储在存储器350中并且通过处理器340执行。

图4为本发明的终端控制电子设备的方法流程图。

在步骤S101中，收到用户发出的未指明执行对象的一个语音指令，未指明执行对象的一个语音指令可以为“开机”、“关机”、“暂停”、“增大音量”等。

在步骤S102中，识别用户的手势动作，根据所述手势动作确定用户指向的目标，所述目标包括电子设备、电子设备上安装的应用程序或电子设备上安装的应用程序的功能界面中的操作选项。

电子设备不能直接响应未指明执行对象的语音指令，或者，电子设备需要进一步确认才响应未指明执行对象的语音指令。

根据手势动作确定指向目标的具体方法将在下文中详细讨论。

步骤S101和步骤S102可以交换顺序，即先识别用户的手势动作，再接收用户发出的未指明执行对象的一个语音指令。

在步骤S103中，将所述语音指令转换为操作指令，所述操作指令可被所述电子设备执行。

电子设备可以为非声控设备，控制电子设备的终端将语音指令转换为非声控设备可以识别和执行的格式。电子设备可以为声控设备，控制电子设备的终端可以通过发送唤醒指令先对电子设备进行唤醒，然后将接收到的语音指令发送给电子设备。当电子设备为声控设备时，控制电子设备的终端还可以将接收到的语音指令转换为携带执行对象信息的操作指令。

在步骤S104中，发送所述操作指令给所述电子设备。

可选的，下述步骤S105-S106可以结合到上述步骤S101-S104。

在步骤S105中，收到用户发出的已指明执行对象的另一个语音指令。

在步骤S106中，将所述另一个语音指令转换为可被所述执行对象执行的另一个操作指令。

在步骤S107中，发送所述另一个操作指令给所述执行对象。

当语音指令中已明确执行对象时，可以将该语音指令转换为该执行对象可以执行的操作指令，使该执行对象执行该语音指令。

可选的，以下方面可以结合到上述步骤S101-S104。

可选的，识别用户的第一手势动作，根据所述手势动作确定用户指向的目标，包括：识别用户伸出一根手指的动作，获取用户的主视眼在三维空间中的位置和所述手指的指尖在三维空间中的位置，确定连接所述主视眼和所述指尖的直线在所述三维空间中指向的目标。

可选的，识别用户的第二手势动作，根据所述手势动作确定用户指向的目标，包括：识别用户抬起手臂的动作，确定手臂的延长线在三维空间中指向的目标。

下面以HMD104为例，说明通过终端控制电子设备的方法。

结合本发明的附图来讨论经HMD104的输入单元320检测用户输入的语音指令和手势动作的更多细节。

在详细说明如何检测语音指令并确定该语音指令的执行对象之前，首先介绍一些透视显示系统的基本操作。

当用户106穿戴着HMD104环顾四周时，通过HMD104对其使用环境100进行三维建模，并且获取环境100中的各智能设备所在的位置。具体来说，智能设备的位置获取可通过现有的同步定位与地图构建(英文全称：Simultaneous localization and mapping，缩写：SLAM)技术，以及本领域技术人员熟知的其他技术而实现。SLAM技术可以使HMD104从未知环境的未知地点出发，在运动过程中通过重复观测到的地图特征(比如，墙角，柱子等)定位自身位置和姿态，再根据自身位置增量式的构建地图，从而达到同时定位和地图构建的目的。已知使用SLAM技术的有微软的Kinect Fusion以及Google的Project Tango，两者采用类似的流程。在本发明中，通过上述的深度相机和RGB相机所获取的图像数据(例如，彩色/灰度图像、深度图像/点云图像)，以及惯性测量单元322辅助获取的HMD104的运动轨迹，计算得到多个可与用户进行交互的显示对象(智能设备)在背景场景和/或物理空间的相对位置、以及HMD104与所述显示对象之间的相对位置，然后对三维空间进行学习和建模，生成三维空间的模型。除了构建用户所在的上述背景场景和/或物理空间的三维模型之外，在本发明中，还通过本领域技术人员熟知的各种图像识别技术，来确定上述背景场景和/或物理空间中的智能设备的类型。如在上文中所述的，智能设备的类型被成功识别后，HMD104可以在用户视野102中显示相应的设备标签110，该设备标签110用于提醒用户该设备已被成功识别。

本发明下文所述的某些实施例中，需要定位用户眼睛所在的位置，通过眼睛位置协助判断用户希望语音指令被执行的对象。确定主视眼有利于HMD104适应不同用户的特点和操作习惯，使得用户指向的判断结果更准确。主视眼也叫注视眼、优势眼。从人的生理角度讲，每个人都有一个主视眼，可能是左眼，可能是右眼。主视眼所看到的东西会被大脑优先接受。

下面参考图5来讨论主视眼的判断方法。

如图5所示，在步骤501开始主视眼判断之前，需要先对环境100完成前述的三维建模动作。然后，在步骤502中，在预设位置显示一个目标对象，该目标对象可以显示在与HMD104连接的显示设备上，也可以在HMD104的显示器331上以AR方式显示。接着，在步骤503中，HMD104可以用语音方式或在显示器331上以文字/图形方式，提示用户做出手指指向目标对象的动作，该动作与用户指示执行语音指令对象的动作一致，用户的手指自然的指向目标对象。然后，在步骤504中，检测用户手臂带动手指前伸的动作，通过前述照相机323确定手指尖在三维空间中的位置。在步骤504中，用户也可以不必做出手臂带动手指前伸的动作，只要在用户看来，手指已指向目标对象即可，例如用户可以向身体方向弯曲手臂，使得指尖与目标对象位于一条直线上。最后，在步骤505中，从目标对象位置向手指尖位置做直线并反向延长，使该直线与眼睛所在平面相交，相交点即为主视眼位置，在后续的手势定位中，以主视眼位置作为眼睛的位置。所述相交点可能与用户的某一只眼睛重合，也可能与任意一只眼睛的位置均不重合，当所述相交点与眼睛不重合时，以该相交点作为等效的眼睛位置，以符合用户指向习惯。

上述的主视眼判断流程，对同一用户只进行一次即可，因为通常人的主视眼是不会变化的。HMD104可使用生物特征认证方式来区分不同的用户，将不同用户的主视眼数据保存在前述存储器350中，所述生物特征包括但不限于虹膜、声纹等。

用户106在首次使用HMD104时，还可以根据系统提示，输入与该用户眼睛相关的参数，例如瞳孔间距、瞳孔直径等。所述相关的参数同样可以保存在前述存储器350中。HMD104使用生物特征认证方式来识别不同用户，为每个用户分别建立用户档案，用户档案包括上述主视眼数据、以及上述眼睛相关的参数。当用户再次使用HMD104时，HMD104可以直接调用存储在前述存储器350中的用户档案而无需重复输入和再次进行主视眼的判断。

人在确定一个目标时，用手来指点是最直观快捷的手段，符合用户操作习惯。人确定指向目标时，从自己的角度，一般会确定眼睛与手指尖的延长线为指向的方向；在某些情况下，例如在非常清楚目标所在位置且当前正关注其他事物时，也有些人会伸直手臂，以手臂构成的直线为指向的方向。

下面，参考图6(a)-图6(c)示出的第一实施例，详细说明根据第一手势动作判定语音指令执行对象，从而控制智能设备的方法。

处理器340执行语音识别处理，将通过麦克风321接收的语音指令与存储在存储器350中的语音指令进行对比，确定该语音指令的执行对象。当所述语音指令没有明确的执行对象时，例如该语音指令为“开机”时，处理器340基于用户106的第一手势动作，确定用户106希望该语音指令“开机”被执行的对象。所述第一手势动作是抬起手臂，伸出食指指向前方，并向指向的方向伸出的组合动作。

当处理器340检测到用户做出上述第一手势动作后，首先，定位此时用户106的眼睛在空间中的位置，将用户的主视眼位置作为第一参考点。然后，通过前述照相机323定位此时食指指尖在三维空间中的位置，将用户的食指指尖位置作为第二参考点。接着，从第一参考点向第二参考点做射线，判断射线与空间中物体的交点，如图6(a)中所示，射线与照明设备112相交，将该照明设备112作为语音指令“开机”的执行设备，将语音指令转换为开机操作指令，发送开机操作指令给照明设备112。最后，照明设备112接收到开机操作指令，执行开机操作。

可选的，在环境100中的不同位置处可以设置多个属于同一种类的智能设备。如图6(b)中所示，环境100中包括两个照明设备112和113。可以理解，图6(b)中示出的照明设备的数量仅为举例，照明设备的数量可以大于两个。并且，在环境100中还可以包括多个电视设备111和/或多个媒体播放器设备115。用户可以通过使用上述第一手势动作指向不同的照明设备，来使不同的照明设备执行语音指令。

如图6(b)中所示的，从用户的主视眼位置向用户的食指指尖位置做射线，判断射线与空间中物体的交点，将两个照明设备中的照明设备112作为语音指令“开机”的执行设备。

在实际使用时，用户106通过显示器331看到的第一视角图像如图6(c)所示，圆圈501为用户指向的位置，在用户看来，手指指尖指向智能设备116。

前述照相机323定位食指指尖在三维空间中的位置，是通过深度相机采集的深度图像和RGB相机采集的RGB图像来共同确定的。

深度相机采集的深度图像可以用来确定用户是否做出抬起手臂和/或手臂前伸的动作，例如，在深度图中手臂向前伸出的距离超过一预设值时，判断用户做出了手臂前伸动作，该预设值可为10厘米。

下面，参考图7(a)和图7(b)示出的第二实施例，详细说明根据第二手势动作判定语音指令执行对象，从而控制智能设备的方法。

在第二实施例中不考虑眼睛的位置，仅根据手臂和/或手指的延长线确定用户指向的方向，并且在第二实施例中用户的第二手势动作与前述第一手势动作不同。

同样的，处理器340执行语音识别处理，当语音指令没有明确的执行对象时，例如该语音指令为“开机”时，处理器340基于用户106的第二手势动作，确定用户106希望该语音指令“开机”被执行的对象。所述第二手势动作是伸直手臂，伸出食指指向目标，并且手臂在最高位置停留的组合动作。

如图7(a)所示，当处理器340检测到用户做出上述第二手势动作后，将手臂和手指的延长线上的电视设备111作为语音指令“开机”的执行设备。

在实际使用时，用户106通过显示器331看到的第一视角图像如图7(b)所示，圆圈601为用户指向的位置，手臂和食指的延长线指向智能设备116。

在第二实施例中，通过深度相机采集的深度图像和RGB相机采集的RGB图像来共同确定手臂和手指在三维空间中的位置。

深度相机采集的深度图像用来确定手臂和手指形成的拟合直线在三维空间中的位置，例如，在深度图中手臂在最高位置停留的时间超过一预设值时，即可确定拟合直线的位置，该预设值可为0.5秒。

第二手势动作中伸直手臂并不要求用户的大臂和小臂完全成一直线，只要手臂和手指可确定一个方向，指向该方向上的智能设备即可。

可选的，用户也可以使用其他手势动作进行指向，例如大臂和小臂成一定角度，小臂和手指指向某一方向；或者手臂指向某一方向的同时，手指紧握成拳。

以上描述了根据第一/第二手势动作判定语音指令执行对象的过程，可以理解的是，在进行上述判定过程之前，需要首先完成前述的三维建模操作、以及完成用户档案创建或读取操作。在三维建模过程中，所述背景场景和/或物理空间中的智能设备被成功识别，并且在判定过程中，输入单元320处于监测状态，当用户106移动时，输入单元320实时确定环境100中的各智能设备所在的位置。

以上描述了根据第一/第二手势动作判定语音指令执行对象的过程，在上述判定过程中，先进行语音识别处理，然后进行手势动作的识别，可以理解的是，语音识别和手势识别的顺序可以交换，例如，处理器340可以先检测用户是否做出了第一/第二手势动作，在检测到用户做出了第一/第二手势动作之后，再启动识别语音指令是否有明确执行对象的操作。可选的，语音识别和手势识别也可以同步进行。

上文描述了语音指令没有明确执行对象的情况，可以理解的是，当语音指令有明确执行对象时，处理器340可以直接确定该语音指令的执行对象，也可以通过第一和第二实施例中的判定方法，检验处理器340识别的执行对象是否与用户手指的智能设备相同。例如，当语音指令为“在智能电视上显示天气预报”时，处理器340可以直接控制电视设备111显示天气预报，也可以通过输入单元320检测用户是否做出第一或第二手势动作，如用户做出第一或第二手势动作，则进一步基于第一或第二手势动作，判断用户食指指尖或手臂延长线是否指向电视设备111，以验证处理器340对语音指令的识别是否准确。

处理器340可以控制输入单元320的采样率，例如，在接收语音指令之前，照相机323和惯性测量单元322均为低采样率模式，在接收语音指令之后，照相机323和惯性测量单元322转为高采样率模式，由此，可以降低HMD104的功耗。

以上描述了根据第一/第二手势动作判定语音指令执行对象的过程，在上述判定过程中，可以通过增强现实或混合现实技术来提升用户的视觉体验。例如，在检测到上述第一/第二手势动作时，可以在三维空间中显示虚拟的延长线，帮助用户直观的看到手指指向哪个智能设备，虚拟延长线一端为用户手指，另一端为判定的用于执行语音指令的智能设备。当处理器340确定用于执行语音指令的智能设备后，可以突出显示确定时的指向线和与智能设备的交点，该交点可选的为前述的圆圈501。突出显示的方式可以是虚拟延长线颜色或粗细的变化，例如开始时延长线为较细的绿色，确定后延长线变为较粗的红色，并有从手指尖发送出去的动态效果。圆圈501可以放大显示，确定后可以呈圆环放大消失。

以上描述了通过HMD104判定语音指令执行对象的方法，可以理解的是，可以使用其他合适的终端执行以上判定方法。终端包括如前文所述的通信单元、输入单元、处理器、存储器和电源单元等。终端可以采用主控设备的形式，主控设备可以悬挂或放置在环境100中的合适位置，通过旋转来对周围环境进行三维建模，并实时跟踪用户的动作，检测用户的语音和手势动作。由于用户无需使用头戴式设备，因此可以减轻眼睛的负担。主控设备可以使用前述第一/第二手势动作判定语音指令的执行对象。

下面，参考图8示出的第三实施例，详细说明对智能设备内的多个应用进行语音手势控制的方法。

前述的第一和第二实施例已经描述了处理器340如何确定语音指令的执行设备，在此基础上，可以进一步使用语音和手势对该执行设备进行更多的操作。例如，在电视设备111接收到“开机”命令并执行开机操作以后，可以进一步根据用户的命令打开不同的应用，对电视设备111内多个应用进行操作的具体步骤如下，电视设备111可选的包括第一应用1101、第二应用1102和第三应用1103。

步骤801，对执行语音指令的智能设备进行识别，获取该设备的参数，所述参数至少包括该设备是否具有显示屏、显示屏的坐标取值范围等，该坐标取值范围还可以包括原点的位置和正方向。以电视设备111为例，其参数为具有矩形显示屏，坐标原点位于左下角，横坐标的取值范围为0～4096，纵坐标的取值范围为0～3072。

步骤802，HMD104通过照相机323获取的图像信息，确定电视设备111的显示屏在HMD104的视野102中的位置，并对确定电视设备111持续跟踪，实时检测用户106和电视设备111的相对位置关系，并且实时检测显示屏在视野102中的位置。在该步骤中，建立视野102与电视设备111显示屏之间的映射关系。例如，视野102的尺寸为5000x5000，显示屏左上角在视野102中的坐标为(1500,2000)，显示屏右下角在视野102中的左边为(3500,3500)，因此对于指定点，已知其在视野102中的坐标或在显示屏中的坐标时，可以转换为在显示屏中的坐标或在视野102中的坐标。当显示屏，不在视野102的正中位置时，或者显示屏与HMD104的视平面不平行时，因为透视原理，此时显示屏在视野102中呈现为梯形，此时检测梯形的四个顶点在视野102中的坐标，与显示屏的坐标建立映射关系。

步骤803，处理器340检测到用户做出上述第一或第二手势动作时，获取用户指向的位置即前述圆圈501在视野102中的坐标(X2，Y2)，通过步骤702中建立的映射关系，计算坐标(X2，Y2)在电视设备111的显示屏坐标系中的坐标(X1，Y1)，将该坐标(X1，Y1)发送给电视设备111，以便电视设备111根据该坐标(X1，Y1)确定要接收指令的应用或者应用内的选项，电视设备111也可以根据该坐标在其显示屏上显示特定标识。如图8所示，电视设备111根据坐标(X1，Y1)确定要接收指令的应用为第二应用1102。

步骤804，处理器340执行语音识别处理，将语音指令转换为操作指令并发送给电视设备111，电视设备111收到操作指令后，打开相应的应用执行操作。例如，第一应用1101和第二应用1102均是视频播放软件，当用户发出的语音指令为“播放电影XYZ”时，由于根据用户指向的位置确定要接收该语音指令“播放电影XYZ”的应用为第二应用1102，此时使用第二应用1102播放存储在电视设备111上的片名为“XYZ”的电影。

以上描述了对智能设备的多个应用1101-1103进行语音手势控制的方法，可选的，用户也可以对应用程序中的功能界面中的操作选项进行控制。例如，当使用第二应用1102播放片名为“XYZ”的电影时，用户指向音量控制操作选项说“增大”或“提高”，则HMD104对用户的指向和语音进行解析，发送操作指令给电视设备111，电视设备111的第二应用1102把音量提高。

以上第三实施例描述了对智能设备内的多个应用进行语音手势控制的方法，可选的，当接收到的语音指令用于支付，或当执行对象为网上银行、支付宝、淘宝等支付类应用时，可以通过进行生物特征识别来进行授权认证，提高支付安全性。授权认证的方式可以为检测用户的生物特征是否与已注册的用户生物特征匹配。

例如，电视设备111根据前述坐标(X1，Y1)确定要接收指令的应用为第三应用1103，第三应用1103为某在线购物应用，在检测到语音指令“打开”时，电视设备111打开第三应用1103。HMD104持续跟踪用户的手臂和手指指向，当检测到在第三应用1103的界面内，用户指向某个商品的图标并发出语音指令“买这个”时，HMD104发送指令给电视设备111，电视设备111确定该商品为购买对象，通过图形用户界面提示用户确认购买信息和进行支付。HMD104识别用户的语音输入信息，发送给电视设备111，将语音输入信息转化为文字，填写购买信息后，电视设备111进入支付步骤，向HMD104发送认证请求。HMD104接收到认证请求后，可提示用户身份认证的方法，比如可选择虹膜认证、声纹认证、或者指纹认证等，也可以默认使用上面认证方法中的至少一种，认证完成后得到认证结果。HMD104把身份认证结果加密发送给电视设备111，电视设备111根据收到的认证结果，完成支付动作。

下面，参考图9示出的第四实施例，详细说明对同一条直线上的多个智能设备进行语音手势控制的方法。

上文描述了根据第一/第二手势动作判定语音指令执行对象的过程，在某些情况下，空间中存在多个智能设备。此时从所述第一参考点向所述第二参考点做射线，所述射线与空间中多个智能设备相交。当根据第二手势动作进行判定时，由手臂和食指确定的延长线也与空间中多个智能设备相交。为了精确判定用户希望执行语音指令的是同一条直线上的哪个智能设备，有必要使用更精确的手势来加以区分。

如图9中所示，在环境100所示的客厅中具有照明设备112，在与所述客厅相邻的房间中具有第二照明设备117，从用户106当前的位置来看，第一照明设备112和第二照明设备117位于同一条直线上。当用户做出第一手势动作时，从用户的主视眼向食指指尖做出的射线依次与第一照明设备112和第二照明设备117相交。用户可以通过手势的细化，来区分同一直线上的多个设备，例如，用户可以伸出一个手指来表示要选择的是第一照明设备112，伸出两个手指来表示要选择的是第二照明设备117，以此类推。

除了使用不同的手指数量来表示选择哪个设备以外，还可以用弯曲手指或手臂的方法表示绕过特定的设备，以及手指每上抬一次则跳到延长线上的下一个设备。例如，用户可以弯曲食指表示选择该直线上的第二照明设备117。

在具体应用时，当处理器340检测到用户做出上述第一或第二手势动作后，根据三维建模结果确定用户指向的方向上是否存在多个智能设备。若该指向方向上的智能设备的数量大于1，则通过用户界面给出提示，提醒用户确认选择哪个智能设备。

在用户界面中给出提示的方式有多种方案，例如，在头戴式显示设备的显示器中通过增强现实或混合现实技术来进行提示，显示用户指向的方向上的所有智能设备，并将其中一个作为用户当前已选中的目标，用户可以发出语音指令进行选择，或者做出附加手势进行进一步的选择。所述附加手势可选的包括前文所述的不同手指数量或弯曲手指等。

可以理解的是，图9中第二照明设备117和第一照明设备112虽然处于不同的房间，但是图9所示的方法显然也可以用以区分在同一房间中的不同智能设备。

在前文所述的实施例中，描述了使用食指进行指向的动作，但是用户也可以使用其习惯的其他手指来进行指向，前文所述使用食指仅为举例说明，并不构成对手势动作的具体限定。

结合本发明公开内容所描述的方法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于用户设备中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

一种方法，应用于终端，其特征在于，所述方法包括：

收到用户发出的未指明执行对象的一个语音指令；

识别用户的手势动作，根据所述手势动作确定用户指向的目标，所述目标包括电子设备、电子设备上安装的应用程序或电子设备上安装的应用程序的功能界面中的操作选项；

将所述语音指令转换为操作指令，所述操作指令可被所述电子设备执行；

发送所述操作指令给所述电子设备。
如权利要求1所述的方法，其特征在于，还包括：

收到用户发出的已指明执行对象的另一个语音指令；

将所述另一个语音指令转换为可被所述执行对象执行的另一个操作指令；

发送所述另一个操作指令给所述执行对象。
如权利要求1或2所述的方法，其特征在于，所述识别用户的手势动作，根据所述手势动作确定用户指向的目标，包括：识别用户伸出一根手指的动作，获取用户的主视眼在三维空间中的位置和所述手指的指尖在三维空间中的位置，确定连接所述主视眼和所述指尖的直线在所述三维空间中指向的目标。
如权利要求1或2所述的方法，其特征在于，所述识别用户的手势动作，根据所述手势动作确定用户指向的目标，包括：识别用户抬起手臂的动作，确定手臂的延长线在三维空间中指向的目标。
如权利要求3所述的方法，其特征在于，所述确定连接所述主视眼和所述指尖的直线在所述三维空间中指向的目标，包括：所述直线在三维空间中指向至少一个电子设备，提示用户选择其中的一个电子设备。
如权利要求4所述的方法，其特征在于，所述确定手臂的延长线在三维空间中指向的目标，包括：所述延长线在三维空间中指向至少一个电子设备，提示用户选择其中的一个电子设备。
如权利要求1-6中任意一项所述的方法，其特征在于，所述终端为头戴式显示设备，在所述头戴式显示设备中突出显示用户指向的目标。
如权利要求1-7中任意一项所述的方法，其特征在于，还包括：所述语音指令用于支付，在发送所述操作指令给所述电子设备之前，检测所述用户的生物特征是否与已注册的用户生物特征匹配。
一种终端，其特征在于，包括：

输入单元，用于接收用户发出的未指明执行对象的一个语音指令，所述输入单元还用于接收用户的手势动作；

确定单元，用于根据所述输入单元接收的所述手势动作确定用户指向的目标，所述目标包括电子设备、电子设备上安装的应用程序或电子设备上安装的应用程序的功能界面中的操作选项；

转换单元，用于将所述语音指令转换为操作指令，所述操作指令可被所述电子设备执行；

通信单元，用于发送所述操作指令给所述电子设备。
如权利要求9所述的终端，其特征在于，包括：

所述输入单元，还用于接收用户发出的已指明执行对象的另一个语音指令；

所述转换单元，还用于将所述另一个语音指令转换为可被所述执行对象执行的另一个操作指令；

所述通信单元，还用于发送所述另一个操作指令给所述执行对象。
如权利要求9或10所述的终端，其特征在于，

所述输入单元接收用户伸出一根手指的动作，并获取用户的主视眼在三维空间中的位置和所述手指的指尖在三维空间中的位置；

所述确定单元根据用户伸出一根手指的动作，确定连接所述主视眼和所述指尖的直线在所述三维空间中指向的目标。
如权利要求9或10所述的终端，其特征在于，

所述输入单元接收用户抬起手臂的动作；

所述确定单元根据用户抬起手臂的动作，确定手臂的延长线在三维空间中指向的目标。
如权利要求11所述的终端，其特征在于，所述直线在三维空间中指向至少一个电子设备，所述终端还包括通知单元，用于通知用户选择所述直线指向的电子设备中的一个。
如权利要求12所述的终端，其特征在于，所述延长线在三维空间中指向至少一个电子设备，所述终端还包括通知单元，用于通知用户选择所述延长线指向的电子设备中的一个。
如权利要求9-14中任意一项中所述的终端，其特征在于，所述终端为头戴式显示设备，所述头戴式显示设备还包括显示单元，用于突出显示用户指向的目标。
如权利要求9-15中任意一项所述的终端，其特征在于，还包括检测单元，所述语音指令用于支付，在发送所述操作指令给所述电子设备之前，所述检测单元检测用户的生物特征是否与已注册的用户生物特征匹配。
一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当被包括终端执行时使所述终端执行如权利要求1-8中任意一项所述的方法，其中，所述终端包括输入单元、确定单元、转换单元和通信单元。
一种终端，包括一个或多个处理器、存储器、总线系统、收发器以及一个或多个程序，所述处理器、所述存储器和所述收发器通过所述总线系统相连；

其中，所述一个或多个程序被存储在所述存储器中，所述一个或多个程序包括指令，所述指令当被所述终端执行时使所述终端执行如权利要求1-8中任意一项所述的方法。
一种终端上的图形用户界面，所述终端包括存储器、多个应用程序、和用于执行存储在所述存储器中的一个或多个程序的一个或多个处理器，所述图形用户界面包括如权利要求1-8中任意一项所述的方法显示的用户界面。