CN110457105A

CN110457105A - 界面操作方法、装置、设备及存储介质

Info

Publication number: CN110457105A
Application number: CN201910726266.7A
Authority: CN
Inventors: 徐广庆
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2019-11-15
Anticipated expiration: 2039-08-07
Also published as: CN110457105B

Abstract

本申请实施例提供了一种界面操作方法、装置、设备及存储介质；方法包括：按照预设编码规则，对电子设备上当前界面的可操作元素进行编码，得到所述可操作元素的标识；将所述可操作元素的标识显示在与所述可操作元素对应的位置；识别包括所述可操作元素的标识的语音指令；响应所述语音指令，对所述当前界面执行对应操作。通过本申请，能够提高软件兼容性，并可以降低用户操作难度和用户学习成本，使得语音控制过程简单易学，提高用户体验。

Description

界面操作方法、装置、设备及存储介质

技术领域

本申请实施例涉及电子设备领域，涉及但不限于一种界面操作方法、装置、设备及存储介质。

背景技术

对于具有显示单元的电子设备，当对电子设备进行操作时，通常是通过手指或触控笔等操作体对电子设备进行操作，或者，通过电子设备的按键进行操作，这些操作方式都无法使用户释放双手。但是很多电子设备是不方便用手进行操作的，或者用户当前不方便用手进行操作，因此语音控制电子设备的界面操作是一种很好的替代方案。

目前的语音控制技术，通常是事先定义好界面的每个可操作元素对应的语音指令，然后用户通过输入语义指令，进而实现对可操作元素的语音控制操作。

但是目前这种通过事先定义可操作元素对应的语音指令的语音控制技术，并不能直观的向用户展示可操作元素的标识，给用户语音操作学习带来额外成本。

发明内容

本申请实施例提供一种界面操作方法、装置、设备及存储介质，能够兼容任何传统软件和系统，且用户操作过程简单易学。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种界面操作方法，包括：

按照预设编码规则，对电子设备上当前界面的可操作元素进行编码，得到所述可操作元素的标识；

将所述可操作元素的标识显示在与所述可操作元素对应的位置；

识别包括所述可操作元素的标识的语音指令；

响应所述语音指令，对所述当前界面执行对应操作。

本申请实施例提供一种界面操作装置，包括：

编码模块，用于按照预设编码规则，对电子设备上当前界面的可操作元素进行编码，得到所述可操作元素的标识；

显示模块，用于将所述可操作元素的标识显示在与所述可操作元素对应的位置；

识别模块，用于识别包括所述可操作元素的标识的语音指令；

响应模块，用于响应所述语音指令，对所述当前界面执行对应操作。

本申请实施例提供一种界面操作设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的界面操作方法。

本申请实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的界面操作方法。

本申请实施例具有以下有益效果：

按照预设编码规则，对电子设备上当前界面的可操作元素进行编码，得到所述可操作元素的标识，将所述可操作元素的标识显示在与所述可操作元素对应的位置。如此，可以使本申请实施例的方法适用于任何软件和系统中，提高软件兼容性；并且可以降低用户操作难度和用户学习成本，使得语音控制过程简单易学，提高用户体验。

附图说明

图1是相关技术中语音控制的界面示意图；

图2是本申请实施例提供的界面操作系统的一个可选的架构示意图；

图3是本申请实施例提供的终端的结构示意图；

图4是本申请实施例提供的界面操作方法的一个可选的流程示意图；

图5A是本申请实施例显示可操作元素标识的一个可选的界面示意图；

图5B是本申请实施例显示可操作元素标识的一个可选的界面示意图；

图5C是本申请实施例显示可操作元素标识的一个可选的界面示意图；

图5D是本申请实施例显示可操作元素标识的一个可选的界面示意图；

图5E是本申请实施例显示可操作元素标识的一个可选的界面示意图；

图5F是本申请实施例电子设备响应所述语音指令后的界面示意图；

图6是本申请实施例提供的界面操作方法的一个可选的流程示意图；

图7是本申请实施例中在当前界面上显示预定光标提醒标记的界面示意图；

图8是本申请实施例提供的界面操作方法的一个可选的流程示意图；

图9是本申请实施例提供的界面操作方法的一个可选的流程示意图；

图10是本申请实施例界面操作方法应用场景示意图；

图11是本申请实施例提供的界面操作方法的一个可选的流程示意图；

图12是本申请实施例提供的界面操作装置的结构示意图；

图13是本申请实施例提供的界面操作方法的一个可选的流程示意图；

图14是本申请实施例提供的界面操作方法的一个可选的流程示意图；

图15是本申请实施例提供的界面操作方法的一个可选的流程示意图；

图16是本申请实施例提供的界面操作方法的一个可选的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

为了更好地理解本申请实施例中提供的界面操作方法，首先对相关技术中语音控制界面操作的方案进行分析说明。

相关技术中，对于具有语音控制功能的电子设备，通常是在电子设备上安装语音助手(例如，小爱同学、Siri和小E等)等用于语音识别的语音应用(Application，APP)。通常，电子设备在出厂前会预先配置好电子设备能够识别并执行的语音任务，例如，查询当前时间的语音任务、呼叫联系人的语音任务、请求播放音乐的语音任务等。或者，相关技术中也可以通过代码埋点的方式，在需要统计数据的地方植入N行代码，统计用户的关键行为，或者通过代码埋点的方式声明控制点。

如图1所示，为相关技术中语音控制的界面示意图，用户使用电子设备进行视频播放，当用户想要暂停视频播放时，可以对电子设备说出语音指令(请暂停播放)，然后电子设备的语音应用会对语音指令进行解析，确定所述语音指令，并确定出与所述语音指令对应的操作，最后电子设备实现点击暂停按钮的操作，暂停视频播放。

由此可以看出，相关技术中的语音控制方法，是基于界面可操作元素事先定义好的标签去识别可操作元素的控件，例如，可操作元素“暂停”110对应语音标签就是“暂停”，即，可操作元素的控件对应的标签就是该控件的名字。该可操作元素的标签“暂停”，在电子设备出厂或者播放软件安装之前已经是定义好的。

那么，就不难得出，相关技术的语音控制方案中，至少存在以下问题：

1)界面可操作元素的标签是预先定义好的，也就是进行过相关的开发的，那么，对于一些历史的APP或者程序、小众的且未经过相关语音操作开发的APP，如果这些APP中具有一些未预先定义的可操作元素，那么，相关技术中的语音控制方案则不能实现对这些APP进行语音控制，即，相关技术中的语音控制方案会存在软件与语音控制不兼容或者无法控制的问题。

2)通过对界面进行埋点的方式来声明控制点，不够灵活，经常存在遗漏或者变更导致不兼容的问题。

3)语音指令无法灵活准确的定位到软件的界面，例如，在当前界面上存在两处具有相同名称的可操作元素时，电子设备无法准确判断出语音指令对应的可操作元素实际指的哪一个，因而存在定位不准确的问题。

4)由于界面可操作元素的标签是预先定义好的，因此用户在执行语音控制时，需要清楚每个可操作元素的语音指令，这样，会给用户操作学习带来额外成本，对于新用户可能无法立刻知道软件每个功能对应的语音指令。

基于相关技术所存在的上述至少一个问题，本申请实施例提供一种界面操作方法、装置、设备及存储介质，能够适用于任何软件和系统中，提高软件兼容性，并可以降低用户操作难度和用户学习成本，使得语音控制过程简单易学，提高用户体验。

下面说明本申请实施例提供的界面操作设备的示例性应用，本申请实施例提供的设备可以实施为有屏音响，笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端。下面，将说明设备实施为终端时的示例性应用。

参见图2，图2是本申请实施例提供的界面操作系统20的一个可选的架构示意图，为实现支撑一个语音控制应用，终端200(示例性示出了终端200-1和终端200-2)通过网络300连接服务器400，网络300可以是广域网或者局域网，又或者是二者的组合。

终端200在图形界面210(示例性示出了图形界面210-1和图形界面210-2)上显示APP的当前界面，用于确定电子设备上当前界面的可操作元素；按照预设编码规则，对所述可操作元素进行编码，得到所述可操作元素的标识，将所述可操作元素的标识显示在与所述可操作元素对应的位置；并采集包括所述可操作元素的标识的语音指令；服务器400用于对终端发送的语音指令进行解析，并向终端返回解析结果，以使得终端200可以基于解析结果响应所述语音指令，以实现对所述当前界面的操作。

参见图3，图3是本申请实施例提供的终端200的结构示意图，图3所示的终端200包括：至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。终端200中的各个组件通过总线系统340耦合在一起。可理解，总线系统340用于实现这些组件之间的连接通信。总线系统340除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统340。

处理器310可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口330还包括一个或多个输入装置332，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器350可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。

存储器350包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器350旨在包括任意适合类型的存储器。

在一些实施例中，存储器350能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统351，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块352，用于经由一个或多个(有线或无线)网络接口320到达其他计算设备，示例性的网络接口320包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

输入处理模块353，用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图3示出了存储在存储器350中的界面操作装置354，其可以是程序和插件等形式的软件，包括以下软件模块：编码模块3541、显示模块3542、识别模块3543和响应模块3544，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的界面操作方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

下面将结合本申请实施例提供的终端的示例性应用和实施，说明本申请实施例提供的界面操作方法。

参见图4，图4是本申请实施例提供的界面操作方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。

步骤S401，确定电子设备上当前界面的可操作元素。

这里，所述电子设备当前界面上包括至少一个可操作元素，所述可操作元素为能够进行操作处理的界面元素，也就是说，所述操作处理为可以通过鼠标、触控笔和手指等任意一种操作体进行操作的处理方式。例如，可以进行点击操作的界面元素、可以进行拖动操作的界面元素、可以进行长按操作的界面元素等。

所述电子设备的当前界面可以是电子设备能够显示的任意一种用户界面(UserInterface，UI)。例如，系统软件的界面或移动端APP的界面等。

所述可操作元素可以在电子设备当前界面上显示，用户通过电子设备的显示屏可以直接看到该可操作元素。当然，所述可操作元素也可以不在电子设备当前界面上显示，用户通过电子设备的显示屏不能够看到该可操作元素，例如，对于一些显示屏屏幕较小的电子设备，在显示当前界面时，由于当前界面上的内容较多，因此可以只显示部分内容，用户可以通过左右或上下拖动页面，以实现对当前界面其他内容的查看，那么，此时可操作元素则可以在电子设备的显示屏上看到，也可以不能在电子设备的显示屏上看到，只有通过对电子设备显示屏上的显示界面进行拖动，才能使得其他可操作元素被显示出来。

步骤S402，按照预设编码规则，对电子设备上当前界面的可操作元素进行编码，得到所述可操作元素的标识。

这里，按照预设编码规则进行编码，可以是对当前界面上的全部可操作元素进行编码，也可以是对当前界面上的部分可操作元素进行编码。

在对可操作元素进行编码之后，得到每一可操作元素的标识，这里，所述可操作元素的标识可以是该可操作元素的编号。举例来说，可以采用数字或字母对当前界面上的可操作元素进行编码，则得到可操作元素的标识是包含数字和字母的标识。这样所得到的可操作元素的标识更易于识别。

对于当前界面，每一可操作元素的标识与其他可操作元素的标识不同，这样可以区分开当前界面上的可操作元素。

对于不同的显示界面，同一类可操作元素可以具有相同的标识，也可以具有完全不同的标识，或者，不同类的可操作元素可以具有相同的标识，或者不同类的可操作元素具有完全不同的标识。需要解释的是，所述同一类可操作元素可以是完全相同的可操作元素，也可以是对应相同操作处理的可操作元素。

步骤S403，将所述可操作元素的标识显示在与所述可操作元素对应的位置。

这里，与所述可操作元素对应的位置可以是在所述可操作元素之上，或者所述可操作元素的旁边，且靠近所述可操作元素的位置，这样，每一可操作元素的旁边对应显示一标识，用户可以更加的直观的看到可操作元素的标识。

在一些实施例中，在显示所述可操作元素的标识时，可以将所述标识放大显示，那么，对于屏幕内容较多或者屏幕字体较小的情况，由于标识被放大显示，可以使得用户更加容易看清楚可操作元素的标识。

如图5A所示，是本申请实施例显示可操作元素标识的一个可选的界面示意图，在图5A中，本申请实施例的界面操作方法应用于浏览器网页，在浏览器网页中，具有至少一可操作元素501，例如，图5A中的“咨询”、“视频”、“图片”、“知道”、“文库”、“贴吧”以及网页的可选项新闻“腾讯视频-中国领先的在线视频媒体平台”，这些均是当前界面的可操作元素，在对这些可操作元素进行编码之后，每一可操作元素对应一确定的标识502，例如，“咨询”的标识为SA、“视频”的标识为C、“图片”的标识为AC、“知道”的标识为DC、“文库”的标识为FC、“贴吧”的标识为JC，以及网页可选项新闻“腾讯视频-中国领先的在线视频媒体平台”的标识为SJ……这些标识显示在对应可操作元素的旁边，与每一可操作元素一一对应，当用户看到可操作元素时，也可以直接看到该可操作元素的标识。

如图5B所示，是本申请实施例显示可操作元素标识的一个可选的界面示意图，在图5B中，本申请实施例的界面操作方法应用于APP界面，本申请实施例以即时通信APP(例如，微信)为例进行说明，当然，对于其他任意一种APP也都适用。当用户适用移动终端运行微信APP时，在微信的打开页面中，具有至少一可操作元素511，例如，图5B中的查询图标、功能项图标、聊天对象等，这些均是当前界面的可操作元素，在对这些可操作元素进行编码之后，每一可操作元素对应一确定的标识512，例如，查询图标的标识为AA、功能项图标为AB、聊天对象为AC(如果当前界面上显示有多个聊天对象时，则每一聊天对象对应一个标识，且每一聊天对象的标识互不相同)……这些标识也显示在对应可操作元素的旁边，与每一可操作元素一一对应，当用户看到可操作元素时，也可以直接看到该可操作元素的标识。

如图5C所示，是本申请实施例显示可操作元素标识的一个可选的界面示意图，在图5C中，本申请实施例的界面操作方法应用于小屏终端，这里，电子设备的显示屏屏幕较小，而待显示的界面内容较多，如果要在显示屏上全部显示当前界面内容的话，当前界面上的文字或图片等显示内容会被缩小，不易用户查看，当以正常文字或图片的尺寸进行显示的话，电子设备的显示屏不能将当前界面的全部内容进行显示。

本申请实施例继续以上述图5A中的浏览器界面为例，当该界面在小屏终端上显示时，如图5C所示，仅能够显示部分内容，对应其他部分的内容，则不能在显示屏上完全显示。此时，电子设备除了对当前界面上的“咨询”、“视频”、“图片”、“知道”、“文库”、“贴吧”、“采购”、“地图”、“更多”以及网页的可选项新闻“腾讯视频-中国领先的在线视频媒体平台”等可操作元素进行编码之外，还可以在电子设备显示屏上显示附加可操作元素，如图5C中的向左滑动、向右滑动、向上滑动和向下滑动四个方向的滑动操作，并且，对该四个滑动操作也进行编码，例如，向左滑动的标识为S1、向右滑动的标识为S2、向上滑动的标识为S3和向下滑动的标识为S4。如果用户想要查看当前所显示的界面右侧的内容，则可以发送语音指令S1，使得界面向左滑动，以显示界面右侧的内容，如此，可以实现对当前页面的上下、左右滑动，以实现在小屏终端上以正常文字尺寸和正常图片尺寸显示界面。

当然，在一些实施例中，所述附加可操作元素也可以对应放大操作、缩小操作等任意一种对当前界面的处理操作，本申请实施例不做限定。

步骤S404，识别包括所述可操作元素的标识的语音指令。

这里，所述电子设备包括语音识别单元，所述语音识别单元可以包括声音传感器，通过对声音传感器所采集的语音进行识别得到所述语音指令，所述语音指令用户指示对当前界面上的任一可操作元素进行操作。

本申请实施例中，所述语音指令中包括所述可操作元素的标识，当电子设备识别到所述语音指令时，解析所述语音指令以得到所述语音指令中包括的所述可操作元素的标识，这样，可以确定用户是想要对哪一个可操作元素进行操作。

举例来说，当前界面上包括可操作元素A、B和C，其中，可操作元素A的标识为11，可操作元素B的标识为12，可操作元素C的标识为13，那么，当用户想要对可操作元素B进行点击操作时，则可以对着电子设备说出“请点击，12”或者直接说出可操作元素的标识“12”，此时，电子设备通过识别到用户的语音而得到所述语音指令。

步骤S405，响应所述语音指令，对所述当前界面执行对应操作。

这里，电子设备在识别到所述语音指令之后，对所述语音指令进行响应，以对所述语音指令中所包括的可操作元素的标识对应的可操作元素执行对应的操作处理。

举例来说，如果当前界面上包括可操作元素A、B和C，其中，可操作元素A的标识为11，可操作元素B的标识为12，可操作元素C的标识为13，当用户对着电子设备说出的语音指令为“请点击，12”时，则此时电子设备作出响应，对可操作元素B执行点击操作。

本申请实施例提供的界面操作方法，按照预设编码规则，对电子设备上当前界面的可操作元素进行编码，得到所述可操作元素的标识；将所述可操作元素的标识显示在与所述可操作元素对应的位置。这样，可以使本申请实施例的方法适用于任何软件和系统中，对于任何软件和系统均可以进行编码，无需软件进行过任何相关的开发，提高了软件兼容性；并且，直接在当前界面上显示可操作元素的标识，这样用户可以通过语音方式直接说出看到的标识即可完成对可操作元素的操作，降低了用户操作难度和用户学习成本，使得语音控制过程简单易学，提高用户体验。

在一些实施例中，当所述当前界面上显示有光标时，所述可操作元素包括所述光标，所述可操作元素的标识包括用于指示所述光标移动方向的至少一个方向标识；如图5D所示，是本申请实施例显示可操作元素标识的一个可选的界面示意图，在图5D中，可操作元素包括光标541，所述光标541可以向任意一个方向移动，例如，向上、向下、向左和向右移动，所述可操作元素的标识即用于指示所述光标向任意一个方向移动的标识；例如，参见图5D，光标541向左移动的标识为L1、向右移动的标识为R1、向上移动的标识为U1、向下移动的标识为D1；或者，向左移动的标识为“左”、向右移动的标识为“右”、向上移动的标识为“上”、向下移动的标识为“下”，即直接显示移动方向对应的文字；或者，在一些实施例中，还可以包括向左上方45度方向移动的标识、向右上方45度方向移动的标识、向左下方45度方向移动的标识、向右下方45度方向移动的标识，本申请实施例不做限定。

基于图5D所示的可操作元素的标识，对应地，步骤S404中识别包括所述可操作元素的标识的语音指令，可以通过以下步骤实现：

步骤S4041，识别包括所述方向标识的语音指令。

步骤S405中响应所述语音指令，对所述当前界面执行对应操作，可以通过以下步骤实现：

步骤S4051，响应所述语音指令，对所述光标执行与所述方向标识对应的方向的光标移动操作。

这里，用户可以通过语音说出想要光标移动的方向的标识，然后电子设备识别用户语音中的移动方向的标识，并响应用户的语音指令，对所述光标执行光标移动操作。

举例来说，用户想要光标向右移动，那么用户可以对着电子设备说出“R1”，则此时电子设备确定用户想要光标向右移动，因此，控制所述光标向右移动。

本申请实施例中，光标每次移动的距离可以是确定长度的，也可以是随机长度的。例如，当前界面上显示有多个可操作元素时，且每两个可操作元素之间的显示距离相等时，则光标每次移动的距离可以是确定长度的，即，每次移动的距离等于两个可操作元素之间的显示距离，这样，当用户语音指示光标向右移动时，光标可以从第一个可操作元素的显示位置移动到该可操作元素右侧的第二个可操作元素的显示位置处。

本申请实施例提供的界面操作方法，通过语音指令指示显示界面上的光标进行移动，从而不用用户通过鼠标等操作体实现当前界面上光标的移动，增加了语音控制的功能，为用户提供更多的操作选择，提高用户体验。

在一些实施例中，当所述光标经过移动到达目标位置时，用户可通过语音指令，例如“按下”或“点击”或“选择”来执行点击光标的操作，以模拟鼠标左键的点击。一些实施例中，用户也可给光标赋一个字母或数字或两者结合的组合值，来替换上面的文字语音指令，例如可以把“11”或“L1”等值赋予给按下光标操作，当用户说出这些语音指令时，执行点击光标的操作，以模拟鼠标左键的点击。

在一些实施例中，当所述当前界面上显示有光标时，所述可操作元素包括所述光标，所述可操作元素的标识包括用于指示打开右键菜单的菜单标识；如图5E所示，是本申请实施例显示可操作元素标识的一个可选的界面示意图，在图5E中，可操作元素包括光标541，所述光标541位于当前界面上一确定的位置。在所述光标541的旁边，显示有鼠标图样551，鼠标图样551上显示有菜单标识M1，所述菜单标识M1用于指示打开右键菜单，也就是说，所述菜单标识M1对应的操作为鼠标的右键操作。

对应地，步骤S404中识别包括所述可操作元素的标识的语音指令，可以通过以下步骤实现：

步骤S4141，识别包括所述菜单标识的语音指令。

步骤S4151，响应所述语音指令，在所述光标的显示位置执行右键点击操作，以打开所述右键菜单。

这里，用户可以通过语音说出执行右键点击操作的菜单标识M1，然后电子设备识别出用户语音中的菜单标识M1，并响应用户的语音指令，在所述光标的显示位置执行右键点击操作，以打开所述右键菜单。

在一些实施例中，当所述光标经过移动到达目标位置时，用户可通过语音指令，例如“右键按下”或“右键点击”或“右键选择”来执行右键点击光标的操作，以模拟鼠标右键的点击。一些实施例中，用户也可给右键光标赋一个字母或数字或两者结合的组合值，来替换上面的文字语音指令，例如可以把“22”或“R1”等值赋予给按下右键光标操作，当用户说出这些语音指令时，执行点击右键光标的操作，以模拟鼠标右键的点击。

如图5F所示，是本申请实施例电子设备响应所述语音指令后的界面示意图，电子设备执行右键点击操作，打开右键菜单552，所述右键菜单552上包括至少一个选项，例如，可以包括后退选项、刷新选项、打印选项和属性选项等。

本申请实施例提供的界面操作方法，通过语音指令指示在显示界面上的光标位置执行右键点击操作，进而显示右键菜单，为用户提供更多的操作选项，从而提高用户体验。

在一些实施例中，电子设备除了可以接收所述语音指令之外，还可以接收用户的操作，例如，用户通过操作体所执行的第一操作，那么，对应地，所述方法还可以包括以下步骤：

步骤S41，获取操作体在所述电子设备上的第一操作。

这里，所述操作体可以为鼠标、触控笔和用户手指中的任意一种，所述操作体能够实现在所述电子设备上执行所述第一操作。

所述第一操作可以为点击操作、选中操作、长按操作和拖动操作等任意一种可实现的操作方式。

步骤S42，当所述第一操作对应的位置与所述可操作元素的标识显示的位置对应时，对所述可操作元素执行所述第一操作。

这里，当所述第一操作对应的位置在所述可操作元素的标识显示的位置的预设范围之内，即可以认为所述第一操作对应的位置与所述可操作元素的标识显示的位置对应。例如，所述第一次操作为点击操作，那么，所述第一操作的点击位置可以是所述可操作元素的标识的显示位置，此时，表明用户正在对该可操作元素进行点击操作，因此响应该点击操作，从而实现对所述可操作元素执行所述第一操作。

在一些实施例中，参见图6，图6是本申请实施例提供的界面操作方法的一个可选的流程示意图，基于图4，在步骤S401之后，还可以执行：

步骤S601，接收唤醒指令，基于接收到的唤醒指令控制所述电子设备处于唤醒状态。

这里，所述唤醒指令用于使得电子设备处于唤醒状态，当所述电子设备处于唤醒状态时，则语音控制界面操作的功能处于开启状态，电子设备执行所述界面操作方法。

本申请实施例中，可以当所述电子设备开机之后即处于唤醒状态，则对应的开机指令即为所述唤醒指令；也可以当电子设备开机之后，且用于语音识别的语音应用被运行之后，电子设备处于唤醒状态，则对应的语音应用运行指令即为所述唤醒指令。

本申请实施例，对应步骤S402中按照预设编码规则，对所述可操作元素进行编码，得到所述可操作元素的标识的内容，可以通过以下步骤实现：

步骤S602，当所述电子设备处于所述唤醒状态时，按照所述预设编码规则，对所述可操作元素进行编码，得到所述可操作元素的标识。

这里，当电子设备处于所述唤醒状态时，表明此时电子设备的语音控制界面操作的功能处于开启状态，则电子设备可以执行所述界面操作方法，因此，在进行语音控制之前，需要先对当前界面上的可操作元素进行编码，以确定每一可操作元素的标识，进而将可操作元素的标识显示在电子设备的显示屏上，以供用户查看，使得用户可以根据看到的可操作元素的标识进行对应的语音控制操作过程。

本申请实施例中，对电子设备的语音控制功能进行唤醒，只有当电子设备处于唤醒状态时，才实现所述语音控制过程，如此，可以使得用户可以根据实际需要选择是否使用该语音控制功能，当需要使用时，向电子设备发送唤醒指令，使得电子设备的语音控制功能开启，当不需要使用时，则不用向电子设备发送唤醒指令，电子设备的语音控制功能关闭，这样可以减小在不需要使用语音控制功能时，电子设备还进行语音控制采集语音指令所造成的能耗，并且为用户提供不同使用需求的选择，提高用户体验。

在一些实施例中，所述唤醒指令中包括操作类型；对应地，步骤S402中所述按照预设编码规则，对电子设备上当前界面的可操作元素进行编码，得到所述可操作元素的标识，还可以通过以下步骤实现：

步骤S4021，当接收到所述唤醒指令时，将当前界面中能够执行与所述操作类型对应的操作的可操作元素，确定为目标可操作元素。

这里，所述操作类型可以为任意一种操作类型，例如，所述操作类型可以包括点击操作类型、拖动操作类型和长按操作类型等。

当所述操作类型为点击操作类型时，与所述操作类型对应的操作可以为对界面中可操作元素的单击、双击和选中等任意一种点击操作类型；当所述操作类型为拖动操作类型时，与所述操作类型对应的操作可以为对界面中滚动条的拖动、对界面中显示文字的拖动等任意一种拖动操作类型；当所述操作类型为长按操作类型时，与所述操作类型对应的操作可以为对界面中可操作元素进行长按以产生其他可操作元素。

本申请实施例中，将当前界面中能够执行与所述操作类型对应的操作的可操作元素，确定为目标可操作元素，也就是说，对当前界面中的全部可操作元素进行筛选，将能够执行与所述操作类型对应的操作的可操作元素选择为目标可操作元素，对于能够执行其他操作类型的可操作元素不作选择。

步骤S4022，根据所述目标可操作元素在所述当前界面上的位置，依次对每一目标可操作元素进行编码，得到每一目标可操作元素的标识。

这里，在确定出目标可操作元素之后，仅对目标可操作元素进行编码，其中编码过程可以为：根据所述目标可操作元素在所述当前界面上的位置，依次对每一目标可操作元素进行编码。例如，可以按照目标可操作元素在当前界面上的位置，按照从上倒下和/或从左到右的顺序依次进行对每一可操作元素进行编码。

本申请实施例的方案对应以下场景：对于当前显示界面，如果用户只想执行点击操作，而当前界面上显示了很多可操作元素，那么，为了使得编码过程更加容易实现、编码速度提高，且显示可操作元素标识时的界面更加简洁，则可以在进行编码和标识显示时，仅对用户想执行的点击操作对应的可操作元素进行处理。此时，用户在激活语音控制功能时，且在发出唤醒指令时，可以在唤醒指令中添加所述操作类型，例如，唤醒指令可以是语音唤醒指令，则用户可以对着电子设备说“请执行点击操作”。这样，电子设备则仅对能够执行点击操作的可操作元素进行编码。

在一些实施例中，图4示出的步骤S404中识别包括所述可操作元素的标识的语音指令，还可以通过以下步骤实现：

步骤S4241，电子设备实时采集语音信息。

这里，电子设备的语音采集单元处于工作状态，并实时采集周围的语音信息，需要说明的是，所采集的语音信息可以是有效的语音指令，也可以是无效的语音信息，例如，当用户与其他人在电子设备旁边闲谈时，所采集的用户的谈话语音就是无效的语音信息，该无效的语音信息并不能形成有效的语音指令。

本申请实施例中，需要对采集的语音信息进行判断，以确定所采集的语音信息是否是用户想要电子设备执行操作的语音指令。

步骤S4242，对采集的语音信息进行语义分析，得到语义分析结果。

这里，可以是电子设备对所述语音信息进行语义分析，也可以由互联网服务器进行语义分析。在执行语义分析时，可以将采集的语音信息输入至预设的机器学习模型中，通过机器学习模型对语音信息进行处理，以得出所述语音分析结果。

在一些实施例中，当由电子设备对所述语音信息进行语义分析时，当电子设备采集到所述语音信息之后，即将所述语音信息通过电子设备上预设语义分析软件中的机器学习模型进行处理。

在其他实施例中，当由互联网服务器进行语义分析时，则可以通过以下步骤实现:

步骤S4242a，电子设备将所采集的语音信息发送给服务器。

步骤S4242b，服务器对所述语音信息进行语义分析，得到语义分析结果。

本申请实施例中，借助互联网服务器来实现对采集的语音信息进行语义分析处理，能够得到更加准确的语义分析结果。

步骤S4243，当所述语义分析结果表明所述语音信息中包括任一可操作元素的标识时，将所述语音信息确定为包括所述可操作元素的标识的语音指令。

这里，当所述语义分析结果表明所述语音信息中包括可操作元素的标识时，表明所述语音信息为有效的语音信息，因此将所述语音信息确定为有效的语音指令，所述语音指令用于指示对所述语音信息中所包括的可操作元素的标识对应的可操作元素进行操作。

举例来说，如果当前界面上包括可操作元素A、B和C，其中，可操作元素A的标识为11，可操作元素B的标识为12，可操作元素C的标识为13。如果电子设备采集到语音信息“今天天气真好啊”，在进行语义分析之后，确定该语音信息中并不包括与当前界面上任一可操作元素的标识对应的语音，则删除该语音信息，并采集下一条语音信息；如果采集的语音信息为“请点击12”，那么在进行语义分析之后，确定该语音信息中包括与可操作元素B的标识对应的语音，因此确定该语音信息为一条有效的语音指令，因而响应该语音指令，对可操作元素B执行点击操作。

在一些实施例中，基于图4，在步骤S404之后，还可以执行：

步骤S410，当获取到包括所述可操作元素的标识的语音指令时，在对应所述标识的预设区域内，显示预定光标提醒标记，以提醒当前正在对与所述标识对应的可操作元素进行光标移动操作。

这里，所述预定光标提醒标记用于提醒用户当前正在对与用户语音指令中的标识对应的可操作元素进行操作。所述预定光标提醒标记可以具有任意一种图案，例如，所述预定光标提醒标记可以为手型标记或箭头等形状。

所述对应所述标识的预设区域，可以为在所述标识周围的一定距离的范围，通常，可以将所述标识的旁边紧邻所述标识的位置确定为所述预设区域，所述预定光标提醒标记所显示的位置尽量靠近所述标识。

如图7所示，是本申请实施例中在当前界面上显示预定光标提醒标记的界面示意图，在图5A的基础上，当用户的语音指令是对“图片”进行点击操作，那么在获取到用户的语音指令之后，作为响应和提醒，在“图片”的标识为A C旁边显示手型标记701。

在一些实施例中，参见图8，图8是本申请实施例提供的界面操作方法的一个可选的流程示意图，基于图4，在步骤S404之后，还可以执行：

步骤S801，当存在与所述语音指令对应的关联操作指令时，存储所述语音指令并等待接收所述关联操作指令。

本申请实施例中，对于一些语音指令，会对应有关联操作指令，也就是说，在执行操作时，是基于语音指令和与所述语音指令对应的关联操作指令来完成，只有同时接收到语音指令和关联操作指令，才能实现对可操作元素的操作。

这里，在获取到所述语音指令之后，则需要对所述语音指令进行判断，确定所述语音是否包括对应的关联操作指令，也就是说，对于获取到的语音指令，需要判断其是否是与其他指令一起组合来完成操作的。如果判断结果为否，则直接执行该语音指令，如果判断结果为是，则需要等待接收与所述语音指令对应的关联操作指令。

步骤S802，当在预设时间内接收到所述关联操作指令时，同时响应所述语音指令和所述关联操作指令。

这里，所述预设时间可以是电子设备在出厂前已经预先设置好的，也可以是用户根据实际情况进行自定义设置的。

步骤S803，当在预设时间内未接收到所述关联操作指令时，禁止响应所述语音指令。

这里，当在预设时间内未接收到所述关联操作指令时，表明当前的语音指令并不完整，或者表明用户并不想继续执行所述语音指令，或者用户当前停止执行所述语音指令，因此，禁止响应所述语音指令，以停止执行所述语音指令。

本申请实施例提供的界面操作方法，对于需要关联响应的语音指令，只有当接收到语音指令和与语音指令对应的关联操作指令时，才对语音指令进行响应，如此，能够保证对语音指令的准确响应，实现对界面的准确操作。

在一些实施例中，所述方法还包括以下步骤：

步骤S810，当所述当前界面发生更新时，删除所述可操作元素的标识。

这里，当电子设备响应所述语音指令或者电子设备对当前界面进行刷新后，当前界面均会发生更新，更新后的显示界面由于发生了变化，对于之前界面的可操作元素，更新后的显示界面上可能已经不存在，或者可能也进行了相应的更新，因此，之前界面的可操作元素的标识已经失效，所以删除所述可操作元素的标识。

步骤S811，对更新后的显示界面的可操作元素进行编码。

这里，由于当前界面发生了更新，更新后的显示界面上包括新的可操作元素，因此需要对更新后的显示界面的可操作元素进行重新编码，进而继续执行语音操作。

图9是本申请实施例提供的界面操作方法的一个可选的流程示意图，如图9所示，所述方法包括以下步骤：

步骤S901，当所述电子设备处于所述唤醒状态时，服务器确定电子设备上当前界面的可操作元素。

本申请实施例中，服务器对电子设备进行实时监控，当电子设备处于唤醒状态时，由服务器与电子设备共同实现所述界面操作方法。

步骤S902，服务器按照预设编码规则，对所述可操作元素进行编码，得到所述可操作元素的标识。

步骤S903，服务器将所述可操作元素的标识发送给终端。

步骤S904，终端将所述可操作元素的标识显示在与所述可操作元素对应的位置。

步骤S905，终端采集包括所述可操作元素的标识的语音指令。

步骤S906，终端将所述语音指令发送给服务器。

步骤S907，服务器对采集的语音信息进行语义分析，得到语义分析结果。

步骤S908，当所述语义分析结果表明所述语音信息中包括任一可操作元素的标识时，服务器将所述语音信息确定为包括所述可操作元素的标识的语音指令。

步骤S909，服务器将所述语义分析结果发送给终端。

步骤S910，终端在接收到所述语义分析结果时，响应所述语音指令，以实现对所述当前界面的操作。

本申请实施例提供的界面操作方法，通过服务器与电子设备之间的交互，由服务器与电子设备共同实现所述方法，由服务器对可操作元素进行编码，并将可操作元素的标识显示在与所述可操作元素对应的位置。这样，对于任何软件和系统均可以进行编码，无需软件进行过任何相关的开发，提高了软件兼容性；并且，直接在当前界面上显示可操作元素的标识，这样用户可以通过语音方式直接说出看到的标识即可完成对可操作元素的操作，降低了用户操作难度和用户学习成本，使得语音控制过程简单易学，提高用户体验。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

对于平板类电脑的操作，都需要用手指或者触控笔等操作体来进行操作，因而无法释放双手。本申请实施例提供一种自动在屏幕上辨识可点击的位置的方法，通过采集语音指令控制软件的操作。

由于Siri之类的语音控制已经比较流行，但是它无法解决历史老的软件，或者不对Siri进行软件开发工具包(Software Development Kit，SDK)集成的软件的控制。本申请可以针对任意软件或者web页面进行预警控制，简易交互，实现将传统软件无缝的迁移到语音控制的体系下。

本申请实施例的关键点在于：提出一种对windows传统软件进行编码展示的方法；提出一种对移动端软件进行界面元素编码展示的方法；提出在设备唤醒时显示软件可操作元素编码后的标识，可操作元素的标识自动编码产生，不需要任何事前干预或者集成任何SDK；提出软件响应点击动作的时候，会在界面显示坐标位置进行点击同时展现点击效果；提出一种语音控制软件行为的交互逻辑，通过启动会话、行动指令、位置指令，准确控制软件动作。

本申请实施例提供的界面操作方法，革新了相关技术中的需要鼠标键盘的操作形式。本申请实施例以有屏音响为例展示产品使用效果，需要说明的是，本申请实施例的方法实际上涵盖包含音频传感器和屏幕的任意电子设备。

图10是本申请实施例界面操作方法应用场景示意图，如图10所示，用户1001主要同有屏音响1002进行交互，有屏音响1002至少包括音频采集传感器1021和可视化屏幕1022，音频采集传感器1021可以采集声音指令，可视化屏幕1022可以进行展示编码和行动效果。在实现界面操作的时候，如图11所示，主要包括以下步骤：

步骤S1101，用户发出语音指令唤醒有屏音响，使有屏音响对语音进行持续接收。

例如，用户可以对着有屏音响说“叮当，叮当”，此时，有屏音响的屏幕保持常亮。

步骤S1102，启动目标软件。

例如，用户可以启动绘图软件。用户对着有屏音响说“启动‘绘图软件’”，此时，有屏音响启动对应的绘图软件应用。

步骤S1103，用户发送操作激活指令(对应上述任一实施例中的唤醒指令)。

这里，所述操作指令可以包括任意一种操作类型，例如，所述操作类型为点击操作。那么，有屏音响在屏幕上显示该软件每一个可以交互点击的可操作元素，并且显示用字母进行编码后的标识。

步骤S1104，用户说出具体的标识，电子设备对该标识对应的可操作元素执行对应的动作。

步骤S1105，在执行动作的过程中，在屏幕点击位置显示手型标记，表示在该位置发生点击动作。

至此，完成一次动作交互。

步骤S1106，用户可以继续循环执行步骤S1103至步骤S1105的动作。

需要说明的是，本申请实施例中所执行的动作包括点击、长按和滑动等常规触摸屏手势可以操作的方式。

本申请实施例的界面操作方法不仅可以应用于Windows系统中，也可以应用于安卓系统(Android)和iOS系统等移动系统中。

图12是本申请实施例提供的界面操作装置的结构示意图，如图12所示，所述界面操作装置1200包括：语音解析器1201、软件启动器1202、web启动器1203和点击控制器1204。

其中，所述语音解析器1201，用于接收语音信息，并且可以将语音信息转义成文本或者指令，并将转义后的内容发送给点击控制器。当所述语音解析器对语音信息的解析能力有限时，也可以借助网络，将语音信息上传到互联网服务器，通过具有机器学习能力的模型对语音信息进行解析识别，并将识别结果发送给点击控制器。

所述软件启动器1202，用于对传统的原生应用进行软件启动，其中，所述原生应用在windows系统里是指有图形界面的可执行软件，在移动设备里是指有图形界面的APP软件。所述软件启动器1202的作用是调度软件启动拉起的动作，并且在启动软件后，实时的监控软件界面元素(对应上述实施例中的可操作元素)的变化，为界面元素进行编码，并且在接收到语音指令时，在界面上显示每个界面元素的编号。

所述web启动器1203，用于对web页面进行启动。所述web启动器1203实现了浏览器的功能，拉起浏览器进行web页面的展示。所述web启动器1203的作用与软件启动器1202的作用相同，也是用于调度软件启动拉起的动作，并且在启动软件后，实时的监控软件界面元素的变化，为界面元素进行编码，并且在接收到语音指令时，在界面上显示每个界面元素的编号。

所述点击控制器1204，用于在有交互动作发生时，在界面元素的坐标处显示手型标记，以显示点击效果。同时，在屏幕界面通过设备的指令，真实发送鼠标点击事件，模拟鼠标点击或者移动操作，实现软件的交互。

基于以上实施例，本申请实施例再提供一种界面元素的编码方法，本申请实施例的方法实现了用户发出动作指令，屏幕界面自动显示界面元素的编号(对应上述实施例中可操作元素的标识)，发出编码命令后，自动对其位置进行模拟的鼠标点击或者鼠标移动。在编码过程中，采用自编码规则，无需事先编辑编码，仅根据遍历的空间顺序进行编码，并且展示编码后得到的编号。其中，如图13所示，编码过程包括以下步骤：

步骤S1301，通过启动器(可以是软件启动器或者web启动器)从软件界面中自动提取可视界面的界面元素和每一界面元素的坐标。

需要说明的是，对于不可用的界面元素不需要进行编码，例如，对于一些不能进行点击操作或者拖动操作的界面元素就不需要进行编码。

步骤S1302，按照界面元素在当前界面上的位置顺序，分别给每一界面元素编码。

例如，可以从AA开始编码，在编码过程中逐个进行累加。字符的范围可以从A到Z，这样，编号默认总计数量可以达到23*23＝529个。

步骤S1303，针对同一个界面中界面元素超过529个的情况，启动三位编码。

例如，采用ADC编号来对界面元素进行编码，这样，编号数量总计可达12167个。

图14是本申请实施例提供的界面操作方法的一个可选的流程示意图，如图14所示，所述方法包括以下步骤：

步骤S1401，对于windows软件，在首次使用时，首先注册APP。

步骤S1402，用户通过语音说出APP名字，以启动对应APP。

步骤S1403，在APP启动之后，持续判断是否接收到有效唤醒指令。

如果接收到有效唤醒指令，则执行步骤S1404；否则，结束流程。

步骤S1404，遍历APP软件当前界面上的所有界面元素。

步骤S1405，为每一界面元素进行编码，得到每一界面元素的编号。

步骤S1406，在该界面元素对应的响应位置显示所述编号。

此时，界面上显示按钮编码，并等待下一步指令。

步骤S1407，电子设备持续采集用户的语音指令。

步骤S1408，对所采集的语音指令进行解析，得到解析结果。

步骤S1409，响应所述解析结果，执行所述语音指令对应的动作。

图15是本申请实施例提供的界面操作方法的一个可选的流程示意图，如图15所示，在一次完整的单独语音交互过程中，所述方法包括以下步骤：

步骤S1501，音频传感器接收到语音信息。

步骤S1502，对所述语音信息进行语义分析处理，将所述语音信息解析成文本信息或者指令信息。

这里，在得到所述文本信息或者指令信息之后，将所述文本信息或者指令信息发送给点击控制器。

步骤S1503，点击控制器判断是否还有后续指令。

这里，如果判断结果为否，则执行S1504；如果判断结果为是，则执行S1506。

步骤S1504，直接在屏幕对应编号的坐标处模拟对应的行为操作，触发屏幕操作。

例如，所述屏幕操作可以是点击操作或者移动操作。

步骤S1505，在界面顶层对应坐标处动画显示屏幕操作。

例如，可以通过在点击位置显示手型图示，以显示屏幕操作。

步骤S1506，点击控制器暂存该文本信息或者指令信息，并返回步骤S1501等待接收后续指令。

步骤S1507，如果超过预设时间还没有后续指令上报,那么当前会话终止。

在一些实施例中，当界面刷新之后，需要重新对界面元素进行编码，如图16所示，是本申请实施例提供的界面操作方法的一个可选的流程示意图，所述方法包括以下步骤：

步骤S1601，当界面刷新之后，软件启动器监控当前软件的界面信息。

步骤S1602，解析刷新后的界面的可视范围内的界面元素，对刷新后的界面可视范围内的界面元素进行检索。

步骤S1603，对刷新后的界面中的每一界面元素进行编码。

这里，元素的编码是按照元素的发现顺序进行排序，界面上的同一个界面元素，在不同的阶段可能会有不同的编号。

步骤S1604，判断是否接收到有效的唤醒指令。

如果判断结果为是，则执行步骤S1605；如果判断结果为否，则结束流程。

步骤S1605，当系统接收到唤醒指令时，在所述刷新后的界面上的每个界面元素的坐标处显示对应的编号。

步骤S1606，接收语音指令，对语音指令中描述的指令执行响应动作。

例如，可以响应语音指令，以模拟执行鼠标点击或者鼠标移动等动作。

本申请实施例提供的界面操作方法，对于任何传统软件都可以实现语音控制；且直接语音控制模拟点击，使得用户学习成本大大降低；可以在软件的界面真实模拟鼠标操作，对软件没有侵入性；动态编码简单易用，并且编码采用2位或者3位编码，方便语音识别和解析，提高交互的准确性和流畅性。

通过本申请实施例的方法，可以实现绝大多数的传统软件的语音操作改造，由于位置指令端易于识别，能够提高控制的准确度。且在交互过程中，在界面图层上显示鼠标手势，能够提高用户的使用感受。

在其他实施例中，编码过程还可以做多种变换，例如，用数字代替字母进行编码。另外，在空间编码方案的基础上还可以增加自定义编码，这样空间可以携带更多的信息，以此可以实现更加复杂的交互逻辑。

在其他实施例中，还可以通过视频拍摄用户的动作来识别具体点击位置和鼠标移动位置。例如，当用户的动作为手指向上指时，表明用户是想对位于屏幕上方的界面元素进行点击操作，因此，电子设备通过拍摄用户的动作视频并解析，得到解析结果，根据解析结果对位于屏幕上方的界面元素进行点击操作。

下面继续说明本申请实施例提供的界面操作装置355的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器340的界面操作装置354中的软件模块可以包括：

编码模块3541，用于按照预设编码规则，对电子设备上当前界面的可操作元素进行编码，得到所述可操作元素的标识；

显示模块3542，用于将所述可操作元素的标识显示在与所述可操作元素对应的位置；

识别模块3543，用于识别包括所述可操作元素的标识的语音指令；

响应模块3544，用于响应所述语音指令，对所述当前界面执行对应操作。

在一些实施例中，当所述当前界面上显示有光标时，所述可操作元素包括所述光标，所述可操作元素的标识包括用于指示所述光标移动方向的至少一个方向标识；对应地，所述识别模块还用于识别包括所述方向标识的语音指令；

所述响应模块还用于：响应所述语音指令，对所述光标执行与所述方向标识对应的方向的光标移动操作。

在一些实施例中，当所述当前界面上显示有光标时，所述可操作元素包括所述光标，所述可操作元素的标识包括用于指示打开右键菜单的菜单标识；

对应地，所述识别模块还用于：识别包括所述菜单标识的语音指令；

所述响应模块还用于：响应所述语音指令，在所述光标的显示位置执行右键点击操作，以打开所述右键菜单。

在一些实施例中，所述装置还包括：

获取模块，用于获取操作体在所述电子设备上的第一操作；

处理模块，用于当所述第一操作对应的位置与所述可操作元素的标识显示的位置对应时，对所述可操作元素执行所述第一操作。

在一些实施例中，所述装置还包括：

接收模块，用于接收唤醒指令，基于接收到的唤醒指令控制所述电子设备处于唤醒状态；

对应地，所述编码模块还用于当所述电子设备处于所述唤醒状态时，按照所述预设编码规则，对所述可操作元素进行编码，得到所述可操作元素的标识。

在一些实施例中，所述唤醒指令中包括操作类型；

对应地，所述编码模块还用于当接收到所述唤醒指令时，将当前界面中能够执行与所述操作类型对应的操作的可操作元素，确定为目标可操作元素；根据所述目标可操作元素在所述当前界面上的位置，依次对每一目标可操作元素进行编码，得到每一目标可操作元素的标识。

在一些实施例中，所述采集模块还用于对采集的语音信息进行语义分析，得到语义分析结果；当所述语义分析结果表明所述语音信息中包括任一可操作元素的标识时，将所述语音信息确定为包括所述可操作元素的标识的语音指令。

在一些实施例中，所述装置还包括：

提醒标记显示模块，用于当获取到包括所述可操作元素的标识的语音指令时，在对应所述标识的预设区域内，显示预定光标提醒标记，以提醒当前正在对与所述标识对应的可操作元素进行光标移动操作。

在一些实施例中，所述装置还包括：

存储模块，用于当存在与所述语音指令对应的关联操作指令时，存储所述语音指令并等待接收所述关联操作指令；

所述响应模块还用于当在预设时间内接收到所述关联操作指令时，同时响应所述语音指令和所述关联操作指令；当在预设时间内未接收到所述关联操作指令时，禁止响应所述语音指令。

在一些实施例中，所述装置还包括：

删除模块，用于当所述当前界面发生更新时，删除所述可操作元素的标识；

所述编码模块，还用于对更新后的显示界面的可操作元素进行编码。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图4示出的方法。

在一些实施例中，存储介质可以是铁电存储器(FRAM，Ferromagnetic RandomAccess Memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM，ErasableProgrammable Read Only Memory)、带电可擦可编程只读存储器(EEPROM，ElectricallyErasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM，Compact Disk-Read Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，本申请实施例提供的界面操作方法、装置、设备及存储介质，包括以下有益效果：

1)能够适用于任何软件和系统中，对于任何软件和系统均可以进行编码，无需软件进行过任何相关的开发，提高了软件兼容性。

2)直接在当前界面上显示可操作元素的标识，这样用户可以通过语音方式直接说出看到的标识即可完成对可操作元素的操作，降低了用户操作难度和用户学习成本，使得语音控制过程简单易学，提高用户体验。

3)仅对软件当前界面的可操作元素进行编码，界面操作之后即删除编码，对软件没有侵入性，能够在软件的界面真实模拟鼠标操作。

4)动态编码简单易实现，编码采用较小位数的字母或数字实现，方便语音识别和解析，提高交互的准确性和流畅性。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种界面操作方法，其特征在于，包括：

识别包括所述可操作元素的标识的语音指令；

响应所述语音指令，对所述当前界面执行对应操作。

2.根据权利要求1所述的方法，其特征在于，当所述当前界面上显示有光标时，所述可操作元素包括所述光标，所述可操作元素的标识包括用于指示所述光标移动方向的至少一个方向标识；

对应地，所述识别包括所述可操作元素的标识的语音指令，包括：识别包括所述方向标识的语音指令；

所述响应所述语音指令，对所述当前界面执行对应操作，包括：

响应所述语音指令，对所述光标执行与所述方向标识对应的方向的光标移动操作。

3.根据权利要求1所述的方法，其特征在于，当所述当前界面上显示有光标时，所述可操作元素包括所述光标，所述可操作元素的标识包括用于指示打开右键菜单的菜单标识；

对应地，所述识别包括所述可操作元素的标识的语音指令，包括：识别包括所述菜单标识的语音指令；

响应所述语音指令，在所述光标的显示位置执行右键点击操作，以打开所述右键菜单。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收唤醒指令，基于接收到的唤醒指令控制所述电子设备处于唤醒状态；

对应地，所述按照预设编码规则，对所述可操作元素进行编码，得到所述可操作元素的标识，包括：

当所述电子设备处于所述唤醒状态时，按照所述预设编码规则，对所述可操作元素进行编码，得到所述可操作元素的标识。

5.根据权利要求4所述的方法，其特征在于，所述唤醒指令中包括操作类型；

当接收到所述唤醒指令时，将当前界面中能够执行与所述操作类型对应的操作的可操作元素，确定为目标可操作元素；

根据所述目标可操作元素在所述当前界面上的位置，依次对每一目标可操作元素进行编码，得到每一目标可操作元素的标识。

6.根据权利要求1所述的方法，其特征在于，所述识别包括所述可操作元素的标识的语音指令，包括：

对采集的语音信息进行语义分析，得到语义分析结果；

当所述语义分析结果表明所述语音信息中包括任一可操作元素的标识时，将所述语音信息确定为包括所述可操作元素的标识的语音指令。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

当获取到包括所述可操作元素的标识的语音指令时，在对应所述标识的预设区域内，显示预定光标提醒标记，以提醒当前正在对与所述标识对应的可操作元素进行操作。

8.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

当存在与所述语音指令对应的关联操作指令时，存储所述语音指令并等待接收所述关联操作指令；

当在预设时间内接收到所述关联操作指令时，同时响应所述语音指令和所述关联操作指令；

当在预设时间内未接收到所述关联操作指令时，禁止响应所述语音指令。

9.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

当所述当前界面发生更新时，删除所述可操作元素的标识；

对更新后的显示界面的可操作元素进行编码。

10.一种界面操作装置，其特征在于，包括：

11.一种界面操作设备，其特征在于，包括：

存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至9任一项所述的方法。

12.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至9任一项所述的方法。