CN118588070A

CN118588070A - 语音控制方法及电子设备

Info

Publication number: CN118588070A
Application number: CN202310256205.5A
Authority: CN
Inventors: 高雄
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2024-09-03
Also published as: WO2024179203A1

Abstract

本申请提供语音控制方法及电子设备，涉及终端技术领域。本申请电子设备可自适应的匹配界面对应的语音交互实例，基于该语音交互实例实现电子设备的语音控制，降低开发难度，提升用户使用体验。该方法包括：电子设备响应于用户操作，启动第一应用程序后，可获取到第一应用程序对应的语音用户界面描述语言配置文件。之后，电子设备可基于第一应用程序的界面的显示信息和语音用户界面描述语言配置文件，生成至少一个语音交互实例。之后，电子设备在接收到用户语音后，可在该至少一个语音交互实例中确定与用户语音关联的目标语音交互实例，执行该目标语音交互实例指示的用户语音对应的第一行为。

Description

语音控制方法及电子设备

技术领域

本申请实施例涉及终端技术领域，尤其涉及一种语音控制方法及电子设备。

背景技术

随着终端技术的发展，电子设备(如手机、平板等)可支持语音用户界面(voiceuser interface，VUI)，便于用户在不方便手动操作电子设备时，通过语音控制电子设备。

一般的，电子设备在界面显示过程中，通过标识等方式标记界面显示内容。电子设备通过语音助手检测到用户指示对某标识的语音命令后，可触发点击该标识标记的显示内容，从而实现语音控制。

但是在上述方法中，在应用程序开发阶段，开发人员就需要单独配置各个界面的显示内容对应的标识，以便于后续用户语音控制过程中的标识显示，增加开发难度。并且，电子设备在界面上显示多个标识，用户需要辨识标识内容，语音控制难度较大。

发明内容

为了解决上述的技术问题，本申请提供了一种语音控制方法及电子设备。本申请提供的技术方案，电子设备可自适应的匹配界面对应的语音交互实例，基于该语音交互实例实现电子设备的语音控制，降低开发难度，提升用户使用体验。

为了实现上述的技术目的，本申请提供了如下技术方案：

第一方面，提供一种语音控制方法，应用于电子设备。该方法包括：响应于用户的第一操作，启动第一应用程序。获取第一应用程序对应的第一语音用户界面描述语言配置文件。根据第一应用程序的第一界面的显示信息和第一语音用户界面描述语言配置文件，生成至少一个第一语音交互实例。接收用户的第一语音，确定至少一个第一语音交互实例中与第一语音关联的第一目标语音交互实例，执行第一目标语音交互实例指示的第一语音对应的第一行为。

如此，电子设备基于获取到的应用程序对应的语音用户界面描述语言配置文件和界面显示信息，可自适应的生成语音交互实例，从而实现后续对于应用程序的语音控制。并且，基于预先定义的语音用户界面描述语言，获取的语音用户界面描述语言配置文件，能够有效简化开发人员在应用程序语音交互功能开发过程中的编码难度。

根据第一方面，执行第一目标语音交互实例指示的第一语音对应的第一行为，包括：通过调用应用程序接口执行第一行为；或者，对第一界面上第一语音对应的界面元素执行第一行为。

根据第一方面，或者以上第一方面的任意一种实现方式，应用程序接口包括第一应用程序的接口或第二应用程序的接口。

比如，电子设备确定第一目标语音交互实例指示的第一行为是回调应用程序，基于第一目标语音交互实例中目标节点指示的回调方法，电子设备可回调第一应用程序的接口，由第一应用程序执行相应的行为；或电子设备可回调第二应用程序的接口，由第二应用程序执行相应的行为；或电子设备可回调第一应用程序的接口，由第一应用程序调用第二应用程序的接口，再由第二应用程序执行相应的行为。

如此，电子设备可通过调用应用程序接口，实现应用程序自适应的执行第一语音对应的第一行为，从而实现更加灵活的语音交互。

根据第一方面，或者以上第一方面的任意一种实现方式，对第一界面上第一语音对应的界面元素执行的第一行为包括对界面元素执行如下一项或几项操作：点击、轻点、滑动、放大。

如此，通过语音交互实例，电子设备可灵活的确定用于语音指示的对于界面元素的第一行为，从而实现对于应用程序的控制。

根据第一方面，或者以上第一方面的任意一种实现方式，第一语音为唤醒词或与热词匹配。

一些示例中，热词为第一目标语音交互实例指示的热词集合中的热词，和/或，热词为根据第一界面对应的业务场景确定的热词。

比如，电子设备接收到用户的第一语音，确定该第一语音为唤醒词，可唤醒语音助手，以进行后续的语音交互。

又比如，电子设备接收用户的第一语音，确定该第一语音与热词匹配，可确定匹配的热词对应的第一目标语音交互示例。其中，热词的匹配包括精准匹配和模糊匹配。其中，精准匹配用于表示第一语音为热词。如热词为放大，电子设备检测到的第一语音为放大，可确定第一语音与热词匹配。模糊匹配用于表示基于业务场景为热词添加前缀、后缀后与第一语音相同。如热词为按钮，业务场景为开关场景，电子设备检测到第一语音为启动按钮，可确定第一语音与热词匹配。

如此，基于不同的业务场景，电子设备可扩展或模糊化处理界面元素对应的热词，从而降低用户记忆热词的难度，提升用户的使用体验。

此外，语音用户界面描述语言配置文件定义的语音交互实例能够不局限于目前的对话式语音交互范式，进而实现在多种业务场景中的多种语音交互方式，提升用户的使用体验。

根据第一方面，或者以上第一方面的任意一种实现方式，至少一个第一语音交互实例分别对应于第一界面上的界面元素，或至少一个第一语音交互实例对应于第一界面。

示例性的，电子设备可基于不同的粒度生成语音交互实例。比如，电子设备确定应用界面上可生成语音交互实例的界面元素，并分别生成该确定的每一界面元素对应的语音交互实例。又比如，电子设备生成应用界面对应的一个语音交互实例，该语音交互实例可用于定义当前应用界面上不同界面元素对应的语音交互规则。再比如，电子设备生成对应于界面元素的语义交互实例以及对应于应用界面的语音交互实例，即，语音交互实例用于定于界面元素的语音交互规则以及该界面元素所在的应用界面的语音交互规则。

如此，基于获取到的不同的界面显示信息，电子设备可灵活的生成界面或界面元素对应的语音交互实例，基于不同的粒度可生成相应的语音交互实例，从而增加语音交互实例生成的灵活性。

根据第一方面，或者以上第一方面的任意一种实现方式，第一语音用户界面描述语言配置文件对应于第一界面，方法还包括：响应于用户的第二操作，确定启动第一应用程序的第二界面。获取第二界面的显示信息，以及第二界面对应的第二语音用户界面描述语言配置文件。根据第二界面的显示信息和第二语音用户界面描述语言配置文件，生成至少一个第二语音交互实例。接收用户的第二语音，确定至少一个第二语音交互实例中与第二语音关联的第二目标语音交互实例，执行第二目标语音交互实例指示的第二语音对应的第二行为。

根据第一方面，或者以上第一方面的任意一种实现方式，方法还包括：响应于用户的第三操作，确定第一应用程序的第三界面的显示信息；根据第三界面的显示信息和第一语音用户界面描述语言配置文件，生成至少一个第三语音交互实例。接收用户的第三语音，确定至少一个第三语音交互实例中与第三语音关联的第三目标语音交互实例，执行第三目标语音交互实例指示的第三语音对应的第三行为。

一些示例中，应用程序中不同的界面对应于不同的语音用户界面描述语言配置文件。如一个应用程序安装包中打包有对应于不同界面的多个语音用户界面描述语言配置文件。另一些示例中，相同应用程序中不同的界面对应于相同的语音用户界面描述语言配置文件，如一个应用程序安装包中打包有一个语音用户界面描述语言配置文件。一些示例中，不同应用程序对应于不同的语音用户界面描述语言配置文件。

如此，灵活的打包语音用户界面描述语言配置文件，满足应用程序基于语音用户界面描述语言配置文件生成语音交互实例的需求。

根据第一方面，或者以上第一方面的任意一种实现方式，方法还包括：销毁至少一个第一语音交互实例。

一些示例中，电子设备在切换应用程序、或切换应用界面、或界面元素变化后，可销毁已经生成的至少一个第一语音交互实例。从而电子设备可根据新的显示信息，确定新的语音交互实例，避免历史语音交互实例影响当前新生成的语音交互实例的执行。

根据第一方面，或者以上第一方面的任意一种实现方式，获取第一应用程序对应的第一语音用户界面描述语言配置文件，包括：获取第一应用程序的安装包。获取安装包中预配置的第一语音用户界面描述语言配置文件。

如此，基于打包好的语音用户界面描述语言配置文件，电子设备可自适应的生成应用程序对应的语音交互实例，实现后续电子设备的语音交互控制，满足用户对于应用程序的灵活使用需求。

根据第一方面，或者以上第一方面的任意一种实现方式，第一界面的显示信息包括第一应用界面对应的显示数据、第一应用程序的第一标识、第一应用界面的第二标识、第一界面上显示的界面元素的第三标识中的一项或几项。

第二方面，提供一种电子设备。该电子设备包括：处理器和存储器，存储器与处理器耦合，存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当处理器从存储器中读取计算机指令，使得电子设备执行：响应于用户的第一操作，启动第一应用程序。获取第一应用程序对应的第一语音用户界面描述语言配置文件。根据第一应用程序的第一界面的显示信息和第一语音用户界面描述语言配置文件，生成至少一个第一语音交互实例。接收用户的第一语音，确定至少一个第一语音交互实例中与第一语音关联的第一目标语音交互实例，执行第一目标语音交互实例指示的第一语音对应的第一行为。

根据第二方面，执行第一目标语音交互实例指示的第一语音对应的第一行为，包括：通过调用应用程序接口执行第一行为；或者，对第一界面上第一语音对应的界面元素执行第一行为。

根据第二方面，或者以上第二方面的任意一种实现方式，应用程序接口包括第一应用程序的接口或第二应用程序的接口。

根据第二方面，或者以上第二方面的任意一种实现方式，对第一界面上第一语音对应的界面元素执行的第一行为包括对界面元素执行如下一项或几项操作：点击、轻点、滑动、放大。

根据第二方面，或者以上第二方面的任意一种实现方式，第一语音为唤醒词或与热词匹配。

根据第二方面，或者以上第二方面的任意一种实现方式，热词为第一目标语音交互实例指示的热词集合中的热词，和/或，热词为根据第一界面对应的业务场景确定的热词。

根据第二方面，或者以上第二方面的任意一种实现方式，至少一个第一语音交互实例分别对应于第一界面上的界面元素，或至少一个第一语音交互实例对应于第一界面。

根据第二方面，或者以上第二方面的任意一种实现方式，第一语音用户界面描述语言配置文件对应于第一界面，当处理器从存储器中读取计算机指令，还使得电子设备执行：响应于用户的第二操作，确定启动第一应用程序的第二界面。获取第二界面的显示信息，以及第二界面对应的第二语音用户界面描述语言配置文件。根据第二界面的显示信息和第二语音用户界面描述语言配置文件，生成至少一个第二语音交互实例。接收用户的第二语音，确定至少一个第二语音交互实例中与第二语音关联的第二目标语音交互实例，执行第二目标语音交互实例指示的第二语音对应的第二行为。

根据第二方面，或者以上第二方面的任意一种实现方式，当处理器从存储器中读取计算机指令，还使得电子设备执行：响应于用户的第三操作，确定第一应用程序的第三界面的显示信息；根据第三界面的显示信息和第一语音用户界面描述语言配置文件，生成至少一个第三语音交互实例。接收用户的第三语音，确定至少一个第三语音交互实例中与第三语音关联的第三目标语音交互实例，执行第三目标语音交互实例指示的第三语音对应的第三行为。

根据第二方面，或者以上第二方面的任意一种实现方式，当处理器从存储器中读取计算机指令，还使得电子设备执行：销毁至少一个第一语音交互实例。

根据第二方面，或者以上第二方面的任意一种实现方式，获取第一应用程序对应的第一语音用户界面描述语言配置文件，包括：获取第一应用程序的安装包。获取安装包中预配置的第一语音用户界面描述语言配置文件。

根据第二方面，或者以上第二方面的任意一种实现方式，第一界面的显示信息包括第一应用界面对应的显示数据、第一应用程序的第一标识、第一应用界面的第二标识、第一界面上显示的界面元素的第三标识中的一项或几项。

第二方面以及第二方面中任意一种实现方式所对应的技术效果，可参见上述第一方面及第一方面中任意一种实现方式所对应的技术效果，此处不再赘述。

第三方面，本申请提供一种电子设备，该电子设备具有实现如上述第一方面及其中任一种可能的实现方式中所述的语音控制方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应地软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

第三方面以及第三方面中任意一种实现方式所对应的技术效果，可参见上述第一方面及第一方面中任意一种实现方式所对应的技术效果，此处不再赘述。

第四方面，本申请提供一种计算机可读存储介质。计算机可读存储介质存储有计算机程序(也可称为指令或代码)，当该计算机程序被电子设备执行时，使得电子设备执行第一方面或第一方面中任意一种实施方式的方法。

第四方面以及第四方面中任意一种实现方式所对应的技术效果，可参见上述第一方面及第一方面中任意一种实现方式所对应的技术效果，此处不再赘述。

第五方面，本申请提供一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行第一方面或第一方面中任意一种实施方式的方法。

第五方面以及第五方面中任意一种实现方式所对应的技术效果，可参见上述第一方面及第一方面中任意一种实现方式所对应的技术效果，此处不再赘述。

第六方面，本申请提供一种电路系统，电路系统包括处理电路，处理电路被配置为执行第一方面或第一方面中任意一种实施方式的方法。

第六方面以及第六方面中任意一种实现方式所对应的技术效果，可参见上述第一方面及第一方面中任意一种实现方式所对应的技术效果，此处不再赘述。

第七方面，本申请提供一种芯片系统，包括至少一个处理器和至少一个接口电路，至少一个接口电路用于执行收发功能，并将指令发送给至少一个处理器，当至少一个处理器执行指令时，至少一个处理器执行第一方面或第一方面中任意一种实施方式的方法。

第七方面以及第七方面中任意一种实现方式所对应的技术效果，可参见上述第一方面及第一方面中任意一种实现方式所对应的技术效果，此处不再赘述。

附图说明

图1为本申请实施例提供的界面的示意图一；

图2为本申请实施例提供的界面的示意图二；

图3为本申请实施例提供的电子设备类型示意图；

图4为本申请实施例提供的电子设备的硬件结构示意图；

图5为本申请实施例提供的电子设备的软件结构框图；

图6为本申请实施例提供的一种语音用户界面描述语言的实例样例示意图；

图7为本申请实施例提供的模块交互示意图；

图8为本申请实施例提供的界面的示意图三；

图9为本申请实施例提供的界面的示意图四；

图10为本申请实施例提供的界面的示意图五；

图11为本申请实施例提供的界面的示意图六；

图12为本申请实施例提供的语音交互方法的流程示意图；

图13为本申请实施例提供的界面的示意图七；

图14为本申请实施例提供的界面的示意图八；

图15为本申请实施例提供的界面的示意图九；

图16为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本申请以下各实施例中，“至少一个”、“一个或多个”是指一个或两个以上(包含两个)。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。术语“连接”包括直接连接和间接连接，除非另外说明。“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

在本申请实施例中，“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。

在一些实施例中，部分电子设备(如手机、平板等)可支持语音用户界面(voiceuser interface，VUI)，便于用户在不方便手动操作电子设备时，通过语音控制电子设备。

示例性的，如图1中(a)所示，电子设备在显示界面101的过程中，检测到用户发出的预设语音命令，唤醒语音助手，确定用户指示通过语音控制电子设备。那么，如图1中(b)所示，电子设备识别当前界面101显示内容，并通过标识标记该显示内容后，显示界面102，该界面102为VUI。例如，电子设备识别桌面上显示的图标，并通过序号标识标记识别到的各个图标。之后，电子设备检测到用户指示对某标识的语音命令后，可触发操作该标识对应的控件。例如，电子设备在显示界面102的过程中，检测到用户的语音命令“打开标识⑧”。响应于该语音命令，电子设备可确定用户指示点击设置图标，那么电子设备可启动设置图标对应的设置应用程序。之后，如图1中(c)所示界面103，电子设备在显示设置应用程序的界面的过程中，仍通过标识标记对应的控件，便于用户的语音控制。

又示例性的，电子设备在无法识别显示内容的情况下，可通过网格标识无法识别的区域，响应于用户对标识的语音命令，电子设备可控制标识对应的网格区域中的显示内容。比如，如图2中(a)所示界面201，电子设备在显示地图应用程序的过程中，响应于用户的预设语音命令，启动语音助手后，确定无法识别当前界面显示内容(如无法识别到当前界面显示的控件)，可将界面显示内容进行网格化的划分，并标识划分后的各个区域。之后，如电子设备检测到用户的语音命令“放大区域②”，可确定区域②对应的显示内容，并放大该显示内容，显示如图2中(b)所示界面202。

可以看出，上述各个示例中，电子设备虽然能够满足用户的语音控制需求，但是电子设备需要配置有文字识别能力，才能够识别当前界面的显示内容。并且，开发人员在应用程序开发过程中，需要单独配置各个界面的显示内容(如控件)对应的标识，以便于后续用户语音控制过程中的标识显示，开发难度较高。

此外，界面显示标识后，会导致界面显示较为杂乱，用户需要在多个标识中辨识所需控制的显示内容对应的标识，操作难度较高，影响用户使用体验。

由此，本申请提供了一种语音控制方法，电子设备可自适应的匹配界面对应的语音交互实例，基于该语音交互实例实现电子设备的语音控制，降低开发难度，提升用户使用体验。

本申请实施例提供的语音控制方法，可以应用于电子设备100。例如，如图3所示，该电子设备100具体可以是手机31、平板电脑32、智慧屏33、笔记本电脑34、可穿戴设备(如智能手表35)、车载设备36、智能音箱、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、人工智能(artificial intelligence，AI)设备等终端设备。电子设备100安装的操作系统包括但不限于或者其它操作系统。本申请对电子设备100的具体类型、所安装的操作系统均不作限制。

示例性的，图4示出了电子设备100的一种结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriberidentification module，SIM)卡接口195等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，例如采用有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Mini-led，Micro-led，Micro-oled，量子点发光二极管(quantumdot light emitting diodes，QLED)等生产制造。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

在一些实施例中，电子设备100通过麦克风170C接收到用户语音，并通过处理器110确定检测到的用户语音与预先配置的热词匹配。那么，电子设备100可确定热词对应的预设操作，并执行该预设操作。

传感器模块180可以包括压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，接近光传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，骨传导传感器等。

触摸传感器，也称“触控器件”。触摸传感器可以设置于显示屏194，由触摸传感器与显示屏194组成触摸屏，也称“触控屏”。触摸传感器用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

在一些实施例中，电子设备100通过触摸传感器检测到用户在显示屏194上的触摸操作，确定该触摸操作为预先配置的动作。那么，电子设备100可确定该动作对应的预设操作，并执行该预设操作。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图5是本申请实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图5所示，应用程序包可以包括日历，联系人，备忘录，相机，音乐，图库，地图，通话，视频等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图5所示，应用程序框架层可以包括声音引擎、窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

声音引擎作为语音交互引擎，可用于接收应用程序层中的应用程序发送的语音交互规则，并可获取到系统库生成的当前应用程序待显示的界面显示数据，从而根据语音交互规则和界面显示数据生成当前显示界面对应的语音交互实例。之后，声音引擎可指示内核层中的音频驱动监测用于语音，确定是否触发语音交互实例。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。Android runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，二维图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

二维图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

在一些实施例中，电子设备支持语音用户界面(voice user interface，VUI)，用户通过自然语言可与电子设备进行交互，实现电子设备的控制、信息的查询等。例如，用户可通过语音控制电子设备打开应用程序、查询目的地地址并启动导航等。

一些示例中，电子设备可配置或未配置语音助手。其中，语音助手例如包括等。

一些示例中，为实现电子设备的语音交互功能，在应用程序开发阶段，开发人员基于语音用户界面描述语言(voice user interface description language，VUIDL)，编写应用界面的语音交互规则，生成VUIDL配置文件。其中，VUIDL配置文件用于后续电子设备在运行应用程序的过程中生成不同应用界面对应的语音交互实例。

可选地，一个应用界面可对应于一个或多个语音交互实例。比如，一个应用界面对应于一个语音交互实例，该语音交互实例用于定义当前界面上包括的一个或多个界面元素对应的语音交互规则。又比如，一个应用界面对应于一个或多个语音交互实例，其中不同的语音交互实例用于定义当前界面上包括的不同的界面元素对应的语音交互规则。其中，界面元素包括应用界面上的显示数据，该显示数据如为应用界面包括的控件、容器等。

其中，VUIDL为一种基于图形用户界面(graphics user interface，GUI)框架之上描述语音交互的界面描述语言。

可选地，开发人员可将该VUIDL配置文件打包至应用程序安装包，随应用程序安装包一起打包发布。这样后续电子设备在下载应用程序后，可获取到其中的VUIDL配置文件。在界面显示过程中，电子设备基于VUIDL配置文件，通过识别应用界面显示数据，自动生成该应用界面对应的语音交互实例，从而实现语音交互。

另一些示例中，电子设备支持用户可定义的VUIDL。这样，电子设备在应用程序安装后，响应于用户操作，基于该VUIDL，生成用户自定义的语音交互实例。应理解，电子设备支持用户自定义语音交互实例的情况下，应用程序安装包中可预先打包VUIDL配置文件，并提供相应的用户可编辑接口，或者应用程序安装包中也可不包括初始的VUIDL配置文件，而直接开放给用户自行定义和编辑，以生成相应的语音交互实例。

比如，电子设备在运行应用程序的过程中，响应于用户对应用界面上某界面元素的操作，可显示提示信息，用于提示用户可触发编辑该界面元素对应的语音交互实例。例如，用户可自定义添加界面元素对应的触发条件、热词、触发后的行为等。其中用户自定义生成语音交互实例的详细内容可参见下文步骤S1202所述的相关内容，在此不再赘述。

此外，VUIDL配置文件可以是特定地用于匹配某个应用的配置文件，也可以是通用性地可匹配多种应用的配置文件。

可以看出，相比于目前在应用程序开发阶段，针对应用程序的每一界面中包括的显示数据，配置相应的标识以及各个标识对应的界面元素的语音交互规则。本申请实施例提供的语音控制方法，通过预先定义VUIDL，降低应用程序语音交互功能的开发难度。

如下对语音用户界面描述语言进行介绍。

可选地，图6为本申请实施例提供的一种语音用户界面描述语言的实例样例。其中，下表1中示出该实例样例中各节点的具体含义。其中，根节点(MetaVUIDLSet)包括的元语音交互(meta voice interact，MVI)描述配置集合为最小的语音交互描述定义。例如，在实例样例中每一Object节点下包括一个元语音描述配置集合，该元语音描述配置集合包括语音识别过程对应的目标(target)、处理类型(type)、场景(scene)、触发条件(condition)、热词集合(hotwordSet)、行为(action)。

表1

MetaVUIDLSet	根节点为由多个元语音交互描述配置集合组成
		target	用于指示语音识别后处理的目标
type	用于指示语音识别后处理的类型
		meta_vui	用于指示元语音交互描述
scene	用于指示语音交互的场景
		condition	用于指示语音识别过程的触发条件
hotwordSet	用于指示语音识别的热词集合
		action	用于指示语音识别后的行为

示例性的，如上表1所示，热词节点(hotwordSet)用于指示语音识别的热词集合。其中，热词用于表示触发电子设备行为(action)的自然语言，可由开发人员根据应用程序的语音交互需求进行自定义的配置。

比如，如图6所示，热词节点(hotwordSet)指示的热词为详情。那么后续电子设备接收到用户的语音命令，确定该语音命令中包括“详情”后，可触发显示界面元素对应的详情页。

又比如，如图6所示，热词节点(hotwordSet)指示的热词为放大。那么后续电子设备接收到用户的语音命令，确定该语音命令中包括“放大”后，可触发放大相应的界面元素。示例性的，如上表1所示，目标(target)节点可用于指示语音识别后处理的目标，如表示元语音描述配置指示的行为(action)作用的目标。如下表2所示，示例出target的两种实现方式。例如，响应于接收到的用户语音命令，电子设备可确定该语音命令指示处理的目标为界面上显示的界面元素，那么电子设备可根据目标节点指示的界面元素的标识，将行为(action)作用于相应的界面元素。或者，该语音命令指示处理的目标为回调到对应的应用程序，那么电子设备可将该语音命令回调至应用程序，由应用程序确定待执行的行为(action)。其中，在目标节点指示的目标为功能(function)的情况下，电子设备可根据function指示的应用程序的回调方法，调用当前显示的应用程序，或调用其他应用程序，或通过当前显示的应用程序调用其他应用程序。

应理解，下表2所示的目标(target)节点内容为可扩展内容，开发人员可根据实际需求对目标(target)节点内容进行扩展。比如，电子设备可支持跨设备的语音交互，如开发人员确定可通过该电子设备操作其他设备中的应用程序中的某个模块。那么，目标(target)节点可用于指示其他设备id、该设备中的应用程序id以及该应用程序中待操作的模块的id。

表2

分类	描述
		R.id.xxx	界面的界面元素的标识(id)。
function	应用程序的回调方法。

示例性的，如上表1所示，类型(type)节点用于指示语音识别后处理的类型，该类型对应于目标节点指示的目标。如下表3所示，示例出type的两种实现方式。例如，响应于接收到的用户语音命令，电子设备可确定该语音命令的处理类型为针对界面元素(View)进行交互，电子设备可根据如上表2所示的目标节点中R.id.xxx指示的界面元素的标识，将行为作用于相应的界面元素；或者，该语音命令的处理类型为针对界面逻辑进行交互，电子设备可根据如上表2所示的目标节点中function指示的应用程序的回调方法，将该语音命令回调至相应的应用程序，由应用程序触发相应的逻辑交互。

应理解，下表3所示的类型(type)节点内容为可扩展内容，开发人员可根据实际需求对类型(type)节点内容进行扩展。

表3

分类	描述
		view	表示当前语音交互针对界面元素(View)进行交互
logic	表示当前语音交互针对界面逻辑进行交互

示例性的，如上表1所示，场景(scene)节点用于指示语音交互的场景，在确定的场景中能够更加精准的进行热词识别，便于对热词进行扩展和模糊化处理。可选地，热词的扩展和模糊化处理例如包括增加热词的前缀、后缀等，在不同的场景中热词可匹配到的前缀或后缀不同。如下表4所示，示例出scene的四种实现方式，其中不同场景对应的热词可能不同。

比如，执行器场景用于表示一些电子设备需要进行热词转换，以便于程序执行的场景。例如，用户需要调节灯光颜色，语音命令为“将灯光调节成红色”，其中程序无法直接识别“红色”。电子设备需要对颜色进行转换，将其转换为程序可识别的RGB值，这样程序可对目标执行对应的行为。那么，将场景节点设置为执行器场景后，电子设备接收到语音命令后，可确定需要进行进一步的语音分析，以将语音命令转换为程序可识别内容。

又比如，原文识别场景用于表示用户发出的语音命令中需要包括对应的热词。如热词为放大，那么电子设备在检测到“放大”、“把这个放大”等语音命令后，基于原文识别场景可确定识别到热词放大。那么，电子设备可对目标执行对应的行为。

又比如，页面场景用于表示触发显示另一个页面的场景。例如，电子设备在检测到“打开”，“启动”等语音命令后，可打开或启动相应目标(如界面元素标识对应的界面元素)对应的页面。

再比如，开关场景用于表示开启、关闭的场景。例如，热词为按钮。在开关场景中，电子设备可设置对热词进行扩展和模糊处理，如“打开按钮”、“点按钮”、“启动按钮”、“关闭按钮”等。后续电子设备检测到在开关场景中检测到这些模糊匹配的热词后，可确定执行开启或关闭对应的目标。

应理解，下表4所示的场景(scene)节点内容为可扩展内容，开发人员可根据实际需求对场景(scene)节点内容进行扩展。

表4

分类	描述
		executor	表示执行器场景
common	表示原文识别场景
		page	表示页面场景
switch	表示开关场景

示例性的，如上表1所示，触发条件(condition)节点用于指示语音识别过程的触发条件。如下表5所示，示例出condition的三种实现方式，电子设备在确定满足相应的触发条件时，可确定触发启动语音识别过程。其中，如下表5所示，condition节点内容包括@{触发者}:{状态或者行为}，例如，触发条件@voice:wake用于指示语音的唤醒，如在语音助手被唤醒后，触发启动语音识别过程。

一些示例中，电子设备检测到用户语音命令与上述热词节点指示的热词匹配的情况下，也可直接触发启动语音识别过程。即，电子设备未配置或未启动语音助手的情况下，也可实现语音控制。

一些示例中，如下表5所示，触发条件还可以包括用户在应用界面上对于界面元素的操作，该操作也可触发执行相应的行为。即，用户可通过语音或界面操作触发电子设备执行对应于当前应用界面的行为。

应理解，下表5所示的触发条件(condition)节点内容为可扩展内容，开发人员可根据实际需求对触发条件(condition)节点内容进行扩展。

表5

分类	描述
		@voice:wake	语音唤醒
@view:press	界面元素被按下
		@view:drag	界面元素被拖拽

示例性的，如上表1所示，行为(action)节点用于指示语音识别后的行为，该行为可作用于target节点指示的目标。如下表6所示，示例出action的五种实现方式。例如，action节点指示的行为是点击target节点指示的界面元素id对应的界面元素。又例如，action节点指示的行为是回调应用程序方法，电子设备可根据target节点指示的应用程序的回调方法，确定具体的应用程序回调方法。如该回调方法用于指示回调当前显示的应用程序、回调其他应用程序、通过当前显示的应用程序回调其他应用程序等。

应理解，下表6所示的行为(action)节点内容为可扩展内容，开发人员可根据实际需求对行为(action)节点内容进行扩展。

表6

在一些实施例中，开发人员在获取到语音用户界面描述语言(VUIDL)后，可根据应用程序的界面显示数据，配置不同界面对应的语音交互规则，以生成VUIDL配置文件。

可选地，开发人员在应用程序开发过程中，根据应用程序A的界面1、界面2、……、界面n的显示数据，按照上述语音用户界面描述实例样例，编写应用界面的语音交互规则，生成VUIDL配置文件。

比如，如上表1所述，元语音描述配置集合包括语音识别过程对应的目标(target)、处理类型(type)、场景(scene)、触发条件(condition)、热词集合(hotwordSet)、行为(action)。

以触发条件为语音唤醒为例，开发人员可根据获取到的VUIDL，创建元交互(metainteraction)，生成的VUIDL配置文件可包括该元交互。其中，在一个元交互中可定义一个元数据(metaId)，以及该metaId指示的目标(target)和行为(action)。其中metaId用于指示热词对应的唯一标识。例如如图7所示，在后续声音识别过程中，声音服务73用于识别用户语音，在确定用户语音包括热词后，声音服务73可将该热词对应的标识发送至声音引擎72。声音引擎72根据该标识，可确定声音服务73识别到的热词，进而确定对应的元交互。基于元交互，声音引擎72可确定该标识对应的目标(target)和行为(action)。

其中，开发人员基于待生成VUIDL配置文件的界面的显示数据中包括的界面元素，确定某个metaId对应的目标(target)指示的界面元素id(如R.id.xxx)或界面元素对应的回调方法(function)，以及该metaId对应的行为(action)的类型参数(type params)，该类型参数如包括对应于界面元素id的点击、滑动、放大等操作，或者对应于function的回调应用程序方法。即，基于VUIDL，通过元交互建立VUIDL指示的目标(target)和行为(action)之间的映射关系。

如此，通过预先定义的语音用户界面描述语言，生成VUIDL配置文件，能够有效简化开发人员在应用程序语音交互功能开发过程中的编码难度。

此外，开发人员可基于语音用户界面描述语言，根据应用程序的实际需求，生成VUIDL配置文件，从而使得该VUIDL配置文件定义的语音交互能够不局限于目前的对话式语音交互范式，进而实现在多种场景中的多种语音交互方式，提升用户的使用体验。

在一些实施例中，电子设备在下载应用程序安装包后，解压该应用程序安装包，可获取到其中已经打包的VUIDL配置文件。

一些示例中，在应用程序升级后，开发人员可确认是否需要更新升级后的应用程序的VUIDL配置文件。若需要更新VUIDL配置文件，开发人员可将更新后的VUIDL配置文件打包至对应的应用程序安装包中。后续，电子设备在应用程序升级过程中，可下载新的应用程序安装包，从而获取其中已经打包的更新后的VUIDL配置文件。

在一些实施例中，响应于用户操作，电子设备启动应用程序并显示应用界面，可触发启动声音引擎。声音引擎启动后，可获取到电子设备当前启动的应用程序对应的VUIDL配置文件。之后声音引擎可根据该VUIDL配置文件，确定当前显示的应用界面对应的语音交互实例。其中，作为一种可能的示例，语音交互实例中包括如上表1所示的相关内容，用于触发当前显示的应用界面对应的语音交互流程。

其中，用户启动应用程序的操作例如包括对应用程序图标的操作、对应用程序跳转链接的操作、切换显示应用程序的操作等。

其中，应用程序的程序类型包括但不限于系统应用程序，桌面应用程序，驱动应用程序，网络应用程序，功能应用程序，物联网应用程序等。其中，功能应用程序可以为视频应用程序、游戏应用程序、即时聊天类等。其中，物联网应用程序可以为视频监控应用程序、灯光控制应用程序等。

其中，应用程序显示的应用界面可以为应用程序运行过程中可能出现的任一界面，本申请实施例对应用界面的界面类型不做限定。示例性的，应用界面的界面类型可以是用于功能聚合入口的聚合展示界面(如应用程序的首页)。应用界面的界面类型还可以是用于完成某一功能的功能界面(如视频监控界面、设备控制界面、显示属性设置界面等)。应用界面的界面类型还可以是用于展示详细信息的内容界面(如视频播放界面、商品详情界面等)。

应理解，本申请实施例提供的各个模块可以集成在一个处理模块中，也可以是各个模块单独存在，也可以是两个或两个以上的模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。比如，声音引擎可以集成在应用程序中，也可单独在电子设备中以软件功能模块的形式实现。又比如，声音引擎中的功能模块可以集成在一个处理模块中，或者部分集成在应用程序中，部分集成在一个单独的处理模块中。此外，声音引擎也可描述为其他名称，如声音处理模块、语音交互实例处理模块、语音引擎等，本申请实施例对此不做限制。

一些示例中，声音引擎确定语音交互实例后，确定触发条件为语音唤醒，并确定相应的热词。那么，声音引擎可将确定的热词发送至声音服务，后续声音服务可通过如图4所示的音频模块170检测用户的语音，并确定用户语音是否与该热词匹配。在用户语音与热词匹配的情况下，声音服务可向声音引擎反馈该热词，从而声音引擎可根据已经确定的语音交互实例，确定对应的行为(action)。

可选地，热词的匹配过程包括精准匹配和模糊匹配。其中，精准匹配用于表示语音命令为热词。如热词为放大，声音服务检测到的语音命令为放大，可确定语音命令与热词匹配。模糊匹配用于表示热词添加不同业务场景对应的前缀、后缀后与语音命令相同。如热词为按钮，声音服务检测到语音命令为启动按钮，可确定语音命令与热词匹配。

示例性的，如图7所示，响应于用户操作，应用程序71启动，显示模块711确定待显示的应用界面后，可向声音引擎72发送启动信息，用于指示声音引擎72启动。声音引擎72启动后，向应用程序71发送VUIDL配置文件获取请求。

相应的，应用程序71在接收到VUIDL配置文件获取请求后，可通过处理模块712确定应用程序71的安装包中包括的VUIDL配置文件。之后，应用程序71可向声音引擎72发送VUIDL配置文件。

可选地，声音引擎72配置有用于传输VUIDL配置文件的接口，如VUIDL接口，声音引擎72通过VUIDL接口接收应用程序71发送的VUIDL配置文件。

例如，声音引擎72获取到如图6所示的VUIDL配置文件。

可选地，应用程序71还可确定当前显示模块711待显示的应用界面，并将该应用界面对应的显示信息发送至声音引擎72。例如，如图5所示的系统库可确定应用程序71待显示的应用界面对应的显示数据，该显示数据例如包括的应用界面对应的控件树(view tree)。并且，应用程序71可确定应用程序71的应用程序标识(如应用id)，待显示界面的界面id，待显示界面包括的界面元素的界面元素id等信息。之后，应用程序71在通过显示驱动显示应用界面前，可向声音引擎72发送该显示信息，该显示信息包括应用界面对应的显示数据、应用id、界面id、界面元素id等信息。相应的，声音引擎72可接收应用程序71发送的显示信息，例如声音引擎72通过VUIDL接口接收应用程序71发送的显示信息。

可选地，该待显示的界面可以为应用程序启动后，将要显示的界面。或者，电子设备也可后台启动应用程序，应用程序后台启动后，确定待运行的界面，进而可确定该界面的显示信息。下文以获取到的显示信息为待显示的界面的显示信息为例，对语音交互实例的生成过程进行介绍。例如，如图8所示，应用程序71待显示的界面为界面801。

之后，声音引擎72在接收到VUIDL配置文件和显示信息后，可基于VUIDL配置文件，配置当前显示信息对应的语音交互实例。

比如，如图7所示，声音引擎72通过引擎核心模块721生成语音交互实例。例如，对应于如图6所示的VUIDL配置文件以及如图8所示界面801对应的显示信息，引擎核心模块721根据该VUIDL配置文件和该显示信息，生成如下文所示的语音交互实例。

其中，如上述语音交互实例所示，引擎核心模块721根据显示信息中包括的界面801对应的界面元素id，将目标(target)节点内容确定为R.id.view，即确定语音识别后处理的目标为界面801中界面元素id对应的界面元素，如界面元素81。

引擎核心模块721确定类型(type)节点内容为view，即确定语音识别后处理的类型为界面801中的界面元素。

引擎核心模块721基于VUIDL配置文件，确定界面801对应的语音交互场景可包括页面场景(page)和原文识别场景(common)。那么，对应于不同的场景，引擎核心模块721可确定语音识别过程不同的触发条件(condition)、热词(hotwordSet)、以及行为(action)，并生成相应的元语音描述配置集合。

例如，引擎核心模块721基于VUIDL配置文件和显示信息，确定在页面场景(page)中，语音识别过程的触发条件为语音助手唤醒(如@voice:wake)，热词为详情，行为是点击(click)。之后，引擎核心模块721可将确定的节点内容添加到相应的节点中。

又例如，引擎核心模块721基于VUIDL配置文件和显示信息，确定在原文识别场景(common)中，语音识别过程的触发条件为语音助手唤醒(如@voice:wake)或界面元素被长按(@R.id.view:press)，热词为放大(如"放大"，"％s放大")，行为是放大对应的界面元素(zoomout)。之后，引擎核心模块721可将确定的节点内容添加到相应的节点中。其中，热词"％s放大"用于表示引擎核心模块721可动态的设置热词，如将热词设置为“放大”，“把这个放大”等。

应理解，如上述图8所示场景，声音引擎72在接收到VUIDL配置文件和显示信息后，可生成至少一个语音交互实例。例如，声音引擎72生成一个对应于界面801的语音交互实例。或者，声音引擎72生成分别对应于界面801上的界面元素的至少一个语音交互实例，如包括上述界面元素81对应的语音交互实例。

一些示例中，如图7所示，引擎核心模块721在确定语音交互实例后，可将语音交互实例中确定的触发条件发送至条件生成模块722，以及将语音交互实例中确定的热词发送至元语音管理模块723。相应的，条件生成模块722可更新存储的触发条件，并建立热词、触发条件以及行为间的对应关系。元语音管理模块723可更新存储的热词集合，并且可将热词发送至声音服务73。那么，声音服务73可通过处理模块731添加获取到的热词，生成热词集合，之后语音识别模块732将识别到的用户语音发送至处理模块731，处理模块731可确定用户语音是否为热词。若用户语音为热词，声音服务73可向声音引擎72反馈检测到的热词，元语音管理模块723在确定接收到的热词为已存储的热词集合中的热词后，可将热词发送至条件生成模块722。条件生成模块722可根据接收到的热词，确定该热词满足的触发条件，以及对应的行为，从而实现语音交互。

示例性的，如图8所示，应用程序71通过显示模块712显示界面801，并且声音引擎72已生成相应的语音交互实例。声音服务73通过语音识别模块732监测用户语音，例如确定检测到热词“详情”后，可将该热词“详情”的信息发送至声音引擎72。之后，声音引擎72中的元语音管理模块723确定声音服务73检测到热词“详情”为预配置的热词集合中的热词后，可将该热词发送至条件生成模块722。如上述语音交互实例所述，条件生成模块722可确定该热词“详情”满足页面场景(page)中的触发条件，可确定对应的行为是点击。那么，条件生成模块722可向执行模块724发送行为指示，用于指示执行模块724执行点击目标(target)字节指示的界面元素。

例如，如图8所示，上述语音交互实例中，目标(target)字节指示的界面元素id对应的界面元素为界面元素81。那么，声音引擎72响应于确定检测到的热词“详情”，在页面场景(page)中可触发点击界面元素81。那么，电子设备可显示如图9所示的界面元素81对应的灯光模式的详情页。

又示例性的，如图8所示，应用程序71通过显示模块712显示界面801，并且声音引擎72已生成相应的语音交互实例。声音服务73通过语音识别模块732监测用户语音，例如确定检测到热词“放大”后，可将该热词“放大”的信息发送至声音引擎72。之后，声音引擎72通过元语音管理模块723确定声音服务73检测到热词“放大”为预配置的热词集合中的热词后，可将该热词发送至条件生成模块722。如上述语音交互实例所述，条件生成模块722可确定该热词“放大”满足原文识别场景(common)中的触发条件，可确定对应的行为是放大。那么，条件生成模块722可向执行模块724发送行为指示，用于指示执行模块724执行放大目标(target)字节指示的界面元素。

例如，如图8所示，上述语音交互实例中，目标(target)字节指示的界面元素id对应的界面元素为界面元素81。那么，声音引擎72响应于确定检测到的热词“放大”，在原文识别场景(common)中可触发放大界面元素81。那么，电子设备可显示如图10所示界面1001，如附图标记101所示，在界面1001上放大显示灯光模式界面元素。

在一些实施例中，电子设备检测到用户指示切换该应用程序的其他应用界面的操作后，可确定销毁已经生成的语音交互实例。之后，电子设备再基于已经获取到的VUIDL配置文件以及切换后的应用界面的显示信息，确定切换后的应用界面对应的语音交互实例。

或者，电子设备检测到用户指示切换至其他应用程序的操作后，可确定销毁已经生成的语音交互实例。之后，电子设备再获取待显示的应用程序对应的VUIDL配置文件以及该应用程序的待显示的应用界面的显示信息，确定切换后的应用程序的应用界面对应的语音交互实例。

或者，电子设备在确定应用界面上的界面元素发生变化后，可销毁该界面元素对应的语音交互实例。

一些示例中，销毁语音交互实例例如包括声音引擎72指示引擎核心模块721销毁已生成的语音交互实例、条件生成模块722销毁已保存的触发条件、指示元语音管理模块723销毁已保存的热词集合、声音服务73指示处理模块731销毁已保存的热词集合等。

示例性的，电子设备在显示如图8所示的界面801的过程中，响应于用户操作，确定待显示如图11中(a)所示界面1101。其中，界面801和界面1101为相同应用程序中的不同界面。如图7所示，在此情况下声音引擎为启动状态，应用程序71可向声音引擎72发送销毁指示。相应的，声音引擎72在接收到该销毁指示后，可销毁应用程序71对应的语音交互实例。之后，声音引擎72可向应用程序71发送请求，以获取待显示的应用界面的显示信息。那么，应用程序71可确定当前显示模块711待显示的应用界面，并将该应用界面对应的显示信息发送至声音引擎72，该显示信息包括应用界面对应的显示数据、应用id、界面id、界面元素id等信息。相应的，声音引擎72可接收应用程序71发送的显示信息，例如声音引擎72通过VUIDL接口接收应用程序71发送的显示信息。

例如，如图11中(a)所示，应用程序71待显示的界面为界面1101。

之后，声音引擎72在接收到显示信息后，可基于已经获取到的应用程序71对应的VUIDL配置文件，配置当前显示信息对应的语音交互实例。

比如，如图7所示，声音引擎72通过引擎核心模块721生成如下文所示的语音交互实例。

示例性的，如图11所示，应用程序71通过显示模块712显示界面1101，并且声音引擎72已生成相应的语音交互实例。声音服务73通过语音识别模块732监测用户语音，例如确定检测到热词“放大”后，可将该热词“放大”的信息发送至声音引擎72。之后，声音引擎72通过元语音管理模块723确定声音服务73检测到热词“放大”为预配置的热词集合中的热词后，可将该热词发送至条件生成模块722。如上述语音交互实例所述，条件生成模块722可确定该热词“放大”满足放大场景中的触发条件，可确定对应的行为是视频放大。那么，条件生成模块722可向执行模块724发送行为指示。相应的，执行模块724在接收到行为指示后，根据上述语音交互实例，确定当前类型(type)节点指示的语音识别后处理的类型为logic，即表示当前语音交互针对界面逻辑进行交互。那么，执行模块724可通过接口向应用程序71发送处理指示，并在该处理指示中携带上述语音交互实例中target节点和action节点包括的信息。

相应的，应用程序71在接收到处理指示后，通过处理模块712响应该处理指示。比如，处理模块712根据处理指示中携带的target节点包括的信息，确定待执行此次语音交互的执行单元，如为video单元。之后，处理模块712可将action节点包括的信息发送至video单元。video单元可根据action节点包括的信息，执行相应的行为，如放大视频。其中，action节点包括的信息例如为执行单元待调用的接口的信息，如video单元调用videoZoomOut接口，可实现显示模块711放大显示视频。

例如，如图11中(a)所示界面1101，在上述语音交互实例中，目标(target)字节指示的内容为附图标记111所示的视频内容。那么，声音引擎72响应于确定检测到的热词“放大”和类型(type)为logic，可通过向应用程序回调方法，触发放大播放的视频。那么，电子设备可显示如图11中(b)所示界面1102，在界面1102上放大显示视频内容。

可以看出，如上述应用于视频放大场景的语音交互实例，开发人员可根据实际需求，自定义扩展VUIDL配置文件。例如，该语音交互实例的目标(target)节点内容，超出上述表2所示内容。

如此，通过预先定义的语音用户界面描述语言，简化VUIDL配置文件的生成，可适用于不同类型的应用程序，降低开发人员工作难度。并且，可基于不同的界面显示数据、场景等，动态生成热词，提升语音交互过程的灵活性，满足用户在多种场景中的个性化需求。

此外，通过VUIDL配置文件，在应用界面无文字的界面元素，基于该界面元素的id，也可支持配置相应的语音交互实例，实现语音交互控制。且对于未配置语音助手的电子设备，基于VUIDL配置文件，也可实现通过声音引擎实现语音交互。

并且，如界面801或界面1101所示，在语音交互过程中，电子设备无需再显示界面元素对应的标识，从而避免用户辨识标识，简化用户操作。

在一些实施例中，用户可自定义是否开启电子设备的语音交互功能、是否开启某些应用程序的语音交互功能等。

比如，电子设备响应于用户在设置应用程序中的操作，关闭电子设备的语音交互功能。

又比如，电子设备在运行应用程序的过程中，响应于用户在设置功能中的操作，关闭该应用程序的语音交互功能。

如此，电子设备通过预置语音交互功能的开启或关闭入口，满足用户的个性化需求。

示例性的，图12为本申请实施例提供的一种语音控制方法的流程示意图。如图12所示，该方法包括如下步骤。

S1201、电子设备响应于用户的第一操作，启动第一应用程序。

其中，第一操作例如包括对第一应用程序的图标的操作、语音控制操作、切换至第一应用程序的操作等用于指示启动第一应用程序的操作。第一应用程序为电子设备中安装的任一应用程序。启动第一应用程序包括前台启动运行第一应用程序，或后台启动运行第一应用程序。

S1202、电子设备获取第一应用程序对应的第一语音用户界面描述语言配置文件。

在一些实施例中，开发人员在应用程序开发阶段，可预先将语音用户界面描述语言配置文件(VUIDL配置文件)打包至应用程序安装包，这样后续电子设备在下载应用程序安装包后，可通过解压该应用程序安装包，获取到该应用程序对应的语音用户界面描述语言配置文件。

比如，电子设备在确定启动第一应用程序后，可获取第一应用程序的安装包。之后，电子设备可获取安装包中预配置的第一语音用户界面描述语言配置文件。

在一些实施例中，第一应用程序中不同的界面对应于不同的语音用户界面描述语言配置文件；或者，第一应用程序对应于一个语音用户界面描述语言配置文件。

比如，电子设备在启动第一应用程序后，确定待生成语音交互实例的界面，获取该界面对应的语音用户界面描述语言配置文件。

又比如，电子设备在启动第一应用程序后，获取该第一应用程序对应的语音用户界面描述语言配置文件。

在另一些实施例中，电子设备支持用户自定义语音交互实例。例如，电子设备支持预先定义的VUIDL，响应于用户的语音命令或其他触发指令，电子设备可触发当前显示的应用程序界面的可编辑语音交互实例状态。之后，电子设备可接收用户对当前应用程序界面中显示的界面元素对应的语音交互实例的编辑操作，并生成界面元素对应的语音交互实例。

示例性的，如图13中(a)所示界面1301，电子设备在显示应用程序的过程中，检测到的用户的语音命令，确定用户指示编辑界面1301对应的语音交互实例。其中，语音命令为电子设备中预先定义的语音命令，或用户自定义的语音命令，如“开始编辑语音交互”等。或者，电子设备也可支持其他方式触发语音交互实例的编辑。

响应于用户的语音命令，电子设备可显示如图13中(b)所示界面1302，在界面1302上显示可编辑标识，该可编辑标识用于指示支持用户自定义编辑语音交互实例的界面元素。如可编辑标识131、可编辑标识132等。

之后，如电子设备检测到用户对界面1302上显示的可编辑标识131的操作，可显示如图14所示界面1401。其中，可编辑标识131指示的界面元素对应于主卧监控的视频内容。在界面1401上，电子设备可显示提示信息141，该提示信息141用于提示用户可编辑标识131对应的界面元素可编辑的语音交互实例内容，如条件、语料、动作等，用户可根据需求编辑这些语音交互实例内容。之后，电子设备检测到用户对保存控件142的操作，可根据用户编辑内容，生成对应的语音交互实例。

其中，条件用于表示该界面元素对应的语音交互实例的触发条件，例如该触发条件可对应于上述表5所示内容，如语音唤醒等，用户可选择添加一个或多个条件。语料用于表示在条件为语音唤醒的情况下，触发该条件的热词，用户可自定义添加一条或多条语料。动作用于表示该界面元素对应的语音交互实例被触发后电子设备的行为，例如该动作可对应于上述表6所示内容。

例如，电子设备确定用户选择的动作为超清、或通话、或放大，可确定对应的语音交互实例的类型(type)为logic，目标(target)为回调界面1301对应的应用程序。如响应于触发条件回调该应用程序实现放大显示主卧监控的视频内容。或者，电子设备确定用户选择的动作为截屏，可确定对应的语音交互实例的类型(type)为logic，目标(target)为回调系统能力。如响应于触发条件回调系统能力对主卧监控的视频内容进行截屏。或者，电子设备确定用户选择的动作为点击，可确定对应的语音交互实例的类型(type)为view，目标(target)为可编辑标识131指示的界面元素。如响应于触发条件触发点击该界面元素。

又或者，如电子设备检测到用户对界面1302上显示的可编辑标识132的操作，可显示如图15所示界面1501。其中，可编辑标识132指示的界面元素为录像控件。在界面1501上，电子设备可显示提示信息151，该提示信息151用于提示用户可编辑标识132对应的界面元素可编辑的语音交互实例内容，如条件、语料、动作等。之后，电子设备检测到用户对保存控件152的操作，可根据用户编辑内容，生成录像控件对应的语音交互实例。

可以看出，在如图14或图15所示例的场景中，不同的界面元素用户可编辑的条件、语料、动作不同，这些内容可预先通过语音用户界面描述语言配置文件确定。或者在应用程序未预先配置语音用户界面描述语言配置文件的情况下，也可直接由应用程序的能力确定。

由此，电子设备在确定启动第一应用程序后，获取到的第一语音用户界面描述语言配置文件也可包括该第一应用程序对应的用户自定义的语音交互实例。那么，在下述步骤S1203中，电子设备在根据第一界面的显示信息和第一语音用户界面描述语言配置文件，生成的至少一个第一语音交互实例包括用户自定义的语音交互实例。

如此，电子设备通过支持用户自定义语音交互实例，满足用户的个性化需求，提升用户的使用体验。

S1203、电子设备根据第一应用程序的第一界面的显示信息和第一语音用户界面描述语言配置文件，生成至少一个第一语音交互实例。

其中，第一界面的显示信息包括第一应用界面对应的显示数据、第一应用程序的第一标识、第一应用界面的第二标识、第一界面上显示的界面元素的第三标识中的一项或几项。其中，界面元素包括界面上的控件、容器。

在一些实施例中，至少一个第一语音交互实例分别对应于第一界面上的界面元素，或至少一个第一语音交互实例对应于第一界面。

示例性的，如图8所示场景，电子设备获取到界面801(即第一界面)的显示信息包括界面元素81的标识，并获取到界面801对应的第一语音交互第一语音用户界面描述语言配置文件。之后，电子设备基于界面801对应的第一语音交互第一语音用户界面描述语言配置文件和界面信息，可生成界面元素81对应的第一语音交互实例。或者，电子设备可生成第一语音交互实例，该语音交互实例对应于界面801，可用于控制界面元素81。

S1204、电子设备接收用户的第一语音，确定至少一个第一语音交互实例中与第一语音关联的第一目标语音交互实例，执行第一目标语音交互实例指示的第一语音对应的第一行为。

在一些实施例中，第一语音为唤醒词或与热词匹配。可选地，热词为第一目标语音交互实例指示的热词集合中的热词，和/或，热词为根据第一界面对应的业务场景确定的热词。

在一些实施例中，电子设备通过调用应用程序接口执行第一行为；或者，对第一界面上第一语音对应的界面元素执行第一行为。

可选地，应用程序接口包括第一应用程序的接口或第二应用程序的接口。

可选地，对第一界面上第一语音对应的界面元素执行的第一行为包括对界面元素执行如下一项或几项操作：点击、轻点、滑动、放大。

示例性的，如图8所示，电子设备在启动第一应用程序后，可生成界面801对应的至少一个第一语音交互实例。之后，如上文示例的语音交互实例，如电子设备检测到的第一语音为“详情”，基于业务场景为页面场景，电子设备可确定匹配到第一目标语音交互实例中指示的第一行为是点击界面元素81。那么，电子设备触发点击界面元素81，可显示如图9所示的界面元素81对应的详情页。

在一些实施例中，应用程序中不同的界面对应于不同的语音用户界面描述语言配置文件。电子设备在确定切换应用界面后，可获取到该切换后的应用界面对应的语音用户界面描述语言配置文件，以生成该切换后的应用界面对应的语音交互实例。

比如，响应于用户的第二操作，电子设备确定启动第一应用程序的第二界面。电子设备获取第二界面的显示信息，以及第二界面对应的第二语音用户界面描述语言配置文件。之后，电子设备根据第二界面的显示信息和第二语音用户界面描述语言配置文件，生成至少一个第二语音交互实例。之后，电子设备在接收用户的第二语音后，确定至少一个第二语音交互实例中与第二语音关联的第二目标语音交互实例，执行第二目标语音交互实例指示的第二语音对应的第二行为。

在另一些实施例中，应用程序中不同的界面对应于相同的语音用户界面描述语言配置文件，不同应用程序对应于不同的语音用户界面描述语言配置文件。电子设备在确定切换应用程序后，可获取到该切换后的应用程序对应的语音用户界面描述语言配置文件，以生成该切换后的应用程序的界面对应的语音交互实例。或者，电子设备在确定切换相同应用程序中的不同界面后，可基于已经获取到的切换前的应用界面对应的语音用户界面描述语言配置文件以及切换后的应用界面的显示信息，生成该切换后的应用界面对应的语音交互实例。

比如，电子设备响应于用户的第三操作，确定第一应用程序的第三界面的显示信息。电子设备根据第三界面的显示信息和第一语音用户界面描述语言配置文件，生成至少一个第三语音交互实例。之后，电子设备接收用户的第三语音后，确定至少一个第三语音交互实例中与第三语音关联的第三目标语音交互实例，执行第三目标语音交互实例指示的第三语音对应的第三行为。

在一些实施例中，电子设备在切换应用程序、或切换应用界面、或界面元素变化后，可销毁已经生成的至少一个第一语音交互实例。

示例性的，如图8所示场景，电子设备生成界面801对应的至少一个第一语音交互实例，该至少一个第一语音交互实例包括界面元素81对应的第一目标语音交互实例。之后，响应于用户的第一语音，电子设备基于第一目标语音交互实例，触发显示如图9所示界面。之后，电子设备可销毁界面801对应的至少一个第一语音交互实例，并生成如图9所示界面对应的至少一个语音交互实例。

如此，电子设备基于获取到的应用程序对应的语音用户界面描述语言配置文件和界面显示信息，可自适应的生成语音交互实例，从而实现后续对于应用程序的语音控制。

并且，基于预先定义的语音用户界面描述语言，生成语音用户界面描述语言配置文件，能够有效简化开发人员在应用程序语音交互功能开发过程中的编码难度。

此外，开发人员可基于语音用户界面描述语言，根据应用程序的实际需求，生成语音用户界面描述语言配置文件，从而使得该语音用户界面描述语言配置文件定义的语音交互实例能够不局限于目前的对话式语音交互范式，进而实现在多种场景中的多种语音交互方式，提升用户的使用体验。

以上结合图6-图15详细说明了本申请实施例提供的语音控制方法。以下结合图16详细说明本申请实施例提供的电子设备。

在一种可能的设计中，图16为本申请实施例提供的电子设备的结构示意图。如图16所示，电子设备1600可以包括：收发单元1601和处理单元1602。电子设备1600可用于实现上述方法实施例中涉及的电子设备的功能。

可选地，收发单元1601，用于支持电子设备1600执行图12中的S1201。

可选地，处理单元1602，用于支持电子设备1600执行图12中的S1202、S1203以及S1204。

其中，收发单元可以包括接收单元和发送单元，可以由收发器或收发器相关电路组件实现，可以为收发器或收发模块。电子设备1600中的各个单元的操作和/或功能分别为了实现上述方法实施例中所述的语音控制方法的相应流程，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能单元的功能描述，为了简洁，在此不再赘述。

可选地，图16所示的电子设备1600还可以包括存储单元(图16中未示出)，该存储单元中存储有程序或指令。当收发单元1601和处理单元1602执行该程序或指令时，使得图16所示的电子设备1600可以执行上述方法实施例中所述的语音控制方法。

图16所示的电子设备1600的技术效果可以参考上述方法实施例中所述的语音控制方法的技术效果，此处不再赘述。

除了以电子设备1600的形式以外，本申请提供的技术方案也可以为电子设备中的功能单元或者芯片，或者与电子设备匹配使用的装置。

本申请实施例还提供一种芯片系统，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序或指令，当所述程序或指令被所述处理器执行时，使得该芯片系统实现上述任一方法实施例中的方法。

可选地，该芯片系统中的处理器可以为一个或多个。该处理器可以通过硬件实现也可以通过软件实现。当通过硬件实现时，该处理器可以是逻辑电路、集成电路等。当通过软件实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现。

可选地，该芯片系统中的存储器也可以为一个或多个。该存储器可以与处理器集成在一起，也可以和处理器分离设置，本申请实施例并不限定。示例性地，存储器可以是非瞬时性处理器，例如只读存储器ROM，其可以与处理器集成在同一块芯片上，也可以分别设置在不同的芯片上，本申请实施例对存储器的类型，以及存储器与处理器的设置方式不作具体限定。

示例性地，该芯片系统可以是现场可编程门阵列(field programmable gatearray，FPGA)，可以是专用集成芯片(application specific integrated circuit，ASIC)，还可以是系统芯片(system on chip，SoC)，还可以是中央处理器(central processorunit，CPU)，还可以是网络处理器(network processor，NP)，还可以是数字信号处理电路(digital signal processor，DSP)，还可以是微控制器(micro controller unit，MCU)，还可以是可编程控制器(programmable logic device，PLD)或其他集成芯片。

应理解，上述方法实施例中的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当该计算机程序在计算机上上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的语音控制方法。

本申请实施例还提供一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的语音控制方法。

另外，本申请实施例还提供一种装置。该装置具体可以是组件或模块，该装置可包括相连的一个或多个处理器和存储器。其中，存储器用于存储计算机程序。当该计算机程序被一个或多个处理器执行时，使得装置执行上述各方法实施例中的语音控制方法。

其中，本申请实施例提供的装置、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法。因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

结合本申请实施例公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应地软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read only memory，ROM)、可擦除可编程只读存储器(erasable programmable ROM，EPROM)、电可擦可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuit，ASIC)中。

通过以上的实施方式的描述，本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明。实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成；即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的。例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

计算机可读存储介质包括但不限于以下的任意一种：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音控制方法，其特征在于，应用于电子设备，所述方法包括：

响应于用户的第一操作，启动第一应用程序；

获取所述第一应用程序对应的第一语音用户界面描述语言配置文件；

根据所述第一应用程序的第一界面的显示信息和所述第一语音用户界面描述语言配置文件，生成至少一个第一语音交互实例；

接收用户的第一语音，确定所述至少一个第一语音交互实例中与所述第一语音关联的第一目标语音交互实例，执行所述第一目标语音交互实例指示的所述第一语音对应的第一行为。

2.根据权利要求1所述的方法，其特征在于，所述执行所述第一目标语音交互实例指示的所述第一语音对应的第一行为，包括：

通过调用应用程序接口执行所述第一行为；或者，对所述第一界面上所述第一语音对应的界面元素执行所述第一行为。

3.根据权利要求2所述的方法，其特征在于，所述应用程序接口包括所述第一应用程序的接口或第二应用程序的接口。

4.根据权利要求2或3所述的方法，其特征在于，所述对所述第一界面上所述第一语音对应的界面元素执行的所述第一行为包括对所述界面元素执行如下一项或几项操作：点击、轻点、滑动、放大。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述第一语音为唤醒词或与热词匹配。

6.根据权利要求5所述的方法，其特征在于，所述热词为所述第一目标语音交互实例指示的热词集合中的热词，和/或，所述热词为根据所述第一界面对应的业务场景确定的热词。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述至少一个第一语音交互实例分别对应于所述第一界面上的界面元素，或所述至少一个第一语音交互实例对应于所述第一界面。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述第一语音用户界面描述语言配置文件对应于所述第一界面，所述方法还包括：

响应于用户的第二操作，确定启动所述第一应用程序的第二界面；

获取所述第二界面的显示信息，以及所述第二界面对应的第二语音用户界面描述语言配置文件；

根据所述第二界面的显示信息和所述第二语音用户界面描述语言配置文件，生成至少一个第二语音交互实例；

接收用户的第二语音，确定所述至少一个第二语音交互实例中与所述第二语音关联的第二目标语音交互实例，执行所述第二目标语音交互实例指示的所述第二语音对应的第二行为。

9.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

响应于用户的第三操作，确定所述第一应用程序的第三界面的显示信息；

根据所述第三界面的显示信息和所述第一语音用户界面描述语言配置文件，生成至少一个第三语音交互实例；

接收用户的第三语音，确定所述至少一个第三语音交互实例中与所述第三语音关联的第三目标语音交互实例，执行所述第三目标语音交互实例指示的所述第三语音对应的第三行为。

10.根据权利要求8或9所述的方法，其特征在于，所述方法还包括：

销毁所述至少一个第一语音交互实例。

11.根据权利要求1-10任一项所述的方法，其特征在于，所述获取第一应用程序对应的第一语音用户界面描述语言配置文件，包括：

获取所述第一应用程序的安装包；

获取所述安装包中预配置的所述第一语音用户界面描述语言配置文件。

12.根据权利要求1-11任一项所述的方法，其特征在于，所述第一界面的显示信息包括所述第一应用界面对应的显示数据、所述第一应用程序的第一标识、所述第一应用界面的第二标识、所述第一界面上显示的界面元素的第三标识中的一项或几项。

13.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器与所述处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器从所述存储器中读取所述计算机指令，使得所述电子设备执行如权利要求1-12中任意一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1-12中任意一项所述的方法。

15.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1-12中任意一项所述的方法。