Nothing Special   »   [go: up one dir, main page]

WO2021196609A1 - 一种界面的操作方法、装置、电子设备及可读存储介质 - Google Patents

一种界面的操作方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
WO2021196609A1
WO2021196609A1 PCT/CN2020/126480 CN2020126480W WO2021196609A1 WO 2021196609 A1 WO2021196609 A1 WO 2021196609A1 CN 2020126480 W CN2020126480 W CN 2020126480W WO 2021196609 A1 WO2021196609 A1 WO 2021196609A1
Authority
WO
WIPO (PCT)
Prior art keywords
interface
voice
control
information
sentence
Prior art date
Application number
PCT/CN2020/126480
Other languages
English (en)
French (fr)
Inventor
韩超
Original Assignee
深圳创维-Rgb电子有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳创维-Rgb电子有限公司 filed Critical 深圳创维-Rgb电子有限公司
Publication of WO2021196609A1 publication Critical patent/WO2021196609A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • This application relates to the field of information processing technology, and specifically, provides an interface operation method, device, electronic equipment, and readable storage medium.
  • TV terminals have more and more functions.
  • TV terminals with voice recognition function can be controlled by users through voice commands, which liberates users’ hands and is very popular.
  • User welcome
  • the purpose of this application is to provide an interface operation method, device, electronic device, and readable storage medium, which can save the workload of adapting third-party applications and improve versatility.
  • the embodiment of the present application provides an interface operation method, and the operation method includes:
  • control the target interface control to perform the first operation corresponding to the voice instruction
  • the determining whether there is a target interface control matching the voice command in the screenshot picture includes:
  • the interface control is determined as the target interface control.
  • the identifying at least one candidate interface control from the screenshot picture includes:
  • the determining the second operation of controlling the screen interface according to the voice information in the voice instruction includes:
  • the sentence database stores multiple sentence information and operations corresponding to each sentence information
  • the operation corresponding to the sentence information is obtained, and the operation is determined as the second operation for controlling the screen interface.
  • the method before the matching the voice information with sentence information stored in a sentence library, the method further includes:
  • the operation method further includes:
  • a second operation for controlling the screen interface is determined.
  • the determining a second operation to control the screen interface based on the verb and the voice instruction includes:
  • an operation matching the voice instruction is determined, and the operation is determined as a second operation for controlling the screen interface.
  • the determining an operation matching the voice instruction from the operations corresponding to the at least one sentence information includes:
  • the target sentence information corresponding to the voice instruction is determined from the at least one sentence information, and the operation corresponding to the target sentence information is determined as an operation matching the voice instruction.
  • the method before the controlling the target interface control to perform the first operation corresponding to the voice instruction, the method further includes:
  • the position of the target interface control in the screenshot picture is determined.
  • the second operation is at least one of jumping to another screen interface, controlling another screen interface to perform an operation, and executing a voice instruction on the current screen interface.
  • the controlling the screen interface to perform the second operation includes:
  • An embodiment of the present application also provides an interface operating device, the operating device includes:
  • the screenshot module is configured to take a screenshot of the current screen interface when receiving a voice instruction from the user, and obtain a screenshot picture;
  • the first determining module is configured to determine whether there is a target interface control matching the voice command in the screenshot picture
  • the control module is configured to control the target interface control to perform the first operation corresponding to the voice instruction if it exists;
  • the second determining module is configured to determine a second operation for controlling the screen interface according to the voice information in the voice instruction if it does not exist, and control the screen interface to perform the second operation.
  • the first determining module is configured to determine whether there is a target interface control matching the voice command in the screenshot picture according to the following steps:
  • the interface control is determined as the target interface control.
  • An embodiment of the present application further provides an electronic device, including a processor, a memory, and a bus.
  • the memory stores machine-readable instructions executable by the processor.
  • the processor and the bus The memories communicate through a bus, and when the machine-readable instructions are executed by the processor, the above-mentioned interface operation method is executed.
  • the embodiment of the present application also provides a computer-readable storage medium, the computer-readable storage medium stores a computer program, and the computer program executes the above-mentioned interface operation method when the computer program is run by a processor.
  • Fig. 1 shows an exemplary flowchart of an interface operation method provided by an embodiment of the present application
  • FIG. 2 shows one of the structural schematic diagrams of an interface operation device provided by an embodiment of the present application
  • FIG. 3 shows the second structural diagram of an interface operation device provided by an embodiment of the present application
  • FIG. 4 shows a schematic structural diagram of an electronic device provided by an embodiment of the present application.
  • one possible solution provided by the embodiment of the present application is to take a screenshot of the current screen interface when receiving a voice instruction from the user, and determine from the screenshot whether there is a match with the voice instruction If there is a target interface control, control the target interface control to perform the first operation corresponding to the voice command; if there is no target interface control, determine the second operation to control the screen interface according to the voice information in the voice command, and control The screen interface performs the second operation.
  • any application program installed in the TV terminal can be controlled through voice commands, which saves the workload of adapting the application program and improves versatility.
  • an interface operation method provided in this application can be applied to a smart device.
  • the smart device can be a TV terminal with smart voice recognition function, and the TV with smart voice recognition function in this application
  • the terminal can interact with various smart devices in the house through the Internet of Things technology to build a smart home.
  • the smart device provided above is used as an exemplary execution subject, and the technical solutions provided by the present application will be exemplified in combination with some embodiments.
  • FIG. 1 is an exemplary flowchart of an interface operation method provided by an embodiment of the application.
  • the operation method of this interface may include the following steps:
  • S101 When receiving a voice instruction from a user, take a screenshot of the current screen interface to obtain a screenshot picture.
  • the smart device can take a screenshot of the current screen interface to obtain a screenshot picture corresponding to the current screen interface.
  • S102 Determine whether there is a target interface control matching the voice command in the screenshot picture.
  • the smart device can filter out whether there is a target interface control matching the received user's voice command in the screenshot image; wherein, the interface control in the screen interface may be a special pattern
  • the interface control of the category can also be the interface control of the text category.
  • the interface controls can be interface controls of a special graphic category.
  • the interface controls of the "next episode” can be a special graphic with an inverted triangle and a vertical bar; in some other
  • the interface control can also be a text type interface control.
  • an interface control is constructed from the characters "hot news", and by clicking on the interface control, you can jump to the corresponding hot news.
  • the smart device can control the target interface control to execute the target interface control corresponding to the voice command First operation.
  • the TV terminal as the above-mentioned smart device as an example. Assuming that the current interface of the TV terminal is playing a song, and the user wants to switch to the next song at this time, he can send the TV terminal "Play the next song” Correspondingly, after the TV terminal obtains the voice command, if it is determined that there is a target interface control corresponding to the "next song” in the screenshot picture corresponding to the current interface of the TV terminal, it will determine the " After the target interface control corresponding to the "next song”, click the target interface control corresponding to the "next song” to realize the effect of switching and playing the next song through the voice command.
  • the smart device can determine the position of the target interface control in the screen interface according to the position of the target interface control in the screenshot picture; in this way, the smart device can determine the position of the target interface control in the screen interface according to the relative position of the current screen.
  • the position of the target interface control in the current interface of the television terminal is accurately determined, so as to control the target interface control to perform the first operation.
  • this application can establish a voice command library in advance, and the voice command library can store the respective interface control names and corresponding graphics of multiple applications, so that no matter which application the current screen interface is in, Both can determine the target interface control that matches the voice command. For example, in some possible scenarios, it is assumed that the interface controls corresponding to the "next song" in different music players are slightly different. By pre-stored the names of the interface controls in each application and the corresponding graphics, the target is identified In the case of interface controls, there is no need to adapt the interface controls of third-party applications and can be directly identified, saving the workload of adapting applications.
  • S104 If it does not exist, determine the second operation to control the screen interface according to the voice information in the voice instruction, and control the screen interface to perform the second operation.
  • the smart device can determine according to the received voice command
  • the second operation that needs to be performed on the current screen interface, where the second operation may include related operations such as jumping to other screen interfaces, controlling other screen interfaces to perform operations, or performing voice instructions on the current screen interface.
  • this application can not only use screenshots to identify target interface controls that match the voice command, but when there is no target interface control, it can also recognize the voice information in the voice command to determine the operation of the control screen interface, which can improve voice recognition.
  • the accuracy rate can not only use screenshots to identify target interface controls that match the voice command, but when there is no target interface control, it can also recognize the voice information in the voice command to determine the operation of the control screen interface, which can improve voice recognition. The accuracy rate.
  • the TV terminal device can not only control the current screen interface through voice commands, but also control other devices through the device to achieve the effect of a smart home , Strengthen the function of the TV terminal.
  • the television terminal when receiving a voice instruction from a user, may take a screenshot of the current screen interface, and determine from the screenshot whether there is a target interface control that matches the voice instruction. There is a target interface control, and the target interface control is controlled to perform the first operation corresponding to the voice command; if there is no target interface control, the second operation of controlling the screen interface is determined according to the voice information in the voice command, and the screen interface is controlled to perform the second operation .
  • any application installed in the TV terminal can be controlled by voice commands, which saves the workload of adapting applications and improves the accuracy of voice recognition. .
  • determining whether there is a target interface control matching the voice command in the screenshot picture in S102 may include the following steps:
  • the smart device can identify multiple candidate interface controls that may exist in the screenshot picture; also In other words, the smart device can identify all interface controls in the screenshot picture, and use all identified interface controls as candidate interface controls.
  • the smart device can match at least one candidate interface control identified from the screenshot picture with the voice command, and determine whether there is an interface control that matches the voice command; suppose the voice command is "Play the next song” ", the interface control matching the voice command among the at least one candidate interface control identified by the smart device is "next", and the interface control corresponding to the "next" is the target interface control.
  • determining the second operation of controlling the screen interface according to the voice information in the voice instruction in S104 may include the following steps:
  • the smart device can first extract the voice information in the voice instruction, and then match the voice information with the voice information stored in the sentence database, where multiple sentence information is stored in the sentence database, and each sentence information corresponds to Operation.
  • the smart device when the smart device matches the sentence information that matches the voice information from the sentence database, the smart device can obtain the operation corresponding to the sentence information in the sentence database, and use this operation as the current screen interface should perform The second operation.
  • the TV terminal can find out the operations related to the "sweeping robot” from the sentence database, and then jump to the TV.
  • the interface of the "sweeping robot” in the terminal and then take a screenshot to find the target interface control "executed" from the current screen interface; of course, the foregoing is only an example.
  • the TV terminal can also directly sweep the floor The robot sends a start command.
  • step (3A) after matching the voice information with the sentence information stored in the sentence database in step (3A), the following steps may be further included:
  • the smart device can extract verbs from the received voice information, such as "reading", etc.; next, the smart device can extract verbs based on the extracted voice information.
  • Verbs and voice messages control the current screen interface to perform the second operation.
  • the current interface of the TV terminal is the text information of a certain news. If the user does not want to see the news with his eyes, but wants to hear the news, the user can send the “reading section” to the TV terminal. Two paragraphs" voice command; when the TV terminal receives the voice command, it can take a screenshot of the current screen interface, and extract the verbs such as "read” from the voice information, combined with some positioning information in the voice command, such as voice command.
  • the "Second Section” in the "Second Section” the second section of the screenshot corresponding to the current screen interface is played using the pre-stored simulated human voice.
  • step (4B) based on the verb and the voice command, determining the second operation to control the screen interface may include the following steps:
  • the smart device can match the sentence database with the verb extracted from the voice instruction, and find out at least one sentence information containing the verb from the sentence database.
  • the voice command received by the smart device is "read the second paragraph"
  • the verb that the smart device can extract from the voice information is "read”
  • the smart device can obtain at least one sentence information containing a verb, and the operation corresponding to each sentence information, and match each sentence information with the received voice instruction, and determine from the at least one sentence information that it matches the voice
  • the sentence information matched by the instruction is determined, and the operation corresponding to the sentence information is determined as the second operation to control the current screen interface.
  • the smart device can determine the target sentence information corresponding to the voice instruction from the at least one sentence information, and combine the The operation corresponding to the target sentence information is determined to be an operation matching the voice instruction.
  • the smart device can match the verb with the sentence library, assuming that the matched sentence information includes "read the paragraph of the current screen interface", "read the paragraph of the next screen interface", and "read The paragraph of the previous screen interface”; if the received voice command is "read the second paragraph", you can match the voice command with the three sentence information matched from the sentence database, and determine "read current screen
  • the "paragraph of the interface” is the target sentence information that best matches the voice command, so that the operation corresponding to the target sentence information "read the current screen interface” is determined as the second operation to control the current screen interface.
  • controlling the screen interface to perform the second operation may include:
  • the smart device controlling the current screen interface to perform the second operation may include controlling the current screen interface to jump to an interface matching the voice command.
  • the above-mentioned second operation may further include extracting a verb in the voice information, and determining a second operation to control the current screen interface by obtaining an operation corresponding to the verb.
  • the current screen interface of the smart device can jump to the application
  • the program is the screen interface of the "washing machine” and controls the screen interface of the "washing machine”.
  • the embodiment of this application also provides an interface operation device corresponding to the interface operation method provided in the above-mentioned embodiment.
  • the principle of solving the problem is similar to the operation method of the interface in the above embodiment of the present application. Therefore, the implementation of the device can refer to the implementation of the method, and the repetition will not be repeated.
  • FIG. 2 which is one of the schematic structural diagrams of an interface operating device 200 provided in this embodiment of the application
  • FIG. 3 which is a schematic structural diagram of an interface operating device 200 provided in this embodiment of the application.
  • the interface operating device 200 provided in the embodiment of the present application includes:
  • the screenshot module 210 may be configured to take a screenshot of the current screen interface when receiving a voice instruction issued by the user to obtain a screenshot picture;
  • the first determining module 220 may be configured to determine whether there is a target interface control matching the voice command in the screenshot picture;
  • the control module 230 may be configured to control the target interface control to perform the first operation corresponding to the voice command if it exists;
  • the second determination module 240 may be configured to determine the second operation of controlling the screen interface according to the voice information in the voice instruction if it does not exist, and control the screen interface to perform the second operation.
  • this application When receiving a voice instruction from a user, this application uses the screenshot module 210 to take a screenshot of the current screen interface, and uses the first determination module 220 to determine from the screenshot picture whether there is a target interface control that matches the voice instruction. If it exists, The control module 230 controls the target interface control to perform the first operation corresponding to the voice instruction. If it does not exist, the second determination module 240 determines the second operation of the control screen interface according to the voice information in the voice instruction, and controls the screen interface to perform the first operation. Two operations. In this way, through screenshots and voice commands, any application installed in the TV terminal can be controlled by voice commands, which saves the workload of adapting applications and improves the accuracy of voice recognition. .
  • the first determining module 220 may be configured to determine whether there is a target interface control matching the voice command in the screenshot picture in the following manner:
  • the interface control is determined as the target interface control.
  • the second determining module 240 includes:
  • the matching unit 241 may be configured to match the voice information with sentence information stored in the sentence library; the sentence library stores multiple sentence information and operations corresponding to each sentence information;
  • the first determining unit 242 may be configured to obtain the operation corresponding to the sentence information if there is sentence information matching the voice information in the sentence library, and determine the operation as the second operation of the control screen interface.
  • the second determining module 240 further includes:
  • the extracting unit 243 may be configured to extract the verb from the voice information if there is no sentence information matching the voice information in the sentence database;
  • the second determining unit 244 may be configured to determine the second operation of controlling the screen interface based on the verb and the voice instruction.
  • the second determining unit 244 may be configured to determine the second operation of controlling the screen interface according to the following steps:
  • the operation matching the voice instruction is determined, and the operation is determined as the second operation for controlling the screen interface.
  • the second determination module 240 may be configured to control the screen interface to perform the second operation according to the following steps:
  • FIG. 4 is a schematic structural diagram of an electronic device 400 provided by an embodiment of this application.
  • the electronic device 400 can be used as the above-mentioned smart device.
  • the electronic device 400 may include: a processor 410, a memory 420, and a bus 430, and the memory 420 stores machine-readable instructions executable by the processor 410, When the electronic device 400 is running, the processor 410 and the memory 420 communicate through the bus 430, and the machine-readable instructions are executed by the processor 410 to execute the steps of the operation interface operation method of the interface in the above-mentioned embodiment.
  • control the target interface control to perform the first operation corresponding to the voice command
  • a screenshot of the current screen interface is taken, and from the screenshot picture, it is determined whether there is a target interface control that matches the voice instruction. If there is a target interface control, control the target interface The control performs the first operation corresponding to the voice command; if there is no target interface control, according to the voice information in the voice command, the second operation for controlling the screen interface is determined, and the screen interface is controlled to perform the second operation.
  • any application installed in the TV terminal can be controlled by voice commands, which saves the workload of adapting applications and improves the accuracy of voice recognition. .
  • an embodiment of the present application also provides a computer-readable storage medium on which a computer program is stored.
  • a computer program is stored on which a computer program is stored.
  • the disclosed system, device, and method may be implemented in other ways.
  • the device embodiments described above are merely illustrative.
  • the division of the units is only a logical function division, and there may be other divisions in actual implementation.
  • multiple units or components may be combined or It can be integrated into another system, or some features can be ignored or not implemented.
  • the displayed or discussed mutual coupling or direct coupling or communication connection may be through some communication interfaces, indirect coupling or communication connection of devices or units, and may be in electrical, mechanical or other forms.
  • the units described as separate components may or may not be physically separated, and the components displayed as units may or may not be physical units, that is, they may be located in one place, or they may be distributed on multiple network units. Some or all of the units may be selected according to actual needs to achieve the objectives of the solutions of the embodiments.
  • the functional units in the embodiments of the present application may be integrated into one processing unit, or each unit may exist alone physically, or two or more units may be integrated into one unit.
  • the function is implemented in the form of a software functional unit and sold or used as an independent product, it can be stored in a non-volatile computer readable storage medium executable by a processor.
  • the technical solution of the present application essentially or the part that contributes to the prior art or the part of the technical solution can be embodied in the form of a software product, and the computer software product is stored in a storage medium.
  • Including several instructions to make a computer device (which can be a personal computer, a server, or a network device, etc.) execute all or part of the steps of the methods in the various embodiments of the present application.
  • the aforementioned storage media include: U disk, mobile hard disk, read-only memory (Read-Only Memory, ROM), random access memory (Random Access Memory, RAM), magnetic disk or optical disk and other media that can store program code .
  • the current interface can be controlled through voice commands in any application, eliminating the need for third-party application adaptation work, and improving The versatility.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种界面的操作方法、装置、电子设备及可读存储介质,涉及信息处理技术领域。在接收用户发出的语音指令时,对当前的屏幕界面进行截屏(S101),并从截屏图片中确定是否存在与语音指令相匹配的目标界面控件(S102),若存在目标界面控件,控制目标界面控件执行语音指令对应的第一操作(S103);若不存在目标界面控件,根据语音指令中的语音信息,确定控制屏幕界面的第二操作,并控制屏幕界面执行第二操作(S104)。这样,通过截屏图片和语音指令,对于电视终端中安装的任何应用程序都可以通过语音指令来进行控制,省去了对应用程序的适配工作量提高了通用性。

Description

一种界面的操作方法、装置、电子设备及可读存储介质
相关申请的交叉引用
本申请要求于2020年4月2日提交中国专利局的申请号为2020102566743、名称为“一种界面的操作方法、装置、电子设备及可读存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及信息处理技术领域,具体而言,提供一种界面的操作方法、装置、电子设备及可读存储介质。
背景技术
随着技术的发展,电视终端具有的功能越来越多,其中,带有语音识别功能的电视终端,由于用户通过语音指令便可以实现对其进行操控,解放了用户的双手,而深受广大用户的欢迎。
通常,电视终端在被提供给用户前,一般需要对电视终端上配置的应用程序进行适配操作,使得用户无需增加其他的操作,也能够实现对配置的应用程序进行语音控制。但是,对于一些用户自行个性化安装的应用程序,由于没有进行适配操作,可能导致无法通过语音指令进行控制,需要对这些用户自行安装的应用程序进行适配操作;然而,适配操作的过程较为繁琐,用户自行操作的难度较大。
发明内容
本申请的目的在于提供一种界面的操作方法、装置、电子设备及可读存储介质,可以省去对第三方应用程序的适配工作量,提升通用性。
为实现上述目的中的至少一个目的,本申请采用的技术方案如下:
本申请实施例提供了一种界面的操作方法,所述操作方法包括:
在接收用户发出的语音指令时,对当前的屏幕界面进行截屏,得到截屏图片;
确定所述截屏图片中是否存在与所述语音指令相匹配的目标界面控件;
若存在,控制所述目标界面控件执行所述语音指令对应的第一操作;
若不存在,根据所述语音指令中的语音信息,确定控制所述屏幕界面的第二操作,并控制所述屏幕界面执行所述第二操作。
可选地,作为一种可能的实现方式,所述确定所述截屏图片中是否存在与所述语音指令相匹配的目标界面控件,包括:
从所述截屏图片中,识别出至少一个候选界面控件;
判断所述至少一个候选界面控件中,是否存在与所述语音指令相匹配的界面控件;
若存在,则将该界面控件确定为所述目标界面控件。
可选地,作为一种可能的实现方式,所述从所述截屏图片中,识别出至少一个候选界面控件,包括:
识别出所述截屏图片中的所有界面控件,并将识别得到的所有界面控制全部作为候选界面控件。
可选地,作为一种可能的实现方式,所述根据所述语音指令中的语音信息,确定控制所述屏幕界面的第二操作,包括:
将所述语音信息与语句库中存储的语句信息进行匹配;所述语句库中存储有多个语句信息和每个语句信息对应的操作;
若所述语句库中存在与所述语音信息匹配的语句信息,则获取该语句信息对应的操作,并将该操作确定为控制所述屏幕界面的第二操作。
可选地,作为一种可能的实现方式,在所述将所述语音信息与语句库中存储的语句信息进行匹配之前,所述方法还包括:
提取所述语音指令中的语音信息。
可选地,作为一种可能的实现方式,在所述将所述语音信息与语句库中存储的语句信 息进行匹配之后,所述操作方法还包括:
若所述语句库中不存在与所述语音信息匹配的语句信息,则从所述语音信息中提取出动词;
基于所述动词和所述语音指令,确定控制所述屏幕界面的第二操作。
可选地,作为一种可能的实现方式,所述基于所述动词和所述语音指令,确定控制所述屏幕界面的第二操作,包括:
从所述语句库中,确定包含所述动词的至少一个语句信息;
获取所述至少一个语句信息中每个语句信息对应的操作;
从所述至少一个语句信息对应的操作中,确定与所述语音指令匹配的操作,并将该操作确定为控制所述屏幕界面的第二操作。
可选地,作为一种可能的实现方式,所述从所述至少一个语句信息对应的操作中,确定与所述语音指令匹配的操作,包括:
从所述至少一个语句信息中确定出与所述语音指令对应的目标语句信息,并将所述目标语句信息对应的操作确定为与所述语音指令匹配的操作。
可选地,作为一种可能的实现方式,在所述控制所述目标界面控件执行所述语音指令对应的第一操作之前,所述方法还包括:
根据所述目标界面控件在所述截屏图片中的位置,确定出所述目标界面控件在所述屏幕界面中的位置。
可选地,作为一种可能的实现方式,所述第二操作为跳转其他屏幕界面、控制其它屏幕界面执行操作、在当前屏幕界面执行语音指令中的至少之一。
可选地,作为一种可能的实现方式,若所述第二操作为跳转操作,所述控制所述屏幕界面执行所述第二操作,包括:
从所述当前的屏幕界面跳转到所述语音指令对应的界面。
本申请实施例还提供一种界面的操作装置,所述操作装置包括:
截屏模块,被配置成在接收用户发出的语音指令时,对当前的屏幕界面进行截屏,得到截屏图片;
第一确定模块,被配置成确定所述截屏图片中是否存在与所述语音指令相匹配的目标界面控件;
控制模块,被配置成若存在,控制所述目标界面控件执行所述语音指令对应的第一操作;
第二确定模块,被配置成若不存在,根据所述语音指令中的语音信息,确定控制所述屏幕界面的第二操作,并控制所述屏幕界面执行所述第二操作。
可选地,作为一种可能的实现方式,所述第一确定模块被配置成根据以下步骤确定所述截屏图片中是否存在与所述语音指令相匹配的目标界面控件:
从所述截屏图片中,识别出至少一个候选界面控件;
判断所述至少一个候选界面控件中,是否存在与所述语音指令相匹配的界面控件;
若存在,则将该界面控件确定为所述目标界面控件。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述的一种界面的操作方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的一种界面的操作方法。
附图说明
图1示出了本申请实施例所提供的一种界面的操作方法的一种示例性流程图;
图2示出了本申请实施例所提供的一种界面的操作装置的结构示意图之一;
图3示出了本申请实施例所提供的一种界面的操作装置的结构示意图之二;
图4示出了本申请实施例所提供的一种电子设备的一种结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和效果更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。
应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例,都属于本申请保护的范围。
在一些可能的场景中,在本申请提供的方案提出之前,通常,电视终端在被提供给用户前,一般需要对电视终端上配置的应用程序进行适配操作,使得用户无需增加其他的操作,也能够实现对配置的应用程序进行语音控制。但是,对于一些用户自行个性化安装的应用程序,由于没有进行适配操作,可能导致无法通过语音指令进行控制,需要对这些用户自行安装的应用程序进行适配操作;然而,适配操作的过程较为繁琐,用户自行操作的难度较大。
因此,针对上述问题,本申请实施例提供的一种可能的解决方式为:在接收用户发出的语音指令时,对当前的屏幕界面进行截屏,并从截屏图片中确定是否存在与语音指令相匹配的目标界面控件,若存在目标界面控件,控制目标界面控件执行语音指令对应的第一操作;若不存在目标界面控件,根据语音指令中的语音信息,确定控制屏幕界面的第二操作,并控制屏幕界面执行第二操作。这样,通过截屏图片和语音指令,对于电视终端中安装的任何应用程序都可以通过语音指令来进行控制,省去了对应用程序的适配工作量,提升了通用性。
需要说明的是,本申请提供的一种界面的操作方法,可以适用于一智能设备,该智能设备可以是带有智能语音识别功能的电视终端,并且本申请中带有智能语音识别功能的电视终端可以通过物联网技术与住宅中的各种智能设备进行交互,以构建智能家居。
为便于对本申请提供的操作方法进行理解,下面以上述提供的智能设备作为示例性执行主体,并结合一些实施例对本申请提供的技术方案进行示例性说明。
图1为本申请实施例提供的一种界面的操作方法的一种示例性流程图。该界面的操作方法可以包括以下步骤:
S101:在接收用户发出的语音指令时,对当前的屏幕界面进行截屏,得到截屏图片。
该步骤中,智能设备在接收用户发出的语音指令之后,可以对当前的屏幕界面进行截屏,以得到当前屏幕界面对应的截屏图片。
S102:确定截屏图片中是否存在与语音指令相匹配的目标界面控件。
该步骤中,针对S101中获取到的截屏图片,智能设备可以筛选出该截屏图片中是否存在与接收到用户的语音指令相匹配的目标界面控件;其中,屏幕界面中的界面控件可以是特殊图案类别的界面控件,也可以是文字类别的界面控件,通过点击界面控件,便可以控制界面控件对应的操作,或者跳转到界面控件对应的界面。
在一些可能的示例中,界面控件可以是特殊图形类别的界面控件,如在视频软件中,“下一集”的界面控件可以是一个倒着的三角形和一个竖杠的特殊图形;在一些其他的示例中,界面控件也可以是文字类别的界面控件,如在网页中,由字符“热点新闻”构建一界面控 件,通过点击该界面控制,跳转到对应的热点新闻。
S103:若存在,控制目标界面控件执行语音指令对应的第一操作。
该步骤中,当截屏图片中存在与语音指令相匹配的目标界面控件,也就是当前屏幕界面中存在与语音指令相匹配的目标界面控件,智能设备可以控制目标界面控件执行与语音指令相对应的第一操作。
在一些可能的示例中,以电视终端作为上述的智能设备为例,假设电视终端的当前界面正在播放一首歌曲,此时用户想要切换下一首,可以向电视终端发出“播放下一首音乐”的语音指令;相应地,电视终端在获得该语音指令后,若在电视终端的当前界面对应的截屏图片中,确定存在与“下一首”对应的目标界面控件,则在确定出“下一首”对应的目标界面控件之后,控制“下一首”对应的目标界面控件进行点击,实现通过语音指令切换播放下一首歌曲的效果。
其中,在一些可能的场景中,对当前的屏幕界面进行截屏,得到当前界面对应的截屏图片的过程中,由于当前的屏幕与对应的截屏图片一般是等比例缩小或者放大,因此在截屏图片中确定出目标界面控件的位置之后,智能设备可以根据目标界面控件在截屏图片中的位置,确定出该目标界面控件在屏幕界面中的位置;如此,使得智能设备可以根据当前的屏幕的相对位置,精准地确定出目标界面控件在电视终端的当前界面中的位置,从而控制该目标界面控件执行第一操作。
需要说明的是,本申请可以预先建立一个语音指令库,该语音指令库中可以存储有多个应用程序各自的界面控件名称和对应的图形,以便无论当前的屏幕界面在哪一个应用程序中,都可以确定出与语音指令相匹配的目标界面控件。比如,在一些可能的场景中,假设不同的音乐播放器中“下一首”对应的界面控件都略有不同,通过预先存储好各个应用程序中界面控件的名称以及对应的图形,在识别目标界面控件时,不用再适配第三方应用程序的界面控件,可以直接识别,省去了对应用程序的适配工作量。
S104:若不存在,根据语音指令中的语音信息,确定控制屏幕界面的第二操作,并控制屏幕界面执行第二操作。
该步骤中,当截屏图片中不存在与语音指令相匹配的目标界面控件,也就是当前屏幕界面中不存在与语音指令相匹配的目标界面控件,则智能设备可以根据接收到的语音指令确定出当前屏幕界面需要执行的第二操作,其中,第二操作可以包括跳转其他屏幕界面、控制其它屏幕界面执行操作或者在当前屏幕界面执行语音指令等相关的操作。
因此,本申请不仅可以通过截屏来识别与语音指令相匹配的目标界面控件,在没有目标界面控件时,也可以通过识别语音指令中的语音信息,来确定控制屏幕界面的操作,可以提升语音识别的准确率。
可选地,在例如上述的以电视终端作为智能设备的示例中,该电视终端设备不仅可以通过语音指令对当前屏幕界面进行控制,也可以通过该设备向其他设备进行控制,达到智能家居的效果,强化了电视终端的功能。
比如,在本申请的一些实施例中,在接收用户发出的语音指令时,电视终端可以对当前的屏幕界面进行截屏,并从截屏图片中确定是否存在与语音指令相匹配的目标界面控件,若存在目标界面控件,控制目标界面控件执行语音指令对应的第一操作;若不存在目标界面控件,根据语音指令中的语音信息,确定控制屏幕界面的第二操作,并控制屏幕界面执行第二操作。
如此,通过截屏图片和语音指令,对于电视终端中安装的任何应用程序都可以通过语音指令来进行控制,在省去了对应用程序的适配工作量的同时,还可以提升语音识别的准确率。
在一些可能的实施方式中,在S102中确定截屏图片中是否存在与语音指令相匹配的目标界面控件,可以包括以下步骤:
步骤(2A):从截屏图片中,识别出至少一个候选界面控件。
该步骤中,针对智能设备得到的当前屏幕界面对应的截屏图片中,可能存在有多个功能各异的候选界面控件;比如,在例如上述的音乐播放器的屏幕界面中,就可能存在有“上一首”、“下一首”、“播放”/“暂停”和“播放模式”等多个候选界面控件,智能设备可以将截屏图片中可能存在的多个候选界面控件均识别出来;也就是说,智能设备可以识别出该截屏图片中的所有界面控件,并将识别得到的所有界面控件全部作为候选界面控件。
步骤(2B):判断至少一个候选界面控件中,是否存在与语音指令相匹配的界面控件。
步骤(2C):若存在,则将该界面控件确定为目标界面控件。
该步骤中,智能设备可以将从截屏图片中识别出的至少一个候选界面控件与语音指令相匹配,并判断是否存在有与语音指令相匹配的界面控件;假设,语音指令为“播放下一首”,则智能设备识别出的至少一个候选界面控件中与语音指令相匹配的界面控件是“下一首”,则“下一首”对应的界面控件即为目标界面控件。
在一些可能的实施方式中,在S104中根据语音指令中的语音信息,确定控制屏幕界面的第二操作,可以包括以下步骤:
步骤(3A):将语音信息与语句库中存储的语句信息进行匹配;语句库中存储有多个语句信息和每个语句信息对应的操作。
该步骤中,智能设备可以先提取语音指令中的语音信息,然后再将语音信息与语句库中存储的语音信息进行匹配,其中,语句库中存储着多个语句信息,以及每个语句信息对应的操作。
步骤(3B):若语句库中存在与语音信息匹配的语句信息,则获取该语句信息对应的操作,并将该操作确定为控制屏幕界面的第二操作。
该步骤中,当智能设备从语句库中匹配到与语音信息相匹配的语句信息,则智能设备可以在语句库中获取该语句信息对应的操作,并将该操作作为当前的屏幕界面应该执行的第二操作。
在例如上述的将电视终端作为智能设备的示例中,假设电视终端当前的屏幕界面处在某个音乐播放器中,此时接收到用户发送的“启动扫地机器人”的语音指令;在与当前的屏幕界面对应的截屏图片匹配之后,若电视终端没有匹配出与“启动扫地机器人”相对应的目标界面控件,则电视终端可以将“启动扫地机器人”这一语音信息与语句库进行匹配;若在该语句库中匹配出与“扫地机器人”对应的语句信息,则可以配合该语音信息中的“启动”,使电视终端的界面跳转到“扫地机器人”界面中,并在“扫地机器人”的界面中执行“启动”的指令。
需要说明的是,在例如上述例子中,当电视终端接收到“启动扫地机器人”的语音指令之后,电视终端可以通过从语句库中找出与“扫地机器人”相关的操作,再跳转到电视终端中“扫地机器人”的界面,然后再截屏,从当前的屏幕界面中找出“执行”的目标界面控件;当然,前述仅为示例,在一些其他的示例中,电视终端也可以直接向扫地机器人发送启动的命令。
在一些可能的实施方式中,在步骤(3A)中将语音信息与语句库中存储的语句信息进行匹配之后,还可以包括以下步骤:
步骤(4A):若语句库中不存在与语音信息匹配的语句信息,则从语音信息中提取出动词。
步骤(4B):基于动词和语音指令,确定控制屏幕界面的第二操作。
该步骤中,当语句库中不存在与语音信息匹配的语句信息,则智能设备可以从接收到的语音信息中提取出动词,如“阅读”等等;接下来,智能设备可以根据提取出的动词,以及语音信息,控制当前的屏幕界面执行第二操作。
在例如上述的将电视终端作为智能设备的示例中,假设电视终端当前的界面是某一新闻的文字信息,若用户不想用眼睛看,想听到新闻,则用户可以向电视终端发出“阅读第二段”的语音指令;当电视终端接收到语音指令后,可以对当前的屏幕界面进行截图,并 从语音信息中提取出“阅读”这样的动词,结合语音指令中一些定位信息,比如语音指令中的“第二段”,对当前的屏幕界面对应的截屏图片中的第二段利用预先存储的模拟人声进行播放。
在一些可能的实施方式中,在步骤(4B)中基于动词和语音指令,确定控制屏幕界面的第二操作,可以包括以下步骤:
步骤(5A):从语句库中,确定包含动词的至少一个语句信息。
该步骤中,智能设备可以根据从语音指令中提取出的动词与语句库进行匹配,从语句库中找出包含该动词的至少一个语句信息。
比如,在一些可能的示例中,假设智能设备接收的语音指令为“阅读第二段”,则智能设备可以从该语音信息中提取出的动词为“阅读”;接下来,智能设备可以将“阅读”这个动词与语句库中各个语句信息进行匹配,找出的包含“阅读”的语句信息;示例性地,查找出的语音信息可以包括:“阅读当前屏幕界面的段落”、“阅读下一屏幕界面的段落”以及“阅读上一屏幕界面的段落”。
步骤(5B):获取至少一个语句信息中每个语句信息对应的操作。
步骤(5C):从至少一个语句信息对应的操作中,确定与语音指令匹配的操作,并将该操作确定为控制屏幕界面的第二操作。
该步骤中,智能设备可以获取包含动词的至少一个语句信息,以及每个语句信息对应的操作,并将每个语句信息与接收到的语音指令进行匹配,从至少一个语句信息中确定出与语音指令相匹配的语句信息,并将该语句信息对应的操作,确定为控制当前屏幕界面的第二操作。
比如,智能设备从至少一个语句信息对应的操作中,确定与该语音指令匹配的操作的过程中,智能设备可以从至少一个语句信息中确定出与该语音指令对应的目标语句信息,并将该目标语句信息对应的操作确定为与该语音指令匹配的操作。
例如,在一些可能的示例中,智能设备可以通过将动词与语句库进行匹配,假定匹配到的语句信息包括有“阅读当前屏幕界面的段落”、“阅读下一屏幕界面的段落”以及“阅读上一屏幕界面的段落”;若接收到的语音指令是“阅读第二段”,则可以将该语音指令与从语句库中匹配出的三个语句信息进行匹配,并确定出“阅读当前屏幕界面的段落”是与该语音指令最匹配的目标语句信息,从而将目标语句信息“阅读当前屏幕界面”对应的操作确定为控制当前屏幕界面的第二操作。
在一些可能的实施方式中,若第二操作为跳转操作,控制屏幕界面执行第二操作,可以包括:
从当前的屏幕界面跳转到语音指令对应的界面。
该步骤中,若第二操作为跳转操作,则智能设备控制当前屏幕界面执行该第二操作可以包括,控制当前屏幕界面跳转到与语音指令相匹配的界面。
其中,在一些可能的实施方式中,上述的第二操作还可以包括通过提取语音信息中的动词,以及通过获取该动词对应的操作而确定出控制当前屏幕界面的第二操作。
比如,在一些可能的示例中,若智能设备的当前屏幕界面是在一个音乐播放器中,假定此时接收到的语音指令是“启动洗衣机”,则智能设备当前的屏幕界面可以跳转到应用程序为“洗衣机”的屏幕界面,并对“洗衣机”的屏幕界面进行控制。
基于与本申请提供的上述界面的操作方法同一发明构思,本申请实施例中还提供了与上述实施例提供的一种界面的操作方法对应的界面的操作装置,由于本申请实施例中的装置解决问题的原理与本申请上述实施例的界面的操作方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图2所示,为本申请实施例提供的一种界面的操作装置200的结构示意图之一,参见图3所示,为本申请实施例提供的一种界面的操作装置200的结构示意图之二,其中,如图2和图3所示,本申请实施例提供的界面的操作装置200,包括:
截屏模块210,可以被配置成在接收用户发出的语音指令时,对当前的屏幕界面进行截屏,得到截屏图片;
第一确定模块220,可以被配置成确定截屏图片中是否存在与语音指令相匹配的目标界面控件;
控制模块230,可以被配置成若存在,控制目标界面控件执行语音指令对应的第一操作;
第二确定模块240,可以被配置成若不存在,根据语音指令中的语音信息,确定控制屏幕界面的第二操作,并控制屏幕界面执行第二操作。
本申请在接收用户发出的语音指令时,通过截屏模块210对当前的屏幕界面进行截屏,并通过第一确定模块220从截屏图片中确定是否存在与语音指令相匹配的目标界面控件,若存在,通过控制模块230控制目标界面控件执行语音指令对应的第一操作,若不存在,根据语音指令中的语音信息,通过第二确定模块240确定控制屏幕界面的第二操作,并控制屏幕界面执行第二操作。这样,通过截屏图片和语音指令,对于电视终端中安装的任何应用程序都可以通过语音指令来进行控制,在省去了对应用程序的适配工作量的同时,还可以提升语音识别的准确率。
在一些可能的实施方式中,第一确定模块220可以被配置成通过一下方式确定截屏图片中是否存在与语音指令相匹配的目标界面控件:
从截屏图片中,识别出至少一个候选界面控件;
判断至少一个候选界面控件中,是否存在与语音指令相匹配的界面控件;
若存在,则将该界面控件确定为目标界面控件。
在一些可能的实施方式中,如图3所示,第二确定模块240包括:
匹配单元241,可以被配置成将语音信息与语句库中存储的语句信息进行匹配;语句库中存储有多个语句信息和每个语句信息对应的操作;
第一确定单元242,可以被配置成若语句库中存在与语音信息匹配的语句信息,则获取该语句信息对应的操作,并将该操作确定为控制屏幕界面的第二操作。
在一些可能的实施方式中,如图3所示,第二确定模块240还包括:
提取单元243,可以被配置成若语句库中不存在与语音信息匹配的语句信息,则从语音信息中提取出动词;
第二确定单元244,可以被配置成基于动词和语音指令,确定控制屏幕界面的第二操作。
在一些可能的实施方式中,第二确定单元244可以被配置成根据以下步骤确定控制屏幕界面的第二操作:
从语句库中,确定包含动词的至少一个语句信息;
获取至少一个语句信息中每个语句信息对应的操作;
从至少一个语句信息对应的操作中,确定与语音指令匹配的操作,并将该操作确定为控制屏幕界面的第二操作。
在一些可能的实施方式中,若第二操作为跳转操作,第二确定模块240可以被配置成根据以下步骤控制屏幕界面执行第二操作:
从当前的屏幕界面跳转到语音指令对应的界面。
基于与本申请提供的上述界面的操作方法同一发明构思,参见图4所示,为本申请实施例提供的一种电子设备400的一种结构示意图,该电子设备400可以作为上述的智能设备,以执行本申请提供的上述的一种界面的操作方法的步骤;其中,电子设备400可以包括:处理器410、存储器420和总线430,存储器420存储有处理器410可执行的机器可读指令,当电子设备400运行时,处理器410与存储器420之间通过总线430进行通信,机器可读指令被处理器410运行时执行如上述实施例的界面的操作界面的操作方法的步骤。
示例性地,机器可读指令被处理器410执行时可以执行如下处理:
在接收用户发出的语音指令时,对当前的屏幕界面进行截屏,得到截屏图片;
确定截屏图片中是否存在与语音指令相匹配的目标界面控件;
若存在,控制目标界面控件执行语音指令对应的第一操作;
若不存在,根据语音指令中的语音信息,确定控制屏幕界面的第二操作,并控制屏幕界面执行第二操作。
本申请实施例中,在接收用户发出的语音指令时,对当前的屏幕界面进行截屏,并从截屏图片中确定是否存在与语音指令相匹配的目标界面控件,若存在目标界面控件,控制目标界面控件执行语音指令对应的第一操作;若不存在目标界面控件,根据语音指令中的语音信息,确定控制屏幕界面的第二操作,并控制屏幕界面执行第二操作。这样,通过截屏图片和语音指令,对于电视终端中安装的任何应用程序都可以通过语音指令来进行控制,在省去了对应用程序的适配工作量的同时,还可以提升语音识别的准确率。
基于与本申请提供的上述界面的操作方法同一发明构思,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实施例中提供的一种界面的操作方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储介质、电子设备和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的一些实施例中,应理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
工业实用性
通过接收用户发出的语音指令,并对当前的屏幕界面进行截屏,然后从截屏图片中确定是否存在与语音指令相匹配的目标界面控件;若存在,控制目标界面控件执行语音指令对应的第一操作,通过在当前屏幕界面确定目标界面控件,并控制目标界面执行第一操作;如此,在任何应用程序中都可以通过语音指令控制当前的界面,免去对第三方应用程序的适配工作,提升了通用性。
另外,若不存在与语音指令相匹配的目标界面控件,则可以根据语音指令中的语音信息,确定控制屏幕界面的第二操作,并控制屏幕界面执行第二操作,实现了可以对所有语音指令进行识别,并执行语音指令对应的操作的效果。

Claims (15)

  1. 一种界面的操作方法,其特征在于,所述操作方法包括:
    在接收用户发出的语音指令时,对当前的屏幕界面进行截屏,得到截屏图片;
    确定所述截屏图片中是否存在与所述语音指令相匹配的目标界面控件;
    若存在,控制所述目标界面控件执行所述语音指令对应的第一操作;
    若不存在,根据所述语音指令中的语音信息,确定控制所述屏幕界面的第二操作,并控制所述屏幕界面执行所述第二操作。
  2. 根据权利要求1所述的操作方法,其特征在于,所述确定所述截屏图片中是否存在与所述语音指令相匹配的目标界面控件,包括:
    从所述截屏图片中,识别出至少一个候选界面控件;
    判断所述至少一个候选界面控件中,是否存在与所述语音指令相匹配的界面控件;
    若存在,则将该界面控件确定为所述目标界面控件。
  3. 根据权利要求2所述的操作方法,其特征在于,所述从所述截屏图片中,识别出至少一个候选界面控件,包括:
    识别出所述截屏图片中的所有界面控件,并将识别得到的所有界面控制全部作为候选界面控件。
  4. 根据权利要求1-3中任一项所述的操作方法,其特征在于,所述根据所述语音指令中的语音信息,确定控制所述屏幕界面的第二操作,包括:
    将所述语音信息与语句库中存储的语句信息进行匹配;所述语句库中存储有多个语句信息和每个语句信息对应的操作;
    若所述语句库中存在与所述语音信息匹配的语句信息,则获取该语句信息对应的操作,并将该操作确定为控制所述屏幕界面的第二操作。
  5. 根据权利要求3所述的操作方法,其特征在于,在所述将所述语音信息与语句库中存储的语句信息进行匹配之前,所述方法还包括:
    提取所述语音指令中的语音信息。
  6. 根据权利要求4或5所述的操作方法,其特征在于,在所述将所述语音信息与语句库中存储的语句信息进行匹配之后,所述操作方法还包括:
    若所述语句库中不存在与所述语音信息匹配的语句信息,则从所述语音信息中提取出动词;
    基于所述动词和所述语音指令,确定控制所述屏幕界面的第二操作。
  7. 根据权利要求6所述的操作方法,其特征在于,所述基于所述动词和所述语音指令,确定控制所述屏幕界面的第二操作,包括:
    从所述语句库中,确定包含所述动词的至少一个语句信息;
    获取所述至少一个语句信息中每个语句信息对应的操作;
    从所述至少一个语句信息对应的操作中,确定与所述语音指令匹配的操作,并将该操作确定为控制所述屏幕界面的第二操作。
  8. 根据权利要求7所述的操作方法,其特征在于,所述从所述至少一个语句信息对应的操作中,确定与所述语音指令匹配的操作,包括:
    从所述至少一个语句信息中确定出与所述语音指令对应的目标语句信息,并将所述目标语句信息对应的操作确定为与所述语音指令匹配的操作。
  9. 根据权利要求1所述的操作方法,其特征在于,在所述控制所述目标界面控件执行所述语音指令对应的第一操作之前,所述方法还包括:
    根据所述目标界面控件在所述截屏图片中的位置,确定出所述目标界面控件在所述屏幕界面中的位置。
  10. 根据权利要求1-9中任一项所述的操作方法,其特征在于,所述第二操作为跳转 其他屏幕界面、控制其它屏幕界面执行操作、在当前屏幕界面执行语音指令中的至少之一。
  11. 根据权利要求10所述的操作方法,其特征在于,若所述第二操作为跳转操作,所述控制所述屏幕界面执行所述第二操作,包括:
    从所述当前的屏幕界面跳转到所述语音指令对应的界面。
  12. 一种界面的操作装置,其特征在于,所述操作装置包括:
    截屏模块,被配置成在接收用户发出的语音指令时,对当前的屏幕界面进行截屏,得到截屏图片;
    第一确定模块,被配置成确定所述截屏图片中是否存在与所述语音指令相匹配的目标界面控件;
    控制模块,被配置成若存在,控制所述目标界面控件执行所述语音指令对应的第一操作;
    第二确定模块,被配置成若不存在,根据所述语音指令中的语音信息,确定控制所述屏幕界面的第二操作,并控制所述屏幕界面执行所述第二操作。
  13. 根据权利要求12所述的操作装置,其特征在于,所述第一确定模块被配置成根据以下步骤确定所述截屏图片中是否存在与所述语音指令相匹配的目标界面控件:
    从所述截屏图片中,识别出至少一个候选界面控件;
    判断所述至少一个候选界面控件中,是否存在与所述语音指令相匹配的界面控件;
    若存在,则将该界面控件确定为所述目标界面控件。
  14. 一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至11任一项所述的一种界面的操作方法。
  15. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至11任一项所述的一种界面的操作方法。
PCT/CN2020/126480 2020-04-02 2020-11-04 一种界面的操作方法、装置、电子设备及可读存储介质 WO2021196609A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010256674.3 2020-04-02
CN202010256674.3A CN111475241B (zh) 2020-04-02 2020-04-02 一种界面的操作方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
WO2021196609A1 true WO2021196609A1 (zh) 2021-10-07

Family

ID=71750466

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/126480 WO2021196609A1 (zh) 2020-04-02 2020-11-04 一种界面的操作方法、装置、电子设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN111475241B (zh)
WO (1) WO2021196609A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475241B (zh) * 2020-04-02 2022-03-11 深圳创维-Rgb电子有限公司 一种界面的操作方法、装置、电子设备及可读存储介质
CN113438360A (zh) * 2021-06-18 2021-09-24 当代世界(北京)信息科技研究院 一种安卓客户端基于人工智能与语音识别的截屏方法
CN113496703A (zh) * 2021-07-23 2021-10-12 北京百度网讯科技有限公司 通过语音方式控制程序的方法、设备及程序产品
CN113314120B (zh) * 2021-07-30 2021-12-28 深圳传音控股股份有限公司 处理方法、处理设备及存储介质
CN114025210B (zh) * 2021-11-01 2023-02-28 深圳小湃科技有限公司 弹窗屏蔽方法、设备、存储介质及装置
CN114090148A (zh) * 2021-11-01 2022-02-25 深圳Tcl新技术有限公司 信息同步方法、装置、电子设备及计算机可读存储介质
CN114237479B (zh) * 2021-12-08 2024-08-30 阿波罗智联(北京)科技有限公司 一种应用程序的控制方法、装置及电子设备
CN115171677A (zh) * 2022-06-01 2022-10-11 合众新能源汽车有限公司 语音处理方法、装置、电子设备、存储介质及产品
CN116382615A (zh) * 2023-03-17 2023-07-04 深圳市同行者科技有限公司 语音操作app应用的方法、系统及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070204225A1 (en) * 2006-02-28 2007-08-30 David Berkowitz Master multimedia software controls
CN103853355A (zh) * 2014-03-17 2014-06-11 吕玉柱 电子设备操作方法及其操控设备
JP2014134869A (ja) * 2013-01-08 2014-07-24 Mitsubishi Electric Corp 電力系統監視制御装置およびその制御プログラム
CN110018858A (zh) * 2019-04-02 2019-07-16 北京蓦然认知科技有限公司 一种基于语音控制的应用管理方法、装置
CN110457105A (zh) * 2019-08-07 2019-11-15 腾讯科技(深圳)有限公司 界面操作方法、装置、设备及存储介质
CN111475241A (zh) * 2020-04-02 2020-07-31 深圳创维-Rgb电子有限公司 一种界面的操作方法、装置、电子设备及可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4693917B2 (ja) * 2009-06-09 2011-06-01 株式会社東芝 メニュー画面表示制御装置及びメニュー画面表示制御方法
CN105354017B (zh) * 2015-09-28 2018-09-25 小米科技有限责任公司 信息处理方法及装置
CN106101789B (zh) * 2016-07-06 2020-04-24 深圳Tcl数字技术有限公司 终端的语音交互方法及装置
CN110570846B (zh) * 2018-06-05 2022-04-22 青岛海信移动通信技术股份有限公司 一种语音控制方法、装置及手机
CN109471678A (zh) * 2018-11-07 2019-03-15 苏州思必驰信息科技有限公司 基于图像识别的语音中控方法及装置
CN110060672A (zh) * 2019-03-08 2019-07-26 华为技术有限公司 一种语音控制方法及电子设备
CN110085224B (zh) * 2019-04-10 2021-06-01 深圳康佳电子科技有限公司 智能终端全程语音操控处理方法、智能终端及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070204225A1 (en) * 2006-02-28 2007-08-30 David Berkowitz Master multimedia software controls
JP2014134869A (ja) * 2013-01-08 2014-07-24 Mitsubishi Electric Corp 電力系統監視制御装置およびその制御プログラム
CN103853355A (zh) * 2014-03-17 2014-06-11 吕玉柱 电子设备操作方法及其操控设备
CN110018858A (zh) * 2019-04-02 2019-07-16 北京蓦然认知科技有限公司 一种基于语音控制的应用管理方法、装置
CN110457105A (zh) * 2019-08-07 2019-11-15 腾讯科技(深圳)有限公司 界面操作方法、装置、设备及存储介质
CN111475241A (zh) * 2020-04-02 2020-07-31 深圳创维-Rgb电子有限公司 一种界面的操作方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN111475241A (zh) 2020-07-31
CN111475241B (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
WO2021196609A1 (zh) 一种界面的操作方法、装置、电子设备及可读存储介质
US10143924B2 (en) Enhancing user experience by presenting past application usage
US10860345B2 (en) System for user sentiment tracking
US10617959B2 (en) Method and system for training a chatbot
CN110090444B (zh) 游戏中行为记录创建方法、装置、存储介质及电子设备
JP2019185062A (ja) 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体
WO2022142626A1 (zh) 虚拟场景的适配显示方法、装置、电子设备、存储介质及计算机程序产品
US11600266B2 (en) Network-based learning models for natural language processing
KR20210068333A (ko) 응용 프로그램의 조작 안내 방법, 장치, 기기 및 판독 가능 저장 매체
WO2023093451A1 (zh) 一种游戏内直播交互方法、装置、计算机设备及存储介质
WO2021169092A1 (zh) 信息显示控制方法及装置、电子设备、存储介质
CN111643903B (zh) 云游戏的控制方法、装置、电子设备以及存储介质
CN112631814A (zh) 游戏剧情对白播放方法和装置、存储介质、电子设备
CN111481923A (zh) 摇杆显示方法及装置、计算机存储介质、电子设备
CN114743422A (zh) 一种答题方法及装置和电子设备
JP6836330B2 (ja) 情報処理プログラム、情報処理装置及び情報処理方法
CN106535152B (zh) 一种基于终端的应用数据处理方法、装置及系统
CN115963963A (zh) 互动小说生成方法、呈现方法、装置、设备及介质
CN114760274A (zh) 在线课堂的语音交互方法、装置、设备及存储介质
JP5519854B1 (ja) ゲームを提供するサーバ及び方法
CN114028814A (zh) 虚拟建筑升级方法及装置、计算机存储介质、电子设备
KR20200112796A (ko) 게임 캐릭터 동작 가이드 정보 제공 시스템, 서버 및 게임 캐릭터 동작 가이드 정보 제공 방법
CN111790153A (zh) 对象的展示方法、装置、电子设备及计算机可读存储介质
CN110882541A (zh) 游戏角色控制系统、服务器以及游戏角色控制方法
CN111048090A (zh) 基于语音的动画交互方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20928880

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 160223)

122 Ep: pct application non-entry in european phase

Ref document number: 20928880

Country of ref document: EP

Kind code of ref document: A1