CN112286360A - 用于操作移动设备的方法和装置 - Google Patents
用于操作移动设备的方法和装置 Download PDFInfo
- Publication number
- CN112286360A CN112286360A CN202011215818.7A CN202011215818A CN112286360A CN 112286360 A CN112286360 A CN 112286360A CN 202011215818 A CN202011215818 A CN 202011215818A CN 112286360 A CN112286360 A CN 112286360A
- Authority
- CN
- China
- Prior art keywords
- operation gesture
- gesture
- video
- key point
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04847—Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/0486—Drag-and-drop
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开的实施例公开了用于操作移动设备的方法和装置。该方法的一具体实施方式包括:响应于检测到操作手势,获取操作手势的视频;将操作手势的视频输入预先训练的操作手势识别模型,确定出操作手势的类型标识;基于预存的操作手势的类型标识与操作指令标识的对应关系,确定出操作手势的类型标识对应的操作指令标识;基于操作手势的视频,确定出操作手势所指示的操作区域;基于操作区域和操作指令标识,确定出操作手势表征的操作指令;执行操作指令。可以简化用户通过手势操作移动设备的流程,尤其有助于降低视觉障碍用户操作移动设备的难度。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及机器学习领域,尤其涉及一种用于操作移动设备的方法和装置。
背景技术
目前,移动设备给人们的生活带来了极大的便利。对于视觉正常的人群,移动设备操作简便,但对于存在视觉障碍的人群(例如视力较差的老年人),现有的移动设备或移动设备上装载的应用仍然存在操作不便的地方。
相关技术中,采用了无障碍操作方法的移动终端通常会通过语音要求用户用手点击设备屏幕,当用户点中按钮或文字时,移动设备通过语音提示用户所点击的按钮用途或文字内容,之后,通过语音引导用户操作。
发明内容
本公开的实施例提出了用于操作移动设备的方法和装置。
第一方面,本公开的实施例提供了一种用于操作移动设备的方法,该方法包括:响应于检测到操作手势,获取操作手势的视频;将操作手势的视频输入预先训练的操作手势识别模型,确定出操作手势的类型标识;基于预存的操作手势的类型标识与操作指令标识的对应关系,确定出操作手势的类型标识对应的操作指令标识;基于操作手势的视频,确定出操作手势所指示的操作区域;基于操作区域和操作指令标识,确定出操作手势表征的操作指令;执行操作指令。
在一些实施例中,类型标识经由如下步骤确定:从操作手势的视频中采样出预设数量的关键帧;从关键帧中提取出手部的关键点,并生成各手部关键点在该关键帧中的特征信息,特征信息包括关键点标识和关键点坐标,其中,关键点标识用于表征关键点在手部的部位,关键点坐标用于表征关键点在该关键帧中与其他关键点的相对位置关系;按照各关键帧的时序,将关键点标识相同的关键点在各关键帧中的特征信息编码成该关键点的特征向量;基于各关键点的特征向量,生成特征矩阵;将特征矩阵输入操作手势识别模型,得到操作手势的类型标识。
在一些实施例中,操作区域经由如下步骤确定:基于各关键点在各关键帧中的特征信息,确定出各关键点的移动轨迹;基于各关键点的移动轨迹,确定出操作手势指示的操作区域。
在一些实施例中,将特征矩阵输入操作手势识别模型之前,还包括:将特征矩阵扁平化,得到一阶特征矩阵;将一阶特征矩阵更新为特征矩阵。
在一些实施例中,将特征矩阵输入操作手势识别模型,得到操作手势的类型标识,包括:将特征矩阵输入手势识别模型,估计出操作手势对应的各类型标识的置信度;基于各类型标识的置信度,确定出操作手势的类型。
在一些实施例中,响应于检测到操作手势,获取操作手势的视频,包括:响应于检测到手部动作,采集手部动作的视频;响应于确定采集到的手部动作的视频满足预设条件,将手部动作确定为操作手势,并将手部动作的视频确定为操作手势的视频。
在一些实施例中,该方法还包括:语音播报操作指令。
第二方面,本公开的实施例提供了一种用于操作移动设备的装置,装置包括:手势检测单元,被配置成响应于检测到操作手势,获取操作手势的视频;区域确定单元,被配置成基于操作手势的视频,确定出操作手势所指示的操作区域;手势识别单元,被配置成将操作手势的视频输入预先训练的操作手势识别模型,确定出操作手势的类型标识;标识确定单元,被配置成基于预存的操作手势的类型标识与操作指令标识的对应关系,确定出操作手势的类型标识对应的操作指令标识指令;确定单元,被配置成基于操作区域和类型标识,确定出操作手势表征的操作指令;指令执行单元,被配置成执行操作指令。
在一些实施例中,手势识别单元进一步包括:采样模块,被配置成从操作手势的视频中采样出预设数量的关键帧;特征提取模块,被配置成从关键帧中提取出手部的关键点,并生成各手部关键点在该关键帧中的特征信息,特征信息包括关键点标识和关键点坐标,其中,关键点标识用于表征关键点在手部的位置,关键点坐标用于表征关键点在该关键帧中与其他关键点的相对位置关系;向量生成模块,被配置成按照各关键帧的时序,将关键点标识相同的关键点在各关键帧中的特征信息编码成该关键点的特征向量;矩阵生成模块,被配置成基于各关键点的特征向量,生成特征矩阵;手势识别模块,被配置成将特征矩阵输入操作手势识别模型,得到操作手势的类型标识。
在一些实施例中,区域确定单元被进一步配置成经由如下步骤确定操作手势指示的操作区域:基于各关键点在各关键帧中的特征信息,确定出各关键点的移动轨迹;基于各关键点的移动轨迹,确定出操作手势指示的操作区域。
在一些实施例中,手势识别单元还包括矩阵扁平化处理模块,被配置成将特征矩阵扁平化,得到一阶特征矩阵;以及,将一阶特征矩阵更新为特征矩阵。
在一些实施例中,识别模块被进一步配置成:将特征矩阵输入操作手势识别模型,估计出操作手势对应的各类型标识的置信度;基于各类型标识的置信度,确定出操作手势的类型。
在一些实施例中,手势检测单元进一步包括:动作检测模块,被配置成响应于检测到手部动作,采集手部动作的视频;动作确定模块,被配置成响应于确定采集到的手部动作的视频满足预设条件,将手部动作确定为操作手势,并将手部动作的视频确定为操作手势的视频。
在一些实施例中,该装置还包括:语音播报单元,被配置成语音播报操作指令。
本公开的实施例提供的用于操作移动设备的方法和装置,检测到用户的操作手势时,获取用户的操作手势的视频,从用户的操作手势的视频确定出操作手势所指示的操作区域,并通过机器学习模型识别出操作手势的类型标识,然后基于操作区域和类型标识确定出用户的操作手势表征的操作指令,并执行该操作指令。可以简化用户通过手势操作移动设备的流程,尤其有助于降低视觉障碍用户操作移动设备的难度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一些实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的用于操作移动设备的方法的一个实施例的流程图;
图3是图2所示的用于操作移动设备的方法的一个场景示意图;
图4是根据本公开的用于操作移动设备的方法的又一个实施例的流程图;
图5是根据本公开的用于操作移动设备的装置的一个实施例的结构示意图;
图6是适于用来实现本公开的实施例的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的实施例的用于操作移动设备的方法或用于操作移动设备的装置的示例性系统架构100。
如图1所示,系统架构100可以包括移动终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用移动终端设备101、102、103通过网络104与服务器105交互,例如可以将操作手势的视频发送至服务器,还可以从服务器接收识别出的操作手势的类型标识。
移动终端设备101、102、103可以是硬件,也可以是软件。当移动终端设备101、102、103为硬件时,可以是具备图像采集设备和通信功能的电子设备,包括但不限于智能手机、平板电脑、电子书阅读器和膝上型便携计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对移动终端设备101、102、103上传的操作手势视频进行处理的后台数据服务器。后台数据服务器可以对接收到的操作手势的视频进行识别等处理,并将识别结果(例如操作手势的类型标识)反馈给移动终端设备。
需要说明的是,本公开的实施例所提供的用于操作移动设备的方法通常由移动终端设备执行。相应地,用于操作移动设备的装置可以设置于移动终端设备101、102、103中。
需要说明的是,本公开中的用于操作移动设备的方法可以直接存储于移动终端设备的处理器中,如此,用户在使用该移动终端设备时,可以直接通过本公开的用于操作移动设备的方法对该移动终端设备进行操作,以实现该移动终端设备的各种功能。此外,本公开中的用于操作移动设备的方法还可以内嵌到应用程序中,当装载有该应用程序的移动终端设备运行该应用程序时,用户可以通过本公开的用于操作移动设备的方法对该移动终端设备进行操作,以实现该应用程序的各种功能。本申请对此不作限定。
继续参考图2,示出了根据本公开的用于操作移动设备的方法的一个实施例的流程200。该用于操作移动设备的方法,包括以下步骤:
步骤201,响应于检测到操作手势,获取操作手势的视频。
在本实施例中,执行主体为具备图像采集的移动设备(例如可以是智能手机)。当执行主体检测到用户的操作手势时,可以通过图像采集设备连续捕捉用户的操作手势,得到操作手势的视频。
在本实施例的一些可选的实现方式中,在步骤201之前,还可以包括如下步骤:响应于检测到操作手势,获取操作手势的视频,包括:响应于检测到手部动作,采集手部动作的视频;响应于确定采集到的手部动作的视频满足预设条件,将手部动作确定为操作手势,并将手部动作的视频确定为操作手势的视频。
在本实现方式中,为了避免误操作,执行主体在检测到用户的手部动作时,可以将检测到的手部动作与预设条件进行对比,以确定用户的手部动作是否为操作手势。作为示例,可以根据经验将预设条件设置为预设时长,当执行主体采集到的手部动作的视频的长度达到预设时长时,表示用户当前存在操作意愿,此时可以将手部动作确定为操作手势;而如果采集到的手部动作的视频的长度小于预设时长,表示用户此时不存在操作意愿,此时的手部动作为误操作,不应作为操作手势。
在一个具体的示例中,执行主体检测到用户的手部动作时,可以生成预设长度的滑窗,然后将采集到的手部动作的视频放入滑窗中,当滑窗中的视频填满滑窗时,表示该视频满足预设条件,则执行主体可以将该手部动作确定为操作手势。
步骤202,将操作手势的视频输入预先训练的操作手势识别模型,确定出操作手势的类型标识。
在本实施例中,类型标识用于表征用户的手部动作的动作类型,例如可以是点击、滑动、拖放等动作类型。操作手势识别模型可以表征用户的操作手势与操作手势的类型标识之间的对应关系,用于从对执行主体输入的操作手势的视频中识别出该视频中用户的手部动作所对应的类型标识,例如可以是卷积神经网络模型、循环神经网络或其他有监督的深度学习模型。
作为示例,执行主体所获取的操作手势的视频中用户的手部动作为:处于接触状态的拇指与食指逐渐远离,则操作手势识别模型可以输出该操作手势的类型标识为“拖放”;再例如,若执行主体所获取的操作手势的视频中用户的手部动作为:食指伸出,其余四指握团,然后食指连续点动两次,则操作手势识别模型可以输出该操作手势的类型标识为“双击”。
在一个具体的示例中,本实施例中操作手势识别模型可以采用如下方式得到:构建初始操作手势识别模型和对应的损失函数,例如可以是卷积神经网络。然后,可以从开放的数据库中获取手部动作的视频,并为视频标记“类型标识”,得到样本视频,构建用于训练初始操作手势识别模型的训练集。之后,将训练集中的样本视频输入初始操作手势识别模型中,基于损失函数修正初始操作手势识别模型中的参数,直至损失函数收敛,得到训练后的操作手势识别模型。再然后,可以录制预设数量的手部动作的视频,作为测试集,输入训练后的操作手势识别模型,对训练后的操作手势识别模型进行P-R验证(precision–recall,精确率和召回率),若验证通过,则说明训练后的操作手势识别模型的准确度满足需求,可以用于识别用户的操作手势。
步骤203,基于预存的操作手势的类型标识与操作指令标识的对应关系,确定出操作手势的类型标识对应的操作指令标识。
在本实施例中,操作指令标识用于表征执行主体所要执行的指令,即用户期望在移动设备上实现的动作。作为示例,可以在执行主体上预先构建类型标识与操作指令标识的对应关系列表,例如,类型标识“拖放”与操作指令标识“放大”对应,类型标识“点击”与操作指令标识“单机”对应,类型标识“拖动”与操作指令标识“移动”对应。如此,执行主体可以基于该对应关系列表确定出用户的操作手势所对应的操作指令标识,实现了用户的操作手势到机器指令的转化过程。
步骤204,基于操作手势的视频,确定出操作手势所指示的操作区域。
在本实施例中,执行主体可以基于用户的手部动作在执行主体的操作面板区域中的投影确定出操作手势所指示的操作区域,操作区域可以是点,可以是线,也可以是区域。例如,执行主体可以从操作手势的视频中确定出用户手部的活动区域以及手部关键点的移动轨迹,以此确定出操作手势所指示的操作区域。
在一个具体的示例中,执行主体可以采用OpenCV算法或IOS系统中的手势识别算法确定操作手势所指示的操作区域,例如,执行主体识别出用户手掌左右滑动时,可以记录掌心的初始位置和终止位置,然后确定掌心的初始位置和终止位置在操作面板区域的投影位置,并将两个投影点确定为拖动的起点和终点;再例如,执行主体识别出用户食指点击时,可以记录点击结束时食指所在的位置,然后确定出食指所在的位置在操作面板区域的投影点,并将该投影点确定为用户的操作手势的操作区域。
步骤205,基于操作区域和操作指令标识,确定出操作手势表征的操作指令。
在本实施例中,执行主体可以基于步骤203得到的操作指令标识和步骤204中确定出的操作手势指示的操作区域,确定出用户期望执行主体执行的操作指令。作为示例,用户的操作指令标识为“单击”,操作区域为操作面板中的“A”点,则执行主体可以确定用户的操作手势表征的操作指令为:单击A点;再例如,用户的操作指令为“拖放”,操作区域为操作面板中包括B、C、D三点的曲线,其中,C点为位于曲线上的起点,B和D为位于曲线两端的终点,则执行主体可以确定用户的操作手势表征的操作指令为:以C点为中心放大操作面板中的内容,放大倍数由B和D相对于C点的距离确定。
步骤206,执行操作指令。
在本实施例中,执行主体基于用户的操作手势,将用户的操作期望转化成移动设备可以执行的机器指令,以此实现用户对于移动设备的操作。
作为示例,执行主体可以在界面图层里从表到里将操作指令传递下去,每个界面图层中均包括了可以响应某个操作指令的动作组件,当在界面图层里找到第一个能响应当前操作指令的动作组件,即停止传递操作指令,由当前的界面图层执行相应的动作。如此,实现了用户通过手部动作操作移动设备。
继续参见图3,图3是如2所示方法的流程的场景示意图。在图3中,执行主体301可以是具备前置像头的智能手机,智能手机的前置摄像头检测到用户的操作手势时(例如可以是图3所示的点击),可以通过前置摄像头捕捉用户的连续动作,得到操作手势的视频;将操作手势的视频输入预先训练的操作手势识别模型中,得到该操作手势的类型标识为“点击”;智能手机确定出该类型标识对应的操作指令标识为“单击”,且该操作手势的操作区域为屏幕右上角的“页面关闭”按键;智能手机确定出该操作手势表征的操作指令为“单击页面关闭按键”,之后,智能手机执行该操作指令:关闭当前页面,即实现了用户通过手部动作对智能手机的操作。
本公开的实施例提供的用于操作移动设备的方法和装置,检测到用户的操作手势时,获取用户的操作手势的视频,从用户的操作手势的视频确定出操作手势所指示的操作区域,并通过机器学习模型识别出操作手势的类型标识,然后基于操作区域和类型标识确定出用户的操作手势表征的操作指令,并执行该操作指令。可以简化用户通过手势操作移动设备的流程,尤其有助于降低视觉障碍用户操作移动设备的难度。
进一步参考图4,其示出了用于操作移动设备的方法的又一个实施例的流程400。该用于操作移动设备的方法的流程400,包括以下步骤:
步骤401,步骤201,响应于检测到操作手势,获取操作手势的视频。此步骤与前述步骤201相近,此处不再赘述。
步骤402,从操作手势的视频中采样出预设数量的关键帧。
在本实现方式中,执行主体可以基于预设的采样策略(例如可以是预设的时间间隔)对操作手势的视频采样,从中提取出预设数量的关键帧,以此可以降低运算量。
步骤403,从关键帧中提取出手部关键点,并生成各手部关键点在该关键帧中的特征信息,其中,特征信息包括关键点标识和关键点坐标,其中,关键点标识用于表征关键点在手部的部位,关键点坐标用于表征关键点在该关键帧中与其他关键点的相对位置关系。
在本实施例中,关键点可以是手指的各个关节和手腕关节,关键点标识可以是手部位置的编码,例如可以0表征手腕关节,1表示拇指,2表示食指,以此类推;A表示手指末端、B表示第一关节、C表示第二关节、D表示指根关节。则关键点标识为“0”表示,该关键点为手腕关节;关键点标识为“3B”,表示该关键点为中指的第二关节。关键点坐标可以为该关键点在关键帧中的像素坐标,为了降低用手掌大小对位置关系的干扰,可以对关键帧的长度作归一化后,将关键点的像素坐标确定为关键点坐标。
步骤404,按照各关键帧的时序,将关键点标识相同的关键点在各关键帧中的特征信息编码成该关键点的特征向量。
在本实施例中,执行主体通过步骤404得到的关键点的特征向量,将关键点的位置信息与时间信息耦合,可以准确地关键点的移动轨迹。
步骤405,基于各关键点的特征向量,生成特征矩阵。
在本实施例中,基于各个关键点的特征向量得到特征举证,包括了用户手部各关键点的移动轨迹,如此可以准确地表征用户手部的连续动作。
结合示例说明上述步骤,首先,可以从操作手势的视频中,每隔k帧选取一个关键帧X^j。然后可以采用关键点提取算法(例如OpenCV算法)从每个关键帧中提取出手部的关键点,例如可以是包括各手指指端和关节以及腕部关节的21个关键点。然后基于各关键点构建特征矩阵X={x_1,x_2…,x_21},其中X中的每个特征向量x_i均包含该关键点的关键点类型和关键点坐标。再然后,按照各关键帧的时序,将各关键帧中对应的x_i拼接x_i^j,即得到了该操作手势的特征矩阵。
步骤406,将特征矩阵输入手势识别模型,得到操作手势的类型标识。
需要说明的是上述步骤402到步骤405,可以作为预处理模块集成到步骤406中的操作手势模型中,本申请对此不做限定。
在本实施例的一些可选的实现方式中,在执行步骤406之前,还可以采用如下步骤:将所述特征矩阵扁平化,得到一阶特征矩阵;将所述一阶特征矩阵更新为所述特征矩阵。如此可以,提高手势识别模型的识别效率。
在本实施例的一些可选的实现方式中,可以采用如下方式确定操作手势的类型标识:将所述特征矩阵输入操作手势识别模型,估计出所述操作手势对应的各类型标识的置信度;基于各类型标识的置信度,确定出所述操作手势的类型标识。
在本实施例方式中,类型标识的置信度用于表征操作手势为该类型标识的概率。作为示例,执行主体将操作手势的视频输入操作手势识别模型之后,操作手势识别模型输出该操作手势对应的多个类型标识的置信度,然后将置信度最高的类型标识确定为该操作手势的类型标识。
步骤407,基于操作手势的视频,确定出操作手势所指示的操作区域。此步骤与前述步骤204相对应,此处不再赘述。
在本实施例的一些可选的实现方式中,可以经由如下步骤确定操作手势所指示的操作区域:基于所述各关键点在各所述关键帧中的特征信息,确定出各所述关键点的移动轨迹;基于各所述关键点的移动轨迹,确定出所述操作手势指示的操作区域。
在本实现方式中,执行主体可以基于关键点的特征信息,确定出操作手势所指示的操作区域。例如,当执行主体识别出用户食指末端的关键点在垂直于操作面板的方向的位移为由远及近,并停留在终点位置,其他关键点的位置保持不动,可以将食指末端的关键点坐标确定为该操作手势的操作区域。
步骤408,基于操作区域和操作指令标识,确定出操作手势表征的操作指令。此步骤与前述步骤205相对应,此处不再赘述。
步骤409,执行操作指令。此步骤与前述步骤206相对应,此处不再赘述。
从图4中可以看出,与图2所示的实施例相比,本实施例中的用于操作移动设备的方法的流程400突出了采样关键帧、从关键帧中提取关键点的特征信息、基于关键点在各关键帧中的特征信息生成特征矩阵的步骤,其中,采样关键帧可以降低操作手势识别的数据量,并按照关键帧的时序生成各关键点的特征向量,可以准确地表征用户手部的连续动作,提高了识别的准确度。
此外,上述实施例的一些可选的实现方式中,本公开的用于操作移动设备的方法还可以包括如下步骤:语音播报所述操作指令。如此,可以在执行主体执行操作指令的时候,将执行动作告知用户,以便于用户采取后续动作,可以进一步提高视觉障碍用户的操作便利。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种用于操作移动设备的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于操作移动设备的装置500包括:手势检测单元501,被配置成响应于检测到操作手势,获取操作手势的视频;手势识别单元502,被配置成将操作手势的视频输入预先训练的操作手势识别模型,确定出操作手势的类型标识;标识确定单元503,被配置成基于预存的操作手势的类型标识与操作指令标识的对应关系,确定出操作手势的类型标识对应的操作指令标识指令;区域确定单元504,被配置成基于操作手势的视频,确定出操作手势所指示的操作区域;确定单元505,被配置成基于操作区域和类型标识,确定出操作手势表征的操作指令;指令执行单元506,被配置成执行操作指令。
在本实施例中,手势识别单元502进一步包括:采样模块,被配置成从操作手势的视频中采样出预设数量的关键帧;特征提取模块,被配置成从关键帧中提取出手部关键点,并生成各手部关键点在该关键帧中的特征信息,特征信息包括关键点标识和关键点坐标,其中,关键点标识用于表征关键点的手部位置,关键点坐标用于表征关键点在该关键帧中与其他关键点的相对位置关系;向量生成模块,被配置成按照各关键帧的时序,将关键点标识相同的关键点在各关键帧中的特征信息编码成该关键点的特征向量;矩阵生成模块,被配置成基于各关键点的特征向量,生成特征矩阵;手势识别模块,被配置成将特征矩阵输入手势识别模型,得到操作手势的类型标识。
在一些实施例中,区域确定单元504被进一步配置成经由如下步骤确定操作手势指示的操作区域:基于各关键点在各关键帧中的特征信息,确定出各关键点的移动轨迹;基于各关键点的移动轨迹,确定出操作手势指示的操作区域。
在一些实施例中,手势识别单元502还包括矩阵扁平化处理模块,被配置成将特征矩阵扁平化,得到一阶特征矩阵;以及,将一阶特征矩阵更新为特征矩阵。
在一些实施例中,识别模块被进一步配置成:将特征矩阵输入手势识别模型,估计出操作手势对应的各类型标识的置信度;基于各类型标识的置信度,确定出操作手势的类型。
在一些实施例中,手势检测单元501进一步包括:动作检测模块,被配置成响应于检测到手部动作,采集手部动作的视频;动作确定模块,被配置成响应于确定采集到的手部动作的视频满足预设条件,将手部动作确定为操作手势,并将手部动作的视频确定为操作手势的视频。
在一些实施例中,该装置500还包括:语音播报单元,被配置成语音播报操作指令。
下面参考图6,其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器或终端设备)600的结构示意图。本公开的实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)等等的移动终端。图6示出的终端设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:响应于检测到操作手势,获取操作手势的视频;将操作手势的视频输入预先训练的操作手势识别模型,确定出操作手势的类型标识;基于预存的操作手势的类型标识与操作指令标识的对应关系,确定出操作手势的类型标识对应的操作指令标识;基于操作手势的视频,确定出操作手势所指示的操作区域;基于操作区域和操作指令标识,确定出操作手势表征的操作指令;执行操作指令。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括手势检测单元、手势识别单元、标识确定单元、区域确定单元和指令执行单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,手势检测单元还可以被描述为“响应于检测到操作手势,获取操作手势的视频的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (16)
1.一种用于操作移动设备的方法,其中,包括:
响应于检测到操作手势,获取所述操作手势的视频;
将所述操作手势的视频输入预先训练的操作手势识别模型,确定出所述操作手势的类型标识;
基于预存的操作手势的类型标识与操作指令标识的对应关系,确定出所述操作手势的类型标识对应的操作指令标识;
基于所述操作手势的视频,确定出所述操作手势所指示的操作区域;
基于所述操作区域和所述操作指令标识,确定出所述操作手势表征的操作指令;
执行所述操作指令。
2.根据权利要求1所述的方法,其中,所述类型标识经由如下步骤确定:
从所述操作手势的视频中采样出预设数量的关键帧;
从所述关键帧中提取手部的关键点,并生成各所述关键点在该关键帧中的特征信息,所述特征信息包括关键点标识和关键点坐标,其中,所述关键点标识用于表征关键点在手部的部位,所述关键点坐标用于表征关键点在该关键帧中相对于其他关键点的相对位置;
按照各所述关键帧的时序,将关键点标识相同的关键点在各所述关键帧中的特征信息编码成该关键点的特征向量;
基于各所述关键点的特征向量,生成特征矩阵;
将所述特征矩阵输入所述操作手势识别模型,得到所述操作手势的类型标识。
3.根据权利要求2所述的方法,其中,所述操作区域经由如下步骤确定:
基于所述各关键点在各所述关键帧中的特征信息,确定出各所述关键点的移动轨迹;
基于各所述关键点的移动轨迹,确定出所述操作手势指示的操作区域。
4.根据权利要求2所述的方法,其中,将所述特征矩阵输入操作手势识别模型之前,还包括:将所述特征矩阵扁平化,得到一阶特征矩阵;
将所述一阶特征矩阵更新为所述特征矩阵。
5.根据权利要求2所述的方法,其中,将所述特征矩阵输入操作手势识别模型,得到所述操作手势的类型标识,包括:
将所述特征矩阵输入所述操作手势识别模型,估计出所述操作手势对应的各类型标识的置信度;
基于所述各类型标识的置信度,确定出所述操作手势的类型标识。
6.根据权利要求1所述的方法,其中,响应于检测到操作手势,获取所述操作手势的视频,包括:
响应于检测到手部动作,采集所述手部动作的视频;
响应于确定采集到的所述手部动作的视频满足预设条件,将所述手部动作确定为操作手势,并将所述手部动作的视频确定为操作手势的视频。
7.根据权利要求1至6之一所述的方法,所述方法还包括:语音播报所述操作指令。
8.一种用于操作移动设备的装置,其中,包括:
手势检测单元,被配置成响应于检测到操作手势,获取所述操作手势的视频;
手势识别单元,被配置成将所述操作手势的视频输入预先训练的操作手势识别模型,确定出所述操作手势的类型标识;
标识确定单元,被配置成基于预存的操作手势的类型标识与操作指令标识的对应关系,确定出所述操作手势的类型标识对应的操作指令标识;
区域确定单元,被配置成基于所述操作手势的视频,确定出所述操作手势所指示的操作区域;
指令确定单元,被配置成基于所述操作区域和所述操作指令标识,确定出所述操作手势表征的操作指令;
指令执行单元,被配置成执行所述操作指令。
9.根据权利要求8所述的装置,其中,所述手势识别单元进一步包括:
采样模块,被配置成从所述操作手势的视频中采样出预设数量的关键帧;
特征提取模块,被配置成从所述关键帧中提取出手部的关键点,并生成各所述关键点在该关键帧中的特征信息,所述特征信息包括关键点标识和关键点坐标,其中,所述关键点标识用于表征关键点在手部的部位,所述关键点坐标用于表征关键点在该关键帧中相对于其他关键点的相对位置;
向量生成模块,被配置成按照各所述关键帧的时序,将关键点标识相同的关键点在各所述关键帧中的特征信息编码成该关键点的特征向量;
矩阵生成模块,被配置成基于各所述关键点的特征向量,生成特征矩阵;
手势识别模块,被配置成将所述特征矩阵输入操作手势识别模型,得到所述操作手势的类型标识。
10.根据权利要求8所述的装置,其中,所述区域确定单元被进一步配置成经由如下步骤确定所述操作手势指示的操作区域:
基于所述各关键点在各所述关键帧中的特征信息,确定出各所述关键点的移动轨迹;
基于各所述关键点的移动轨迹,确定出所述操作手势指示的操作区域。
11.根据权利要求9所述的装置,其中,所述手势识别单元还包括矩阵扁平化处理模块,被配置成将所述特征矩阵扁平化,得到一阶特征矩阵;以及,将所述一阶特征矩阵更新为所述特征矩阵。
12.根据权利要求9所述的装置,其中,所述识别模块被进一步配置成:
将所述特征矩阵输入所述操作手势识别模型,估计出所述操作手势对应的各类型标识的置信度;
基于各类型标识的置信度,确定出所述操作手势的类型标识。
13.根据权利要求8所述的装置,其中,所述手势检测单元进一步包括:
动作检测模块,被配置成响应于检测到手部动作,采集所述手部动作的视频;
动作确定模块,被配置成响应于确定采集到的所述手部动作的视频满足预设条件,将所述手部动作确定为操作手势,并将所述手部动作的视频确定为操作手势的视频。
14.根据权利要求8至13之一所述的装置,所述装置还包括:语音播报单元,被配置成语音播报所述操作指令。
15.一种移动设备,包括:
图像采集装置,被配置成采集视频;
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011215818.7A CN112286360A (zh) | 2020-11-04 | 2020-11-04 | 用于操作移动设备的方法和装置 |
PCT/CN2021/123871 WO2022095674A1 (zh) | 2020-11-04 | 2021-10-14 | 用于操作移动设备的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011215818.7A CN112286360A (zh) | 2020-11-04 | 2020-11-04 | 用于操作移动设备的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112286360A true CN112286360A (zh) | 2021-01-29 |
Family
ID=74352184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011215818.7A Pending CN112286360A (zh) | 2020-11-04 | 2020-11-04 | 用于操作移动设备的方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112286360A (zh) |
WO (1) | WO2022095674A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113616239A (zh) * | 2021-08-13 | 2021-11-09 | 北京华医共享医疗科技有限公司 | 一种自动超声检测方法及系统 |
WO2022095674A1 (zh) * | 2020-11-04 | 2022-05-12 | 北京沃东天骏信息技术有限公司 | 用于操作移动设备的方法和装置 |
WO2024078088A1 (zh) * | 2022-10-14 | 2024-04-18 | 支付宝(杭州)信息技术有限公司 | 互动处理方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255324A (zh) * | 2018-09-05 | 2019-01-22 | 北京航空航天大学青岛研究院 | 手势处理方法、交互控制方法及设备 |
CN111144367A (zh) * | 2019-12-31 | 2020-05-12 | 重庆百事得大牛机器人有限公司 | 基于手势识别的辅助语义识别方法 |
US20200167556A1 (en) * | 2018-11-26 | 2020-05-28 | Accenture Global Solutions Limited | Real-time gesture detection and recognition |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112286360A (zh) * | 2020-11-04 | 2021-01-29 | 北京沃东天骏信息技术有限公司 | 用于操作移动设备的方法和装置 |
-
2020
- 2020-11-04 CN CN202011215818.7A patent/CN112286360A/zh active Pending
-
2021
- 2021-10-14 WO PCT/CN2021/123871 patent/WO2022095674A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255324A (zh) * | 2018-09-05 | 2019-01-22 | 北京航空航天大学青岛研究院 | 手势处理方法、交互控制方法及设备 |
US20200167556A1 (en) * | 2018-11-26 | 2020-05-28 | Accenture Global Solutions Limited | Real-time gesture detection and recognition |
CN111144367A (zh) * | 2019-12-31 | 2020-05-12 | 重庆百事得大牛机器人有限公司 | 基于手势识别的辅助语义识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022095674A1 (zh) * | 2020-11-04 | 2022-05-12 | 北京沃东天骏信息技术有限公司 | 用于操作移动设备的方法和装置 |
CN113616239A (zh) * | 2021-08-13 | 2021-11-09 | 北京华医共享医疗科技有限公司 | 一种自动超声检测方法及系统 |
WO2024078088A1 (zh) * | 2022-10-14 | 2024-04-18 | 支付宝(杭州)信息技术有限公司 | 互动处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2022095674A1 (zh) | 2022-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12051236B2 (en) | Method for recognizing video action, and device and storage medium thereof | |
WO2021115181A1 (zh) | 手势识别方法、手势控制方法、装置、介质与终端设备 | |
WO2022095674A1 (zh) | 用于操作移动设备的方法和装置 | |
CN109993150B (zh) | 用于识别年龄的方法和装置 | |
EP3893125A1 (en) | Method and apparatus for searching video segment, device, medium and computer program product | |
CN112148128B (zh) | 一种实时手势识别方法、装置及人机交互系统 | |
CN104808794B (zh) | 一种唇语输入方法和系统 | |
US20210042504A1 (en) | Method and apparatus for outputting data | |
CN109614613A (zh) | 图像的描述语句定位方法及装置、电子设备和存储介质 | |
CN109871800A (zh) | 一种人体姿态估计方法、装置和存储介质 | |
US11641352B2 (en) | Apparatus, method and computer program product for biometric recognition | |
CN112306220A (zh) | 基于肢体识别的控制方法、装置、电子设备及存储介质 | |
CN105354560A (zh) | 指纹识别方法及装置 | |
CN112364799A (zh) | 一种手势识别方法及装置 | |
EP4273742A1 (en) | Handwriting recognition method and apparatus, electronic device, and medium | |
CN104036240A (zh) | 人脸特征点的定位方法和装置 | |
CN108133197B (zh) | 用于生成信息的方法和装置 | |
CN111160047A (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN111783674A (zh) | 一种基于ar眼镜的人脸识别方法和系统 | |
KR102094953B1 (ko) | 시선 추적 방법 및 이를 수행하기 위한 단말 | |
CN109829431B (zh) | 用于生成信息的方法和装置 | |
US20120086864A1 (en) | Method and Apparatus for Determining Motion | |
CN113342170A (zh) | 手势控制方法、装置、终端和存储介质 | |
CN111128131B (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN111507289A (zh) | 视频匹配方法、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |