CN103797513A

CN103797513A - 对内容的基于计算机视觉的双手控制

Info

Publication number: CN103797513A
Application number: CN201280008539.0A
Authority: CN
Inventors: 埃米尔·卡普兰; 艾兰·埃拉特; 海姆·佩尔斯基
Original assignee: Pointgrab Ltd
Current assignee: Pointgrab Ltd
Priority date: 2011-01-06
Filing date: 2012-01-05
Publication date: 2014-05-14
Also published as: GB201204543D0; WO2012093394A2; KR20130105725A; US20130335324A1; WO2012093394A3; US20130285908A1; GB2490199B; GB2490199A

Abstract

公开了一种用于通过使用特定的手姿势基于计算机视觉来操作所显示的内容的系统和方法。在一个实施方式中，启用一种模式，其中在一般双手操作（例如缩放和旋转）中内容可以被操作。

Description

对内容的基于计算机视觉的双手控制

发明领域

本发明涉及电子设备的基于姿势和手势的控制的领域。具体地，本发明涉及基于计算机视觉的手姿势和姿态识别。

发明背景

随着计算机和其它电子设备在我们日常生活中变得较为普遍，对更方便、直观和便于携带的输入设备的需要增加了。指示设备是通常用于与计算机以及相关于电子显示器的其他电子设备进行交互的一种类型的输入设备。已知的指示设备和机器控制机构包括电子鼠标、轨迹球、指示棍和触摸板、触摸屏等。已知的指示设备用来控制在相关的电子显示器上显示的光标的位置和/或移动。指示设备也可以通过启动指示设备上的开关来传达命令，例如位置特定的命令。

在一些实例中，存在从一段距离控制电子设备的需要，在这种情况下用户不能触摸设备。这些实例的一些例子包括看TV、在PC上看视频等。在这些情况中使用的一种解决方案是远程控制设备。

最近，人打手势例如手打手势被建议为用户界面输入工具，其可甚至在离被控制的设备的一段距离处被使用。通常，手的姿势或姿态可以被照相机检测到，并且转变成特定的命令。

通过基于计算机视觉的手打手势，对所显示的内容的操作例如缩小/放大也是可能的。通常，手的移动引起屏幕上的内容的移动、旋转或缩小/放大。然而，为了停止操作并产生其它命令，用户必须将他的手移出照相机视场并且随后再次将它们带到视场。因此，目前已知的操作方法没有提供使用户能够自由操作所显示的内容的完全的解决方案。

发明概述

本发明的实施方式提供了用于基于手的姿势和姿态来容易控制设备的系统和方法，其使用户能够顺利并直观地在不同命令之间交替。

在一个实施方式中，系统和方法包括通过使用特定的手姿势（“操作姿势”）来操作所显示的内容。在一个实施方式中，一种模式（操作模式）被启用，在该模式中可通过使用操作姿势在一般双手操作（例如缩放和旋转）中操作内容。

附图的简要说明

现在将参考下列例证性附图关于某些实施例和实施方式描述本发明，以便本发明可以被更充分理解。在附图中：

图1示意性示出了根据本发明的实施方式可操作的系统；

图2示意性示出根据本发明的一个实施方式的用于所显示的内容的基于计算机视觉的双手控制的方法；

图3示意性示出根据本发明的一个实施方式的用于对光标进行基于计算机视觉的双手控制的方法；

图4A-D示意性示出了可基于手姿势和姿态的计算机视觉识别来控制的设备的几个实施方式；

图5A-B示意性示出根据本发明的两个实施方式的设备和GUI；

图6示意性示出根据本发明的另一个实施方式的设备和GUI；

图7示意性示出根据本发明的实施方式的用于控制GUI上的图形元素的方法；以及

图8示意性示出根据本发明的实施方式的用于对设备进行基于计算机视觉的控制的方法。

本发明的详细描述

根据本发明的实施方式，提供了一种用于用户-设备交互的系统，其包括具有显示器的设备以及与该设备和处理器进行通信的图像传感器。图像传感器获取图像数据，并且将它发送到处理器以执行图像分析来从图像数据检测和跟踪用户的手，并检测用户的手控制设备——通常控制所显示的内容——的姿势。

根据本发明的实施方式，对特定的手姿势或姿态的检测或者两只手（而不是单只手）的检测使系统将手的姿态解释为根据用户的手移动来操作所显示的内容（在一些实施方式中，根据用户的手移动选择所显示的内容和跟踪用户的手来操作被选择的内容）的命令。对视觉地显示的内容的选择或者GUI上的图形元素的选择使用户能够操作所显示的内容或图形元素，例如移动内容或者元素、拉伸图像或者图像的部分、放大或缩小屏幕或者屏幕的部分、旋转所选择的内容等。

现在参考图1，其示意性示出了根据本发明的实施方式的系统100。系统100包括用于获取视场（FOV）104的图像的图像传感器103。图像传感器103通常与处理器102和可选地与用于存储图像数据的存储设备107相关。存储设备107可以集成在图像传感器103内，或者可以在图像传感器103的外部。根据一些实施方式，图像数据可以存储在处理器102中，例如在高速缓存存储器中。

视场（FOV）104的图像数据被发送到处理器102以用于分析。在视场104内的用户的手105被检测和跟踪，并且手的姿势或姿态可以由处理器102基于图像分析来识别。根据一些实施方式，系统100可使用多于一个的处理器。

设备101与处理器102进行通信。设备101可以是具有电子显示器106或连接到电子显示器106的可选地具有图形用户界面（GUI）的任何电子设备，例如为TV、DVD播放器、PC、手机、照相机、STB（机顶盒）、流式播放器（streamer）等。根据一个实施方式，设备101是具有集成标准2D照相机的可用电子设备。根据其它的实施方式，照相机是设备的外部附件。根据一些实施方式，提供多于一个的2D照相机以能够获取3D信息。根据一些实施方式，系统包括3D照相机。

处理器102可以与图像传感器103成一整体，或者可以是单独的单元。可选地，处理器102可以集成在设备101内。根据其它的实施方式，第一处理器可以集成在图像传感器103内，并且第二处理器可以集成在设备101内。

图像传感器103与处理器102之间的通信和/或处理器102与设备101之间的通信可通过有线或无线链路，例如通过IR通信、无线传输、蓝牙技术和其他适合的传输路线和协议。

根据一个实施方式，图像传感器103是前向式照相机。图像传感器103可以是标准的2D照相机，例如网络摄像机（webcam）或通常安装在PC或其它电子设备上的其它标准视频捕捉设备。根据一些实施方式，图像传感器103可以是IR敏感的。

处理器102可应用图像分析算法例如运动检测和形状识别算法来识别和进一步跟踪用户的手105。

根据一些实施方式，电子显示器106可以是与设备101分离的单元。

系统100可根据方法来操作，这些方法的一些实施方式在下面被描述。

在图2中示意性示出了根据一个实施方式的用于对所显示的内容进行基于计算机视觉的双手控制的方法。视场的图像或者系列图像被获取（202），以及例如通过处理器（例如，102）应用形状识别算法在至少一个图像内识别（204）两只手。例如通过将检测到的手的形状与手姿势模型库进行比较来检测至少一个手的姿势。如果检测到的姿势与特定的预定姿势（例如，操作姿势）对应（206），则根据预定的姿势产生操作例如在显示器106上所显示的内容的命令（208）。

根据一个实施方式，在视场内的第二只手的存在启用“操作模式”。因此，根据一个实施方式，预定的手姿势（操作姿势）仅仅当两只手存在时才实现对所显示的内容的特定操作。例如，当在用户的一个手存在的情况下操作姿势被执行时，内容或图形元素可跟随单只手的移动而被拖动，但是响应于第二只手的出现来执行操作姿势可引起例如旋转、缩放或以另外方式基于用户的双手移动操作内容的操作。

根据一些实施方式，与用户的手的位置相关的图标或符号可以被显示，使得用户可以通过移动他/她的手来将符号引导到显示器上的期望位置，以操作在该位置显示的内容。

根据一个实施方式，可以基于两只检测到的手的位置来操作所显示的内容。根据一些实施方式，基于一只手与另一只手比较的相对位置来操作内容。对内容的操作可以包括例如移动所选择的内容、缩放、旋转、拉伸或这些操作的组合。例如，当执行操作姿势时，在两只手存在的情况下，用户可以将两只手移动分开以拉伸或放大图像。拉伸或缩放通常与手离彼此的距离成比例。

只要检测到第一姿势，就可以连续地操作内容。为了释放对内容的操作，两只手中的至少一只手的第二姿势被检测（210）；并且基于检测到的第二姿势，操作命令被中止并且对所显示的内容的操作被释放（212）。因此，例如，一旦用户将图像拉伸到其期望的比例，用户就可以将他/她的一只手或者两只手的姿势改变为第二预定的“释放操作姿势”，并且内容将不被进一步操作，即使用户移动他/她的手。

根据一个实施方式，操作姿势包括手的所有手指的指尖聚在一起使得指尖彼此触摸或几乎触摸。根据一个实施方式，该操作姿势用来选择内容和/或操作被选择的内容，例如拖内容。

可以使用已知的方法例如通过应用形状和/或轮廓检测算法来完成识别手和/或识别姿势。根据一个实施方式，轮廓检测器可以应用在视场的图像上以找到被成像的对象（通常，用户的手）的轮廓特征。可以比较对象的轮廓特征与手的轮廓模型以获取比较级别的矢量，并且机器学习算法可以被应用来获取数字权重的矢量，最终级别从该数字权重的矢量被计算出来。如果最终级别在预定的阈值之上，则对象被识别为手，并且如果最终级别在预定的阈值之下，则另外的图像然后被处理。

根据一个实施方式，对象和手轮廓模型都可被表示为特征的集合，每一个特征是定向边缘像素的集合。手的轮廓模型可以通过以下操作来创建：获取模型手的特征，模型手是用于来产生手的模型的多个手的集合；随机扰乱模型手的特征；排列特征并且使用机器学习技术从模型手的特征中选择最不同的特征（例如，从1000个特征中选择100个最不同的特征），以产生手的轮廓模型。例如通过匹配对象和模型的边缘图（例如，定向削角匹配），可以完成对象与轮廓模型的比较。这个匹配可以包括应用距离函数。例如，可以将来自感兴趣区内的对象的轮廓上的点与位于中心的模型比较，以获得这两者之间的距离，并且通过对所有的测量距离取平均来计算平均距离。如果距离小于为该特征计算的阈值，则该特征的权被加到该匹配的总等级。如果总等级在某个阈值之上，则对象被识别为手。

根据一些实施方式，仅当系统在“操作模式”中时，姿势才可以被识别为“操作姿势”。特定的姿态、姿势或其它信号可能需要被识别以发起操作模式。例如，只有当两只手被检测到时，姿势才可被识别为“操作姿势”，且内容可以基于这种姿势来操作。

一些实施方式意欲提高两只手属于一个用户的可能性。根据一个实施方式，两只手必须被识别为左手和右手。根据另一实施方式，所检测的两只手必须有大约相同的尺寸。根据又一实施方式，方法可能包括检测脸；并且如果脸位于左手和右手之间，则基于预定的姿势的检测来选择所显示的内容并操作所显示的内容。

在一个实施方式中，通过检测初始化姿态例如一只手相对于另一只手的预定运动例如将一只手移动得更靠近或者更远离另一只手来发起“操作模式”。根据一些实施方式，初始化姿态包括两只手的手指伸展开、手掌向前。在另一实施方式中，特定的应用可以是用于启用“操作模式”的信号。例如，提出基于地图服务的应用（或另一应用，其中所显示的内容的操作可以被相当多地使用）可以使特定姿势能够产生操作所显示的地图的命令。

本发明的实施方式还提供了一种用于对光标或其它图标、符号和所显示的内容进行基于计算机视觉的双手控制的方法。根据在图3中示意性示出的一个实施方式，该方法包括获取视场的图像（302）；在图像内识别两只手（304）；确定两只手对彼此的相对位置和确定两只手之间的中点（306），以及在所确定的中点处显示（例如）光标（308）。根据一个实施方式，检测到两只手可以产生选择光标的命令。一旦显示并选择了光标，一只手或者两只手的移动就可以移动光标。一只手或者两只手的特定姿势可以控制对光标的特定操作。

根据一些实施方式，光标可以显示在两只手之间的不同的预定点——不一定是中点——处。

根据本发明的一个实施方式，提供了可以基于手的姿势和姿态的计算机视觉识别来控制的设备。根据在图4A中示意性示出的实施方式，提供了具有处理器402和显示器406的设备，显示器具有图形用户界面（GUI）。

处理器402与图像传感器（例如图像传感器103）进行通信以获取图像，并且处理器402或另一处理单元可从图像识别和跟踪用户的手415。

跟踪用户的手可以通过已知的跟踪方法来完成。例如，跟踪可包括选择在两个一般连续的图像中的具有相似的移动和位置特性的像素群。手的形状可以被检测到（例如，如上所描述的），并且感兴趣的点（像素）可以从检测到的手形状区域内选择，该选择除了其它参数以外还基于方差（具有高方差的点通常是优选的）。点的移动可以通过跟踪从帧n到帧n+1的点来确定。点的反向光流可以被计算（每个点从帧n+1到帧n的理论位移），并且这个计算可以用来过滤掉不相关的点。具有相似的移动和位置参数的一组点被定义，并且这些点用于跟踪。

根据一个实施方式，符号403显示在显示器406上，该符号与用户的手相关。符号403可以是手或任何其他图形元素的图标。符号403通常根据所成像的用户手的移动在显示器406上移动。

通过应用形状检测算法或其他适合的算法，处理器402或其它处理单元可以检测用户的手的预定姿势，并且基于预定姿势的检测，符号403在GUI上改变为另一符号403’。根据一个实施方式，预定姿势类似于手的“抓”姿势（手的所有手指的指尖聚在一起使得指尖彼此触摸或几乎触摸），并且符号403’是“抓符号”，例如，手的所有手指的指尖聚在一起使得指尖彼此触摸或几乎触摸的图标。

基于第二姿势例如面向照相机的手掌的所有手指展开的检测（通常，“释放操作姿势”），符号403’可以改变回到符号403。

根据在图4B中示意性示出的另一个实施方式，处理器402可以识别两只手415和415’，并且GUI可包括表示第一只手415的第一符号413和表示第二只手415’的第二符号413’。符号413和413’可以在显示器406上与用户的第一只手415和第二只手415’的相对位置成比例地被定位。符号413可以根据用户的第一只手415的移动在显示器406上移动，并且第二符号413’可以根据用户的第二只手415’的移动在显示器406上移动。用户的第一只手415可以被处理器402识别为右手，并且用户的第二只手415’可以被处理器402识别为左手，反之亦然。

左手和右手识别可以基于边缘检测和特征提取。例如，潜在的手区域被识别并且与左手和/或右手的手模型比较。

根据一个实施方式，在符号403或413或413’附近显示的内容可以被选择，并且基于符号403、413和/或413’的移动来操作。操作可以包括移动、缩放、旋转、拉伸或对视觉内容的其他操作。

根据一个实施方式，手的移动或手的相对移动被归一化到手的尺寸而不是直接归一化到在图像中移动的像素的数量。例如，两个“手尺寸”的移动可以两倍地拉伸对象。以这种方式，用户可以将他的手移动分开或者靠近，移动的距离独立于用户的手离图像传感器或离显示器的距离。

与基于手打手势的更严格的操作相反，基于移动符号（例如符号413和413’）来操作内容可以实现基于在内容内的符号的位置的灵活操作。例如，如在图4C中示意性示出的，在图像被显示的情况中，一旦“操作模式”被启用（例如，通过两只手445和446的存在），用户就可以执行实现图像的操作例如图像的拉伸（放大）的姿势。用户的一个或者两个手移动距离D1和D2将根据用户的手所移动的距离来成比例地拉伸图像（在图中，用实线画出的对象被定位，在图像的拉伸之后，对象用虚线画出）。在图4D中示意性示出的例子中，两只手（465和475）每个有显示在显示器上的相关的符号（465’和475’）。符号465’和475’（其与手465和475的移动相关）的移动将导致符号附近的内容（例如三角形4005和圆4004）的移动，使得其在图像4006的帧内的坐标保持相同，而图像本身被拉伸（实线对象表示在手移动前的内容而虚线对象表示在手移动后的相同内容）。以这种方式，不一定成比例的拉伸或另一操作可以被执行。

根据在图5A和5B中示意性示出的一些实施方式，提供具有处理器502和显示器506的设备，显示器具有图形用户界面（GUI）。

处理器502与图像传感器（例如图像传感器103）通信以获取图像，并且处理器502或另一处理单元可从图像检测和跟踪用户的手。

根据如在图5A和5B中所示的一个实施方式，当处理器检测到一只手515时，GUI显示第一图形元素，而当处理器检测到两只手525和526时GUI包括第二图形元素，第一图形元素不同于第二图形元素。

根据一个实施方式，第一图形元素是菜单530，而第二图形元素是至少一个光标532（或其它图标或符号）。因此，当用户仅用一只手控制设备时，菜单被显示给用户。当用户将另一只手添加到FOV时，菜单将消失并且光标被显示。光标（一个或者两个光标）例如如上所述被控制。

根据一个实施方式，处理器502可检测用户的左手和用户的右手。第二图形元素可以包括左手光标532和右手光标532’。根据用户的左手525可以操作左手光标532，并且根据用户的右手526可以操作右手光标532’。

根据一些实施方式，例如通过移动、拉伸、旋转或缩放仅仅由两个光标（532和532’）限定的或通过由两个光标限定的边界560限定的内容而不是操作整个图像550，可操作在左手光标532和右手光标532’之间显示的内容，例如图像550或该图像的一部分550’。

根据在图6中示意性示出的另一实施方式，提供了具有处理器602和显示器606的设备，该显示器具有图形用户界面（GUI）。

处理器602与图像传感器（例如图像传感器103）通信以获取图像，并且处理器602或另一处理单元可从图像检测和跟踪用户的手。

根据一个实施方式，当检测到第一手姿势615（例如手或手掌的所有手指展开）时，GUI显示第一图形元素，例如像箭头引导符号630的键盘。当检测到第二手姿势616（例如，手的所有手指的指尖聚在一起使得指尖彼此触摸或几乎触摸）时，GUI显示第二图形元素，例如菜单631。

根据本发明的一个实施方式，提供用于将命令应用在GUI内的图形元素上的方法。根据在图7中示意性示出的一个实施方式，方法包括获取用户的手的第一和第二图像（702）；从第一图像检测用户的手的第一姿势和从第二图像检测用户的手的第二姿势（704）；如果检测到在第一图像和第二图像之间的手的移动（711），则根据手的移动来移动图形元素（713）。然而，如果在第一和第二图像之间的用户的手的姿势的变化被检测到（710），那么停止移动被选择的图形元素的命令被应用（710）。

根据一个实施方式，图形元素是光标。因此，如果用户通过使用特定的手姿势（例如，如上所述的）选择了光标，那么当将他/她的手保持在特定姿势中时，他/她的手的移动被跟踪，并且光标根据用户的手的移动在显示器上移动。当用户改变了手的姿势时，例如，用户可能想在类似抓取的手姿势中合住他/她的手以执行鼠标点击（例如，左点击）或选择和/或拖动对象，归因于类似抓取姿势的抓住/松开的光标移动需要被避免。因此，当姿势的变化被检测到时终止移动光标的命令（与在同一个姿势中时手的移动相反）保证在姿势变化期间手的一部分移动的情况下光标将不被非故意地移动。

根据一个实施方式，检测在第一和第二图像之间的用户的手的姿势中是否有变化和/或在第一和第二图像之间是否有手的移动包括检查在用户的手的第一图像和第二图像之间的变换。手的姿势的变化通常将在非刚性变换中导致图像内的像素的相对移动，而整个手的移动（同时保持同一个姿势）通常将导致刚性变换。

因此，根据一个实施方式，如果变换是非刚性变换，那么方法包括终止移动被选择的图形元素（例如，光标）的命令；并且如果变换是刚性变换，那么方法包括根据手的移动应用移动图形元素（例如，光标）的命令。

检查用户的手的第一和第二图像之间的变换也可被有利地用来例如减少计算时间。例如，根据一个实施方式，检测手的姿势包括比较手的形状与手姿势模型库。根据本发明的实施方式，能够只有当用户可能正在改变手的姿势时才发起这个比较而不是连续地应用比较。本发明的这个实施方式在图8中示意性地示出。

用于基于计算机视觉对设备进行控制的方法包括获取用户的手的第一和第二图像（802）；检查在第一和第二图像之间的变换（804）；并且如果变换是刚性变换（806），那么产生控制设备的第一命令（808），而如果变换是非刚性变换（807），那么产生控制设备的第二命令（809）。

第一命令可以是根据用户的手的移动来移动被选择的图形元素（例如，光标）。第二命令可以发起搜索姿势的过程（例如，通过与模型库比较），其后，移动图像元素的命令可被终止。

Claims

1.一种用于基于计算机视觉对所显示的内容控制的方法，所述方法包括：

获取视场的图像；

在所述图像内识别用户的手；

检测所述手的第一姿势；

基于检测到所述手的所述第一姿势，产生操作显示的内容的命令；

检测所述手的第二姿势，所述手的所述第二姿势不同于所述手的所述第一姿势；以及

基于检测到所述第二姿势，中止操作所述显示的内容的所述命令。

2.根据权利要求1所述的方法，包括跟踪所述手，其中对所述显示的内容的所述操作根据被跟踪的手的移动来进行。

3.根据权利要求2所述的方法，包括：仅当检测到所述第一姿势时，才根据所述被跟踪的手的移动来操作所述显示的内容。

4.根据权利要求2所述的方法，包括：在与所述手的位置相关的位置处显示图标并启用根据所述手的移动来移动所述图标。

5.根据权利要求4所述的方法，包括：当检测到所述第一姿势时显示第一图标，而当检测到所述第二姿势时显示第二图标。

6.根据权利要求1所述的方法，包括：基于检测到所述第一姿势来产生选择所显示的内容的命令。

7.根据权利要求1所述的方法，其中所述第一姿势包括手的所有手指的指尖聚在一起使得所述指尖彼此触摸或几乎触摸，以及其中所述第二姿势包括手掌的所有手指都展开。

8.根据权利要求1所述的方法，其中所述显示的内容包括显示在屏幕上的所有内容或显示在屏幕上的内容的选定部分。

9.根据权利要求1所述的方法，其中对所显示的内容的所述操作包括移动内容、缩小/放大内容、旋转内容、拉伸内容或其组合。

10.根据权利要求1所述的方法，包括：在所述图像内识别用户的两只手，以及其中基于检测到所述第一姿势和检测到用户的两只手来产生操作所显示的内容的命令。

11.根据权利要求10所述的方法，包括跟踪所述用户的两只手，其中对所显示的内容的所述操作基于一只手相比于另一只手的相对位置。

12.一种用于基于计算机视觉对所显示的内容控制的方法，所述方法包括：

获取视场的图像；

在所述图像内检测用户的两只手；

检测所述手中的至少一只的第一姿势；

基于检测到所述第一姿势和基于检测到所述两只手，产生操作所显示的内容的命令。

13.根据权利要求12所述的方法，包括：

检测所述手中的至少一只的第二姿势，所述第二姿势不同于所述第一姿势；以及

基于检测到所述第二姿势来中止操作所显示的内容的所述命令。

14.根据权利要求12所述的方法，其中所述第一姿势包括手的所有手指的指尖聚在一起使得所述指尖彼此触摸或几乎触摸。

15.根据权利要求13所述的方法，其中所述第二姿势包括手掌的所有手指都展开。

16.根据权利要求12所述的方法，包括跟踪所述用户的两只手，其中对所显示的内容的所述操作基于一只手相比于另一只手的相对位置。

17.根据权利要求12所述的方法，其中对所显示的内容的所述操作包括缩小/放大所述内容或旋转所述内容或其组合。

18.根据权利要求12所述的方法，包括：在与所述用户的两只手中的一只的位置相关的位置处显示至少一个图标，以及启用根据所述手的移动来移动所述图标。

19.根据权利要求13所述的方法，包括：当检测到所述第一姿势时显示第一图标，而当检测到所述第二姿势时显示第二图标，所述第一图标和所述第二图标显示在与所述用户的两只手中的一只的位置相关的位置处。

20.根据权利要求12所述的方法，包括：在与所述用户的第一只手的位置相关的位置处显示一个图标，并且在与所述用户的第二只手的位置相关的位置处显示另一个图标。

21.根据权利要求20所述的方法，其中在与所述用户的第一只手的位置相关的位置处显示的图标不同于在与所述用户的第二只手相关的位置处显示的图标。