Nothing Special   »   [go: up one dir, main page]

CN113227878A - 用于视线估计的方法和系统 - Google Patents

用于视线估计的方法和系统 Download PDF

Info

Publication number
CN113227878A
CN113227878A CN201980056363.8A CN201980056363A CN113227878A CN 113227878 A CN113227878 A CN 113227878A CN 201980056363 A CN201980056363 A CN 201980056363A CN 113227878 A CN113227878 A CN 113227878A
Authority
CN
China
Prior art keywords
sight
line
gaze
difference
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980056363.8A
Other languages
English (en)
Inventor
J-M·奥多贝兹
G·刘
K·A·菲内斯莫拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mucha Technology Co ltd
Original Assignee
Mucha Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mucha Technology Co ltd filed Critical Mucha Technology Co ltd
Publication of CN113227878A publication Critical patent/CN113227878A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Eye Examination Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及一种用于估计用户正在看的视线的方法。该方法包括检索用户和/或个体的眼睛的输入图像和参考图像的步骤。该方法然后包括处理输入图像和参考图像的步骤,以便估计输入图像内的眼睛的视线和参考图像内的眼睛的视线之间的视线差。使用估计的视线差和参考图像的已知视线来检索用户的视线。本发明还涉及一种用于使能该方法的系统。

Description

用于视线估计的方法和系统
技术领域
本发明涉及一种用于估计用户的视线的方法和系统,特别地用于人机交互、虚拟现实、健康护理和移动应用。
本发明还涉及一种用于估计用户的视线的运动的方法和系统。
背景技术
视线(即用户正在看的点和/或相对于他的眼睛的视线)是人类行为的重要线索。视线及其运动是视觉注意以及人们的特定思想和精神状态的指示器。
因此,视线估计为人机交互(HRI)、虚拟现实(VR)、社会交互分析或医疗保健等领域提供了支持。随着移动电话上的感测功能的发展,视线估计还可为移动场景中更广泛的应用提供支持。
视线可根据用例和/或应用领域以多种方式建模。当与计算机、平板电脑或移动设备交互时,视线可用度量值或像素坐标来表示凝视点,即人正在2D平面屏幕内看着的点。当对3D对象的注意力建模时,视线可为通过将视线与3D环境相交而获得的3D凝视点。备选地,视线可被建模为视线本身(无论它是眼睛的视觉轴线还是光学轴线),被表示为3D光线、3D向量或者简单地具有相对于优选坐标系定义的角度表示。
已经基于人眼的几何模型和图像内的外观解决了基于视觉的非侵入式视线估计。
几何方法依赖于眼睛特征提取(如当用红外系统工作时的闪烁、眼角或虹膜中心定位)来学习眼睛的几何模型,然后使用这些特征和模型来推断视线。然而,它们通常需要高分辨率的眼睛图像来进行鲁棒和精确的特征提取,容易受到噪声或光照的影响,并且不能很好地处理头部姿态变化和中到大的头部姿态。
其它方法依赖于图像内眼睛的外观,即借助于基于机器学习的回归算法直接从输入图像直接预测视线本身,该算法将图像外观映射成视线参数。这种回归算法将根据训练数据调整模型的参数,训练数据将由用基准真相视线标记的眼睛、面部和/或身体图像的样本组成。通过根据训练数据调整模型参数,模型变得能够预测看不见的图像的视线(测试数据)。当处理中低分辨率图像时,这些方法具有提供鲁棒估计的潜力,并且可获得良好的泛化性能。然而,基于外观的方法的精度通常被限制在5到6度左右,同时显示出受试者之间的高方差和高偏差。此外,这些方法的鲁棒性通常取决于头部姿态和眼睛形状,以及训练集的多样性。
发明内容
本发明的目的是提供一种用于估计用户的视线和/或用户的视线的运动的方法和系统,其消除或至少减轻已知视线估计方法和系统的缺点。
本发明的另一个目的是提供一种用于视线分析的方法和系统,例如用于支持和/或使能与视线相关和/或与用户相关的应用。
根据本发明,这些目的通过权利要求1和17的方法、权利要求10和18的系统以及权利要求20的计算机可读存储介质来实现。
所提出的解决方案提供了对用户的视线及其视线的相对或绝对运动的更精确的估计,这是相对于依赖于对视线差的估计的已知方法和系统而言的。特别地,所提出的解决方案提供了对在低分辨率图像中捕获的用户的视线的鲁棒估计。
事实上,捕获个体的眼睛(优选相同用户的同一只眼睛)的多个(至少两个)图像之间的比较允许避免通常困扰单图像预测方法的讨厌因素,诸如眼睛对准、眼睑闭合和光照扰动。
在一个实施例中,所提出的解决方案依赖于基于回归模型的机器学习(特别是以深度神经网络的形式),其被训练来估计一组至少两个图像之间的视线中的差异。在一个优选实施例中,基于回归模型被训练来估计仅两个图像之间的视线中的差异。在另一个实施例中,基于回归模型的机器学习被训练来估计一组图像之间的视线中的共同差异和/或一组差异。
在一个优选实施例中,深度神经网络包含一系列层,这些层可包括2D卷积滤波器、最大池化、批量归一化、修正、全连接层、激活函数和其它类似配置。
在一个优选实施例中,训练一组层以首先提取特征映射或特征向量,该特征映射或特征向量独立地是每个样本图像的中间表示,即使用相同的模型参数并且不考虑其它样本图像。通过接收作为输入的所有(优选两个)样本图像的特征映射,训练放置在后面阶段的另一组层,以提取样本图像之间的视线中的差异,所述样本图像被连接(例如,作为简单的特征向量拼接)为联合特征映射,其可用于比较样本,目的是估计视线差。
该特定解决方案提供了比已知解决方案更鲁棒的估计,同时需要更少的用户眼睛样本来提供视线差的鲁棒估计(即,使系统适应特定用户的眼睛外观、位置等)。
附图说明
借助于以示例方式给出并由附图说明的实施例的描述,将更好地理解本发明,在附图中:
图1示出了描述根据本发明的用于估计用户的视线的方法的流程图;
图2示出了关于基于参考视线和输入图像与参考图像之间的估计视线差来确定用户的视线的细节;
图3示出了本发明的特定实施例的示意图,其特别地基于操作模式下的(基于回归模型的)差分机器;
图4a、图4b示意性地示出了可用于图3的差分机器的训练过程;
图5示出了图3的差分机器的特定实施例;
图6示出了根据本发明的被配置成估计用户视线方向的便携式设备。
具体实施方式
本发明涉及一种用于估计用户的视线和/或用于基于图像样本之间的视线中的差异来估计用户的视线的(相对或绝对)运动的方法和系统,这些图像中的至少一个捕获用户的眼睛(例如,通过捕获用户的眼睛区域、面部、上身或甚至身体)。
视线中的差异然后可用于通过依赖于参考图像的(给定的或已知的)视线来估计用户的视线。因此,该方法和系统依赖于估计在多个图像中捕获的视线中的差异,而不是直接从具有用户的眼睛的图像估计视线。
与已知视线成对的参考图像与没有已知视线的输入图像之间的视线中的差异可用于通过合成参考样本的已知视线和估计的视线差(特别是由差分视线估计器提供的)来计算所述输入图像的视线。
根据本发明,视线是用户正在看的点和/或相对于用户的眼睛的视线的(数字)表示。因此,根据应用,视线可用多种方式来表示。当与计算机、平板电脑或移动设备交互时,视线可用度量值(在这种情况下,相对于固定到屏幕的空间参考系)或像素坐标来表示为2D凝视点,即人正在2D平面区域内看着的点。当对3D环境中和朝向3D环境的注意力建模时,视线可被表示为3D凝视点,其指示人正在看的3D空间中的点。备选地或补充地,视线可被表示为源自眼球中心、中央凹、视觉轴线和光学轴线之间的交点或头部内的固定点并且指向3D凝视点的3D射线。视线可单独表示为3D向量,即在原点不必要的情况下。视线可表示为3D向量或指示参考向量的顺序旋转的一组角度。这种3D表示还可相对于诸如头部本身的优选的空间参考来定义,因为在依赖于头部跟踪作为优先步骤的系统的情况下,相对于相机链接的参考系或相对于固定的世界参考系,它可能是有利的。
图1示出了描述基于这种差异方法来估计给定用户的视线的方法的流程图。
该方法包括检索显示用户的眼睛11的输入图像10的步骤(S10)。该图像可包含用户的整个身体、整个面部或仅眼睛区域。
根据常识,图像是特定感测到的物理现象的二维(优选数字)表示,例如二维(2D)彩色图像、2D单色或2D二进制图像、2D多光谱图像、2D深度图、2D视差、2D振幅或相移、或前述的组合。
该方法还包括检索与输入图像之一相同的用户的参考图像20的步骤(S21),该参考图像显示具有给定或已知视线(参考视线)22的个体的眼睛。参考图像可包含个体的整个身体、整个面部或仅眼睛区域。优选地,个体是相同用户,并且最优选地,参考图像的眼睛是输入图像的同一只眼睛。
例如,可根据用例所需的二维或三维表示通过标记、配对和/或链接参考图像与参考视线的数字表示来提供参考视线。
该方法然后包括处理输入图像10和参考图像20的步骤,以便估计输入图像内眼睛的视线12和参考图像内眼睛的视线22之间的视线差30(参见图2)。
根据所使用的视线的表示,视线差可为用户正在看的点的位置的(相对或绝对)差(例如,以像素或度量单位表示)。视线角度差可为向量的差或3D旋转。在一个实施例中,视线差可为根据坐标系和/或二维或三维向量的角度值。
备选地,视线差可为相对于由参考图像提供的参考视线(最终相对于坐标系)的相对指示,诸如用于指示用户的视线指向相对于参考图像之一为上、下、右和/或左的点。
该方法然后包括基于参考图像20的参考视线22和估计的视线差30来估计用户的视线21的步骤。在参照眼睛的位置相对地描述视线的情况下,视线差可为两次视线之间的角度差30,如图2所示。
输入图像10和/或参考图像20可由相机(即提供特定感测物理现象(例如特别地在人的可见频率范围和/或近红外范围内的电磁辐射)的图像(即二维表示)的光学设备)提供。相机可为彩色或单色(例如二进制)相机、2D多光谱相机、2D深度图相机、2D视差相机、2D振幅或相移相机。
如图3和图4所示,可通过差分机器32提供来自输入图像10和参考图像20的视线差30的估计。
差分机器32可被配置成实现基于机器学习的回归算法,该算法将图像的外观映射成差分视线参数。这样的算法可为支持向量回归方法、神经网络、胶囊网络、高斯过程回归器、k-最近邻方法、决策树、随机森林回归器、受限玻尔兹曼机、或备选或补充的回归策略,其进一步接收图像本身、图像的预处理版本、或从基于计算机视觉的表示(诸如定向梯度直方图、局部二进制模式、密集或局部SIFT或SURF特征)构建的特征向量作为输入。
备选地或补充地,差分机器32可依赖于支持向量机、最近邻和/或随机森林。
差分机器32可被配置成从包括多于两个图像的一组图像中计算视线差。该组可包括多于一个输入图像和/或多于一个参考图像。特别地,差分机器32可被配置成计算公共视线差(例如,一对图像之间的每个视线差的数学或逻辑组合)和/或一组视线差,该组中的每个视线差涉及一对图像。
差分机器32可为配置成执行和/或能够实现上述算法的系统(例如,专用电子电路、HW/SW模块或其组合)。差分机器的内部参数可在专门的校准和/或训练过程期间推断出来。差分机器32有利地被配置成同时处理输入图像10和参考图像20(例如,在该组参考图像20a-e和/或数据库25内选择的),以便提供(在操作模式下)期望的结果,即,图像的视线之间的差30的估计。
可用通过对一组训练图像进行配对而构建的训练数据集55来训练差分机器32(在训练模式下),该组至少包括第一训练图像50和第二训练图像51,该组中的每个训练图像显示一个个体的眼睛。
在一个实施例中,该组的训练图像(例如第一训练图像50和第二训练图像51)与相同的用户和/或个体相关,更优选地与相同的给定眼睛相关。在另一个实施例中,训练数据集可包含来自多个个体(用户)的训练图像(例如,一对图像)。优选地,其中训练集可包含来自多个个体(用户)的训练图像,每对第一训练图像50和第二训练图像51与相同用户相关,更优选地与相同的给定眼睛相关。
优选地,在第一和第二训练图像中捕获的眼睛的视线52、53是已知的(例如,在图像采集时施加的和/或在图像采集后确定、测量或推断的),以便提供差分机器的监督训练。在这种情况下,训练数据集55还包括从第一和第二训练图像的视线52、53计算和/或确定的测量视线差54,如图4a所示,以便(自动)推断差分机器的内部参数。
在图4b中,通过提供训练图像以及估计视线差30与测量视线差54之间的误差40(例如,差异)来训练差分机器32。
这样的算法可为支持向量回归方法、神经网络、胶囊网络、高斯过程回归器、k-最近邻方法、决策树、随机森林回归器、受限玻尔兹曼机、或备选或补充的回归策略,其进一步接收图像本身、图像的预处理版本、或从基于计算机视觉的表示(诸如定向梯度直方图、局部二进制模式、密集或局部SIFT或SURF特征)构建的特征向量作为输入。
图5的图示实施例的差分机器32被设计和训练成预测两个图像之间的视线差,这依赖于神经元网络34、35,特别是依赖于卷积神经元网络34、35和图像降维。
图示的差分机器32特别依赖于具有共享权重36的两个并行网络34、35,其中一对不同的图像10、20(例如输入和参考图像)被用作输入,每个网络一个,每个并行网络依赖于(卷积)神经元网络,并且生成每个图像的中间表示的特征映射作为输出。在两个并行网络34、35之后,机器32获取每个图像的特征映射,并将它们拼接成联合特征映射,该联合特征映射随后被用于训练成比较图像的中间表示的全连接层的序列中,以便从其计算视线差30。
每个特征映射检索神经网络34、35包括三个(卷积)神经层37、38、39(或由它们组成),所有这些都通过批量归一化(BN)和/或修正线性单元(ReLU)进行。此外,通过借助于用于减小图像尺寸的最大池化单元(即,将一层处的神经元簇的输出组合成单个神经元的单元)处理分别作为第一神经层37的结果的传入数据来提供第一和第二神经层38的输入数据。在第三层之后,两个输入图像的特征映射被显著地扁平化并拼接成新的张量。然后在张量上应用两个全连接层来预测两个输入图像之间的视线差。
这种结构允许将图像空间映射到新的特征空间,在该新的特征空间中,来自同一类别的样本接近,而来自不同类别的样本则更远离。在训练模式下,损失函数可通过将预测的视线差30与测量的(即基准真相)差分视线54进行比较来定义。
有利地,如图3中示意性地示出的,对输入图像10捕获的视线的估计可依赖于估计相对于多个不同参考图像20a-e的一组视线差(例如角度差),每个参考图像不同于该组的另一个图像,并且优选地显示不同于该组的另一个图像的视线参考的视线参考。
在最简单的实施例中,多个不同的参考图像可包括上述图像参考(第一图像参考)和附加图像参考(第二图像参考)。在这种情况下,该方法包括处理输入图像和所述第二参考图像的附加步骤,以便估计输入图像内的眼睛的视线和第二参考图像内的眼睛的视线之间的第二视线差。因此,用户的视线(即输入参考的视线)可使用以下方式来检索:
第一和/或第二视线差,以及
第一和/或第二视线参考。
因此,可提供参考图像20a-e的组25,以便允许角度差30的多个不同估计,每个估计涉及输入图像和组25的参考图像之一。该组的每个参考图像涉及具有(已知/给定的)不同方向22的相同用户的眼睛(优选同一只眼睛)。
根据所选择的2D/3D坐标系,组25的参考图像的不同方向22可包括(并且特别是规则地分布)在给定的角度范围内。
这些估计可通过借助于相同的差分机器32连续地处理输入图像和组25的参考图像之一来提供。备选地,可借助于并行操作的多个相同的差分机器32来同时执行多个估计。
因此,该方法可包括:
检索个体的眼睛21的多个(例如一组25)不同的参考图像20(优选地相同用户的眼睛,最优选地输入图像的同一只眼睛),每个参考图像20优选地与不同的参考视线相关;
处理输入图像10和检索到的参考图像,以便估计公共视线差和/或多个(例如一组)视线差(例如角度差30);和
组合估计的公共视线差和/或视线差和视线参考,以便检索输入图像(即用户的)的视线21。
视线差估计的数量可对应于组25的参考图像的数量(即,每个参考图像用于估计多个角度差之一)。备选地,可选择参考图像的子集来提供多个角度差,例如基于在输入图像中捕获的眼睛,或者基于相似性标准和/或递增以提供置信区间内(例如低于给定置信水平)的视线估计。
因此,用户的视线21可由估计器33来确定,该估计器33考虑公共视线差和/或一组估计的视线差和检索的参考图像的视线参考。该操作可包括求平均、过滤和/或消除异常值的步骤。
特别地,输入图像10的视线21可通过对由每对图像提供的视线的每个单独估计进行加权来推断,例如
Figure BDA0002953770240000091
其中:"I”是输入图像,
"gsm(I)”是输入图像的视线,
"F”是参考图像,
"Dc”是一组参考图像,
"dp(I,F)”是输入图像和参考图像F之间的视线差,
"ggt(F)”是参考图像F的视线,
"w(·)”是加权因子。
加权因子w(I,F)指示基于输入图像I和参考图像F的视线的每个估计的重要性,即鲁棒性,或者是对基于接近度使用给定参考图像的方便程度的指示。
有利地,加权因子可被定义为输入图像和参考图像之间的相似性的函数。特别地,估计的视线差可用作相似性的指示,即,w(dp(I,F))。在这种情况下,零均值高斯分布
Figure BDA0002953770240000101
可用作权函数。因此,用户的视线21可用公式表示如下:
Figure BDA0002953770240000102
附加地或补充地,加权因子可随下列因素变化:
用于估计视线差的所使用方法,和/或
用于训练和/或建立所使用方法的所使用过程;和/或
其参数。
该方法可包括选择、识别和/或辨识用户的眼睛(即,用户的右眼或左眼)的步骤,以便允许检索关于同一只眼睛的参考图像,特别是从组和/或数据库中检索。备选地或补充地,该方法可包括选择、识别和/或辨识用户的步骤,以便允许检索与(相同)用户相关的参考图像,特别是从组和/或数据库中检索。
该步骤可包括获取用户的身体的数字标识符(ID)和/或图像(诸如面部、指纹、静脉图案或虹膜)的步骤,以便提供眼睛和/或用户的辨识和/或识别,特别是在注册用户的列表中。备选地或补充地,眼睛和/或用户的辨识和/或识别可依赖于相同的输入图像。
备选地或补充地,该步骤可包括在列表中选择眼睛和/或用户的步骤。
用户和/或眼睛然后可由标识符23指示,然后提供关于(所选择的、识别的和/或辨识的)眼睛和/或用户的参考图像20的选择性检索。
如图6所示,该方法可由系统60使能。
用于估计用户的视线12的系统60包括:
输入图像检索模块62,其被配置成执行检索输入图像10的上述步骤;
参考图像检索模块61,其被配置成执行检索(第一)参考图像、第二参考图像或多个(组)参考图像的上述步骤;和
处理模块63,其被配置成执行上文所述的以下步骤:
处理输入图像(10)和(第一)参考图像、第二参考图像和/或多个(组)参考图像,以便估计(第一)视线差、第二视线差、公共视线差和/或多个(组)视线差,以及
基于以下内容检索用户的视线12:
(第一)视线差30、第二视线差和/或多个(组)视线差等等
(第一)视线参考22、第二视线参考和/或多个(组)视线参考。
视线12可显示在系统的屏幕66上。备选地或补充地,视线12可通过数据链路传输到系统60的另一个模块和/或远程服务器或系统,用于进一步处理和/或作为给定应用的输入,特别是用于机器人交互(HRI)、虚拟现实(VR)、社交交互分析和/或用于医疗保健。
优选地,系统60包括通信模块68,用于将视线12传输到设备或系统,优选地无线地传输。
如上所述,在操作模式下,视线差可借助于差分机器32来估计。
根据本发明,处于操作模式下的差分机器32(参见图3)和处于学习模式下的差分机器32(参见图4)可为不同的机器或者能够在学习模式和操作模式下操作的相同机器。
在后一种情况下,差分机器可操作地位于处理模块63中。因此,系统60可被配置成向用户或操作者提供在操作模式和学习模式之间切换差分机器,例如借助于诸如(触觉)屏幕66和/或(物理或虚拟)按钮67的输入/输出接口。有利地,该系统被配置成使能所描述的校准(训练)过程。
在不同机器的情况下,处理模块63的差分机器32可通过使用由第二(相似或相同)差分机器32提供的参数来配置,第二(相似或相同)差分机器32在系统60的另一个模块中和/或在第三方系统上借助于上述校准(训练)过程来训练。
第一和/或第二参考图像和/或该组参考图像可存储在数据库64中,特别是存储在系统60的专用存储器或共享存储器中。
如图6所示,输入图像检索模块62可包括图像采集设备65,优选地呈上述相机的形式,其被配置成提供输入图像。第一、第二和/或该组参考图像可由相同的图像采集设备65(例如相机)或由作为系统60或第三方系统的一部分的另一图像采集设备来提供。图像采集设备65还可提供图像,用于提供输入图像的眼睛和/或用户的识别和/或辨识。
该系统可为分布式系统,其包括通过一个或多个数据链路连接的多个单元。每个单元可包括上述模块中的一个或多个。备选地或补充地,上述模块之一可分布在更多的单元中。
备选地,系统60可为呈个人计算机、膝上型电脑、可运送或便携式设备形式的独立设备。在图6中,示出了作为诸如平板电脑和智能电话的手持设备60的系统的示例性实施例。该系统也可嵌入机器人、车辆中,集成在智能家居中。
上述模块中的每一个都可包括电子电路和/或能够在系统的模块专用处理器或通用处理器上执行的软件指令列表或者由该电子电路和/或软件指令列表组成,该软件指令列表可被临时分配用于执行模块的特定功能。
上述数据库64可全部或部分地位于和/或共享在系统的本地存储器中、远程可访问存储器(例如,位于远程的服务器的存储器)中和/或云存储系统上。
根据本发明的一个方面,上述差分方法和差分机器32不仅可用于视线估计,还可用于其它视线相关和/或用户相关的应用(例如系统、设备和/或方法)。
差分方法和差分机器是指检索(估计)两个或更多个图像样本之间的一个或一组视线差的差分操作,每个图像被提供有或没有视线参考(例如,给定和/或测量的视线)。如果视线是根据人正在看向的屏幕上的2D点的像素坐标来描述的,则视线差可为像素坐标中的2D向量,其描述了两个图像之间的观看点改变了多少。如果根据3D视线向量的角度来描述视线,则视线差可为来自两个不同图像的3D视线向量之间的角度变化(角度差)。
视线相关和用户相关应用有利地依赖于对给定用户的视线的分析。视线分析可表示为提取个体的状态的数字或语义表示的过程,该状态与该人正在看的地方或该人随时间推移观看的方式相关联。一种状态可为视线本身,从而执行视线估计的任务,这里基于差分视线估计。个体的一个附加状态可为当前呈现的眼球运动,即,该人是否正在进行扫视性眼球运动,或者该个体是否正在注视单个点。
在视线估计应用中,差分方法和差分机器32可用于估计输入图像和一个或多个参考图像之间的视线差,每个参考图像具有参考视线(视线基准真相)。可基于估计的视线差和参考视线来估计用户的视线。
差分方法和差分机器32可用于视线(或眼睛)跟踪。可通过对新的输入图像和一个或多个参考图像重复差分操作来提供一系列视线估计。备选地,通过对第一输入图像和一个或多个参考图像的差分操作来提供第一视线估计,同时通过确定相对于该第一视线估计的视线差(例如,通过对新输入和先前输入图像的差分操作)来估计连续的视线估计。备选地,第一视线估计由绝对视线估计系统提供,并且因此所述第一图像可被添加到该组参考图像。
差分方法和差分机器32可用于(眼睛/视线)终点预测,例如,相对于眼睛(视线)的当前位置的眼睛位置(或视线)的预测。假设差分操作具有高精度和高帧率,则有可能在眼睛开始移动之后预测眼睛将要停止移动的未来时刻。
因此,用于用户的视线分析(特别是用于估计视线的差异/变化)的方法可包括以下步骤:
检索用户的眼睛(11)的输入图像(10);
检索个体的眼睛(21)的给定图像(20);
处理输入图像(10)和所述第一参考图像(20),以便估计输入图像中眼睛的视线(12)和所述第一参考图像中眼睛的视线(22)之间的第一视线差(30)。
在一些实施例中,给定图像与参考视线(例如,参考图像)相关联。
差分方法和差分机器32可用于将眼球运动类型分类(例如,注视、扫视等)。差分操作可提供差分视线估计的时间序列,该时间序列可作为输入提供给系统(例如,依赖和/或包括分类算法,诸如还有另一个神经网络),以便预测一系列运动的分类(例如,眼睛是否呈现扫视运动、注视、微扫视等)。
差分方法和差分机器32可用于估计用户的精神状态。差分操作可提供差分视线估计的时间序列,该时间序列提供用户的眼球运动(例如微扫视)的量度和/或分类,允许估计和/或确定用户的特定精神状况和/或状态。
例如,差分方法和差分机器32可用于检测疲劳和/或困倦。根据视线差的时间序列,可推断出个体是否疲劳,这是由于执行游走或缓慢的眼球运动。差分操作可提供用户的眼睛/视线的相对运动的存在或不存在、其频率和/或速度,特别是不寻常的眼球运动,并因此检测疲劳和/或困倦。
因此,用于用户的视线分析(特别是用于预测到终点或疲劳/困倦的时间)的方法可包括以下步骤:
检索用户的眼睛的图像(图像样本)的时间序列;
检索连续图像样本之间的视线差
使用视线差的时间序列来:
预测眼球运动或用户的状态和/或
对眼睛/视线运动进行分类(例如,注视状态或扫视状态)。
备选地,因此,用于用户的视线分析(特别是用于预测到终点或疲劳/困倦的时间)的方法可包括以下步骤:
检索用户的眼睛的图像(图像样本)的时间序列;
检索连续图像样本之间的视线差
检索眼球运动的模型;
使用视线差的时间序列和眼球运动的模型来
预测眼睛将停止运动的未来时间;和/或
眼球运动或用户的状态,和/或
对眼睛/视线运动进行分类。
根据上述用例和应用,用于分析用户的视线的方法可包括以下步骤:
检索包括至少两个图像的一组图像,所述组的每个图像包含个体的至少一只眼睛的外观;
检索配置成使用所述组图像的差分机器(例如回归模型)32;
使用所述差分机器处理所述组图像,以便估计该组的至少两个图像之间的视线中的差异。
在一些实施例中,所述组的至少一个图像被提供有参考视线。
根据上述用例和应用,用于分析用户的视线的系统(或设备)可包括:
图像检索模块(61,62),包括至少两个图像的一组图像,所述组的每个图像包含个体的至少一只眼睛的外观,优选地,所述组的至少一个图像被提供有参考视线;和
差分机器(例如回归模型)(32),其被配置成使用所述组图像,以便估计所述组图像的至少两个图像之间的视线中的差异。
在一个实施例中,图像被处理以归一化眼睛外观,从而消除由诸如头部姿态、相机位置、光照、传感器噪声、数值变化的因素引起的可变性。
在一个优选实施例中,根据2D-3D头部姿态测量和例如由飞行时间相机、立体相机、结构化光相机或单目3D头部跟踪等给出的3D面部模型或深度测量来修正图像,以获得眼睛图像,该眼睛图像具有仿佛头部姿态是静态的且已知的外观,或者,备选地,仿佛相机被定位在离头部的给定视点处和/或展现特定成像过程的外观。
附图标记列表
10 输入图像
11 用户的眼睛
12 视线
20,20a-e 参考图像
21 眼睛
22 参考视线
23 用户/眼睛标识符
25 数据库
30 视线差
32 差分机器
33 视线估计器
34,35 神经网络
36 共享权重
37,38,39 神经层
40 测量视线差和估计视线差之间的误差
50,51 测试/训练图像
52,53 参考视线
54 测量视线差
55 训练数据集
60 移动设备
61 参考图像检索模块
62 输入图像检索模块
63 处理模块
64 数据库
65 相机
66 屏幕
67 按钮
68 通信模块

Claims (20)

1.一种用于估计用户的视线的方法,包括以下步骤:
检索用户的眼睛(11)的输入图像(10);
检索具有第一参考视线(22)的个体的眼睛(21)的第一参考图像(20);
处理所述输入图像(10)和所述第一参考图像(20),以便估计所述输入图像中所述眼睛的所述视线(12)和所述第一参考图像中所述眼睛的所述视线(22)之间的第一视线差(30);
使用所述视线差(30)和所述第一参考视线(22)来检索所述用户的所述视线(12)。
2.根据权利要求1所述的方法,其特征在于,还包括以下步骤:
其中,检索所述第一参考图像的所述步骤包括检索具有已知参考视线的个体的眼睛的一组(25)不同的参考图像的步骤;
其中,视线差估计的所述步骤包括处理所述输入图像(10)和所述组参考图像的步骤,以便估计所述输入图像的所述视线(12)和所述组所述的所述参考图像的所述视线之间的公共视线差和/或一组视线差;
并且其中,检索所述用户的所述视线(12)的所述步骤包括使用所述公共视线差和/或一组视线差和所述参考视线的步骤。
3. 根据权利要求2所述的方法,其特征在于,所述组(25)参考图像包括所述第一参考图像和具有第二参考视线的第二参考图像;并且其中,检索所述用户的所述视线(12)的所述步骤包括对以下各项加权的步骤:
基于所述第一视线差和所述第一参考视线的第一视线结果;和
基于第二视线差和所述第二参考视线的第二结果,所述第二视线差通过单独地处理所述输入图像(10)和所述第二参考图像来提供。
4.根据权利要求2或3所述的方法,其特征在于,所述组(25)的每个参考图像显示具有不同的视线的相同用户的同一只眼睛。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一视线差(30)、所述第二视线差、所述公共视线差和/或所述组视线差借助于差分机器(32)来估计。
6. 根据权利要求5所述的方法,其特征在于,所述差分机器(32)包括神经网络(34,35),优选地包括卷积层以单独地从每个图像检索特征映射的深度神经网络(34, 35)。
7. 根据权利要求6所述的方法,其特征在于,所述差分机器(32)包括神经网络(35),所述神经网络(35)包括神经层(37, 38, 39),优选全连接层,处理图像的联合特征映射以检索所述图像的所述视线差。
8.根据权利要求5至7中任一项所述的方法,其特征在于,所述差分机器(32)用训练数据集(55)训练,所述训练数据集(55)通过将所述用户和/或个体的同一只眼睛的第一和第二训练图像(50,51)与测量视线差(54)配对作为输入集而构建。
9. 根据从属于权利要求2的权利要求8所述的方法,其特征在于,所述组参考图像(20a-e)的至少一个参考图像被用作所述第一和/或第二训练图像(50, 51)。
10.一种用于视线估计的系统(60),包括:
输入图像检索模块(62),其被配置成检索用户的眼睛(11)的输入图像(10);
参考图像检索模块(61),其被配置成检索具有第一已知参考视线(22)的个体的眼睛(21)的第一参考图像(20);和
处理模块(63),其被配置成:
处理所述输入图像(10)和所述参考图像(20),以便估计所述输入图像的所述视线(12)和所述第一参考图像的所述视线(22)之间的第一视线差(30),并且
基于所述第一参考图像的所述第一参考视线(22)和所述第一视线差(30)检索所述用户的所述视线(12)。
11. 根据权利要求10所述的系统,其特征在于:
所述参考图像检索模块(61)被配置成检索具有已知参考视线的个体的眼睛的一组(25)不同参考图像;并且其中
所述处理模块(63)还被配置成:
处理所述输入图像(10)和所述组参考图像,以便估计所述输入图像的所述视线(12)和所述组所述的所述参考图像的所述视线之间的公共视线差和/或一组视线差,并且
使用所述公共视线差和/或一组视线差和所述参考视线来检索所述用户的所述视线(12)。
12. 根据权利要求11所述的系统,其特征在于,所述组(25)参考图像包括所述第一参考图像和具有第二参考视线的第二参考图像,其中,
所述处理模块(63)被配置成处理所述输入图像(10)和所述第二参考图像,以便估计所述输入图像的所述视线(12)和所述第二参考图像的所述视线之间的第二视线差;并且其中
所述处理模块(63)被配置成通过对以下各项加权来检索所述用户的所述视线(12):
基于所述第一视线差和所述第一参考视线的第一结果;和
基于所述第二视线差和所述第二参考视线的第二结果。
13.根据权利要求10至12中任一项所述的系统,其特征在于,所述处理模块(63)包括配置成检索所述第一视线差(30)、所述第二视线差、所述公共视线差和/或所述组视线差的差分机器(32)。
14. 根据权利要求13所述的系统,其特征在于,所述差分机器(32)包括深度神经网络(34, 35),优选地具有三个卷积神经层(37, 38, 39)。
15.根据权利要求10至14中任一项所述的系统,其特征在于,所述输入图像检索模块(62)包括提供所述输入图像(10)的图像采集设备(65),优选地相机。
16.根据权利要求10至15中任一项所述的系统,其特征在于,所述系统是便携式设备(60)。
17.一种用于分析用户的视线的方法,包括以下步骤:
检索包括至少两个图像的一组图像,所述组的每个图像包含用户的至少一只眼睛的外观;
检索配置成使用所述组图像的差分机器,特别是回归模型;
使用所述差分机器处理所述组图像,以便估计所述组的至少两个图像之间的所述视线中的差异。
18.根据权利要求17所述的方法,其特征在于:
其中,所述组的至少一个图像被提供有参考视线。
19. 一种系统,包括:
图像检索模块(61, 62),包括至少两个图像的一组图像,所述组的每个图像包含个体的至少一只眼睛的外观,优选地,所述组的至少一个图像被提供有参考视线;和
差分机器,特别是回归模型,其被配置成使用所述组图像,以便估计所述组图像的至少两个图像之间的所述视线中的差异。
20.一种其上记录有计算机程序的计算机可读存储介质,所述计算机程序被配置成当所述程序在处理器上执行时执行根据权利要求1至8和权利要求17至18中任一项所述的方法的步骤。
CN201980056363.8A 2018-08-31 2019-08-22 用于视线估计的方法和系统 Pending CN113227878A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CH01046/2018 2018-08-31
CH10462018 2018-08-31
PCT/IB2019/057068 WO2020044180A2 (en) 2018-08-31 2019-08-22 Method and system for gaze estimation

Publications (1)

Publication Number Publication Date
CN113227878A true CN113227878A (zh) 2021-08-06

Family

ID=64456712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980056363.8A Pending CN113227878A (zh) 2018-08-31 2019-08-22 用于视线估计的方法和系统

Country Status (5)

Country Link
US (1) US20210319585A1 (zh)
EP (1) EP3844553A2 (zh)
JP (1) JP2021536609A (zh)
CN (1) CN113227878A (zh)
WO (1) WO2020044180A2 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3751326A1 (en) * 2019-06-14 2020-12-16 Leica Microsystems CMS GmbH Method and microscope for imaging a sample
EP4233004A1 (en) 2020-10-23 2023-08-30 Eyeware Tech SA Automated calibration method of a system comprising an external eye tracking device and a computing device
EP4027220A1 (en) 2021-01-08 2022-07-13 Eyeware Tech SA Method for calibrating an eye-tracking device
CN113238652B (zh) * 2021-05-11 2023-07-14 北京字跳网络技术有限公司 视线估计方法、装置、设备及存储介质
EP4113982A1 (en) 2021-06-30 2023-01-04 Eyeware Tech SA Method for sensing and communicating visual focus of attention in a video conference
EP4113464A1 (en) 2021-06-30 2023-01-04 Tobii AB An eye tracking system
EP4113251A1 (en) 2021-06-30 2023-01-04 Eyeware Tech SA Calibration method of a system comprising an eye tracking device and a computing device comprising one or multiple screens
EP4113983A1 (en) 2021-06-30 2023-01-04 Eyeware Tech SA Method for gaze tracking calibration with a video conference system
WO2023139975A1 (ja) * 2022-01-21 2023-07-27 日本電気株式会社 眼球運動測定装置、眼球運動測定プログラムを格納した非一時的なコンピュータ可読媒体及び眼球運動測定方法
CN117133043A (zh) * 2023-03-31 2023-11-28 荣耀终端有限公司 注视点估计方法、电子设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6553281B1 (en) * 1997-08-26 2003-04-22 Heinrich-Hertz-Institut Fuer Nachrichtentechnik Berlin Gmbh Device for determining a fixation point
CN107545302A (zh) * 2017-08-02 2018-01-05 北京航空航天大学 一种人眼左右眼图像联合的视线方向计算方法
CN108171218A (zh) * 2018-01-29 2018-06-15 深圳市唯特视科技有限公司 一种基于深度外观注视网络的视线估计方法
CN108229284A (zh) * 2017-05-26 2018-06-29 北京市商汤科技开发有限公司 视线追踪及训练方法和装置、系统、电子设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3361980B2 (ja) * 1997-12-12 2003-01-07 株式会社東芝 視線検出装置及びその方法
JP3790680B2 (ja) * 2001-05-25 2006-06-28 株式会社東芝 画像処理システム及びこれを用いた運転支援システム
JP5915981B2 (ja) * 2010-08-09 2016-05-11 国立大学法人静岡大学 注視点検出方法及び注視点検出装置
WO2014146199A1 (en) * 2013-03-18 2014-09-25 Mirametrix Inc. System and method for on-axis eye gaze tracking
US10866635B2 (en) * 2018-09-13 2020-12-15 Toyota Research Institute, Inc. Systems and methods for capturing training data for a gaze estimation model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6553281B1 (en) * 1997-08-26 2003-04-22 Heinrich-Hertz-Institut Fuer Nachrichtentechnik Berlin Gmbh Device for determining a fixation point
CN108229284A (zh) * 2017-05-26 2018-06-29 北京市商汤科技开发有限公司 视线追踪及训练方法和装置、系统、电子设备和存储介质
CN107545302A (zh) * 2017-08-02 2018-01-05 北京航空航天大学 一种人眼左右眼图像联合的视线方向计算方法
CN108171218A (zh) * 2018-01-29 2018-06-15 深圳市唯特视科技有限公司 一种基于深度外观注视网络的视线估计方法

Also Published As

Publication number Publication date
EP3844553A2 (en) 2021-07-07
JP2021536609A (ja) 2021-12-27
US20210319585A1 (en) 2021-10-14
WO2020044180A2 (en) 2020-03-05
WO2020044180A3 (en) 2020-04-23

Similar Documents

Publication Publication Date Title
CN113227878A (zh) 用于视线估计的方法和系统
US9750420B1 (en) Facial feature selection for heart rate detection
CN107818310B (zh) 一种基于视线的驾驶员注意力检测方法
US11715231B2 (en) Head pose estimation from local eye region
US10853649B2 (en) Context-aware hazard detection using world-facing cameras in virtual, augmented, and mixed reality (xR) applications
KR102209595B1 (ko) 강건한 생체인식 애플리케이션들을 위한 세밀한 눈 형상 모델
US9607138B1 (en) User authentication and verification through video analysis
US9864430B2 (en) Gaze tracking via eye gaze model
JP4692526B2 (ja) 視線方向の推定装置、視線方向の推定方法およびコンピュータに当該視線方向の推定方法を実行させるためのプログラム
US20200082555A1 (en) ADAPTIVE SIMULTANEOUS LOCALIZATION AND MAPPING (SLAM) USING WORLD-FACING CAMERAS IN VIRTUAL, AUGMENTED, AND MIXED REALITY (xR) APPLICATIONS
CN112308932B (zh) 一种注视检测方法、装置、设备及存储介质
KR101612605B1 (ko) 얼굴 특징점 추출 방법 및 이를 수행하는 장치
US11321965B2 (en) Scalable gesture and eye-gaze tracking in virtual, augmented, and mixed reality (xR) applications
KR20120045667A (ko) 움직임 인식을 이용한 사용자 인터페이스 장치 및 방법
US10289908B2 (en) Method, apparatus, and computer program product for tracking eye gaze and eye movement
JP4936491B2 (ja) 視線方向の推定装置、視線方向の推定方法およびコンピュータに当該視線方向の推定方法を実行させるためのプログラム
JP6822482B2 (ja) 視線推定装置、視線推定方法及びプログラム記録媒体
US10146306B2 (en) Gaze position detection apparatus and gaze position detection method
JP5001930B2 (ja) 動作認識装置及び方法
JP6109288B2 (ja) 情報処理装置、情報処理方法及びプログラム
US10928899B2 (en) Handling multiple eye-gaze tracking (EGT) sources in virtual, augmented, or mixed reality (XR) applications
Utaminingrum et al. Eye movement and blink detection for selecting menu on-screen display using probability analysis based on facial landmark
EP3846161A1 (en) Information processing device, information processing method, and program
CN106406507B (zh) 图像处理方法以及电子设备
CN112416126B (zh) 页面滚动控制方法和装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210806

WD01 Invention patent application deemed withdrawn after publication