CN104463191A

CN104463191A - 一种基于注意机制的机器人视觉处理方法

Info

Publication number: CN104463191A
Application number: CN201410606526.4A
Authority: CN
Inventors: 肖南峰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2014-10-30
Filing date: 2014-10-30
Publication date: 2015-03-25

Abstract

本发明公布了一种基于注意机制的机器人视觉处理方法，包含以下步骤：图像预处理：对图像进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化；特征提取：对经过预处理的图像，提取其肤色、颜色、纹理、运动和空间坐标五类特征信息；仲裁决策：对于提取的信息，按照一定的仲裁决策策略，有选择地分发给需要该特征信息上层功能应用子系统；功能应用：经过仲裁决策后递交过来的特征信息，进行相应的操作实现功能应用，即机器人视觉应用的直接实现层，包括人脸检测、颜色识别、运动检测与跟踪、手势交互、注意机制五个部分。本发明的方法，能够提供给机器人更为完备的人脸和肤色及手势等视觉信息，且具有运动检测和跟踪及规划的能力。

Description

一种基于注意机制的机器人视觉处理方法

技术领域

本发明涉及机器人视觉系统，特别涉及一种基于注意机制的机器人视觉处理方法。

背景技术

一、国外机器人视觉系统研究

1993年，由美国麻省理工学院的人工智能实验室的机器人专家CynthiaBreazeal领导研制了一个名为Kismet的机器人头部，Kismet具有视觉和听觉功能。Kismet是从婴儿和看护者之间的交流方式中获得的启发，开发的婴儿机器人。Kismet头部的每个眼睛装有一个5.5mm的CCD彩色摄像机，以及8个50MHz的DSPTMS321C40组成的并行网络进行图像处理和两个基于Motorola 68332的微控制器组成的动机装置。Kismet具有与婴儿相仿的能力和行为方式，例如模仿孩子和父母之间表达感情的反馈方式和婴儿自我学习与他人交流方式等。

Kismet的系统架构是由六个子系统组成：底层特征提取系统(low–levelfeature extraction system)，高层认知识别系统(high–level perceptionsystem)，注意系统(the attention system)，动力系统(motivation system)，行为表示系统(behavior system)，以及运动系统(motor system)。其中底层特征提取系统主要是从传感器中得到的信息中提取特征；高层识别系统将得到的特征信息压缩并按对行为、动力、运动的影响量进行分类，分发到相应的子系统中。注意系统是对该环境引起最突出的刺激进行决策，并让系统采取相应的行为组织方式。动力系统是保持机器人的任何时候的姿态都是稳定的。行为表示系统是在多个可能的行为进行仲裁并执行最合适的行为。运动系统主要是规划机器人的行为过程。Kismet的系统架构如图2，它具有高兴、沮丧、惊讶、疲倦、愤怒、安静、不高兴、害怕和感兴趣等9种表情。

目前，美国麻省理工学院同时正在研制一个命名为Cog的机器人，其名字来源于认知(Cognition)这个单词，意图是设计出具有人类认知能力的认知机器人。Cog具有眼、耳和上肢并具有模拟人脑功能的微处理器网络，通过与环境的交互，能够识别面孔、物体，跟踪物体运动等能力。Cog的视觉系统模拟装置是双眼结构，其眼睛能围绕水平和垂直方向轴转动，每个眼睛由两个摄像机组成，一个负责外围视野的广角镜头，另一个负责景物中心的窄角镜头。Cog仿人视觉系统设计的大部分和Kismet都是一样的，但是在机器人思维方面做了进一步的工作，提出了一个基于Baron–Cohen模型和Leslie模型的混合模型，如图3。德国卡尔斯鲁厄大学于2006年在德国汉诺威春节电脑展上首次展现了他们的机器人ARMAR III。ARMAR III的上半身是人体，下半身采用的是轮子的移动平台，总共具有49个自由度，其中头部为7个自由度。

和Cog一样，ARMAR III的每个眼睛也都有两个摄像机，分别是广角和窄角，这样可以对视野内区域进行扫视和对焦点区域进行注视，可以更方便的完成更复杂的功能，如手眼协调。整个机器人的视觉和控制系统的结构图如图4。系统采用分层结构，共有任务规划、任务仲裁和任务执行三个部分。任务规划主要是任务调度，收集任务的各种参数(比如纹理、色彩等等)，并把任务分成各种子任务并送到任务仲裁部分等；任务仲裁是对任务规划中送过来的各子任务进行仲裁并分发到各执行单元；任务执行使各个任务串行或并行执行。

LUIZ M.G..GONCALVES等人对一个四自由度的机器人头部，设计了一个机器人数据流图的框架，如图5。在实现上使用多尺度图像进行加速对图像的处理，并利用高斯偏导数求取图像特征，然后利用基于生物学模型的相似性对比方法进行识别分类。

二、国内机器人视觉系统研究

相比国外而言，我国从20世纪80年代中期才开始研究机器人。北京理工大学2002年12月研发出的机器人BHR–1，此后又在此基础上了“汇童”机器人。BHR–1的头部有2个自由度，每个眼睛共有一个CCD摄像机。BHR–1的上肢共有7个自由度，其中肩关节3个自由度，肘关节2个自由度，腕关节2个自由度。机器人可根据目标的三维空间中的位置实施对物体的抓取。BHR–1采用的立体视觉解决方案来自于美国SRI人工智能中心所研发的一套双目立体视觉系统SVS(Small Vision System)。其整个视觉处理系统的流程图如图6。

为加快视觉系统的处理速度，系统中采用比例微分控制的方法。清华大学于2000年初开始研制THBIP–I机器人，THBIP–I的手臂和手采用9个自由度，其中肩3个、肘部1个、腕部2个，手部3个。头部采用2个自由度，可实现头部的前后运动和旋转，以使安装在机器人头部的摄像机能具有更大的视觉范围。视觉系统的两个数字摄像机通过USB口和笔记本电脑连接，视觉图像处理由笔记本电脑完成，机器人的手、脚、眼睛的协调配合，实现THBIP–I的稳定行走，视觉系统通过对被抓物体的识别，实现手对物体的稳定抓取作业。THBIP–I在实现上采用的是组织层、协调层和执行层的三层集中式控制结构。随后清华大学又研制出了一个小型的机器人THBIP–II，采用了分布式控制系统，系统分为：感知层、决策层、协调层和执行层四层结构。上海交通大学于1999年研制的机器人SFHR，腿部和手部分别有12和10自由度，身上有2个自由度，共24个自由度。在机器人的视觉部分配备的是富士通公司的主动视觉系统。此外国防科技大学和哈尔滨工业大学等都对机器人的头部视觉系统做了大量的研究，并取得了一定的进展。

综上所述，二十多年来，对机器人视觉系统的框架设计、算法实现等相关问题的研究不断深入，无论在国外还是国内都获得了很大的进展，并取得了比较明显的效果。机器人视觉系统联系着外部世界和自身知识获取、自身状态决策规划，具有非常重大的意义。然而要使机器人视觉系统的功能达到与人的视觉系统接近，是一个极富挑战同时也是一个应用非常广泛的课题。

当前很多的视觉系统都是功能和知识紧密联系，以实现特定功能为导向。基于功能和知识相分离的视觉系统在开放性和可扩展性上都会有极大的增强，便于功能扩充和多信息融合(例如，与激光、红外、听觉、嗅觉、触觉的多信息融合)。人类的视觉信息处理是由视网膜、外侧膝状体和视皮层构成的三个基本层次。另外，在大脑皮层内的视觉信息是按视皮层简单细胞→复杂细胞→超复杂细胞→更高级的超复杂细胞这样的序列，有简单到复杂，由低级到高级、分块进行处理。尽管各国学者为研制基于注意机制的视觉系统进行了长期不懈的努力，但究竟通过什么途径才能实现基于注意机制的视觉系统？

随着机器人技术的发展，机器人视觉系统的好坏将直接影响到机器人对外界知识的获取和学习的效率。视觉系统的发展直接关乎到机器人大脑思维的发展，而机器人最高的发展境界也是使得机器人的思维可以与人并驾齐驱甚至高于人类的必经阶段。当前国内的机器人视觉系统很大一部分是直接采用国外的视觉框架或视觉系统，因此有必要研发出有自己技术的视觉系统，而不只是单对视觉系统中的某类算法或技术进行研究，更需要在一个更高的层次上提出一个更为全面的视觉框架、设计一个更为智能的视觉系统。一个更为智能的视觉系统的产生，不仅可以提高机器人的知识获取能力、对环境的学习和交互能力，同时也可广泛应用于虚拟现实、增强现实、智能视频监控、道路交通、航空航天等社会的各个方面。

目前提出的基于注意机制的视觉系统还很不成熟，现在主要是用于图像处理、模式识别、视频监控等方面，所取得的成果离人们期望的目标还有很大的距离。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于注意机制的机器人视觉处理方法。

本发明的目的通过以下的技术方案实现：

一种基于注意机制的机器人视觉处理方法，包含以下顺序的步骤：

S1.图像预处理：对图像进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化；

S2.特征提取：对经过预处理的图像，提取其肤色、颜色、纹理、运动和空间坐标五类特征信息；

S3.仲裁决策：对于特征提取层获得的信息，按照一定的仲裁决策策略，有选择地分发给需要该特征信息上层功能应用子系统；

S4.功能应用：经过仲裁决策后递交过来的特征信息，进行相应的操作实现功能应用，即机器人视觉应用的直接实现层，包括人脸检测、颜色识别、运动检测与跟踪、手势交互、注意机制五个部分。

步骤S1中，所述的图像变换包括图像的基本放缩、旋转、直方图均衡化、仿射变换。

步骤S4中，所述的人脸检测是采用基于Haar–Like特征和AdaBoost算法的人脸检测方法，包含以下步骤：

A、首先用积分图像的新灰度图像来表示图像；

B、然后使用AdaBoost统计学习算法筛选出最能代表人脸特征的矩形特征，并用这些矩形特征组合成一个用于人脸检测的强分类器；

C、最后把前面得到的多个强分类器按照一定规则组成一个Casecade结构的层叠分类器。

步骤S4的步骤B中，所述的用于人脸检测的AdaBoost统计学习算法具体为：

A、初始训练样本集：(x₁,y₁),(x₂,y₂),...,(x_N,y_N),g_j(x_i)代表第i个训练图像的第j个Haar–Like特征，x_i∈X表示输入的训练样本，y_i∈Y＝{-1,1}分别表示真假样本；

B、初始化权重w_t,i；

C、对于t轮训练for t＝1，2，3，…，进行如下处理：

(1)所有样本权重归一化：

w_{t, i} = w_{t, i} / Σ_{j = 1}^{N} w_{t, j},

N为样本的数目

(2)对于每个样本中第j个Haar–Like特征，得到一个简单分类器h_j，也就是确定阈值θ_j和偏置p_j，使误差达到最小，而

式中，偏置p_j只有±1两种情况；

(3)确定的简单分类器中，找出找出具有最小误差ε_t的的弱分类器h_t；

(4)对所有的样本权值进行更新：其中β_t＝ε_t/(1-ε_t)，如果x_i被h_t正确分类，则e_i＝0，否则e_i＝1；

D、最后得到强分类器：

其中α_t＝ln(1/β_t)。

步骤S4中，所述的颜色识别包括颜色特征训练和颜色特征识别两部分：

A、颜色特征训练：

(1)提取样本像素点，每一次提出的必须是被指定为同一种色彩特征的样本点；

(2)去噪：

对每个像素点，若满足：则判定为噪点，并从所选样本像素集中删除；

(3)求取剩下的样本像素集中所有点的外接球，其中球心为剩下所有样本点的中心，半径为外接球的半径；

对于多个颜色特征，重复以上过程，最后将训练好的特征量保存到特征库中；

B、颜色特征识别：

(1)读取特征库中所有已经训练好的颜色特征；

(2)对图像中的每个像素：如果该像素点，存在于某一个颜色特征所代表的球形区域内，则该点的颜色值改写成这个颜色特征中的颜色，即特征球的球心。

步骤S4中，所述的运动检测与跟踪，是采用混合高斯模型进行运动检测以及使用基于Harris角点检测的金字塔Lucas–Kanade光流检测物体运动方向和运动速度。

所述的采用混合高斯模型进行运动检测，具体包含以下步骤：

(1)混合高斯模型的初始化：取一段时间内的视频序列图像中的每个像素的平均灰度μ₀及方差用μ₀和来初始化混合高斯模型中K个高斯分布参数

μ_{0} = \frac{1}{N} Σ_{t = 1}^{N} {(I_{t} - μ_{0})}^{2}

ω_t＝1/K,μ_i＝255×(i/K),i＝1,2,3,...,K

其中，参数ω_t＝1/K，K是高斯分布的参数个数；在实现时，是取第一帧进行初始化，这样可以减少对内存的需求，并且初始化的速度比较快；

(2)混合高斯模型的背景更新：在获得新的像素值I_t后，将当前像素值与混合高斯模型中K个高斯分布分别匹配，若满足下式，则称像素值与该高斯分布匹配：

ω_t＝1/K,μ_i＝255×(i/K),i＝1,2,3,...,K；

如匹配则按照下式，则进行高斯参数的更新：

|I_t-μ_i,t-1|≤D₁σ_i,t-1

其中，μ_i,t-1为第i个高斯函数的均值，D₁为用户定义的参数，σ_i,t-1为第i个高斯函数在第t-1时刻的标准差。

\{\begin{matrix} ω_{i, t} = (1 - ρ) ω_{i, t - 1} + ρ \\ μ_{i, t} = (1 - ρ) μ_{i, t - 1} + ρ I_{t} \\ σ_{i, t} = (1 - ρ) σ_{i, t - 1} + ρ {(I_{t} - μ_{i, t})}^{2} \end{matrix}

其中，ρ(0≤ρ≤1)为学习率，ρ越大，背景更新速度越快；

如果I_t与任何高斯分布都不匹配，则权值最小的高斯分布将被新的高斯分布更新，新的高斯分布的均值为I_t，初始化一个较大的标准差σ₀和一个较小的权值ω₀；余下的高斯分布保持相同的权值，但它们的均值按下式递减：

ω_i,t＝(1-ρ)ω_i,t-1

该像素点的高斯混合模型描述了I_t在时间域上的概率分布，为确定像素的混合高斯模型中哪些高斯成分是由背景产生，根据每个高斯分布的权重与其标准差的比进行降序排列，取前B个高斯分布作为像素的背景模型：

B = \arg_{b} \min (Σ_{t}^{b} ω_{i, t} > T),

T为预设的阈值；

(3)前景检测：如像素值I_t不满足式子|I_t-μ_i,t-1|≤D₁σ_i,t-1，则认为该像素为前景点。

步骤S4中，所述的手势交互包括手区域的分割、手势特征的提取、手势的分类这三个过程，具体为：

(1)在手的区域分割的过程中，使用改进的RCE神经网络和区域标记算法提取视觉图像中手的区域；

(2)在手势特征提取过程中，利用数学形态学、SUSAN算法、改进OPTA算法提取出手掌心和边缘图像，再沿Freeman链码算法顺序计算出手势边缘到掌心的距离，作为手势的特征向量；

(3)在手势分类过程中，利用上一个步骤得出的边缘到掌心的距离作为RBF神经网络的输入数据进行训练，输出数据为已定义好的手势中的某一个。

步骤S4中，所述的注意机制，具体为对每个特征的标识物体C_i，定义一个三元组aux_i＝<P_i,D_i,S_i>，其中P_i表示是否是人相关的特征，如果为0，则表示不是人相关的特征，为1则表示是人脸或手势；D_i表示物体C_i离摄像机坐标系原点的距离；S_i表示物体C_i在图像中所占的面积；选择性注意控制策略的算法如下：

(1)假定共有N个特征标识物体，对每个C_i计算其被选中的概率pro_i

pro_i＝αP_i[β_iD_i/D_sum+(1-β_i)S_i/S_sum]

{pro}_{i} = \{\begin{matrix} α [β_{i} D_{i} / D_{sum} + (1 - β_{i}) S_{i} / S_{sum}], if & p_{i} = 1 \\ (1 - α) [β_{i} D_{i} / D_{sum} + (1 - β_{i}) S_{i} / S_{sum}], if & p_{i} = 0 \end{matrix},

其中

D_{sum} = Σ_{i = 1}^{N} D_{i}, S_{sum} = Σ_{i = 1}^{N} S_{i};

(2)对于同一个物体可能同时存在多个特征标识，，取其中pro_i最大的，并排除该物体的其他特征标识的概率pro；

(3)将所有的概率pro_i进行降序排列，将概率最大的作为注意窗口的位置；

(4)触发注意窗口的相关操作：

设定一个衰退因子σ,0<σ<1，对已经在注意的物体被选中的概率pro_m进行衰退，没经过一帧都进行概率的更新：

pro_m＝σ×pro_m。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明的基于注意机制的机器人视觉处理方法一个智能的、开放的、综合的机器人视觉系统，可以应用于机器人的自律作业、视频监控、图像处理、机械制造、化工生产、农机操作、交通运输、抢险救灾、建筑施工、科学研究、军事战斗、医疗手术、核电维修、家务劳动、教育娱乐等各个方面。

2、本发明的基于注意机制的机器人视觉处理方法能够模协助和帮助人类的大脑进行思维、学习、判断、推理、情感、记忆、语言、视觉、触觉、听觉、味觉、嗅觉、运动、协作等，因此本发明的基于注意机制的视觉系统可以在各种不确定或可变的环境中帮助或代替人类去完成机械制造、化工生产、农机操作、交通运输、抢险救灾、科学研究、军事战斗、医疗手术、核电维修、家务劳动、教育娱乐等各种工作。

3、本发明的基于注意机制的机器人视觉处理方法的整体架构设计基于两个思想：功能和知识相分离；依照视觉过程建立的层次模型。分层设计的思想不仅符合人类视觉处理的过程，更有利于信息的流动和交互，使基于注意机制的视觉系统架构更为简洁明了。

附图说明

图1为本发明所述的一种基于注意机制的机器人视觉处理方法的流程图；

图2为Kismet系统架构图；

图3为基于Baron–Cohen模型和Leslie模型的混合模型；

图4为视觉和控制系统结构图；

图5为机器人数据流图；

图6为视觉处理系统流程图；

图7为图1所述方法的级联结构分类模型；

图8为图1所述方法的基于视觉的选择性注意方法总体架构图；

图9为图1所述方法的RCE神经网络体系结构图；

图10a为原手势图像，图10b、10c、10d分别为训练样本取6958、7758、11124的传统RCE神经网络的分割结果图，图10e、10f、10g分别为训练样本取6958、7758、11124的改进RCE神经网络的手势分割结果图；

图11a为原手势图像，图11b为改进RCE神经网络分割出的手的区域；图11c为数学形态学去噪后的图像(包括一系列的膨胀和腐蚀操作)；图11d为应用区域标记算法提取的手的单连通区域，并再次运用数学形态学的膨胀操作去除空洞后的图像；图11e为手势区域放缩成图像区域2/3大小后的效果图；

图12a为石头手势，图12b为剪子手势，图12c为布手势，图12d为图12a、12b、12c所述的三种手势边缘到掌心的距离对比图；

图13a为原手势图像，图13b～图13g为经过仿射变换的图像；

图14a为原手势图像，图14b为通过数学形态学得到的掌心的图像；

图15a为原手势图像，图15b为通过SUSAN算法提取的边缘图像，图15c为应用改进OPTA算法细化后的边缘图像。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1，一种基于注意机制的机器人视觉处理方法，包含以下顺序的步骤：

S1.图像预处理：对图像进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化；所述的图像变换包括图像的基本放缩、旋转、直方图均衡化、仿射变换；

S4.功能应用：经过仲裁决策后递交过来的特征信息，进行相应的操作实现功能应用，即机器人视觉应用的直接实现层，包括人脸检测、颜色识别、运动检测与跟踪、手势交互、注意机制五个部分，具体如下：

1、人脸检测

人脸检测是人和机器人交互时，必须要考虑到的问题。人交互过程中，对人脸姿态表情的捕捉和反馈是机器人更为智能的与人交互的必要阶段，而人脸的检测则是这些交互的基础。因此在本发明的基于注意机制的视觉系统中也是必须考虑到的。当前国内外对人脸检测主要有九种方法：①基于肤色模型的方法；②基于先验知识的方法；③基于特征不变性的方法；④神经网络的方法；⑤子空间方法；⑥基于模板的方法；⑦基于支持向量机的方法；⑧隐马尔科夫模型方法；⑨Boosting方法。

本发明的基于注意机制的视觉系统采用基于Haar–Like特征和AdaBoost算法的人脸检测方法。整个过程分为三个步骤：首先用积分图像的新灰度图像来表示图像。选用积分图像表示法，可实现快速的脸部特征表示和计算，并能很好地保持像素间联系。然后使用AdaBoost统计学习算法筛选出最能代表人脸特征的矩形特征，并用这些矩形特征组合成一个用于人脸检测的强分类器。最后把前面得到的多个强分类器按照一定规则组成一个Casecade结构的层叠分类器。

1.1 Haar–Like特征

Haar–Like特征是PViola等人提出的一种简单矩形特征。使用矩形特征进行分类的一个主要原因是矩形特征可以表达出非常重要的脸部区域之间的关联信息，这是有限的单个、独立像素无法表示的。Haar–Like的每个特征由若干个矩形组成。比如RainerLienhart等人提出的Haar–Like特征，这些特征可表示为式中，w_i为矩形的权值，RecSum(r_i)为矩形r_i所围成的图像灰度积分，N是组成feature_j的矩形个数。实际使用时，将每个特征在图像子窗口中进行滑动，从而计算各个位置的多个Haar–Like特征。

1.2 积分图

为加快Haar–Like特征的计算，P Viola等还提出了积分图像的概念，积分图能在多种尺度下，使用相同的时间来计算不同的特征，因此大大提高了检测速度。对于图像中的一点a，设图像中某点的灰度值为I(x,y)，积分图表示为I_a(x,y)，则有

I_{a} (x, y) = Σ_{i, j = 0}^{x, y} I (i, j) - - - (1)

1.3 基于级联结构的分类器模型

通常待检测图像中的大部分区域不包含目标，为加快排除非目标区域，PViola等提出了级联结构检测模型。级联结构分类器由多个弱分类器组成，逐级复杂，每个分类器几乎可以让所有目标通过，并滤掉大部分非目标，从而大大提高检测速度。如附图7所示。

1.4 Boosting和AdaBoost

Boosting方法(增强方法)最初是由Schapire在1990年提出的。其主要思想就是将最普通的、模糊的、不大精确的预测结果按一定的规则组合形成一个系统，得到一个精确的预测，将多个弱学习算法通过Boosting方法提升称为强学习算法。实现上是最初根据已有的样本集设计一个分类器，要求这个分类器的准确率比平均性能要好。然后，依次顺序加入多个分量分类器，最终形成一个总体分类器，它对训练样本的准确率能够任意的高。

Boosting方法有许多不同的变形，其中最流行、应用最广的就是AdaBoost方法。在AdaBoost算法中，每个训练样本都被赋予一个权重，表明他被某个分量分类器选入训练集的概率。如果某个样本点被准去的分类，则在构造下一个训练集中，它被选中的概率就被降低；相反，如果某个样本点没有被正确分类，那么它的权重就提高。通过这种方法，AdaBoost算法能“聚焦于”那些较困难的样本上。在具体实现时，最初的样本权重都是相等的(平均分布)。算法通过结合多个特征构造的强分类器，共同完成目标的检测任务，提高了检测的稳定性和精度。

用于人脸检测的AdaBoost算法描述如下：

①初始训练样本集：(x₁,y₁),(x₂,y₂),...,(x_N,y_N),g_j(x_i)代表第i个训练图像的第j个Haar–Like特征，x_i∈X表示输入的训练样本，y_i∈Y＝{-1,1}分别表示真假样本。

②初始化权重w_t,i。

③对于t轮训练for t＝1，2，3，…。

1)所有样本权重归一化

w_{t, i} = w_{t, i} / Σ_{j = 1}^{N} w_{t, j},

N为样本的数目 (2)

2)对于每个样本中第j个Haar–Like特征，得到一个简单分类器h_j，也就是确定阈值θ_j和偏置P_j，使误差达到最小，而

式中，偏置p_j只有±1两种情况；

3)确定的简单分类器中，找出找出具有最小误差ε_t的的弱分类器h_t。

4)对所有的样本权值进行更新

其中β_t＝ε_t/(1-ε_t),如果x_i被h_t正确分类，则e_i＝0,否则e_i＝1

④最后得到强分类器

其中α_t＝ln(1/β_t) (4)

2、颜色识别

颜色特征是图像中得到的信息中最为基本也是最为显著的特征。通过颜色特征对物体进行识别和相关特征获取是机器人必不可少的方法。同时颜色特征也是重要的图像静态视觉显著性特征和视觉选择计算模型中必须要考虑到的重要方面。本发明的基于注意机制的视觉系统中设计颜色特征的训练与识别，主要是考虑到机器人对已经训练过的比较亮的色彩都会比较有兴趣，从而去注意该物体，并对其进行分析计算。本发明的基于注意机制的视觉系统提出了一种颜色特征的训练和识别方法。该方法运行效率比较高，基本满足机器人对视觉处理的实时性要求。

2.1 颜色空间

目前为止，大量的颜色空间应用到了图像分割中，如RGB，CIE XYZ，CIE LUV，CIE Lab，HSV，YUV以及YCbCr等。在一个颜色空间中，如果其欧几里德距离相等的两个颜色点对应的视觉色差也相等，则称这个颜色空间是均匀的。为了下述将采用的RCE神经网络，只有使用均匀颜色空间，才能达到对手区域的更准确的分割。一些研究表明，Lab空间具有较好的均匀性，受光照的影响比较小，并且人的肤色在Lab空间具有聚集效应，并且与光照条件具有低相关性。由上述分析，可以采用Lab空间作为颜色特征分割和第四章的手势分割的颜色空间。

2.2 颜色特征的训练过程

颜色特征的训练过程重要是提取一部分颜色像素点，得出这部分特征像素点的一个整体特征。本发明的基于注意机制的视觉系统的整体特征采用的是一个球形表示，球心表示该部分的特征像素点的颜色中心，半径是恰好包含这些所有选择的特征点的球形的最小半径。以下是本发明的基于注意机制的视觉系统的特征训练算法。

①提取样本像素点，每一次提出的必须是被指定为同一种色彩特征的样本点；

②去噪

对每个像素点，则判定为噪点，并从所选样本像素集中删除；

③求取剩下的样本像素集中所有点的外接球，其中球心为剩下所有样本点的中心，半径为外接球的半径；

对于多个颜色特征，可以重复以上过程。最后将训练好的特征量保存到特征库中。

2.3 颜色特征的识别过程

在颜色特征训练完之后，就可以对颜色特征进行识别。识别算法如下：①读取特征库中所有已经训练好的颜色特征；②对图像中的每个像素。如果该像素点，存在于某一个颜色特征所代表的球形区域内，则该点的颜色值改写成这个颜色特征中的颜色，即特征球的球心。

3运动检测

运动特征是重要的图像动态视觉显著性特征，是利用多幅图像间的变化关系，得出机器人感兴趣的人或物体。运动检测的目的是从图像序列中检测出运动信息，简化图像处理的过程，得到所需要的运动向量和感兴趣的区域，从而识别跟踪物体。但因为天气、光照、影子及其他干扰，使得运动检测面临着很多困难。常用于运动检测的方法有光流法、时间差分、背景相减。

光流是空间运动物体在被观测成像面上的像素点产生瞬时速度场，包括物体的动态行为特征和表面结构特征。通常光流是由相机的运动、外界物体的运动或两者共同产生的。光流的常用计算方法有三类：基于匹配的光流计算方法、基于频域的光流计算方法和基于梯度的光流计算方法。光流法运动检测的基本原理是：给图像中的每一个像素点赋予一个速度矢量，形成了一个图像运动场，在运动的一个特定时刻，图像上的点与三维物体上的点一一对应，这种对应关系可由投影关系得到，根据各个像素点的速度矢量特征，可以对图像进行动态分析。如果图像中没有运动物体，则光流矢量在整个图像区域是连续变化的。当图像中有运动物体时，目标和图像背景会产生相对运动，运动物体所形成的速度矢量会和邻域背景速度矢量不同，以此检测出运动物体及位置。采用光流法进行运动物体检测的问题主要在于大多数光流法计算都会耗费比较多的时间，实时性较差。光流法的优点在于光流不仅携带了运动物体的运动信息，还携带了相关物体的三维结构的丰富信息，它能在不知道场景任何信息的情况下，检测出运动物体。

时间差分法是在连续的两三帧间采用基于像素的时间差和事先设定好的阈值来提取图像中的运动区域。时间差分的方法对于动态环境具有较强的适应性，但一般不能提取出所有相关的特征像素点，在运动实体内部容易产生较大的空洞现象。

背景相减法的基本思想是输入图像和背景图像进行比较，通过判定灰度等特征的变化或者利用直方图等统计特性来判断运动的发生和分割运动物体。通常该模型的难点在于背景的建立和更新，由于光照和其他外界环境的细微变化(比如树枝随风的轻微摇动，水波的变化、阴影等)会对背景相减法造成极大的干扰。Haritaoglu等人使用灰度信息来检测前景点，首先从N帧图像中产生出一个背景模型，每帧图像的像素点都有三个属性：最小亮度(m)、最大亮度(M)和连续两帧图像的最大颜色差。背景模型将用来对待检测的图像进行背景前景分离，如果待检测图像中的像素和背景模型中的所有对应像素差值都大于最大亮度或最大颜色差，则识别为前景，否则为背景。同时该方法还对待检测图像中分类为背景模型的像素，用来更新原背景模型。Francois等人是假定背景的变化比较小，这样对于每一个背景像素点都采用一个球形模型来标识该像素点的变化范围。如果待检测图像的像素点和对应的背景像素点的差值小于该背景点的半径，则认为是背景点，否则为前景点。该方法也有一个对应的背景的更新模型。Jabri等人应用颜色和边缘信息共同来分离出前景。背景模型的是通过计算每个像素点各个颜色通道的颜色和边缘信息的均方差和标准差来训练后建立的。对于待检测图像，通过计算其颜色和边缘信息后，与背景模型做差，如果小于某个给定的阈值就认为是背景，否则认为是前景。Kim等人提出了一种基于码本的前景分离算法。该方法在背景建立阶段是对N个背景图像进行训练，对每个背景模型的像素点都建立一个码本，每个码本中有L个码字(L≤N)，每个码字由一个RGB向量v_i＝(R_i,G_i,B_i)和一个六元组组成，其中分别表示该码字的所有背景像素的最大和最小亮度，f_i表示该码字出现的频率，λ_i为最大负行程，p_i、q_i分别记录该码字第一次和最后一次出现的时间。该方法分为三个阶段，首先是背景的建立阶段，是遍历所有的背景图像，根据亮度差和颜色差来建立背景模型中每个像素点的码本。其次是对待检测图像根据颜色差和亮度差来分离前景。最后，是在每检测完一个图像后，都同时对背景模型进行更新。

本发明的基于注意机制的视觉系统中采用混合高斯模型进行运动检测以及使用基于Harris角点检测的金字塔Lucas–Kanade光流检测物体运动方向和运动速度。

3.1 混合高斯模型

高斯混合模型(Mixtures of Gaussians，MoG)也是一种背景相减法来进行运动检测的一种方法。Stauffer等人最初使用混合高斯模型来进行背景的建模和前景的分离。由于传统的背景模型对自然界中动态变化的背景适应性不强，例如水波，晃动的树枝、渐变的光照等。即使在背景静止，由于摄像机的颤动及信号噪声都会给建立的鲁棒的背景模型以挑战。高斯混合模型是通过对每一个像素点，都定义K个高斯模型来表现其各种影响因子的微小变化，K值越大，其处理变化因子的数量也就越多，处理时间也会相应更长，因此说混合高斯模型是一个具有容差变化的模型。

假定t时刻的图像中像素点(x₀,y₀)的观测值为x_t＝(R_t,G_t,B_t)，则该点被判定为背景点的概率为

p (x_{t}) = Σ_{i = 1}^{K} ω_{i, t} \times η (x_{t}, μ_{i, t}, Σ_{i, t}) - - - (5)

其中

η (x_{t}, μ_{i, t}, Σ_{i, t}) = \frac{1}{{(2 π)}^{n / 2} {| Σ |}^{1 / 2}} \exp (- \frac{1}{2} {(x_{t} - μ_{t})}^{T} Σ^{- 1} (x_{t} - μ_{t}))

式中，η(x_t,μ_i,t,∑_i,t)即为第i个高斯分布的概率密度。ω_i,t对应对每个高斯分布的权值，K个高斯分布按照优先级ρ_i,t＝ω_i,t/σ_i由高到低顺序排列，K通常取值为3～5，当然可以更多，主要由计算机的性能和内存决定。在假定R，G，B三通道相互独立且具有方差μ_R,μ_G,μ_B情况下，则均值协方差(I为单位矩阵)。

①混合高斯模型的初始化。取一段时间内的视频序列图像中的每个像素的平均灰度μ₀及方差用μ₀和来初始化混合高斯模型中K个高斯分布的参数

μ_{0} = \frac{1}{N} Σ_{t = 1}^{N} {(I_{t} - μ_{0})}^{2} - - - (6)

ω_t＝1/K,μ_i＝255×(i/K),i＝1,2,3,...,K (7)

其中，参数ω_t＝1/K，K是高斯分布的参数个数；在实现时，是取第一帧进行初始化，这样可以减少对内存的需求，并且初始化的速度比较快。

②混合高斯模型的背景更新。在获得新的像素值I_t后，将当前像素值与混合高斯模型中K个高斯分布分别匹配，若满足式(7)则称像素值与该高斯分布匹配。如匹配则按照式(8)式进行高斯参数的更新。

|I_t-μ_i,t-1|≤D₁σ_i,t-1 (8)

其中，μ_i,t-1为第i个高斯函数的均值。D₁为用户定义的参数，通常取作2.5～3.5。σ_i,t-1为第i个高斯函数在第t-1时刻的标准差。

\{\begin{matrix} ω_{i, t} = (1 - ρ) ω_{i, t - 1} + ρ \\ μ_{i, t} = (1 - ρ) μ_{i, t - 1} + ρ I_{t} \\ σ_{i, t} = (1 - ρ) σ_{i, t - 1} + ρ {(I_{t} - μ_{i, t})}^{2} \end{matrix} - - - (9)

其中，ρ(0≤ρ≤1)为学习率，ρ越大，背景更新速度越快。

如果I_t与任何高斯分布都不匹配，则权值最小的高斯分布将被新的高斯分布更新，新的高斯分布的均值为I_t，初始化一个较大的标准差σ₀和一个较小的权值ω₀。余下的高斯分布保持相同的权值，但它们的均值按式(10)递减。

ω_i,t＝(1-ρ)ω_i,t-1 (10)

该像素点的高斯混合模型描述了I_t在时间域上的概率分布，为确定像素的混合高斯模型中哪些高斯成分是由背景产生，根据每个高斯分布的权重与其标准差的比进行降序排列，取前B个高斯分布作为像素的背景模型。

B = \arg_{b} \min (Σ_{t}^{b} ω_{i, t} > T),

T为预设的阈值 (11)

③前景检测。如像素值I_t不满足式(8)，则认为该像素为前景点。

3.2 金字塔Lucas–Kanade光流

Lucas–Kanade(LK)算法最初于1981年提出。由于算法易于应用于输入图像的一组点上，后来称为求稀疏光流的一种重要方法，LK算法只需要每个感兴趣点周围的小窗口的局部信息。但是使用小窗口的LK算法存在不足之处，较大的运动会将点移出这个小窗口，从而赵成算法无法再找到这些点。金字塔LK算法可以解决这个问题，从图像金字塔的最高层(细节最少)开始向金字塔的最底层(丰富的细节)进行跟踪，因此金字塔LK算法允许以小窗口捕捉较大的运动。LK算法是基于三个假设：亮度恒定；时间连续或者运动为”小运动”；空间一致。由第一个假设，有被指定跟踪部分像素的灰度不随时间变化，即式(12)。

I(x+u,y+v,t+1)＝I(x,y,t) (12)

其中，I表示亮度，u,v为x,y方向上的速度，t表示时间帧。将亮度表示成时间的函数，则

\frac{&PartialD; I (x (t), y (t), t)}{&PartialD; t} = 0 - - - (13)

由第二个假设，时间连续可以将运动的变化看做亮度对时间的导数。考虑到x,y是时间的函数，则式(14)可变形为

\frac{&PartialD; I}{&PartialD; x} \times \frac{&PartialD; x}{&PartialD; t} + \frac{&PartialD; I}{&PartialD; y} \times \frac{&PartialD; y}{&PartialD; t} + \frac{&PartialD; I}{&PartialD; t} = 0 - - - (14)

化简后为

I_xu+I_yv+I_t＝0 (15)

要得出速度u,v，但靠式(15)一个方程两个未知数是得不出解的，最后考虑到第三个假设，即一个局部区域内的像素运动是一致的，建立临域像素的系统方程来求解中心像素的运动。假设局部区域为N×N的，则可建立N×N个方程。

[\begin{matrix} I_{x} (p_{1}) & I_{y} (p_{1}) \\ I_{x} (p_{2}) & I_{y} (p_{2}) \\ \cdot \cdot \cdot & \cdot \cdot \cdot \\ I_{x} (p_{N}) & I_{y} (p_{N}) \end{matrix}] [\begin{matrix} u \\ v \end{matrix}] + [\begin{matrix} I_{t} (p_{1}) \\ I_{t} (p_{2}) \\ \cdot \cdot \cdot \\ I_{t} (p_{N}) \end{matrix}] = 0 - - - (16)

这样得到一个约束条件远多于待求的未知量多的方程组，为更好更精确的求解该方程组。定义误差函数

e = Σ_{i = 1}^{N} {(I_{x} (p_{i}) u + I_{y} (p_{i}) v + I_{t} (p_{i}))}^{2} - - - (17)

即需要使得式(17)最小，因此对式(17)式在x,y求偏导数，并令其等于0。

[\begin{matrix} u \\ v \end{matrix}] = - [\begin{matrix} Σ_{i = 1}^{N} I_{x} I_{x} & Σ_{i = 1}^{N} I_{x} I_{y} \\ Σ_{i = 1}^{N} I_{y} I_{x} & Σ_{i = 1}^{N} I_{y} I_{y} \end{matrix}] [\begin{matrix} Σ_{i = 1}^{N} I_{x} I_{t} \\ Σ_{i = 1}^{N} I_{x} I_{t} \end{matrix}] - - - (18)

条件是

[\begin{matrix} Σ_{i = 1}^{N} I_{x} I_{x} & Σ_{i = 1}^{N} I_{x} I_{y} \\ Σ_{i = 1}^{N} I_{y} I_{x} & Σ_{i = 1}^{N} I_{y} I_{y} \end{matrix}]

可逆。

由于LK光流对大的不连贯运动的检测并不大理想，因此使用金字塔算法来产生多尺度的图像，在图像金字塔的最高层计算光流，用得到的运动估计结果作为下一层金字塔的起点，重复这个过程知道到达金字塔的最底层。这样就将不满足运动假设的可能性降到最小从而实现对更快更长的跟踪。

为更好的加速金字塔LK算法的执行，本发明采用基于Harris角点检测的金字塔LK算法来检测运动方向和运动速度。

角点是图像的重要的局部特征，以有限的数据集中了图像中的物体丰富、关键的形状信息，极大地降低了数据冗余性，使得实时监测称为可能；且其检测不受光照条件和摄像机姿态的影响，具有旋转不变性。

Harris角点检测方法如下：图像进行高斯平滑后，计算每个像素的梯度平方矩阵

M (x, y) = [\begin{matrix} I_{x} I_{x} & I_{x} I_{y} \\ I_{y} I_{x} & I_{y} I_{y} \end{matrix}] - - - (19)

R_harris＝detM-k(trace(M))² (20)

其中，detM表示M的行列式；trace(M)是矩阵M的迹；k是一个大于0的参数，一般建议取值为0.04。凡R_harris大于某个预设的阈值T就认为是角点。在实际应用中可将R_harris降序排列，取程序中需要的前N个角点。

4 注意机制

机器人的目标是使得机器人具有类似人的行为和思维，这样就需要大量的来自环境和自身的感知信息。处理信息所需要的大量计算称为机器人的一个显著负担，同时由于大量的信息同时出现，而机器人在同一时间又只能对一个信息(或少数几个)作出反应。因此，如何提高机器人的信息处理能力和处理效率称为一个紧迫的问题。

为解决上述问题可以通过采用更强大处理能力的硬件设备或者采用新的计算方式。一个是利用网格的强大计算能力来设计机器人的控制系统，另一个方面是提高感知信息的处理效率，将有限的计算能力集中到需要的信息上，有选择的处理与任务或兴趣有关的环境信息，过滤掉大量无关的信息，或者对同时产生的多个信息，选择最优先需要处理的信息先处理。自认知心理学星期后，选择性注意机制就一直是注意研究的重要课题。越来越多的研究人员将其应用到机器人中去。本发明的基于注意机制的视觉系统提出一个基于视觉的多信息选择性注意的方法。

4.1 基于视觉的选择性注意方法总体架构描述

总结结构分为注意选择机制和支撑系统两部分。如附图8所示。支撑系统主要由视觉系统的相关信息处理模块(除选择性注意机制外)、知识库等组成，为注意选择机制提供必要的支持。在基于视觉的选择性注意方法中，主要考虑到的是人脸、手势、颜色、运动、纹理等信息，知识库中可包含颜色特征信息、物体图像模板、已经定义好的手势、行为曲线特征等。注意选择机制主要是先通过事先设定的选择性注意控制策略对输入的多个信息进行提取最感兴趣的特征信息，并调用注意窗口(Attention Window，AW)对提取后的信息进行标记，以便于进一步的处理，比如人和机器人的手势交互、运动规划等。

4.2选择性注意控制策略

①注意窗口。注意窗口通常用来代表当前注意的焦点，也被称为感兴趣区域(Region of Interest，ROI)。例如，Rybak等人在研究复杂图像识别时，用预设的注意窗口的移动来模拟连续的十点转移。本发明的基于注意机制的视觉系统进一步将注意窗口的定义进行了扩展，认为注意窗口是指在一段时间内注意力指向的一些空间、事件元素、对象以及作用在其上的函数的集合，它具有有限的状态，并将这个概念应用到了机器人的智能交互的应用中。本发明采用注意窗口的概念，并进行适当的缩减以应用与专门的基于视觉的选择性注意方法中。本发明定义注意窗口为一段时间内注意力指向的某个对象以及加载在其上的相应操作的几何。

②选择性注意控制策略。由于机器人研制的最终目的都是听从人的指挥，因此当有人出现，机器人会以更大的倾向，优先与人交流。当多个特征同时出现的时候，本发明的基于注意机制的视觉系统主要考虑面积和距离两个方面来实施选择性控制策略，并认为机器人相对于注意面积大的物体，更倾向于离自己近的物体。这样可以设定两个个控制变量α,β,0.5≤α,β≤1。其中α变量标识以人相关的特征(人脸、手势)选择注意窗口位置的概率，即以α的概率倾向于注意人相关的特征。β变量用来标识以距离来选择注意窗口的位置的概率，即当多个特征出现时，会以β的概率通过距离来选择注意窗口的位置。

由此对每个特征的标识物体C_i，定义一个三元组aux_i＝<P_i,D_i,S_i>其中P_i表示是否是人相关的特征，如果为0，则表示不是人相关的特征，为1则表示是人脸或手势。D_i表示物体C_i离摄像机坐标系原点的距离(实验中为左摄像机的摄像机坐标系中心)，S_i表示的是物体C_i在图像中所占的面积。选择性注意控制策略的算法如下

①假定共有N个特征标识物体

②对每个C_i计算其被选中的概率pro_i

pro_i＝αP_i[β_iD_i/D_sum+(1-β_i)S_i/S_sum]

{pro}_{i} = \{\begin{matrix} α [β_{i} D_{i} / D_{sum} + (1 - β_{i}) S_{i} / S_{sum}], if & p_{i} = 1 \\ (1 - α) [β_{i} D_{i} / D_{sum} + (1 - β_{i}) S_{i} / S_{sum}], if & p_{i} = 0 \end{matrix} - - - (21)

其中

D_{sum} = Σ_{i = 1}^{N} D_{i}, S_{sum} = Σ_{i = 1}^{N} S_{i} .

③对于同一个物体可能同时存在多个特征标识，比如运动特征和颜色特征。

取其中pro_i最大的，并排除该物体的其他特征标识的概率pro。

④将所有的概率pro_i进行降序排列，将概率最大的作为注意窗口的位置。

⑤触发注意窗口的相关操作。

为避免机器人对同一个对象长时间的注意而忽略了其他新出现的对象，本发明引入了注意力衰退机制，实现上为设定一个衰退因子σ,0<σ<1，对已经在注意的物体被选中的概率pro_m进行衰退，没经过一帧都进行概率的更新。

pro_m＝σ×pro_m (22)

在本发明的基于注意机制的视觉系统中，颜色物体的分割，会出现分割不是很完整的情况，主要原因是由于取的颜色特征训练时，颜色特征取的较少而引起，但这并不对注意性选择造成直接影响。

5手势交互

手势交互是人机智能交互的更为高层，难度也更高的一种交互方式。手势交互可使人与机器人的交互更加自然。是机器人的向更为智能化的发展过程中必须要解决的问题。手势交互的关键是机器人对人的手势的准确识别。

按识别的内容，基于视觉的手势交互可分为静态手势交互和动态手势交互。动态手势定义为手的运动轨迹，而静态手势主要是通过手的手型和指向及位置来传递一定的信息。由于动态手势主要涉及到的是动态检测和动态跟踪以及跟定义好的手势曲线的拟合过程，本发明主要研究静态手势交互。

基于视觉的手势识别过程可分为三个过程，即手区域的分割、手势特征的提取、手势的分类。按照上述三个过程，提出了一种新的静态手势的识别方法。在手的区域分割的过程中，使用改进的RCE神经网络和区域标记算法提取视觉图像中手的区域。在手势特征提取过程中，利用数学形态学、SUSAN算法、改进OPTA算法等提取出手掌心和边缘图像，再沿Freeman链码算法顺序计算出手势边缘到掌心的距离，作为手势的特征向量。在手势分类过程中，利用上一个步骤得出的边缘到掌心的距离作为RBF(Radial Basis Function)神经网络的输入数据进行训练，输出数据为已定义好的手势中的某一个。期望通过实验证明新的静态手势识别方法具有较高的识别率。

5.1 手的区域分割

手的区域分割是手势识别的第一步和极为重要的一步，手区域分割的好坏将直接影响到后续手势的分类结果好坏。而手势背景的复杂性和动态可变性、明暗度变化、手本身对同一手势具有多种相似形态等现状，以及在应用中对手势识别过程中实时性要求，让手势分割变得越发困难。在手势的分割过程和识别过程中，采用Lab空间作为手势区域分割的颜色空间。

5.1.1 RCE神经网络

RCE(RestrictedCoulombEnergy)神经网络最初是在1988年由Scofiel等人提出的。相对于其他神经网络，RCE神经网络具有需要更少的训练样本、更少的训练时间，并且不会陷入局部极小等优点。RCE神经网络已经应用到了许多方面，特别是在与颜色相关的模式分类中。

5.1.1.1 RCE神经网络的体系结构

RCE由输入层(Input Layer)，原型层(Prototype Layer)和输出层(OutputLayer)构成。其中输入层和原型层是全连接，即每一个输入层的节点与原型层的所有节点都是相连的，原型层的节点与输出层的节点部分连接。其拓扑结构类似于概率神经网络。在手势识别中，RCE网络拓扑结构如附图9所示。输入层的三个节点代表图像一个像素点在Lab色彩空间中L分量，a分量和b分量值大小。输出节点只取一个，即分类得到的手的肤色。

RCE神经网络训练中，只是原型层节点的数目和属性发生变化；在RCE神经网络分类过程中，也只是原型层节点的属性对结果造成直接影响。原型层的每个节点都定义了颜色空间中的一个球体，由5个属性组成：分类类别C，节点球心ω，节点半径γ，属于该节点的训练样本数κ，以及平滑因子σ。对于分类类别C，在手势识别中只有一个类别，即手的肤色。节点球心ω是一个和输入层维数相同的变量，定义了一个原型层节点的球体球心。节点半径γ定义了原型层节点的球体半径。κ定义了在训练后属于该节点的训练样本数。平滑因子σ定义为球体半径γ的衰减系数，只有当存在多个分类类别和出现分类冲突的时候，才会使用σ对存在冲突的多个节点的半径进行衰减，直到不再冲突。在手势识别中，σ不需要使用。

5.1.1.2 RCE网络的训练

首先初始化原型层节点数为0，下面依次对每个训练样本(L_i，a_i，b_i)与原型层中的所有节点的球心ω_j进行求欧几里德距离D_j，如果存在某个j使得，D_j小于该球体的半径γ_j，称此样本点落在该原型层节点的球体区域内，同时该原型层节点的κ_j进行加1，否则，该训练样本作为一个新的节点加入到原型层，并初始化ω为(L_i，a_i，b_i)，κ为1，半径γ初始化为某个事先设定的数γ₀。重复上面的过程，直到所有样本训练完成。

5.1.1.3 RCE网络的分类

对每一个待识别像素点，如果该像素点落在某个原型层节点的球体区域内，则该像素点属于手区域，否则属于背景区域。

5.1.1.4 改进的RCE神经网络

由于其出色的分类能力和实现上简单快捷等优点，RCE神经网络在很多领域的应用都取得了很好的效果。但仍然存在一些缺点。第一，RCE神经网络对噪声点很敏感。例如，如果人的手掌上存在很小的痣，在取样时被取样成样本(由于在训练过程中，一般都是按区域进行大面积取样，因此这种情况很容易存在)，则在训练过程中，该点会成为原型层节点，并且在分类过程中，将会把所有与痣颜色近似的像素点都可能被分类成手的区域，这将大大地影响最终的识别效果。第二，由于RCE神经网络在手势识别应用中，输出层节点只有一个，这就造成原型层节点的半径是固定的，并且是在训练之前一经设点，便无法修改，如果设定的半径过大，则分类效果不好，如果设定的半径太小，则计算量太大，训练时间和分类时间都会大大延长。

目前已有一些研究对其进行改进。T.Olmez分析发现同样的样本集以不同的顺序进行训练将会得到不同数量的原型层节点，他通过定义两个适应函数FF1和FF2，通过遗传算法来进行选定最佳的原型层节点的中心。该算法能大大地减少原型层的节点数，但一个不足是算法不能增量训练，当样本数目增加的时候，每次都要重新训练所有的样本，不利于在分类过程中对分类效果不好的图像进行增量训练，使得网络性能的提高。另外该算法实现起来比较复杂。

Guo Dong等提出了一个新算法HPL(Hierarchical Prototype Learning)，该算法中引入了四个变量：原型层节点的最大和最小半径γ_max和γ_min，半径衰减系数α，以及原型层节点的最小密度D_min。该算法的主要思想是对每个原型层节点，搜索所有的样本节点，找出所有的到该原型层节点中心的欧几里德距离介于γ_max和γ_min之间，而加入该原型层节点，会使得该原型层节点的密度能大于给定的最小密度D_min的样本节点加入到该原型层节点。该算法有一点不足的是这四个参数在应用中并不容易确定，特别是在应用到一个新领域的应用时，而恰恰该算法的性能又对这四个参数很敏感。

针对上述的两个问题，本发明的基于注意机制的视觉系统提出了一个对传统RCE神经网络进行调整的算法。该算法分成两个步骤。第一步是针对第一个问题，主要是减少噪声的影响。第二步是针对第二个问题，主要是减少原型层节点的个数。这个调整算法运行在传统RCE神经网络的训练过程结束后，分类过程开始前。

第一步：该处理过程是基于两个事实：噪声区域一般比较小，噪声在颜色空间中离手区域在颜色空间中的中心一般比较远。为方便描述，定义以下变量。

N1为训练后模式层节点的个数。

K_{\min} = \min_{1 \leq i \leq N_{1}} {κ_{i}} - - - (23)

其中，κ_i是第i个模式层节点中含有的训练样本的个数。

ω_{center} = \frac{1}{N 1} \cdot \underset{1 \leq i \leq N_{1}}{Σ} ω_{i} - - - (24)

其中，ω_i是第i个模式层节点的中心。

D (x, y) = \frac{1}{2} \cdot \underset{1 \leq i \leq 3}{Σ} {(x_{i} - y_{i})}^{2} - - - (25)

其中，x＝{x1，x2，x3}，y＝{y1，y2，y3}。

D_i＝D(ω_i,ω_center) (26)

D_{i} = \underset{1 \leq i \leq N_{1}}{Σ} D_{i} - - - (27)

假定：α1定义为噪声区域大小的影响因子(0≤α1≤1)，则1–α1表示噪声点离手区域中心的距离的影响因子，β1是去噪阈值，则算法如下：

a)begin initialize α1，β1；

b)for i＝1 to N1；

c)if(α1*(Kmin/κi)+(1–α1)(Di/Dmax))>β1then从模式层中去掉该节点；

d)else do nothing；

e)end for；

f)end.

第二步：该处理过程主要是通过模式层节点的半径的大小的变化，使得训练后的模式层节点在颜色空间覆盖的区域更好的拟合手的区域。引入以下变量：

γ_i：第i个原型层节点的半径。

γ：每个原型层节点的半径γi一开始会被初始化为γ。

N2：经过第一步后剩余的模式层节点的个数。

S(γi)：第i个模式层节点中含有的样本点的个数，每个模式层节点开始时，S(γi)初始化为1。

D_{i} = \frac{3 S (γ_{i})}{4 π {γ_{i}}^{3}} - - - (28)

表示第i个模式层节点的密度。

δ：半径增长系数(δ>1)。

第二步的算法如下：

a)begin initialize δ；

b)for i＝1 to N2

计算每一个模式层节点的密度

c)do γ_i＝γ_i+δ*γ

重新计算S(γ_i)和第i个模式层节点的密度

d)ifthen移除所有中心落在第i个模式层节点的球形区域内的模式层节点；

e)else γ_i＝γ_i–δ*γ，恢复半径为初始值转到步骤b)；

f)end if；

g)转到步骤c)；

h)end for；

i)end.

本发明的基于注意机制的视觉系统中，取γ＝1，α₁＝0.5，β₁＝0.4，δ＝2。附图10a～附图10f及表1所示是传统RCE神经网络和当前加入调整算法后改进的RCE神经网络的手势分割对比效果。本发明的结果表明该调整算法抗躁能力更强了，而且运行时间缩短了20％左右，分割效果也很好，训练样本数越多时，分割效果会越明显。

表1 训练样本不同时，模式层节点数和运行时间的对比图

神经网络

训练样本数

模式层节点数

运行时间(ms)

传统 RCE	6958	89	1109
				改进 RCE	6958	68	857
传统 RCE	7758	111	1312
				改进 RCE	7758	75	922
传统 RCE	11124	131	1360
				改进 RCE	11124	85	1046

5.1.2 手区域的提取

尽管改进的RCE神经网络在抗噪能力上有很大的提高，但是不免还是会存在将一些和皮肤很相近的背景色误认为是手的区域，特别是在摄像机的分辨率不高的情况下；再者RCE分类手的算法是针对每个像素点而言的，是离散的处理，因此标记出来的手的区域也是离散的，并不是整个手区域大面积完全连通的。因此需要做一些后续处理。为处理方便，事先假设手的区域是与肤色相近的所有区域(包括背景区域)最大一块。这一点是很容易做到，同时也是合理的。

以下是分别采用数学形态学进行去噪和去除手掌的空洞，采用改进的区域标记算法进行提取手的单连通区域(即最大的连通区域)。为特征提取方便，对于手区域大小不同的手势，进行统一化，统一将手的区域放缩成整个图片大小的2/3，并且将手势区域居中在图片中心。附图11a～附图11e显示了手区域提取的过程。

5.2 手势特征提取

下面对手的图像进行特征提取。考虑到本发明中主要涉及到的三个手势，石头、剪子、布。分析发现手的边缘到掌心的距离的变化符合一定的波形规律。如附图12a～附图12d所示。其中为了更好的对比波形，对手势的边缘进行间隔取样500个像素点，并且对每个图像的边缘到中心的距离减去其该图像中边缘到掌心距离的最小值。选取手的边缘到掌心的距离的集合作为标识每个手势的特征向量。

5.2.1 仿射变换

由于人的手具有很大的灵活性，这样就会对同一种手势存在有大量相似的姿势，而在图像的处理过程中，又不可能得到所有的这些相似手势的样本。仿射变换为解决这个问题提供了一个方法。仿射变换是一种二维坐标到二维坐标的线性变换，保持二维图形的“平直性”和“平行性”。仿射变换可以通过一系列图像的原子变换的复合来实现。通过仿射变换能实现同一种手势的一系列的相似姿势。如附图13a～附图13g所示为部分经过仿射变化的手势图像。

5.2.2 掌心的提取

掌心的提取是正确得到手势特征的非常重要的一步。这里利用数学形态学的腐蚀操作，逐步去掉手势的边缘像素，当手区域的像素数目低于某个特定的值(本发明中取值为100)的时候，停止腐蚀，然后求得剩下的手的区域中所有像素坐标平均值作为掌心的位置。处理效果如附图14a、附图14b所示。

5.2.3 特征提取

首先使用SUSAN算法进行边缘提取和改进的OPTA算法进行边缘的细化。附图15a～附图15c所示是处理的效果图。然后选取从手势图像的最低点开始，通过使用Freeman链码方法，沿着手势的边缘顺序求得每一个边缘点到掌心间的欧几里得距离。

5.3 RBF神经网络进行手势分类

径向基函数神经网络(Radial Basis Function Neural Network，RBFNN)是一种性能良好的前向神经网络。它不仅具有全局逼近性质，而且具有最佳逼近性能。RBF网络结构上具有输出——权值线性关系，同时训练方法快速易行，不存在局部最优问题，这些优点给RBF神经网络的应用奠定了良好的基础。为了适应RBF神经网络对输入节点数目固定的特点，本发明中，对通过Freeman链码取得的边缘到掌心的距离的集合进行压缩映射到500个节点上，同时又能保证不改变手势的外形。对381幅图片进行RBF神经网络的训练。整个训练过程经过20小时，并将训练后的神经网络的数据保存到XML文件中，以便以后随时读取。

5.4 仿真模拟

本发明实验设计了一个人和机器人进行石头剪子布的实验，该实验中，由机器人的头部摄像机读取人的手势，通过本发明设计的方法进行自主辨别手势，与此同时，机器人的机械手也随机做出这三个手势中的某一个。最后，机器人自我分析判定游戏的胜负。

5.4.1 仿真虚拟平台

本发明采用的仿真虚拟手平台是利用OpenGL读取3DS MAX保存的模型数据文件对虚拟手进行绘制、组装，以及通过平移、旋转和缩放坐标变换实现手指各关节的运动。此外，在仿真模拟中，能通过鼠标拖动任意地改变观测距离和观测视角。

5.4.2 机械手

仿真的最终目的还是应用到实践中去。机械手每个手指各四个自由度每个自由度一个关节，关节可旋转的角度也进行了限制。而且，仿真虚拟手与机械手的结构完全相同，因此实现过程和仿真虚拟手类似。通过对135幅待识别图像在游戏中的应用。机器人正确判断胜负的概率可达到了96.3％。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于注意机制的机器人视觉处理方法，其特征在于，包含以下顺序的步骤：

2.根据权利要求1所述的基于注意机制的机器人视觉处理方法，其特征在于，步骤S1中，所述的图像变换包括图像的基本放缩、旋转、直方图均衡化、仿射变换。

3.根据权利要求1所述的基于注意机制的机器人视觉处理方法，其特征在于，步骤S4中，所述的人脸检测是采用基于Haar–Like特征和AdaBoost算法的人脸检测方法，包含以下步骤：

A、首先用积分图像的新灰度图像来表示图像；

4.根据权利要求3所述的基于注意机制的机器人视觉处理方法，其特征在于，步骤S4的步骤B中，所述的用于人脸检测的AdaBoost统计学习算法具体为：

B、初始化权重w_t,i；

C、对于t轮训练for t＝1，2，3，…，进行如下处理：

(1)所有样本权重归一化：

w_{t, i} = w_{t, i} / Σ_{j = 1}^{N} w_{t, j},

N为样本的数目

式中，偏置p_j只有±1两种情况；

(3)确定的简单分类器中，找出具有最小误差ε_t的的弱分类器h_t；

D、最后得到强分类器：

其中α_t＝ln(1/β_t)。

5.根据权利要求1所述的基于注意机制的机器人视觉处理方法，其特征在于，步骤S4中，所述的颜色识别包括颜色特征训练和颜色特征识别两部分：

A、颜色特征训练：

(2)去噪：

B、颜色特征识别：

(1)读取特征库中所有已经训练好的颜色特征；

6.根据权利要求1所述的基于注意机制的机器人视觉处理方法，其特征在于，步骤S4中，所述的运动检测与跟踪，是采用混合高斯模型进行运动检测以及使用基于Harris角点检测的金字塔Lucas–Kanade光流检测物体运动方向和运动速度。

7.根据权利要求1所述的基于注意机制的机器人视觉处理方法，其特征在于，所述的采用混合高斯模型进行运动检测，具体包含以下步骤：

(1)混合高斯模型的初始化：取一段时间内的视频序列图像中的每个像素的平均灰度μ₀及方差用μ₀和来初始化混合高斯模型中K个高斯分布的参数

μ_{0} = \frac{1}{N} Σ_{t = 1}^{N} {(I_{t} - μ_{0})}^{2}

ω_t＝1/K,μ_i＝255×(i/K),i＝1,2,3,...,K

其中，参数ω_t＝1/K，K是高斯分布的参数个数；

ω_t＝1/K,μ_i＝255×(i/K),i＝1,2,3,...,K；

如匹配则按照下式，则进行高斯参数的更新：

|I_t-μ_i,t-1|≤D₁σ_i,t-1

其中，μ_i,t-1为第i个高斯函数的均值，D₁为用户定义的参数，σ_i,t-1为第i个高斯函数在第t-1时刻的标准差；

\{\begin{matrix} ω_{i, t} = (1 - ρ) ω_{i, t - 1} + ρ \\ μ_{i, t} = (1 - ρ) μ_{i, t - 1} + ρ I_{t} \\ σ_{i, t} = (1 - ρ) σ_{i, t - 1} + ρ {(I_{t} - μ_{i, t})}^{2} \end{matrix}

其中，ρ(0≤ρ≤1)为学习率，ρ越大，背景更新速度越快；

ω_i,t＝(1-ρ)ω_i,t-1

B = \arg_{b} \min (Σ_{t}^{b} ω_{i, t} > T),

T为预设的阈值；

8.根据权利要求1所述的基于注意机制的机器人视觉处理方法，其特征在于，步骤S4中，所述的手势交互包括手区域的分割、手势特征的提取、手势的分类这三个过程，具体为：

9.根据权利要求1所述的基于注意机制的机器人视觉处理方法，其特征在于，步骤S4中，所述的注意机制，具体为对每个特征的标识物体C_i，定义一个三元组aux_i＝<P_i,D_i,S_i>，其中P_i表示是否是人相关的特征，如果为0，则表示不是人相关的特征，为1则表示是人脸或手势；D_i表示物体C_i离摄像机坐标系原点的距离；S_i表示物体C_i在图像中所占的面积；选择性注意控制策略的算法如下：

pro_i＝αP_i[β_iD_i/D_sum+(1-β_i)S_i/S_sum]

{pro}_{i} = \{\begin{matrix} α [β_{i} D_{i} / D_{sum} + (1 - β_{i}) S_{i} / S_{sum}], if & p_{i} = 1 \\ (1 - α) [β_{i} D_{i} / D_{sum} + (1 - β_{i}) S_{i} / S_{sum}], if & p_{i} = 0 \end{matrix},

其中

D_{sum} = Σ_{i = 1}^{N} D_{i}, S_{sum} = Σ_{i = 1}^{N} S_{i};

(2)对于同一个物体可能同时存在多个特征标识，取其中pro_i最大的，并排除该物体的其他特征标识的概率pro；

(4)触发注意窗口的相关操作：

pro_m＝σ×pro_m。