CN103105924B

CN103105924B - 人机交互方法和装置

Info

Publication number: CN103105924B
Application number: CN201110361120.0A
Authority: CN
Inventors: 郑锋; 赵颜果; 宋展
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2011-11-15
Filing date: 2011-11-15
Publication date: 2015-09-09
Anticipated expiration: 2031-11-15
Also published as: CN103105924A

Abstract

一种人机交互方法包括如下步骤：获取用户指定的目标图像，并基于随机森林训练，建立包含多个决策树的分类器；存储包含多个决策树的多个分类器和正负样本合集；获取待测图像；计算待测图像与目标图像相同的概率；根据预设的判定阀值，判定待测图像是否为目标图像；分析并得到待测图像和正负样本合集的相关度；根据第一相关度阀值判定待测图像是否为目标图像；当在判定阀值和第一相关度阀值下均判定与目标图像相同时，最终判定待测图像是目标图像；利用待测图像调整分类器的参数以及补充正负样本合集。本发明还提供一种人机交互装置。上述方法和装置可实现用户自定义目标图像且能在使用过程中不断增强识别精度和系统稳定性。

Description

人机交互方法和装置

【技术领域】

本发明涉及图像分析领域，特别是涉及一种人机交互方法和装置。

【背景技术】

近年来，随着智能终端设备的普及，寻求一种更自然更简单的人机交互方式已然成为科研和产业领域的热点问题。纵观人机交互技术的发展历史，已逐渐从鼠标、键盘、遥控器等方式发展为视觉、语音、姿态等非接触式的操作方式，而且视觉技术作为其中最为重要的手段。即通过摄像头获取画面，基于图像智能分析技术判断操作者的动作和意图，进而控制机器。但其所面临最大的问题是环境的复杂性和不确定性，使得该技术还未完全成熟。随着3D技术的发展，微软推出了Kinect系统，其通过动态三维重建技术，将人机交互由2D的图像空间拓展到真实的3D空间，3D空间的深度信息有效的解决了2D空间中较为复杂的背景分割问题，使得该技术趋于成熟，并已应用到电视机、游戏机等设备中，用做外置的人机交互设备。

但是基于3D技术的手势体感控制技术：以微软Kinect系统为代表的该技术通过动态三维重构技术实现了对场景的三维实时重建，将视觉检测算法由2D导入3D空间进行，降低了识别的难度，但增加了硬件成本和计算量，而且产品体积较大，很难嵌入到现有的智能终端设备中。

而且传统技术都是预设好特定的目标图像，使得用户在使用过程中，提供目标必须限定在预设的特定目标图像内，灵活度较低。

【发明内容】

基于传统技术的各种不足，有必要提供一种可用户自定义目标图像的人机交互方法和装置。

一种人机交互方法，包括如下步骤：

步骤S201，接收用户输入的学习指令，启动学习模式；

步骤S202，获取用户指定的目标图像，采集正样本和负样本，并基于随机森林训练，建立包含多个决策树的分类器；

步骤S203，存储所述包含多个决策树的多个分类器，以及存储所述正样本和负样本，形成正负样本合集；

步骤S204，接收用户输入的检测指令，启动检测模式；

步骤S205，获取待测图像；

步骤S206，利用所述多个决策树的分类器计算所述待测图像与目标图像相同的概率，输出对应的多个概率值；

步骤S207，根据所述多个概率值和预设的判定阀值，判定所述待测图像是否为所述目标图像；

步骤S208，分析并得到所述待测图像和正负样本合集的相关度；

步骤S209，根据所述相关度和预设的第一相关度阀值，判定所述待测图像是否为所述目标图像；

步骤S210，当所述待测图像在所述判定阀值和所述第一相关度阀值下均判定与所述目标图像相同时，最终判定所述待测图像是所述目标图像；

步骤S212，利用最终判定与所述目标图像相同的所述待测图像，调整所述多个决策树的分类器的参数；

步骤S214，当最终判定与所述目标图像相同的所述待测图像的相关度满足预设的第二相关度阀值时，将所述待测图像作为正样本添加到所述正负样本合集中，当最终判定与所述目标图像不同的所述待测图像的概率值达到预设校正阀值时，将所述待测图像作为负样本添加到所述正负样本合集中。

本发明一较佳实施例中，所述步骤S202中采集正样本和负样本的动作包括对所述目标图像进行旋转、投影、缩放或平移处理，并分别采集正样本。

本发明一较佳实施例中，所述步骤S206是先提取所述待测图像的方差值，利用预设的方差阀值排除不满足要求的所述待测图像，再计算满足所述方差阀值要求的所述待测图像与所述目标图像相同的概率。

本发明一较佳实施例中，所述预设的判定阀值设置为所述步骤S202中训练时验证负样本的最大概率值。

本发明一较佳实施例中，人机交互方法还包括如下步骤

步骤S301，提取并记录判定与所述目标图像相同的所述待测图像的坐标信息；

步骤S302，当检测到判定与所述目标图像相同的所述待测图像停顿时间第一次达到预设时间阀值，开始记录所述待测图像的运动轨迹；

步骤S303，当检测到判定与所述目标图像相同的所述待测图像停顿时间第二次达到预设时间阀值，停止记录所述待测图像的轨迹；

步骤S304，根据所述记录的轨迹进行文字识别。

一种人机交互装置，其包括：

学习指令接收单元，用于接收用户输入的学习指令，启动学习模式；

训练单元，用于响应所述学习指令，获取用户指定的目标图像，采集正样本和负样本，并基于随机森林训练，建立包含多个决策树的分类器

存储单元，用于存储所述包含多个决策树的多个分类器，以及存储所述正样本和负样本，形成正负样本合集。

检测指令接收单元，用于接收用户输入的检测指令，启动检测模式。

图像获取单元，用于获取待测图像

识别单元，用于利用所述多个决策树的分类器计算所述待测图像与所述目标图像相同的概率，输出对应的多个概率值；并根据所述多个概率值和预设的判定阀值，判定所述待测图像是否为所述目标图像

比较单元，用于分析并得到所述待测图像和正负样本合集的相关度；并根据所述相关度和预设的第一相关度阀值，判定所述待测图像是否为所述目标图像。

判定单元，用于在所述待测图像在所述判定阀值和所述第一相关度阀值下均判定与所述目标图像相同时，最终判定所述待测图像是所述目标图像。

更新单元，用于利用最终判定与所述目标图像相同的所述待测图像，调整所述多个决策树的分类器的参数；当最终判定与所述目标图像相同的所述待测图像的相关度满足预设的第二相关度阀值时，将所述待测图像作为正样本添加到所述正负样本合集中，当最终判定与所述目标图像不同的所述待测图像的概率值达到预设校正阀值时，将所述待测图像作为负样本添加到所述正负样本合集中。

本发明一较佳实施例中，所述训练单元采集正样本和负样本的动作包括对目标图像进行旋转、投影、缩放或平移处理，并分别采集正样本。

本发明一较佳实施例中，所述识别单元用于提取所述待测图像的方差值，利用预设的方差阀值排除不满足要求的所述待测图像，并计算满足方差阀值要求的所述待测图像与所述目标图像相同的概率。

本发明一较佳实施例中，所述预设的判定阀值设置为所述训练单元在训练时验证负样本的最大概率值。

上述人机交互方法和装置可接收用户的自定义目标图像，作为识别对象，为用户使用提供了很好的灵活性。并且还利用待测图像对分类器进行修正以及补充目标图像的正负样本，使得人机交互的稳定性在使用过程中持续增强，实现效果更好的人机交互功能。

【附图说明】

图1为一实施例的人机交互方法的步骤流程图；

图2为基于人机交互方法的动作书写方法的步骤流程图；

图3为一实施例的人机交互装置的功能模块图。

【具体实施方式】

为了解决传统技术中用户使用时的灵活度不高的问题，提出了一种可用户自定义目标图像的人机交互方法和装置。

如图1所示，其为一实施例的人机交互方法的步骤流程图，包括如下步骤：

步骤S201，接收用户输入的学习指令，启动学习模式。

步骤S202，获取用户指定的目标图像，采集正样本和负样本，并基于随机森林训练，建立包含多个决策树的分类器。

所述获取用户指定的目标图像即是用户自定义目标图像。假设，用户希望利用手掌来来实现人机交互。便可以在学习模式下，通过摄像头提供手掌图像作为目标图像。为了使得采集正样本更全面，本发明通过对目标图像进行旋转、投影、缩放以及平移等处理，以获得更为丰富的正样本。

所述多个决策树的分类器，是通过对目标图像进行对点特征描述，然后通过预设的多棵(如10棵)决策树建立用于图像识别的多个分类器，实现相似概率的计算。

步骤S203，存储所述包含多个决策树的多个分类器，以及存储所述正样本和负样本，形成正负样本合集。

步骤S204，接收用户输入的检测指令，启动检测模式。

步骤S205，获取待测图像。

获取待测图像的方式可以是通过摄像头拍摄图像，然后通过不同尺寸的滑动窗口以穷搜的方式从拍摄的图像中获取待测图像。

步骤S206，利用所述多个决策树的分类器计算所述待测图像与目标图像相同的概率，输出对应的多个概率值。

为了提高检测效率，本发明一实施例中，步骤S206是首先提取待测图像的方差值，再利用预设的方差阀值直接排除不满足要求的待测图像，只计算满足方差阀值要求的待测图像与所述目标图像相同的概率。

步骤S207，根据所述多个概率值和预设的判定阀值，判定待测图像是否为目标图像。

判定方式可以是先对多个概率值取平均得到平均概率值，然后根据平均概率值是否大于预设的判定阀值，判定待测图像是否与目标图像相同。本发明一较佳实施例中，所述预设的判定阀值设置为步骤S202中训练时验证负样本的最大概率值。

步骤S208，分析并得到待测图像和正负样本合集的相关度。

步骤S209，根据所述相关度和预设的第一相关度阀值，判定待测图像是否为目标图像。

至于判定待测图像是目标图像后，需要执行的指令，则根据不同情况设置，如控制鼠标指针的动作或其他。

步骤S210，当待测图像在判定阀值和第一相关度阀值下均判定与目标图像相同时，最终判定待测图像是目标图像。

步骤S212，利用最终判定与目标图像相同的待测图像，调整所述多个决策树的分类器的参数。

步骤S214，当最终判定与目标图像相同的待测图像的相关度满足预设的第二相关度阀值时，将待测图像作为正样本添加到正负样本合集中，当最终判定与目标图像不同的待测图像的概率值达到预设校正阀值时，将待测图像作为负样本添加到正负样本合集中。

因为用户在设定目标图像时，提供的目标图像的样本数量有限，为了进一步提高识别精度，上述人机交互方法在图像识别过程中，利用判定是目标图像的待测图像作为目标图像的正样本补充以及分类器的参数调整。还利用判定不是目标图像的待测图像，但又非常接近目标图像的待测图像作为目标图像的负样本补充。

上述人机交互方法可接收用户的自定义目标图像，作为识别对象，为用户使用提供了很好的灵活性。并且还利用待测图像对分类器进行修正以及补充目标图像的正负样本，使得人机交互的稳定性在使用过程中持续增强，实现效果更好的人机交互功能。

如图2所示，基于上述人机交互方法的动作书写方法包括如下步骤：

步骤S301，提取并记录判定与目标图像相同的待测图像的坐标信息。

待测图像的坐标信息可以通过对判定结果相同的多个待测图像进行聚类和坐标加权平均处理获得。

步骤S302，当检测到判定与目标图像相同的待测图像停顿时间第一次达到预设时间阀值，开始记录待测图像的运动轨迹。

步骤S303，当检测到判定与目标图像相同的待测图像停顿时间第二次达到预设时间阀值，停止记录待测图像的轨迹。

步骤S304，根据记录的轨迹进行文字识别。以实现用户利用自己定义的目标图像(手掌)移动，实现书写输入功能。

轨迹的记录需要选择与目标图像相同的待测图像中的目标点来进行记录，本发明一实施例中，目标点的确定方式包括如下步骤：

初始化需要跟踪的点。

计算出两帧图像的光流金字塔，根据两帧图像之间的光流来计算由初始化的需要跟踪的点对应当前帧图像中的目标点。

将上一帧图像与当前帧图像的互换以及将上一帧图像与当前帧图像的金字塔互换，根据两帧图像之间的光流来计算上一帧图像中对于当前帧图像中的目标点。

如图3所示，其为一实施例的人机交互装置40的功能模块图，包括：学习指令接收单元400、训练单元402、存储单元404、检测指令接收单元406、图像获取单元408、识别单元410、比较单元412、判定单元414和更新单元416。

学习指令接收单元400用于接收用户输入的学习指令，启动学习模式

训练单元402用于响应学习指令，获取用户指定的目标图像，采集正样本和负样本，并基于随机森林训练，建立包含多个决策树的分类器。

所述获取用户指定的目标图像即是用户自定义目标图像。假设，用户希望利用手掌来来实现人机交互。便可以在学习模式下，通过摄像头提供手掌图像作为目标图像。为了使得采集正样本更全面，本发明训练单元402用于通过对目标图像进行旋转、投影、缩放以及平移等处理，以获得更为丰富的正样本。所述多个决策树的分类器，是通过对目标图像进行对点特征描述，然后通过预设的多棵(如10棵)决策树建立用于图像识别的多个分类器，实现相似概率的计算。

存储单元404用于存储所述包含多个决策树的多个分类器，以及存储所述正样本和负样本，形成正负样本合集。

检测指令接收单元406用于接收用户输入的检测指令，启动检测模式。

图像获取单元408用于获取待测图像。

识别单元410用于利用所述多个决策树的分类器计算所述待测图像与目标图像相同的概率，输出对应的多个概率值；并根据所述多个概率值和预设的判定阀值，判定待测图像是否为目标图像。

为了提高检测效率，本发明一实施例中，识别单元410用于提取待测图像的方差值，利用预设的方差阀值直接排除不满足要求的待测图像，并计算满足方差阀值要求的待测图像与所述目标图像相同的概率。

判定方式可以是先对多个概率值取平均得到平均概率值，然后根据平均概率值是否大于预设的判定阀值，判定待测图像是否与目标图像相同。本发明一较佳实施例中，所述预设的判定阀值设置为训练单元402在训练时验证负样本的最大概率值。

比较单元412用于分析并得到待测图像和正负样本合集的相关度；并根据所述相关度和预设的第一相关度阀值，判定待测图像是否为目标图像。

判定单元414用于在待测图像在判定阀值和第一相关度阀值下均判定与目标图像相同时，最终判定待测图像是目标图像。

更新单元416用于利用最终判定与目标图像相同的待测图像，调整所述多个决策树的分类器的参数；当最终判定与目标图像相同的待测图像的相关度满足预设的第二相关度阀值时，将待测图像作为正样本添加到正负样本合集中，当最终判定与目标图像不同的待测图像的概率值达到预设校正阀值时，将待测图像作为负样本添加到正负样本合集中。

因为训练单元402在接收用户设定目标图像时，采集的样本数量有限，为了进一步提高识别精度，上述人机交互装置在图像识别过程中，更新单元416利用判定是目标图像的待测图像作为目标图像的正样本补充以及分类器的参数调整，还利用判定不是目标图像的待测图像，但又非常接近目标图像的待测图像作为目标图像的负样本补充。

上述人机交互装置可接收用户的自定义目标图像，作为识别对象，为用户使用提供了很好的灵活性。并且还利用待测图像对分类器进行修正以及补充目标图像的正负样本，使得人机交互的稳定性在使用过程中持续增强，实现效果更好的人机交互功能。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种人机交互方法，其特征在于，包括如下步骤：

步骤S201，接收用户输入的学习指令，启动学习模式；

步骤S204，接收用户输入的检测指令，启动检测模式；

步骤S205，获取待测图像；

2.根据权利要求1所述的人机交互方法，其特征在于，所述步骤S202中采集正样本和负样本的动作包括对所述目标图像进行旋转、投影、缩放或平移处理，并分别采集正样本。

3.根据权利要求1所述的人机交互方法，其特征在于，所述步骤S206是先提取所述待测图像的方差值，利用预设的方差阀值排除不满足要求的所述待测图像，再计算满足所述方差阀值要求的所述待测图像与所述目标图像相同的概率。

4.根据权利要求1所述的人机交互方法，其特征在于，所述预设的判定阀值设置为所述步骤S202中训练时验证负样本的最大概率值。

5.根据权利要求1所述的人机交互方法，其特征在于，所述人机交互方法还包括如下步骤：

步骤S304，根据所述记录的轨迹进行文字识别。

6.一种人机交互装置，其特征在于，其包括：

训练单元，用于响应所述学习指令，获取用户指定的目标图像，采集正样本和负样本，并基于随机森林训练，建立包含多个决策树的分类器；

存储单元，用于存储所述包含多个决策树的多个分类器，以及存储所述正样本和负样本，形成正负样本合集；

检测指令接收单元，用于接收用户输入的检测指令，启动检测模式；

图像获取单元，用于获取待测图像；

识别单元，用于利用所述多个决策树的分类器计算所述待测图像与所述目标图像相同的概率，输出对应的多个概率值；并根据所述多个概率值和预设的判定阀值，判定所述待测图像是否为所述目标图像；

比较单元，用于分析并得到所述待测图像和正负样本合集的相关度；并根据所述相关度和预设的第一相关度阀值，判定所述待测图像是否为所述目标图像；

判定单元，用于在所述待测图像在所述判定阀值和所述第一相关度阀值下均判定与所述目标图像相同时，最终判定所述待测图像是所述目标图像；

7.根据权利要求6所述的人机交互装置，其特征在于，所述训练单元采集正样本和负样本的动作包括对目标图像进行旋转、投影、缩放或平移处理，并分别采集正样本。

8.根据权利要求6所述的人机交互装置，其特征在于，所述识别单元用于提取所述待测图像的方差值，利用预设的方差阀值排除不满足要求的所述待测图像，并计算满足方差阀值要求的所述待测图像与所述目标图像相同的概率。

9.根据权利要求6所述的人机交互装置，其特征在于，所述预设的判定阀值设置为所述训练单元在训练时验证负样本的最大概率值。