CN106997236B

CN106997236B - 基于多模态输入进行交互的方法和设备

Info

Publication number: CN106997236B
Application number: CN201610049586.XA
Authority: CN
Inventors: 廖春元; 唐荣兴; 黄玫
Original assignee: Bright Wind Taiwan (shanghai) Mdt Infotech Ltd
Current assignee: Bright Wind Taiwan (shanghai) Mdt Infotech Ltd
Priority date: 2016-01-25
Filing date: 2016-01-25
Publication date: 2018-07-13
Anticipated expiration: 2036-01-25
Also published as: US20180329512A1; US10664060B2; WO2017129149A1; CN106997236A

Abstract

本发明的目的是提供一种能够更接近用户自然交互的基于多模态输入进行交互的智能眼镜设备和方法，包括：从多个输入模块的至少一个中获取若干输入信息；对若干所述输入信息进行综合逻辑分析，以生成操作命令，其中，所述操作命令具有操作元素，所述操作元素至少包括操作对象、操作动作和操作参数；基于所述操作命令对所述操作对象执行相应操作。本申请所述用于智能眼镜设备及方法通过多个输入模块获取多通道的输入信息，并对所述输入信息进行综合逻辑分析后确定操作对象、操作动作和操作动作的操作元素，以生成操作命令，再基于操作命令执行相应操作，从而实时地将信息融合处理，使用户更接近自然语言的交互方式，从而提高提供用户的交互体验。

Description

基于多模态输入进行交互的方法和设备

技术领域

本发明涉及计算机领域增强现实技术，尤其涉及一种增强现实智能眼镜技术。

背景技术

增强现实(Augmented Reality，增强现实)是在自然图片识别技术的一个子领域，将虚拟三维模型动画、视频、文字、图片等数字信息实时叠加显示到真实场景中，并与现实物体或者使用者实现自然互动的创新的人机交互技术，强调虚实融合的自然人机视觉交互。增强现实技术包含了多媒体、三维建模、实时视频显示及控制、多传感器溶合、实时跟踪及注册、场景融合等新技术与新手段。由于该技术的先进性和新颖性，增强现实技术的应用和推广也曾一度处于停滞不前的状态。

在移动互联网时代，人机交互的一个非常核心的技术问题是如何高效、简便、自然地连接用户的线下当前真实场景和线上虚拟的信息和交互。

在现有技术中，实现连接技术核心是计算机对线下物品的感知，包括检测、识别与跟踪。实现这种感知的手段大致有两种：用人工方式给线下物品打标签、用计算机自动识别线下物品。前者例如二维码、NFC、WiFi定位等技术，需要对每个目标物体进行修改，因此存在功能单一、部署和维护成本高、交互不自然、不直观、缺少美感等缺点。后者以自然图片识别技术为基础，对摄像头采集的图像数据进行智能分析，自动判断物体身份、类别和空间姿态等信息，对目标物体不需要任何改变，也更接近人的自然交互。

因此，如何更好地实现用户线上线下信息链接和虚实融合的交互体验成为业界主流课题。

发明内容

本发明的一个目的是提供一种能够更接近用户自然交互的智能眼镜设备和方法。

根据本申请一方面提供了一种用于智能眼镜设备基于多模态输入进行交互的方法，其中，所述方法包括：

A从多个输入模块的至少一个中获取若干输入信息，多个所述输入模块包括：图像输入模块、声音输入模块、触控输入模块和传感输入模块，若干所述输入信息包括至少以下任一种：现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息；

B对若干所述输入信息进行综合逻辑分析，以生成操作命令，其中，所述操作命令具有操作元素，所述操作元素至少包括操作对象、操作动作和操作参数；

C基于所述操作命令对所述操作对象执行相应操作。

进一步地，所述方法还包括：

D获取用户待设定操作命令的相关信息，基于所述待设定操作命令的相关信息更新所述操作命令。

进一步地，所述步骤B包括：将若干所述输入信息发送至分体控制装置进行综合逻辑分析，以生成所述操作命令，其中，所述分体控制装置与所述智能眼镜设备本体物理分离，并通过有线或无线方式与所述智能眼镜设备通信连接。

根据本发明的另一个方面提供了一种多模态输入进行交互的智能眼镜设备，其中，所述智能眼镜设备包括：

第一装置，用于从多个输入模块的至少一个中获取若干输入信息，多个所述输入模块包括：图像输入模块、声音输入模块、触控输入模块和传感输入模块，若干所述输入信息包括至少以下任一种：现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息；

第二装置，用于对若干所述输入信息进行综合逻辑分析，以生成操作命令，其中，所述操作命令具有操作元素，所述操作元素至少包括操作对象、操作动作和操作参数；

第三装置，用于基于所述操作命令对所述操作对象执行相应操作。

进一步地，所述智能眼镜设备还包括：分体控制装置，用于获取若干所述输入信息，并进行综合逻辑分析，以生成所述操作命令，其中，所述分体控制装置与所述智能眼镜设备本体物理分离，并通过有线或无线方式与所述智能眼镜设备通信连接。

相比于现有技术，本申请所述用于智能眼镜设备基于多模态输入进行交互的方法和智能眼镜设备通过多个输入模块获取多通道的输入信息，并对所述输入信息进行综合逻辑分析后确定操作对象、操作动作和操作动作的操作元素，以生成操作命令，再基于操作命令执行相应操作，从而实时地将现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息融合处理，使用户更接近自然语言的交互方式，从而提高提供用户的交互体验。

进一步地，通过获取用户待设定操作命令的相关信息，基于所述待设定操作命令的相关信息更新所述操作命令，使用户可以自行定义交互操作，提高用户使用的灵活性。

进一步地，所述智能眼镜设备通过设置物理分离的分体控制装置，并以有线或无线的方式通信连接，将所述智能眼镜设备的处理核心业务逻辑交由分体控制装置，能够降低智能眼镜设备本身体积和重量，并避免智能眼镜设备过度散热导致用户使用不适。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一方面提供的智能眼镜设备的功能示意图；

图2示出根据本申请一方面提供的一种多模态输入进行交互的智能眼镜设备的设备示意图；

图3示出根据本申请优选实施例提供的一种多模态输入进行交互的智能眼镜设备的设备示意图；

图4示出根据本申请一优选的实施例所示的智能眼镜设备基于多模态输入进行交互的流程示意图；

图5示出根据本申请一优选实施例提供的所述智能眼镜设备基于用户操作定义交互操作的过程示意图；

图6示出根据本申请一方面提供的一种在智能眼镜设备端用于多模态输入进行交互的流程示意图；

图7示出根据本申请优选实施例提供的一种智能眼镜设备端用于多模态输入进行交互的方法流程示意图；

图8示出根据本申请优选实施例提供的一种智能眼镜设备端利用深度学习网络法进行综合逻辑分析的示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

结合图1，本申请主旨在于，提供一种智能眼镜设备对多模态输入，例如语音、触摸、手势、场景等输入信息进行综合处理，包括基于输入信息确定交互操作的操作命令对操作对象(包括电视、灯、洗衣机等具有实体的物体，眼镜投影显示的无实体物体等)进行相应操作，此外，还可以为用户提供定义交互操作的功能。

基于以上，图2示出根据本申请一方面提供的一种多模态输入进行交互的智能眼镜设备的设备示意图，其中，所述智能眼镜设备1包括：第一装置11、第二装置12和第三装置13。

其中，所述第一装置11从多个输入模块的至少一个中获取若干输入信息，多个所述输入模块包括：图像输入模块、声音输入模块、触控输入模块和传感输入模块，若干所述输入信息包括至少以下任一种：现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息；所述第二装置12对若干所述输入信息进行综合逻辑分析，以生成操作命令，其中，所述操作命令具有操作元素，所述操作元素至少包括操作对象、操作动作和操作参数；所述第三装置13基于所述操作命令对所述操作对象执行相应操作。

在此，所述智能眼镜设备1是一种可穿戴智能设备，以眼镜的硬件载体形式、融合AR(Augmented Reality，增强现实)的软件交互方式，以实现用户线上线下的信息链接和虚实融合的交互体验。所述智能眼镜设备1可以采用任意操作系统，如android操作系统、iOS操作系统等。如android操作系统、iOS操作系统等。所述智能眼镜设备1的硬件设备可以包括摄像输入模块(例如RGB摄像头、三维摄像头等)、传感输入模块(例如惯性测量单元IMU，包括电子罗盘、加速度、角速度、陀螺仪等)、语音输入模块(例如话筒等)、显示屏、语音播放设备、触觉输出设备以及数据处理模块等。当然，以上对智能眼镜设备1所包括硬件设备的描述仅为举例，今后可能出现的智能眼镜设备1，如适用本申请，仍可以以引用的方式包含于此。

在此，所述现实场景信息可以是图片、照片、场景图像、实物图像、或有特定形状物体等。所述增强现实效果可以包括相关联的增强现实内容(包括但不限于视频、语音、链接、二维动画和三维动画等)和对应的增强现实显示效果。所述虚拟场景信息可以是在智能眼镜设备1的所显示的虚拟图像。

本申请所述智能眼镜设备1通过多个输入模块获取多通道的输入信息，并对所述输入信息进行综合逻辑分析后确定操作对象、操作动作和操作动作的操作元素，以生成操作命令，再基于操作命令执行相应操作，从而实时地将现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息融合处理，使用户更接近自然语言的交互方式，从而提高提供用户的交互体验。

图3示出根据本申请优选实施例提供的一种多模态输入进行交互的智能眼镜设备的设备示意图，首先，所述第一装置11从多个输入模块的至少一个中获取若干输入信息。在此，所述智能眼镜设备1通过利用不同通道(即各种输入模块)接收用户的各种自然语言交互方式的输入信息，以分析用户行为信息确定操作目标、操作动作和操作参数，操作目标可以是实体，也可以是智能眼镜设备1的显示屏上显示的虚拟物体。

其中，用户使用的自然语言交互方式通常可以包括：场景，包括当前视野范围内的背景、实体以及眼镜投影的用户界面或物体；手势，包括手的位置、朝向以及动作；声音，包括文字信息代表的语义；以及触摸：包括手指的力度以及操作动作。

其中，多模态各个通道的输入信息主要由以下硬件采集，例如RGB摄像头获取场景图像信息，深度摄像头获取手势信息，麦克风获取语音信息，触控板获取触控信息等，当然，所述智能眼镜设备1获取的输入信息及使用的硬件设备并不被限定，今后可能出现的获取方式或获取设备都可以以引用的方式包含于此。

所述第二装置12对若干所述输入信息进行综合逻辑分析，以生成操作命令。

进一步地，所述智能眼镜设备1的第二装置12对各个通道锁获取的输入信息可以采用：对各个输入模块所采集到的输入信息，分别由对应的模块进行单独处理，生成格式化数据，然后，再统一交由多通道交互信息分析和融合模块处理；也可以创建深度学习模型，采用将各个输入模块所采集到的输入信息的原始数据直接利用深度学习模型进行融合处理和逻辑分析。

在一优选的实施例中，所述第二装置12包括：第一单元111和第二单元112。其中，所述第一单元111利用对应处理模块对所述输入模块的若干所述输入信息分别进行识别预处理，以生成若干所述结构化数据，其中，所述处理模块包括场景图像识别模块、手势识别模块、声音识别模块、触控识别模块和传感识别模块；所述第二单元112对若干所述结构化数据进行融合处理和仲裁分析，以生成操作命令。

进一步地，所述第一单元111可以利用对应识别模块处理每个通道的输入信息，包括提取特征和/或分析语义，输出成结构化数据，每一通道的输入信息对应的结构化数据的结构可以相同或不同，能够被第二单元112进行融合处理和仲裁分析即可。

其中，所述第一单元111所利用的不同处理模块可以对应用于识别场景图像的第一一子单元111a、用于识别手势信息的第一二子单元111b、用于获取触控信息的第一三子单元111c以及用于获取语言信息的第一四子单元111d。

其中，所述第一一子单元111a利用所述场景图像识别模块识别所述虚拟场景信息和/或所述图像输入模块输入的现实场景信息，以获取关于可操作的目标集合的结构化数据；所述第一二子单元111b利用所述手势识别模块识别所述图像输入模块输入的手势信息，以获取关于可操作的目标集合的结构化数据和/或可操作的动作集合的结构化数据；所述第一三子单元111c利用所述触控识别模块识别所述触控输入模块输入的触控信息，以获取至少以下任一种结构化数据：关于光标在屏幕上位置的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据；所述第一四子单元111d利用所述语音识别模块识别所述语音输入模块输入的语音信息，以获取至少以下任一种结构化数据：关于可操作的目标集合的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据。

根据不同的输入信息采用不同的处理模块进行识别预处理，生成预处理后的结构化数据，并行处理能够加快数据处理速度，第二单元112的处理过程不依赖输入信息的原始数据，使第一单元111所包括的处理模块更为灵活。

所述第二单元112所进行的融合和仲裁规则或训练模型可以是已预先定义或预先训练的(包括由开发者定义初始规则集或训练初始模型，或由用户基于规则或模型进行更新的模型)，规则可以是自然交互方式间的关系(比如手势与语音配合或竞争关系等)，也可以是机器学习模型(如决策树、随机森林等)。

具体地，所述第二单元112可以采用类似填槽法进行融合，即槽为操作命令对应的操作多元组，例如，操作三元组<操作目标，操作动作，操作参数(可选)>，所述操作三元组中每一元槽为操作元素的操作类型；将结构化数据按照时序或者优先级竞争填槽，当槽填满并符合业务执行逻辑时，即生成相应操作命令，并进行执行。其中，时序与优先级的竞争逻辑可以由开发者定义，也可以由用户更新。

所述第二单元112利用填槽法进行融合处理时，首先在初始等待状态，当所述第一单元111将结构化数据输入至第二单元112时，则对相应所述结构化数据逻辑匹配，包括关键信息提取和关键信息之间的匹配，以确定所述结构化数据对应的元素类型和相应元素信息，当检测到至少一个元素信息时，则切入就绪状态，并根据元素类型将不同的元素信息填入各操作元素的槽中，并继续获取其他元素类型和相应元素信息，在就绪状态中，时刻检测各操作元素的槽是否填满，如果填满则判断是否符合业务逻辑，当符合则生成相应操作命令，并清空槽，在交互过程中不断循环以上过程。

具体地，所述第二单元112包括：第二一子单元(未示出)、第二二子单元(未示出)、第二三子单元(未示出)；其中，所述第二一子单元确定所述结构化数据所对应的元素类型；所述第二二子单元对具有相同所述元素类型的所述结构化数据进行逻辑匹配和/或仲裁选择，以确定相应所述元素类型所对应的所述操作元素的元素信息；第二三子单元当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后符合执行业务逻辑，则基于相应所述操作元素的元素信息生成操作命令。

进一步地，所述第二二子单元包括：第二四子单元、第二五子单元和第二六子单元，其中，所述第二四子单元对具有相同所述元素类型的所述结构化数据进行逻辑匹配，以确定至少一个待选元素信息；第二五子单元对所述待选元素信息进行仲裁选择，以选取其中一个作为选取元素信息；第二六子单元根据所述选取元素信息确定相应所述元素类型所对应的所述操作元素的元素信息。

所述第二二子单元还包括：第二七子单元，用于当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后不符合执行业务逻辑，则重新对其余所述待选元素信息进行仲裁选择，以重新选取其中一个作为选取元素信息；第二八子单元，用于当重新选取时间超出超时时间或所有所述待选元素信息所确定的元素信息的组合都不符合执行业务逻辑，则清空所有操作类型对应的操作元素的元素信息。所述第二七子单元和所述二八子单元用于在元素信息组合后不符合执行业务逻辑时，重新选取元素信息进行判断。

所述第二五子单元用于：根据所述待选元素信息的时序和/或优先级排序进行竞争选择；当所述待选元素信息的时序及优先级排序均相同时进行随机选择，以选取其中一个作为所述选取元素信息。

所述第二五子单元对所述待选元素信息进行仲裁选择，可以按照时间顺序竞争，例如，若先采集到手势信息，则手势识别模块分析得到的结构化数据优先填入操作目标的槽中；若同时输入或输入时间差小于设定阈值，则按照已定义的优先级进行竞争，例如语音输入信息优先级高于手势输入信息，则语音识别模块提取的语音信息所生成的结构化数据优先填入相应槽中；此外，若如若输入时间相同，优先级相同，则随机选择某个填入相应槽中，未被选中的结构化数据进入缓冲队列中等待再次调取或直接丢弃。

所述第二六子单元将所述选取元素信息确定为相应所述元素信息过程需判断对应操作元素中是否已有元素信息，若已有需判断当前已有所述元素信息和所述选取元素信息的优先级，如果所述选取元素信息的优先级较高，则需替换掉已有所述元素信息，具体地，所述第二六子单元判断当前是否已有相应所述元素类型所对应的所述操作元素的元素信息；若已有，则判断所述选取元素信息的优先级是否高于所述已有的元素信息；若高于，则所述选取元素信息替代所述已有的元素信息，确定为相应所述元素类型所对应的所述操作元素的元素信息。例如，若语音信息的优先级较高，当根据图像识别已确定的操作目标为电视后(且还未确定输出操作命令前)，根据语音信息识别到操作目标为手机，则所述第二六子单元根据语音信息的优先级较高的原则，将操作目标的元素信息由“电视”更改为“手机”。

图4示出根据本申请一优选的实施例所示的智能眼镜设备基于多模态输入进行交互的流程示意图，智能眼镜设备可以由其RGB摄像机采集场景图像，深度摄像机采集手势图像，麦克风采集语音信息、触控板采集触控信息，接着，从场景图像中识别出当前视角的场景图像中所有可操作的物体，例如客厅中的电视、窗帘、灯等，以物体名称组成物体库，作为可操作的目标集合；将用户所说的语音转换成文字，进行简单地语义分析，提取出动词、名词、代词等，动词可能为操作动作，名词和代词可能指向操作目标；实时跟踪手的位置，判断手的指向，分析手势对应的操作，触控识别出感应触摸操作，可以获取触控指向的光标的位置和相应的操作，例如分析用户滑动操作时，计算光标移动的位置，分析用户触摸到压力来判断单击或双击操作等。接着，当智能眼镜设备处于等待状态时，智能眼镜设备将同时等待用户语音、手势和触摸等多个通道的信息输入；当只有一个通道输入时，例如语音信息输入时，智能眼镜设备直接根据语音内容做出决策；当这些通道同时有信息输入时，智能眼镜设备并行分析各个通道的信息，然后根据时序或者优先级做出决策。例如语音信息先输入且优先级最高，则首先分析语音的内容，如果语音内容对操作的理解不构成歧义，则直接根据语音内容进行操作。如果语音内容还需要其它通道信息作为补充才能构成完整的操作三元组，则需结合其它通道信息，根据信息互补模式下的工作方式进行综合判断。如：当用户说“请将这边的内容告诉我”时，智能眼镜设备会根据手势所指方向，来做出判断，并给出信息反馈；当没有语音信息输入，但是智能眼镜设备检测到触摸移动或手势变化时，根据这几个通道的信息判断用户的操作。如：用户举出“OK”手势时，表示同意；而“摆手”则表示不同意；用户触摸滑动，表示移动光标；而用户单击或双击触摸，表示选中或打开。在这种情况下，智能眼镜设备根据当前通道输入的信息进行操作分析。对应设备分别采集对应通道的数据，然后利用以训练好的模型将各个通道的信息转化成结构化数据；最后汇总每个通道的结构化数据，使用已训练好的操作模型进行判断，输出操作三元组，并按三元组执行相应操作。

此外，所述第二单元112还可以采用机器学习法对所有所述结构化数据进行逻辑匹配和仲裁选择，以确定每一所述元素类型所对应的所述操作元素的元素信息，其中，所述机器学习法包括至少以下任一项：决策树法、随机森林法、卷积神经网络法。

在另一优选的实施例中，所述第二装置包括第三单元(未示出)和第四单元(未示出)，所述第三单元创建深度学习神经网络构架模型；所述第四单元将所述输入信息的原始数据输入所述深度学习神经网络构架模型中进行融合处理和模型运算，以生成操作命令。

其中，所述深度学习神经网络构架模型为卷积神经网络构架模型。

图8示出根据本申请优选实施例提供的一种智能眼镜设备端利用深度学习网络法进行综合逻辑分析的示意图，在此，所述卷积神经网络(Convolutional Neural Networks，CNN)是人工神经网络的一种，用于语音分析和图像识别。它更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。在网络的输入是多维数据时表现的更为优越，使原始数据可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建的过程。

其中，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构可以采用影响函数核小的sigmoid函数(S形生长曲线函数)作为卷积网络的激活函数，使得特征映射具有位移不变性。

此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。

卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

在本申请一优选实施例中选取深度学习中的卷积神经网络来实现多模态交互数据的融合。具体实现步骤包括：

获取各个输入模块定期(按一定时间间隔)采集的输入信号的原始数据，并将所述原始数据转换为矩阵形式的数据；

将矩阵形式的数据输入已完成参数训练的卷积神经网络结构模型中，以生成相应操作命令。

在一优选的实施例中，鉴于训练数据集小，训练数据维度高，可以采用以下网络结构来完成多模态交互数据融合。卷积神经网络结构模型包含6个卷积层。每个卷积层后都接一个激活函数(rectified linear units，ReLU)；在第2、4、6个卷积层后分别都接了一个降采样层，其中，降采样都使用平均降采样；在卷积神经网络结构模型的最后使用了两个全连接层，将数据拉成一个向量，以用于分类；在全连接层后输出是向量，包含了所有类别的评分，评分最高的类，即为所确定的操作命令(例如包括操作三元组)。

进一步地，所述智能眼镜设备1还包括：所述分体控制装置(未示出)，用于获取若干所述输入信息，并进行综合逻辑分析，以生成所述操作命令，其中，所述分体控制装置与所述智能眼镜设备1本体物理分离，并通过有线或无线方式与所述智能眼镜设备1通信连接。

在此，所述分体控制装置对所述输入信息进行综合逻辑分析的内容可以与图3中第二装置12的内容相同或基本相同，为简明期间，不再赘述，并以引用的方式包含于此。

所述智能眼镜设备1通过设置物理分离的分体控制装置，并以有线或无线的方式通信连接，将所述智能眼镜设备1的处理核心业务逻辑交由分体控制装置，能够降低智能眼镜设备1本身体积和重量，并避免智能眼镜设备1过度散热导致用户使用不适。

所述智能眼镜设备1还包括：第四装置(未示出)，其中，所述第四装置用于获取用户对所述操作命令的判断信息，基于所述操作命令及对应所述判断信息更新综合逻辑分析的训练相应模型。所述智能眼镜设备1提供定义交互操作的功能，即根据用户指定的操作命令对应的操作元素，对所获取的输入信息提取特征和/或分析语义，最后输出成结构化数据(所述结构化数据的结构可以相同或不同)，建立所述数据化格式，建立分析获得的结构化数据与用户所指定的操作命令之间的关联关系，更新已有规则集或机器学习模型。

图5示出根据本申请一优选实施例提供的所述智能眼镜设备基于用户操作定义交互操作的过程示意图。

具体地，所述智能眼镜设备1根据用户的选定，进入定义交互操作状态；

根据用户的选定，确定与待定义的操作命令相关的相应输入模块的输入信息，具体地：启动多个输入模块，获取用户对每一个操作元素的定义操作的输入信息，例如提示用户对操作目标的待选阶段，用户对着麦克风说“电视”语音、或手势指向当前视野范围内现实场景中的“电视”实体、或利用触控设备选定视野范围内现实场景中的“电视”实体等；再例如在用户对操作动作的待选阶段，根据语音输入“开”、开启含义的手势输入、及开启含义的触控输入等；

接着，分别使用各个通道技术(例如图像识别、手势识别、触控识别和语音识别等)提取用户对每一操作元素的定义操作的输入信息，进行特征提取和语义分析，并转化为结构化数据；

最后，将各个操作类型中操作元素所对应的结构化数据建立相应关联，并生成相应操作命令，并将相应操作命令对应的业务逻辑更新至已有规则或模型中。

通过获取用户待设定操作命令的相关信息，基于所述待设定操作命令的相关信息更新更新所述操作命令，使用户可以自行定义交互操作，提高用户使用的灵活性。

图6示出根据本申请一方面提供的一种在智能眼镜设备端用于多模态输入进行交互的流程示意图，其中，所述方法包括：步骤S11、步骤S12和步骤S13。

其中，所述步骤S11从多个输入模块的至少一个中获取若干输入信息，多个所述输入模块包括：图像输入模块、声音输入模块、触控输入模块和传感输入模块，若干所述输入信息包括至少以下任一种：现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息；所述步骤S12对若干所述输入信息进行综合逻辑分析，以生成操作命令，其中，所述操作命令具有操作元素，所述操作元素至少包括操作对象、操作动作和操作参数；所述步骤S13基于所述操作命令对所述操作对象执行相应操作。

图7示出根据本申请优选实施例提供的一种智能眼镜设备端用于多模态输入进行交互的方法流程示意图，首先，所述步骤S11从多个输入模块的至少一个中获取若干输入信息。在此，所述智能眼镜设备1通过利用不同通道(即各种输入模块)接收用户的各种自然语言交互方式的输入信息，以分析用户行为信息确定操作目标、操作动作和操作参数，操作目标可以是实体，也可以是智能眼镜设备1的显示屏上显示的虚拟物体。

其中，多模态各个通道的信息主要由以下硬件采集，例如RGB摄像头获取场景图像信息，深度摄像头获取手势信息，麦克风获取语音信息，触控板获取触控信息等，当然，所述智能眼镜设备1获取的输入信息及使用的硬件设备并不被限定，今后可能出现的获取方式或获取设备都可以以引用的方式包含于此。

所述步骤S12对若干所述输入信息进行综合逻辑分析，以生成操作命令。

进一步地，步骤S12中所述智能眼镜设备1对各个通道锁获取的输入信息可以采用对各个输入模块所采集到的输入信息，分别由对应的模块进行单独处理，生成格式化数据，然后，再统一交由多通道交互信息分析和融合模块处理；也可以创建深度学习模型，采用将各个输入模块所采集到的输入信息的原始数据直接利用深度学习模型进行融合处理和逻辑分析。

在一优选的实施例中，所述步骤S12包括：步骤S111：利用对应处理模块对所述输入模块的若干所述输入信息分别进行识别预处理，以生成若干所述结构化数据，其中，所述处理模块包括场景图像识别模块、手势识别模块、声音识别模块、触控识别模块和传感识别模块；步骤S112：对若干所述结构化数据进行融合处理和仲裁分析，以生成操作命令。

进一步地，在所述步骤S111中，所述智能眼镜设备1可以利用对应识别模块处理每个通道的输入信息，包括提取特征和/或分析语义，输出成结构化数据，每一通道的输入信息对应的结构化数据的结构可以相同或不同，以进行融合处理和仲裁分析即可。

其中，所述智能眼镜设备1所利用的不同处理模块处理输入信息，其中，所述步骤S111a利用所述场景图像识别模块识别所述虚拟场景信息和/或所述图像输入模块输入的现实场景信息，以获取关于可操作的目标集合的结构化数据；所述步骤S111b利用所述手势识别模块识别所述图像输入模块输入的手势信息，以获取关于可操作的目标集合的结构化数据和/或可操作的动作集合的结构化数据；所述步骤S111c利用所述触控识别模块识别所述触控输入模块输入的触控信息，以获取至少以下任一种结构化数据：关于光标在屏幕上位置的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据；所述步骤S111d利用所述语音识别模块识别所述语音输入模块输入的语音信息，以获取至少以下任一种结构化数据：关于可操作的目标集合的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据。

根据不同的输入信息采用不同的处理模块进行识别预处理，生成预处理后的结构化数据，并行处理能够加快数据处理速度，步骤S112的处理过程不依赖输入信息的原始数据，使步骤S111所包括的处理模块更为灵活。

所述步骤S112所进行的融合模型和仲裁规则或模型可以是已预先定义或预先训练的(包括由开发者定义初始规则集或训练初始模型，或由用户基于规则或模型进行更新的模型)，规则可以是自然交互方式间的关系(比如手势与语音配合或竞争关系等)，也可以是机器学习模型(如决策树、随机森林等)。

具体地，所述步骤S112可以采用类似填槽法进行融合，即槽为操作命令对应的操作多元组，例如，操作三元组<操作目标，操作动作，操作参数(可选)>，所述操作三元组中每一元槽为操作元素的操作类型；将结构化数据按照时序或者优先级竞争填槽，当槽填满并符合业务执行逻辑时，即生成相应操作命令，并进行执行。其中，时序与优先级的竞争逻辑可以由开发者定义，也可以由用户更新。

所述步骤S112中，智能眼镜设备1利用填槽法进行融合处理时，首先在初始等待状态，当智能眼镜设备1生成结构化数据时，则对相应所述结构化数据逻辑匹配，包括关键信息提取和关键信息之间的匹配，以确定所述结构化数据对应的元素类型和相应元素信息，当检测到至少一个元素信息时，则切入就绪状态，并根据元素类型将不同的元素信息填入各操作元素的槽中，并继续获取其他元素类型和相应元素信息，在就绪状态中，时刻检测各操作元素的槽是否填满，如果填满则判断是否符合业务逻辑，当符合则生成相应操作命令，并清空槽，在交互过程中不断循环以上过程。

具体地，所述步骤S112包括：确定所述结构化数据所对应的元素类型；对具有相同所述元素类型的所述结构化数据进行逻辑匹配和/或仲裁选择，以确定相应所述元素类型所对应的所述操作元素的元素信息；当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后符合执行业务逻辑，则基于相应所述操作元素的元素信息生成操作命令。

进一步地，对具有相同所述元素类型的所述结构化数据进行逻辑匹配和/或仲裁选择，以确定相应所述元素类型所对应的所述操作元素的元素信息包括：对具有相同所述元素类型的所述结构化数据进行逻辑匹配，以确定至少一个待选元素信息；对所述待选元素信息进行仲裁选择，以选取其中一个作为选取元素信息；根据所述选取元素信息确定相应所述元素类型所对应的所述操作元素的元素信息。

在对所述待选元素信息进行仲裁选择，以选取其中一个作为选取元素信息中：智能眼镜设备1根据所述待选元素信息的时序和/或优先级排序进行竞争选择；当所述待选元素信息的时序及优先级排序均相同时进行随机选择，以选取其中一个作为所述选取元素信息。

智能眼镜设备1对所述待选元素信息进行仲裁选择，可以按照时间顺序竞争，例如，若先采集到手势信息，则手势识别模块分析得到的结构化数据优先填入操作目标的槽中；若同时输入或输入时间差小于设定阈值，则按照已定义的优先级进行竞争，例如语音输入信息优先级高于手势输入信息，则语音识别模块提取的语音信息所生成的结构化数据优先填入相应槽中；此外，若如若输入时间相同，优先级相同，则随机选择某个填入相应槽中，未被选中的结构化数据进入缓冲队列中等待再次调取或直接丢弃。

智能眼镜设备1将所述选取元素信息确定为相应所述元素信息过程需判断对应操作元素中是否已有元素信息，若已有需判断当前已有所述元素信息和所述选取元素信息的优先级，如果所述选取元素信息的优先级较高，则需替换掉已有所述元素信息，具体地，所述第二六子单元判断当前是否已有相应所述元素类型所对应的所述操作元素的元素信息；若已有，则判断所述选取元素信息的优先级是否高于所述已有的元素信息；若高于，则所述选取元素信息替代所述已有的元素信息，确定为相应所述元素类型所对应的所述操作元素的元素信息。例如，若语音信息的优先级较高，当根据图像识别已确定的操作目标为电视后(且还未确定输出操作命令前)，根据语音信息识别到操作目标为手机，则根据语音信息的优先级较高的原则，将操作目标的元素信息由“电视”更改为“手机”。

智能眼镜设备1还可以当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后不符合执行业务逻辑，则重新对其余所述待选元素信息进行仲裁选择，以重新选取其中一个作为选取元素信息；当重新选取时间超出超时时间或所有所述待选元素信息所确定的元素信息的组合都不符合执行业务逻辑，则清空所有操作类型对应的操作元素的元素信息，以在元素信息组合后不符合执行业务逻辑时，重新选取元素信息进行判断。

结合图4，智能眼镜设备1由RGB摄像机采集场景图像，深度摄像机采集手势图像，麦克风采集语音信息、触控板采集触控信息，接着，从场景图像中识别出当前视角的场景图像中所有可操作的物体，例如客厅中的电视、窗帘、灯等，以物体名称组成物体库，作为可操作的目标集合；将用户所说的语音转换成文字，进行简单地语义分析，提取出动词、名词、代词等，动词可能为操作动作，名词和代词可能指向操作目标；实时跟踪手的位置，判断手的指向，分析手势对应的操作，触控识别出感应触摸操作，可以获取触控指向的光标的位置和相应的操作，例如分析用户滑动操作时，计算光标移动的位置，分析用户触摸到压力来判断单击或双击操作等。接着，当智能眼镜设备处于等待状态时，智能眼镜设备将同时等待用户语音、手势和触摸等多个通道的信息输入；当只有一个通道输入时，例如语音信息输入时，智能眼镜设备直接根据语音内容做出决策；当这些通道同时有信息输入时，智能眼镜设备并行分析各个通道的信息，然后根据时序或者优先级做出决策。例如语音信息先输入且优先级最高，则首先分析语音的内容，如果语音内容对操作的理解不构成歧义，则直接根据语音内容进行操作。如果语音内容还需要其它通道信息作为补充才能构成完整的操作三元组，则需结合其它通道信息，根据信息互补模式下的工作方式进行综合判断。如：当用户说“请将这边的内容告诉我”时，智能眼镜设备会根据手势所指方向，来做出判断，并给出信息反馈；当没有语音信息输入，但是智能眼镜设备检测到触摸移动或手势变化时，根据这几个通道的信息判断用户的操作。如：用户举出“OK”手势时，表示同意；而“摆手”则表示不同意；用户触摸滑动，表示移动光标；而用户单击或双击触摸，表示选中或打开。在这种情况下，智能眼镜设备1根据当前通道输入的信息进行操作分析。对应设备分别采集对应通道的数据，然后利用以训练好的模型将各个通道的信息转化成结构化数据；最后汇总每个通道的结构化数据，使用已训练好的操作模型进行判断，输出操作三元组，并按三元组执行相应操作。

此外，所述步骤S112还可以采用机器学习法对所有所述结构化数据进行逻辑匹配和仲裁选择，以确定每一所述元素类型所对应的所述操作元素的元素信息，其中，所述机器学习法包括至少以下任一项：决策树法、随机森林法、卷积神经网络法。

在另一优选的实施例中，所述步骤S12包括：创建深度学习神经网络构架模型；将所述输入信息的原始数据输入所述深度学习神经网络构架模型中进行融合处理和模型运算，以生成操作命令。

在此，所述卷积神经网络(Convolutional Neural Networks，CNN)是人工神经网络的一种，用于语音分析和图像识别。它更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。在网络的输入是多维数据时表现的更为优越，使原始数据可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建的过程。

进一步地，所述智能眼镜设备1具有所述分体控制装置(未示出)，所述分体控制装置用于帮助获取若干所述输入信息，并进行综合逻辑分析，以生成所述操作命令，其中，所述分体控制装置与所述智能眼镜设备1本体物理分离，并通过有线或无线方式与所述智能眼镜设备1通信连接。所述分体控制装置能够处理智能眼镜设备1的核心业务逻辑，并存储数据，能够大幅减轻所述智能眼镜设备1本身的设备重量，并降低所述智能眼镜设备1的散热等其他问题。

在此，所述分体控制装置对所述输入信息进行综合逻辑分析的内容可以与图3中步骤S12处理过程的内容相同或基本相同，为简明期间，不再赘述，并以引用的方式包含于此。

所述智能眼镜设备1还包括：获取用户对所述操作命令的判断信息，基于所述操作命令及对应所述判断信息更新综合逻辑分析的训练相应模型。所述智能眼镜设备1提供定义交互操作的功能，即根据用户指定的操作命令对应的操作元素，对所获取的输入信息提取特征和/或分析语义，最后输出成结构化数据(所述结构化数据的结构可以相同或不同)，建立所述数据化格式，建立分析获得的结构化数据与用户所指定的操作命令之间的关联关系，更新已有规则集或机器学习模型。

结合图5，具体地，所述智能眼镜设备1还具有定义用户交互操作的功能。

具体地，根据用户的选定，进入定义交互操作状态；

通过获取用户待设定操作命令的相关信息，基于所述待设定操作命令的相关信息更新所述操作命令，使用户可以自行定义交互操作，提高用户使用的灵活性。

所述智能眼镜设备1通过获取用户待设定操作命令的相关信息，基于所述待设定操作命令的相关信息更新所述操作命令，使用户可以自行定义交互操作，提高用户使用的灵活性。

相比于现有技术，本申请所述用于智能眼镜设备1基于多模态输入进行交互的方法和智能眼镜设备1通过多个输入模块获取多通道的输入信息，并对所述输入信息进行综合逻辑分析后确定操作对象、操作动作和操作动作的操作元素，以生成操作命令，再基于操作命令执行相应操作，从而实时地将现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息融合处理，使用户更接近自然语言的交互方式，从而提高提供用户的交互体验。

进一步地，所述智能眼镜设备1通过设置物理分离的分体控制装置，并以有线或无线的方式通信连接，将所述智能眼镜设备1的处理核心业务逻辑交由分体控制装置，能够降低智能眼镜设备1本身体积和重量，并避免智能眼镜设备1过度散热导致用户使用不适。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于智能眼镜设备基于多模态输入进行交互的方法，其中，所述方法包括：

B利用对应处理模块对所述输入模块的若干所述输入信息分别进行识别预处理，以生成若干结构化数据，其中，所述处理模块包括场景图像识别模块、手势识别模块、声音识别模块、触控识别模块或传感识别模块；

B2确定所述结构化数据所对应的元素类型，对具有相同所述元素类型的所述结构化数据进行逻辑匹配，以确定至少一个待选元素信息，对所述待选元素信息进行仲裁选择，以选取其中一个作为选取元素信息，根据所述选取元素信息确定相应所述元素类型所对应的操作元素的元素信息，当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后符合执行业务逻辑，则基于相应所述操作元素的元素信息生成操作命令，其中，所述操作命令具有操作元素，所述操作元素至少包括操作对象、操作动作和操作参数；

C基于所述操作命令对所述操作对象执行相应操作。

2.根据权利要求1所述的方法，其中，所述步骤B包括至少以下任一项：

利用所述场景图像识别模块识别所述虚拟场景信息和/或所述图像输入模块输入的现实场景信息，以获取关于可操作的目标集合的结构化数据；

利用所述手势识别模块识别所述图像输入模块输入的手势信息，以获取关于可操作的目标集合的结构化数据和/或可操作的动作集合的结构化数据；

利用所述触控识别模块识别所述触控输入模块输入的触控信息，以获取至少以下任一种结构化数据：关于光标在屏幕上位置的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据；

利用所述声音识别模块识别所述声音输入模块输入的语音信息，以获取至少以下任一种结构化数据：关于可操作的目标集合的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据。

3.根据权利要求1所述的方法，其中，所述步骤B2还包括：

B24当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后不符合执行业务逻辑，则重新对其余所述待选元素信息进行仲裁选择，以重新选取其中一个作为选取元素信息；

B25当重新选取时间超出超时时间或所有所述待选元素信息所确定的元素信息的组合都不符合执行业务逻辑，则清空所有操作类型对应的操作元素的元素信息。

4.根据权利要求1或3所述的方法，其中，所述步骤B2包括：

根据所述待选元素信息的时序和/或优先级排序进行竞争选择，当所述待选元素信息的时序及优先级排序均相同时进行随机选择，以选取其中一个作为所述选取元素信息。

5.根据权利要求4所述的方法，其中，所述步骤B2包括：

判断当前是否已有相应所述元素类型所对应的所述操作元素的元素信息；

若已有，则判断所述选取元素信息的优先级是否高于所述已有的元素信息；

若高于，则所述选取元素信息替代所述已有的元素信息，确定为相应所述元素类型所对应的所述操作元素的元素信息。

6.根据权利要求1所述的方法，其中，所述步骤B2还包括：

采用机器学习法对所有所述结构化数据进行逻辑匹配和仲裁选择，以确定每一所述元素类型所对应的所述操作元素的元素信息，其中，所述机器学习法包括至少以下任一项：决策树法、随机森林法、卷积神经网络法。

7.根据权利要求1所述的方法，其中，所述方法还包括：

创建卷积神经网络构架模型；

获取各个输入模块定期采集的输入信号的原始数据，将所述原始数据转换为矩阵数据；

将所述矩阵数据输入所述卷积神经网络构架模型中，以生成相应的操作命令。

8.根据权利要求1所述的方法，其中，所述方法还包括：

9.一种多模态输入进行交互的智能眼镜设备，其中，所述智能眼镜设备包括：

第二装置，利用对应处理模块对所述输入模块的若干所述输入信息分别进行识别预处理，以生成若干结构化数据，其中，所述处理模块包括场景图像识别模块、手势识别模块、声音识别模块、触控识别模块或传感识别模块；

第二单元，用于确定所述结构化数据所对应的元素类型，对具有相同所述元素类型的所述结构化数据进行逻辑匹配，以确定至少一个待选元素信息，对所述待选元素信息进行仲裁选择，以选取其中一个作为选取元素信息，根据所述选取元素信息确定相应所述元素类型所对应的操作元素的元素信息，当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后符合执行业务逻辑，则基于相应所述操作元素的元素信息生成操作命令，其中，所述操作命令具有操作元素，所述操作元素至少包括操作对象、操作动作和操作参数；

10.根据权利要求9所述的智能眼镜设备，其中，所述第二装置包括至少以下任一项：

第一一子单元，用于利用所述场景图像识别模块识别所述虚拟场景信息和/或所述图像输入模块输入的现实场景信息，以获取关于可操作的目标集合的结构化数据；

第一二子单元，用于利用所述手势识别模块识别所述图像输入模块输入的手势信息，以获取关于可操作的目标集合的结构化数据和/或可操作的动作集合的结构化数据；

第一三子单元，用于利用所述触控识别模块识别所述触控输入模块输入的触控信息，以获取至少以下任一种结构化数据：关于光标在屏幕上位置的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据；

第一四子单元，用于利用所述声音识别模块识别所述声音输入模块输入的语音信息，以获取至少以下任一种结构化数据：关于可操作的目标集合的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据。

11.根据权利要求9所述的智能眼镜设备，其中，所述第二单元还包括：

第二七子单元，用于当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后不符合执行业务逻辑，则重新对其余所述待选元素信息进行仲裁选择，以重新选取其中一个作为选取元素信息；

第二八子单元，用于当重新选取时间超出超时时间或所有所述待选元素信息所确定的元素信息的组合都不符合执行业务逻辑，则清空所有操作类型对应的操作元素的元素信息。

12.根据权利要求9或11所述的智能眼镜设备，其中，所述第二单元用于：

根据所述待选元素信息的时序和/或优先级排序进行竞争选择；

当所述待选元素信息的时序及优先级排序均相同时进行随机选择，以选取其中一个作为所述选取元素信息。

13.根据权利要求12所述的智能眼镜设备，其中，所述第二单元用于：

14.根据权利要求9所述的智能眼镜设备，其中，所述第二单元还用于：

15.根据权利要求9所述的智能眼镜设备，其中，所述智能眼镜设备还包括：

第三单元，用于创建卷积神经网络构架模型；

第四单元，用于获取各个输入模块定期采集的输入信号的原始数据，将所述原始数据转换为矩阵数据，将所述矩阵数据输入所述卷积神经网络构架模型中，以生成相应的操作命令。

16.根据权利要求9所述的智能眼镜设备，其中，所述智能眼镜设备还包括：

第四装置，用于获取用户待设定操作命令的相关信息，基于所述待设定操作命令的相关信息更新所述操作命令。