CN102405463B

CN102405463B - 利用多模态信息的用户意图推理装置及方法

Info

Publication number: CN102405463B
Application number: CN201080017476.6A
Authority: CN
Inventors: 曹贞美; 金正寿; 方远喆; 金南勋
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2009-04-30
Filing date: 2010-04-29
Publication date: 2015-07-29
Anticipated expiration: 2030-04-29
Also published as: EP2426598A4; WO2010126321A2; WO2010126321A3; US8606735B2; EP2426598A2; EP2426598B1; JP5911796B2; CN102405463A; US20100280983A1; JP2012525625A

Abstract

本发明公开一种利用多模态信息来推理出用户意图的装置和方法。根据一方面的用户意图推理装置，包含：初步预测部，利用至少一个动作信息来预测用户意图的一部分；第二阶段预测部，利用所预测的用户意图的一部分和从至少一个多模态传感器输入的多模态信息来预测用户意图。

Description

利用多模态信息的用户意图推理装置及方法

技术领域

本发明的一个以上的方面涉及利用多模态信息的系统，更为详细地讲，涉及利用多模态信息处理用户输入的装置及方法。

背景技术

多模态接口表示为了人机通信而利用声音、键盘、笔等进行接口连接的方法。在接收到由这种多模态接口输入的多模态信息的情况下，分析用户意图的方式有，在信号级别融合多模态输入而进行分析的方式，以及对每个模态输入信息分别进行分析，然后在含义级别融合所分析的结果而进行分析的方法。

在信号级别进行融合的方式是指，将多模态输入信号进行融合后同时进行分析和分类的方式，适合应用于语音信号和嘴唇动作等同时发生的信号处理。但是，由于对两个以上信号进行合并处理，因此特征空间非常大、用来计算信号之间的关联性的模型非常复杂、学习量增多。并且，难以进行扩展，比如与其他模态进行结合或运用于其他终端等。

在含义级别融合各模态的方式是指，在分析每一个模态输入信号的含义之后融合分析结果的方式，由于可以维持各模态之间的独立性，因此容易掌握和扩展。但是，用户输入多模态的理由在于各模态之间具有关联性，如果个别地分析含义，则难以找到该关联性。

发明内容

技术问题

提供了一种根据动作信息预测用户意图，并利用多模态输入信息对预测的用户意图进行推理，从而可以有效并正确地推理出用户意图的装置和方法。

技术方案

根据本发明的一方面的用户意图推理装置，包含初步预测部和第二阶段预测部，初步预测部利用至少一个动作信息来预测用户意图的一部分，第二阶段预测部利用所预测的用户意图的一部分和从至少一个多模态传感器输入的多模态信息来预测用户意图。

根据本发明的另一方面的用户意图推理方法，包含如下步骤：接收至少一个动作信息；利用所接收的动作信息来预测用户意图的一部分；接收从至少一个多模态传感器输入的多模态信息；利用所预测的用户意图的一部分和多模态信息来预测用户意图。

技术效果

根据一个实施例，通过识别用户动作来预测用户意图的一部分，并根据所预测的用户意图的一部分分析多模态信息而分两个阶段预测用户意图，从而既能维持模态之间的独立性，又能容易地掌握模态之间的关联性，因此可以正确地推理出用户意图。

并且，可以利用动作信息或者将声音或图像信息等多模态信息与动作信息结合来预测用户的语音输入开始和结束意图，因此用户无需学习特别的语音输入方式，也能在用户意图推理装置中输入语音。

本发明的最佳实施方式

本发明的一个方面的用户意图推理装置，包含初步预测部和第二阶段预测部，初步预测部利用至少一个动作信息来预测用户意图的一部分，第二阶段预测部利用所预测的用户意图的一部分和从至少一个多模态传感器输入的多模态信息来预测用户意图。

初步预测部可以产生控制信号，该控制信号用于运行在利用所预测的用户意图的一部分来预测用户意图的过程中需要执行的操作。

用于运行预测用户意图的过程中需要执行的操作的控制信号可以是由用户意图推理装置控制的、用于控制多模态传感器的操作的控制信号。

为了预测用户意图，第二阶段预测部可以对从多模态传感器输入的多模态信息进行与所预测的用户意图的一部分相关的解释。

当所预测的用户意图的一部分为选择显示器画面上显示的对象，并且从多模态传感器输入语音信号时，第二阶段预测部可对所输入的语音信号进行与对象的选择相关的解释，从而预测用户意图。

第二阶段预测部可以在所预测的用户意图的一部分所限定的范围内，利用从至少一个多模态传感器输入的多模态信息来预测用户意图。

当所预测的用户意图的一部分为将麦克风移动到嘴边的动作时，第二阶段预测部可以检测声音信号，对所检测到的声音信号进行特征提取和分析，从而预测用户意图。

第二阶段预测部从声音信号中确定是否能检测到语音段，当检测到语音段时，可将用户意图预测为语音命令意图。

当从声音信号中检测到呼吸声时，第二阶段预测部可以将用户意图预测为吹气。

当所预测的用户意图的一部分为选择显示器画面上显示的对象时，第二阶段预测部可利用多模态信息，将用户意图预测为对所选择的对象进行删除、分类、整理中的至少一种。

还可以包含：用户意图运用部，利用用户意图预测结果来控制在用户意图推理装置中进行控制的软件或硬件。

根据另一方面的用户意图推理方法，包含如下步骤：接收至少一个动作信息；利用所接收的动作信息，预测用户意图的一部分；接收从至少一个多模态传感器输入的多模态信息；利用所预测的用户意图的一部分和多模态信息，预测用户意图。

附图说明

图1为示出根据一个实施例的用户意图推理装置的构成的图。

图2为示出图1的用户意图预测部的构成的一个例子的图。

图3为示出图2的用户意图预测部示例性操作的图。

图4为示出在预测到用户意图的一部分之后，通过接收附加的多模态输入来预测用户意图的操作的一个例子的图。

图5为示出在预测到用户意图的一部分之后，通过接收附加的多模态输入来预测用户意图的步骤的另一个例子的图。

图6为示出结合声音信号和图像信号进行信号分类的构成的一个例子的图。

图7为示出根据一个实施例的利用多模态信息的用户意图推理方法的图。

具体实施方式

以下，参照附图来详细说明本发明的实施例。在说明本发明的多个实施例的过程中，如果认为对相关的公知功能或结构的具体说明会对本发明要点的说明招致不必要的混乱，则省略其详细说明。

图1为示出一个实施例所提供的用户意图推理装置的构成的图。

用户意图推理装置100包含动作传感器110、控制部120和多模态检测部130。用户意图推理装置100可以为蜂窝电话、个人数字助理(PDA)、数码相机、便携式游戏控制台、MP3播放器、便携式/个人用多媒体播放器(PMP)、手提电子书(hand held e-book)、笔记本电脑、全球定位系统(GPS)导航仪、台式电脑、高清电视(HDTV)、光盘播放器、机顶盒等任何形态的装置或系统。并且，用户意图推理装置100根据所示出的实施例，还可以包含多种构成要素，比如用户接口部、显示部、声音输出部等用于多模态接口的构成要素。

动作传感器110为了检测到动作信息，可以包含惯性传感器、用于检测方向的地磁传感器、用于检测移动的加速度传感器或陀螺仪传感器等。除了上面列举的传感器以外，动作传感器110还可以包含图像传感器、声音传感器等。根据一个实施例，多个动作传感器可以贴附在用户身体的一些部位和用户意图推理装置100上，从而检测动作信息。

多模态检测部130可以包含至少一个多模态传感器132、134、136、138。声音传感器132是用于检测声音信号的传感器，图像传感器134是用于检测图像信息的传感器，生物体信息传感器136用于检测体温等生物体信息，触摸传感器138可以检测触摸板上的触摸手势，另外还可以包含其他多种种类或多种形态的多模态传感器。

图1中示出了多模态检测部130中包含四个传感器的情况，但对传感器数量并不进行限定。被包含在多模态检测部130的传感器的种类和范围可能大于以检测动作为目的的动作传感器110中包含的传感器的种类和范围。并且，图1中示出了动作传感器110和多模态检测部130被分开设置的情况，但是可以构成为一体。并且，动作传感器110和多模态检测部130中可以重复包含相同种类的传感器，例如图像传感器和声音传感器。

多模态检测部130可以包含对于由每个多模态传感器132、134、136、138检测出的多模态信息，按照其种类提取特征值并分析含义的模块。用于分析多模态信息的构成要素可以被包含在控制部120中。

控制部120可以包含用于控制用户意图推理装置100的各构成要素的运行的应用程序、数据和操作系统。在一个实施例中，控制部120包含用户意图预测部122和用户意图运用部124。

用户意图预测部122接收由动作传感器110检测的至少一个动作信息，利用所接收的动作信息来初步预测用户意图的一部分。并且，用户意图预测部122可以利用所预测的用户意图的一部分和从至少一个多模态传感器接收的多模态信息来对用户意图进行第二阶段预测。即，用户意图预测部122在对用户意图进行第二阶段预测时，可以利用由动作传感器110检测的动作信息和从多模态检测部130接收的多模态信息来最终预测用户意图。用户意图预测部122可以利用用于推理用户意图的公知的各种推理模型。

并且，用户意图预测部122可以产生用于运行在利用初步预测的用户意图的一部分来对用户意图进行第二阶段预测的过程中执行的操作的控制信号。用于运行在用户意图推理过程中执行的操作的控制信号可以是由用户意图推理装置100控制的、用于控制多模态检测部130的操作的控制信号。

例如，可基于利用动作信息而初步预测的用户意图的一部分，激活在多模态检测部130的传感器中的与初步预测的用户意图的一部分相关的一部分传感器的运行，此时与激活多模态检测部130的所有传感器的情况相比，可以减少传感器运行所消耗的电功率。并且，由于只对从一部分传感器输入的检测信息进行分析，因此不仅使多模态输入信息的解释变得简单、降低用户意图预测过程的复杂度，还可以推理出正确的用户意图。

为了分两个阶段预测用户意图，用户意图预测部122可以包含按照多模态信息的种类提取特征并进行分析的模块(未图示)。并且，用户意图预测部122可以对从多模态检测部130输入的多模态信息进行与初步预测的用户意图的一部分相关的解释。

例如，当由用户意图预测部122初步预测的用户意图的一部分被确定为选择显示器画面上显示的对象时，如果从多模态检测部130接收到语音信号，则对所输入的声音进行与对象的选择相关的解释，从而可以通过两个阶段预测用户意图。具体而言，如果初步预测的用户意图的一部分被确定为选择显示器画面上显示的对象，从多模态检测部130输入的语音信号被分析为“按日期整理”，则用户意图预测部122可以将用户意图解释为“将从显示器画面上选择的对象按日期顺序进行整理”的含义。

并且，当初步预测的用户意图的一部分为选择显示器画面上显示的对象时，用户意图预测部122利用多模态信息，将第二阶段的用户意图预测为删除、分类和整理中的至少一种。

用户意图运用部124可以利用用户意图预测结果，控制在用户意图推理装置中被控制的软件或硬件。用户意图运用部124可以提供用于与所预测的用户意图交互的多模态接口。例如，当用户意图被预测为语音命令时，可以执行如下应用程序或检索应用程序，即，为了掌握语音命令中的含义而执行语音识别，根据识别结果而对特定的人自动接通电话；当用户意图为传送所选择的对象时，可以执行邮件应用程序。作为另一个例子，当用户意图被预测为哼唱(humming)时，可以驱动检索与哼唱音源类似的音乐的应用程序。作为又一个例子，当用户意图被预测为吹气(blow)时，用户意图可被用作在游戏应用程序中使虚拟影像做特定动作的指令。

根据一个实施例，通过识别用户动作而预测用户意图的一部分，根据所预测的用户意图的一部分分析多模态信息，对用户意图进行第二阶段预测，从而在解释多模态信息的过程中，既能维持独立性，又能与初步预测的用户意图的一部分相关地解释多模态信息，因此容易掌握模态之间的关联性，可以正确地推理出用户意图。

图2为示出图1的用户意图预测部的构成的一个例子的图。

用户意图预测部122可以包含动作信息分析部210、初步预测部220和第二阶段预测部230。

动作信息分析部210分析从动作传感器110接收的一个以上的动作信息。动作信息分析部210可以测定贴附有动作传感器110的用户身体各部位的位置信息和角度信息，并且还可利用所测定的位置信息和角度信息来计算没有贴附动作传感器110的用户身体各部位的位置信息和角度信息。

例如，当动作传感器110被贴附在两个手腕和头部时，传感器和传感器之间的距离被测定，各传感器可以获得相对于基准坐标系的三维旋转角信息。因此，根据动作信息计算手腕部和头部之间的距离和手腕的旋转角信息，由此可计算手腕与脸部的嘴部之间的距离和手腕的旋转角信息。假设用户手上握着相当于用户意图推理装置100的声音传感器132的麦克风，则可以计算麦克风与嘴部之间的距离和麦克风的方向。

作为另一个例子，当动作传感器110被安装在用户的头部和相当于声音传感器的麦克风上时，根据动作信息测定麦克风与头部之间的距离，通过贴附在麦克风上的惯性传感器获得贴附传感器的轴的三维角度信息，从而动作信息分析部210可以计算手腕与脸部的嘴部之间的距离和麦克风的旋转角信息。

作为又一个例子，可以在动作传感器110中包含图像传感器，从而向动作信息分析部210输入多个图像信息。此时，动作信息分析部210在识别图像中的脸部或手部等对象之后，可以计算出对象之间的位置关系。例如，动作信息分析部210可以计算脸部与两只手之间的距离和角度，两只手之间的距离和角度等。

初步预测部220预测通过动作信息分析而引发的用户意图的一部分。例如，初步预测部220通过分析包含图像的动作信息来初步预测是否为选择屏幕上的对象的动作。

第二阶段预测部230利用在初步预测部220预测的用户意图的一部分和从多模态检测部130输入的多模态信息来预测用户意图。

为了预测用户意图，第二阶段预测部230可将从多模态传感器输入的多模态信息进行与初步预测的用户意图的一部分相关的解释。作为一个例子，当初步预测的用户意图的一部分为选择显示器画面上显示的对象，从多模态检测部130接收到语音时，第二阶段预测部230对所接收到的语音进行与对象的选择相关的解释，从而可以通过两个阶段预测用户意图。

作为又一个例子，当初步预测部220将初步预测的用户意图的一部分预测为将麦克风移动到嘴边，在多模态检测部130通过摄像机等图像传感器134检测到嘴部的运动，通过麦克风等声音传感器132接收到语音信号时，第二阶段预测部230可将用户意图预测为输入语音命令。为了预测输入语音命令的意图，第二阶段预测部230根据声音信号进行语音段检测，通过对所检测的语音段的特征进行提取和分析来执行含义分析，从而将其制作为在用户意图运用部124中可以运用的形态。

作为又一个例子，当初步预测部220作为用户意图的一部分而初步预测到将麦克风移动到嘴边，在多模态检测部130通过摄像机等图像传感器134检测到嘴唇向前突出的连贯的图像信息，通过麦克风接收到呼吸声(breathsound)时，第二阶段预测部230可以将用户意图预测为吹气(blow)。

在上述的两个例子中，用户意图为“将麦克风移动到嘴边输入语音命令”和“将麦克风移动到嘴边吹气”各不相同。但是，两个用户意图的一部分均为“将麦克风送到嘴边”，初步预测部220可以通过首先预测这种用户意图的一部分，来缩小用户意图的范围。在通过初步预测部220而缩小的用户意图的范围内，第二阶段预测部230可以考虑多模态信息来预测用户意图。如果只考虑上述两个例子，如果检测到“将麦克风移动到嘴边”的动作，则用户意图的范围通过初步预测部220限制在“输入语音命令”和“吹气”，第二阶段预测部230可以考虑所检测到的多模态信息来判断出用户意图是“输入语音命令”还是“吹气”。

图3为示出这种图2的用户意图预测部的示例性操作的图。

初步预测部220可以利用由动作信息分析部210分析的动作信息来预测用户意图的一部分。第二阶段预测部230接收多模态检测部130的图像传感器134检测的图像或声音传感器132检测的声音信号等多模态信号，生成关于是否检测到语音的信息，从而可以预测用户意图。

作为一个例子，动作信息分析部210利用安装在用户头部和手腕上的动作传感器所检测到的动作信息，计算用户的嘴部和握住麦克风的手之间的距离(310)。动作信息分析部210根据手腕的旋转角度计算麦克风的方向(320)。

初步预测部220利用由动作信息分析部210计算的距离和方向信息，预测是否是用户将麦克风送到嘴边的动作来预测用户意图的一部分(330)。例如，当握住麦克风的手的位置处于嘴周围半径的20cm以内，且麦克风的方向朝向嘴部时，初步预测部220可以预测用户会将麦克风移动到嘴边。

此时，第二阶段预测部230通过分析由麦克风等声音传感器132和摄像机等图像传感器134接收的多模态输入信号，将用户意图预测为输入语音命令、哼唱或吹气等。

当对用户意图的一部分的预测(即，初步预测)为将麦克风移动到嘴边，通过摄像机检测到嘴唇运动，从麦克风所检测到的声音信号检测到语音时，第二阶段预测部230可以将用户意图确定为语音命令输入意图(340)。然而，当初步预测为将麦克风移动到嘴边，通过摄像机检测到嘴唇向前突出的图像，从麦克风所输入的声音信号检测到呼吸声时，第二阶段预测部230可以将用户意图确定为吹气(350)。

图4为示出预测到用户意图的一部分之后，接收附加的多模态输入来预测用户意图的操作的一个例子的图。

当从初步预测部220接收到的所预测的用户意图的一部分为将麦克风移动到嘴边时(410)，第二阶段预测部230激活多模态检测部130中所包含的麦克风和摄像机等传感器来接收多模态信号(420)。

第二阶段预测部230从由麦克风接收的声音信号和由摄像机接收的图像信号提取特征，对特征进行分类和分析(430)。

作为声音特征，可以从由麦克风接收到的声音信号提取时域能量(TimeEnergy)、频域能量(Frequency Energy)、过零率(Zero Crossing Rate)、线性预测编码(LPC，Linear Predictive Coding)、倒谱系数(Cepstral coefficients)、基音(pitch)等时域特征或如频谱的统计特征等。可提取的特征并不限定于这些，可以由其他特征算法进行提取。通过对所提取的特征使用决策树(Decision Tree)、支持向量机(Support Vector Machine)、贝叶斯网络(BayesianNetwork)、神经网络(Neural Network)等分类和学习算法等，可将输入特征分类为言语(speech)活动类或非言语(non-speech)活动类，但是并不限定于此。

进行特征分析的结果，检测到语音段时(440)，第二阶段预测部230可将用户意图预测为输入语音命令。进行特征分析的结果，没有检测到语音段(440)，而是检测到呼吸声时(450)，第二阶段预测部230可预测为吹气意图。并且，随着检测出其他种类的特征，可以将用户意图确定为哼唱等各种意图。此时，第二阶段预测部230可以在初步预测所限定的范围内预测用户意图。

因此，根据一个实施例，可以利用用户的多模态信息预测用户的意图并根据预测结果控制语音检测操作的执行，因此在使用语音接口时，即使用户不专门学习语音输入方法(例如，触摸用于输入语音的专门的按键或画面等的操作方法)，也能直观地输入语音。

除了由麦克风输入的声音信息之外，第二阶段预测部230可以将由摄像机等图像传感器134输入的图像信号和由喉式麦克风等生物体信息传感器136输入的人发声时变化的至少一个检测信息中的至少一个与从声音信号提取的特征信息一起用于检测语音段，并处理所检测到的语音段内的语音。这里，检测信息可以包含用户的嘴部形状变化等显示的图像信息、因为发声时吐出的热气等而变化的温度信息、发声时振动的嗓子眼或下颚骨等身体部位的振动信息、发声时对脸部或嘴部的红外线检测信息等中的至少一个信息。

当检测到语音段时(440)，用户意图运用部124可通过处理属于所检测到的语音段的语音信号来执行语音识别，利用语音识别结果转换应用模块。例如，根据识别结果执行应用程序，当识别出人名时，可以进行智能的语音输入开始和结束的转换，例如可以检索到对应于所识别的人名的电话号，或者用所检索到的电话号拨打电话的动作等。并且，当用户意图推理装置100被实现为移动通信装置时，基于多模态信息掌握语音通话的开始和结束意图，因此即使用户不进行按压拨打键等专门的动作，动作模式也能自动地转换到语音通话模式。

图5为示出在预测到用户意图的一部分之后，接收附加的多模态输入来预测用户意图的操作的另一个例子的图。

当从初步预测部220接收到的初步预测的用户意图的一部分为选择特定的对象时(460)，第二阶段预测部230通过激活摄像机和超音波传感器等传感器来接收多模态信号(470)。

第二阶段预测部230通过分析所接收到的多模态信号(480)来预测用户意图。此时，所预测的用户意图为经过初步预测所限定的范围内的意图。

进行多模态信号分析的结果，第二阶段预测部230可能判断出摆手的动作(490)。第二阶段预测部230根据用户意图运用部124中执行的应用程序，将摆手的动作解释为删除画面上显示的特定项目或文件的意图，从而控制用户意图运用部224删除特定项目或文件。

图6为示出对于第二阶段预测部230同时利用声音信号和图像信号进行统合分析的特征基础信号分类的一个例子的图。

第二阶段预测部230可以包含声音特征提取部510、声音特征分析部520、图像特征提取部530、图像特征分析部540和统合分析部550。

声音特征提取部510从声音信号提取声音特征。声音特征分析部520对声音特征应用分类和学习算法来提取语音段。图像特征提取部530从一系列图像信号提取图像特征。图像特征分析部540对所提取的图像特征应用分类和学习算法来提取语音段。

统合分析部550融合通过声音信号和图像信号分别进行分类的结果来最终检测出语音段。此时，可以单独运用声音特征和图像特征或将声音特征和图像特征融合运用，当从其他信号(例如，表示振动、温度等的信号)提取特征并进行分析时，在统合分析部550可以与从声音信号和图像信号提取的检测信号进行融合来检测语音段。

根据一个实施例，在使用语音接口时，用户不需要专门学习语音输入方法，也能直观地输入语音。例如，用户无需为了输入语音而进行触摸专门的按键或画面等的动作。并且，与家庭噪音、车辆噪音、其他人的噪音等噪音的种类和大小无关，可以在多种噪音环境下检测出正确的用户语音段。并且，由于除了图像信息之外，还可以利用其他的生物信息检测语音，因此在照明过亮或过暗的情况下，或者在用户的嘴部被遮挡的情况下，可以正确地检测出用户的语音段。

图7为示出利用一个实施例所提供的多模态信息的用户意图推理方法的图。

用户意图推理装置100接收从至少一个动作传感器检测到的动作信息(610)。用户意图推理装置100利用所接收到的动作信息，初步预测用户意图的一部分(620)。

当接收到从至少一个多模态传感器输入的多模态信息时(630)，用户意图推理装置100利用初步预测的用户意图的一部分和多模态信息，对用户意图进行第二阶段预测。在对用户意图进行第二阶段预测的步骤中，可进行对从多模态传感器输入的多模态信息进行与初步预测的用户意图的一部分相关的解释的操作。

为了利用初步预测的用户意图的一部分，执行用户意图的第二阶段预测的过程中需要执行的操作，可以产生控制信号。用于执行用户意图的第二阶段预测的过程中需要执行的操作的控制信号，可以是由用户意图推理装置100控制的、用于控制多模态传感器的运行的控制信号。用户意图在初步预测的用户意图的一部分的范围内，利用从至少一个多模态传感器输入的多模态信息确定。

本发明的一个方面可以实现为计算机可读记录介质上的计算机可读代码。构成程序的编码和编码段可以通过本领域计算机程序师容易地导出。计算机可读记录介质包含用于存储可以由计算机系统读取的数据的所有种类的记录装置。计算机可读记录介质的例子包含ROM、RAM、CD-ROM、磁带、软盘、光盘等。并且，计算机可读记录介质可以分布在网络连接的计算机系统，通过分布方式以计算机可读代码存储和执行。

上述说明仅限于本发明的一个实施例，在本发明所属的技术领域中，具有一般的知识的人员，在不脱离本发明的思想的范围内，可以进行各种变形。因此，本发明的范围并不限定于上述的实施例，可以包含与权利要求书中记载的内容等同范围内的多种实施方式。

产业上的可利用性

本发明可以在计算机、电子产品、计算机软件和信息技术领域的产业中予以应用。

Claims

1.一种用户意图推理装置，其特征在于，包含：

初步预测部，利用至少一个动作信息来预测用户意图的一部分；

第二阶段预测部，根据所述预测的用户意图的一部分和从与所述预测的用户意图的一部分相关的至少一个多模态传感器输入的多模态信息的种类提取特征并进行分析，对多模态信息进行与所述初步预测的用户意图的一部分相关的解释，由此预测用户意图，

所述初步预测部产生控制信号，该控制信号用于运行在利用所述预测的用户意图的一部分来预测所述用户意图的过程中需要执行的操作，

用于运行预测所述用户意图的过程中需要执行的操作的控制信号是由用户意图推理装置控制的、用于控制多模态传感器的操作的控制信号，由此基于所述预测的用户意图的一部分运行多模态传感器中与所述预测的用户意图的一部分相关的一部分多模态传感器。

2.根据权利要求1所述的用户意图推理装置，其特征在于，当所述预测的用户意图的一部分为选择显示器画面上显示的对象，并且从所述多模态传感器输入语音信号时，所述第二阶段预测部对所述输入的语音信号进行与所述对象的选择相关的解释，由此预测用户意图。

3.根据权利要求1所述的用户意图推理装置，其特征在于，所述第二阶段预测部在所预测的所述用户意图的一部分所限定的范围内，利用从至少一个多模态传感器输入的多模态信息来预测用户意图。

4.根据权利要求3所述的用户意图推理装置，其特征在于，当所述预测的用户意图的一部分为将麦克风移动到嘴边的动作时，所述第二阶段预测部检测声音信号，对所检测到的声音信号进行特征提取和分析，从而预测用户意图。

5.根据权利要求4所述的用户意图推理装置，其特征在于，所述第二阶段预测部从所述声音信号中确定是否能检测到语音段，当检测到语音段时，将用户意图预测为语音命令意图。

6.根据权利要求5所述的用户意图推理装置，其特征在于，当从所述声音信号中检测到呼吸声时，所述第二阶段预测部将用户意图预测为吹气。

7.根据权利要求1所述的用户意图推理装置，其特征在于，当所述预测的用户意图的一部分为选择显示器画面上显示的对象时，所述第二阶段预测部利用多模态信息，将用户意图预测为对所述选择的对象进行删除、分类、整理中的至少一种。

8.根据权利要求1所述的用户意图推理装置，其特征在于，还包含：用户意图运用部，利用所述用户意图预测结果来控制在所述用户意图推理装置中进行控制的软件或硬件。

9.一种用户意图推理方法，其特征在于，包含如下步骤：

接收至少一个动作信息；

利用所述接收的动作信息来预测用户意图的一部分；

接收从与所述预测的用户意图的一部分相关的至少一个多模态传感器输入的多模态信息；

根据所述预测的用户意图的一部分和所述多模态信息的种类提取特征并进行分析，对多模态信息进行与所述初步预测的用户意图的一部分相关的解释，由此预测用户意图，

其中，

在预测用户意图的一部分之后产生控制信号，该控制信号用于运行在利用所述预测的用户意图的一部分来预测所述用户意图的过程中需要执行的操作，

10.根据权利要求9所述的用户意图推理方法，其特征在于，在预测所述用户意图的步骤中，在所述预测的用户意图的一部分所限定的范围内，利用从至少一个多模态传感器输入的多模态信息预测用户意图。

11.根据权利要求9所述的用户意图推理方法，其特征在于，还包含步骤：利用所述用户意图预测结果来控制在所述用户意图推理装置中进行控制的软件或硬件。