Nothing Special   »   [go: up one dir, main page]

CN105159111B - 基于人工智能的智能交互设备控制方法及系统 - Google Patents

基于人工智能的智能交互设备控制方法及系统 Download PDF

Info

Publication number
CN105159111B
CN105159111B CN201510523179.3A CN201510523179A CN105159111B CN 105159111 B CN105159111 B CN 105159111B CN 201510523179 A CN201510523179 A CN 201510523179A CN 105159111 B CN105159111 B CN 105159111B
Authority
CN
China
Prior art keywords
user
wish
interaction
interaction device
intelligent interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510523179.3A
Other languages
English (en)
Other versions
CN105159111A (zh
Inventor
葛行飞
李峥
林汉权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510523179.3A priority Critical patent/CN105159111B/zh
Priority to PCT/CN2015/096587 priority patent/WO2017031860A1/zh
Publication of CN105159111A publication Critical patent/CN105159111A/zh
Application granted granted Critical
Publication of CN105159111B publication Critical patent/CN105159111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B15/00Systems controlled by a computer
    • G05B15/02Systems controlled by a computer electric

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提出了一种基于人工智能的智能交互设备控制方法、系统及智能交互设备,该方法包括:接收多模态的输入信号,多模态的输入信号包括用户输入的图像信号、声音信号和/或距离信号;根据图像信号进行人脸检测,并在检测到有人脸时,获取人脸图像和人脸信息;根据人脸图像进行唇区检测以确定唇区运动情况;根据声音信号进行声源定位以得到声源信息;根据人脸信息、唇区运动情况、声源信息和/或距离信号判断用户的交互意愿以及交互意愿强烈程度;根据用户的交互意愿以及交互意愿强烈程度控制所述智能交互设备进行相应的交互响应。该方法能够提升用户与智能交互设备的交互体验,提升智能交互设备的智能性。

Description

基于人工智能的智能交互设备控制方法及系统
技术领域
本发明涉及智能终端技术领域,特别涉及一种基于人工智能(ArtificialIntelligence,简称:AI)的智能交互设备控制方法、控制系统及智能交互设备。
背景技术
现在的智能交互设备,如电视机、生活电器等,通常是采用遥控或者提前设定好的程序来执行相关的动作。这种通过遥控或者提前设定好的程序来执行相关动作的智能交互设备存在以下缺点:
与人类之间的交互方式单一且互动性差,这是由于遥控操作功能有限,智能交互设备无法完成遥控操作功能以外的动作,同样,智能交互设备按照提前设定好的程序进行动作,也是存在无法完成设定程序以外的其它动作,不能针对不同用户需求进行不同的运动。另外,这些交互方式均是在用户遥控或者触发某个功能按键后进行的,因此,完全是被动的交互方式。
虽然有一些如视频会议跟踪系统可以根据说话人的声音将摄像头等转向说话人,但是并不能够准确判断说话人是否存在交互意愿,也不能够根据交互意愿做成适当的反应。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的一个目的在于提出一种基于人工智能的智能交互设备控制方法。该方法能够提升用户与智能交互设备的交互体验,提升智能交互设备的智能性。
本发明的另一个目的在于提出一种基于人工智能的智能交互设备控制方法。
本发明的再一个目的在于提出一种智能交互设备。
为达到上述目的,本发明的第一方面的实施例公开了一种基于人工智能的智能交互设备控制方法,包括以下步骤:接收多模态的输入信号,所述多模态的输入信号包括用户输入的图像信号、声音信号和/或距离信号;根据所述图像信号进行人脸检测,并在检测到有人脸时,获取所述人脸图像和人脸信息;根据所述人脸图像进行唇区检测以确定唇区运动情况;根据所述声音信号进行声源定位以得到声源信息;根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度;以及根据所述用户的交互意愿以及交互意愿强烈程度控制所述智能交互设备进行相应的交互响应。
根据本发明实施例的基于人工智能的智能交互设备控制方法,能够实时的采集用户的声音信号、图像信号和/或距离信号,经过人工智能的分析后确定出用户是否存在交互意愿,并可以确定出交互意愿的强烈程度,然后自主地控制智能交互设备进行相应的动作,主动地与用户进行交互且交互手段丰富,进而提升用户的使用体验。
本发明第二方面的实施例公开了一种基于人工智能的智能交互设备控制系统,包括:接收模块,用于接收多模态的输入信号,所述多模态的输入信号包括用户输入的图像信号、声音信号和/或距离信号;人脸检测模块,用于根据所述图像信号进行人脸检测,并在检测到有人脸时,获取所述人脸图像和人脸信息;唇区检测模块,用于根据所述人脸图像进行唇区检测以确定唇区运动情况;声源定位模块,用于根据所述声音信号进行声源定位以得到声源信息;决策模块,所述决策模块用于根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度;以及复合输出控制模块,用于根据所述用户的交互意愿以及交互意愿强烈程度控制所述智能交互设备进行相应的交互响应。
根据本发明实施例的基于人工智能的智能交互设备控制系统,能够实时的采集用户的声音信号、图像信号和/或距离信号,经过人工智能的分析后确定出用户是否存在交互意愿,并可以确定出交互意愿的强烈程度,然后自主地控制智能交互设备进行相应的动作,主动地与用户进行交互且交互手段丰富,进而提升用户的使用体验。
本发明第三方面的实施例公开了一种智能交互设备,包括:根据上述的第二方面实施例所述的基于人工智能的智能交互设备控制系统。该智能的智能交互设备能够实时的采集用户的声音信号、图像信号和/或距离信号,经过人工智能的分析后确定出用户是否存在交互意愿,并可以确定出交互意愿的强烈程度,然后自主地控制智能交互设备进行相应的动作,主动地与用户进行交互且交互手段丰富,进而提升用户的使用体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明所述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的基于人工智能的智能交互设备控制方法的流程图;以及
图2是根据本发明一个实施例的基于人工智能的智能交互设备控制系统的结构框图;以及
图3是根据本发明一个实施例的基于人工智能的智能交互设备控制系统的原理图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
在本发明的描述中,需要说明的是,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解所述术语的具体含义。
为了解决相关技术中存在的智能交互设备智能性差且不能很好与人类进行交互的问题,本发明基于人工智能实现了智能性高且与人类交互体验好的智能交互设备控制方法、控制系统及智能交互设备,其中,人工智能(Artificial Intelligence,简称:AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考,也可能超过人的智能。人工智能是包括十分广泛的科学,由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。
以下结合附图描述根据本发明实施例的基于人工智能的智能交互设备控制方法、控制系统及智能交互设备。
图1是根据本发明一个实施例的基于人工智能的智能交互设备控制方法的流程图。如图1所示,该方法包括如下步骤:
S101:接收多模态的输入信号,所述多模态的输入信号包括用户输入的图像信号、声音信号和/或距离信号。
具体地,用户输入的声音信号可以是用户通过麦克风输入的;上述的图像信号可以是通过摄像头采集得到的;上述的距离信号可以通过红外距离传感器采集得到。
S102:根据图像信号进行人脸检测,并在检测到有人脸时,获取人脸图像和人脸信息。其中,人脸信息包括但不限于人脸面积信息和人脸正面面对程度。
具体地,对于如摄像头采集到的图像,可以通过人脸检测手段检测图像中是否存在人脸、人脸在图像中占据的面积、人脸是否正对智能交互设备等。
当检测到图像中存在人脸之后,可以从图像中截取人脸图像,并保存人脸信息。
S103:根据人脸图像进行唇区检测以确定唇区运动情况。
具体地,当步骤S102中检测到图像中存在人脸后,可以通过唇区检测手段从截取的人脸图像中进行唇区运动情况的检测。例如:检测结果为唇区发送动作或者唇区未发生动作。
在本发明的一个实施例中,可以根据多帧人脸图像之间的唇区形状差异确定唇区运动情况。例如:前一帧人脸图像中唇区部分显示上下嘴唇闭合,而后一帧人脸图像中唇区部分显示上下嘴唇张开,此时,可以判定出用户唇区产生动作,可能是用户在开口说话等。
需要说明的是,正常情况下即使用户没有说话等,上下嘴唇也可能在某个时刻产生动作,例如打哈欠。这种情况下,不应该认为用户的唇区产生了了与说话等相关的动作,因此,为了避免误判的发生,可以通过连续的多帧图像间唇区部分的比较来确定上下嘴唇是否产生了动作,即用户是否存在说话等行为。此外,还可以通过对声音信号进行语音活动检测的方式判断用户是否存在说话等行,例如:判断声音信号中是否包含了用户说话时的语音(即:说话声),具体可以通过人工智能中语音识别的功能实现。当识别出声音信号中包含了说话人的语音(即:说话声),则可以判断出用户存在说话行为。这样,也可以避免上述中误判的发生。
S104:根据声音信号进行声源定位以得到声源信息。其中,声源信息包括但不限于声源方位信息和声音强度信息。
具体地,例如对于通过麦克风阵列接收到的多方位的声音信号,可以据此通过声源定位手段进行声源定位,从而确定出声源方位信息(即:声源角度信息)和声音强度信息。
需要说明的是,通常声音信号中包括了多种声音,如:说话声和其它的噪声,因此,为了能够准确地对说话人的说话声进行声源定位,因此,在根据声音信号进行声源定位以得到声源信息之前,可以对声音信号进行去噪以便滤除其它的噪声干扰,提升对说话人的说话声进行声源定位的定位精度。具体而言:判断声音信号中是否包含用户说话时的语音;如果是,则保留声音信号中用户说话时的语音,并从声音信号中滤除其它的干扰噪音,在上述示例中,可以通过人工智能中语音识别的功能实现,即通过语音识别功能识别出声音信号中包含的说话人的说话声,进而滤除其它的噪声,由此,提升对说话人的说话声进行声源定位的定位精度。
S105:根据人脸信息、唇区运动情况、声源信息和/或距离信号判断用户的交互意愿以及交互意愿强烈程度。
可以理解的是,在上述描述中,可以根据人脸信息、唇区运动情况、声源信息和距离信号中的任意一个来判断用户的交互意愿以及交互意愿强烈程度,也可以根据人脸信息、唇区运动情况、声源信息和距离信号中的多个或者全部一起来判断用户的交互意愿以及交互意愿强烈程度。相对于通过一个或者少数几个信息来判断用户的交互意愿以及交互意愿强烈程度而言,通过多个或者全部的上述信息来判断用户的交互意愿以及交互意愿强烈程度的准确性和可靠性相对较高。
如下所述:
1、当判断用户正对智能交互设备、用户的嘴唇未运动、用户发声且声音强度大于预定强度以及用户与智能交互设备之间的距离小于预设距离时,判断用户具有弱交互意愿。其中,预定强度可以根据经验确定,其目的是区别高强度的声音和相对低强度的声音,例如:预定强度可以以分贝的形式存在,预定强度例如为50分贝,当声音强度小于50分贝,则认为是低强度声源,反之则认为其为高强度声源,当然,在本发明的其它示例中,声音强度也可以用语音活动性指数来代替;预设距离也可以根据经验确定,例如:预设距离为1米。也就是说,如果判断出用户正脸面对本智能交互设备,距离近(如1米内),嘴唇未运动,无高强度声源,则判定为用户对智能交互设备感兴趣,存在弱交互意愿。
2、当判断用户正对智能交互设备、用户的嘴唇产生运动、用户发声且声音强度小于预定强度以及用户与智能交互设备之间的距离小于预设距离时,判断用户具有疑似交互意愿。其中,预定强度可以根据经验确定,其目的是区别高强度的声音和相对低强度的声音,例如:预定强度可以以分贝的形式存在,预定强度例如为50分贝,当声音强度小于50分贝,则认为是低强度声源,反之则认为其为高强度声源;预设距离也可以根据经验确定,例如:预设距离为1米。也就是说,如果用户正脸面对智能交互设备,距离近(如1米内),嘴唇产生动作,不存在高强度声源,此时判定为疑似交互意愿。
3、当判断用户正对智能交互设备、用户的嘴唇产生运动、用户发声且声音强度大于预定强度以及用户与智能交互设备之间的距离小于预设距离时,判断用户具有强交互意愿。其中,预定强度可以根据经验确定,其目的是区别高强度的声音和相对低强度的声音,例如:预定强度可以以分贝的形式存在,预定强度例如为50分贝,当声音强度小于50分贝,则认为是低强度声源,反之则认为其为高强度声源,当然,在本发明的其它示例中,声音强度也可以用语音活动性指数来代替;预设距离也可以根据经验确定,例如:预设距离为1米。也就是说,如果用户正脸面对智能交互设备,距离近(如1米内),嘴唇产生动作,存在高强度声源,则判定用户存在强交互意愿。
4、当判断用户侧面面对智能交互设备、用户发声且声音强度大于预定强度以及用户与智能交互设备之间的距离小于预设距离时,判断用户具有伴随交互意愿。其中,预定强度可以根据经验确定,其目的是区别高强度的声音和相对低强度的声音,例如:预定强度可以以分贝的形式存在,预定强度例如为50分贝,当声音强度小于50分贝,则认为是低强度声源,反之则认为其为高强度声源,当然,在本发明的其它示例中,声音强度也可以用语音活动性指数来代替;预设距离也可以根据经验确定,例如:预设距离为1米。也就是说,如果用户侧脸面对本设备,距离近(如1米内),有高强度声源,则判定用户存在伴随交互意愿。
5、当未检测到人脸图像、用户发声且声音强度大于预定强度以及用户与智能交互设备之间的距离小于预设距离时,判断用户具有强疑似交互意愿。其中,预定强度可以根据经验确定,其目的是区别高强度的声音和相对低强度的声音,例如:预定强度可以以分贝的形式存在,预定强度例如为50分贝,当声音强度小于50分贝,则认为是低强度声源,反之则认为其为高强度声源,当然,在本发明的其它示例中,声音强度也可以用语音活动性指数来代替;预设距离也可以根据经验确定,例如:预设距离为1米。也就是说,如果有高强度声源,摄像头检测不到人脸,距离近(如1米内):判断为用户存在强疑似交互意愿(即需确认强交互意愿)。
6、当未检测到人脸图像、用户发声且声音强度大于预定强度以及用户与智能交互设备之间的距离大于预设距离时,判断用户具有弱疑似交互意愿。其中,预定强度可以根据经验确定,其目的是区别高强度的声音和相对低强度的声音,例如:预定强度可以以分贝的形式存在,预定强度例如为50分贝,当声音强度小于50分贝,则认为是低强度声源,反之则认为其为高强度声源,当然,在本发明的其它示例中,声音强度也可以用语音活动性指数来代替;预设距离也可以根据经验确定,例如:预设距离为1米。也就是是说,如果有高强度声源,检测不到人脸,距离远(如大于1米),则判定为弱疑似交互意愿(即弱疑似交互意愿)。
7、以上为各种示例情况,综合来讲,是根据输入的多个独立特征构造针对多种交互意愿的多分类器,并依据多模态输入信号的值进行综合判断,来准确判定交互意愿并做出相应的反应。
S106:根据用户的交互意愿以及交互意愿强烈程度控制智能交互设备进行相应的交互响应。
例如:当上述步骤中判断出存在弱交互意愿时,可以智能地控制智能交互设备进行静默响应,如:显示不同表情,简单的机械动作等,而无需发声。
当上述步骤中判断出存在疑似交互意愿时,可以控制智能交互设备进行提高音量提示响应,如发出提高音量的提示。
当上述步骤中判断存在强交互意愿时,可以控制智能交互设备进行正式交互响应,即:正式与用户进行交互。
当上述步骤中判断存在伴随交互意愿时,可以控制智能交互设备进行语音/聊天交互响应,即:以语音/聊天交互方式为主。
当上述步骤中判断存在强疑似交互意愿时,可以控制智能交互设备转向声源方向并进行提示响应,例如:将麦克风转向声源方向,并对用户进行提示。
当上述步骤中判断存在弱疑似交互意愿时,可以仅仅控制智能交互设备转向声源方向。例如:仅将麦克风转向声源方向而不进行提示。
另外,为了更加准确地判断出用户的交互意愿以及交互意愿强烈程度而避免误判的发生,在本发明的一个实施例中,可以在根据人脸信息、所述唇区运动情况、声源信息和/或距离信号判断用户的交互意愿以及交互意愿强烈程度之前,判断人脸信息、唇区运动情况、声源信息和/或距离信号是否满足预定条件;如果满足预定条件,则执行用户的交互意愿以及交互意愿强烈程度的判断。
具体地说,可以通过一个计时器来实现上述条件的判断,例如:当检测到有正脸面对智能交互设备之后,启动计时器,并在正脸面对智能交互设备的时间超过一个特定的时间(如3秒)后,判定用户确实是面对智能交互设备。这样可以避免误判的发生,设想一下,用户如果仅是活动一下头部,则也可能在某个时刻正脸面对智能交互设备,而通过上述的计时判断,可以对用户活动头部而在某个时刻正脸面对智能交互设备进行忽略,因此,可以降低误判的概率甚至消除误判。
此外,为了进一步提升用户的交互意愿以及交互意愿强烈程度的判断的准确性,在根据人脸信息、唇区运动情况、声源信息和/或距离信号判断用户的交互意愿以及交互意愿强烈程度之前,可以对人脸信息和唇部运动情况进行量化处理。如:30%正脸面对智能交互设备、50%正脸面对智能交互设备等。在进行量化之后,可以为用户的交互意愿以及交互意愿强烈程度的判断提供统一的标准,从而提升判断精度。
在本发明的一个实施例中,该方法还包括:调整人脸信息、唇区运动情况、声源信息和/或距离信号的权重,其中,权重用于影响用户的交互意愿以及交互意愿强烈程度的判断结果;判断用户的交互意愿以及交互意愿强烈程度,进一步包括:根据人脸信息、唇区运动情况、声源信息和/或距离信号的权重判断用户的交互意愿以及交互意愿强烈程度。具体地,通过调整各个输入信号的敏感程度(即权重),如:调高正脸面对信号和唇部运动的权重,降低声源输入强度的权重,则在用户仅动嘴唇,并不实际发声的情况下,也判断为有交互意愿,这样,可以针对不同的场景,进行不同的交互行为的响应,提升智能交互设备的交互体验。
需要说明的是,智能交互设备可以为普通的生活电器、信息类电器(如:计算机、电视机等)、视频会议系统或者智能机器人等。
根据本发明实施例的基于人工智能的智能交互设备控制方法,能够实时的采集用户的声音信号、图像信号和/或距离信号,经过人工智能的分析后确定出用户是否存在交互意愿,并可以确定出交互意愿的强烈程度,然后自主地控制智能交互设备进行相应的动作,主动地与用户进行交互且交互手段丰富,进而提升用户的使用体验。
图2是根据本发明一个实施例的基于人工智能的智能交互设备控制系统的结构框图。
如图2所示,并结合图3根据本发明一个实施例的基于人工智能的智能交互设备控制系统200,包括:接收模块210(如摄像头、红外距离传感器、麦克风阵列)、人脸检测模块220、唇区检测模块230、声源定位模块240、决策模块250(即决策中心)和复合输出控制模块260。
其中,接收模块210用于接收多模态的输入信号,所述多模态的输入信号包括用户输入的图像信号、声音信号和/或距离信号。人脸检测模块220用于根据所述图像信号进行人脸检测,并在检测到有人脸时,获取所述人脸图像和人脸信息。唇区检测模块230用于根据所述人脸图像进行唇区检测以确定唇区运动情况。声源定位模块240用于根据所述声音信号进行声源定位以得到声源信息。决策模块250用于根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度。复合输出控制模块260用于根据所述用户的交互意愿以及交互意愿强烈程度控制所述智能交互设备进行相应的交互响应。
在本发明的一个实施例中,还包括:语音活动检测模块(图2中没有示出),用于在声源定位模块240根据声音信号进行声源定位以得到声源信息之前,判断声音信号中是否包含用户说话时的语音,如果是,则保留声音信号中用户说话时的语音,并从声音信号中滤除其它的干扰噪音。
具体而言,通常声音信号中包括了多种声音,如:说话声和其它的噪声,因此,为了能够准确地对说话人的说话声进行声源定位,因此,在根据声音信号进行声源定位以得到声源信息之前,可以对声音信号进行去噪以便滤除其它的噪声干扰,后续可以提升对说话人的说话声进行声源定位的定位精度。具体而言:判断声音信号中是否包含用户说话时的语音;如果是,则保留声音信号中用户说话时的语音,并从声音信号中滤除其它的干扰噪音,在上述示例中,可以通过人工智能中语音识别的功能实现,即通过语音识别功能识别出声音信号中包含的说话人的说话声,进而滤除其它的噪声,由此,后续便可以提升对说话人的说话声进行声源定位的定位精度。
在本发明的一个实施例中,决策模块250还用于在根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度之前,判断所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号是否满足预定条件;如果满足所述预定条件,则执行用户的交互意愿以及交互意愿强烈程度的判断。
在本发明的一个实施例中,决策模块250还用于在根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度之前,对所述人脸信息和所述唇区运动情况进行量化处理。
在本发明的一个实施例中,决策模块250还用于:调整所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号的权重,其中,所述权重用于影响所述用户的交互意愿以及交互意愿强烈程度的判断结果;所述判断所述用户的交互意愿以及交互意愿强烈程度,包括:根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号的权重判断所述用户的交互意愿以及交互意愿强烈程度。
在本发明的一个实施例中,人脸信息包括人脸面积信息和人脸正面面对程度,所述声源信息包括声源方位信息和声音强度信息。
在本发明的一个实施例中,决策模块250用于:当判断所述用户正对所述智能交互设备、所述用户的嘴唇未运动、所述用户发声且声音强度大于预定强度以及用户与所述智能交互设备之间的距离小于预设距离时,判断所述用户具有弱交互意愿,复合输出控制模块260用于:控制所述智能交互设备进行静默响应。
在本发明的一个实施例中,决策模块250用于:当判断所述用户正对所述智能交互设备、所述用户的嘴唇产生运动、所述用户发声且声音强度小于预定强度以及用户与所述智能交互设备之间的距离小于所述预设距离时,判断所述用户具有疑似交互意愿,复合输出控制模块260用于:控制所述智能交互设备进行提高音量提示响应。
在本发明的一个实施例中,决策模块250用于:当判断所述用户正对所述智能交互设备、所述用户的嘴唇产生运动、所述用户发声且声音强度大于所述预定强度以及所述用户与所述智能交互设备之间的距离小于所述预设距离时,判断用户具有强交互意愿,复合输出控制模块260用于:控制所述智能交互设备进行正式交互响应。
在本发明的一个实施例中,决策模块250用于:当判断所述用户侧面面对所述智能交互设备、所述用户发声且声音强度大于所述预定强度以及所述用户与所述智能交互设备之间的距离小于所述预设距离时,判断所述用户具有伴随交互意愿,复合输出控制模块260用于:控制所述智能交互设备进行语音/聊天交互响应。
在本发明的一个实施例中,决策模块250用于:当未检测到人脸图像、所述用户发声且声音强度大于所述预定强度以及所述用户与所述智能交互设备之间的距离小于所述预设距离时,判断所述用户具有强疑似交互意愿,复合输出控制模块260用于:控制所述智能交互设备转向所述声源方向并进行提示响应。
在本发明的一个实施例中,决策模块250用于:当未检测到人脸图像、所述用户发声且声音强度大于所述预定强度以及所述用户与所述智能交互设备之间的距离大于所述预设距离时,判断所述用户具有弱疑似交互意愿,复合输出控制模块260用于:控制所述智能交互设备转向所述声源的响应。
在本发明的一个实施例中,唇区检测模块230用于:根据多帧人脸图像之间的唇区形状差异确定所述唇区运动情况。
根据本发明实施例的基于人工智能的智能交互设备控制系统,能够实时的采集用户的声音信号、图像信号和/或距离信号,经过人工智能的分析后确定出用户是否存在交互意愿,并可以确定出交互意愿的强烈程度,然后自主地控制智能交互设备进行相应的动作,主动地与用户进行交互且交互手段丰富,进而提升用户的使用体验。
需要说明的是,本发明实施例的基于人工智能的智能交互设备控制系统的具体实现方式与本发明实施例的基于人工智能的智能交互设备控制方法的具体实现方式类似,具体请参见方法部分的描述,为了减少冗余,此处不做赘述。
进一步地,本发明的实施例公开了一种智能交互设备,包括:根据上述任意一个实施例所述的基于人工智能的智能交互设备控制系统。该智能交互设备能够实时的采集用户的声音信号、图像信号和/或距离信号,经过人工智能的分析后确定出用户是否存在交互意愿,并可以确定出交互意愿的强烈程度,然后自主地控制智能交互设备进行相应的动作,主动地与用户进行交互且交互手段丰富,进而提升用户的使用体验。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (27)

1.一种基于人工智能的智能交互设备控制方法,其特征在于,包括以下步骤:
接收多模态的输入信号,所述多模态的输入信号包括用户输入的图像信号、声音信号和/或距离信号;
根据所述图像信号进行人脸检测,并在检测到有人脸时,获取人脸图像和人脸信息;
根据所述人脸图像进行唇区检测以确定唇区运动情况;
根据所述声音信号进行声源定位以得到声源信息;
根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度,其中,所述交互意愿强烈程度包括:弱交互意愿、疑似交互意愿、强交互意愿、伴随交互意愿、强疑似交互意愿和弱疑似交互意愿;以及
根据所述用户的交互意愿以及交互意愿强烈程度控制所述智能交互设备进行相应的交互响应,其中,当所述用户具有弱交互意愿时,控制所述智能交互设备进行静默响应;当所述用户具有疑似交互意愿时,控制所述智能交互设备进行提高音量提示响应;当所述用户具有强交互意愿时,控制所述智能交互设备进行正式交互响应;当所述用户具有伴随交互意愿时,控制所述智能交互设备进行语音/聊天交互响应;当所述用户具有强疑似交互意愿时,控制所述智能交互设备转向声源方向并进行提示响应;当所述用户具有弱疑似交互意愿时,控制所述智能交互设备进行转向所述声源的响应。
2.根据权利要求1所述的基于人工智能的智能交互设备控制方法,其特征在于,在根据所述声音信号进行声源定位以得到声源信息之前,还包括:
判断所述声音信号中是否包含所述用户说话时的语音;
如果是,则保留所述声音信号中所述用户说话时的语音,并从所述声音信号中滤除其它的干扰噪音。
3.根据权利要求1所述的基于人工智能的智能交互设备控制方法,其特征在于,在根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度之前,还包括:
判断所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号是否满足预定条件;
如果满足所述预定条件,则执行用户的交互意愿以及交互意愿强烈程度的判断。
4.根据权利要求1所述的基于人工智能的智能交互设备控制方法,其特征在于,在根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度之前,还包括:对所述人脸信息和所述唇区运动情况进行量化处理。
5.根据权利要求1所述的基于人工智能的智能交互设备控制方法,其特征在于,还包括:
调整所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号的权重,其中,所述权重用于影响所述用户的交互意愿以及交互意愿强烈程度的判断结果;
所述判断所述用户的交互意愿以及交互意愿强烈程度,进一步包括:
根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号的权重判断所述用户的交互意愿以及交互意愿强烈程度。
6.根据权利要求1所述的基于人工智能的智能交互设备控制方法,其特征在于,所述人脸信息包括人脸面积信息和人脸正面面对程度,所述声源信息包括声源方位信息和声音强度信息。
7.根据权利要求1所述的基于人工智能的智能交互设备控制方法,其特征在于,所述根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度,包括:当判断所述用户正对所述智能交互设备、所述用户的嘴唇未运动、所述用户发声且声音强度大于预定强度以及所述用户与所述智能交互设备之间的距离小于预设距离时,判断所述用户具有弱交互意愿。
8.根据权利要求1所述的基于人工智能的智能交互设备控制方法,其特征在于,所述根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度,包括:当判断所述用户正对所述智能交互设备、所述用户的嘴唇产生运动、所述用户发声且声音强度小于预定强度以及所述用户与所述智能交互设备之间的距离小于预设距离时,判断所述用户具有疑似交互意愿。
9.根据权利要求1所述的基于人工智能的智能交互设备控制方法,其特征在于,所述根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度,包括:当判断所述用户正对所述智能交互设备、所述用户的嘴唇产生运动、所述用户发声且声音强度大于预定强度以及所述用户与所述智能交互设备之间的距离小于预设距离时,判断所述用户具有强交互意愿。
10.根据权利要求1所述的基于人工智能的智能交互设备控制方法,其特征在于,所述根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度,包括:当判断所述用户侧面面对所述智能交互设备、所述用户发声且声音强度大于预定强度以及所述用户与所述智能交互设备之间的距离小于预设距离时,判断所述用户具有伴随交互意愿。
11.根据权利要求1所述的基于人工智能的智能交互设备控制方法,其特征在于,所述根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度,包括:当未检测到人脸图像、所述用户发声且声音强度大于预定强度以及所述用户与所述智能交互设备之间的距离小于预设距离时,判断所述用户具有强疑似交互意愿。
12.根据权利要求1所述的基于人工智能的智能交互设备控制方法,其特征在于,所述根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度,包括:当未检测到人脸图像、所述用户发声且声音强度大于预定强度以及所述用户与所述智能交互设备之间的距离大于预设距离时,判断所述用户具有弱疑似交互意愿。
13.根据权利要求1-12任一项所述的基于人工智能的智能交互设备控制方法,其特征在于,所述根据所述人脸图像进行唇区检测以确定唇区运动情况,具体包括:根据多帧人脸图像之间的唇区形状差异确定所述唇区运动情况。
14.一种基于人工智能的智能交互设备控制系统,其特征在于,包括:
接收模块,用于接收多模态的输入信号,所述多模态的输入信号包括用户输入的图像信号、声音信号和/或距离信号;
人脸检测模块,用于根据所述图像信号进行人脸检测,并在检测到有人脸时,获取人脸图像和人脸信息;
唇区检测模块,用于根据所述人脸图像进行唇区检测以确定唇区运动情况;
声源定位模块,用于根据所述声音信号进行声源定位以得到声源信息;
决策模块,所述决策模块用于根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度,其中,所述交互意愿强烈程度包括:弱交互意愿、疑似交互意愿、强交互意愿、伴随交互意愿、强疑似交互意愿和弱疑似交互意愿;以及
复合输出控制模块,用于根据所述用户的交互意愿以及交互意愿强烈程度控制所述智能交互设备进行相应的交互响应,其中,当所述用户具有弱交互意愿时,控制所述智能交互设备进行静默响应;当所述用户具有疑似交互意愿时,控制所述智能交互设备进行提高音量提示响应;当所述用户具有强交互意愿时,控制所述智能交互设备进行正式交互响应;当所述用户具有伴随交互意愿时,控制所述智能交互设备进行语音/聊天交互响应;当所述用户具有强疑似交互意愿时,控制所述智能交互设备转向声源方向并进行提示响应;当所述用户具有弱疑似交互意愿时,控制所述智能交互设备进行转向所述声源的响应。
15.根据权利要求14所述的基于人工智能的智能交互设备控制系统,其特征在于,还包括:
语音活动检测模块,用于在所述声源定位模块根据所述声音信号进行声源定位以得到声源信息之前,判断所述声音信号中是否包含所述用户说话时的语音,如果是,则保留所述声音信号中所述用户说话时的语音,并从所述声音信号中滤除其它的干扰噪音。
16.根据权利要求14所述的基于人工智能的智能交互设备控制系统,其特征在于,所述决策模块还用于在根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度之前,判断所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号是否满足预定条件;如果满足所述预定条件,则执行用户的交互意愿以及交互意愿强烈程度的判断。
17.根据权利要求14所述的基于人工智能的智能交互设备控制系统,其特征在于,所述决策模块还用于在根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号判断所述用户的交互意愿以及交互意愿强烈程度之前,对所述人脸信息和所述唇区运动情况进行量化处理。
18.根据权利要求14所述的基于人工智能的智能交互设备控制系统,其特征在于,所述决策模块还用于:
调整所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号的权重,其中,所述权重用于影响所述用户的交互意愿以及交互意愿强烈程度的判断结果;
所述判断所述用户的交互意愿以及交互意愿强烈程度,包括:
根据所述人脸信息、所述唇区运动情况、所述声源信息和/或所述距离信号的权重判断所述用户的交互意愿以及交互意愿强烈程度。
19.根据权利要求14所述的基于人工智能的智能交互设备控制系统,其特征在于,所述人脸信息包括人脸面积信息和人脸正面面对程度,所述声源信息包括声源方位信息和声音强度信息。
20.根据权利要求14所述的基于人工智能的智能交互设备控制系统,其特征在于,所述决策模块用于:当判断所述用户正对所述智能交互设备、所述用户的嘴唇未运动、所述用户发声且声音强度大于预定强度以及用户与所述智能交互设备之间的距离小于预设距离时,判断所述用户具有弱交互意愿。
21.根据权利要求14所述的基于人工智能的智能交互设备控制系统,其特征在于,所述决策模块用于:当判断所述用户正对所述智能交互设备、所述用户的嘴唇产生运动、所述用户发声且声音强度小于预定强度以及用户与所述智能交互设备之间的距离小于预设距离时,判断所述用户具有疑似交互意愿。
22.根据权利要求14所述的基于人工智能的智能交互设备控制系统,其特征在于,所述决策模块用于:当判断所述用户正对所述智能交互设备、所述用户的嘴唇产生运动、所述用户发声且声音强度大于预定强度以及所述用户与所述智能交互设备之间的距离小于预设距离时,判断用户具有强交互意愿。
23.根据权利要求14所述的基于人工智能的智能交互设备控制系统,其特征在于,所述决策模块用于:当判断所述用户侧面面对所述智能交互设备、所述用户发声且声音强度大于预定强度以及所述用户与所述智能交互设备之间的距离小于预设距离时,判断所述用户具有伴随交互意愿。
24.根据权利要求14所述的基于人工智能的智能交互设备控制系统,其特征在于,所述决策模块用于:当未检测到人脸图像、所述用户发声且声音强度大于预定强度以及所述用户与所述智能交互设备之间的距离小于预设距离时,判断所述用户具有强疑似交互意愿。
25.根据权利要求14所述的基于人工智能的智能交互设备控制系统,其特征在于,所述决策模块用于:当未检测到人脸图像、所述用户发声且声音强度大于预定强度以及所述用户与所述智能交互设备之间的距离大于预设距离时,判断所述用户具有弱疑似交互意愿。
26.根据权利要求14-25任一项所述的基于人工智能的智能交互设备控制系统,其特征在于,所述唇区检测模块用于:根据多帧人脸图像之间的唇区形状差异确定所述唇区运动情况。
27.一种智能交互设备,其特征在于,包括:根据权利要求14-26任一项所述的基于人工智能的智能交互设备控制系统。
CN201510523179.3A 2015-08-24 2015-08-24 基于人工智能的智能交互设备控制方法及系统 Active CN105159111B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510523179.3A CN105159111B (zh) 2015-08-24 2015-08-24 基于人工智能的智能交互设备控制方法及系统
PCT/CN2015/096587 WO2017031860A1 (zh) 2015-08-24 2015-12-07 基于人工智能的智能交互设备控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510523179.3A CN105159111B (zh) 2015-08-24 2015-08-24 基于人工智能的智能交互设备控制方法及系统

Publications (2)

Publication Number Publication Date
CN105159111A CN105159111A (zh) 2015-12-16
CN105159111B true CN105159111B (zh) 2019-01-25

Family

ID=54799999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510523179.3A Active CN105159111B (zh) 2015-08-24 2015-08-24 基于人工智能的智能交互设备控制方法及系统

Country Status (2)

Country Link
CN (1) CN105159111B (zh)
WO (1) WO2017031860A1 (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912128B (zh) * 2016-04-29 2019-05-24 北京光年无限科技有限公司 面向智能机器人的多模态交互数据处理方法及装置
CN106055105A (zh) * 2016-06-02 2016-10-26 上海慧模智能科技有限公司 机器人和人机交互系统
CN107643509B (zh) * 2016-07-22 2019-01-11 腾讯科技(深圳)有限公司 定位方法、定位系统及终端设备
CN106231234B (zh) * 2016-08-05 2019-07-05 广州小百合信息技术有限公司 视频会议的拍摄方法和系统
CN107273944B (zh) * 2017-05-16 2024-10-15 北京元视觉科技有限公司 自主社交的智能设备、自主交互方法及存储介质
CN107404682B (zh) * 2017-08-10 2019-11-05 京东方科技集团股份有限公司 一种智能耳机
CN109767774A (zh) * 2017-11-08 2019-05-17 阿里巴巴集团控股有限公司 一种交互方法和设备
CN107657852B (zh) * 2017-11-14 2023-09-22 翟奕雲 基于人脸识别的幼儿教学机器人、教学系统、存储介质
CN109087636A (zh) * 2017-12-15 2018-12-25 蔚来汽车有限公司 交互设备
CN108388594A (zh) * 2018-01-31 2018-08-10 上海乐愚智能科技有限公司 穿衣提示方法及智能家电
CN108388138A (zh) * 2018-02-02 2018-08-10 宁夏玲杰科技有限公司 设备控制方法、装置及系统
CN108461084A (zh) * 2018-03-01 2018-08-28 广东美的制冷设备有限公司 语音识别系统控制方法、控制装置及计算机可读存储介质
CN108957392A (zh) * 2018-04-16 2018-12-07 深圳市沃特沃德股份有限公司 声源方向估计方法和装置
CN110634486A (zh) * 2018-06-21 2019-12-31 阿里巴巴集团控股有限公司 一种语音处理方法及设备
CN109035968B (zh) * 2018-07-12 2020-10-30 杜蘅轩 钢琴学习辅助系统和钢琴
CN109166575A (zh) * 2018-07-27 2019-01-08 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、智能设备和存储介质
CN110875060A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 语音信号处理方法、装置、系统、设备和存储介质
CN111230891B (zh) * 2018-11-29 2021-07-27 深圳市优必选科技有限公司 一种机器人及其语音交互系统
CN109541957A (zh) * 2018-12-29 2019-03-29 青岛小鸟看看科技有限公司 智能交互设备
CN109803013B (zh) * 2019-01-21 2020-10-23 浙江大学 一种基于人工智能的弱交互系统及其控制方法
CN111724772A (zh) * 2019-03-20 2020-09-29 阿里巴巴集团控股有限公司 一种智能设备的交互方法、装置和智能设备
CN110187766A (zh) * 2019-05-31 2019-08-30 北京猎户星空科技有限公司 一种智能设备的控制方法、装置、设备及介质
CN110309799B (zh) * 2019-07-05 2022-02-08 四川长虹电器股份有限公司 基于摄像头的说话判断方法
CN110335603A (zh) * 2019-07-12 2019-10-15 四川长虹电器股份有限公司 应用于电视场景的多模态交互方法
CN111124109B (zh) * 2019-11-25 2023-05-05 北京明略软件系统有限公司 一种交互方式的选择方法、智能终端、设备及存储介质
CN111091823A (zh) * 2019-11-28 2020-05-01 广州赛特智能科技有限公司 基于语音及人脸动作的机器人控制系统、方法及电子设备
CN111694433B (zh) * 2020-06-11 2023-06-20 阿波罗智联(北京)科技有限公司 语音交互的方法、装置、电子设备及存储介质
CN111880854B (zh) * 2020-07-29 2024-04-30 百度在线网络技术(北京)有限公司 用于处理语音的方法和装置
CN112102546A (zh) * 2020-08-07 2020-12-18 浙江大华技术股份有限公司 一种人机交互控制方法、对讲呼叫方法及相关装置
CN111933136B (zh) * 2020-08-18 2024-05-10 南京奥拓电子科技有限公司 一种辅助语音识别控制方法和装置
CN114863924B (zh) * 2021-04-02 2024-09-10 青岛海尔电冰箱有限公司 多设备语音控制的判断方法、智能家电和可读存储介质
CN113608449B (zh) * 2021-08-18 2023-09-15 四川启睿克科技有限公司 一种智慧家庭场景下语音设备定位系统及自动定位方法
CN115781656A (zh) * 2021-09-09 2023-03-14 北京猎户星空科技有限公司 机器人的招揽控制方法、装置、电子设备及存储介质
CN114329654B (zh) * 2022-03-15 2022-05-20 深圳英鸿骏智能科技有限公司 一种基于智慧镜面的交互显示方法和系统
CN115616975A (zh) * 2022-11-11 2023-01-17 广东理工学院 一种数控机械加工用误差检测系统
CN117971045A (zh) * 2024-02-02 2024-05-03 广东凯得智能科技股份有限公司 一种智能人机交互方法、装置、终端设备及存储介质
CN118485688A (zh) * 2024-05-06 2024-08-13 深圳市万屏时代科技有限公司 一种基于人脸追踪控制方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494711A (zh) * 2001-02-05 2004-05-05 �Ҵ���˾ 使用多模式输入进行多模式焦点检测,参考岐义解析和语气分类的系统和方法
CN104777910A (zh) * 2015-04-23 2015-07-15 福州大学 一种表情识别应用于显示器的方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008126329A (ja) * 2006-11-17 2008-06-05 Toyota Motor Corp 音声認識ロボットおよび音声認識ロボットの制御方法
JP4715738B2 (ja) * 2006-12-19 2011-07-06 トヨタ自動車株式会社 発話検出装置及び発話検出方法
CN102405463B (zh) * 2009-04-30 2015-07-29 三星电子株式会社 利用多模态信息的用户意图推理装置及方法
KR101568347B1 (ko) * 2011-04-12 2015-11-12 한국전자통신연구원 지능형 로봇 특성을 갖는 휴대형 컴퓨터 장치 및 그 동작 방법
CN102360187B (zh) * 2011-05-25 2013-06-05 吉林大学 语谱图互相关的驾驶员汉语语音控制系统及方法
CN102298443B (zh) * 2011-06-24 2013-09-25 华南理工大学 结合视频通道的智能家居语音控制系统及其控制方法
JP2016522465A (ja) * 2013-03-15 2016-07-28 ジボ インコーポレイテッド 永続性コンパニオンデバイスを提供するための装置及び方法
CN103745723A (zh) * 2014-01-13 2014-04-23 苏州思必驰信息科技有限公司 一种音频信号识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494711A (zh) * 2001-02-05 2004-05-05 �Ҵ���˾ 使用多模式输入进行多模式焦点检测,参考岐义解析和语气分类的系统和方法
CN104777910A (zh) * 2015-04-23 2015-07-15 福州大学 一种表情识别应用于显示器的方法及系统

Also Published As

Publication number Publication date
WO2017031860A1 (zh) 2017-03-02
CN105159111A (zh) 2015-12-16

Similar Documents

Publication Publication Date Title
CN105159111B (zh) 基于人工智能的智能交互设备控制方法及系统
CN110291489B (zh) 计算上高效的人类标识智能助理计算机
Hassan et al. A smartphone-enabled fall detection framework for elderly people in connected home healthcare
CN105868827B (zh) 一种智能机器人多模态交互方法和智能机器人
CN104985599B (zh) 基于人工智能的智能机器人控制方法、系统及智能机器人
Varghese et al. Overview on emotion recognition system
CN104951084A (zh) 视线追踪方法及装置
US10481864B2 (en) Method and system for emotion-triggered capturing of audio and/or image data
US11875571B2 (en) Smart hearing assistance in monitored property
CN113764099A (zh) 基于人工智能的心理状态分析方法、装置、设备及介质
DE102015218948A1 (de) Vorrichtung und Verfahren zur Bestimmung eines medizinischen Gesundheitsparameters eines Probanden mittels Stimmanalyse
JP6819633B2 (ja) 個人識別装置および特徴収集装置
Chanel et al. Multiple users' emotion recognition: Improving performance by joint modeling of affective reactions
Zhang et al. An effective deep learning approach for unobtrusive sleep stage detection using microphone sensor
CN106346475A (zh) 机器人和机器人控制方法
CN108388399B (zh) 虚拟偶像的状态管理方法及系统
JP2020126195A (ja) 音声対話装置、音声対話装置の制御装置及び制御プログラム
Ahmed et al. Socialsense: A collaborative mobile platform for speaker and mood identification
US20240251121A1 (en) Focus group apparatus and system
Mead et al. Probabilistic models of proxemics for spatially situated communication in hri
Ghosh et al. Humansense: a framework for collective human activity identification using heterogeneous sensor grid in multi-inhabitant smart environments
KR20230154380A (ko) 행동 및 발화 패턴 기반 감성 인식 결과에 의해 사용자의 감성 상태에 적합한 헬스케어 서비스를 제공하는 시스템 및 방법
CN115396769A (zh) 无线耳机及其音量调节方法
Xu et al. Hearing heartbeat from voice: Towards next generation voice-user interfaces with cardiac sensing functions
Liciotti et al. Advanced integration of multimedia assistive technologies: A prospective outlook

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant