CN106782606A - 用于导讲机器人的语言交流与互动系统及其工作方法 - Google Patents
用于导讲机器人的语言交流与互动系统及其工作方法 Download PDFInfo
- Publication number
- CN106782606A CN106782606A CN201710030183.5A CN201710030183A CN106782606A CN 106782606 A CN106782606 A CN 106782606A CN 201710030183 A CN201710030183 A CN 201710030183A CN 106782606 A CN106782606 A CN 106782606A
- Authority
- CN
- China
- Prior art keywords
- sound
- information
- user
- dao
- jiang
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000004891 communication Methods 0.000 title claims abstract description 17
- 230000033001 locomotion Effects 0.000 claims abstract description 18
- 238000011068 loading method Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000001755 vocal effect Effects 0.000 claims description 10
- 230000002996 emotional effect Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 230000003203 everyday effect Effects 0.000 claims description 5
- 230000001815 facial effect Effects 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 5
- 230000007774 longterm Effects 0.000 abstract description 3
- 239000013598 vector Substances 0.000 description 13
- 230000006872 improvement Effects 0.000 description 11
- 230000008451 emotion Effects 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 235000013616 tea Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Manipulator (AREA)
Abstract
本发明公开一种用于导讲机器人的语言交流与互动系统,包括中央处理器单元和与中央处理器单元相连接的输入装置、输出装置、存储器;该系统工作方法的步骤是:S1、语音拾音器、摄像头采集声音和人脸信息;S2、进入用户模式或游客模式;S3、机器人引导式询问,并以LED灯作为提示输入;S4、语音识别并经数据库相似度匹配后输出;S5、中央处理单元各个模块处理输出信息,并发出指令;S6、扬声器输出声音、机器人运动或控制协调工作。本发明的用于导讲机器人的语言交流与互动系统,达到了友好的人机交互效果,基于博物馆的导讲任务,所述的语音交互系统完全可以胜任,并且操作方便,从长期使用情况来看,节省了高昂的人工费用的支出。
Description
技术领域
本发明涉及机器人技术领域,具体地说涉及一种用于导讲机器人的语言交流与互动系统及其工作方法。
背景技术
导讲机器人是用于引导和讲解的机器人,随着社会的进步和生活水平的提高,导讲机器人已经用于人们生活的各个方面,为人们提供了极大的方便;但目前的导讲机器人仍然存在着多种缺陷如:1、人机交互能力差;2、功能单一,大多仅停留在按钮、手柄控制;3、没有用户身份辨别或者容易误辨别,安全性不高;4、只要有声音就可以识别,机器人说个不停;5语音对话没有提示等。
发明内容
本发明的目的在于针对上述现有技术的缺陷,提供一种用于导讲机器人的语言交流与互动系统及其工作方法。采用声纹特征和面部特征双重门限精确确认用户身份;有用户模式和游客模式两种模式,人机交互能力强,可以中英文交互,各个场景交互,情感分析,语音控制,LED指示灯提示;可以引导式问答,具备不同数据库,包括场景数据库:历史文化、俏皮话、歌曲、算术;情感内容数据库:高兴、生气、中性、悲伤、害怕;运动控制数据库:前进、后退、左转、右转、再转一点、快一点、再快一点、慢一点、再慢一点、停止;日常对话数据库。达到了友好的人机交互效果,基于博物馆的导讲任务,所述的语音交互系统完全可以胜任,并且操作方便。
为实现上述目的,本发明所采取的技术方案是:
一种用于导讲机器人的语言交流与互动系统,包括中央处理器单元和与中央处理器单元相连接的输入装置、输出装置、存储器;所述输入装置包括声音采集器和人脸采集器,所述中央处理器单元包括处理器、与处理器相连接的身份鉴别模块、中英文语音识别模块、语音情感分析模块、语音控制模块、语音导讲模块,所述输出装置包括扬声器和信号灯,所述存储器包括数据库;所述人脸采集器、声音采集器与处理器相连接,分别用于采集用户的声音信息和人脸信息,识别客户的身份;所述中英文语音识别模块与处理器相连接,采集和鉴别客户的中英文语音信息;所述身份鉴别模块、中英文语音识别模块、语音情感分析模块、语音控制模块、语音导讲模块接受并处理声音信息、人脸信息、中英文语音信息,对输入装置采集的声音信息和人脸信息进行分析处理、语音情感分析并将这种信息输入到存储器中,保存在数据库中;所述输出装置接收指令,以音频或者电信号的方式输出。
作为对上述技术方案的改进,所述声音采集器为声音拾音器,所述人脸采集器为摄像头;所述信号灯为LED灯。
作为对上述技术方案的改进,所述数据库预先存储用户的身份信息,包含用户的声纹特征和面部特征。
作为对上述技术方案的改进,所述数据库加载中文和英文两种语言;加载不同场景的讲解内容,包含博物馆历史文化、俏皮话、歌曲、算术;加载情感内容;加载运动控制内容,包含前进、后退、左转、右转、再转一点、快一点、再快一点、慢一点、再慢一点、停止;加载日常对话内容。
作为对上述技术方案的改进,所述输入装置包括用户模式和游客模式;在所述用户模式下,输入装置进行身份确认和交互;在所述游客模式下,所述输入装置对游客的人脸进行交互;根据用户面部特征和声纹特征信息和数据库中的用户身份根据用户面部特征和声纹特征信息和数据库中的用户身份信息进行匹配,匹配度作为机器人是否做出响应的条件。
作为对上述技术方案的改进,本发明并提供了该用于导讲机器人的语言交流与互动系统的工作方法,该工作方法的步骤是:
S1、语音拾音器、摄像头采集声音和人脸信息;
S2、进入用户模式或游客模式;
S3、机器人引导式询问,并以LED灯作为提示输入;
S4、语音识别并经数据库相似度匹配后输出;
S5、中央处理单元各个模块处理输出信息,并发出指令;
S6、扬声器输出声音、机器人运动或控制协调工作。
与现有技术相比,本发明具有的优点和积极效果是:
本发明的用于导讲机器人的语言交流与互动系统,达到了友好的人机交互效果,基于博物馆的导讲任务,所述的语音交互系统完全可以胜任,并且操作方便,从长期使用情况来看,节省了高昂的人工费用的支出。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的工作流程图;
图2为本发明的数据库组成框图;
图3为本发明的中央处理单元的组成结构框图;
图4为本发明的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
如图1、2、3和4所示,本发明的一种用于导讲机器人的语言交流与互动系统,包括中央处理器单元和与中央处理器单元相连接的输入装置、输出装置、存储器;所述输入装置包括声音采集器和人脸采集器,所述中央处理器单元包括处理器、与处理器相连接的身份鉴别模块、中英文语音识别模块、语音情感分析模块、语音控制模块、语音导讲模块,所述输出装置包括扬声器和信号灯,所述存储器包括数据库;所述人脸采集器、声音采集器与处理器相连接,分别用于采集用户的声音信息和人脸信息,识别客户的身份;所述中英文语音识别模块与处理器相连接,采集和鉴别客户的中英文语音信息;所述身份鉴别模块、中英文语音识别模块、语音情感分析模块、语音控制模块、语音导讲模块接受并处理声音信息、人脸信息、中英文语音信息,对输入装置采集的声音信息和人脸信息进行分析处理、语音情感分析并将这种信息输入到存储器中,保存在数据库中;所述输出装置接收指令,以音频或者电信号的方式输出。
作为对上述技术方案的改进,所述声音采集器为声音拾音器,所述人脸采集器为摄像头;所述信号灯为LED灯。
作为对上述技术方案的改进,所述数据库预先存储用户的身份信息,包含用户的声纹特征和面部特征。
作为对上述技术方案的改进,所述数据库加载中文和英文两种语言;加载不同场景的讲解内容,包含博物馆历史文化、俏皮话、歌曲、算术;加载情感内容;加载运动控制内容,包含前进、后退、左转、右转、再转一点、快一点、再快一点、慢一点、再慢一点、停止;加载日常对话内容。
作为对上述技术方案的改进,所述输入装置包括用户模式和游客模式;在所述用户模式下,输入装置进行身份确认和交互;在所述游客模式下,所述输入装置对游客的人脸进行交互;根据用户面部特征和声纹特征信息和数据库中的用户身份根据用户面部特征和声纹特征信息和数据库中的用户身份信息进行匹配,匹配度作为机器人是否做出响应的条件。
作为对上述技术方案的改进,本发明并提供了该用于导讲机器人的语言交流与互动系统的工作方法,该工作方法的步骤是:
S1、语音拾音器、摄像头采集声音和人脸信息;
S2、进入用户模式或游客模式;
S3、机器人引导式询问,并以LED灯作为提示输入;
S4、语音识别并经数据库相似度匹配后输出;
S5、中央处理单元各个模块处理输出信息,并发出指令;
S6、扬声器输出声音、机器人运动或控制协调工作。
与现有技术相比,本发明具有的优点和积极效果是:
本发明的用于导讲机器人的语言交流与互动系统,达到了友好的人机交互效果,基于博物馆的导讲任务,所述的语音交互系统完全可以胜任,并且操作方便,从长期使用情况来看,节省了高昂的人工费用的支出。
所述声音和人脸采集器可以采集用户的身份信息存储到存储器中,并进过中央处理器单元,加载存储器中的数据库进行匹配处理,结果由输出装置以音频或者电信号的方式输出。
输入装置包括声音采集器和人脸采集器,采集用户的身份信息。在机器人的两个耳朵处分别放置语音感应器,用于采集用户声音。在机器人的两个眼睛处分别放置摄像头,用于采集用户人脸信息。将采集到的用户声音和人脸信息传送到存储器中,提取它们的特征矢量,存储起来。当再次遇见该用户时,提取身份信息,并与之前存储的身份信息相比较,定义相似度准则,满足相似度阈值,则识别该用户。
数据库加载语言、各类场景、情感信息和运动控制内容。在语音交互系统开启时,都会预先加载语言、各类场景、情感信息和运动控制的标号信息。在数据库按树结构形式设计了中文和英文数据库。以中文数据库为例,数据库中设置了博物馆历史文化、俏皮话、歌曲、算术四类的场景信息,以及高兴、生气、中性、悲伤、害怕五种情感交谈数据库;同时数据库中,也设计了运动控制内容,包含前进、后退、左转、右转、再转一点、快一点、再快一点、慢一点、再慢一点、停止;以及日常对话内容,例如“你叫什么名字”对应于“我是小童,欢迎您来参观”等。
主动询问用户所需要进行交互的语言以及场景类别,使用LED信号灯作为语音输入时机的标志。在机器人对用户身份确认之后,机器人就会做出响应,比如用户是王大锤,机器人响应“你好啊,王大锤”;接着机器人会补加一条音频,主动询问用户需要进行交流的语言;待用户正确回答后,再补加一条音频,主动询问用户需要进行交流的领域;待用户正确回答后,检索对应语言对应类别的数据库,进行该类别数据的全部加载;若用户回答不正确或超时,则机器人再次进行询问,并记录询问次数。该次数作为判断用户是否有意捉弄机器人的依据。
中英文语音识别。目前常用的语音特征参数是Mel倒谱系数(MFCC)和线性预测系数(LPCC),在实践中都达到了较好的识别效果。本文先提取MFCC和LPCC参数,并进行一阶差分,得到特征的动态信息△MFCC和△LPCC,将其作为特征矢量的一部分;接着计算各维特征矢量对识别的贡献度;设置贡献度阈值,贡献大的保留,贡献小的舍去;接着将MFCC参数和LPCC参数中保留下来的特征矢量进行动态加权;设置特征矢量维度阈值;若加权后的特征矢量超过维度阈值,则进行主成分分析(PCA)降低维度;否则,加权后直接输出特征矢量;最终获得融合的语音特征矢量。将融合后的特征矢量送入BP(Error Back PropagationNetwork)神经网络训练学习。
动态加权计算公式:
H(i)=piγi+qi(1-γi) 0≤i<max{m,n}.
式中:ρ为Mel比例系数;m,n分别为MFCC+△MFCC和LPCC+△LPCC特征向量维数;MFCC+△MFCC特征向量P(p1,p2,…,pm);LPCC+△LPCC特征向量Q(q1,q2,…,qn);H(i)为非线性加权后的融合特征参数。
BP神经网络包括输入层、隐含层和输出层,学习过程包含信号的正向传播和误差的反向传播两个过程,学习规则采用梯度下降法。
用户情感内容解析。中央处理单元包含语音情感分析模块,判断内容中是否包含人的情感信息,若有则转入其对应的数据库进行分析处理。情感分析模块采用的是基于主成分分析分析(PCA)以及概率神经网络(PNN)算法来进行用户情感解析。
语音特征情感包含了短时能量及其衍生参数、基音频率及其衍生参数、共振峰及其衍生参数、Mel倒谱系数(MFCC)共140维特征参数。
主成分分析法(PCA)是在原始数据中提取主要特征分量,舍去一些不重要的数据,使得减少特征数据存储量,提升训练速度的优点,同时也避免了非重要数据对识别结果的影响。将降维后的10维情感特征矢量,输送至概率神经网络训练学习。
概率神经网络由输入层、样本层、求和层和竞争层四部分组成,主要思想是根据贝叶斯决策规则,即错误分类的期望风险最小,在多维输入空间内分离决策。
用户运动或控制内容解析。中央处理单元包含语音运动控制模块,判断内容中是否包含运动或控制信息,若有则转入其对应的数据库进行分析处理。
若用户语音内容中包含运动或控制信息,则根据运动或控制数据库中的内容发出相应的运动或控制指令,机器人头部、手臂、手指或轮子电机接收指令,做出规划好的运动或者动作。
定义相似度匹配函数。在语音识别出的字符与数据库匹配时,需要定义相似度匹配函数。相似度函数编写步骤如下:
第一步:根据同义词词典,将每个词或词语所对应的多个同义词用一个默认的词或词语所替代。例如“爱”、“喜欢”、“钟情”等多个同义词都用“喜欢”这个词来代表。
第二步:经过同义词变换过的两个句子计算它们之间的编辑距离。编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
第三步:通过下面公式计算相似度:
式中,δ是两句子的相似度,A和B分别是同义变换后的句子长度,dist(A,B)是它们之间的编辑距离。
扬声器和运动或动作协调工作。人是一个多行为的统一体,可以自然地有逻辑地做进行多种行为而不会混乱,机器人也是如此。在中央处理单元,对数据库中的内容所对应的音频、运动或动作按照人的逻辑关系整理好,在中央处理单元有逻辑性地处理他们之间的关系,将说话与行动统一起来,比如说,当李四询问“你认识我吗?”,机器人会辨认用户身份,若鉴别成功,则回复“李四,你好啊,握握手吧”,同时机器人伸出右手。
触摸传感器的使用。在机器人的手掌处安装触摸传感器,作为判断用户握手的状态。当有用户与机器人手掌接触时,触摸传感器发送控制指令,机器人手指自然握紧90度;当无用户手掌接触时,机器人设置时间阈值,超过阈值时间机器人播放音频“给个面子,握个手吧”。当然机器人本体安装了多种传感器,如听觉传感器、视觉传感器、红外传感器等。本实施例的传感器只作为示范性描述,使得本发明简单明了。
Claims (6)
1.一种用于导讲机器人的语言交流与互动系统,其特征在于:包括中央处理器单元和与中央处理器单元相连接的输入装置、输出装置、存储器;所述输入装置包括声音采集器和人脸采集器,所述中央处理器单元包括处理器、与处理器相连接的身份鉴别模块、中英文语音识别模块、语音情感分析模块、语音控制模块、语音导讲模块,所述输出装置包括扬声器和信号灯,所述存储器包括数据库;所述人脸采集器、声音采集器与处理器相连接,分别用于采集用户的声音信息和人脸信息,识别客户的身份;所述中英文语音识别模块与处理器相连接,采集和鉴别客户的中英文语音信息;所述身份鉴别模块、中英文语音识别模块、语音情感分析模块、语音控制模块、语音导讲模块接受并处理声音信息、人脸信息、中英文语音信息,对输入装置采集的声音信息和人脸信息进行分析处理、语音情感分析并将这种信息输入到存储器中,保存在数据库中;所述输出装置接收指令,以音频或者电信号的方式输出。
2.根据权利要求1所述的用于导讲机器人的语言交流与互动系统,其特征在于:所述声音采集器为声音拾音器,所述人脸采集器为摄像头;所述信号灯为LED灯。
3.根据权利要求1所述的用于导讲机器人的语言交流与互动系统,其特征在于:所述数据库预先存储用户的身份信息,包含用户的声纹特征和面部特征。
4.根据权利要求1所述的用于导讲机器人的语言交流与互动系统,其特征在于:所述数据库加载中文和英文两种语言;加载不同场景的讲解内容,包含博物馆历史文化、俏皮话、歌曲、算术;加载情感内容;加载运动控制内容,包含前进、后退、左转、右转、再转一点、快一点、再快一点、慢一点、再慢一点、停止;加载日常对话内容。
5.根据权利要求1所述的用于导讲机器人的语言交流与互动系统,其特征在于:所述输入装置包括用户模式和游客模式;在所述用户模式下,输入装置进行身份确认和交互;在所述游客模式下,所述输入装置对游客的人脸进行交互;根据用户面部特征和声纹特征信息和数据库中的用户身份根据用户面部特征和声纹特征信息和数据库中的用户身份信息进行匹配,匹配度作为机器人是否做出响应的条件。
6.一种如权利要求1至5中任一种用于导讲机器人的语言交流与互动系统的工作方法,其特征在于:该工作方法的步骤是:
S1、语音拾音器、摄像头采集声音和人脸信息;
S2、进入用户模式或游客模式;
S3、机器人引导式询问,并以LED灯作为提示输入;
S4、语音识别并经数据库相似度匹配后输出;
S5、中央处理单元各个模块处理输出信息,并发出指令;
S6、扬声器输出声音、机器人运动或控制协调工作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710030183.5A CN106782606A (zh) | 2017-01-17 | 2017-01-17 | 用于导讲机器人的语言交流与互动系统及其工作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710030183.5A CN106782606A (zh) | 2017-01-17 | 2017-01-17 | 用于导讲机器人的语言交流与互动系统及其工作方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106782606A true CN106782606A (zh) | 2017-05-31 |
Family
ID=58946021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710030183.5A Pending CN106782606A (zh) | 2017-01-17 | 2017-01-17 | 用于导讲机器人的语言交流与互动系统及其工作方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106782606A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107283435A (zh) * | 2017-06-15 | 2017-10-24 | 重庆柚瓣科技有限公司 | 养老机器人的特定信息收集系统 |
CN107424085A (zh) * | 2017-08-01 | 2017-12-01 | 深圳市益廷科技有限公司 | 一种酒店服务系统 |
CN107507620A (zh) * | 2017-09-25 | 2017-12-22 | 广东小天才科技有限公司 | 一种语音播报声音设置方法、装置、移动终端及存储介质 |
CN108132805A (zh) * | 2017-12-20 | 2018-06-08 | 深圳Tcl新技术有限公司 | 语音交互方法、装置及计算机可读存储介质 |
CN109773806A (zh) * | 2019-02-28 | 2019-05-21 | 利哲科技(厦门)股份有限公司 | 一种基于人工智能的电销ai机器人 |
CN109887503A (zh) * | 2019-01-20 | 2019-06-14 | 北京联合大学 | 一种智能服务机器人的人机交互方法 |
CN110164455A (zh) * | 2018-02-14 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 用户身份识别的装置、方法和存储介质 |
CN110385723A (zh) * | 2018-04-17 | 2019-10-29 | 株式会社日立大厦系统 | 引导机器人系统以及语言选择方法 |
CN112297019A (zh) * | 2020-10-12 | 2021-02-02 | 杭州横竖科技有限公司 | 泛在问询机器人及其问询方法 |
CN113741458A (zh) * | 2021-09-03 | 2021-12-03 | 北京易航远智科技有限公司 | 一种机器人现场求助跟随或手势指导的行驶方法和系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1581293A (zh) * | 2003-08-07 | 2005-02-16 | 王东篱 | 基于有限集语音识别的人机交互方法与装置 |
CN1781140A (zh) * | 2003-03-20 | 2006-05-31 | 索尼株式会社 | 语音对话设备、方法和机器人设备 |
CN101187990A (zh) * | 2007-12-14 | 2008-05-28 | 华南理工大学 | 一种会话机器人系统 |
CN202123513U (zh) * | 2011-05-10 | 2012-01-25 | 富通彗(北京)科技有限公司 | 多点感应触摸机器人 |
CN102723078A (zh) * | 2012-07-03 | 2012-10-10 | 武汉科技大学 | 基于自然言语理解的语音情感识别方法 |
CN104487980A (zh) * | 2012-07-25 | 2015-04-01 | 三星电子株式会社 | 用户终端设备及其控制方法 |
CN105047194A (zh) * | 2015-07-28 | 2015-11-11 | 东南大学 | 一种用于语音情感识别的自学习语谱图特征提取方法 |
CN105058393A (zh) * | 2015-08-17 | 2015-11-18 | 李泉生 | 一种迎宾机器人 |
CN105425970A (zh) * | 2015-12-29 | 2016-03-23 | 深圳羚羊微服机器人科技有限公司 | 一种人机互动的方法、装置及机器人 |
CN105681920A (zh) * | 2015-12-30 | 2016-06-15 | 深圳市鹰硕音频科技有限公司 | 一种具有语音识别功能的网络教学方法及系统 |
CN105810200A (zh) * | 2016-02-04 | 2016-07-27 | 深圳前海勇艺达机器人有限公司 | 基于声纹识别的人机对话装置及其方法 |
CN106128453A (zh) * | 2016-08-30 | 2016-11-16 | 深圳市容大数字技术有限公司 | 一种机器人的智能识别语音自动应答方法及机器人 |
CN106127156A (zh) * | 2016-06-27 | 2016-11-16 | 上海元趣信息技术有限公司 | 基于声纹和人脸识别的机器人交互方法 |
CN106113038A (zh) * | 2016-07-08 | 2016-11-16 | 纳恩博(北京)科技有限公司 | 基于机器人的模式切换方法及装置 |
CN106200886A (zh) * | 2015-04-30 | 2016-12-07 | 包伯瑜 | 一种基于语言交互操控的移动智能玩具及玩具使用方法 |
CN106297789A (zh) * | 2016-08-19 | 2017-01-04 | 北京光年无限科技有限公司 | 智能机器人的个性化交互方法及交互系统 |
-
2017
- 2017-01-17 CN CN201710030183.5A patent/CN106782606A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1781140A (zh) * | 2003-03-20 | 2006-05-31 | 索尼株式会社 | 语音对话设备、方法和机器人设备 |
CN1581293A (zh) * | 2003-08-07 | 2005-02-16 | 王东篱 | 基于有限集语音识别的人机交互方法与装置 |
CN101187990A (zh) * | 2007-12-14 | 2008-05-28 | 华南理工大学 | 一种会话机器人系统 |
CN202123513U (zh) * | 2011-05-10 | 2012-01-25 | 富通彗(北京)科技有限公司 | 多点感应触摸机器人 |
CN102723078A (zh) * | 2012-07-03 | 2012-10-10 | 武汉科技大学 | 基于自然言语理解的语音情感识别方法 |
CN104487980A (zh) * | 2012-07-25 | 2015-04-01 | 三星电子株式会社 | 用户终端设备及其控制方法 |
CN106200886A (zh) * | 2015-04-30 | 2016-12-07 | 包伯瑜 | 一种基于语言交互操控的移动智能玩具及玩具使用方法 |
CN105047194A (zh) * | 2015-07-28 | 2015-11-11 | 东南大学 | 一种用于语音情感识别的自学习语谱图特征提取方法 |
CN105058393A (zh) * | 2015-08-17 | 2015-11-18 | 李泉生 | 一种迎宾机器人 |
CN105425970A (zh) * | 2015-12-29 | 2016-03-23 | 深圳羚羊微服机器人科技有限公司 | 一种人机互动的方法、装置及机器人 |
CN105681920A (zh) * | 2015-12-30 | 2016-06-15 | 深圳市鹰硕音频科技有限公司 | 一种具有语音识别功能的网络教学方法及系统 |
CN105810200A (zh) * | 2016-02-04 | 2016-07-27 | 深圳前海勇艺达机器人有限公司 | 基于声纹识别的人机对话装置及其方法 |
CN106127156A (zh) * | 2016-06-27 | 2016-11-16 | 上海元趣信息技术有限公司 | 基于声纹和人脸识别的机器人交互方法 |
CN106113038A (zh) * | 2016-07-08 | 2016-11-16 | 纳恩博(北京)科技有限公司 | 基于机器人的模式切换方法及装置 |
CN106297789A (zh) * | 2016-08-19 | 2017-01-04 | 北京光年无限科技有限公司 | 智能机器人的个性化交互方法及交互系统 |
CN106128453A (zh) * | 2016-08-30 | 2016-11-16 | 深圳市容大数字技术有限公司 | 一种机器人的智能识别语音自动应答方法及机器人 |
Non-Patent Citations (1)
Title |
---|
石敏: ""中文文本自动校对系统"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107283435A (zh) * | 2017-06-15 | 2017-10-24 | 重庆柚瓣科技有限公司 | 养老机器人的特定信息收集系统 |
CN107283435B (zh) * | 2017-06-15 | 2020-10-16 | 重庆柚瓣科技有限公司 | 养老机器人的特定信息收集系统 |
CN107424085A (zh) * | 2017-08-01 | 2017-12-01 | 深圳市益廷科技有限公司 | 一种酒店服务系统 |
CN107507620A (zh) * | 2017-09-25 | 2017-12-22 | 广东小天才科技有限公司 | 一种语音播报声音设置方法、装置、移动终端及存储介质 |
CN108132805A (zh) * | 2017-12-20 | 2018-06-08 | 深圳Tcl新技术有限公司 | 语音交互方法、装置及计算机可读存储介质 |
CN110164455A (zh) * | 2018-02-14 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 用户身份识别的装置、方法和存储介质 |
CN110385723A (zh) * | 2018-04-17 | 2019-10-29 | 株式会社日立大厦系统 | 引导机器人系统以及语言选择方法 |
CN109887503A (zh) * | 2019-01-20 | 2019-06-14 | 北京联合大学 | 一种智能服务机器人的人机交互方法 |
CN109773806A (zh) * | 2019-02-28 | 2019-05-21 | 利哲科技(厦门)股份有限公司 | 一种基于人工智能的电销ai机器人 |
CN112297019A (zh) * | 2020-10-12 | 2021-02-02 | 杭州横竖科技有限公司 | 泛在问询机器人及其问询方法 |
CN112297019B (zh) * | 2020-10-12 | 2022-04-15 | 杭州横竖科技有限公司 | 泛在问询机器人及其问询方法 |
CN113741458A (zh) * | 2021-09-03 | 2021-12-03 | 北京易航远智科技有限公司 | 一种机器人现场求助跟随或手势指导的行驶方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106782606A (zh) | 用于导讲机器人的语言交流与互动系统及其工作方法 | |
Tripathi et al. | Deep learning based emotion recognition system using speech features and transcriptions | |
CN108877801B (zh) | 基于多模态情绪识别系统的多轮对话语义理解子系统 | |
CN108805089B (zh) | 基于多模态的情绪识别方法 | |
CN114694076B (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
CN108805088B (zh) | 基于多模态情绪识别系统的生理信号分析子系统 | |
Atmaja et al. | Speech emotion recognition based on speech segment using LSTM with attention model | |
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
Li et al. | Learning fine-grained cross modality excitement for speech emotion recognition | |
Schuller et al. | Emotion recognition in the noise applying large acoustic feature sets | |
Liu et al. | Group gated fusion on attention-based bidirectional alignment for multimodal emotion recognition | |
Yang et al. | Predicting Arousal and Valence from Waveforms and Spectrograms Using Deep Neural Networks. | |
CN110827821B (zh) | 一种语音交互装置、方法和计算机可读存储介质 | |
US11594224B2 (en) | Voice user interface for intervening in conversation of at least one user by adjusting two different thresholds | |
CN111583964B (zh) | 一种基于多模深度特征学习的自然语音情感识别方法 | |
CN109522835A (zh) | 基于智能机器人的儿童读物阅读与交互方法及系统 | |
CN107972028B (zh) | 人机交互方法、装置及电子设备 | |
CN109308466A (zh) | 一种对交互语言进行情绪识别的方法 | |
CN106985137A (zh) | 用于智能机器人的多模态交互方法及系统 | |
US11756551B2 (en) | System and method for producing metadata of an audio signal | |
CN108009490A (zh) | 一种基于识别情绪的聊天机器人系统及该系统的判断方法 | |
CN109101663A (zh) | 一种基于互联网的机器人对话系统 | |
CN112579762B (zh) | 一种基于语义、情感惯性和情感共性的对话情感分析方法 | |
CN117765981A (zh) | 一种基于语音文本跨模态融合的情感识别方法及系统 | |
CN106557164A (zh) | 应用于智能机器人的多模态输出方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |
|
RJ01 | Rejection of invention patent application after publication |