CN106782606A

CN106782606A - 用于导讲机器人的语言交流与互动系统及其工作方法

Info

Publication number: CN106782606A
Application number: CN201710030183.5A
Authority: CN
Inventors: 谢明; 陈闯; 陈海
Original assignee: Shandong South Robot Technology Co Ltd
Current assignee: Shandong South Robot Technology Co Ltd
Priority date: 2017-01-17
Filing date: 2017-01-17
Publication date: 2017-05-31

Abstract

本发明公开一种用于导讲机器人的语言交流与互动系统，包括中央处理器单元和与中央处理器单元相连接的输入装置、输出装置、存储器；该系统工作方法的步骤是：S1、语音拾音器、摄像头采集声音和人脸信息；S2、进入用户模式或游客模式；S3、机器人引导式询问，并以LED灯作为提示输入；S4、语音识别并经数据库相似度匹配后输出；S5、中央处理单元各个模块处理输出信息，并发出指令；S6、扬声器输出声音、机器人运动或控制协调工作。本发明的用于导讲机器人的语言交流与互动系统，达到了友好的人机交互效果，基于博物馆的导讲任务，所述的语音交互系统完全可以胜任，并且操作方便，从长期使用情况来看，节省了高昂的人工费用的支出。

Description

用于导讲机器人的语言交流与互动系统及其工作方法

技术领域

本发明涉及机器人技术领域，具体地说涉及一种用于导讲机器人的语言交流与互动系统及其工作方法。

背景技术

导讲机器人是用于引导和讲解的机器人，随着社会的进步和生活水平的提高，导讲机器人已经用于人们生活的各个方面，为人们提供了极大的方便；但目前的导讲机器人仍然存在着多种缺陷如：1、人机交互能力差；2、功能单一，大多仅停留在按钮、手柄控制；3、没有用户身份辨别或者容易误辨别，安全性不高；4、只要有声音就可以识别，机器人说个不停；5语音对话没有提示等。

发明内容

本发明的目的在于针对上述现有技术的缺陷，提供一种用于导讲机器人的语言交流与互动系统及其工作方法。采用声纹特征和面部特征双重门限精确确认用户身份；有用户模式和游客模式两种模式，人机交互能力强，可以中英文交互，各个场景交互，情感分析，语音控制，LED指示灯提示；可以引导式问答，具备不同数据库，包括场景数据库：历史文化、俏皮话、歌曲、算术；情感内容数据库：高兴、生气、中性、悲伤、害怕；运动控制数据库：前进、后退、左转、右转、再转一点、快一点、再快一点、慢一点、再慢一点、停止；日常对话数据库。达到了友好的人机交互效果，基于博物馆的导讲任务，所述的语音交互系统完全可以胜任，并且操作方便。

为实现上述目的，本发明所采取的技术方案是：

一种用于导讲机器人的语言交流与互动系统，包括中央处理器单元和与中央处理器单元相连接的输入装置、输出装置、存储器；所述输入装置包括声音采集器和人脸采集器，所述中央处理器单元包括处理器、与处理器相连接的身份鉴别模块、中英文语音识别模块、语音情感分析模块、语音控制模块、语音导讲模块，所述输出装置包括扬声器和信号灯，所述存储器包括数据库；所述人脸采集器、声音采集器与处理器相连接，分别用于采集用户的声音信息和人脸信息，识别客户的身份；所述中英文语音识别模块与处理器相连接，采集和鉴别客户的中英文语音信息；所述身份鉴别模块、中英文语音识别模块、语音情感分析模块、语音控制模块、语音导讲模块接受并处理声音信息、人脸信息、中英文语音信息，对输入装置采集的声音信息和人脸信息进行分析处理、语音情感分析并将这种信息输入到存储器中，保存在数据库中；所述输出装置接收指令，以音频或者电信号的方式输出。

作为对上述技术方案的改进，所述声音采集器为声音拾音器，所述人脸采集器为摄像头；所述信号灯为LED灯。

作为对上述技术方案的改进，所述数据库预先存储用户的身份信息，包含用户的声纹特征和面部特征。

作为对上述技术方案的改进，所述数据库加载中文和英文两种语言；加载不同场景的讲解内容，包含博物馆历史文化、俏皮话、歌曲、算术；加载情感内容；加载运动控制内容，包含前进、后退、左转、右转、再转一点、快一点、再快一点、慢一点、再慢一点、停止；加载日常对话内容。

作为对上述技术方案的改进，所述输入装置包括用户模式和游客模式；在所述用户模式下，输入装置进行身份确认和交互；在所述游客模式下，所述输入装置对游客的人脸进行交互；根据用户面部特征和声纹特征信息和数据库中的用户身份根据用户面部特征和声纹特征信息和数据库中的用户身份信息进行匹配，匹配度作为机器人是否做出响应的条件。

作为对上述技术方案的改进，本发明并提供了该用于导讲机器人的语言交流与互动系统的工作方法，该工作方法的步骤是：

S1、语音拾音器、摄像头采集声音和人脸信息；

S2、进入用户模式或游客模式；

S3、机器人引导式询问，并以LED灯作为提示输入；

S4、语音识别并经数据库相似度匹配后输出；

S5、中央处理单元各个模块处理输出信息，并发出指令；

S6、扬声器输出声音、机器人运动或控制协调工作。

与现有技术相比，本发明具有的优点和积极效果是：

本发明的用于导讲机器人的语言交流与互动系统，达到了友好的人机交互效果，基于博物馆的导讲任务，所述的语音交互系统完全可以胜任，并且操作方便，从长期使用情况来看，节省了高昂的人工费用的支出。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的工作流程图；

图2为本发明的数据库组成框图；

图3为本发明的中央处理单元的组成结构框图；

图4为本发明的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

如图1、2、3和4所示，本发明的一种用于导讲机器人的语言交流与互动系统，包括中央处理器单元和与中央处理器单元相连接的输入装置、输出装置、存储器；所述输入装置包括声音采集器和人脸采集器，所述中央处理器单元包括处理器、与处理器相连接的身份鉴别模块、中英文语音识别模块、语音情感分析模块、语音控制模块、语音导讲模块，所述输出装置包括扬声器和信号灯，所述存储器包括数据库；所述人脸采集器、声音采集器与处理器相连接，分别用于采集用户的声音信息和人脸信息，识别客户的身份；所述中英文语音识别模块与处理器相连接，采集和鉴别客户的中英文语音信息；所述身份鉴别模块、中英文语音识别模块、语音情感分析模块、语音控制模块、语音导讲模块接受并处理声音信息、人脸信息、中英文语音信息，对输入装置采集的声音信息和人脸信息进行分析处理、语音情感分析并将这种信息输入到存储器中，保存在数据库中；所述输出装置接收指令，以音频或者电信号的方式输出。

S1、语音拾音器、摄像头采集声音和人脸信息；

S2、进入用户模式或游客模式；

S3、机器人引导式询问，并以LED灯作为提示输入；

S4、语音识别并经数据库相似度匹配后输出；

S5、中央处理单元各个模块处理输出信息，并发出指令；

S6、扬声器输出声音、机器人运动或控制协调工作。

与现有技术相比，本发明具有的优点和积极效果是：

所述声音和人脸采集器可以采集用户的身份信息存储到存储器中，并进过中央处理器单元，加载存储器中的数据库进行匹配处理，结果由输出装置以音频或者电信号的方式输出。

输入装置包括声音采集器和人脸采集器，采集用户的身份信息。在机器人的两个耳朵处分别放置语音感应器，用于采集用户声音。在机器人的两个眼睛处分别放置摄像头，用于采集用户人脸信息。将采集到的用户声音和人脸信息传送到存储器中，提取它们的特征矢量，存储起来。当再次遇见该用户时，提取身份信息，并与之前存储的身份信息相比较，定义相似度准则，满足相似度阈值，则识别该用户。

数据库加载语言、各类场景、情感信息和运动控制内容。在语音交互系统开启时，都会预先加载语言、各类场景、情感信息和运动控制的标号信息。在数据库按树结构形式设计了中文和英文数据库。以中文数据库为例，数据库中设置了博物馆历史文化、俏皮话、歌曲、算术四类的场景信息，以及高兴、生气、中性、悲伤、害怕五种情感交谈数据库；同时数据库中，也设计了运动控制内容，包含前进、后退、左转、右转、再转一点、快一点、再快一点、慢一点、再慢一点、停止；以及日常对话内容，例如“你叫什么名字”对应于“我是小童，欢迎您来参观”等。

主动询问用户所需要进行交互的语言以及场景类别，使用LED信号灯作为语音输入时机的标志。在机器人对用户身份确认之后，机器人就会做出响应，比如用户是王大锤，机器人响应“你好啊，王大锤”；接着机器人会补加一条音频，主动询问用户需要进行交流的语言；待用户正确回答后，再补加一条音频，主动询问用户需要进行交流的领域；待用户正确回答后，检索对应语言对应类别的数据库，进行该类别数据的全部加载；若用户回答不正确或超时，则机器人再次进行询问，并记录询问次数。该次数作为判断用户是否有意捉弄机器人的依据。

中英文语音识别。目前常用的语音特征参数是Mel倒谱系数(MFCC)和线性预测系数(LPCC)，在实践中都达到了较好的识别效果。本文先提取MFCC和LPCC参数，并进行一阶差分，得到特征的动态信息△MFCC和△LPCC，将其作为特征矢量的一部分；接着计算各维特征矢量对识别的贡献度；设置贡献度阈值，贡献大的保留，贡献小的舍去；接着将MFCC参数和LPCC参数中保留下来的特征矢量进行动态加权；设置特征矢量维度阈值；若加权后的特征矢量超过维度阈值，则进行主成分分析(PCA)降低维度；否则，加权后直接输出特征矢量；最终获得融合的语音特征矢量。将融合后的特征矢量送入BP(Error Back PropagationNetwork)神经网络训练学习。

动态加权计算公式：

H(i)＝p_iγ_i+q_i(1-γ_i) 0≤i＜max{m,n}.

式中：ρ为Mel比例系数；m,n分别为MFCC+△MFCC和LPCC+△LPCC特征向量维数；MFCC+△MFCC特征向量P(p₁,p₂,…,p_m)；LPCC+△LPCC特征向量Q(q₁,q₂,…,q_n)；H(i)为非线性加权后的融合特征参数。

BP神经网络包括输入层、隐含层和输出层，学习过程包含信号的正向传播和误差的反向传播两个过程，学习规则采用梯度下降法。

用户情感内容解析。中央处理单元包含语音情感分析模块，判断内容中是否包含人的情感信息，若有则转入其对应的数据库进行分析处理。情感分析模块采用的是基于主成分分析分析(PCA)以及概率神经网络(PNN)算法来进行用户情感解析。

语音特征情感包含了短时能量及其衍生参数、基音频率及其衍生参数、共振峰及其衍生参数、Mel倒谱系数(MFCC)共140维特征参数。

主成分分析法(PCA)是在原始数据中提取主要特征分量，舍去一些不重要的数据，使得减少特征数据存储量，提升训练速度的优点，同时也避免了非重要数据对识别结果的影响。将降维后的10维情感特征矢量，输送至概率神经网络训练学习。

概率神经网络由输入层、样本层、求和层和竞争层四部分组成，主要思想是根据贝叶斯决策规则，即错误分类的期望风险最小，在多维输入空间内分离决策。

用户运动或控制内容解析。中央处理单元包含语音运动控制模块，判断内容中是否包含运动或控制信息，若有则转入其对应的数据库进行分析处理。

若用户语音内容中包含运动或控制信息，则根据运动或控制数据库中的内容发出相应的运动或控制指令，机器人头部、手臂、手指或轮子电机接收指令，做出规划好的运动或者动作。

定义相似度匹配函数。在语音识别出的字符与数据库匹配时，需要定义相似度匹配函数。相似度函数编写步骤如下：

第一步：根据同义词词典，将每个词或词语所对应的多个同义词用一个默认的词或词语所替代。例如“爱”、“喜欢”、“钟情”等多个同义词都用“喜欢”这个词来代表。

第二步：经过同义词变换过的两个句子计算它们之间的编辑距离。编辑距离是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

第三步：通过下面公式计算相似度：

式中，δ是两句子的相似度，A和B分别是同义变换后的句子长度，dist(A,B)是它们之间的编辑距离。

扬声器和运动或动作协调工作。人是一个多行为的统一体，可以自然地有逻辑地做进行多种行为而不会混乱，机器人也是如此。在中央处理单元，对数据库中的内容所对应的音频、运动或动作按照人的逻辑关系整理好，在中央处理单元有逻辑性地处理他们之间的关系，将说话与行动统一起来，比如说，当李四询问“你认识我吗？”，机器人会辨认用户身份，若鉴别成功，则回复“李四，你好啊，握握手吧”，同时机器人伸出右手。

触摸传感器的使用。在机器人的手掌处安装触摸传感器，作为判断用户握手的状态。当有用户与机器人手掌接触时，触摸传感器发送控制指令，机器人手指自然握紧90度；当无用户手掌接触时，机器人设置时间阈值，超过阈值时间机器人播放音频“给个面子，握个手吧”。当然机器人本体安装了多种传感器，如听觉传感器、视觉传感器、红外传感器等。本实施例的传感器只作为示范性描述，使得本发明简单明了。

Claims

1.一种用于导讲机器人的语言交流与互动系统，其特征在于：包括中央处理器单元和与中央处理器单元相连接的输入装置、输出装置、存储器；所述输入装置包括声音采集器和人脸采集器，所述中央处理器单元包括处理器、与处理器相连接的身份鉴别模块、中英文语音识别模块、语音情感分析模块、语音控制模块、语音导讲模块，所述输出装置包括扬声器和信号灯，所述存储器包括数据库；所述人脸采集器、声音采集器与处理器相连接，分别用于采集用户的声音信息和人脸信息，识别客户的身份；所述中英文语音识别模块与处理器相连接，采集和鉴别客户的中英文语音信息；所述身份鉴别模块、中英文语音识别模块、语音情感分析模块、语音控制模块、语音导讲模块接受并处理声音信息、人脸信息、中英文语音信息，对输入装置采集的声音信息和人脸信息进行分析处理、语音情感分析并将这种信息输入到存储器中，保存在数据库中；所述输出装置接收指令，以音频或者电信号的方式输出。

2.根据权利要求1所述的用于导讲机器人的语言交流与互动系统，其特征在于：所述声音采集器为声音拾音器，所述人脸采集器为摄像头；所述信号灯为LED灯。

3.根据权利要求1所述的用于导讲机器人的语言交流与互动系统，其特征在于：所述数据库预先存储用户的身份信息，包含用户的声纹特征和面部特征。

4.根据权利要求1所述的用于导讲机器人的语言交流与互动系统，其特征在于：所述数据库加载中文和英文两种语言；加载不同场景的讲解内容，包含博物馆历史文化、俏皮话、歌曲、算术；加载情感内容；加载运动控制内容，包含前进、后退、左转、右转、再转一点、快一点、再快一点、慢一点、再慢一点、停止；加载日常对话内容。

5.根据权利要求1所述的用于导讲机器人的语言交流与互动系统，其特征在于：所述输入装置包括用户模式和游客模式；在所述用户模式下，输入装置进行身份确认和交互；在所述游客模式下，所述输入装置对游客的人脸进行交互；根据用户面部特征和声纹特征信息和数据库中的用户身份根据用户面部特征和声纹特征信息和数据库中的用户身份信息进行匹配，匹配度作为机器人是否做出响应的条件。

6.一种如权利要求1至5中任一种用于导讲机器人的语言交流与互动系统的工作方法，其特征在于：该工作方法的步骤是：

S1、语音拾音器、摄像头采集声音和人脸信息；

S2、进入用户模式或游客模式；

S3、机器人引导式询问，并以LED灯作为提示输入；

S4、语音识别并经数据库相似度匹配后输出；

S5、中央处理单元各个模块处理输出信息，并发出指令；

S6、扬声器输出声音、机器人运动或控制协调工作。