Nothing Special   »   [go: up one dir, main page]

CN111179943A - 一种对话辅助设备及获取信息的方法 - Google Patents

一种对话辅助设备及获取信息的方法 Download PDF

Info

Publication number
CN111179943A
CN111179943A CN201911058908.7A CN201911058908A CN111179943A CN 111179943 A CN111179943 A CN 111179943A CN 201911058908 A CN201911058908 A CN 201911058908A CN 111179943 A CN111179943 A CN 111179943A
Authority
CN
China
Prior art keywords
features
voice
information
master
voiceprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911058908.7A
Other languages
English (en)
Inventor
王东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201911058908.7A priority Critical patent/CN111179943A/zh
Publication of CN111179943A publication Critical patent/CN111179943A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开一种对话辅助设备及获取信息的方法,涉及电子设备技术领域。所述对话辅助设备,包括:麦克风与信息处理模块相连,信息处理模块与信息输出模块相连;信息处理模块接收麦克风采集的语音信号,提取语音信号的语音特征,根据语音特征,判断语音特征是否与预存的非主用户对应的语音特征相匹配,其中,非主用户为与主用户进行对话的用户,主用户为佩戴对话辅助设备的用户;如果语音特征与预存的非主用户对应的语音特征相匹配,则根据预存的语音特征与非主用户个人信息的对应关系,得到与语音特征对应的非主用户的个人信息,向信息输出模块发送非主用户的个人信息,信息输出模块输出非主用户的个人信息。本发明适用于人和人之间的对话。

Description

一种对话辅助设备及获取信息的方法
技术领域
本发明涉及电子设备技术领域,尤其涉及一种对话辅助设备及获取信息的方法。
背景技术
随着技术的进步和社会的发展,人与人之间的交流日益频繁。在某些场景中,进行对话涉及的内容,是以了解对话对象的个人信息为基础进行的,比如,在商务会晤中,了解对方的职级等个人信息是必要的,这决定了和对方交谈的内容是涉及具体内容还是涉及整体决策;又如,在交谈的双方中,其中甲方不善于观察分析对方的情绪,那么当乙方表达出了愤怒的情绪,但是甲方并没有及时获知乙方的情绪,容易影响接下来的对话内容,最终导致甲乙双方不欢而散,由此可见,及时获取对话对象的个人信息十分必要,而随着生活和工作节奏的加快,人们没有更多的时间或精力用来了解与之对话的对象的个人信息,或者参与对话的人本身就不善于分析与之对话的对象的个人信息,那么会因为不能及时获知对方个人信息,最终使对话的效果变差。
发明内容
有鉴于此,本发明实施例提供一种对话辅助设备及获取信息的方法,便于及时获知对方个人信息,以解决在对话过程中,不能及时获知对方个人信息,最终使对话的效果变差的问题。
第一方面,本发明实施例提供一种对话辅助设备,包括:麦克风、信息处理模块和信息输出模块,其中,所述麦克风与所述信息处理模块相连,所述信息处理模块与所述信息输出模块相连;
所述信息处理模块接收所述麦克风采集的语音信号,提取所述语音信号的语音特征,根据所述语音特征,判断所述语音特征是否与预存的非主用户对应的语音特征相匹配,其中,所述非主用户为与主用户进行对话的用户,所述主用户为佩戴所述对话辅助设备的用户;如果所述语音特征与预存的非主用户对应的语音特征相匹配,则根据预存的语音特征与非主用户的个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息,向所述信息输出模块发送所述非主用户的个人信息,所述信息输出模块输出所述非主用户的个人信息。
根据本发明实施例的一种具体实现方式,所述语音特征包括声纹特征;所述信息处理模块具体用于接收所述麦克风采集的语音信号,提取所述语音信号的声纹特征,根据所述声纹特征,判断所述声纹特征是否与预存的非主用户对应的声纹特征相匹配。
根据本发明实施例的一种具体实现方式,所述语音特征还包括词汇特征和/或韵律特征,所述个人信息为情绪信息;所述信息处理模块还用于如果所述声纹特征与预存的非主用户对应的声纹特征相匹配,则根据预存的词汇特征和/或韵律特征与非主用户的情绪信息的对应关系,得到与所述词汇特征和/或韵律特征对应的非主用户的情绪信息,向所述信息输出模块发送所述非主用户的情绪信息,所述信息输出模块输出所述非主用户的情绪信息。
根据本发明实施例的一种具体实现方式,所述信息处理模块,还用于判断所述声纹特征是否与预存的非主用户对应的声纹特征相匹配;如果所述声纹特征与预存的非主用户对应的声纹特征不匹配,则建立并存储所述声纹特征与所述声纹特征对应的个人信息的对应关系。
根据本发明实施例的一种具体实现方式,所述信息处理模块,还包括:提示信息子模块和命令接收子模块,其中,所述提示信息子模块,用于如果所述声纹特征与预存的非主用户对应的声纹特征不匹配,则发送是否存储所述语音信号的提示信息,;所述命令接收子模块,用于接收所述主用户的存储命令,并存储所述语音信号。。
根据本发明实施例的一种具体实现方式,所述信息输出模块为脑机接口模块。
根据本发明实施例的一种具体实现方式,所述对话辅助设备为耳机或手机。
第二方面,本发明实施例提供一种信息获取方法,包括:接收语音信号;提取所述语音信号对应的语音特征;根据所述语音特征,判断所述语音特征是否与预存的非主用户对应的语音特征相匹配,其中,所述非主用户为与主用户进行对话的用户,所述主用户为佩戴所述对话辅助设备的用户;如果所述语音特征与预存的非主用户对应的语音特征相匹配,则根据预存的语音特征与非主用户个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息;向信息输出模块发送所述非主用户的个人信息,所述信息输出模块输出所述非主用户的个人信息;或者,
如果是非主用户对应的语音特征,则将所述语音特征向云端发送,以使所述云端根据预存的语音特征与非主用户个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息;接收所述云端向所述信息输出模块发送所述非主用户的个人信息,以使所述信息输出模块输出所述非主用户的个人信息。
根据本发明实施例的一种具体实现方式,所述语音特征包括声纹特征;所述根据所述语音特征,判断所述语音特征是否与预存的非主用户对应的语音特征相匹配,具体为根据所述声纹特征,判断所述声纹特征是否与预存的非主用户对应的声纹特征相匹配。
根据本发明实施例的一种具体实现方式,所述语音特征还包括词汇特征和/或韵律特征,所述个人信息为情绪信息;所述如果所述语音特征与预存的非主用户对应的语音特征相匹配,则根据预存的语音特征与非主用户的个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息,具体为如果所述声纹特征与预存的非主用户对应的声纹特征相匹配,则根据预存的词汇特征和/或韵律特征与非主用户的情绪信息的对应关系,得到与所述词汇特征和/或韵律特征对应的非主用户的情绪信息。
根据本发明实施例的一种具体实现方式,所述方法,还包括:判断所述声纹特征是否与预存的非主用户对应的声纹特征相匹配;如果所述声纹特征与预存的非主用户对应的声纹特征不匹配,则建立并存储所述声纹特征与所述声纹特征对应的个人信息的对应关系。
根据本发明实施例的一种具体实现方式,在如果所述声纹特征与预存的非主用户对应的声纹特征不匹配之后,在建立并存储所述声纹特征与所述声纹特征对应的个人信息的对应关系之前,所述方法还包括:发送是否存储所述语音信号的提示信息;接收所述主用户的存储命令;根据所述存储命令,存储所述语音信号。
根据本发明实施例的一种具体实现方式,所述个人信息,包括:身份信息、背景信息和/或情绪信息。
根据本发明实施例的一种具体实现方式,所述信息输出模块为脑机接口模块。
本发明实施例提供的一种对话辅助设备及获取信息的方法,通过将所述麦克风与所述信息处理模块相连,所述信息处理模块与所述信息输出模块相连;所述信息处理模块接收所述麦克风采集的语音信号,提取所述语音信号的语音特征,再根据所述语音特征,判断所述语音特征是否与预存的非主用户对应的语音特征相匹配,其中,所述非主用户为与主用户进行对话的用户,所述主用户为佩戴所述对话辅助设备的用户;如果与预存的非主用户对应的语音特征相匹配,则根据预存的语音特征与非主用户个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息,向所述信息输出模块发送所述个人信息,所述信息输出模块输出所述个人信息,这样,在进行对话过程中,主用户便于及时获取非主用户的个人信息,了解非主用户的情况,从而,改善对话效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明提供的一种对话辅助设备的实施例一的结构示意图;
图2为本发明一具体实施例的示意图;
图3为本发明提供的一种对话辅助设备的实施例二的结构示意图;
图4为本发明提供的一种获取信息的方法的实施例三的流程示意图;
图5为本发明提供的一种获取信息的方法的实施例四的流程示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明提供的一种对话辅助设备的实施例一的结构示意图,如图1所示,本实施例的应用于面对面的对话中或者打电话交流过程中,本实施例的对话辅助设备,包括:麦克风11,信息处理模块12,信息输出模块13,其中,所述麦克风11与所述信息处理模块12相连,所述信息处理模块12与所述信息输出模块13相连;
所述信息处理模块13接收所述麦克风11采集的语音信号,提取所述语音信号的语音特征,根据所述语音特征,判断所述语音特征是否与预存的非主用户对应的语音特征相匹配,其中,所述非主用户为与主用户进行对话的用户,所述主用户为佩戴所述对话辅助设备的用户;如果所述语音特征与预存的非主用户对应的语音特征相匹配,则根据预存的语音特征与非主用户的个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息,向所述信息输出模块13发送所述个人信息,所述信息输出模块13播放所述个人信息。
本实施例中,预存的非主用户的个数可为一个,也可为多个;语音信号的来源是人发出的声音信号;语音特征可包括韵律特征、音质特征、频谱特征、词汇特征和声纹特征;由于每个人的声纹特征不一样,不同的人说出的话产生的声音转换成的语音信号不同,对应的语音特征也不同,那么,根据语音特征能够区分不同的人;提取语音信号的语音特征的过程可包括对语音信号进行预加重处理,对处理后的语音数据进行分帧、加窗运算,然后通过快速傅里叶变换和对数运算处理,最后经离散余弦变换以获取上述的语音特征。
主用户为对话中佩戴对话辅助设备的用户,非主用户为与主用户进行对话的用户;在实际应用场景中,参与对话的人数可为两人或两人以上,参与对话的用户均可佩戴对话辅助设备,佩戴对话辅助设备的用户即为主用户,相对主用户进行交谈的用户即为非主用户。
其中,语音特征与非主用户的个人信息的对应关系可预存于本地,也可预存于云端,作为一可选实施方式,语音特征与非主用户的个人信息的对应关系预存于云端。
本实施例中,信息处理模块将所述语音特征发送至云端,在所述云端,根据预存的语音特征与非主用户个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息,所述云端向所述信息输出模块发送所述非主用户的个人信息,所述信息输出模块输出所述非主用户的个人信息。
本实施例,在云端根据预存的语音特征与非主用户个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息,这样,便于多个使用对话辅助系统的用户共享语音特征与非主用户个人信息的对应关系,并且避免了由于对话辅助系统的损坏或丢失,需要重新建立语音特征与非主用户个人信息的对应关系,提高了用户使用对话辅助系统的便捷性。
作为一可选实施例,个人信息可为身份信息、背景信息和/或情绪信息,身份信息具体可为姓名、出生年月、所在单位、职务等;背景信息可为家庭状况、住址、兴趣爱好、特长等等;情绪信息可为高兴、愤怒、悲伤、兴奋、激动等等信息。
作为一可选实施例,所述信息输出模块可为语音播报模块或脑机接口模块。
本实施例,通过将所述麦克风与所述信息处理模块相连,所述信息处理模块与所述信息输出模块相连;所述信息处理模块接收所述麦克风采集的语音信号,提取所述语音信号的语音特征,再根据所述语音特征,判断所述语音特征是否与预存的非主用户对应的语音特征相匹配,如果与预存的非主用户对应的语音特征相匹配,则根据预存的语音特征与非主用户个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息,并向所述信息输出模块发送所述个人信息,所述信息输出模块输出所述个人信息,这样,在进行对话过程中,主用户便于及时获取非主用户的个人信息,了解非主用户的情况,从而,改善对话效果。并且便于使对话过程更加流畅,提高对话效率。
作为一可选实施例,所述语音特征包括声纹特征;所述信息处理模块具体用于接收所述麦克风采集的语音信号,提取所述语音信号的声纹特征,根据所述声纹特征,判断所述声纹特征是否与预存的非主用户对应的声纹特征相匹配。
本实施例中,声纹特征是与说话人相关的特征,声纹是用电声学仪器显示的携带言语信息的声波频谱,声纹与人体发生的器官有关,发声官包括声带、软颚、舌头、牙齿、唇等;发声共鸣器包括咽腔、口腔、鼻腔。声纹特征用来反映声纹的一组特征向量,包括共振峰、频谱能量分布、谐波噪声比等。
本实施例中,判断所述声纹特征是否与预存的非主用户对应的声纹特征相匹配,具体可为:预先建立声纹模型库,在声纹模型库内,存有非主用户及相应的声纹模型,每个非主用户对应一个声纹模型,每个声纹模型对应非主用户的声纹特征;将提取到的声纹特征作为声纹模型的输入,遍历计算声纹特征对应的概率值,当存在概率值超过某一设定阈值的声纹模型对应的声纹特征,即所述声纹特征与预存的非主用户对应的声纹特征相匹配,可进一步地,在超过某一设定阈值的多个概率值中,存在概率值最大的声纹模型对应的声纹特征,即所述声纹特征与预存的非主用户对应的声纹特征相匹配;当所有概率值未超过某一设定阈值时,即所述声纹特征与预存的非主用户对应的声纹特征不匹配。
进一步地,由于每个非主用户对应一个声纹模型,那么可以根据概率值最大的声纹模型对应地确定非主用户,再根据非主用户及对应的身份信息和/或背景信息的关系,确定与非主用户对应的身份信息和/或背景信息。
本实施例,通过对接收到的语音信号提取对应的声纹特征,再根据所述声纹特征,判断所述语音特征是否与预存的非主用户对应的声纹特征相匹配,以便判断结果为匹配后,再对非主用户的个人信息进行获取,这样,能够提高主用户获取非主用户信息的效率,同时提高主用户的使用体验。
作为一可选实施例,在上述实施例的基础上,所述语音特征还包括韵律特征,所述个人信息为情绪信息;所述信息处理模块还用于如果所述声纹特征与预存的非主用户对应的声纹特征相匹配,则根据预存的韵律特征与非主用户的情绪信息的对应关系,得到与所述韵律特征对应的非主用户的情绪信息,向所述信息输出模块发送所述非主用户的情绪信息,所述信息输出模块输出所述非主用户的情绪信息。
本实施例中,具体可通过情绪数据库建立韵律特征与非主用户的情绪信息的对应关系;在情绪数据库中预存多个情绪子库,每个情绪子库存有与该情绪对应的韵律特征;将从语音信号中提取的韵律特征,作为情绪数据库的输入,与预存的每个情绪子库中的韵律特征进行相似度计算,得分最高的情绪子库对应的情绪为当前对话中非主用户的情绪。
作为一可选实施例,在上述实施例的基础上,所述语音特征还包括词汇特征,所述个人信息为情绪信息;所述信息处理模块还用于如果所述声纹特征与预存的非主用户对应的声纹特征相匹配,则根据预存的词汇特征与非主用户的情绪信息的对应关系,得到与所述词汇特征对应的非主用户的情绪信息,向所述信息输出模块发送所述非主用户的情绪信息,所述信息输出模块输出所述非主用户的情绪信息。
本实施例中,具体可通过情绪数据库建立词汇特征与非主用户的情绪信息的对应关系;在情绪数据库中预存多个情绪子库,每个情绪子库存有与该情绪对应的词汇特征;将从语音信号中提取的词汇特征,作为情绪数据库的输入,每个情绪子库对输入的词汇特征进行打分,得分最高的情绪子库对应的情绪为当前对话中非主用户的情绪。
可以理解的是,可将词汇特征和韵律特征得到的结果进行综合判断,得到最终的情绪信息,具体过程为现有技术,此处不再赘述。
作为一可选实施例,所述信息处理模块,还用于判断所述声纹特征是否与预存的非主用户对应的声纹特征相匹配;如果所述声纹特征与预存的非主用户对应的声纹特征不匹配,则建立并存储所述声纹特征与所述声纹特征对应的个人信息的对应关系。
本实施例,如果所述声纹特征与预存的非主用户对应的声纹特征不匹配,那么建立并存储所述声纹特征与所述声纹特征对应的个人信息的对应关系,这样,便于后续对更多的非主用户的个人信息的获取。
作为一可选实施例,所述信息处理模块,还包括:提示信息子模块和命令接收子模块,其中,所述提示信息子模块,用于如果所述声纹特征与预存的非主用户对应的声纹特征不匹配,则发送是否存储所述语音信号的提示信息;所述命令接收子模块,用于接收所述主用户的存储命令,并存储所述语音信号。
本实施例中,提示信息可为语音播放,也可是文字提示;语音信号可包括用户说话包括的所有信息,如词汇、音色、音调、频率、声纹等等;语音信号可为声纹模型及情感数据库的建立提供语料,便于建立非主用户对应的声纹模型及建立情感数据库。
可以理解的是,上述实施例中,对语音信号进行存储后,可提取语音信号对应的声纹特征,建立并存储所述声纹特征与所述声纹特征对应的个人信息的对应关系;也可提取语音信号对应的词汇特征和/或韵律特征,建立并存储词汇特征和/或韵律特征与非主用户的情绪信息的对应关系。
作为一可选实施例,用户可选择对与预存的非主用户对应的声纹特征不匹配的声纹特征不进行存储,具体实现方式可为通过选择“不存储”字样的按钮实现,或者发送的是否存储所述声纹特征的提示信息,在预定时间内,当用户没有进行操作时,自动消失,即表示对该声纹特征不进行存储。
本实施例,通过向用户发送是否存储所述声纹特征的提示信息,当用户确定存储时,再建立并存储所述声纹特征与所述声纹特征对应的个人信息的对应关系,这样,便于用户灵活地使用对话辅助设备。
作为一可选实施例,还包括,发送模块,用于将所述声纹特征与所述声纹特征对应的个人信息的对应关系向服务器发送。
本实施例,通过将所述声纹特征与所述声纹特征对应的个人信息的对应关系向服务器发送,便于多个使用对话辅助系统的用户共享语音特征与非主用户个人信息的对应关系,并且避免了由于对话辅助系统的损坏或丢失,需要重新建立语音特征与非主用户个人信息的对应关系,提高了用户使用对话辅助系统的便捷性。
作为一可选实施例,对话辅助设备为耳机或手机。
本实施例中,对话辅助设备为耳机时,信息输出模块可为耳机中具有的电声转换模块;对话辅助设备为手机时,信息输出模块可为手机具有的与普通耳机的接口,通过该接口与普通耳机相连,主用户能够获取非主用户的个人信息,或者手机具有无线通信功能,可与无线耳机建立通信连接,同样能够使主用户能够获取非主用户的个人信息。
下面结合图2说明本发明一实施例的具体使用过程。图2为本发明一具体实施例的示意图。本实施例中,对话辅助设备为耳机1,耳机1与智能终端2通过蓝牙进行连接。
本实施例中,智能终端2可为手机或手表;在面对面对话的过程中,耳机1通过信息处理模块12接收麦克风11采集的语音信号,提取语音信号中的声纹特征,根据所述声纹特征,判断所述声纹特征与预存的非主用户对应的声纹特征相匹配,则根据声纹特征与非主用户的背景信息的对应关系,得到非主用户的背景信息,通过耳机向主用户播报背景信息;
如果与预存的非主用户对应的声纹特征不匹配,则通过蓝牙向智能终端2发送提示命令,在智能终端上显示是否存储所述声纹特征的提示信息,主用户在智能终端上,对该提示信息进行确认存储后,则存储该声纹特征及对应的个人信息,并且存储之后,可将存储的内容发送至云端服务器3。当在预定时间内,用户对提示信息没有进行操作,则提示信息消失,即不对该声纹特征及对应的个人信息进行存储。
可以理解的是,可通过智能终端,对个人信息进行输入。
图3为本发明提供的一种对话辅助设备的实施例二的结构示意图,如图3所示,包括:麦克风11、信息处理模块12和脑机接口模块131;麦克风11与信息处理模块12相连,信息处理模块12与脑机接口模块131相连
本实施例中,信息处理模块12处理结果通过脑机接口模块131直接输入主用户的大脑,这样,能够使用户更快速的获得非主用户的个人信息。
图4为本发明提供的一种获取信息的方法的实施例三的流程示意图,如图4所示,应用与面对面的对话中或者打电话交流过程中,本实施例的方法可以包括:
步骤101、接收语音信号。
本实施例中,接收到的语音信号可为对话过程中的所有用户发出的语音信号。
步骤102、提取所述语音信号对应的语音特征。
本实施例中,对接收到的语音信号,提取所述语音信号对应的语音特征;语音特征可包括韵律特征、音质特征、频谱特征、词汇特征和声纹特征;由于每个人的声纹特征不一样,不同的人说出的话产生的声音转换成的语音信号不同,对应的语音特征也不同,那么,根据语音特征能够区分不同的人;提取语音信号的语音特征的过程可包括对语音信号进行预加重处理,对处理后的语音数据进行分帧、加窗运算,然后通过快速傅里叶变换和对数运算处理,最后经离散余弦变换以获取上述的语音特征。
步骤103、根据所述语音特征,判断所述语音特征是否与预存的非主用户对应的语音特征相匹配,其中,所述非主用户为与主用户进行对话的用户,所述主用户为佩戴所述对话辅助设备的用户。
本实施例中,预存的非主用户的个数可为一个,也可为多个;主用户为对话中佩戴对话辅助设备的用户,非主用户为与主用户进行对话的用户;在实际应用场景中,参与对话的人数可为两人或两人以上,参与对话的用户均可佩戴对话辅助设备,佩戴对话辅助设备的用户即为主用户,相对主用户进行交谈的用户即为非主用户。
主用户希望借助对话辅助设备连接非主用户的个人信息,可根据预存的非主用户对应的语音特征区分接收到的语音信号是主用户发出的,还是非主用户进行发出的。
步骤104、如果所述语音特征与预存的非主用户对应的语音特征相匹配,则根据预存的语音特征与非主用户的个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息。
本实施例中,语音特征与非主用户的个人信息的对应关系可预存于本地,也可预存于云端。
本发明一实施例中,个人信息可为身份信息、背景信息和/或情绪信息,身份信息具体可为姓名、出生年月、所在单位、职务等;背景信息可为家庭状况、住址、兴趣爱好、特长等等;情绪信息可为高兴、愤怒、悲伤、兴奋、激动等等信息。
步骤105、向信息输出模块发送所述非主用户的个人信息,以使所述信息输出模块输出所述非主用户的个人信息。
本实施例中,输出方式可为语音输出,也可为文字输出。
本发明一实施例中,输出模块可为语音语音输出模块或脑机接口模块。
本实施例,通过提取所述语音信号对应的语音特征,根据所述语音特征,判断所述语音特征是否为预存的非主用户对应的语音特征,其中,所述非主用户为与主用户进行对话的用户,所述主用户为佩戴所述对话辅助设备的用户;如果是非主用户对应的语音特征,则根据本地预存的语音特征与非主用户个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息;向信息输出模块发送所述非主用户的个人信息,所述信息输出模块输出所述非主用户的个人信息,这样,在进行对话过程中,主用户便于及时获取非主用户的个人信息,了解非主用户的情况,从而,改善对话效果。并且便于使对话过程更加流畅,提高对话效率。
图5为本发明提供的一种获取信息的方法的实施例四的流程示意图,如图5所示,应用与面对面的对话中,本实施例的方法可以包括:
步骤201、接收语音信号。
本实施例中,接收到的语音信号可为对话过程中的所有用户发出的语音信号。
步骤202、提取所述语音信号对应的语音特征。
本实施例中,与步骤102所述的提取语音特征的方法类似,此处不再赘述。
步骤203、根据所述语音特征,判断所述语音特征是否与预存的非主用户对应的语音特征相匹配,其中,所述非主用户为与主用户进行对话的用户,所述主用户为佩戴所述对话辅助设备的用户。
本实施例中,与步骤103所述的提取语音特征的方法类似,此处不再赘述。
步骤204、如果所述语音特征与预存的非主用户对应的语音特征相匹配,则将所述语音特征向云端发送,以使所述云端根据预存的语音特征与非主用户个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息。
本实施例中,根据非主用户对应的语音特征,能够得到非主用户的个人信息;个人信息可为身份信息、背景信息和/或情绪信息,身份信息具体可为姓名、出生年月、所在单位、职务;背景信息可家庭状况、住址、兴趣爱好、特长等等;背景信息可为;情绪信息可为高兴、愤怒、悲伤、兴奋、激动等等信息。
步骤205、接收所述云端向所述信息输出模块发送所述非主用户的个人信息,以使所述信息输出模块输出所述非主用户的个人信息。
本实施例中,云端将得到的非主用户的个人信息,发送给信息输出模块,输出模块输出非主用户的个人信息;输出方式具体可为语音输出。
本发明一实施例中,输出模块可为语音语音输出模块或脑机接口模块。
本实施例,通过在云端根据预存的语音特征与非主用户个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息,这样,便于多个使用对话辅助系统的用户共享语音特征与非主用户个人信息的对应关系,并且避免了由于对话辅助系统的损坏或丢失,需要重新建立语音特征与非主用户个人信息的对应关系,提高了用户使用对话辅助系统的便捷性。
本发明一实施例中,所述语音特征包括声纹特征;所述根据所述语音特征,判断所述语音特征是否与预存的非主用户对应的语音特征相匹配,具体为根据所述声纹特征,判断所述声纹特征是否与预存的非主用户对应的声纹特征相匹配。
本实施例中,声纹特征是与说话人相关的特征,声纹是用电声学仪器显示的携带言语信息的声波频谱,声纹与人体发生的器官有关,发声官包括声带、软颚、舌头、牙齿、唇等;发声共鸣器包括咽腔、口腔、鼻腔。声纹特征用来反映声纹的一组特征向量,包括共振峰、频谱能量分布、谐波噪声比等。
本实施例中,判断所述声纹特征是否与预存的非主用户对应的声纹特征相匹配,具体可为:预先建立声纹模型库,在声纹模型库内,存有非主用户及相应的声纹模型,每个非主用户对应一个声纹模型,每个声纹模型对应非主用户的声纹特征;将提取到的声纹特征作为声纹模型的输入,遍历计算声纹特征对应的概率值,当存在概率值超过某一设定阈值的声纹模型对应的声纹特征,即所述声纹特征与预存的非主用户对应的声纹特征相匹配,可进一步地,在超过某一设定阈值的多个概率值中,存在概率值最大的声纹模型对应的声纹特征,即所述声纹特征与预存的非主用户对应的声纹特征相匹配;当所有概率值未超过某一设定阈值时,即所述声纹特征与预存的非主用户对应的声纹特征不匹配。
本实施例,通过根据所述声纹特征,判断所述语音特征是否与预存的非主用户对应的声纹特征相匹配,以便判断结果为匹配后,再对非主用户的个人信息进行获取,这样,能够提高主用户获取非主用户信息的效率,同时提高主用户的使用体验。
本发明一实施例中,在上述实施例的基础上,所述语音特征还包括韵律特征,所述个人信息为情绪信息;所述如果所述语音特征与预存的非主用户对应的语音特征相匹配,则根据预存的语音特征与非主用户的个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息,具体为如果所述声纹特征与预存的非主用户对应的声纹特征相匹配,则根据预存的韵律特征与非主用户的情绪信息的对应关系,得到与所述韵律特征对应的非主用户的情绪信息。
本实施例中,具体可通过情绪数据库建立韵律特征与非主用户的情绪信息的对应关系;在情绪数据库中预存多个情绪子库,每个情绪子库存有与该情绪对应的韵律特征;将从语音信号中提取的韵律特征,作为情绪数据库的输入,与预存的每个情绪子库中的韵律特征进行相似度计算,得分最高的情绪子库对应的情绪为当前对话中非主用户的情绪。
可以理解的是,当根据韵律特征得到非主用户的情绪信息之后,可向信息输出模块发送所述非主用户的情绪信息,以使所述信息输出模块输出所述非主用户的情绪信息。
作为一可选实施例,在上述实施例的基础上,所述语音特征还包括词汇特征,所述个人信息为情绪信息;所述信息处理模块还用于如果所述声纹特征与预存的非主用户对应的声纹特征相匹配,则根据预存的词汇特征与非主用户的情绪信息的对应关系,得到与所述词汇特征对应的非主用户的情绪信息。
本实施例中,具体可通过情绪数据库建立词汇特征与非主用户的情绪信息的对应关系;在情绪数据库中预存多个情绪子库,每个情绪子库存有与该情绪对应的词汇特征;将从语音信号中提取的词汇特征,作为情绪数据库的输入,每个情绪子库对输入的词汇特征进行打分,得分最高的情绪子库对应的情绪为当前对话中非主用户的情绪。
可以理解的是,当根据词汇特征得到非主用户的情绪信息之后,可向信息输出模块发送所述非主用户的情绪信息,以使所述信息输出模块输出所述非主用户的情绪信息。
可以理解的是,可将词汇特征和韵律特征得到的结果进行综合判断,得到最终的情绪信息,具体过程为现有技术,此处不再赘述。
本发明一实施例中,所述方法,还包括:
判断所述声纹特征是否与预存的非主用户对应的声纹特征相匹配;如果所述声纹特征与预存的非主用户对应的声纹特征不匹配,则建立并存储所述声纹特征与所述声纹特征对应的个人信息的对应关系。
本实施例中,当所述声纹特征不是非主用户对应的声纹特征,则建立并存储所述声纹特征与所述声纹特征对应的个人信息的对应关系。
本实施例,通过判断所述所述声纹特征不是预存的非主用户对应的声纹特征,那么建立并存储所述声纹特征与所述声纹特征对应的个人信息的对应关系,这样,便于后续对更多的非主用户的个人信息的获取。
本发明一实施例中,在如果所述声纹特征与预存的非主用户对应的声纹特征不匹配之后,在建立并存储所述声纹特征与所述声纹特征对应的个人信息的对应关系之前,所述方法还包括:
发送是否存储所述语音信号的提示信息;
本实施例中,提示信息可为语音播放,也可是文字提示;语音信号可包括用户说话包括的所有信息,如词汇、音色、音调、频率、声纹等等;语音信号可为声纹模型及情感数据库的建立提供语料。
接收所述主用户的存储命令。
本实施例中,接收主用户的确定存储的命令。
根据所述存储命令,存储所述语音信号。
本实施例中,接收到主用户的存储命令后,根据所述存储命令,建立并存储所述声纹特征与所述声纹特征对应的个人信息的对应关系。
本实施例中,通过向用户发送是否存储所述声纹特征的提示信息,当用户确定存储时,再存储所述语音信号,这样,便于用户灵活地选择是否存储语音信号,并且可为声纹模型及情感数据库的建立提供语料,便于建立非主用户对应的声纹模型及建立情感数据库。
可以理解的是,上述实施例中,对语音信号进行存储后,可提取语音信号对应的声纹特征,建立并存储所述声纹特征与所述声纹特征对应的个人信息的对应关系;也可提取语音信号对应的词汇特征和/或韵律特征,建立并存储词汇特征和/或韵律特征与非主用户的情绪信息的对应关系。
本发明一实施例中,用户可选择对与预存的非主用户对应的声纹特征不匹配的声纹特征不进行存储,具体实现方式可为通过选择“不存储”字样的按钮实现,或者发送的是否存储所述声纹特征的提示信息,在预定时间内,当用户没有进行操作时,自动消失,即表示对该声纹特征不进行存储。
本发明一实施例中,所述建立并存储所述声纹特征与所述声纹特征对应的个人信息的对应关系之后,还包括:将所述声纹特征与所述声纹特征对应的个人信息的对应关系向服务器发送。
本实施例,通过将所述声纹特征与所述声纹特征对应的个人信息的对应关系向服务器发送,便于多个使用对话辅助系统的用户共享语音特征与非主用户个人信息的对应关系,并且避免了由于对话辅助系统的损坏或丢失,需要重新建立语音特征与非主用户个人信息的对应关系,提高了用户使用对话辅助系统的便捷性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种对话辅助设备,其特征在于,包括:麦克风、信息处理模块和信息输出模块,其中,所述麦克风与所述信息处理模块相连,所述信息处理模块与所述信息输出模块相连;所述信息处理模块接收所述麦克风采集的语音信号,提取所述语音信号的语音特征,根据所述语音特征,判断所述语音特征是否与预存的非主用户对应的语音特征相匹配,其中,所述非主用户为与主用户进行对话的用户,所述主用户为佩戴所述对话辅助设备的用户;如果所述语音特征与预存的非主用户对应的语音特征相匹配,则根据预存的语音特征与非主用户的个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息,向所述信息输出模块发送所述非主用户的个人信息,所述信息输出模块输出所述非主用户的个人信息。
2.根据权利要求1所述的对话辅助设备,其特征在于,所述语音特征包括声纹特征;所述信息处理模块具体用于接收所述麦克风采集的语音信号,提取所述语音信号的声纹特征,根据所述声纹特征,判断所述声纹特征是否与预存的非主用户对应的声纹特征相匹配。
3.根据权利要求2所述的对话辅助设备,其特征在于,所述语音特征还包括词汇特征和/或韵律特征,所述个人信息为情绪信息;所述信息处理模块还用于如果所述声纹特征与预存的非主用户对应的声纹特征相匹配,则根据预存的词汇特征和/或韵律特征与非主用户的情绪信息的对应关系,得到与所述词汇特征和/或韵律特征对应的非主用户的情绪信息,向所述信息输出模块发送所述非主用户的情绪信息,所述信息输出模块输出所述非主用户的情绪信息。
4.根据权利要求2所述的对话辅助设备,其特征在于,所述信息处理模块,还用于判断所述声纹特征是否与预存的非主用户对应的声纹特征相匹配;如果所述声纹特征与预存的非主用户对应的声纹特征不匹配,则建立并存储所述声纹特征与所述声纹特征对应的个人信息的对应关系。
5.根据权利要求4所述的对话辅助设备,其特征在于,所述信息处理模块,还包括:提示信息子模块和命令接收子模块,其中,
所述提示信息子模块,用于如果所述声纹特征与预存的非主用户对应的声纹特征不匹配,则发送是否存储所述语音信号的提示信息;
所述命令接收子模块,用于接收所述主用户的存储命令,并存储所述语音信号。
6.根据权利要求1所述的对话辅助设备,其特征在于,所述信息输出模块为语音播报模块或脑机接口模块。
7.根据权利要求1所述的对话辅助设备,其特征在于,所述对话辅助设备为耳机或手机。
8.一种获取信息的方法,其特征在于,所述方法,包括:
接收语音信号;
提取所述语音信号对应的语音特征;
根据所述语音特征,判断所述语音特征是否与预存的非主用户对应的语音特征相匹配,其中,所述非主用户为与主用户进行对话的用户,所述主用户为佩戴所述对话辅助设备的用户;
如果所述语音特征与预存的非主用户对应的语音特征相匹配,则根据预存的语音特征与非主用户的个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息;
向信息输出模块发送所述非主用户的个人信息,以使所述信息输出模块输出所述非主用户的个人信息。
9.根据权利要求8所述的获取信息的方法,其特征在于,所述语音特征包括声纹特征;所述根据所述语音特征,判断所述语音特征是否与预存的非主用户对应的语音特征相匹配,具体为根据所述声纹特征,判断所述声纹特征是否与预存的非主用户对应的声纹特征相匹配。
10.根据权利要求9所述的获取信息的方法,其特征在于,所述语音特征还包括词汇特征和/或韵律特征,所述个人信息为情绪信息;所述如果所述语音特征与预存的非主用户对应的语音特征相匹配,则根据预存的语音特征与非主用户的个人信息的对应关系,得到与所述语音特征对应的非主用户的个人信息,具体为如果所述声纹特征与预存的非主用户对应的声纹特征相匹配,则根据预存的词汇特征和/或韵律特征与非主用户的情绪信息的对应关系,得到与所述词汇特征和/或韵律特征对应的非主用户的情绪信息。
CN201911058908.7A 2019-10-30 2019-10-30 一种对话辅助设备及获取信息的方法 Pending CN111179943A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911058908.7A CN111179943A (zh) 2019-10-30 2019-10-30 一种对话辅助设备及获取信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911058908.7A CN111179943A (zh) 2019-10-30 2019-10-30 一种对话辅助设备及获取信息的方法

Publications (1)

Publication Number Publication Date
CN111179943A true CN111179943A (zh) 2020-05-19

Family

ID=70655762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911058908.7A Pending CN111179943A (zh) 2019-10-30 2019-10-30 一种对话辅助设备及获取信息的方法

Country Status (1)

Country Link
CN (1) CN111179943A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112002331A (zh) * 2020-08-05 2020-11-27 广州景瑞智能科技有限公司 一种基于对话声音识别情绪的方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001016940A1 (en) * 1999-08-31 2001-03-08 Accenture, Llp System, method, and article of manufacture for a voice recognition system for identity authentication in order to gain access to data on the internet
CN101789990A (zh) * 2009-12-23 2010-07-28 宇龙计算机通信科技(深圳)有限公司 一种在通话过程中判断对方情绪的方法及移动终端
CN102347060A (zh) * 2010-08-04 2012-02-08 鸿富锦精密工业(深圳)有限公司 电子记录装置及方法
CN103258535A (zh) * 2013-05-30 2013-08-21 中国人民财产保险股份有限公司 基于声纹识别的身份识别方法及系统
CN105895101A (zh) * 2016-06-08 2016-08-24 国网上海市电力公司 用于电力智能辅助服务系统的语音处理设备及处理方法
US20180005464A1 (en) * 2016-06-29 2018-01-04 Ncr Corporation Visual voucher communication systems and methods
CN108632475A (zh) * 2018-03-22 2018-10-09 平安科技(深圳)有限公司 语音留言方法、装置、计算机设备和存储介质
CN109618068A (zh) * 2018-11-08 2019-04-12 上海航动科技有限公司 一种基于人工智能的语音业务推送方法、装置与系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001016940A1 (en) * 1999-08-31 2001-03-08 Accenture, Llp System, method, and article of manufacture for a voice recognition system for identity authentication in order to gain access to data on the internet
CN101789990A (zh) * 2009-12-23 2010-07-28 宇龙计算机通信科技(深圳)有限公司 一种在通话过程中判断对方情绪的方法及移动终端
CN102347060A (zh) * 2010-08-04 2012-02-08 鸿富锦精密工业(深圳)有限公司 电子记录装置及方法
CN103258535A (zh) * 2013-05-30 2013-08-21 中国人民财产保险股份有限公司 基于声纹识别的身份识别方法及系统
CN105895101A (zh) * 2016-06-08 2016-08-24 国网上海市电力公司 用于电力智能辅助服务系统的语音处理设备及处理方法
US20180005464A1 (en) * 2016-06-29 2018-01-04 Ncr Corporation Visual voucher communication systems and methods
CN108632475A (zh) * 2018-03-22 2018-10-09 平安科技(深圳)有限公司 语音留言方法、装置、计算机设备和存储介质
CN109618068A (zh) * 2018-11-08 2019-04-12 上海航动科技有限公司 一种基于人工智能的语音业务推送方法、装置与系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112002331A (zh) * 2020-08-05 2020-11-27 广州景瑞智能科技有限公司 一种基于对话声音识别情绪的方法及系统

Similar Documents

Publication Publication Date Title
US20150348538A1 (en) Speech summary and action item generation
CN107623614B (zh) 用于推送信息的方法和装置
JP2023022150A (ja) 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
CN108922525B (zh) 语音处理方法、装置、存储介质及电子设备
JP5311348B2 (ja) 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム
US20100250249A1 (en) Communication control apparatus, communication control method, and computer-readable medium storing a communication control program
US20220231873A1 (en) System for facilitating comprehensive multilingual virtual or real-time meeting with real-time translation
CN104811559A (zh) 降噪方法、通信方法及移动终端
WO2017085992A1 (ja) 情報処理装置
US11699043B2 (en) Determination of transcription accuracy
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
CN104851423B (zh) 一种声音信息处理方法及装置
JP6268916B2 (ja) 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
JP6599828B2 (ja) 音処理方法、音処理装置、及びプログラム
CN110545504A (zh) 个人听力装置、外部声音处理装置及相关计算机程序产品
CN111179943A (zh) 一种对话辅助设备及获取信息的方法
JP2019015837A (ja) 猫の性格を持つ会話型ロボット及び猫の性格を発現させる対話管理プログラム
KR102000282B1 (ko) 청각 기능 보조용 대화 지원 장치
JP2004252085A (ja) 音声変換システム及び音声変換プログラム
JP2007259427A (ja) 携帯端末装置
KR100553437B1 (ko) 음성 합성을 이용한 음성 메시지 전송 기능을 가지는무선통신 단말기 및 그 방법
CN115240689B (zh) 目标声音确定方法、装置、计算机设备和介质
JP7110057B2 (ja) 音声認識システム
EP4006900A1 (en) System with speaker representation, electronic device and related methods
KR20180034927A (ko) 통화 음성을 분석하는 통신 단말기

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519

RJ01 Rejection of invention patent application after publication