CN112447179A - 一种语音交互方法、装置、设备及计算机可读存储介质 - Google Patents
一种语音交互方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112447179A CN112447179A CN201910806670.5A CN201910806670A CN112447179A CN 112447179 A CN112447179 A CN 112447179A CN 201910806670 A CN201910806670 A CN 201910806670A CN 112447179 A CN112447179 A CN 112447179A
- Authority
- CN
- China
- Prior art keywords
- message
- voice
- voice message
- corresponding relation
- sender
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000003993 interaction Effects 0.000 title claims abstract description 38
- 230000006854 communication Effects 0.000 claims abstract description 14
- 238000004891 communication Methods 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 238000003058 natural language processing Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 238000002360 preparation method Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 210000002784 stomach Anatomy 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000021222 fish soup Nutrition 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种语音交互方法、装置、设备及计算机可读存储介质,涉及通信技术领域,以解决具有音箱功能的终端无法在特定场景满足用户高效沟通的需求的问题。该方法包括:接收消息发送方的语音消息;根据所述语音消息,识别所述消息发送方的身份信息;根据所述消息发送方的身份信息、所述语音消息以及预设的用户关系图谱,确定消息接收方;向所述消息接收方输出所述语音消息。本发明实施例可使得用户可利用具有音箱功能的终端进行高效的沟通。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音交互方法、装置、设备及计算机可读存储介质。
背景技术
智能音箱基于人工智能的人机对话,通过语音输入、语义识别、指令执行等,构建闭环的家庭、办公等场景下的智能生态圈。当前智能音箱的主要功能集中在高音质的播放、智能电话、家居控制、声纹识别个性化爱好定制、日常的人机对话查询等功能。但是,目前智能音箱仅作为声音输入-输出的通道,在一些特定的应用场景下,比如人际交互场景中,无法满足用户高效沟通的需求。
发明内容
本发明实施例提供一种语音交互方法、装置、设备及计算机可读存储介质,以解决具有音箱功能的终端无法在特定场景满足用户高效沟通的需求的问题。
第一方面,本发明实施例提供了一种语音交互方法,应用于具有音箱功能的终端,包括:
接收消息发送方的语音消息;
根据所述语音消息,识别所述消息发送方的身份信息;
根据所述消息发送方的身份信息、所述语音消息以及预设的用户关系图谱,确定消息接收方;
向所述消息接收方输出所述语音消息。
其中,所述根据所述语音消息,识别所述消息发送方的身份信息,包括:
提取所述语音消息的声纹特征;
根据所述声纹特征和第一对应关系,识别所述消息发送方的身份信息,其中,所述第一对应关系为声音模型与用户身份之间的对应关系。
其中,所述根据所述语音消息,识别所述消息发送方的身份信息,包括:
获取所述消息发送方发送所述语音消息所使用的终端的信息;
提取所述语音消息的声纹特征;
根据所述声纹特征、所述终端的信息和第二对应关系,识别所述消息发送方的身份信息,其中,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系。
其中,所述根据所述消息发送方的身份信息、所述语音消息以及预设的用户关系图谱,确定消息接收方,包括:
将所述语音消息转换为文字消息;
基于NLP(Natural Language Processing,自然语言处理)算法,对所述文字消息进行语义识别,获得语义识别结果;
根据所述消息发送方的身份信息、所述语义识别结果以及所述用户关系图谱,确定消息接收方。
其中,所述向所述消息接收方输出所述语音消息,包括:
获取所述消息接收方的声音模型;
将所述语音消息和所述声音模型进行合成,得到合成后的语音消息;
利用所述音箱向所述消息接收方广播所述合成后的语音消息。
其中,在所述得到合成后的语音消息之后,所述方法还包括:
缓存所述合成后的语音消息。
其中,在所述接收消息发送方的语音消息之前,所述方法还包括以下至少一项:
建立第一对应关系或第二对应关系,其中,所述第一对应关系为声音模型与用户身份之间的对应关系,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系;
基于知识图谱算法构建用户关系图谱。
第二方面,本发明实施例提供了一种语音交互装置,应用于具有音箱功能的终端,包括:
接收模块,用于接收消息发送方的语音消息;
识别模块,用于根据所述语音消息,识别所述消息发送方的身份信息;
确定模块,用于根据所述消息发送方的身份信息、所述语音消息以及预设的用户关系图谱,确定消息接收方;
输出模块,用于向所述消息接收方输出所述语音消息。
其中,所述识别模块包括:
第一提取子模块,用于提取所述语音消息的声纹特征;
第一识别子模块,用于根据所述声纹特征和第一对应关系,识别所述消息发送方的身份信息,其中,所述第一对应关系为声音模型与用户身份之间的对应关系。
其中,所述识别模块包括:
第一获取子模块,用于获取所述消息发送方发送所述语音消息所使用的终端的信息;
第二提取子模块,用于提取所述语音消息的声纹特征;
第二识别子模块,用于根据所述声纹特征、所述终端的信息和第二对应关系,识别所述消息发送方的身份信息,其中,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系。
其中,所述确定模块包括:
转换子模块,用于将所述语音消息转换为文字消息;
识别子模块,用于基于NLP算法,对所述文字消息进行语义识别,获得语义识别结果;
确定子模块,用于根据所述消息发送方的身份信息、所述语义识别结果以及所述用户关系图谱,确定消息接收方。
其中,所述输出模块包括:
获取子模块,用于获取所述消息接收方的声音模型;
合成子模块,用于将所述语音消息和所述声音模型进行合成,得到合成后的语音消息;
输出子模块,用于利用所述音箱向所述消息接收方广播所述合成后的语音消息。
其中,所述输出模块还包括:
缓存子模块,用于缓存所述合成后的语音消息。
其中,所述装置还包括设置模块,用于执行以下至少一项:
建立第一对应关系或第二对应关系,其中,所述第一对应关系为声音模型与用户身份之间的对应关系,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系;
基于知识图谱算法构建用户关系图谱。
第三方面,本发明实施例提供了一种通信设备,包括:收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;
所述处理器,用于读取存储器中的程序实现如第一方面所述的方法中的步骤。
第四方面,本发明实施例提供了一种语音交互装置,应用于具有音箱功能的终端,包括:处理器和收发器;
其中,所述收发器用于,接收消息发送方的语音消息;
所述处理器用于,根据所述语音消息,识别所述消息发送方的身份信息;根据所述消息发送方的身份信息、所述语音消息以及预设的用户关系图谱,确定消息接收方;
所述收发器用于,向所述消息接收方输出所述语音消息。
其中,所述处理器还用于,提取所述语音消息的声纹特征;根据所述声纹特征和第一对应关系,识别所述消息发送方的身份信息,其中,所述第一对应关系为声音模型与用户身份之间的对应关系。
其中,所述处理器还用于,获取所述消息发送方发送所述语音消息所使用的终端的信息;提取所述语音消息的声纹特征;根据所述声纹特征、所述终端的信息和第二对应关系,识别所述消息发送方的身份信息,其中,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系。
其中,所述处理器还用于,将所述语音消息转换为文字消息;基于自然语言处理NLP算法,对所述文字消息进行语义识别,获得语义识别结果;根据所述消息发送方的身份信息、所述语义识别结果以及所述用户关系图谱,确定消息接收方。
其中,所述处理器还用于,获取所述消息接收方的声音模型;将所述语音消息和所述声音模型进行合成,得到合成后的语音消息;利用所述音箱向所述消息接收方广播所述合成后的语音消息。
其中,所述处理器还用于,缓存所述合成后的语音消息。
其中,所述处理器还用于,执行以下至少一项:
建立第一对应关系或第二对应关系,其中,所述第一对应关系为声音模型与用户身份之间的对应关系,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系;
基于知识图谱算法构建用户关系图谱。
第五方面,本发明实施例提供了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法中的步骤。
在本发明实施例中,可根据消息发送方的语音消息确定出对应的消息接收方,从而可使得语音消息定向的输出给消息接收方。因此,利用本发明实施例的方案,使得用户可利用具有音箱功能的终端进行高效的沟通。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语音交互方法的流程图;
图2是本发明实施例提供的智能音箱的结构图;
图3是本发明实施例中建立的对应关系的示意图;
图4是本发明实施例中关系图谱的示意图;
图5是本发明实施例提供的语音交互装置的结构图之一;
图6是本发明实施例提供的语音交互装置的结构图之二;
图7是本发明实施例提供的通信设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的语音交互方法的流程图,应用于具有音箱功能的终端。其中,所述终端包括但不限于为智能音箱,智能手机、机顶盒、电视等等。也就是说,只要其具有音箱功能,都可应用本发明实施例的方法。如图1所示,语音交互方法包括以下步骤:
步骤101、接收消息发送方的语音消息。
其中,所述消息发送方可以利用具有音箱功能的终端输入语音消息。例如,消息发方可通过移动终端输入语音消息,也可通过智能音箱输入语音消息。
步骤102、根据所述语音消息,识别所述消息发送方的身份信息。
所述身份信息可以是用户姓名,用户标签等标识用户的信息。
在本发明实施例中,可通过以下至少两种方式识别消息发送方的身份信息。
方式一,首先提取所述语音消息的声纹特征。然后,根据所述声纹特征和第一对应关系,识别所述消息发送方的身份信息,其中,所述第一对应关系为声音模型与用户身份之间的对应关系。
在实际应用中,为提高处理效率,可预先建立所述第一对应关系。例如,对不同的用户,要求其通过智能音箱输入语音,然后建立输入的语音和用户身份之间的对应关系。
方式二,首先获取所述消息发送方发送所述语音消息所使用的终端的信息。然后,提取所述语音消息的声纹特征,并根据所述声纹特征、所述终端的信息和第二对应关系,识别所述消息发送方的身份信息,其中,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系。
在实际应用中,为提高处理效率,可预先建立所述第二对应关系。每个终端都具有SN(Serial Number,序列号)号或者MAC(Medium Access Control,媒体访问控制)等唯一性标识。在实际应用中,可要求不同的用户通过终端输入语音。然后建立输入的语音、终端的标识和用户身份之间的对应关系。
步骤103、根据所述消息发送方的身份信息、所述语音消息以及预设的用户关系图谱,确定消息接收方。
在本发明实施例中,可将所述语音消息转换为文字消息。然后,基于NLP算法,对所述文字消息进行语义识别,获得语义识别结果。最后,根据所述消息发送方的身份信息、所述语义识别结果以及所述用户关系图谱,确定消息接收方。通过这种方式,能够准确的定位消息接收方。
为提高处理效率,在本发明实施例中,还可预先基于知识图谱算法构建用户关系图谱。其中,所述用户关系图谱中记载有不同用户之间的关系。例如,以家庭成员为例,在用户关系图谱中,可记载有以某个家庭成员为中心的不同家庭成员之间的关系。
步骤104、向所述消息接收方输出所述语音消息。
在此,如果是要通过终端播放从其他终端接收到的语音消息,那么可首先获取所述消息接收方的声音模型,然后,将所述语音消息和所述声音模型进行合成,得到合成后的语音消息。之后,利用所述音箱向所述消息接收方广播所述合成后的语音消息。在播放合成后的语音消息之前,若消息接收方接听不便,还可缓存所述合成后的语音消息。那么,在消息接收方方便接听时,再将缓存的语音消息播放。
在此,如果是要通过终端向其他终端发送语音消息,那么,在此可通过互联网将所述语音消息发送给消息接收方。
在本发明实施例中,可根据消息发送方的语音消息确定出对应的消息接收方,从而可使得语音消息定向的输出给消息接收方。因此,利用本发明实施例的方案,使得用户可利用具有音箱功能的终端进行高效的沟通。
以下,以智能音箱为例,描述一下利用智能音箱实现语音交互的方法。如图2所示,是智能音箱的结构示意图。在图2中,智能音箱可包括:
智能音箱外设模块201,通过该模块可广播接收到的语音内容,也可以通过该模块实现外部声源的语音输入。
语音输入和转写模块202,其中,语音输入子模块用于将输入的语音信息进行人声声纹特征提取;语音转写子模块,用于将语音信息转换为文字消息,即NLP自然语言处理。
关系模型匹配模块203,利用语音输入子模块提取的声纹特征,进行关系图谱的角色识别;对于从其他移动终端接收到的语音信息,先识别消息发送方的身份识别,根据身份识别结果匹配其人声模型。
语音输出和合成模块204,其中,语音合成子模块,用于实现语音消息与人声模型的语音合成;语音输出子模块,用于广播带有消息发送方真实声音模型的语音消息。
消息队列205,用于将接收或者即将发送的语音消息,按照时间顺序进行缓存,将消息逐条处理完成,待确认消息接收方可以接收或者听取消息时进行播放。其中,消息不限于语音、文字,可以附加图片或短视频等展示内容。
智能调度模块206,主要通过NLP的自然语言和语义的处理,识别语音消息的消息接收方,完成消息接收方和语音消息的关系图谱计算。
在图2中,智能音箱和移动终端之间可通过互联网服务器进行语音消息的传输。互联网服务器用于建立智能音箱与APP移动客户端之间的连接并转发或存储服务请求。该互联网服务器通过公网IP提供入口服务。一般智能音箱内置该公网IP地址,激活后注册该音箱的ID或SN。APP移动客户端连接该服务器后,可通过搜索智能音箱的ID或SN,并且音箱侧确认认证后,可连接到智能音箱接收或发送消息。
通过多APP移动客户端的方式连接智能音箱,进行随机多消息发送,通过设备标识、语义识别能够将消息准确播放给目标者收听。
基于以上的结构,首先在智能音箱系统中,可自定义配置人声模型库。其次,智能音箱对接入的移动端设备SN号或者MAC等唯一性标识进行绑定,对该移动端设备定义成员角色。然后,将对应的人声模型与接入设备定义映射关系,对接入成员之间建立关系图谱。最后,构建智能音箱的智能消息调度、推送与交互系统。其中,该系统包括智能音箱侧输入声源的人声角色识别;语音转写成NLP并识别消息关键字,完成语义识别;消息调度推送到接入移动端;接收移动端设备或账户的即时消息并调用对应角色人声模型语音播放等。
通过上述处理,最终实现在家庭成员或者自定义关系圈内,通过智能音箱实现具有语音合成的多方辨识交互过程,满足一定场景下的高效、便捷的交流和沟通过程。
以下,详细介绍上述各个过程。
首先,在智能音箱系统中,可自定义配置人声模型库。可通过移动终端、计算机的麦克、或者智能音箱录入具有代表性的说话声音,通过机器学习算法提取声音的声纹特性,并为具有该声纹的人声模型文件定义标签。以家庭智能音箱为例,建立的人声模型文件标签以家庭成员真实姓名映射。也即,建立家庭成员的真实姓名和人声模型文件之间的对应关系。
在实际应用中,智能音箱还可对接入的移动端设备SN号或者MAC等唯一性标识进行绑定。通过移动终端对智能音箱的网络连接,经过对智能音箱的SN或验证识别码的扫描,可建立安全的权限连接。同时将连接的移动终端与家庭成员真实姓名映射。如图3所示,为建立的家庭成员、人声模型、移动终端的对应关系。
其次,定义家庭成员或者关系圈的角色,建立成员之间的关系图谱。在建立关系图谱时,可以任意成员的角色为中心点,建立主干关系。然后,以知识图谱的推理算法进行关系自动生成计算。之后,还可通过人工确认。
如图4所示,通过以成员张Dd为中心,通过标签建立其与家庭成员的直接关系,为图中实线所示;则其他成员之间的关系则通过知识图谱算法可以自动完成成员标签补充,构建家庭成员的整体关系图谱,为图中虚线所示。
最后,构建智能音箱的智能消息调度模块。
结合图2,对于智能音箱接收到的用户输入的语音消息,智能音箱进行一定的处理后将其发送给对应的移动终端。
智能音箱的输入语音消息经过人声模型识别、语音转写文字、消息语义识别、消息发送者和接收者关系图谱计算、接收者身份确定、消息发送等过程,最终发送给消息接收方。
具体的,智能音箱对输入的语音消息进行识别,确定对应的人声模型。将语音消息转换为文字消息,并进行语义识别。根据人声模型和语义识别结果,以及对应的关系图谱确定出消息接收方。然后,将语音消息发送给消息接收方。
例如,张Cc输入的语音消息为:“妈,爸爸今天做了顿鱼汤,你什么时候下班回来?”。那么,经智能音箱分析后,人声模型为张Cc,关系图谱计算为母女对话,消息的接收者应该为刘Dd女生,消息将推送到刘Dd。
张Dd输入的语音消息为:“妈,爸的胃有些不舒服,买菜回来有时间到药店买暖胃的药,买一盒就可以”。那么,经智能音箱分析后,人声模型为张Dd,关系图谱计算为母子对话,消息的接收者应该为王Ab女生,消息将推送到王Ab。
通过上述方式,对于家庭成员声纹识别,确认说话者身份,即使是同样的称呼,也能够建立关系图谱的方式准确推送到接收到消息端。
结合图2,对于接收到的其他移动终端发送的语音消息,智能音箱进行一定的处理后将播放给对应的用户。
移动终端发送的语音消息经过消息发送者身份识别、语义识别、消息发送者和接收者关系图谱计算、接收者身份确定、语音合成等过程,播放给对应的用户。
具体的,智能音箱对移动终端发送的语音消息进行识别,识别消息发送方的身份,确定对应的人声模型。将语音消息转换为文字消息,并进行语义识别。根据人声模型和语义识别结果,以及对应的关系图谱确定出消息接收方。然后,将语音消息和人声模型进行合成,将合成后的语音消息播放对应的用户。
例如,移动客户端(刘Dd)发送的语音消息为:“今天妈妈加班,回去的比较晚,你写好作业后早点休息”。经智能音箱处理,确定出消息发送者为刘Dd,经过自然语音处理的语义识别,其身份为妈妈;经关系图谱计算,确定该语音消息应该发送给其女儿张Cc。那么,在只有张Cc唤醒智能音箱的声纹识别后,会广播该消息来通知张Cc。
移动客户端(刘Dd)发送的语音消息为:““妈,今天我加班,回去的比较晚,Cc写好作业后您带她早点休息吧”。经智能音箱处理,确定出消息发送者为刘Dd;经过自然语音处理的语义识别,关系图谱计算该消息应该发送给王Ab。那么,在只有王Ab唤醒智能音箱的声纹识别后,会广播该消息通知王Ab,而不会广播给其女儿或其他人。
通过以上描述可以看出,在本发明实施例中,智能音箱在实现语音合成交互上,通过声纹识别确定成员并以关系图谱检索,分析该个性化语音的人物在家庭或关系圈中角色。将输入声源消息,进行语音转文本后的语意识别,以智能匹配的方式准确推送到消息接收者。从而,利用本发明实施例的方案可解决在多人交互随机在智能音箱侧输入语音命令,而接受方无法区分消息角色的问题等。同时,在本发明实施例中,最终建立人际关系图谱,通过人声模型匹配的方式实现多方在线或离线的交互。
本发明实施例还提供了一种语音交互装置。参见图5,图5是本发明实施例提供的语音交互装置的结构图。由于语音交互装置解决问题的原理与本发明实施例中语音交互方法相似,因此该语音交互装置的实施可以参见方法的实施,重复之处不再赘述。
如图5所示,语音交互装置包括:
接收模块501,用于接收消息发送方的语音消息;识别模块502,用于根据所述语音消息,识别所述消息发送方的身份信息;确定模块503,用于根据所述消息发送方的身份信息、所述语音消息以及预设的用户关系图谱,确定消息接收方;输出模块504,用于向所述消息接收方输出所述语音消息。
可选的,所述识别模块502包括:第一提取子模块,用于提取所述语音消息的声纹特征;第一识别子模块,用于根据所述声纹特征和第一对应关系,识别所述消息发送方的身份信息,其中,所述第一对应关系为声音模型与用户身份之间的对应关系。
可选的,所述识别模块502包括:第一获取子模块,用于获取所述消息发送方发送所述语音消息所使用的终端的信息;第二提取子模块,用于提取所述语音消息的声纹特征;第二识别子模块,用于根据所述声纹特征、所述终端的信息和第二对应关系,识别所述消息发送方的身份信息,其中,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系。
可选的,所述确定模块503包括:转换子模块,用于将所述语音消息转换为文字消息;识别子模块,用于基于NLP算法,对所述文字消息进行语义识别,获得语义识别结果;确定子模块,用于根据所述消息发送方的身份信息、所述语义识别结果以及所述用户关系图谱,确定消息接收方。
可选的,所述输出模块504包括:获取子模块,用于获取所述消息接收方的声音模型;合成子模块,用于将所述语音消息和所述声音模型进行合成,得到合成后的语音消息;输出子模块,用于利用所述音箱向所述消息接收方广播所述合成后的语音消息。
其中,所述输出模块504还包括:缓存子模块,用于缓存所述合成后的语音消息。
可选的,所述装置还包括设置模块,用于执行以下至少一项:
建立第一对应关系或第二对应关系,其中,所述第一对应关系为声音模型与用户身份之间的对应关系,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系;基于知识图谱算法构建用户关系图谱。
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
本发明实施例还提供了一种语音交互装置。参见图6,图6是本发明实施例提供的语音交互装置的结构图。由于语音交互装置解决问题的原理与本发明实施例中语音交互方法相似,因此该语音交互装置的实施可以参见方法的实施,重复之处不再赘述。
如图6所示,语音交互装置包括:处理器601和收发器602。
其中,所述收发器602用于,接收消息发送方的语音消息;
所述处理器601用于,根据所述语音消息,识别所述消息发送方的身份信息;根据所述消息发送方的身份信息、所述语音消息以及预设的用户关系图谱,确定消息接收方;
所述收发器602用于,向所述消息接收方输出所述语音消息。
其中,所述处理器601还用于,提取所述语音消息的声纹特征;根据所述声纹特征和第一对应关系,识别所述消息发送方的身份信息,其中,所述第一对应关系为声音模型与用户身份之间的对应关系。
其中,所述处理器601还用于,获取所述消息发送方发送所述语音消息所使用的终端的信息;提取所述语音消息的声纹特征;根据所述声纹特征、所述终端的信息和第二对应关系,识别所述消息发送方的身份信息,其中,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系。
其中,所述处理器601还用于,将所述语音消息转换为文字消息;基于自然语言处理NLP算法,对所述文字消息进行语义识别,获得语义识别结果;根据所述消息发送方的身份信息、所述语义识别结果以及所述用户关系图谱,确定消息接收方。
其中,所述处理器601还用于,获取所述消息接收方的声音模型;将所述语音消息和所述声音模型进行合成,得到合成后的语音消息;利用所述音箱向所述消息接收方广播所述合成后的语音消息。
其中,所述处理器601还用于,缓存所述合成后的语音消息。
其中,所述处理器601还用于,执行以下至少一项:
建立第一对应关系或第二对应关系,其中,所述第一对应关系为声音模型与用户身份之间的对应关系,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系;
基于知识图谱算法构建用户关系图谱。
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
如图7所示,本发明实施例的通信设备,应用于具有音箱功能的终端,包括:
处理器700,用于读取存储器720中的程序,执行下列过程:
通过收发机710接收消息发送方的语音消息;根据所述语音消息,识别所述消息发送方的身份信息;根据所述消息发送方的身份信息、所述语音消息以及预设的用户关系图谱,确定消息接收方;向所述消息接收方输出所述语音消息。
收发机710,用于在处理器700的控制下接收和发送数据。
其中,在图7中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器700代表的一个或多个处理器和存储器720代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机710可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备,用户接口730还可以是能够外接内接需要设备的接口,连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。
处理器700负责管理总线架构和通常的处理,存储器720可以存储处理器700在执行操作时所使用的数据。
处理器700还用于读取所述计算机程序,执行如下步骤:
提取所述语音消息的声纹特征;
根据所述声纹特征和第一对应关系,识别所述消息发送方的身份信息,其中,所述第一对应关系为声音模型与用户身份之间的对应关系。
处理器700还用于读取所述计算机程序,执行如下步骤:
获取所述消息发送方发送所述语音消息所使用的终端的信息;
提取所述语音消息的声纹特征;
根据所述声纹特征、所述终端的信息和第二对应关系,识别所述消息发送方的身份信息,其中,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系。
处理器700还用于读取所述计算机程序,执行如下步骤:
将所述语音消息转换为文字消息;
基于自然语言处理NLP算法,对所述文字消息进行语义识别,获得语义识别结果;
根据所述消息发送方的身份信息、所述语义识别结果以及所述用户关系图谱,确定消息接收方。
处理器700还用于读取所述计算机程序,执行如下步骤:
获取所述消息接收方的声音模型;
将所述语音消息和所述声音模型进行合成,得到合成后的语音消息;
利用所述音箱向所述消息接收方广播所述合成后的语音消息。
处理器700还用于读取所述计算机程序,执行如下步骤:
缓存所述合成后的语音消息。
处理器700还用于读取所述计算机程序,执行如下步骤:
建立第一对应关系或第二对应关系,其中,所述第一对应关系为声音模型与用户身份之间的对应关系,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系;
基于知识图谱算法构建用户关系图谱。
此外,本发明实施例的计算机可读存储介质,用于存储计算机程序,所述计算机程序可被处理器执行实现以下步骤:
接收消息发送方的语音消息;
根据所述语音消息,识别所述消息发送方的身份信息;
根据所述消息发送方的身份信息、所述语音消息以及预设的用户关系图谱,确定消息接收方;
向所述消息接收方输出所述语音消息。
其中,所述根据所述语音消息,识别所述消息发送方的身份信息,包括:
提取所述语音消息的声纹特征;
根据所述声纹特征和第一对应关系,识别所述消息发送方的身份信息,其中,所述第一对应关系为声音模型与用户身份之间的对应关系。
其中,所述根据所述语音消息,识别所述消息发送方的身份信息,包括:
获取所述消息发送方发送所述语音消息所使用的终端的信息;
提取所述语音消息的声纹特征;
根据所述声纹特征、所述终端的信息和第二对应关系,识别所述消息发送方的身份信息,其中,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系。
其中,所述根据所述消息发送方的身份信息、所述语音消息以及预设的用户关系图谱,确定消息接收方,包括:
将所述语音消息转换为文字消息;
基于自然语言处理NLP算法,对所述文字消息进行语义识别,获得语义识别结果;
根据所述消息发送方的身份信息、所述语义识别结果以及所述用户关系图谱,确定消息接收方。
其中,所述向所述消息接收方输出所述语音消息,包括:
获取所述消息接收方的声音模型;
将所述语音消息和所述声音模型进行合成,得到合成后的语音消息;
利用所述音箱向所述消息接收方广播所述合成后的语音消息。
其中,在所述得到合成后的语音消息之后,所述方法还包括:
缓存所述合成后的语音消息。
其中,在所述接收消息发送方的语音消息之前,所述方法还包括以下至少一项:
建立第一对应关系或第二对应关系,其中,所述第一对应关系为声音模型与用户身份之间的对应关系,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系;基于知识图谱算法构建用户关系图谱。
在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种语音交互方法,应用于具有音箱功能的终端,其特征在于,包括:
接收消息发送方的语音消息;
根据所述语音消息,识别所述消息发送方的身份信息;
根据所述消息发送方的身份信息、所述语音消息以及预设的用户关系图谱,确定消息接收方;
向所述消息接收方输出所述语音消息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述语音消息,识别所述消息发送方的身份信息,包括:
提取所述语音消息的声纹特征;
根据所述声纹特征和第一对应关系,识别所述消息发送方的身份信息,其中,所述第一对应关系为声音模型与用户身份之间的对应关系。
3.根据权利要求1所述的方法,其特征在于,所述根据所述语音消息,识别所述消息发送方的身份信息,包括:
获取所述消息发送方发送所述语音消息所使用的终端的信息;
提取所述语音消息的声纹特征;
根据所述声纹特征、所述终端的信息和第二对应关系,识别所述消息发送方的身份信息,其中,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系。
4.根据权利要求1所述的方法,其特征在于,所述根据所述消息发送方的身份信息、所述语音消息以及预设的用户关系图谱,确定消息接收方,包括:
将所述语音消息转换为文字消息;
基于自然语言处理NLP算法,对所述文字消息进行语义识别,获得语义识别结果;
根据所述消息发送方的身份信息、所述语义识别结果以及所述用户关系图谱,确定消息接收方。
5.根据权利要求1所述的方法,其特征在于,所述向所述消息接收方输出所述语音消息,包括:
获取所述消息接收方的声音模型;
将所述语音消息和所述声音模型进行合成,得到合成后的语音消息;
利用所述音箱向所述消息接收方广播所述合成后的语音消息。
6.根据权利要求5所述的方法,其特征在于,在所述得到合成后的语音消息之后,所述方法还包括:
缓存所述合成后的语音消息。
7.根据权利要求1所述的方法,其特征在于,在所述接收消息发送方的语音消息之前,所述方法还包括以下至少一项:
建立第一对应关系或第二对应关系,其中,所述第一对应关系为声音模型与用户身份之间的对应关系,所述第二对应关系为声音模型、终端信息与用户身份之间的对应关系;
基于知识图谱算法构建用户关系图谱。
8.一种语音交互装置,应用于具有音箱功能的终端,其特征在于,包括:
接收模块,用于接收消息发送方的语音消息;
识别模块,用于根据所述语音消息,识别所述消息发送方的身份信息;
确定模块,用于根据所述消息发送方的身份信息、所述语音消息以及预设的用户关系图谱,确定消息接收方;
输出模块,用于向所述消息接收方输出所述语音消息。
9.一种通信设备,包括:收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,
所述处理器,用于读取存储器中的程序实现如权利要求1至7中任一项所述的方法中的步骤。
10.一种语音交互装置,应用于具有音箱功能的终端,其特征在于,包括:处理器和收发器;
其中,所述收发器用于,接收消息发送方的语音消息;
所述处理器用于,根据所述语音消息,识别所述消息发送方的身份信息;根据所述消息发送方的身份信息、所述语音消息以及预设的用户关系图谱,确定消息接收方;
所述收发器用于,向所述消息接收方输出所述语音消息。
11.一种计算机可读存储介质,用于存储计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910806670.5A CN112447179A (zh) | 2019-08-29 | 2019-08-29 | 一种语音交互方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910806670.5A CN112447179A (zh) | 2019-08-29 | 2019-08-29 | 一种语音交互方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112447179A true CN112447179A (zh) | 2021-03-05 |
Family
ID=74740740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910806670.5A Pending CN112447179A (zh) | 2019-08-29 | 2019-08-29 | 一种语音交互方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112447179A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436625A (zh) * | 2021-06-25 | 2021-09-24 | 安徽淘云科技股份有限公司 | 一种人机交互方法及其相关设备 |
CN114124605A (zh) * | 2021-11-25 | 2022-03-01 | 珠海格力电器股份有限公司 | 智能家居的控制方法、智能家居设备、非易失性存储介质及处理器 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010091677A (ko) * | 2000-03-17 | 2001-10-23 | 최승현 | 음성합성을 이용한 선택형 온라인 대화시스템의 구성 및운용방법 |
US6507643B1 (en) * | 2000-03-16 | 2003-01-14 | Breveon Incorporated | Speech recognition system and method for converting voice mail messages to electronic mail messages |
US20180013718A1 (en) * | 2015-11-17 | 2018-01-11 | Tencent Technology (Shenzhen) Company Limited | Account adding method, terminal, server, and computer storage medium |
CN107770047A (zh) * | 2017-10-12 | 2018-03-06 | 上海斐讯数据通信技术有限公司 | 智能音箱、基于智能音箱实现社交功能的系统和方法 |
CN109379499A (zh) * | 2018-11-20 | 2019-02-22 | 北京千丁互联科技有限公司 | 一种语音呼叫方法及装置 |
CN110866410A (zh) * | 2019-11-15 | 2020-03-06 | 深圳市赛为智能股份有限公司 | 多语言转换方法、装置、计算机设备及存储介质 |
CN114495921A (zh) * | 2020-11-11 | 2022-05-13 | 上海擎感智能科技有限公司 | 一种语音处理方法、装置及计算机存储介质 |
CN116052666A (zh) * | 2023-02-21 | 2023-05-02 | 之江实验室 | 语音消息处理方法、装置、系统、电子装置和存储介质 |
-
2019
- 2019-08-29 CN CN201910806670.5A patent/CN112447179A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6507643B1 (en) * | 2000-03-16 | 2003-01-14 | Breveon Incorporated | Speech recognition system and method for converting voice mail messages to electronic mail messages |
KR20010091677A (ko) * | 2000-03-17 | 2001-10-23 | 최승현 | 음성합성을 이용한 선택형 온라인 대화시스템의 구성 및운용방법 |
US20180013718A1 (en) * | 2015-11-17 | 2018-01-11 | Tencent Technology (Shenzhen) Company Limited | Account adding method, terminal, server, and computer storage medium |
CN107770047A (zh) * | 2017-10-12 | 2018-03-06 | 上海斐讯数据通信技术有限公司 | 智能音箱、基于智能音箱实现社交功能的系统和方法 |
CN109379499A (zh) * | 2018-11-20 | 2019-02-22 | 北京千丁互联科技有限公司 | 一种语音呼叫方法及装置 |
CN110866410A (zh) * | 2019-11-15 | 2020-03-06 | 深圳市赛为智能股份有限公司 | 多语言转换方法、装置、计算机设备及存储介质 |
CN114495921A (zh) * | 2020-11-11 | 2022-05-13 | 上海擎感智能科技有限公司 | 一种语音处理方法、装置及计算机存储介质 |
CN116052666A (zh) * | 2023-02-21 | 2023-05-02 | 之江实验室 | 语音消息处理方法、装置、系统、电子装置和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436625A (zh) * | 2021-06-25 | 2021-09-24 | 安徽淘云科技股份有限公司 | 一种人机交互方法及其相关设备 |
CN114124605A (zh) * | 2021-11-25 | 2022-03-01 | 珠海格力电器股份有限公司 | 智能家居的控制方法、智能家居设备、非易失性存储介质及处理器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104618780B (zh) | 电器设备控制方法及系统 | |
CN109739971A (zh) | 一种基于微信小程序实现全双工智能语音对话的方法 | |
CN102984496B (zh) | 视频会议中的视音频信息的处理方法、装置及系统 | |
CN111276123B (zh) | 一种语音播报留言的方法、装置、计算机设备及存储介质 | |
CN107205097B (zh) | 移动终端查找方法、装置以及计算机可读存储介质 | |
US11244686B2 (en) | Method and apparatus for processing speech | |
CN104735480A (zh) | 移动终端与电视之间的信息发送方法及系统 | |
CN104144108A (zh) | 一种消息响应方法、装置及系统 | |
CN106847256A (zh) | 一种语音转化聊天方法 | |
CN101944360A (zh) | 方便使用的方法和终端 | |
CN112447179A (zh) | 一种语音交互方法、装置、设备及计算机可读存储介质 | |
CN105427856B (zh) | 一种面向智能机器人的约请数据处理方法和系统 | |
KR101351264B1 (ko) | 음성인식 기반의 메시징 통역서비스 제공 시스템 및 그 방법 | |
CN111683174B (zh) | 来电处理方法、装置及系统 | |
CN113763925A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN113783771A (zh) | 一种基于微信的ai虚拟人交互方法和系统 | |
CN112599130A (zh) | 一种基于智慧屏的智能会议系统 | |
CN110706704A (zh) | 用于生成语音交互原型的方法、装置和计算机设备 | |
CN109977427A (zh) | 一种微型可佩戴的实时翻译装置 | |
CN111028837B (zh) | 语音会话方法、语音识别系统及计算机存储介质 | |
WO2021134284A1 (zh) | 语音信息处理方法、中枢设备、控制终端及存储介质 | |
CN115455991A (zh) | 一种会议中的翻译方法、服务器和可读存储介质 | |
US11830120B2 (en) | Speech image providing method and computing device for performing the same | |
CN110855832A (zh) | 一种辅助通话的方法、装置和电子设备 | |
KR102509106B1 (ko) | 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210305 |
|
RJ01 | Rejection of invention patent application after publication |