CN112017629B - 语音机器人的会话控制方法及设备、存储介质 - Google Patents
语音机器人的会话控制方法及设备、存储介质 Download PDFInfo
- Publication number
- CN112017629B CN112017629B CN202010680887.9A CN202010680887A CN112017629B CN 112017629 B CN112017629 B CN 112017629B CN 202010680887 A CN202010680887 A CN 202010680887A CN 112017629 B CN112017629 B CN 112017629B
- Authority
- CN
- China
- Prior art keywords
- user
- conversation
- voice
- speaking
- session
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000003993 interaction Effects 0.000 claims abstract description 89
- 230000008451 emotion Effects 0.000 claims description 73
- 230000008569 process Effects 0.000 claims description 25
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Manipulator (AREA)
Abstract
本申请公开了一种语音机器人的会话控制方法及设备、存储介质。其中,语音机器人的会话控制方法包括:在语音机器人的本次会话未达到预设结束状态之前,检测本次会话是否处于预设触发状态;响应于本次会话处于预设触发状态,获取本次会话的语音数据;分析语音数据,得到会话信息,根据对会话信息的分析,确定是否控制语音机器人对本次会话执行预设处理,其中,预设处理为打断用户说话或结束本次会话。上述方案,可实现语音机器人与用户之间语音交互的智能控制。
Description
技术领域
本申请涉及语音机器人技术领域,特别是涉及一种语音机器人的会话控制方法及设备、存储介质。
背景技术
语音机器人以配置好的会话及会话序列与用户进行语音交互,例如任务型语音机器人面向特定任务目标以固定顺序和固定内容与用户进行语音交互,其中,特定任务目标例如为介绍、推销产品。
一般地,语音机器人与用户进行语音交互的过程中,语音机器人需等待用户说话结束后,才能继续进行配置好的会话,导致语音机器人与用户之间的语音交互比较呆板。基于此,如何实现语音机器人与用户之间语音交互的智能控制,成为亟待解决的问题。
发明内容
本申请主要是提供一种语音机器人的会话控制方法及设备、存储介质。
本申请第一方面提供了一种语音机器人的会话控制方法,包括:在所述语音机器人的本次会话未达到预设结束状态之前,检测所述本次会话是否处于预设触发状态;响应于所述本次会话处于所述预设触发状态,获取所述本次会话的语音数据;分析所述语音数据,得到会话信息;根据对所述会话信息的分析,确定是否控制所述语音机器人对本次会话执行预设处理,其中,所述预设处理为打断用户说话或结束本次会话。
其中,所述会话信息包括时长、当前会话时长、用户意图、用户情绪中的至少一种。
其中,所述预设处理为打断用户说话;所述会话信息包括用户说话时长;所述根据对所述会话信息的分析,确定是否控制所述语音机器人对本次会话执行预设处理,包括:基于所述用户说话时长,确定是否控制所述语音机器人执行打断用户说话。
其中,所述会话信息还包括用户意图;所述基于所述用户说话时长,确定是否控制所述语音机器人执行打断用户说话,包括:若所述用户说话时长大于第一时间阈值且所述用户意图不属于预设意图,或者所述用户说话时长大于第二时间阈值,则控制所述语音机器人执行打断用户说话;其中,所述第一时间阈值小于所述第二时间阈值。
其中,所述预设处理为结束本次会话;所述会话信息包括:所述本次会话的当前会话时长、用户意图集合和用户情绪集合中的至少一种,所述用户意图集合包括所述本次会话中每轮语音交互的用户意图,所述用户情绪结合集合包括所述本次会话中每轮语音交互的用户情绪;所述根据对会话信息的分析,确定是否控制所述语音机器人对本次会话执行预设处理,包括:基于所述当前会话时长、用户意图集合和/或用户情绪集合,确定是否控制所述语音机器人执行结束本次会话。
其中,所述基于所述当前会话时长、用户意图集合和用户情绪集合,确定是否控制所述语音机器人执行结束本次会话,包括:基于所述用户意图集合,获得用户意图达成率,以及基于所述用户情绪集合,获得用户情绪负面度;若满足以下至少一个条件:所述当前会话时长大于第三时间阈值且所述用户意图达成率小于预设达成率,所述当前会话时长大于所述第三时间阈值且所述用户情绪负面度大于预设负面度,所述当前会话时长大于第四时间阈值,则控制所述语音机器人执行结束本次会话,其中,所述第三时间阈值小于所述第四时间阈值。
其中,所述基于所述用户意图集合,获得用户意图达成率,包括:统计所述用户意图集合中属于预设意图的预设意图数量,并获取所述预设意图数量在所述用户意图集合中的占比作为所述用户意图达成率;所述基于所述用户情绪集合,获得用户情绪负面度,包括:统计所述用户情绪集合中属于负面情绪的负面情绪数量,并获取所述负面情绪数量在所述用户情绪集合中的占比作为所述用户情绪负面度。
其中,所述预设触发状态包括:用户处于说话状态和/或所述本次会话的一轮语音交互处于结束状态;其中,若所述本次会话处于用户处于说话状态,则所述预设处理为打断用户说话,若所述本次会话的当前轮会话处于结束状态,则所述预设处理为结束本次会话。
本申请第二方面提供了一种会话控制设备,包括相互耦接的存储器和处理器;处理器用于执行存储器存储的程序指令,以实现上述第一方面的语音机器人的会话控制方法。
本申请第三方面提供了一种计算机存储介质,其上存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的语音机器人的会话控制方法。
通过上述方式,在语音机器人的本次会话未达到预设结束状态之前,若检测到本次会话处于预设触发状态,则获取本次会话的语音数据,分析语音数据,得到会话信息,从而根据对会话信息的分析,确定是否控制所述语音机器人对本次会话执行打断用户说话或结束本次会话,因此能够在本次会话未正常结束之前,也可根据本次会话的实际情况来确定是否打断用户说话和提前结束本次会话,从而实现语音机器人与用户之间语音交互的智能控制。
附图说明
图1是本申请语音机器人的会话控制方法一实施例的流程示意图;
图2是本申请语音机器人的会话控制方法另一实施例的流程示意图;
图3是本申请语音机器人的会话控制方法再一实施例的流程示意图;
图4是本申请语音机器人的会话控制方法再一实施例的部分流程示意图;
图5是本申请语音机器人的会话控制方法再一实施例的另一部分流程示意图;
图6是本申请会话控制设备一实施例的框架示意图;
图7是本申请计算机存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
请参阅图1,图1是本申请语音机器人的会话控制方法一实施例的流程示意图。具体而言,本实施例方法包括以下步骤:
步骤S11:在语音机器人的本次会话未达到预设结束状态之前,检测本次会话是否处于预设触发状态。
语音机器人可代替真人与用户进行语音交互。语音机器人与用户交互的开启方式包括但不限于语音机器人通过预先存储的呼叫号码向用户发起呼叫、用户通过与语音机器人对应的号码向语音机器人发起呼叫等通过呼叫建立连接并进行语音交互;语音机器人与用户还可以近距离语音交互,例如为语音机器人自动播放预先存储的会话,或者用户先发出问询后语音机器人作出语音回复等,在此不作具体限定。
预设结束状态是语音机器人与用户的本次会话结束。语音机器人的本次会话可包括若干轮语音交互,且在本次会话结束后,还可与相同或不同用户进行下次会话。为节省语音机器人的服务资源,使得语音机器人被更多用户占用,在一实施例中,检测到语音机器人的本次会话达到预设结束条件后,记录并存储用于唯一标识用户的用户识别信息,从而在后续时刻中,在执行检测本次会话是否处于预设触发状态之前,根据用户识别信息判断该用户是否在历史会话中,若是,则结束本次会话。
预设触发状态是语音机器人与用户进行语音交互过程中的一状态类型,包括但不限于用户处于说话状态、本次会话的一轮语音交互处于结束状态。可以理解的,一轮语音交互处于结束状态可以是用户当前轮说话完毕从而结束当前轮语音交互;还可以是用户处于说话状态时,语音机器人对本次会话执行打断用户说话,从而结束当前轮语音交互等,在此不作限定。
预设触发状态包括用户处于说话状态和/或本次会话的一轮语音交互处于结束状态。对应于预设处理为打断用户说话,预设触发状态为本次会话处于用户处于说话状态;对应于预设处理为结束本次会话,预设触发状态为本次会话的当前轮会话的处于结束状态。
步骤S12:响应于本次会话处于预设触发状态,获取本次会话的语音数据。
语音数据是语音机器人与用户进行语音交互过程中的各种会话相关的数据信息。
步骤S13:分析语音数据,得到会话信息。
分析语音数据,即可得到会话信息。会话信息包括但不限于时长、用户意图、用户情绪。在一实施例中,会话信息包括时长、用户意图、用户情绪中的至少一种,在此不作限定。时长可以是仅与当前轮语音交互对应的用户说话时长、与若干轮语音交互对应的用户说话时长、与整个语音交互过程对应的用户说话时长。可以理解的,语音机器人预录入有会话,按照固定的时长和顺序与用户进行语音交互,且每轮语音交互中语音机器人的会话时长固定,例如第一轮语音交互中语音机器人的会话时长为5秒,完整的本次会话中语音机器人的会话时长为300秒,因此,语音机器人的会话时长固定,并不影响用户说话时长的判断。在一实施例中,为了简单方便的对时长进行累计,时长还可为用户说话时长与语音机器人的会话时长的和。
步骤S14:根据对会话信息的分析,确定是否控制语音机器人对本次会话执行预设处理,其中,预设处理为打断用户说话或结束本次会话。
会话信息的分析方法包括但不限于神经网络模型或深度学习技术,自动语音识别技术(ASR,Automatic Speech Recognition),自然语言处理技术(NLP,Natural LanguageProcessing)等,在此不作具体限定。根据对会话信息的分析,而确定是否控制语音机器人对本次会话执行打断用户说话或结束本次会话等预设处理。
语音机器人的会话控制系统可以独立于语音机器人,可以嵌入或集成于语音机器人,可以是与语音机器人集成于同一设备,能够控制语音机器人执行例如为对本次会话执行预设处理等操作即可,在此不作具体限定。语音机器人的会话控制系统可通过指令或者协议与语音机器人建立连接,以控制语音机器人对本次会话执行预设处理。例如,语音机器人的会话控制系统在确定需打断用户说话时,向语音机器人发送打断用户说话指令,此时,语音机器人可以停止接收用户说话语音,并向用户输出语音等;语音机器人的会话控制系统在确定需结束本次会话时,向语音机器人发送结束本次会话指令,还可记录本次会话的ID,并在后续时刻中,对已经发出过结束本次会话指令的会话,语音机器人的会话控制系统不再提供预设处理的判断和控制。
通过上述方式,在语音机器人的本次会话未达到预设结束状态之前,若检测到本次会话处于预设触发状态,则获取本次会话的语音数据,分析语音数据,得到会话信息,根据对会话信息的分析,确定是否控制语音机器人对本次会话执行打断用户说话或结束本次会话,因此能够在本次会话未正常结束之前,也可根据本次会话的实际情况来确定是否打断用户说话和提前结束本次会话,从而实现语音机器人与用户之间语音交互的智能控制。通过分析会话信息来判断是否控制语音机器人打断用户说话,可实现语音机器人主动打断用户说话;通过分析会话信息来判断是否控制语音机器人结束本次会话,可提前结束本次会话,从而提高机器人的使用效率,降低服务成本。
语音机器人以配置好的会话及会话序列与用户进行语音交互,例如任务型语音机器人面向特定任务目标以固定顺序和固定内容与用户进行语音交互,其中,特定任务目标例如为介绍、推销产品。语音机器人在工作过程中,会占用很多系统资源,例如实现自动语音识别技术所需的服务资源、通信资源及硬件资源等各种资源。在一应用实施例中,用户可通过手机、固定座机、智能穿戴手表等任意一种具有通信功能的产品与语音机器人进行语音交互。由于语音机器人与每一个用户占用独立的通信资源,因此为了提高语音机器人的使用效率,降低服务成本,保证语音机器人并发接入能力和稳定性,在语音机器人与用户的语音交互过程中,对用户说话的用户意图、用户情绪等进行判别并据此控制语音机器人执行打断用户说话或结束本次会话。
为避免本次会话的当前轮语音交互中,用户一直处于说话状态,阻碍后续语音交互的高效进行,本实施例可分析会话信息,从而确定是否控制语音机器人对本次会话执行打断用户说话。请参阅图2,图2是本申请语音机器人的会话控制方法另一实施例的流程示意图,且以预设处理为打断用户说话为例,进行具体说明。具体而言,本实施例方法包括以下步骤:
步骤S21:在语音机器人的本次会话未达到预设结束状态之前,检测本次会话是否处于用户处于说话状态。
本实施例中,对应于图1所示语音机器人的会话控制方法实施例中的预设处理为打断用户说话,预设触发状态为用户处于说话状态,且用户处于说话状态可处于语音机器人与用户语音交互过程的任意一轮语音交互中。
步骤S22:响应于本次会话处于用户处于说话状态,获取本次会话的语音数据。
在用户处于说话状态的情况下,响应于当前轮语音交互的用户处于说话状态,获取本次会话的语音数据,
步骤S23:分析语音数据,得到会话信息,其中,会话信息包括用户说话时长。
获取本次会话的语音数据后,分析语音数据,得到会话信息。会话信息为语音交互中反映用户说话信息的数据,包括但不限于用户说话时长、会话时长、用户意图等,自此不作限定。本实施例中,用户说话时长为当前轮语音交互中用户说话的时间长度。
步骤S24:基于用户说话时长,确定是否控制语音机器人执行打断用户说话。
获取到用户说话时长后,即可确定是否控制语音机器人执行打断用户说话。用户说话时长太长,语音机器人与用户之间的语音交互成本较高,因此,为了降低会话成本,当会话信息为用户说话时长的情况下,判定用户说话时长是否大于第二时间阈值,从而在用户说话时长大于第二时间阈值时,则控制语音机器人执行打断用户说话,从而控制一轮语音交互中用户处于说话状态的时间。
整个语音交互过程中,用户意图的变化、用户情绪的变化,可用于判断本次会话成功的可能性,例如,用户意图不属于预设意图,或者用户情绪属于负面情绪,在一定程度上预示本次会话不能达成任务,从而可提前阻止当前轮语音交互中用户一直处于用户说话状态。在一实施例中,当会话信息为用户说话时长和用户意图的情况下,若用户说话时长大于第一时间阈值且用户意图不属于预设意图,则控制语音机器人执行打断用户说话。当会话信息为用户说话时长和用户情绪的情况下,若用户说话时长大于第一时间阈值且用户情绪属于负面情绪,则控制语音机器人执行打断用户说话。用户说话时长还可以与其余会话信息结合,用以确定是否控制语音机器人执行打断用户说话,在此不作限定。
第一时间阈值和第二时间阈值均可以自定义设置,且第一时间阈值小于第二时间阈值。在用户说话时长超过第一时间阈值后,即可对当前轮语音交互中的语音数据进行分析,得到用户意图,从而匹配用户意图是否在用户意图集合内,若用户意图不在用户意图集合内,则控制语音机器人执行打断用户说话,也即是,在用户说话时长大于第一时间阈值且用户意图不属于预设意图的情况下,则控制语音机器人执行打断用户说话。若用户说话时长超过第一时间阈值且用户意图属于预设意图,或者用户说话时长超过第一时间阈值且用户意图不确定,则不对用户说话状态予以干预。用户意图集合可根据实际情况予以设置。可以理解的,即使用户意图在用户意图集合中,但为了有效控制语音交互的时长、提高资源利用率,在用户说话时长大于第二时间阈值时,也控制语音机器人执行打断用户说话。
用户意图可以由神经网络模型或深度学习技术,自动语音识别技术,自然语言处理技术等技术分析会话信息得到。若用户说话时长较短,当前轮语音交互的用户意图往往无法确定或者能够确定但不够准确,因此,为了提高用户意图获取的准确性和有效性,在当前轮语音交互中用户处于说话状态后的第一时间阈值后,才获取用户意图。在一实施例中,用户意图的获取还可以是当前轮语音交互过程中周期性进行的,且在检测到用户意图不属于预设意图的情况下,则控制语音机器人执行打断用户说话。
通过上述方式,在用户说话过程中,对当前轮语音交互中的语音数据进行分析,得到当前轮语音交互中的用户说话时长,进而根据用户说话时长确定是否控制语音机器人执行打断用户说话,从而可实现语音机器人主动打断用户说话。由于在一轮语音交互中,用户处于说话状态的时间越长,硬件资源、服务资源、通信资源等资源将长时间被占用,因此,通过分析语音数据得到会话信息,根据对会话信息的分析,判断是否控制语音机器人打断用户说话,可更早进入下一轮语音交互,提高机器人的使用效率,降低服务成本。
除对当前轮语音交互的用户语音数据进行分析,以确定是否控制语音机器人对本次会话执行打断用户说话外,还可在本次会话的当前轮会话处于结束状态时,分析语音数据,得到会话信息,根据对会话信息的分析,确定是否控制语音机器人对本次会话执行结束本次会话。请参阅图3,图3是本申请语音机器人的会话控制方法再一实施例的流程示意图。具体而言,本实施例方法包括以下步骤:
步骤S31:在语音机器人的本次会话未达到预设结束状态之前,检测本次会话的当前轮会话是否处于结束状态。
本实施例中,对应于图1所示语音机器人的会话控制方法实施例中的预设处理为结束本次会话,预设触发状态为本次会话的一轮语音交互处于结束状态。
本次会话的当前轮会话处于结束状态可以发生于用户说话被打断而结束、当前轮语音交互中用户说话自然结束。语音机器人与用户的语音交互过程中,语音机器人对本次会话执行打断用户说话时,当前轮语音交互中用户说话被打断,属于本次会话的当前轮会话处于结束状态,也即是检测本次会话处于对应于结束本次会话的预设触发状态。当前轮语音交互中,用户说话未被打断且自然结束用户处于说话状态,同样属于本次会话的当前轮会话处于结束状态,也即是检测本次会话处于对应于结束本次会话的预设触发状态。在用户说话自动完毕、语音机器人下一轮说话之前,或者用户说话被动被打断、语音机器人下一轮说话之前,均可根据整个语音交互过程中的会话信息,判别是否结束本次会话,及时释放语音机器人的资源。可以理解的,检测本次会话是否处于本次会话的当前轮会话处于结束状态还可以是在本次会话过程中周期性执行的。
步骤S32:响应于本次会话的当前轮会话处于结束状态,获取本次会话的当前会话时长、用户意图集合和用户情绪集合。
预设处理为结束本次会话时,会话信息包括本次会话的当前会话时长、用户意图集合和用户情绪集合中的至少一种。本实施例中,会话信息为当前会话时长、用户意图集合和用户情绪集合。
当前会话时长可以为与整个语音交互过程对应的用户说话时长,也可以为与整个语音交互过程对应的用户说话时长与语音机器人的会话时长的和,反映语音机器人与用户开始语音交互至当前时刻的时间长度。
用户意图集合包括本次会话中每轮语音交互的用户意图,用户情绪集合包括本次会话中每轮语音交互的用户情绪。
步骤S33:基于当前会话时长、用户意图集合和用户情绪集合,确定是否控制语音机器人执行结束本次会话。
基于当前会话时长、用户意图集合和用户情绪集合,确定会话失败概率,进而确定是否控制语音机器人执行结束本次会话。
获取到用户意图集合后,基于用户意图集合,获得用户意图达成率,例如为统计用户意图集合中属于预设意图的预设意图数量,并获取预设意图数量在用户意图集合中的占比作为用户意图达成率。用户意图达成率越低,本次会话成功的可能性越小。
获取到用户情绪集合后,基于用户情绪集合,获得用户情绪负面度,例如为统计用户情绪集合中属于负面情绪的负面情绪数量,并获取负面情绪数量在用户情绪集合中的占比作为用户情绪负面度。用户情绪负面度越高,本次会话成功的可能性越小。
用户意图达成率和用户情绪负面度的获取顺序不作具体限定。
确定是否控制语音机器人执行结束本次会话时,若满足以下至少一个条件,则控制语音机器人执行结束本次会话。具体地,当前会话时长大于第三时间阈值且用户意图达成率小于预设达成率,则控制语音机器人执行结束本次会话。当前会话时长大于第三时间阈值且用户情绪负面度大于预设负面度,则控制语音机器人执行结束本次会话。当前会话时长大于第四时间阈值,则控制语音机器人执行结束本次会话。其中,第三时间阈值小于第四时间阈值。预设达成率和预设负面度均可自定义设置,在此不作限定。
通过实时监测用户说话时长、用户意图、用户情绪等数据来评估会话成本和会话成功的可能性,能够在本次会话未正常结束之前提前结束本次会话,整体上节约语音机器人的服务成本,提高语音机器人的服务效率。
通过上述方式,在本次会话的的当前轮会话处于结束状态时,通过本次会话的当前会话时长、用户意图集合和用户情绪集合,确定是否控制语音机器人执行结束本次会话,对本次会话的结束进行智能控制,可快速释放语音机器人的资源以用于与更多用户实现语音交互。由于语音机器人与用户的语音交互过程中,用户意图集合和用户情绪集合能够反映会话成功的概率,而当前会话时长反映用户处于说话状态的时间,因此,通过分析当前会话时长、用户意图集合和用户情绪集合来判断是否控制语音机器人结束本次会话,可提前中断会话配置、结束本次会话,从而提高各种资源利用效率,提高机器人的使用效率,降低服务成本。
可以理解的,当前轮语音交互中,语音机器人对本次会话执行打断用户说话时,当前轮语音交互中用户说话被打断,属于本次会话的当前轮会话处于结束状态,确定是否控制语音机器人对本次会话执行结束本次会话,若是,则结束本次会话;若否,则继续进行下一轮语音交互。当前轮语音交互中,用户说话未被打断且自然结束用户处于说话状态,同样属于本次会话的当前轮会话处于结束状态,确定是否控制语音机器人对本次会话执行结束本次会话,若是,则结束本次会话;若否,则继续进行下一轮语音交互。在语音机器人与用户的整个语音交互过程中,每轮语音交互的用户说话过程中均可判断是否中断用户说话;每轮语音交互处于结束状态,则可判断是否结束本次会话,且一旦结束本次会话则结束语音机器人与用户的整个语音交互过程。若分析会话信息后,确定不控制语音机器人对本次会话执行预设处理,则按照预设的会话流程配置继续进行会话过程。另外,通过实时监测用户说话时长、用户意图、用户情绪等数据来评估会话成本和会话成功的可能性,用户说话过程中以及整个语音交互过程中,可提前打断用户说话或结束本次会话,整体上节约语音机器人的服务成本,提高语音机器人的服务效率。
请参阅图4和图5,图4是本申请语音机器人的会话控制方法又一实施例的部分流程示意图;图5是本申请语音机器人的会话控制方法又一实施例的另一部分流程示意图。为了便于理解本申请方案,下面结合一具体例子进行说明:
本实施例以当前轮语音交互中,语音机器人执行打断用户说话后,判断是否控制语音机器人对本次会话执行结束本次会话为例。
步骤S41:检测本次会话是否处于用户处于说话状态。
在语音机器人的本次会话未达到预设结束状态之前,检测本次会话是否处于用户处于说话状态,若是,则执行步骤S42。可以理解的,检测本次会话处于用户处于说话状态是语音机器人与用户进行的当前轮语音交互,且当前轮语音交互之前的每轮语音交互均没有结束本次会话。
步骤S42:获取本次会话的语音数据,分析语音数据,得到会话信息,其中,会话信息为用户说话时长和用户意图。
本实施例中,根据用户说话时长和用户意图确定是否控制语音机器人执行打断用户说话,具体步骤如下。
步骤S43:判断用户说话时长是否大于第一时间阈值。
若是,则执行步骤S44。
步骤S44:判断用户意图是否属于预设意图。
若是,则执行步骤S45;若否,则执行步骤S46。
步骤S45:判断用户说话时长是否大于第二时间阈值。
若是,则执行步骤S46。
步骤S46:控制语音机器人执行打断用户说话。
基于语音机器人执行打断用户说话,判定本次会话处于本次会话的当前轮会话处于结束状态,从而获取本次会话的语音数据;分析语音数据,得到会话信息,确定是否控制语音机器人对本次会话执行预设处理。
步骤S47:获取本次会话的当前会话时长、用户意图集合和用户情绪集合。
用户意图集合包括本次会话中每轮语音交互的用户意图,用户情绪结合集合包括本次会话中每轮语音交互的用户情绪。步骤S48:判断当前会话时长是否大于第三时间阈值。
若是,则执行步骤S49;若否,进行下一轮语音交互。
步骤S49:基于用户意图集合,获得用户意图达成率,并判断用户意图达成率是否小于预设达成率。
若是,则执行步骤S50,若否,进行下一轮语音交互。
步骤S50:基于用户情绪集合,获得用户情绪负面度,并判断用户情绪负面度是否大于预设负面度。
若是,则执行步骤S51;若否,进行下一轮语音交互。
在一个实施场景中,上述步骤S49和步骤S50可以先执行步骤S49,后执行步骤S50;或者,先执行步骤S50,后执行步骤S49。
步骤S51:判断当前会话时长是否大于第四时间阈值。
若是,则执行步骤S52;若否,进行下一轮语音交互。通过综合判断用户意图、用户情绪和当前会话时长的分析,可根据既往的用户意图的变化、用户情绪的变化实现提前结束本次会话。
步骤S52:控制语音机器人执行结束本次会话。
请参阅图6,图6为本申请会话控制设备一实施例的框架示意图。具体而言,本实施例中会话控制设备600包括相互耦接的存储器610和处理器620。其中,存储器610用于存储的程序指令以及处理器620处理时所需存储的数据。
处理器620控制存储器610及其自身以实现上述语音机器人的会话控制方法任一实施例的步骤。处理器620还可以称为CPU(Central Processing Unit,中央处理单元)。处理器620可能是一种集成电路芯片,具有信号的处理能力。处理器620还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器620可以由多个成电路芯片共同实现。
本实施例各模块的实现功能具体可参考上述实施例对应步骤的相关描述。
请参阅图7,图7为本申请计算机存储介质700一实施例的框架示意图。本申请计算机存储介质700存储有能够被处理器运行的程序指令710,程序指令710用于实现上述任一语音机器人的会话控制方法的实施例中步骤。
该计算机存储介质700具体可以为U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储程序指令710的介质,或者也可以为存储有该程序指令710的服务器,该服务器可将存储的程序指令710发送给其他设备运行,或者也可以自运行该存储的程序指令710。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种语音机器人的会话控制方法,其特征在于,所述方法包括:
在所述语音机器人的本次会话未达到预设结束状态之前,检测所述本次会话是否处于预设触发状态;
响应于所述本次会话处于所述预设触发状态,获取所述本次会话的语音数据;
分析所述语音数据,得到会话信息;
根据对所述会话信息的分析,确定是否控制所述语音机器人对本次会话执行预设处理,其中,所述预设处理为打断用户说话或结束本次会话;
若语音机器人的会话控制系统确定需打断用户说话,则向语音机器人发送打断用户说话指令,所述语音机器人停止接收用户说话语音;若语音机器人的会话控制系统确定需结束本次会话,则向语音机器人发送结束本次会话指令。
2.根据权利要求1所述的方法,其特征在于,所述会话信息包括用户说话时长、当前会话时长、用户意图、用户情绪中的至少一种。
3.根据权利要求2所述的方法,其特征在于,所述预设处理为打断用户说话;所述会话信息包括用户说话时长;
所述根据对所述会话信息的分析,确定是否控制所述语音机器人对本次会话执行预设处理,包括:
若所述用户说话时长大于第一时间阈值,则确定是否控制所述语音机器人执行打断用户说话。
4.根据权利要求3所述的方法,其特征在于,所述会话信息还包括用户意图;
所述若所述用户说话时长大于第一时间阈值,则确定是否控制所述语音机器人执行打断用户说话,包括:
若所述用户说话时长大于第一时间阈值且所述用户意图不属于预设意图,则控制所述语音机器人执行打断用户说话;
或者,若所述用户说话时长大于第一时间阈值,且所述用户意图不确定或所述用户意图属于所述预设意图;则在所述用户说话时长大于第二时间阈值时,控制所述语音机器人执行打断用户说话;
其中,所述第一时间阈值小于所述第二时间阈值。
5.根据权利要求2所述的方法,其特征在于,所述预设处理为结束本次会话;所述会话信息包括:
所述本次会话的当前会话时长、用户意图集合和用户情绪集合中的至少一种,所述用户意图集合包括所述本次会话中每轮语音交互的用户意图,所述用户情绪结合集合包括所述本次会话中每轮语音交互的用户情绪;
所述根据对会话信息的分析,确定是否控制所述语音机器人对本次会话执行预设处理,包括:
基于所述当前会话时长、用户意图集合和/或用户情绪集合,确定是否控制所述语音机器人执行结束本次会话。
6.根据权利要求5所述的方法,其特征在于,所述基于所述当前会话时长、用户意图集合和用户情绪集合,确定是否控制所述语音机器人执行结束本次会话,包括:
所述会话信息还包括用户意图集合,基于所述用户意图集合,获得用户意图达成率,若所述当前会话时长大于第三时间阈值且所述用户意图达成率小于预设达成率,则控制所述语音机器人执行结束本次会话;
或者,
所述会话信息还包括用户情绪集合,基于所述用户情绪集合,获得用户情绪负面度,若所述当前会话时长大于所述第三时间阈值且所述用户情绪负面度大于预设负面度,则控制所述语音机器人执行结束本次会话;
或者,
若所述当前会话时长大于第四时间阈值,则控制所述语音机器人执行结束本次会话,其中,所述第三时间阈值小于所述第四时间阈值。
7.根据权利要求6所述的方法,其特征在于,所述基于所述用户意图集合,获得用户意图达成率,包括:
统计所述用户意图集合中属于预设意图的预设意图数量,并获取所述预设意图数量在所述用户意图集合中的占比作为所述用户意图达成率;
所述基于所述用户情绪集合,获得用户情绪负面度,包括:
统计所述用户情绪集合中属于负面情绪的负面情绪数量,并获取所述负面情绪数量在所述用户情绪集合中的占比作为所述用户情绪负面度。
8.根据权利要求1所述的方法,其特征在于,所述预设触发状态包括用户处于说话状态和/或所述本次会话的一轮语音交互处于结束状态;
其中,若所述本次会话处于用户说话状态,则所述预设处理为打断用户说话,若所述本次会话的当前轮会话处于结束状态,则所述预设处理为结束本次会话。
9.一种会话控制设备,其特征在于,包括相互耦接的存储器和处理器;
所述处理器用于执行所述存储器存储的程序指令,以实现权利要求1至8任一项所述的方法。
10.一种计算机存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010680887.9A CN112017629B (zh) | 2020-07-15 | 2020-07-15 | 语音机器人的会话控制方法及设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010680887.9A CN112017629B (zh) | 2020-07-15 | 2020-07-15 | 语音机器人的会话控制方法及设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112017629A CN112017629A (zh) | 2020-12-01 |
CN112017629B true CN112017629B (zh) | 2021-12-21 |
Family
ID=73499716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010680887.9A Active CN112017629B (zh) | 2020-07-15 | 2020-07-15 | 语音机器人的会话控制方法及设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112017629B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842849B (zh) * | 2022-04-24 | 2023-08-08 | 马上消费金融股份有限公司 | 语音对话检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2933796A1 (en) * | 2014-04-17 | 2015-10-21 | Aldebaran Robotics | Executing software applications on a robot |
CN105868827A (zh) * | 2016-03-25 | 2016-08-17 | 北京光年无限科技有限公司 | 一种智能机器人多模态交互方法和智能机器人 |
CN111416728A (zh) * | 2019-01-08 | 2020-07-14 | 北京京东尚科信息技术有限公司 | 会话结束预测、在线客服服务的方法、系统、设备及介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326307A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种语言交互方法 |
JP6601069B2 (ja) * | 2015-09-01 | 2019-11-06 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
US10339957B1 (en) * | 2016-12-20 | 2019-07-02 | Amazon Technologies, Inc. | Ending communications session based on presence data |
CN106649704B (zh) * | 2016-12-20 | 2020-04-07 | 竹间智能科技(上海)有限公司 | 一种智能对话控制方法和系统 |
CN107704612A (zh) * | 2017-10-23 | 2018-02-16 | 北京光年无限科技有限公司 | 用于智能机器人的对话交互方法及系统 |
US10636421B2 (en) * | 2017-12-27 | 2020-04-28 | Soundhound, Inc. | Parse prefix-detection in a human-machine interface |
CN108227932B (zh) * | 2018-01-26 | 2020-06-23 | 上海智臻智能网络科技股份有限公司 | 交互意图确定方法及装置、计算机设备及存储介质 |
CN111090736B (zh) * | 2018-10-24 | 2021-04-20 | 马上消费金融股份有限公司 | 问答模型的训练方法、问答方法、装置及计算机存储介质 |
CN109658925A (zh) * | 2018-11-28 | 2019-04-19 | 上海蔚来汽车有限公司 | 一种基于上下文的免唤醒车载语音对话方法及系统 |
US10567314B1 (en) * | 2018-12-03 | 2020-02-18 | D8AI Inc. | Programmable intelligent agents for human-chatbot communication |
CN109509471A (zh) * | 2018-12-28 | 2019-03-22 | 浙江百应科技有限公司 | 一种基于vad算法打断智能语音机器人对话的方法 |
CN111402900B (zh) * | 2018-12-29 | 2024-04-23 | 华为技术有限公司 | 一种语音交互方法,设备和系统 |
CN111080448B (zh) * | 2019-12-02 | 2024-03-26 | 深圳索信达数据技术有限公司 | 一种基于会话的意图分析方法 |
CN110827821B (zh) * | 2019-12-04 | 2022-04-12 | 三星电子(中国)研发中心 | 一种语音交互装置、方法和计算机可读存储介质 |
-
2020
- 2020-07-15 CN CN202010680887.9A patent/CN112017629B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2933796A1 (en) * | 2014-04-17 | 2015-10-21 | Aldebaran Robotics | Executing software applications on a robot |
CN105868827A (zh) * | 2016-03-25 | 2016-08-17 | 北京光年无限科技有限公司 | 一种智能机器人多模态交互方法和智能机器人 |
CN111416728A (zh) * | 2019-01-08 | 2020-07-14 | 北京京东尚科信息技术有限公司 | 会话结束预测、在线客服服务的方法、系统、设备及介质 |
Non-Patent Citations (2)
Title |
---|
Intention aware interactive multi-modal robot programming;S.Iba,et al.;《Proceedings 2003 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2003)》;IEEE;20031203;全文 * |
具有情感和语音交互能力的虚拟人系统;李真;《计算机工程》;中国知网;20061020(第20期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112017629A (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11783825B2 (en) | Speech recognition method, speech wakeup apparatus, speech recognition apparatus, and terminal | |
US10699702B2 (en) | System and method for personalization of acoustic models for automatic speech recognition | |
EP2802133B1 (en) | Live person detection in an automated calling system | |
KR20110043644A (ko) | 병렬 인식 태스크에 따른 음성 인식 | |
CN110557451A (zh) | 对话交互处理方法、装置、电子设备和存储介质 | |
CN112017629B (zh) | 语音机器人的会话控制方法及设备、存储介质 | |
CN112200556A (zh) | 一种自动柜员机的转账处理方法及装置 | |
WO2018100391A1 (en) | Speaker identification | |
CN107680592B (zh) | 一种移动终端语音识别方法、及移动终端及存储介质 | |
CN106506332A (zh) | 自动回复方法及装置 | |
CN106531168B (zh) | 一种语音识别方法及装置 | |
CN112036820B (zh) | 一种企业内部信息反馈处理方法、系统、存储介质及设备 | |
CN109065037A (zh) | 一种基于语音交互的音频流控制方法 | |
US11115530B1 (en) | Integration of human agent and automated tools for interactive voice response (IVR) systems | |
US20230254411A1 (en) | Group calling system, group calling method, and program | |
CN111464644B (zh) | 一种数据传输方法及电子设备 | |
CN109360570A (zh) | 语音设备的语音识别方法、语音设备及可读存储介质 | |
CN114420130A (zh) | 电话语音交互方法、装置、设备及存储介质 | |
CN111785277A (zh) | 语音识别方法、装置、计算机可读存储介质以及处理器 | |
CN110189770B (zh) | 语音数据处理方法、装置、终端、服务器及介质 | |
EP4038869B1 (en) | A digital telephony session instantiation and control system | |
WO2012107112A1 (en) | Interactive voice response system | |
CN113707152A (zh) | 语音识别方法及装置 | |
CN116567148A (zh) | 一种智能外呼的控制方法、装置、介质及电子设备 | |
EP1619662A1 (en) | Speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |