CN115083412B - 语音交互方法及相关装置、电子设备、存储介质 - Google Patents
语音交互方法及相关装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN115083412B CN115083412B CN202210963381.8A CN202210963381A CN115083412B CN 115083412 B CN115083412 B CN 115083412B CN 202210963381 A CN202210963381 A CN 202210963381A CN 115083412 B CN115083412 B CN 115083412B
- Authority
- CN
- China
- Prior art keywords
- interaction
- text
- voice
- interactive
- subsystem
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 818
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000002452 interceptive effect Effects 0.000 claims abstract description 183
- 230000008569 process Effects 0.000 claims description 36
- 230000004044 response Effects 0.000 claims description 15
- 230000000875 corresponding effect Effects 0.000 claims description 10
- 230000002596 correlated effect Effects 0.000 claims description 7
- 101150054987 ChAT gene Proteins 0.000 description 36
- 101100203187 Mus musculus Sh2d3c gene Proteins 0.000 description 36
- 238000013135 deep learning Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 241001342895 Chorus Species 0.000 description 4
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语音交互方法及相关装置、电子设备、存储介质,其中,语音交互方法包括:基于待识别语音进行语音识别,得到识别文本;获取语音交互系统中多个交互子系统分别对识别文本分析得到的候选交互结果;其中,多个交互子系统相互独立且分别适用于不同交互场景,候选交互结果包括候选交互文本及其交互优先级;基于各候选交互结果中交互优先级进行结果仲裁,确定用于响应待识别语音的候选交互文本,作为目标交互文本。上述方案,能够在面临业务场景切换时,提升语音交互的灵活性,并尽可能地降低丢失继承关系的可能性,提升语音交互的准确性。
Description
技术领域
本申请涉及语音处理技术领域,特别是涉及一种语音交互方法及相关装置、电子设备、存储介质。
背景技术
随着电子信息技术的快速发展,语音交互技术已经在诸如智能家居、移动终端、车载设备等众多语音产品得到广泛应用。
目前,语音产品普遍满足诸如闲聊、业务等多种交互场景的应用需要。但是,现有的语音交互技术,若在语音交互过程中面临场景切换,仍然存在回复单一、继承关系丢失等问题。以在业务交互场景切换为闲聊交互场景为例,若语音提示需要拨打哪个电话号码,而用户说出闲聊内容,则要么将闲聊内容直接屏蔽,回复用户通用的反馈话术,这种通用的兜底回复会带来回复单一、死板的问题,或者要么将闲聊内容直接进行响应,并进入闲聊场景,但闲聊后用户若继续回复需要拨打的号码,则由于已经切换至闲聊场景,原有的继承关系已经丢失,导致无法正确地响应用户回复。有鉴于此,如何在面临业务场景切换时,提升语音交互的灵活性,并尽可能地降低丢失继承关系的可能性,提升语音交互的准确性,成为亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种语音交互方法及相关装置、电子设备、存储介质,能够在面临业务场景切换时,提升语音交互的灵活性,并尽可能地降低丢失继承关系的可能性,提升语音交互的准确性。
为了解决上述技术问题,本申请第一方面提供了一种语音交互方法,包括:基于待识别语音进行语音识别,得到识别文本;获取语音交互系统中多个交互子系统分别对识别文本分析得到的候选交互结果;其中,多个交互子系统相互独立且分别适用于不同交互场景,候选交互结果包括候选交互文本及其交互优先级,且交互子系统适用的交互场景与识别文本之间的匹配程度、交互子系统输出的候选交互结果中交互优先级两者之间正相关;基于各候选交互结果中交互优先级进行结果仲裁,确定用于响应待识别语音的候选交互文本,作为目标交互文本。
为了解决上述技术问题,本申请第二方面提供了一种语音交互装置,包括:语音识别模块、候选交互模块和结果仲裁模块,语音识别模块,用于基于待识别语音进行语音识别,得到识别文本;候选交互模块,用于获取语音交互系统中多个交互子系统分别对识别文本分析得到的候选交互结果;其中,多个交互子系统相互独立且分别适用于不同交互场景,候选交互结果包括候选交互文本及其交互优先级,且交互子系统适用的交互场景与识别文本之间的匹配程度、交互子系统输出的候选交互结果中交互优先级两者之间正相关;结果仲裁模块,用于基于各候选交互结果中交互优先级进行结果仲裁,确定用于响应待识别语音的候选交互文本,作为目标交互文本。
为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面的语音交互方法。
为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的语音交互方法。
上述方案,基于待识别语音进行语音识别,得到识别文本,获取语音交互系统中多个交互子系统分别对识别文本分析得到的候选交互结果,多个交互子系统相互独立且分别适用于不同交互场景,候选交互结果包括候选交互文本及其交互优先级,且交互子系统适用的交互场景与识别文本之间的匹配程度、交互子系统输出的候选交互结果中交互优先级两者之间正相关,在此基础上,基于各候选交互结果中交互优先级进行结果仲裁,确定用于响应待识别语音的候选交互文本,作为目标交互文本,一方面由于语音交互系统中设置分别适用于不同交互场景的交互子系统,且多个交互子系统均能够对识别文本分析得到候选交互结果,而候选交互结果又包含候选交互文本和交互优先级,且交互子系统适用的交互场景与识别文本之间的匹配程度、交互子系统输出的候选交互结果中交互优先级两者之间正相关,故在后续结果仲裁时能够基于交互优先级准确地输出用于响应待识别语音的目标交互文本,即在面临切换交互场景时,区别于现有技术采用通用反馈话术,能够对待识别语音进行针对性的准确回复,故在面临业务场景切换时,提升语音交互的灵活性;另一方面由于分别适用于不同交互场景的多个交互子系统相互独立,即通过不同交互子系统分别在不同交互场景下进行语音交互,从而在面临业务场景切换时,能够尽可能地降低丢失继承关系的可能性,提升语音交互的准确性。故此,能够在面临业务场景切换时,提升语音交互的灵活性,并尽可能地降低丢失继承关系的可能性,提升语音交互的准确性。
附图说明
图1是本申请语音交互方法一实施例的流程示意图;
图2是区别于本申请语音交互方法的语音交互框架示意图;
图3是本申请语音交互方法一实施例的过程示意图;
图4是本申请语音交互装置一实施例的框架示意图;
图5是本申请电子设备一实施例的框架示意图;
图6是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中片段“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
本申请公开实施例中,基于待识别语音进行语音识别,得到识别文本,获取语音交互系统中多个交互子系统分别对识别文本分析得到的候选交互结果,多个交互子系统相互独立且分别适用于不同交互场景,候选交互结果包括候选交互文本及其交互优先级,且交互子系统适用的交互场景与识别文本之间的匹配程度、交互子系统输出的候选交互结果中交互优先级两者之间正相关,在此基础上,基于各候选交互结果中交互优先级进行结果仲裁,确定用于响应待识别语音的候选交互文本,作为目标交互文本,一方面由于语音交互系统中设置分别适用于不同交互场景的交互子系统,且多个交互子系统均能够对识别文本分析得到候选交互结果,而候选交互结果又包含候选交互文本和交互优先级,且交互子系统适用的交互场景与识别文本之间的匹配程度、交互子系统输出的候选交互结果中交互优先级两者之间正相关,故在后续结果仲裁时能够基于交互优先级准确地输出用于响应待识别语音的目标交互文本,即在面临切换交互场景时,区别于现有技术采用通用反馈话术,能够对待识别语音进行针对性的准确回复,故在面临业务场景切换时,提升语音交互的灵活性;另一方面由于分别适用于不同交互场景的多个交互子系统相互独立,即通过不同交互子系统分别在不同交互场景下进行语音交互,从而在面临业务场景切换时,能够尽可能地降低丢失继承关系的可能性,提升语音交互的准确性。故此,能够在面临业务场景切换时,提升语音交互的灵活性,并尽可能地降低丢失继承关系的可能性,提升语音交互的准确性。
请参阅图1,图1是本申请语音交互方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:基于待识别语音进行语音识别,得到识别文本。
在一个实施场景中,待识别语音可以为用户在语音交互过程中所说出的语音。具体地,在语音交互过程中,可以在语音采集的同时,进行端点检测,也就是语音活动检测(Voice Activity Detection,VAD),从而可以将上一语音端点至当前语音端点所持续采集的语音,作为待识别语音。端点检测的具体过程,可以参阅语音活动检测的技术细节,在此不再赘述。
在一个实施场景中,可以采用诸如HMM(Hidden Markov Model,隐马尔科夫模型)、GMM(Gaussian Mixture Model,高斯混合模型)、DNN(Deep Neural Network,深度神经网络)等模型对待识别语音进行语音识别,得到识别文本。语音识别的具体过程,可以参阅诸如HMM、GMM、DNN等模型的技术细节,在此不再赘述。
在一个实施场景中,为了进一步提升语音识别的准确性,在得到待识别语音之后,还可以对待识别语音进行降噪、回声消除、混响消除等处理,以提升待识别语音的语音质量,有助于进一步提升后续语音交互的准确性。需要说明的是,降噪的具体过程,可以参阅诸如维纳滤波等降噪算法的技术细节,在此不再赘述;此外,回声消除的具体过程,可以参阅诸如LMS(Least Mean Square,最小均方)自适应滤波、NLMS(Normalized Least MeanSquare,归一化最小均方)自适应滤波等回声消除算法的技术细节,在此不再赘述;此外,混响消除的具体过程,可以参阅诸如逆滤波等混响消除算法的技术细节,在此不再赘述。
在一个实施场景中,用户在第一轮语音交互时输入语音“哎,你知道你是机器人不”,机器回复“知道的呢,我是基于深度学习的智能机器人”,用户在第二轮语音交互时输入语音“我要给AAA打电话”,机器回复“找到AAA的两个号码,请问要拨打哪一个呢1、AAA133XXXXXX05,2、AAA 151XXXXXX23”。在第三轮语音交互时,用户可以响应上述机器回复,对机器输入语音“拨打第二个号码”(即此时的待识别语音为“拨打第二个号码”),或者,用户也可以暂不响应上述机器回复,而对机器输入语音“哎,你知道深度学习是啥意思不”(即此时的待识别语音为“哎,你知道深度学习是啥意思不”)。需要说明的是,上述举例仅仅是语音交互过程中可能存在的交互示例,并不因此而限定语音交互的实际过程。
步骤S12:获取语音交互系统中多个交互子系统分别对识别文本分析得到的候选交互结果。
本公开实施例中,多个交互子系统相互独立且分别适用于不同交互场景,也就是说,多个交互子系统之间互不干扰。
在一个实施场景中,多个交互子系统分别适用的交互场景至少可以包括业务场景和闲聊场景,在此不做限定。需要说明的是,业务场景可以包括但不限于:向机器下达查询、命令等指令的交互场景,在此交互场景下,机器可以执行具体业务,如上述待识别语音“拨打第二个号码”就涉及业务场景,更为具体地,其涉及命令场景。而区别于业务场景,在闲聊场景并不涉及具体业务,如上述待识别语音“哎,你知道深度学习是啥意思不”,就涉及闲聊场景。当然,更为细致地,多个交互子系统分别适用的交互场景还可以包括查询场景、命令场景和闲聊场景,从而可以更为细致地划分出不同交互场景,业务场景的具体内容,可以根据实际需要进行划分,在此不做限定。上述方式,多个交互子系统分别适用的交互场景至少可以包括业务场景和闲聊场景,从而能够在尽可能不影响继承关系以及确保语音交互灵活性的情况下,支持在业务场景和闲聊场景之间自由切换。
在一个实施场景中,交互子系统的具体数量可以根据语音交互系统需要支持的交互场景而设置,其具体数量在此不做限定。示例性地,在语音交互系统需要支持业务场景和闲聊场景的情况下,语音交互系统可以包括两个交互子系统,其中一个适用于业务场景,另一个适用于闲聊场景,为了区分这两个交互子系统,可以将适用于业务场景的交互子系统命名为业务交互子系统,将适用于闲聊场景的交互子系统命名为闲聊交互子系统;或者,在语音交互系统需要支持查询场景、命令场景和闲聊场景的情况下,语音交互系统可以包括三个交互子系统,其中一个适用于查询场景,另一个适用于命令场景,最后一个适用于闲聊场景,为了区分这三个交互子系统,可以将适用于查询场景的交互子系统命名为查询交互子系统,将适用于命令场景的交互子系统命名为命令交互子系统,并将适用于闲聊场景的交互子系统命名为闲聊交互子系统。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,如前所述,不同交互子系统之间相互独立,更为具体地,交互子系统可以存储有:语音交互进程处于该交互子系统所适用的交互场景时所产生的若干组交互文本对,且该交互子系统基于自身所存储的若干组交互文本对分析得到候选交互结果。也就是说,不同交互子系统之间互不干扰。仍以前述三轮语音交互为例,在语音交互系统包括适用于业务场景的交互子系统和适用于闲聊场景的业务子系统的情况下,如前所述,为了便于区分这两个交互子系统,可以分别命名为业务交互子系统和闲聊交互子系统,业务交互子系统存储有一组交互文本对:“我要给AAA打电话”和“找到AAA的两个号码,请问要拨打哪一个呢1、AAA 133XXXXXX05,2、AAA 151XXXXXX23”,而闲聊交互子系统存储有一组交互文本对:“哎,你知道你是机器人不”和“知道的呢,我是基于深度学习的智能机器人”,则在第三轮时,业务交互子系统可以基于其自身存储的一组交互文本对进一步分析,得到候选交互结果,与此同时,闲聊交互子系统也可以基于其自身存储的一组交互文本对进一步分析,得到候选交互结果。其他情况可以以此类推,在此不再一一举例。上述方式,交互子系统存储有:语音交互进程处于交互子系统所适用的交互场景时所产生的若干组交互文本对,且交互子系统基于自身所存储的若干组交互文本对分析得到候选交互结果,由于不同交互子系统之间互不干扰,各自仅基于自身所存储的交互文本对进行分析得到候选交互结果,故在切换交互场景时能够进一步减少丢失继承关系的可能性,提升语音交互的准确性。
本公开实施例中,候选交互结果包括候选交互文本及其交互优先级,且交互子系统适用的交互场景与识别文本之间的匹配程度、交互子系统输出的候选交互结果中交互优先级两者之间正相关。也就是说,交互子系统适用的交互场景与识别文本之间的匹配程度越高,交互子系统输出的候选交互结果中交互优先级越高,反之,交互子系统适用的交互场景与识别文本之间的匹配程度越低,交互子系统输出的候选交互结果中交互优先级越低。仍以前述三轮语音交互为例,若第三轮交互时的识别文本为“拨打第二个号码”,则由于其与业务场景的匹配程度更高,故业务交互子系统输出的候选交互结果中交互优先级更高,反之,若第三轮交互时的识别文本为“哎,你知道深度学习是啥意思不”,则由于其与闲聊场景的匹配程度更高,故闲聊交互子系统输出的候选交互结果中交互优先级更高。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,为了提升候选交互结果的准确性,每个交互子系统可以包括用于执行自然语言理解的第一部分和用于执行对话管理的第二部分,且交互子系统中第一部分适用于该交互子系统所适用的交互场景,交互子系统中第二部分也适用于该交互子系统所适用的交互场景。示例性地,以语音交互系统包含适用于业务场景的交互子系统和适用于闲聊场景的交互子系统为例,如前所述,为了便于区分,可以分别称之为业务交互子系统和闲聊交互子系统,则业务交互子系统可以包括用于执行自然语言理解的第一部分和用于执行对话管理的第二部分,为了便于描述,可以分别称之为业务NLU(Natural LanguageUnderstanding,自然语言理解)和业务DM(Dialog Management,对话管理),且业务NLU适用于业务场景,业务DM也适用于业务场景,类似地,闲聊交互子系统也可以包括用于执行自然语言理解的第一部分和用于执行对话管理的第二部分,为了便于描述,可以分别称之为闲聊NLU和闲聊DM,且闲聊NLU适用于闲聊场景,闲聊DM也适用于闲聊场景。其他情况可以以此类推,在此不再一一举例。需要说明的是,自然语言理解就是希望机器像人一样,具备正常人的语言理解能力。具体来说,自然语言理解可以通过诸如Transformer、CNN(Convolutional Neural Network,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)等网络模型实现,具体可以参阅上述网络模型的技术细节,在此不再赘述。此外,对话管理用于控制人机对话的过程,其根据对话历史信息,决定此刻对用户的反应。对话管理主要包括但不限于以下任务:对话状态维护(Dialog State Tracking,DST)、生成系统决策(dialog policy)等,具体可以参阅对话管理的技术细节,在此不再赘述。上述方式,每个交互子系统均包括用于执行自然语言理解的第一部分和用于执行对话管理的第二部分,且交互子系统中第一部分适用于交互子系统所适用的交互场景,交互子系统中第二部分适用于交互子系统所适用的交互场景,故能够通过适用于交互场景的自然语言理解、对话管理等先后操作,分析得到候选交互结果,有助于提升各交互子系统分别输出的候选交互结果的准确性。
在一个具体的实施场景中,如前所述,第一部分和第二部分均可以通过网络模型进行构建,则对于每个交互子系统而言,可以预先分别在各个交互子系统所适用的交互场景下采集样本数据,且样本数据可以包括第一样本数据和第二样本数据,第一样本数据可以用于训练该交互子系统中第一部分,且第二样本数据可以用于训练该交互子系统的第二部分。示例性地,第一样本数据具体可以包括样本训练文本,且样本训练文本标注有样本理解结果(如,在自然语言理解用于分析文本意图的情况下,样本理解结果可以包括用于表示样本训练文本实际意图的样本意图文本),则样本训练文本可以输入第一部分,得到预测理解结果(如,在自然语言理解用于分析文本意图的情况下,预测理解结果可以包括用于表示样本训练文本预测意图的预测意图文本),在此情况下,可以基于样本理解结果和预测理解结果之间的差异,调整第一部分的网络参数。与此同时,样本训练文本还可以进一步标注有样本交互文本,则可以将样本理解结果输入第二部分,得到预测交互文本,并基于样本交互文本和预测交互文本之间的差异,调整第二部分的网络参数。需要说明的是,上述差异可以基于交叉熵等损失函数进行度量,上述参数可以基于梯度下降等优化方式进行调整,具体可以参阅交叉熵等损失函数和梯度下降等优化方式的技术细节,在此不再赘述。
在一个具体的实施场景中,对于各个交互子系统,可以获取交互子系统中第一部分对识别文本进行理解得到的文本理解结果和理解置信度,并获取交互子系统中第二部分基于文本理解结果和理解置信度生成的候选交互结果,且理解置信度表示文本理解结果理解准确的可能性。如前所述,可以利用预先在各个交互子系统分别所适用的交互场景下采集到的样本数据训练交互子系统,故在识别文本与交互子系统所适用的交互场景具有较高的匹配程度时,该交互子系统中第一部分所输出的文本理解结果也应具有较高的理解置信度,反之,在识别文本与交互子系统所适配的交互场景具有较低的匹配程度时,该交互子系统中第二部分所输出的文本理解结果也应具有较低的理解置信度。示例性地,由于业务交互子系统通过业务场景下采集得到的样本数据训练得到,而闲聊交互子系统通过闲聊场景下采集得到的样本数据训练得到,故业务交互子系统对于业务场景下的识别文本进行自然语言理解时,能够取得更高的理解置信度,而闲聊交互子系统对于闲聊场景下的识别文本进行自然语言理解时,能够取得更高的理解置信度,如对于识别文本“拨打第二个号码”来说,通过业务交互子系统中第一部分进行理解,能够得到文本理解结果(如,文本意图“拨打号码,且拨打的是第二个号码”)以及理解置信度(如,0.98),且通过闲聊交互子系统中第一部分进行理解,能够得到文本理解结果(如,文本意图“拨打号码”)以及理解置信度(如,0.80);类似地,对于识别文本“哎,你知道深度学习是啥意思不”来说,通过业务交互子系统中第一部分进行理解,能够得到文本理解结果(如,文本意图“问询”)以及理解置信度(如,0.80),通过闲聊交互子系统中第一部分进行理解,能够得到文本理解结果(如,文本意图“问询深度学习的含义”)和理解置信度(如,0.97)。当然,上述举例仅仅是实际应用过程中几种可能的情况,并不因此而限定语音交互过程中实际所产生的文本理解结果。进一步地,在得到第一部分所输出的文本理解结果和理解置信度之后,可以获取第二部分基于文本理解结果和理解置信度生成的候选交互结果。具体来说,若理解置信度低于置信度阈值,则可以认为第一部分的自然语言理解可信度较低,即识别文本极有可能与交互子系统所适用的交互场景并不匹配,则第二部分可以屏蔽第一部分所输出的文本理解结果,并输出通用反馈话术(如,“对不起,我没听清,可以再说一遍吗”)作为候选交互文本,并输出其交互优先级(如,预先设置第一优先级最高且第二优先级最低的情况下,此时可以输出第二优先级),反之若理解置信度不低于置信度阈值,则可以认为第一部分的自然语言理解结果可信度较高,即识别文本极有可能与交互子系统所适用的交互场景匹配,则第二部分可以对第一部分输出的文本理解结果进行分析,更为具体地,第二部分可以结合该交互子系统所存储的若干组交互文本对(具体含义可以参阅前述相关描述)和文本理解结果进行分析,得到候选交互文本及其交互优先级(如,预先设置第一优先级最高且第二优先级最低的情况下,此时可以输出第一优先级)。示例性地,如对于识别文本“拨打第二个号码”来说,由于通过业务交互子系统中第一部分得到的理解置信度0.98高于置信度阈值0.90,故业务交互子系统中第二部分可以进一步进行分析,得到候选交互文本(如,“好的,马上拨打AAA的第二个号码”)以及交互优先级(如,第一优先级),与此同时,由于闲聊交互子系统中第一部分得到的理解置信度0.80低于置信度阈值0.90,故闲聊交互子系统中第二部分可以直接屏蔽闲聊交互子系统第一部分所输出的文本理解结果,并输出通用反馈话术(如,“对不起,我没听清,可以再说一遍吗”)作为候选交互文本,并输出交互优先级(如,第二优先级);类似地,对于识别文本“哎,你知道深度学习是啥意思不”来说,由于通过业务交互子系统中第一部分输出的理解置信度0.80低于置信度阈值,故业务交互子系统中第二部分可以直接屏蔽业务交互子系统第一部分输出的文本理解结果,并输出通用反馈话术(如,“对不起,我没听清,可以再说一遍吗”)作为候选交互文本,并输出交互优先级(如,第二优先级),与此同时,由于闲聊交互子系统中第一部分得到的理解置信度0.97高于置信度阈值,故闲聊交互子系统中第二部分可以进一步进行分析,得到候选交互文本(如,“当然知道啦,深度学习是……”)及其交互优先级(如,如第一优先级)。其他情况可以以此类推,在此不再一一举例。需要说明的是,置信度阈值可以根据实际需要进行设置,如可以设置为0.90、0.95等,在此不做限定。上述方式,对于各个交互子系统,获取交互子系统中第一部分对识别文本进行理解得到的文本理解结果和理解置信度,并获取交互子系统中第二部分基于文本理解结果和理解置信度生成的候选交互结果,且理解置信度表示文本理解结果理解准确的可能性,故能够通过先后执行自然语言理解、对话管理等操作,得到各个交互子系统的候选交互结果,有助于提升各个交互子系统的准确性,并进一步降低各个交互子系统之间的干扰。
步骤S13:基于各候选交互结果中交互优先级进行结果仲裁,确定用于响应待识别语音的候选交互文本,作为目标交互文本。
在一个实施场景中,可以选择最高交互优先级对应的候选交互文本,作为目标交互文本。如前所述,若识别文本为“拨打第二个号码”,则业务交互子系统最终输出的候选交互结果包括:候选交互文本“好的,马上拨打AAA的第二个号码”和交互优先级(即第一优先级),而闲聊交互子系统最终输出的候选交互结果包括:候选交互文本“对不起,我没听清,可以再说一遍吗”和交互优先级(即第二优先级),由于最高的交互优先级为第一优先级,则可以将候选交互文本“好的,马上拨打AAA的第二个号码”作为目标交互文本,并基于此响应待识别语音,如可以显示目标交互文本“好的,马上拨打AAA的第二个号码”,并拨打AAA的第二个号码,或者也可以基于目标交互文本“好的,马上拨打AAA的第二个号码”得到合成语音,并播放该合成语音,以及拨打AAA的第二个号码;类似地,若识别文本为“哎,你知道深度学习是啥意思不”,则业务交互子系统最终输出的候选交互结果包括:候选交互文本“对不起,我没听清,可以再说一遍吗”和交互优先级(即第二优先级),而闲聊业务交互子系统最终输出的候选交互结果包括:候选交互文本“当然知道啦,深度学习是……”和交互优先级(即第一优先级),由于最高的交互优先级为第一优先级,则可以将候选交互文本“当然知道啦,深度学习是……”作为目标交互文本,并基于此响应待识别语音,基于目标交互文本响应待识别语音的具体方式,可以参阅前述相关描述,在此不再赘述。上述方式,在结果仲裁时,选择最高交互优先级对应的候选交互文本,作为目标交互文本,即能够通过交互优先级确定目标交互文本,从而能够在可能地降低丢失继承关系的可能性同时,有助于进一步提升语音交互的准确性。
在一个实施场景中,如前所述,交互子系统可以存储有:语音交互进程处于交互子系统所适用的交互场景时所产生的若干组交互文本对,具体可以参阅前述相关描述,在此不再赘述。则在结果仲裁之后,可以判断目标交互文本的交互优先级是否为预设优先级。需要说明的是,在交互子系统适用的交互场景完全匹配识别文本的情况下,交互子系统输出的候选交互结果中交互优先级为预设优先级。例如,可以预先设置最高的交互优先级为第一优先级和最低的交互优先级为第二优先级,则此时预设优先级为第一优先级,其他情况可以以此类推,在此不再一一举例。进一步地,在目标交互文本的交互优先级为预设优先级的情况下,可以确定语音交互进程处于输出目标交互文本的交互子系统所适用的交互场景,并将目标交互文本和识别文本,组合为一组新的交互文本对,以及将新的交互文本对,存储至目标交互文本所在的候选交互结果对应的交互子系统。示例性地,若识别文本为“拨打第二个号码”,由于目标交互文本“好的,马上拨打AAA的第二个号码”的交互优先级为预设优先级(即第一优先级),此时可以确定语音交互进程处于业务场景,并将识别文本“拨打第二个号码”和目标交互文本“好的,马上拨打AAA的第二个号码”,组合为一组新的文本交互对,以及将其存储至业务交互子系统;类似地,若识别文本为“哎,你知道深度学习是啥意思不”,由于目标交互文本“当然知道啦,深度学习是……”的交互优先级为预设优先级(即第一优先级),此时可以确定语音交互进程处于闲聊场景,并将识别文本“哎,你知道深度学习是啥意思不”和目标交互文本“当然知道啦,深度学习是……”,组合为一组新的文本交互对,以及将其存储至闲聊交互子系统。其他情况可以以此类推,在此不再一一举例。上述方式,在交互子系统适用的交互场景完全匹配识别文本的情况下,交互子系统输出的候选交互结果中交互优先级为预设优先级,响应于目标交互文本的交互优先级为预设优先级,确定语音交互进程处于输出目标交互文本的交互子系统所适用的交互场景,并将目标交互文本和识别文本,组合为一组新的交互文本对,以及将新的交互文本对,存储至目标交互文本所在的候选交互结果对应的交互子系统,故能够在确定语音交互进程处于输出目标交互文本的交互子系统所适用的交互场景时,通过将目标交互文本和识别文本,组合为一组新的交互文本对,及时更新该交互子系统所存储的交互文本对,有助于进一步减少丢失继承关系的可能性,提升语音交互的准确性。
在一个实施场景中,区别于目标交互文本的交互优先级为预设优先级的情况,还可能由于语音交互进程所处交互场景所适配的交互子系统发生故障,而导致目标交互文本的交互优先级并非预设优先级。示例性地,若识别文本为“拨打第二个号码”,且业务交互子系统发生故障,则此时由于业务交互子系统无法输出候选交互结果,仅有闲聊交互子系统输出候选交互结果:“对不起,我没听清,可以再说一遍吗”和交互优先级(即第二优先级),则由于最高交互优先级(即第二优先级)对应的候选交互文本为“对不起,我没听清,可以再说一遍吗”,故可以将候选交互文本为“对不起,我没听清,可以再说一遍吗”,作为目标交互文本;类似地,若识别文本为“哎,你知道深度学习是啥意思不”,且闲聊交互子系统发生故障,则此时由于闲聊交互子系统无法输出候选交互结果,仅有业务交互子系统输出候选交互结果:对不起,我没听清,可以再说一遍吗”和交互优先级(即第二优先级),则由于最高交互优先级(即第二优先级)对应的候选交互文本为“对不起,我没听清,可以再说一遍吗”,故可以将候选交互文本为“对不起,我没听清,可以再说一遍吗”,作为目标交互文本。其他情况可以以此类推,在此不再一一举例。在此情况下,可以确定语音交互进程并不处于输出目标交互文本的交互子系统所适用的交互场景,则可以维持交互子系统所存储的交互文本对不变。上述方式,响应于目标交互文本的交互优先级并非预设优先级,确定语音交互进程并不处于输出目标交互文本的交互子系统所适用的交互场景,并维持交互子系统所存储的交互文本对不变,故能够在语音交互进程并不处于输出目标交互文本的交互子系统所适用的交互场景时,不更新交互子系统所存储的交互文本对,能够避免由于错误更新交互文本对而导致继承关系丢失。
在一个实施场景中,在基于各候选交互结果中交互优先级进行结果仲裁,确定用于响应待识别语音的候选交互文本,作为目标交互文本之后,还可以响应于采集到新语音,基于新语音,更新待识别语音,并重新执行上述基于待识别语音进行语音识别,得到识别文本的步骤以及后续步骤。需要说明的是,如前所述,在语音交互过程中,可以在语音采集的同时,进行端点检测,也就是语音活动检测,若随着语音采集的不断推进,又检测到一个新的语音端点,则可以将上一语音端点至该新的语音端点所持续采集的语音,作为新语音,从而将该新语音更新为待识别语音,以进行新一轮语音交互。上述方式,响应于采集到新语音,基于新语音,更新待识别语音,并重新执行基于待识别语音进行语音识别,得到识别文本的步骤以及后续步骤,能够随着语音采集的不断进展,不断执行语音交互,有助于进一步提升语音交互的准确性。
在一个实施场景中,为了充分体现本申请语音交互方法的技术优势,请结合参阅图2和图3,图2是区别于本申请语音交互方法的语音交互框架示意图,图3是本申请语音交互方法一实施例的过程示意图,更为具体地,图3是多个交互子系统包括业务交互子系统和闲聊交互子系统时本申请语音交互方法一实施例的过程示意图。如图2所示,在面临切换交互场景时,如上一轮语音交互时用户输入语音“我要给AAA打电话”,机器回复“找到AAA的两个号码,请问要拨打哪一个呢1、AAA 133XXXXXX05,2、AAA 151XXXXXX23”,即上一轮语音交互时为业务场景,若本轮语音交互切换为闲聊场景,用户输入语音“哎,你知道深度学习是啥意思不”,若不进入闲聊场景,可保持业务场景的继承关系,并回复通用反馈话术“对不起,我没听清,可以再说一遍吗”,且不更新交互文本对,则虽然能够在闲聊后下一轮语音交互用户输入语音“拨打第二个号码”时,由于继承关系尚未丢失,仍能够顺利地进行语音交互,但是这种通用兜底回复带来回复单一、死板的问题;反之,若进入闲聊场景,则丢失业务场景的继承关系,并对闲聊内容“哎,你知道深度学习是啥意思不”进行回复,则虽然能够解决回复单一、死板的问题,但是由于继承关系丢失,故在闲聊后下一轮语音交互用户输入语音“拨打第二个号码”时,由于原有的业务逻辑无法继承,本次交互将无法生效。进一步地,请继续结合参阅图2,若系统出现故障,将直接导致无法进行语音交互。与之相反地,请结合参阅图3,由于语音交互系统设置有闲聊交互子系统和业务交互子系统,故在结果仲裁为闲聊场景时,反馈闲聊交互子系统输出的候选交互结果(即闲聊DM结果)即可,而在结果仲裁为业务场景时,反馈业务交互子系统输出的候选交互结果(即业务DM结果)即可,且业务交互子系统和闲聊交互子系统相互独立,互不干扰,故一方面能够尽可能地减少丢失继承关系的可能性,提升语音交互的准确性和灵活性,另一方面即使某一交互子系统发生故障,也能够给出通用反馈话术进行兜底回复。
在一个实施场景中,由于本申请公开实施例中,适用于不同交互场景的交互子系统之间相关独立,故还可以响应于语音交互系统需支持新的交互场景,获取适用于新的交互场景的交互子系统,作为目标子系统,并将目标子系统,纳入至语音交互系统,且目标子系统与语音交互系统中原有的各个交互子系统相互独立。需要说明的是,适用于新的交互场景的交互子系统也可以包括用于执行自然语言理解的第一部分和用于执行对话管理的第二部分,且第一部分适用于该新的交互场景,第二部分也适用于该新的交互场景。获取适用于新的交互场景的交互子系统的具体过程,可以参阅前述关于“第一部分和第二部分均通过网络模型进行构建”的相关描述,在此不再赘述。以语音交互系统原来支持业务场景和闲聊场景为例,若语音交互系统还需支持新的交互场景“对唱场景”,则可以获取适用于“对唱场景”的交互子系统,为了便于描述,可以称之为对唱交互子系统,作为目标子系统,并将其纳入到语音交互系统,且新纳入的对唱交互子系统与原来的业务交互子系统、闲聊交互子系统之间相互独立。其他情况可以以此类推,在此不再一一举例。上述方式,响应于语音交互系统需支持新的交互场景,获取适用于新的交互场景的交互子系统,作为目标子系统,并将目标子系统,纳入至语音交互系统,且目标子系统与语音交互系统中原有的各个交互子系统相互独立,故在需要支持新的交互场景时,直接将适用于新的交互场景的交互子系统纳入至语音交互系统即可,有助于提升语音交互系统的扩展性,并降低扩展语音交互系统的复杂度。
在一个实施场景中,由于本申请公开实施例中,适用于不同交互场景的交互子系统之间相互独立,故还可以响应于至少一个交互场景无需再支持,将无需再支持的交互场景作为目标场景,并将适用于目标场景的交互子系统,从语音交互系统中剔除。以语音交互系统原来支持查询场景、命令场景和闲聊场景为例,若确定无需再支持“闲聊场景”,则可以将“闲聊场景”作为目标场景,并将适用于“闲聊场景”的交互子系统从语音交互系统中剔除。其他情况可以以此类推,在此不再一一举例。上述方式,响应于至少一个交互场景无需再支持,将无需再支持的交互场景作为目标场景,并将适用于目标场景的交互子系统,从语音交互系统中剔除,故在无需支持某交互场景时,直接从语音交互系统中剔除适用于该交互场景的交互子系统即可,有助于提升语音交互系统的精简性,并降低精简语音交互系统的复杂度。
上述方案,基于待识别语音进行语音识别,得到识别文本,获取语音交互系统中多个交互子系统分别对识别文本分析得到的候选交互结果,多个交互子系统相互独立且分别适用于不同交互场景,候选交互结果包括候选交互文本及其交互优先级,且交互子系统适用的交互场景与识别文本之间的匹配程度、交互子系统输出的候选交互结果中交互优先级两者之间正相关,在此基础上,基于各候选交互结果中交互优先级进行结果仲裁,确定用于响应待识别语音的候选交互文本,作为目标交互文本,一方面由于语音交互系统中设置分别适用于不同交互场景的交互子系统,且多个交互子系统均能够对识别文本分析得到候选交互结果,而候选交互结果又包含候选交互文本和交互优先级,且交互子系统适用的交互场景与识别文本之间的匹配程度、交互子系统输出的候选交互结果中交互优先级两者之间正相关,故在后续结果仲裁时能够基于交互优先级准确地输出用于响应待识别语音的目标交互文本,即在面临切换交互场景时,区别于现有技术采用通用反馈话术,能够对待识别语音进行针对性的准确回复,故在面临业务场景切换时,提升语音交互的灵活性;另一方面由于分别适用于不同交互场景的多个交互子系统相互独立,即通过不同交互子系统分别在不同交互场景下进行语音交互,从而在面临业务场景切换时,能够尽可能地降低丢失继承关系的可能性,提升语音交互的准确性。故此,能够在面临业务场景切换时,提升语音交互的灵活性,并尽可能地降低丢失继承关系的可能性,提升语音交互的准确性。
请参阅图4,图4是本申请语音交互装置40一实施例的框架示意图。语音交互装置40包括:语音识别模块41、候选交互模块42和结果仲裁模块43,语音识别模块41,用于基于待识别语音进行语音识别,得到识别文本;候选交互模块42,用于获取语音交互系统中多个交互子系统分别对识别文本分析得到的候选交互结果;其中,多个交互子系统相互独立且分别适用于不同交互场景,候选交互结果包括候选交互文本及其交互优先级,且交互子系统适用的交互场景与识别文本之间的匹配程度、交互子系统输出的候选交互结果中交互优先级两者之间正相关;结果仲裁模块43,用于基于各候选交互结果中交互优先级进行结果仲裁,确定用于响应待识别语音的候选交互文本,作为目标交互文本。
上述方案,一方面由于语音交互系统中设置分别适用于不同交互场景的交互子系统,且多个交互子系统均能够对识别文本分析得到候选交互结果,而候选交互结果又包含候选交互文本和交互优先级,且交互子系统适用的交互场景与识别文本之间的匹配程度、交互子系统输出的候选交互结果中交互优先级两者之间正相关,故在后续结果仲裁时能够基于交互优先级准确地输出用于响应待识别语音的目标交互文本,即在面临切换交互场景时,区别于现有技术采用通用反馈话术,能够对待识别语音进行针对性的准确回复,故在面临业务场景切换时,提升语音交互的灵活性;另一方面由于分别适用于不同交互场景的多个交互子系统相互独立,即通过不同交互子系统分别在不同交互场景下进行语音交互,从而在面临业务场景切换时,能够尽可能地降低丢失继承关系的可能性,提升语音交互的准确性。故此,能够在面临业务场景切换时,提升语音交互的灵活性,并尽可能地降低丢失继承关系的可能性,提升语音交互的准确性。
在一些公开实施例中,结果仲裁模块43具体用于选择最高交互优先级对应的候选交互文本,作为目标交互文本。
在一些公开实施例中,交互子系统存储有:语音交互进程处于交互子系统所适用的交互场景时所产生的若干组交互文本对,且交互子系统基于自身所存储的若干组交互文本对分析得到候选交互结果。
在一些公开实施例中,在交互子系统适用的交互场景完全匹配识别文本的情况下,交互子系统输出的候选交互结果中交互优先级为预设优先级;语音交互装置40还包括第一确定模块,用于响应于目标交互文本的交互优先级为预设优先级,确定语音交互进程处于输出目标交互文本的交互子系统所适用的交互场景;语音交互装置40还包括文本组合模块,用于将目标交互文本和识别文本,组合为一组新的交互文本对;语音交互装置40还包括文本存储模块,用于将新的交互文本对,存储至目标交互文本所在的候选交互结果对应的交互子系统。
在一些公开实施例中,语音交互装置40还包括第二确定模块,用于响应于目标交互文本的交互优先级并非预设优先级,确定语音交互进程并不处于输出目标交互文本的交互子系统所适用的交互场景;语音交互装置40还包括文本维持模块,用于维持交互子系统所存储的交互文本对不变。
在一些公开实施例中,每个交互子系统均包括用于执行自然语言理解的第一部分和用于执行对话管理的第二部分;其中,交互子系统中第一部分适用于交互子系统所适用的交互场景,且交互子系统中第二部分适用于交互子系统所适用的交互场景。
在一些公开实施例中,候选交互模块42包括第一获取子模块,用于对于各个交互子系统,获取交互子系统中第一部分对识别文本进行理解得到的文本理解结果和理解置信度;候选交互模块42包括第二获取子模块,用于获取交互子系统中第二部分基于文本理解结果和理解置信度生成的候选交互结果;其中,理解置信度表示文本理解结果理解准确的可能性。
在一些公开实施例中,语音交互装置40还包括语音更新模块,用于响应于采集到新语音,基于新语音,更新待识别语音;语音交互装置40还包括循环执行模块,用于结合语音识别模块41、候选交互模块42和结果仲裁模块43重新执行基于待识别语音进行语音识别,得到识别文本的步骤以及后续步骤。
在一些公开实施例中,语音交互装置40还包括系统获取模块,用于响应于语音交互系统需支持新的交互场景,获取适用于新的交互场景的交互子系统,作为目标子系统;语音交互装置40还包括系统扩展模块,用于将目标子系统,纳入至语音交互系统;其中,目标子系统与语音交互系统中原有的各个交互子系统相互独立。
在一些公开实施例中,语音交互装置40还包括系统精简模块,用于响应于至少一个交互场景无需再支持,将无需再支持的交互场景作为目标场景,并将适用于目标场景的交互子系统,从语音交互系统中剔除。
在一些公开实施例中,多个交互子系统分别适用的交互场景至少包括业务场景和闲聊场景。
请参阅图5,图5是本申请电子设备50一实施例的框架示意图。电子设备50包括相互耦接的存储器51和处理器52,存储器51中存储有程序指令,处理器52用于执行程序指令以实现上述任一语音交互方法实施例中的步骤。具体地,电子设备50可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑、智能音箱、学习机器人、故事机器人、车载终端、车机等等,在此不做限定。此外,电子设备50还可以进一步包括但不限于:麦克风(未图示)、显示屏(未图示)、扬声器(未图示)等,在此不做限定。示例性地,麦克风可以用于采集用户的待识别语音,显示屏可以用于显示目标交互文本,扬声器可以用于播放基于目标交互文本进行语音合成得到的待播放语音。
具体而言,处理器52用于控制其自身以及存储器51以实现上述任一语音交互方法实施例中的步骤。处理器52还可以称为CPU(Central Processing Unit,中央处理单元)。处理器52可能是一种集成电路芯片,具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application SpecificIntegrated Circuit, ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器52可以由集成电路芯片共同实现。
上述方案,一方面由于语音交互系统中设置分别适用于不同交互场景的交互子系统,且多个交互子系统均能够对识别文本分析得到候选交互结果,而候选交互结果又包含候选交互文本和交互优先级,且交互子系统适用的交互场景与识别文本之间的匹配程度、交互子系统输出的候选交互结果中交互优先级两者之间正相关,故在后续结果仲裁时能够基于交互优先级准确地输出用于响应待识别语音的目标交互文本,即在面临切换交互场景时,区别于现有技术采用通用反馈话术,能够对待识别语音进行针对性的准确回复,故在面临业务场景切换时,提升语音交互的灵活性;另一方面由于分别适用于不同交互场景的多个交互子系统相互独立,即通过不同交互子系统分别在不同交互场景下进行语音交互,从而在面临业务场景切换时,能够尽可能地降低丢失继承关系的可能性,提升语音交互的准确性。故此,能够在面临业务场景切换时,提升语音交互的灵活性,并尽可能地降低丢失继承关系的可能性,提升语音交互的准确性。
请参阅图6,图6是本申请计算机可读存储介质60一实施例的框架示意图。计算机可读存储介质60存储有能够被处理器运行的程序指令61,程序指令61用于实现上述任一语音交互方法实施例中的步骤。
上述方案,一方面由于语音交互系统中设置分别适用于不同交互场景的交互子系统,且多个交互子系统均能够对识别文本分析得到候选交互结果,而候选交互结果又包含候选交互文本和交互优先级,且交互子系统适用的交互场景与识别文本之间的匹配程度、交互子系统输出的候选交互结果中交互优先级两者之间正相关,故在后续结果仲裁时能够基于交互优先级准确地输出用于响应待识别语音的目标交互文本,即在面临切换交互场景时,区别于现有技术采用通用反馈话术,能够对待识别语音进行针对性的准确回复,故在面临业务场景切换时,提升语音交互的灵活性;另一方面由于分别适用于不同交互场景的多个交互子系统相互独立,即通过不同交互子系统分别在不同交互场景下进行语音交互,从而在面临业务场景切换时,能够尽可能地降低丢失继承关系的可能性,提升语音交互的准确性。故此,能够在面临业务场景切换时,提升语音交互的灵活性,并尽可能地降低丢失继承关系的可能性,提升语音交互的准确性。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
Claims (13)
1.一种语音交互方法,其特征在于,包括:
基于待识别语音进行语音识别,得到识别文本;
获取语音交互系统中多个交互子系统分别对所述识别文本分析得到的候选交互结果;其中,所述多个交互子系统相互独立且分别适用于不同交互场景,所述候选交互结果包括候选交互文本及其交互优先级,且所述交互子系统适用的交互场景与所述识别文本之间的匹配程度、所述交互子系统输出的候选交互结果中所述交互优先级两者之间正相关,所述交互子系统存储有:语音交互进程处于所述交互子系统所适用的交互场景时所产生的若干组交互文本对,且所述交互子系统基于自身所存储的若干组交互文本对分析得到所述候选交互结果;
基于各所述候选交互结果中所述交互优先级进行结果仲裁,确定用于响应所述待识别语音的候选交互文本,作为目标交互文本;其中,在所述目标交互文本的交互优先级为预设优先级的情况下,确定所述语音交互进程处于输出所述目标交互文本的交互子系统所适用的交互场景,并将所述目标交互文本和所述识别文本,组合为一组新的交互文本对,以及将所述新的交互文本对,存储至所述目标交互文本所在的候选交互结果对应的交互子系统,以减少后续语音交互丢失继承关系的可能性。
2.根据权利要求1所述的方法,其特征在于,所述基于各所述候选交互结果中所述交互优先级进行结果仲裁,确定用于响应所述待识别语音的候选交互文本,作为目标交互文本,包括:
选择最高所述交互优先级对应的候选交互文本,作为所述目标交互文本。
3.根据权利要求1所述的方法,其特征在于,在所述交互子系统适用的交互场景完全匹配所述识别文本的情况下,所述交互子系统输出的候选交互结果中所述交互优先级为所述预设优先级。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
响应于所述目标交互文本的交互优先级并非所述预设优先级,确定所述语音交互进程并不处于输出所述目标交互文本的交互子系统所适用的交互场景,并维持所述交互子系统所存储的交互文本对不变。
5.根据权利要求1所述的方法,其特征在于,每个所述交互子系统均包括用于执行自然语言理解的第一部分和用于执行对话管理的第二部分;
其中,所述交互子系统中所述第一部分适用于所述交互子系统所适用的交互场景,且所述交互子系统中所述第二部分适用于所述交互子系统所适用的交互场景。
6.根据权利要求5所述的方法,其特征在于,所述获取语音交互系统中多个交互子系统分别对所述识别文本分析得到的候选交互结果,包括:
对于各个所述交互子系统,获取所述交互子系统中所述第一部分对所述识别文本进行理解得到的文本理解结果和理解置信度,并获取所述交互子系统中所述第二部分基于所述文本理解结果和所述理解置信度生成的候选交互结果;其中,所述理解置信度表示所述文本理解结果理解准确的可能性。
7.根据权利要求1所述的方法,其特征在于,在所述基于各所述候选交互结果中所述交互优先级进行结果仲裁,确定用于响应所述待识别语音的候选交互文本,作为目标交互文本之后,所述方法还包括:
响应于采集到新语音,基于所述新语音,更新所述待识别语音,并重新执行所述基于待识别语音进行语音识别,得到识别文本的步骤以及后续步骤。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于所述语音交互系统需支持新的交互场景,获取适用于所述新的交互场景的交互子系统,作为目标子系统;
将所述目标子系统,纳入至所述语音交互系统;其中,所述目标子系统与所述语音交互系统中原有的各个所述交互子系统相互独立。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于至少一个所述交互场景无需再支持,将无需再支持的交互场景作为目标场景,并将适用于所述目标场景的交互子系统,从所述语音交互系统中剔除。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述多个交互子系统分别适用的交互场景至少包括业务场景和闲聊场景。
11.一种语音交互装置,其特征在于,包括:
语音识别模块,用于基于待识别语音进行语音识别,得到识别文本;
候选交互模块,用于获取语音交互系统中多个交互子系统分别对所述识别文本分析得到的候选交互结果;其中,所述多个交互子系统相互独立且分别适用于不同交互场景,所述候选交互结果包括候选交互文本及其交互优先级,且所述交互子系统适用的交互场景与所述识别文本之间的匹配程度、所述交互子系统输出的候选交互结果中所述交互优先级两者之间正相关,所述交互子系统存储有:语音交互进程处于所述交互子系统所适用的交互场景时所产生的若干组交互文本对,且所述交互子系统基于自身所存储的若干组交互文本对分析得到所述候选交互结果;
结果仲裁模块,用于基于各所述候选交互结果中所述交互优先级进行结果仲裁,确定用于响应所述待识别语音的候选交互文本,作为目标交互文本;其中,在所述目标交互文本的交互优先级为预设优先级的情况下,确定所述语音交互进程处于输出所述目标交互文本的交互子系统所适用的交互场景,并将所述目标交互文本和所述识别文本,组合为一组新的交互文本对,以及将所述新的交互文本对,存储至所述目标交互文本所在的候选交互结果对应的交互子系统,以减少后续语音交互丢失继承关系的可能性。
12.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至10任一项所述的语音交互方法。
13.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至10任一项所述的语音交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210963381.8A CN115083412B (zh) | 2022-08-11 | 2022-08-11 | 语音交互方法及相关装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210963381.8A CN115083412B (zh) | 2022-08-11 | 2022-08-11 | 语音交互方法及相关装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115083412A CN115083412A (zh) | 2022-09-20 |
CN115083412B true CN115083412B (zh) | 2023-01-17 |
Family
ID=83245469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210963381.8A Active CN115083412B (zh) | 2022-08-11 | 2022-08-11 | 语音交互方法及相关装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115083412B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229957A (zh) * | 2023-05-08 | 2023-06-06 | 江铃汽车股份有限公司 | 汽车座舱系统多语音信息融合方法、系统、设备及存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104464733B (zh) * | 2014-10-28 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 一种语音对话的多场景管理方法及装置 |
CN107316643B (zh) * | 2017-07-04 | 2021-08-17 | 科大讯飞股份有限公司 | 语音交互方法及装置 |
CN107240398B (zh) * | 2017-07-04 | 2020-11-17 | 科大讯飞股份有限公司 | 智能语音交互方法及装置 |
CN111368549A (zh) * | 2018-12-25 | 2020-07-03 | 深圳市优必选科技有限公司 | 一种支持多种服务的自然语言处理方法、装置及系统 |
CN112581945A (zh) * | 2019-09-29 | 2021-03-30 | 百度在线网络技术(北京)有限公司 | 语音控制方法、装置、电子设备和可读存储介质 |
US11961509B2 (en) * | 2020-04-03 | 2024-04-16 | Microsoft Technology Licensing, Llc | Training a user-system dialog in a task-oriented dialog system |
US11594218B2 (en) * | 2020-09-18 | 2023-02-28 | Servicenow, Inc. | Enabling speech interactions on web-based user interfaces |
CN112364143A (zh) * | 2020-11-13 | 2021-02-12 | 苏州思必驰信息科技有限公司 | 智能的多轮交互方法及系统 |
CN112767916B (zh) * | 2021-02-05 | 2024-03-01 | 百度在线网络技术(北京)有限公司 | 智能语音设备的语音交互方法、装置、设备、介质及产品 |
CN113282725A (zh) * | 2021-05-21 | 2021-08-20 | 北京市商汤科技开发有限公司 | 对话交互的方法、装置、电子设备及存储介质 |
CN113515613A (zh) * | 2021-06-25 | 2021-10-19 | 华中科技大学 | 一种集成闲聊、知识和任务问答的智能机器人 |
CN113674472B (zh) * | 2021-07-13 | 2022-09-09 | 深圳市神州云海智能科技有限公司 | 基于深度学习的彩票服务方法及装置、彩票智能服务终端 |
-
2022
- 2022-08-11 CN CN202210963381.8A patent/CN115083412B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115083412A (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111028827B (zh) | 基于情绪识别的交互处理方法、装置、设备和存储介质 | |
CN111105782B (zh) | 会话交互处理方法、装置、计算机设备和存储介质 | |
CN111508474B (zh) | 一种语音打断方法、电子设备及存储装置 | |
CN111627432B (zh) | 主动式外呼智能语音机器人多语种交互方法及装置 | |
CN107818798A (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
CN107995370A (zh) | 通话控制方法、装置及存储介质和移动终端 | |
CN113539261B (zh) | 人机语音交互方法、装置、计算机设备和存储介质 | |
CN115083434B (zh) | 一种情绪识别方法、装置、计算机设备及存储介质 | |
CN112767916B (zh) | 智能语音设备的语音交互方法、装置、设备、介质及产品 | |
CN115083412B (zh) | 语音交互方法及相关装置、电子设备、存储介质 | |
JP2022088528A (ja) | 車載通話方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN110489519B (zh) | 基于会话预测模型的会话方法及相关产品 | |
US11862178B2 (en) | Electronic device for supporting artificial intelligence agent services to talk to users | |
CN112015879B (zh) | 基于文本结构化管理的人机交互引擎实现方法及装置 | |
CN113821620A (zh) | 多轮对话任务处理方法、装置及电子设备 | |
CN109726002B (zh) | 一种处理流程调整方法及装置 | |
EP4093005A1 (en) | System method and apparatus for combining words and behaviors | |
CN113674745A (zh) | 语音识别方法及装置 | |
CN108182942B (zh) | 一种支持不同虚拟角色交互的方法和装置 | |
CN116016779A (zh) | 语音通话翻译辅助方法、系统、计算机设备和存储介质 | |
JP2020064419A (ja) | 発話生成装置、方法、及びプログラム | |
CN114023303A (zh) | 语音处理方法、系统、装置、电子设备以及存储介质 | |
CN114138943A (zh) | 对话消息生成方法、装置、电子设备及存储介质 | |
CN107846493B (zh) | 通话联系人控制方法、装置及存储介质和移动终端 | |
KR20210010133A (ko) | 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |