CN112037772A - 基于多模态的响应义务检测方法、系统及装置 - Google Patents
基于多模态的响应义务检测方法、系统及装置 Download PDFInfo
- Publication number
- CN112037772A CN112037772A CN202010921759.9A CN202010921759A CN112037772A CN 112037772 A CN112037772 A CN 112037772A CN 202010921759 A CN202010921759 A CN 202010921759A CN 112037772 A CN112037772 A CN 112037772A
- Authority
- CN
- China
- Prior art keywords
- response obligation
- obligation
- training
- response
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004044 response Effects 0.000 title claims abstract description 187
- 238000001514 detection method Methods 0.000 title claims abstract description 128
- 238000012549 training Methods 0.000 claims abstract description 112
- 238000000605 extraction Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000004927 fusion Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 4
- 230000003042 antagnostic effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能,提供一种基于多模态的响应义务检测方法,包括:获取训练数据样本,并将所述训练数据样本保存至训练样本数据集;使用所述训练样本数据集对预设的响应义务检测模型进行训练,以使所述响应义务检测模型达到预设精度;其中,所述响应义务检测模型用于对输入数据信息进行声学特征提取和语义特征提取,并根据提取的声学特征和语义特征对所述输入数据信息进行响应义务检测;利用训练完成的响应义务检测模型对待检测目标域数据进行检测,以判断系统是否需对所述待检测目标域数据进行响应。本发明还涉及区块链技术,训练样本数据集存储于区块链中。本发明提供技术方案能够有效地解决解决现有的响应义务检查方法效率低质量差的问题。
Description
技术领域
本发明涉及人工智能中的语音识别技术领域,尤其涉及一种基于多模态的响应义务检测方法、系统、装置及存储介质。
背景技术
响应义务检测(Response Obligation Detection,ROD)是自动对话系统等智能语音产品的重要组成部分。在传统的语音对话交互中,对话系统被设定为回应检测到的每一句语句,然而,在人与人的自然交流中,某些特定语句不需要被回复,诸如自言自语,公开声明,或是说话对象改变后的语句。对于自动对话系统,这些语句容易引起不必要的错误回复,降低对话系统的准确率,降低用户的使用体验。针对这种现象,响应义务检测被广泛应用,其目的是区分出是否需要对检测到的语句进行回复,从而提高用户使用体验,完成更自然有效的对话交互。
传统的对话系统为了提高准确率,会选择严格限制响应条件。一方面,用户需要使用类似于输入命令的特定关键词唤醒系统(如、小爱同学、siri等),系统才会回复检测到的语句。这种做法需要用户提前知道唤醒系统的关键词,使用较为死板,不适用于大规模用户群体初次使用。另一方面,对话系统的使用环境(即目标域)的语句通常和该系统的训练数据库(即源域)相差较大,导致尽管在训练时对话系统识别响应义务的准确率较高,但实际应用场景中却无法正确识别需要响应的语句。例如训练模型时使用的是较为安静的条件下录制的语料,而实际应用中可能存在不同的背景噪声,从而导致系统无法正确进行语音识别。
由于以上两种限制,传统的对话系统很难在保证较高的准确率的前提下,为用户提供自然流畅的对话交互。实际业务场景中,对话系统应该在多种场景中都能充分理解用户意图,准确判断是否需要对检测到的语句进行回复,同时降低用户的使用门槛,不设置唤醒系统的关键词,才能有效地与大规模的用户进行沟通,否则会扰乱对话的连贯性,降低用户的使用体验,影响业务开展。因此,基于以上问题,亟需一种准确率较高的响应义务检测算法以提高自动对话系统的相应精度。
发明内容
本发明提供一种基于多模态的响应义务检测方法、系统、电子装置以及计算机存储介质,其主要目的在于解决现有的响应义务检查方法效率低质量差的问题。
为实现上述目的,本发明提供一种基于多模态的响应义务检测方法,该方法包括如下步骤:
获取训练数据样本,并将所述训练数据样本保存至训练样本数据集;
使用所述训练样本数据集对预设的响应义务检测模型进行训练,以使所述响应义务检测模型达到预设精度;其中,所述响应义务检测模型用于对输入数据信息进行声学特征提取和语义特征提取,并根据提取的声学特征和语义特征对所述输入数据信息进行响应义务检测;
利用训练完成的响应义务检测模型对待检测目标域数据进行检测,以判断系统是否需对所述待检测目标域数据进行响应。
优选地,所述训练样本数据集存储于区块链中;并且,
所述训练数据样本包括目标域数据样本和源域数据样本,在使用所述训练样本数据集对预设的响应义务检测模型进行训练的过程中,使用所述目标域数据样本和所述源域数据样本对所述响应义务检测模型进行训练。
另外,本发明还提供一种基于多模态的响应义务检测系统,所述系统包括:
样本集建立单元,用于获取训练数据样本,并将所述训练数据样本保存至训练样本数据集;
模型训练单元,用于使用所述训练样本数据集对预设的响应义务检测模型进行训练,以使所述响应义务检测模型达到预设精度;其中,所述响应义务检测模型用于对输入数据信息进行声学特征提取和语义特征提取,并根据提取的声学特征和语义特征对所述输入数据信息进行响应义务检测;
模型应用单元,用于利用训练完成的响应义务检测模型对待检测目标域数据进行检测,以判断系统是否需对所述待检测目标域数据进行响应。
另外,为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的基于多模态的响应义务检测程序,所述基于多模态的响应义务检测程序被所述处理器执行时实现如下步骤:
获取训练数据样本,并将所述训练数据样本保存至训练样本数据集;
使用所述训练样本数据集对预设的响应义务检测模型进行训练,以使所述响应义务检测模型达到预设精度;其中,所述响应义务检测模型用于对输入数据信息进行声学特征提取和语义特征提取,并根据提取的声学特征和语义特征对所述输入数据信息进行响应义务检测;
利用训练完成的响应义务检测模型对待检测目标域数据进行检测,以判断系统是否需对所述待检测目标域数据进行响应。
另外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有基于多模态的响应义务检测程序,所述基于多模态的响应义务检测程序被处理器执行时,实现如上述基于多模态的响应义务检测方法的步骤。
本发明提出的基于多模态的响应义务检测方法、电子装置及计算机可读存储介质,通过设计一个响应义务检测模型,该模型为基于语音特征和语义信息的多模态融合算法,将该算法嵌入到自动对话系统,能够实现对话中的响应义务检测。另外,有别于传统的响应义务检测,本算法在语音信号的同时,也关注接收到的语句的语义信息,即在接收到语音信号之后,一方面通过声学特征提取方法分析声音信号,另一方面通过自动语音识别将语音信号转换成文本形式,根据文本信息进行语义理解,在判断接收到的语句是否需要回复时,综合考虑样本的声学特征和语义信息。此外,针对目标域和源域差别较大的问题,本发明提出使用对抗网络降低特征在目标域和源域之间的分布差异,同时借助自监督学习将两个模态的一致性作为学习目标,进一步增强特征的域适应能力,即检测两个来自不同模态的特征是否抽取自同一个样本,并将检测预测的结果作为损失函数的一部分,以此来监督模型学习理解语义信息,提高模型的精度。
附图说明
图1为根据本发明实施例的基于多模态的响应义务检测方法的较佳实施例流程图;
图2为根据本发明实施例的电子装置的较佳实施例结构示意图;
图3为根据本发明实施例的基于多模态的响应义务检测程序的内部逻辑示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。
以下将结合附图对本申请的具体实施例进行详细描述。
实施例1
为了说明本发明提供的基于多模态的响应义务检测方法,图1示出了根据本发明提供的基于多模态的响应义务检测方法的流程。
如图1所示,本发明提供的基于多模态的响应义务检测方法,包括:
S110:获取训练数据样本,并将该训练数据样本保存至训练样本数据集。
需要说明的是,训练数据样本为经技术人员技术确认后的历史数据,该类历史数据在经技术人员技术确认后已打上相应的响应标标签,以此作为训练数据样本,供后续响应义务检测模型的训练使用,例如,训练数据样本可以为一段段的历史语音信息,在经技术人员技术确认后,已经打上相应的响应标签(如:回复、不回复)。
此外,为提高训练数据样本对真实数据的模拟精度,从而提高后述的响应义务检测模型的精度,可以从目标域和源域两个数据域去获取相应的历史数据作为训练数据样本,即该训练数据样本包括目标域数据样本和源域数据样本,其中,目标域数据样本即对话系统使用的真实环境下的语句,源域数据样本为传统的预设训练数据库中的语句。
由于目标域与源域之间的样本差距较大,例如训练模型时使用的是较为安静的条件下录制的语料,而实际应用中可能存在不同的背景噪声,从而导致系统无法正确进行语音识别,即导致尽管在训练时对话系统识别响应义务的准确率较高,但实际应用场景中却无法正确识别需要响应的语句。因此,本发明引入目标域数据样本和源域数据样本两种数据对后期自行设计的响应义务检测模型进行训练,从而显著提高响应义务检测模型的识别精度。
另外,需要强调的是,为进一步保证上述该训练样本数据集内数据的私密和安全性,该训练样本数据集可以存储于区块链的节点中。
S120:使用该训练样本数据集对预设的响应义务检测模型进行训练,以使该响应义务检测模型达到相应的预设精度;其中,该响应义务检测模型用于对输入数据信息进行声学特征提取和语义特征提取,并根据提取的声学特征和语义特征对该输入数据信息进行响应义务检测标注。
具体地,该响应义务检测模型主要包括多模态融合模块,该多模态融合模块用于对训练样本数据集中源域数据样本和目标域数据样本进行声学信息特征提取和语义特征提取。
具体地,在提取声学特征的过程中,通过梅尔倒频谱(Mel Frequency CepstralCoefficient:MFCC)或感知线性预测(Perceptual Linear Prediction:PLP)提取声音特征,其中MFCC和PLP是现有的常用的声学信息特征提取方法,通过在短时间内抽取语音信号的频域特征,得到样本的时频域相结合的信息,该信息是区别不同音素的重要特征。由于MFCC和PLP是现有的声学特征提取的常用技术手段,因此,对其数据处理的具体过程,在此不再赘述。
需要说明的是,模型在实际处理过程中,对于声学特征提取,可对原始信号(训练数据样本)进行分帧处理,如将每20ms的信息为一帧,在该时间段内可将语音信号视为平稳的时序信号,从而可以对这段时间内的信号进行频域信息提取。常用的特征提取方法,如计算MFCC/PLP等。这两种提取方法都是模拟人类听觉系统进行建模,一般来说PLP抗噪声能力较强,而MFCC的计算速度较快,具体采取何种特征可依据不同的业务场景进行选择。
具体地,在提取语义特征的过程中,使用ASR网络对该输入数据信息或声学特征进行处理,以获取该输入数据信息的语义特征。例如在对语义信息提取时,可先对声学特征(Automatic speech recognition:ASR)提取语义信息进行自动语音识别,自动语音识别主要包括两部分,声学模型处理和解码搜素处理,其中,声学模型为提升识别率的基础,目前使用较多的声学模型为端到端模型;解码搜索部分包括经典方法(connectionisttemporal classification,CTC)或目前主流的RNN-T网络和Transformer网络。声学特征在上述自动语音识别处理后最终输出预测的文本,即为语音识别结果,从而得到相应的语义特征。
当然,对于语义特征的提取,也可以直接使用语音识别技术对输入数据信息进行处理,以获取相应的语义特征,需要说明的是,语音识别技术为一项现有技术,具体的实现方式有多种,本发明此处主要是对语音识别技术的使用,以获取所需的语义特征,因此,对其具体的数据处理过程,在此不再赘述。
此外,为提高多模态融合模块对于声学特征和语义特征的特征提取能力,本发明提供的响应义务检测模型还包括对抗网络模块,该对抗网络模块用于对目标域数据样本和源域数据样本进行对抗训练,以提高提高多模态融合模块对于声学特征和语义特征的特征提取能力。
具体地,该对抗网络模块包括第一对抗网络和第二对抗网络,并且,在使用该训练样本数据集对预设的响应义务检测模型进行训练的过程中,
该第一对抗网络用于对该响应义务检测模型提取的目标域声学特征和源域声学特征进行对抗训练,以使该响应义务检测模型的声学特征提取精度达到预设精度;
该第二对抗网络用于对该响应义务检测模型提取的目标域语义特征和源域语义特征进行对抗训练,以使该响应义务检测模型的语义特征提取精度达到预设精度。
需要说明的是,为减小目标域和源域的特征的分布差异对算法准确率的影响,本发明使用了上述的多模态融合的对抗网络。在对抗网络模块中,可分别在源域和目标域上计算域分类器的域分类损失,该方法可以有效避免域分类器在优化时只关注鲁棒性较弱的模态,从而现需提高模型的特征提取精度。具体地,该域分类器的损失函数为:
Ld=∑xE(sT)-dlog(Dm(Fm(x)))-(1-d)log(1-Dm(Fm(x)))
其中,Fm和Dm分别表示目标域和源域中的特征矩阵和域分类器,d为域标签,表示当前样本是否属于目标域或源域。域分类器通过最小化域分类损失Ld,更新网络参数,最终输出的Dm(Fm(x))即为域分类器预测输入数据所在的域。标签分类器则通过最小化标签分类损失Ly,从而提升模型对样本标签的预测能力。最终,希望能最大化域分类损失Ld使特征提取器提取的特征尽可能的与语句响应义务判断相关,而与具体的域无关,即模型进行判断时,不会受样本的域的改变的影响,只关注于样本本身是否需要进行响应。两个分类器不断迭代从而降低域对响应义务识别的影响。
此外,该响应义务检测模型还包括总分类器网络,该总分类网络用于根据该声学特征和该语义特征计算最终响应义务概率。
具体地,在根据该声学特征和该语义特征计算最终响应义务概率过程中,先根据该声学特征和该语义特征分别计算出声学响应义务概率和语义响应义务概率,然后根据该声学响应义务概率和该语义响应义务概率计算该最终响应义务概率;其中,
计算该声学响应义务概率的损失函数为:
其中,P(x1)为声学响应义务概率,y为训练数据样本的真实值,{S}为训练样本数据集,x1为计算所述声学响应义务概率时所用到的{S}中的训练数据样本;
计算该语义响应义务概率的损失函数为:
其中,P(x2)为声学响应义务概率,y为训练数据样本的真实值,{S}为训练样本数据集,x2为计算所述语义响应义务概率时所用到的{S}中的训练数据样本;
计算该最终响应义务概率的损失函数为:
Ly=a*Ly^speech+b*Ly^semantic
其中,a+b=1,a和b分别为声学特征和语义特征所占的预设权重
更为具体地,在多模态融合模块提取声学特征和语音特征后,将通过MFCC或PLP计算得到的声学特征输入深度学习网络(RNN/CNN/Transducer等,即总分类器网络)计算其需要被回复的概率P(x1)及分类损失Ly^speech。
需要说明的是,该深度学习网络(即总分类器网络)可以使用二分类的方式进行建模,按照标签0和1标注是否需要进行应答响应,当输入数据信息后,其网络输出的结果值即为需要进行响应的概率。
其中,总分类器网络该部分的分类损失可通过一下公式
其中,P(x1)为模型判断需要进行应答响应的概率,y为样本标签的真实值。后期可通过Ly^speech根据对网络模型的参数求导,并使用反向传播更新网络模型的参数来优化网络模型。
此外,该总分类器网络还用于将多模态融合模块提取的语义特征通过词嵌入处理(word embedding),词嵌入是自然语言处理中语言模型于表征学习技术的总称,概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量,方便后续计算。
词嵌入处理的结果作为循环神经网络(LSTM/GRU等)的输入,计算该语句需要被回复的概率P(x2)及分类Ly^semantic。LSTM/GRU等是特殊的循环神经网络,相较于普通的RNN来说,这种网络可以进行长短期记忆,处理长依赖的问题。如LSTM结构中包括负责决定当前步骤遗忘信息的遗忘门、决定更新的数据的输入门和决定输出信息的输出门;而GRU为LSTM的变种,它组合了遗忘门和输入门为一个更新门,结果模型比标准LSTM模型更简单。
此外,在更新网络参数时,LSTM/GRU也遵循反向传播规则,使用损失函数对模型系数计算倒数的方式更新模型。需要说明的是,该总分类器网络该部分的分类损失的计算过程和Ly^speech计算方法相同,在此不再赘述。
此外,最终在标签分类器对该样本进行预判时,需结合声学特征和语义信息的概率和损失,计算得到样本的响应义务概率和损失L_y,常用的计算方法是:
P(x)=aP(x1)+b P(x2)
Ly=a*Ly^speech+b*Ly^semantic
其中,P(x)为最终响应义务概率,Ly为最终响应义务概率的损失函数,a+b=1,a和b分别为预设的声学特征和语义信息所占的权重。
总分类网络模型通过上述一系列处理即可得到最终响应义务概率,从而用于对该输入数据信息进行响应义务检测,若最终响应义务概率为0,即系统不做响应,若最终响应义务概率为1,即系统做出响应。
另外,为了使用样本中的声学特征和语义信号的一致性作为自监督学习的分类标签进行表征学习,本发明还使用一个模态一致性检测器C,即,多模态自监督学习模块,使用从源域和目标域中的样本抽取出的声学特征和语义信息作为输入,两两随机选择不同模态的特征,检测这两种模态的标签分类是否一致。该自监督学习可以进一步增强特征的表征能力。其中,
C的损失函数为:LC=∑x∈(s,T)-clogC(F0(x),…,Fm(x))
其中,c表示输入的模态是否一致。
需要说明的是,本发明最后将响应义务检测的损失和域分类、模态一致性分类的损失结合起来训练整个网络,其使用的损失函数为L=Ly+λdLd+λcLc,其中λd和λc分别表示域分类器的损失和模态一致性检测器的损失所占权重。模型的损失函数L越小,预测越准确。因此最终根据反向传播,使用损失函数L对模型参数求导,使用导数更新网络参数来优化模型。
S130:利用训练完成的响应义务检测模型对待检测目标域数据进行检测,以判断系统是否需对该待检测目标域数据进行响应。
需要说明的是,响应义务检测模型在经历上述样本训练后,通过损失函数、对抗训练等手段能够显著响应义务检测模型的响应精度,此时,即可利用该响应义务检测模型对待检测目标预数据进行检测。
具体地,对于应用场景,该模型可应用于自动对话相关的业务中,如智能客服系统。在进行用户交互时,系统往往不能看到用户的表情等,只能通过语音判断用户是否在和系统进行对话。通过判断响应义务,客服系统可以在用户与别人说话时保持等待,若系统长时间没有检测到响应义务,也可以提示用户结束对话。此外,该模型也可以应用在智能家居中,如天猫精灵、小爱同学等,为用户提供更人性化的服务,如用户不需要使用特定关键词唤醒系统,可以直接说出自己的需求,系统就能收到指令为用户进行服务。
通过上述技术方案的表述可知,本本发明提出的基于多模态的响应义务检测方法,通过设计一个响应义务检测模型,该模型为基于语音特征和语义信息的多模态融合算法,将该算法嵌入到自动对话系统,能够实现对话中的响应义务检测。另外,有别于传统的响应义务检测,本算法在语音信号的同时,也关注接收到的语句的语义信息,即在接收到语音信号之后,一方面通过声学特征提取方法分析声音信号,另一方面通过自动语音识别将语音信号转换成文本形式,根据文本信息进行语义理解,在判断接收到的语句是否需要回复时,综合考虑样本的声学特征和语义信息。此外,针对目标域和源域差别较大的问题,本发明提出使用对抗网络降低特征在目标域和源域之间的分布差异,同时借助自监督学习将两个模态的一致性作为学习目标,进一步增强特征的域适应能力,即检测两个来自不同模态的特征是否抽取自同一个样本,并将检测预测的结果作为损失函数的一部分,以此来监督模型学习理解语义信息,提高模型的精度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
实施例2
与上述方法相对应,本申请还提供一种基于多模态的响应义务检测系统,该系统包括:
样本集建立单元,用于获取训练数据样本,并将所述训练数据样本保存至训练样本数据集;
模型训练单元,用于使用所述训练样本数据集对预设的响应义务检测模型进行训练,以使所述响应义务检测模型达到预设精度;其中,所述响应义务检测模型用于对输入数据信息进行声学特征提取和语义特征提取,并根据提取的声学特征和语义特征对所述输入数据信息进行响应义务检测;
模型应用单元,用于利用训练完成的响应义务检测模型对待检测目标域数据进行检测,以判断系统是否需对所述待检测目标域数据进行响应。
实施例3
本发明还提供一种电子装置70。参照图2所示,该图为本发明提供的电子装置70的较佳实施例结构示意图。
在本实施例中,电子装置70可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置70包括:处理器71以及存储器72。
存储器72包括至少一种类型的可读存储介质。至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,可读存储介质可以是该电子装置70的内部存储单元,例如该电子装置70的硬盘。在另一些实施例中,可读存储介质也可以是电子装置1的外部存储器,例如电子装置70上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,存储器72的可读存储介质通常用于存储安装于电子装置70的基于多模态的响应义务检测程序73。存储器72还可以用于暂时地存储已经输出或者将要输出的数据。
处理器72在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器72中存储的程序代码或处理数据,例如基于多模态的响应义务检测程序73等。
在一些实施例中,电子装置70为智能手机、平板电脑、便携计算机等的终端设备。在其他实施例中,电子装置70可以为服务器。
图2仅示出了具有组件71-73的电子装置70,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置70还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置70还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置70中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置70还可以包括触摸传感器。触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
此外,该电子装置70的显示器的面积可以与触摸传感器的面积相同,也可以不同。可选地,将显示器与触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
可选地,该电子装置70还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图2所示的装置实施例中,作为一种计算机存储介质的存储器72中可以包括操作系统、以及基于多模态的响应义务检测程序73;处理器71执行存储器72中存储基于多模态的响应义务检测程序73时实现如下步骤:
获取训练数据样本,并将所述训练数据样本保存至训练样本数据集;
使用所述训练样本数据集对预设的响应义务检测模型进行训练,以使所述响应义务检测模型达到预设精度;其中,所述响应义务检测模型用于对输入数据信息进行声学特征提取和语义特征提取,并根据提取的声学特征和语义特征对所述输入数据信息进行响应义务检测;
利用训练完成的响应义务检测模型对待检测目标域数据进行检测,以判断系统是否需对所述待检测目标域数据进行响应。
在该实施例中,图3为根据本发明实施例的基于多模态的响应义务检测程序的内部逻辑示意图,如图3所示,基于多模态的响应义务检测程序73还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器72中,并由处理器71执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图3所示,为图2中基于多模态的响应义务检测程序73较佳实施例的程序模块图。基于多模态的响应义务检测程序73可以被分割为:样本集建立模块74、模型训练模块75以及模型应用模块76。模块74-76所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如,其中:
样本集建立模块74,用于获取训练数据样本,并将所述训练数据样本保存至训练样本数据集;
模型训练模块75,用于使用所述训练样本数据集对预设的响应义务检测模型进行训练,以使所述响应义务检测模型达到相应的预设精度;其中,所述响应义务检测模型用于对输入数据信息进行声学特征提取和语义特征提取,并根据提取的声学特征和语义特征对所述输入数据信息进行响应义务检测;
模型应用模块76,用于利用训练完成的所述响应义务检测模型对待检测目标域数据进行检测,以判断系统是否需对所述待检测目标域数据进行响应。
实施例4
本发明还提供一种计算机可读存储介质,计算机可读存储介质中存储有基于多模态的响应义务检测程序73,基于多模态的响应义务检测程序73被处理器执行时实现如下操作:
获取训练数据样本,并将所述训练数据样本保存至训练样本数据集;
使用所述训练样本数据集对预设的响应义务检测模型进行训练,以使所述响应义务检测模型达到预设精度;其中,所述响应义务检测模型用于对输入数据信息进行声学特征提取和语义特征提取,并根据提取的声学特征和语义特征对所述输入数据信息进行响应义务检测;
利用训练完成的响应义务检测模型对待检测目标域数据进行检测,以判断系统是否需对所述待检测目标域数据进行响应。
本发明提供的计算机可读存储介质的具体实施方式与上述基于多模态的响应义务检测方法、电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要进一步说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于多模态的响应义务检测方法,应用于电子装置,其特征在于,所述方法包括:
获取训练数据样本,并将所述训练数据样本保存至训练样本数据集;
使用所述训练样本数据集对预设的响应义务检测模型进行训练,以使所述响应义务检测模型达到预设精度;其中,所述响应义务检测模型用于对输入数据信息进行声学特征提取和语义特征提取,并根据提取的声学特征和语义特征对所述输入数据信息进行响应义务检测;
利用训练完成的响应义务检测模型对待检测目标域数据进行检测,以判断系统是否需对所述待检测目标域数据进行响应。
2.根据权利要求1所述的基于多模态的响应义务检测方法,其特征在于,在所述响应义务检测模型对所述输入数据信息进行声学特征提取的过程中:
使用梅尔倒频谱网络或感知线性预测网络对所述输入数据信息进行处理,以获取所述输入数据信息的声学特征。
3.根据权利要求2所述的基于多模态的响应义务检测方法,其特征在于,在所述响应义务检测模型对所述输入数据信息进行语义特征提取的过程中:
使用ASR网络对所述输入数据信息或声学特征进行处理,以获取所述输入数据信息的语义特征。
4.根据权利要求3所述的基于多模态的响应义务检测方法,其特征在于,
所述训练样本数据集存储于区块链中;并且,
所述训练数据样本包括目标域数据样本和源域数据样本,在使用所述训练样本数据集对预设的响应义务检测模型进行训练的过程中,使用所述目标域数据样本和所述源域数据样本对所述响应义务检测模型进行训练。
5.根据权利要求4所述的基于多模态的响应义务检测方法,其特征在于,所述响应义务检测模型还包括第一对抗网络和第二对抗网络,并且,在使用所述训练样本数据集对预设的响应义务检测模型进行训练的过程中,
所述第一对抗网络用于对所述响应义务检测模型提取的目标域声学特征和源域声学特征进行对抗训练,以使所述响应义务检测模型的声学特征提取精度达到预设精度;
所述第二对抗网络用于对所述响应义务检测模型提取的目标域语义特征和源域语义特征进行对抗训练,以使所述响应义务检测模型的语义特征提取精度达到预设精度。
6.根据权利要求5所述的基于多模态的响应义务检测方法,其特征在于,所述响应义务检测模型还包括总分类器网络,所述总分类网络用于根据所述声学特征和所述语义特征计算最终响应义务概率。
7.根据权利要求6所述的基于多模态的响应义务检测方法,其特征在于,根据所述声学特征和所述语义特征计算最终响应义务概率的方法包括:
先根据所述声学特征和所述语义特征分别计算出声学响应义务概率和语义响应义务概率,然后根据所述声学响应义务概率和所述语义响应义务概率计算所述最终响应义务概率;其中,
计算所述声学响应义务概率的损失函数为:
其中,P(x1)为声学响应义务概率,y为训练数据样本的真实值,{S}为训练样本数据集,x1为计算所述声学响应义务概率时所用到的{S}中的训练数据样本;
计算所述语义响应义务概率的损失函数为:
其中,P(x2)为声学响应义务概率,y为训练数据样本的真实值,{S}为训练样本数据集,x2为计算所述语义响应义务概率时所用到的{S}中的训练数据样本;
计算所述最终响应义务概率的损失函数为:
Ly=a*Ly^speech+b*Ly^semantic
其中,a+b=1,a和b分别为声学特征和语义特征所占的预设权重。
8.一种基于多模态的响应义务检测系统,其特征在于,所述系统包括:
样本集建立单元,用于获取训练数据样本,并将所述训练数据样本保存至训练样本数据集;
模型训练单元,用于使用所述训练样本数据集对预设的响应义务检测模型进行训练,以使所述响应义务检测模型达到预设精度;其中,所述响应义务检测模型用于对输入数据信息进行声学特征提取和语义特征提取,并根据提取的声学特征和语义特征对所述输入数据信息进行响应义务检测;
模型应用单元,用于利用训练完成的响应义务检测模型对待检测目标域数据进行检测,以判断系统是否需对所述待检测目标域数据进行响应。
9.一种电子装置,其特征在于,所述电子装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的基于多模态的响应义务检测程序,所述基于多模态的响应义务检测程序被所述处理器执行时实现如下步骤:
获取训练数据样本,并将所述训练数据样本保存至训练样本数据集;
使用所述训练样本数据集对预设的响应义务检测模型进行训练,以使所述响应义务检测模型达到预设精度;其中,所述响应义务检测模型用于对输入数据信息进行声学特征提取和语义特征提取,并根据提取的声学特征和语义特征对所述输入数据信息进行响应义务检测;
利用训练完成的响应义务检测模型对待检测目标域数据进行检测,以判断系统是否需对所述待检测目标域数据进行响应。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有基于多模态的响应义务检测程序,所述基于多模态的响应义务检测程序被处理器执行时,实现如权利要求1至7中任一项所述的基于多模态的响应义务检测方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010921759.9A CN112037772B (zh) | 2020-09-04 | 2020-09-04 | 基于多模态的响应义务检测方法、系统及装置 |
PCT/CN2020/125140 WO2021159756A1 (zh) | 2020-09-04 | 2020-10-30 | 基于多模态的响应义务检测方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010921759.9A CN112037772B (zh) | 2020-09-04 | 2020-09-04 | 基于多模态的响应义务检测方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112037772A true CN112037772A (zh) | 2020-12-04 |
CN112037772B CN112037772B (zh) | 2024-04-02 |
Family
ID=73590563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010921759.9A Active CN112037772B (zh) | 2020-09-04 | 2020-09-04 | 基于多模态的响应义务检测方法、系统及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112037772B (zh) |
WO (1) | WO2021159756A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113903359A (zh) * | 2021-10-18 | 2022-01-07 | 北京百度网讯科技有限公司 | 音频检测模型训练和音频检测方法、装置、设备及介质 |
CN117076957B (zh) * | 2023-10-16 | 2024-06-28 | 湖南智警公共安全技术研究院有限公司 | 一种基于多模态信息的人员身份关联方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108257600A (zh) * | 2016-12-29 | 2018-07-06 | 中国移动通信集团浙江有限公司 | 语音处理方法和装置 |
CN108320733A (zh) * | 2017-12-18 | 2018-07-24 | 上海科大讯飞信息科技有限公司 | 语音数据处理方法及装置、存储介质、电子设备 |
CN108334496A (zh) * | 2018-01-30 | 2018-07-27 | 中国科学院自动化研究所 | 用于特定领域的人机对话理解方法与系统及相关设备 |
JP2020024310A (ja) * | 2018-08-08 | 2020-02-13 | 株式会社日立製作所 | 音声処理システム及び音声処理方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654943A (zh) * | 2015-10-26 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种语音唤醒方法、装置及系统 |
CN107633842B (zh) * | 2017-06-12 | 2018-08-31 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN109326285A (zh) * | 2018-10-23 | 2019-02-12 | 出门问问信息科技有限公司 | 语音信息处理方法、装置及非暂态计算机可读存储介质 |
CN109360554A (zh) * | 2018-12-10 | 2019-02-19 | 广东潮庭集团有限公司 | 一种基于语深度神经网络的语言识别方法 |
-
2020
- 2020-09-04 CN CN202010921759.9A patent/CN112037772B/zh active Active
- 2020-10-30 WO PCT/CN2020/125140 patent/WO2021159756A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108257600A (zh) * | 2016-12-29 | 2018-07-06 | 中国移动通信集团浙江有限公司 | 语音处理方法和装置 |
CN108320733A (zh) * | 2017-12-18 | 2018-07-24 | 上海科大讯飞信息科技有限公司 | 语音数据处理方法及装置、存储介质、电子设备 |
CN108334496A (zh) * | 2018-01-30 | 2018-07-27 | 中国科学院自动化研究所 | 用于特定领域的人机对话理解方法与系统及相关设备 |
JP2020024310A (ja) * | 2018-08-08 | 2020-02-13 | 株式会社日立製作所 | 音声処理システム及び音声処理方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021159756A1 (zh) | 2021-08-19 |
CN112037772B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111292728B (zh) | 语音识别方法和设备 | |
JP6980119B2 (ja) | 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
US11282524B2 (en) | Text-to-speech modeling | |
US9842585B2 (en) | Multilingual deep neural network | |
CN108694940B (zh) | 一种语音识别方法、装置及电子设备 | |
US10224030B1 (en) | Dynamic gazetteers for personalized entity recognition | |
CN111710337B (zh) | 语音数据的处理方法、装置、计算机可读介质及电子设备 | |
WO2021103712A1 (zh) | 一种基于神经网络的语音关键词检测方法、装置及系统 | |
JP7063937B2 (ja) | 音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム | |
CN113129867B (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
CN112669842A (zh) | 人机对话控制方法、装置、计算机设备及存储介质 | |
CN110503956A (zh) | 语音识别方法、装置、介质及电子设备 | |
CN111508497B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
JP7178394B2 (ja) | 音声信号を処理するための方法、装置、機器、および媒体 | |
US12008988B2 (en) | Electronic apparatus and controlling method thereof | |
CN112037772B (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
US11437043B1 (en) | Presence data determination and utilization | |
CN112542173A (zh) | 一种语音交互方法、装置、设备和介质 | |
US12069144B1 (en) | Personalized device routines | |
CN116978367A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN115512692A (zh) | 语音识别方法、装置、设备及存储介质 | |
CN114566156A (zh) | 一种关键词的语音识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |