CN113486669A - 应急救援输入语音的语义识别方法 - Google Patents
应急救援输入语音的语义识别方法 Download PDFInfo
- Publication number
- CN113486669A CN113486669A CN202110764294.5A CN202110764294A CN113486669A CN 113486669 A CN113486669 A CN 113486669A CN 202110764294 A CN202110764294 A CN 202110764294A CN 113486669 A CN113486669 A CN 113486669A
- Authority
- CN
- China
- Prior art keywords
- sequence
- intention
- information
- word
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000007246 mechanism Effects 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 52
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
一种应急救援输入语音的语义识别方法,涉及自然语言处理技术领域,该方法采用BERT预训练模型的分词器、编码器对用户输入语句进行分词、编码,得到单词级别的表示;采用卷积神经网络的编码器获取用户输入语句的局部意图信息;采用基于自注意力机制的编码器获取融合了语义槽位信息之后的意图信息;采用意图识别解码器获取具体意图类别;采用语义槽位解码器获取语义槽位的标签分类。本发明提供的方法,用于应急救援中机器识别用户输入语音。
Description
技术领域
本发明涉及自然语言处理技术,特别是涉及一种应急救援输入语音的语义识别方法的技术。
背景技术
目前的应急救援体系中,语音识别技术的应用相当广泛,救援人员可以向机器终端发送语音指令,机器终端智能识别语音指令的意图、语义后执行相关操作,这种采用语音控制机器终端的方式可以解放救援人员双手,能有效的提升应急救援效率。此过程中,机器终端对语音指令的意图、语义的识别准确性非常关键。
意图识别和语义槽位填充作为口语理解模块(或自然语言理解模块)中的两部分主要任务,目的在于理解用户的对话意图。意图识别任务的作用在于机器处理用户的输入文本,将用户提问语句识别为用户意图。语义槽位填充任务的作用在于通过处理用户的询问语句,将用户输入文本中的语义槽位标注为具体槽值对的信息。由于意图识别的结果可以对语义槽位填充的结果起到促进的作用,同时语义槽位填充的结果也可以反过来对意图识别任务起到积极的作用,所以意图识别任务与语义槽位填充任务的联合训练也作为口语理解中的一个重要的研究分支。
现有的意图识别与语义槽位填充联合训练的方法可以分为三类:
1)基于传统机器学习方法的联合训练方法,该方法在完成意图识别与语义槽位填充时,由于数据集的限制,需要大量的人力物力来制定特定领域的意图识别规则和语义槽位规则,这类方法的可扩展性和泛化能力较差。
2)基于递归神经网络的联合训练方法,该方法主要是使用Seq-Seq架构来进行意图识别与语义槽位填充,已取得了较为理想的效果。
3)基于注意力机制的联合训练方法,该方法中的隐式联合学习方法采用的是学习两个任务的特征,仅仅通过损失函数将两个任务进行关联,而显式联合学习方法大部分则提出一种门控机制的结构来将意图识别任务与语义槽位填充任务进行进一步将联合。
通常,卷积神经网络(CNN)由于其更加关注局部特征的性质在计算机视觉与图像领域中比较常用,近些年来,卷积神经网络在自然语言处理中也发挥了很大的作用,特别是作为特征提取器能够有效地捕获到语料的局部信息。
注意力机制(Attention)提出的目的在于在目前的计算能力有限的情况下,能够将计算资源更多的分配给更加重要的任务,同时能够处理信息超载的问题。由于深度学习网络的表达能力越来越强,模型所需要的参数量也会越来越大,因此经常会导致信息过载的问题出现。注意力机制的引入就可以使得聚焦于对当前任务更为关键的信息,降低对于其它信息的敏感度,从而提高任务处理的效率及其准确性,同时,注意力机制对于关键向量的拼接以及对于输入向量的独立运算可以提高计算的并行效率。自注意力机制(Self-Attention)属于注意力机制的变体,与注意力机制不同的是,自注意力机制依赖更多的是跟自己相关的序列,减少了外部信息的依赖。
值得注意的是,尽管意图识别与语义槽位填充联合训练取得了比较好的训练效果,但是现有的研究依然存在一些有待于改进的问题,例如,缺乏标注数据问题、领域普遍性问题(一个方法在给定的领域下的特定数据集表现效果比较好,然而更换对话领域以及对话数据集之后,模型的效果会大打折扣)和出现未登录词问题(词汇表外的单词出现在测试集中,即不出现在训练集中的单词,可能会导致较低的测试性能)。
发明内容
针对上述现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种能克服现有技术存在的数据标注问题、领域普适性问题、出现未登录词问题,而且特征信息的完整性好,能提升模型整体的编码效率及模型准确率的应急救援输入语音的语义识别方法。
为了解决上述技术问题,本发明所提供的一种应急救援输入语音的语义识别方法,其特征在于,具体步骤如下:
S1:采用BERT预训练模型的分词器对用户输入语句进行分词后,给句子的第一个token添加一个[CLS]标签,给句子的最后一个token添加一个[SEP]标签,再输入BERT预训练模型的编码器进行编码,得到用户输入语句的输出序列H;
S2:从输出序列H中,提取出除了包含[CLS]标签的元素之外的其它元素,并将提取的元素输入到卷积神经网络的编码器中,利用卷积神经网络的编码器得到用户输入语句的局部意图信息序列P;
S3:对步骤S1得到的输出序列H中的各个token单词计算自注意力,将语义槽位信息融入到包含语句意图信息的[CLS]标签中,得到融合了语义槽位信息的意图信息序列G;
S4:将融合了语义槽位信息的意图信息序列G,及利用卷积神经网络的编码器得到的局部意图信息序列P,及BERT预训练模型的编码器输出的[CLS]标签的意图信息,输入到意图识别解码器,利用意图识别解码器得到由输出序列H中的各个token单词的最终意图类别所组成的具体意图类别序列Y;
S5:将步骤S4得到的具体意图类别序列Y输入到语义槽位解码器的门控机制,通过门控机制计算出输出序列H中的各个token单词的语义槽位,并利用语义槽位信息分类器将每个语义槽位分类为槽位标签。
进一步的,步骤S1中获取用户输入语句的输出序列H的具体步骤如下:
S11:采用BERT预训练模型的分词器,将用户输入语句中的单词按照分词器词表的最小单元进行切割;
S12:给句子的第一个token添加一个[CLS]标签,给句子的最后一个token添加一个[SEP]标签,得到用户输入语句的输入序列x=(x1,x2,x3,...,xT),其中的T为输入序列x中的元素数量;
S13:将步骤S12得到的输入序列x输入到BERT预训练模型的编码器中,利用BERT预训练模型的编码器进行编码后,得到用户输入语句的输出序列H=(h1,h2,h3,...,hT);
进一步的,步骤S2中获取用户输入语句的局部意图信息序列P的具体步骤如下:
S21:从步骤S1得到的输出序列H中,提取出除了第一个元素h1之外的其它元素,并用提取的元素构建一个新的输出序列H2=(h2,h3,...,hT);
S22:将步骤S21得到的输出序列H2作为卷积神经网络的输入层,分别使用多种卷积核进行卷积,并在卷积之后使用Top K算法最大池化的特征,从而得到的用户输入语句的局部意图信息序列P=(p2,p3,...,pT)。
进一步的,步骤S3中获取融合了语义槽位信息的意图信息序列G的具体步骤如下:
S31:将步骤S1得到的输出序列H=(h1,h2,h3,...,hT)通过线性变化得到查询向量矩阵Q、键向量矩阵K、值向量矩阵V,线性变化的公式为:
Q=WQ·H
K=WK·H
V=WV·H
其中,WQ为查询向量矩阵Q的参数,WK为键向量矩阵K的参数,WV为值向量矩阵V的参数;
S32:对步骤S1得到的输出序列H=(h1,h2,h3,...,hT)中的各个token单词计算自注意力,计算公式为:
其中,gi为输出序列H中的第i个token单词的自注意力,qi为输出序列H中的第i个token单词在查询向量矩阵Q中的查询向量,vj为输出序列H中的第j个token单词在值向量矩阵V中的值向量,kj为输出序列H中的第j个token单词在键向量矩阵K中的键向量,softmax为归一化指数函数;
S33:用输出序列H中的各个token单词的自注意力构建一个融合了语义槽位信息的意图信息序列G=(g1,g2,g3,...,gT)。
进一步的,步骤S4中获取具体意图类别序列Y的具体步骤如下:
S41:将融合了语义槽位信息的意图信息序列G,及利用卷积神经网络的编码器得到的局部意图信息序列P,及BERT预训练模型的编码器输出的[CLS]标签的意图信息,输入到意图识别解码器中;
S42:利用意图识别解码器计算步骤S1得到的输出序列H中的各个token单词的最终意图信息,计算公式为:
fi=h1+Wp·Pi+Wg·gi
其中,fi为输出序列H中的第i个token单词的最终意图信息,Wp为利用卷积神经网络的编码器得到的局部意图信息的引入参数,Wg为融合了语义槽位信息的意图信息的引入参数,h1为BERT预训练模型的编码器输出的[CLS]标签的意图信息,pi为步骤S22得到的用户输入语句的局部意图信息P中的第i个局部意图信息,gi为输出序列H中的第i个token单词的自注意力;
S43:利用意图识别解码器将输出序列H中的各个token单词的最终意图信息通过一个全连接分类器映射为各个最终意图类别,得到由输出序列H中的各个token单词的最终意图类别所组成的具体意图类别序列Y,计算公式为:
y1=softmax(Wf·fi+bf)
其中,yi为输出序列H中的第i个token单词的最终意图类别,Wf为分类器的神经网络参数,fi为输出序列H中的第i个token单词的最终意图信息,bf为偏置向量,softmax为归一化指数函数。
进一步的,步骤S5中对语义槽位进行标签分类的具体步骤如下:
S51:将步骤S4得到的具体意图类别序列Y输入到语义槽位解码器的门控机制,通过门控机制计算出输出序列H中的各个token单词的语义槽位,计算公式为:
ri=sigmoid(Wr.[gi,fi])
其中,si为输出序列H中的第i个token单词的语义槽位,ri为输出序列H中的第i个token单词的槽位相关门系数,sigmoid为激活函数,Wr为语义槽位解码器的神经网络参数,gi为输出序列H中的第i个token单词的自注意力,fi为输出序列H中的第i个token单词的最终意图信息;
S52:将输出序列H中的各个token单词的语义槽位通过分类器进行分类,将每个语义槽位分类为槽位标签,分类公式为:
本发明提供的应急救援输入语音的语义识别方法,具有以下有益效果:
1)在编码器层使用BERT编码层、自注意力机制编码层和卷积神经网络编码层,在解码器层使用针对意图识别的解码器以及语义槽位填充的解码器,有效避免了词表外词汇问题的出现以及领域普适性的问题。
2)在捕获语句特征时,使用自注意力机制的同时对用户的语句卷积神经网络提取局部的意图信息,这样在捕获语句的远程特征信息同时也可以融合局部的特征信息,增强了特征信息的完整性,能提升模型整体的编码效率。
3)采用意图与语义槽位双向门控机制,在用意图辅助语义槽位填充时使用隐性的多头自注意力层,在使用语义槽位填充辅助意图识别时使用了门控机制,真正实现了意图与语义槽位的双向互补的设计,提高了意图识别的准确性的同时也对语义槽位填充的准确性起到了很大的帮助。
具体实施方式
以下对本发明的实施例作进一步详细描述,但本实施例并不用于限制本发明,凡是采用本发明的相似结构及其相似变化,均应列入本发明的保护范围,本发明中的顿号均表示和的关系,本发明中的英文字母区分大小写。
本发明实施例所提供的一种应急救援输入语音的语义识别方法,其特征在于,具体步骤如下:
S1:采用BERT预训练模型的分词器对用户输入语句进行分词后,给句子的第一个token添加一个[CLS]标签,给句子的最后一个token添加一个[SEP]标签,再输入BERT预训练模型的编码器进行编码,得到用户输入语句的输出序列H;
S2:从输出序列H中,提取出除了包含[CLS]标签的元素之外的其它元素,并将提取的元素输入到卷积神经网络的编码器中,利用卷积神经网络的编码器得到用户输入语句的局部意图信息序列P;
S3:使用基于自注意力机制的编码器实现槽位信息辅助意图分类信息的slot-intent机制,对步骤S1得到的输出序列H中的各个token单词计算自注意力,将语义槽位信息融入到包含语句意图信息的[CLS]标签中,得到融合了语义槽位信息的意图信息序列G;
尽管BERT预训练模型中已经包含多个多头自注意力机制编码层,但是在得到语义编码之后再进入一个自注意力编码层效果依然能够得到一部分提升,本方法中也使用了多头自注意力机制,将首个[CLS]标签的token进行自注意力的计算,由于自注意力机制对于自身序列的关注程度更高,因此添加[CLS]标签后的自注意力计算相当于将每个槽位的注意力信息分配给首个标签,属于一种由语义槽位信息辅助意图信息的slot-intent机制;
S4:将融合了语义槽位信息的意图信息序列G(包含有经过自注意力层计算之后的[CLS]标签的意图信息,该意图信息为语义槽位填充辅助的意图信息,充分利用了语义槽位的信息),及利用卷积神经网络的编码器得到的局部意图信息序列P(通过该编码器得到的意图信息融合了对话的局部意图信息的同时还完整保留了序列信息),及BERT预训练模型的编码器输出的[CLS]标签的意图信息(该信息的引入主要是为了防止由slot-intent机制后得到的意图信息权重太大,对于本身的意图信息起到了遮蔽的作用,因此这里使用类似于残差网络的思想,直接将[CLS]标签得到的意图信息进行融合),输入到意图识别解码器,利用意图识别解码器得到由输出序列H中的各个token单词的最终意图类别所组成的具体意图类别序列Y(通过融入三部分的意图信息来当作完整的对话意图信息,再将意图信息输入到意图识别解码器,可得到具体的意图类别);
S5:将步骤S4得到的具体意图类别序列Y输入到语义槽位解码器的门控机制,实现意图信息辅助语义槽位预测的intent-slot机制,通过门控机制计算出输出序列H中的各个token单词的语义槽位,进而通过意图信息辅助语义槽位填充的方式来预测语义槽位的信息,利用语义槽位信息分类器将每个语义槽位分类为槽位标签。
语义槽位解码器的主要作用是将intent-slot机制得到的语义槽位信息分类为具体的标签信息,本实施例提出的双向信息辅助机制的slot-intent机制主要是通过基于自注意力机制的编码器来实现,而通过意图辅助语义槽位信息的方式主要是通过由意图到语义槽位的门控机制计算得到。
本发明实施例的步骤S1中,获取用户输入语句的输出序列H的具体步骤如下:
S11:采用BERT预训练模型的分词器,将用户输入语句中的单词按照分词器词表的最小单元进行切割;
S12:给句子的第一个token添加一个[CLS]标签,给句子的最后一个token添加一个[SEP]标签,得到用户输入语句的输入序列x=(x1,x2,x3,...,xT),其中的T为输入序列x中的元素数量;
使用的BERT配置为BERT-Base-Uncased配置,该配置为BERT的基本配置,包含110M的参数量;
S13:将步骤S12得到的输入序列x输入到BERT预训练模型的编码器中,利用BERT预训练模型的编码器进行编码后,得到用户输入语句的输出序列H=(h1,h2,h3,...,hT);
其中第一个token([CLS]标签)的输出包含了本句的意图信息,每个序列输出的维度为768维。
BERT预训练模型实际上是Transformer模型的编码器部分,主要包括三个位置的词嵌入特征,分别是基于词片的嵌入特征(WordPiece)、基于位置的嵌入特征(PositionEmbedding)以及基于分割的嵌入特征(Segment Embedding);
在基于WordPiece的嵌入中,通过BERT预训练模型的分词器会将用户对话输入的单词按照词表的最小单元进行切割,可以兼顾字符的灵活程度以及单词本身的有效程度。例如,用户输入语句为“[book]/[a]/[brasserie]/[for]/[one]”,经过BERT分词器之后会被分割为“[book]/[a]/[brass]/[##eri]/[##e]/[for]/[one]”这样的词片特征;
基于Position Embedding中,并没有对位置信息进行加入;而对于SegmentEmbedding中,主要用于区分多个句子,不同的句子用不同数字进行编码。本方法使用的数据集为单轮对话,因此也不需要加入位置信息。
本发明实施例的步骤S2中,获取用户输入语句的局部意图信息序列P的具体步骤如下:
S21:从步骤S1得到的输出序列H中,提取出除了第一个元素h1之外的其它元素,并用提取的元素构建一个新的输出序列H2=(h2,h3,...,hT);
由于h1的词向量表示为[CLS]标签的向量表示,表示整句话的意图信息,包含了长距离的依赖信息,不利于局部意图信息的特征提取,因此不加入到提取局部意图的编码器模块;
S22:将步骤S21得到的输出序列H2作为卷积神经网络的输入层,分别使用多种卷积核进行卷积,并在卷积之后使用Top K算法最大池化的特征(该特征既能保留局部意图特征信息,又能保留整句话的序列特征),从而得到的用户输入语句的局部意图信息序列P=(p2,p3,...,pT)。
卷积神经网络用在自然语言处理中,每个部分的结构都有些许调整。首先在输入层,输入层的向量没有图片的像素矩阵,而是使用的每个单词的词向量作为输入,由于每个词语可以由一个词向量表示,因此嵌入矩阵中的每一行表示一个词向量,词向量可以使用静态向量表示,也可以在训练的时候更新。在卷积层中,由于输入层的内容发生了转变,因此也不需要二维的卷积核对图片矩阵进行扫描,对文本进行卷积时,仅需要沿着一个方向,对于文本的方向进行卷积,卷积核的宽度固定为词向量的维度即可,卷积核的高度为超参数,可以进行不同的设置。在池化层中,本实施例选择Top K最大池化的方式而不是选用最大池化层。
本发明实施例的步骤S3中,获取融合了语义槽位信息的意图信息序列G的具体步骤如下:
S31:将步骤S1得到的输出序列H=(h1,h2,h3,...,hT)通过线性变化得到查询向量矩阵Q、键向量矩阵K、值向量矩阵V,线性变化的公式为:
Q=WQ·H
K=WK·H
V=WV·H
其中,WQ为查询向量矩阵Q的参数,WK为键向量矩阵K的参数,WV为值向量矩阵V的参数,线性变化公式通过训练动态变化;
S32:对步骤S1得到的输出序列H=(h1,h2,h3,...,hT)中的各个token单词计算自注意力,计算公式为:
其中,gi为输出序列H中的第i个token单词的自注意力,qi为输出序列H中的第i个token单词在查询向量矩阵Q中的查询向量,vj为输出序列H中的第j个token单词在值向量矩阵V中的值向量,kj为输出序列H中的第j个token单词在键向量矩阵K中的键向量,softmax为归一化指数函数;
S33:用输出序列H中的各个token单词的自注意力构建一个融合了语义槽位信息的意图信息序列G=(g1,g2,g3,...,gT)。
通过步骤S31至步骤S33,将[CLS]标签的信息融入到自注意力层中,每个语义槽位的信息与全局的意图信息进行自注意力计算,从而实现了语义槽位信息辅助意图分类的slot-intent机制。
本发明实施例的步骤S4中,获取具体意图类别序列Y的具体步骤如下:
S41:将融合了语义槽位信息的意图信息序列G,及利用卷积神经网络的编码器得到的局部意图信息序列P,及BERT预训练模型的编码器输出的[CLS]标签的意图信息,输入到意图识别解码器中;
S42:利用意图识别解码器计算步骤S1得到的输出序列H中的各个token单词的最终意图信息,计算公式为:
fi=h1+Wp·Pi+Wg·gi
其中,fi为输出序列H中的第i个token单词的最终意图信息,WP为利用卷积神经网络的编码器得到的局部意图信息的引入参数,Wg为融合了语义槽位信息的意图信息的引入参数,h1为BERT预训练模型的编码器输出的[CLS]标签的意图信息,pi为步骤S22得到的用户输入语句的局部意图信息P中的第i个局部意图信息,gi为输出序列H中的第i个token单词的自注意力;
S43:利用意图识别解码器将输出序列H中的各个token单词的最终意图信息通过一个全连接分类器映射为各个最终意图类别,得到由输出序列H中的各个token单词的最终意图类别所组成的具体意图类别序列Y,计算公式为:
yi=softmax(Wffi+bf)
其中,yi为输出序列H中的第i个token单词的最终意图类别,Wf为分类器的神经网络参数,fi为输出序列H中的第i个token单词的最终意图信息,bf为偏置向量,softmax为归一化指数函数,用于将预测所有的类别概率进行归一化。
意图识别解码器模块的主要作用是将意图信息进行融合,然后将最终意图信息分类为具体意图类别。意图识别解码器的输入主要分为三个部分:融合局部意图的意图信息、通过预训练模型的意图信息以及通过语义槽位信息辅助意图分类的意图信息。
本发明实施例的步骤S5中,对语义槽位进行标签分类的具体步骤如下:
S51:将步骤S4得到的具体意图类别序列Y输入到语义槽位解码器的门控机制,门控机制通过定义槽位相关门来表示最终意图信息与语义槽位的相关程度,通过门控机制计算出输出序列H中的各个token单词的语义槽位,计算公式为:
ri=sigmoid(Wr·[gi,fi])
其中,si为输出序列H中的第i个token单词的语义槽位,ri为输出序列H中的第i个token单词的槽位相关门系数,sigmoid为激活函数,sigmoid将结果映射为0到1的范围内,槽位相关门通过这种门控机制来控制最终意图信息与与语义槽位的相关程度,Wr为语义槽位解码器的神经网络参数,gi为输出序列H中的第i个token单词的自注意力,fi为输出序列H中的第i个token单词的最终意图信息;
S52:将输出序列H中的各个token单词的语义槽位通过分类器进行分类,将每个语义槽位分类为槽位标签,分类公式为:
最后,结合意图识别解码器与语义槽位解码器的目标函数可以定义为如下公式:
本方法的优化的目标为最小化两者的条件概率,通过交叉熵损失函数来进行训练。
Claims (6)
1.一种应急救援输入语音的语义识别方法,其特征在于,具体步骤如下:
S1:采用BERT预训练模型的分词器对用户输入语句进行分词后,给句子的第一个token添加一个[CLS]标签,给句子的最后一个token添加一个[SEP]标签,再输入BERT预训练模型的编码器进行编码,得到用户输入语句的输出序列H;
S2:从输出序列H中,提取出除了包含[CLS]标签的元素之外的其它元素,并将提取的元素输入到卷积神经网络的编码器中,利用卷积神经网络的编码器得到用户输入语句的局部意图信息序列P;
S3:对步骤S1得到的输出序列H中的各个token单词计算自注意力,将语义槽位信息融入到包含语句意图信息的[CLS]标签中,得到融合了语义槽位信息的意图信息序列G;
S4:将融合了语义槽位信息的意图信息序列G,及利用卷积神经网络的编码器得到的局部意图信息序列P,及BERT预训练模型的编码器输出的[CLS]标签的意图信息,输入到意图识别解码器,利用意图识别解码器得到由输出序列H中的各个token单词的最终意图类别所组成的具体意图类别序列Y;
S5:将步骤S4得到的具体意图类别序列Y输入到语义槽位解码器的门控机制,通过门控机制计算出输出序列H中的各个token单词的语义槽位,并利用语义槽位信息分类器将每个语义槽位分类为槽位标签。
2.根据权利要求1所述的应急救援输入语音的语义识别方法,其特征在于,步骤S1中获取用户输入语句的输出序列H的具体步骤如下:
S11:采用BERT预训练模型的分词器,将用户输入语句中的单词按照分词器词表的最小单元进行切割;
S12:给句子的第一个token添加一个[CLS]标签,给句子的最后一个token添加一个[SEP]标签,得到用户输入语句的输入序列x=(x1,x2,x3,...,xT),其中的T为输入序列x中的元素数量;
S13:将步骤S12得到的输入序列x输入到BERT预训练模型的编码器中,利用BERT预训练模型的编码器进行编码后,得到用户输入语句的输出序列H=(h1,h2,h3,...,hT)。
3.根据权利要求2所述的应急救援输入语音的语义识别方法,其特征在于,步骤S2中获取用户输入语句的局部意图信息序列P的具体步骤如下:
S21:从步骤S1得到的输出序列H中,提取出除了第一个元素h1之外的其它元素,并用提取的元素构建一个新的输出序列H2=(h2,h3,...,hT);
S22:将步骤S21得到的输出序列H2作为卷积神经网络的输入层,分别使用多种卷积核进行卷积,并在卷积之后使用Top K算法最大池化的特征,从而得到的用户输入语句的局部意图信息序列P=(p2,p3,...,pT)。
4.根据权利要求3所述的应急救援输入语音的语义识别方法,其特征在于,步骤S3中获取融合了语义槽位信息的意图信息序列G的具体步骤如下:
S31:将步骤S1得到的输出序列H=(h1,h2,h3,...,hT)通过线性变化得到查询向量矩阵Q、键向量矩阵K、值向量矩阵V,线性变化的公式为:
Q=WQ·H
K=WK·H
V=Wv·H
其中,WQ为查询向量矩阵Q的参数,WK为键向量矩阵K的参数,WV为值向量矩阵V的参数;
S32:对步骤S1得到的输出序列H=(h1,h2,h3,...,hT)中的各个token单词计算自注意力,计算公式为:
其中,gi为输出序列H中的第i个token单词的自注意力,qi为输出序列H中的第i个token单词在查询向量矩阵Q中的查询向量,vj为输出序列H中的第j个token单词在值向量矩阵V中的值向量,kj为输出序列H中的第j个token单词在键向量矩阵K中的键向量,softmax为归一化指数函数;
S33:用输出序列H中的各个token单词的自注意力构建一个融合了语义槽位信息的意图信息序列G=(g1,g2,g3,...,gT)。
5.根据权利要求4所述的应急救援输入语音的语义识别方法,其特征在于,步骤S4中获取具体意图类别序列Y的具体步骤如下:
S41:将融合了语义槽位信息的意图信息序列G,及利用卷积神经网络的编码器得到的局部意图信息序列P,及BERT预训练模型的编码器输出的[CLS]标签的意图信息,输入到意图识别解码器中;
S42:利用意图识别解码器计算步骤S1得到的输出序列H中的各个token单词的最终意图信息,计算公式为:
fi=h1+Wp·pi+Wg·gi
其中,fi为输出序列H中的第i个token单词的最终意图信息,Wp为利用卷积神经网络的编码器得到的局部意图信息的引入参数,Wg为融合了语义槽位信息的意图信息的引入参数,h1为BERT预训练模型的编码器输出的[CLS]标签的意图信息,pi为步骤S22得到的用户输入语句的局部意图信息P中的第i个局部意图信息,gi为输出序列H中的第i个token单词的自注意力;
S43:利用意图识别解码器将输出序列H中的各个token单词的最终意图信息通过一个全连接分类器映射为各个最终意图类别,得到由输出序列H中的各个token单词的最终意图类别所组成的具体意图类别序列Y,计算公式为:
yi=soffmax(Wf·fi+bf)
其中,yi为输出序列H中的第i个token单词的最终意图类别,Wf为分类器的神经网络参数,fi为输出序列H中的第i个token单词的最终意图信息,bf为偏置向量,softmax为归一化指数函数。
6.根据权利要求5所述的应急救援输入语音的语义识别方法,其特征在于,步骤S5中对语义槽位进行标签分类的具体步骤如下:
S51:将步骤S4得到的具体意图类别序列Y输入到语义槽位解码器的门控机制,通过门控机制计算出输出序列H中的各个token单词的语义槽位,计算公式为:
ri=sigmoid(Wr·[gi,fi])
其中,si为输出序列H中的第i个token单词的语义槽位,ri为输出序列H中的第i个token单词的槽位相关门系数,sigmoid为激活函数,Wr为语义槽位解码器的神经网络参数,gi为输出序列H中的第i个token单词的自注意力,fi为输出序列H中的第i个token单词的最终意图信息;
S52:将输出序列H中的各个token单词的语义槽位通过分类器进行分类,将每个语义槽位分类为槽位标签,分类公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110764294.5A CN113486669B (zh) | 2021-07-06 | 2021-07-06 | 应急救援输入语音的语义识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110764294.5A CN113486669B (zh) | 2021-07-06 | 2021-07-06 | 应急救援输入语音的语义识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486669A true CN113486669A (zh) | 2021-10-08 |
CN113486669B CN113486669B (zh) | 2024-03-29 |
Family
ID=77941353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110764294.5A Active CN113486669B (zh) | 2021-07-06 | 2021-07-06 | 应急救援输入语音的语义识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486669B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114021582A (zh) * | 2021-12-30 | 2022-02-08 | 深圳市北科瑞声科技股份有限公司 | 结合语音信息的口语理解方法、装置、设备及存储介质 |
CN115658891A (zh) * | 2022-10-18 | 2023-01-31 | 支付宝(杭州)信息技术有限公司 | 一种意图识别的方法、装置、存储介质及电子设备 |
CN116092495A (zh) * | 2023-04-07 | 2023-05-09 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
CN116227629A (zh) * | 2023-05-10 | 2023-06-06 | 荣耀终端有限公司 | 一种信息解析方法、模型训练方法、装置及电子设备 |
WO2024001101A1 (zh) * | 2022-06-30 | 2024-01-04 | 青岛海尔科技有限公司 | 文本意图的识别方法和装置、存储介质和电子装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555097A (zh) * | 2018-05-31 | 2019-12-10 | 罗伯特·博世有限公司 | 在口语语言理解中利用联合的指针和注意力的槽位填充 |
CN111625641A (zh) * | 2020-07-30 | 2020-09-04 | 浙江大学 | 一种基于多维度语义交互表征模型的对话意图识别方法及系统 |
CN112084790A (zh) * | 2020-09-24 | 2020-12-15 | 中国民航大学 | 一种基于预训练卷积神经网络的关系抽取方法及系统 |
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN113032568A (zh) * | 2021-04-02 | 2021-06-25 | 同方知网(北京)技术有限公司 | 一种基于bert+bilstm+crf并融合句型分析的查询意图识别方法 |
-
2021
- 2021-07-06 CN CN202110764294.5A patent/CN113486669B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555097A (zh) * | 2018-05-31 | 2019-12-10 | 罗伯特·博世有限公司 | 在口语语言理解中利用联合的指针和注意力的槽位填充 |
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN111625641A (zh) * | 2020-07-30 | 2020-09-04 | 浙江大学 | 一种基于多维度语义交互表征模型的对话意图识别方法及系统 |
CN112084790A (zh) * | 2020-09-24 | 2020-12-15 | 中国民航大学 | 一种基于预训练卷积神经网络的关系抽取方法及系统 |
CN113032568A (zh) * | 2021-04-02 | 2021-06-25 | 同方知网(北京)技术有限公司 | 一种基于bert+bilstm+crf并融合句型分析的查询意图识别方法 |
Non-Patent Citations (2)
Title |
---|
周奇安;李舟军;: "基于BERT的任务导向对话系统自然语言理解的改进模型与调优方法", 中文信息学报, no. 05, 15 May 2020 (2020-05-15), pages 82 - 90 * |
迟海洋;严馨;周枫;徐广义;张磊;: "基于BERT-BiGRU-Attention的在线健康社区用户意图识别方法", 河北科技大学学报, no. 03, 15 June 2020 (2020-06-15), pages 225 - 231 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114021582A (zh) * | 2021-12-30 | 2022-02-08 | 深圳市北科瑞声科技股份有限公司 | 结合语音信息的口语理解方法、装置、设备及存储介质 |
CN114021582B (zh) * | 2021-12-30 | 2022-04-01 | 深圳市北科瑞声科技股份有限公司 | 结合语音信息的口语理解方法、装置、设备及存储介质 |
WO2024001101A1 (zh) * | 2022-06-30 | 2024-01-04 | 青岛海尔科技有限公司 | 文本意图的识别方法和装置、存储介质和电子装置 |
CN115658891A (zh) * | 2022-10-18 | 2023-01-31 | 支付宝(杭州)信息技术有限公司 | 一种意图识别的方法、装置、存储介质及电子设备 |
CN115658891B (zh) * | 2022-10-18 | 2023-07-25 | 支付宝(杭州)信息技术有限公司 | 一种意图识别的方法、装置、存储介质及电子设备 |
CN116092495A (zh) * | 2023-04-07 | 2023-05-09 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
CN116092495B (zh) * | 2023-04-07 | 2023-08-29 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
CN116227629A (zh) * | 2023-05-10 | 2023-06-06 | 荣耀终端有限公司 | 一种信息解析方法、模型训练方法、装置及电子设备 |
CN116227629B (zh) * | 2023-05-10 | 2023-10-20 | 荣耀终端有限公司 | 一种信息解析方法、模型训练方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113486669B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113486669B (zh) | 应急救援输入语音的语义识别方法 | |
Cheng et al. | Fully convolutional networks for continuous sign language recognition | |
CN111897908B (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN109524006B (zh) | 一种基于深度学习的汉语普通话唇语识别方法 | |
CN110119786B (zh) | 文本话题分类方法及装置 | |
WO2023134073A1 (zh) | 基于人工智能的图像描述生成方法、装置、设备及介质 | |
CN110390363A (zh) | 一种图像描述方法 | |
CN109165563B (zh) | 行人再识别方法和装置、电子设备、存储介质、程序产品 | |
Gao et al. | RNN-transducer based Chinese sign language recognition | |
CN110377714A (zh) | 基于迁移学习的文本匹配方法、装置、介质及设备 | |
CN108647603A (zh) | 基于注意力机制的半监督连续手语翻译方法及装置 | |
CN113902964A (zh) | 基于关键词感知的多模态注意力视频问答方法与系统 | |
CN113836992B (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
CN111523534A (zh) | 一种图像描述的方法 | |
CN116861995A (zh) | 多模态预训练模型的训练及多模态数据处理方法和装置 | |
CN113408287B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN112712068B (zh) | 一种关键点检测方法、装置、电子设备及存储介质 | |
CN113516152A (zh) | 一种基于复合图像语义的图像描述方法 | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
CN115408494A (zh) | 一种融合多头注意力对齐的文本匹配方法 | |
Yin et al. | Spatial temporal enhanced network for continuous sign language recognition | |
CN117093864A (zh) | 文本生成模型训练方法以及装置 | |
Shi et al. | Unified open-vocabulary dense visual prediction | |
Zhu et al. | Continuous sign language recognition based on cross-resolution knowledge distillation | |
CN116229939A (zh) | 基于Transformer的视听融合机器人唤醒词识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |