Nothing Special   »   [go: up one dir, main page]

CN114723013A - 一种多粒度知识增强的语义匹配方法 - Google Patents

一种多粒度知识增强的语义匹配方法 Download PDF

Info

Publication number
CN114723013A
CN114723013A CN202210390694.9A CN202210390694A CN114723013A CN 114723013 A CN114723013 A CN 114723013A CN 202210390694 A CN202210390694 A CN 202210390694A CN 114723013 A CN114723013 A CN 114723013A
Authority
CN
China
Prior art keywords
word
text
granularity
matching
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210390694.9A
Other languages
English (en)
Inventor
曹小鹏
王凯丽
杨笑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Posts and Telecommunications
Original Assignee
Xian University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Posts and Telecommunications filed Critical Xian University of Posts and Telecommunications
Priority to CN202210390694.9A priority Critical patent/CN114723013A/zh
Publication of CN114723013A publication Critical patent/CN114723013A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种多粒度知识增强的语义匹配方法,解决文本匹配一词多义、分词不当的问题,本发明的技术方案主要包括以下步骤:(1)构建嵌入模型(2)捕获匹配特征(3)计算文本相似度。该方法主要应用于文本语义匹配任务中。

Description

一种多粒度知识增强的语义匹配方法
技术领域
本发明属于计算机自然语言处理领域,具体涉及一种采用多粒度知识增强模式进行语义匹配的方法。
背景技术
文本语义匹配作为自然语言处理领域的一项基本问题和研究热点,广泛适用于现实生活中的各个方面。比如做对话问答任务时,对上下文之间的语义进行匹配,或者比较问题与候选答案之间的语义是否匹配,从而选出正确答案;做阅读理解任务时,可以将文本与问题进行匹配选出答案,因此文本匹配技术在自然语言处理中占据着比较重要的角色。
传统的短文本匹配主要从词汇层面对句子做匹配,一般从词、句式等方面进行考虑,词和词之间是独立的,缺少词语的上下文语境,这极大地忽略了词本身的语义信息。汉语中大量的词语是多义词,这为语义理解带来了很大的困难。现有的交互模型仅使用单一的词向量进行交互,不能有效地利用句子之间的上下文信息,导致文本隐含的语义特征不能被完全挖掘。
2013年,Huang等人提出了一种深度语义结构化模型,这是深度学习应用于文本匹配的最早作品之一。通过使用MLP将单词或句子映射到特征向量,使用两个深度前馈神经网络将查询文档投影到潜在空间等长的低维向量中,并通过余弦相似度来衡量相关性。该模型既可以减少切词依赖,又可以提高模型的范化能力。
2015年,华为诺亚方舟实验室,采用CNN模型解决语义匹配问题,提出了两种网络架构,分别为ARC-I和ARC-II,其中ARC-II在第一层卷积后把两个文本进行融合。Wang和Jiang提出了匹配文本序列的比较聚合模型,执行单词级别的匹配,使用卷积神经网络进行聚合。随后,Wang等人提出BiMPM模型,从多个角度进行文本匹配,在释义识别和自然语言推理任务上均有良好的效果。
2016年,Pang等人提出MatchPyramid模型,该模型聚焦于单词之间的关系,对句子中的词进行点乘、余弦相似度等计算来获取匹配矩阵,随后对矩阵进行二维卷积来提取特征。MatchPyramid在文本匹配上具有良好的效果,但缺乏词与词形成词组后的匹配信息。长短时记忆神经网络LSTM提取长序列文本的特征信息,获得文本的全局信息,解决了CNN不能提取全局特征的缺陷。Chen等人提出了ESIM模型,该模型是LSTM的加强版,考虑了局部推断和全局推断,用句子间的注意力机制,实现局部的推断,进一步实现全局的推断。
2018年,Google提出了BERT模型,BERT模型利用MLM和NSP进行预训练,并且采用深层的双向Transformer组件,最终生成融合上下文信息的深层双向语言表征。BERT在NLP领域的任务中取得了良好的效果,但模型庞大,网络参数多,进行预训练或微调时速度较慢。
发明内容
本发明提出一种多粒度知识增强的语义匹配方法,本发明的技术方案主要包括以下步骤:1.构建嵌入模型:从字符粒度和词粒度对文本进行嵌入,使用Lattice LSTM融合字符和单词级别的信息,引入HowNet外部知识库,获取输入句子中所有隐含的单词信息,解决一词多义的问题。2.捕获匹配特征:从字符粒度和词粒度对两个句子进行编码,利用注意力机制捕获文本在字符和词两个粒度的隐藏信息。3.计算文本相似度:使用最大池化和平均池化分别提取文本的全局特征和关键特征,并输入预测层判断两个句子是否相似。
本发明的效果是:本发明方法通过应用于LCQMC和BQ数据集上实验验证,在LCQMC数据集上最优实验结果的准确率和F1值分别是86.13%和86.95%,在BQ数据集上最优实验结果的准确率和F1值分别是84.36%和84.40%,文本匹配效果优于传统模型。
附图说明
图1模型总体结构图
图2编码结构图
具体实施方式
本发明具体实施分为三个步骤:1.构建嵌入模型;2.捕获匹配特征;3.计算文本相似度。首先,从字符粒度和词粒度对文本进行嵌入,同时引入HowNet外部知识库。其次,从字符粒度和词粒度对两个句子进行编码,利用注意力机制获得文本在字符和词两个粒度的隐藏信息。最后,使用最大池化和平均池化分别提取文本的全局特征和关键特征,并输入预测层判断两个句子是否相似。本方法结构如图1所示:
图1模型总体结构图
(1)构建嵌入模型
需要对文本进行预处理,输入两个语句
Figure BDA0003595369160000021
Figure BDA0003595369160000022
采用不同的切分方法将语句切分为字符和词,将字符和词转化为表示向量,使输入的句子得到各自的字符和词的多粒度句子表示。现有的短文本匹配主要从词汇层面对句子做匹配,忽略了词本身的语义信息,未能充分考虑中文词语的歧义性。比如“苹果”一词,在不同的语境有不同的含义,可能表示水果、电子产品或者公司等。因此,为了更好地捕获词级特征,本方法使用Lattice LSTM融合字符和单词级别的信息,引入HowNet外部知识库,解决一词多义的问题,获取输入句子中所有隐含的单词信息。
Lattice LSTM可以利用字符和词信息,它的输入包括字符序列和词序列两部分,假设Lattice LSTM模型的输入为一个字符序列w1,w2,...,wn,及词典
Figure BDA00035953691600000312
中相匹配的所有字符的词向量。给定输入句子和词典
Figure BDA00035953691600000313
所匹配的单词ws,e,公式如下:
Figure BDA0003595369160000031
其中,ew表示查找表,s、e指单词的开头和结尾。
给定一个词ws,e,单词ws,e的第h个意义表示为
Figure BDA0003595369160000032
单词ws,e的第h个意义计算公式为:
Figure BDA0003595369160000033
Figure BDA0003595369160000034
其中,
Figure BDA0003595369160000035
是单词ws,e的第h个意义的存储单元。然后,将所有的意义合并,用
Figure BDA0003595369160000036
表示,计算公式为:
Figure BDA0003595369160000037
Figure BDA0003595369160000038
为了更好地理解词语的语义信息,合并多义词语义到
Figure BDA0003595369160000039
中。以e结尾的单词的循环路径将流入
Figure BDA00035953691600000310
中,公式为:
Figure BDA00035953691600000311
最后,计算隐藏状态。
(2)捕获匹配特征
本方法采用GRU和BiGRU分别按照字符和词粒度对两个句子进行编码,对输入的字符向量和单词向量进行深层次特征提取。句子X的表示如下:
Figure BDA0003595369160000041
Figure BDA0003595369160000042
其中,
Figure BDA0003595369160000043
表示第q个字符的编码模块生成的隐藏状态,
Figure BDA0003595369160000044
表示第p个字的编码模块生成的隐藏状态。
GRU层是编码器中的第一层,嵌入层和GRU联合,输出到BiGRU层。最后,将GRU层和BiGRU层的输出合并为最终表示。文本匹配过程中,为了获取句子中不同粒度之间的信息,通过注意力机制计算字符和词粒度之间的隐藏状态元组的相似性,公式如下:
Figure BDA0003595369160000045
因此,我们获得了句子不同粒度的注意力权重。句子X的特征表示如下:
Figure BDA0003595369160000046
编码结构如图2所示:
图2编码结构图
(3)计算文本相似度
计算模型文本相似度,采用最大池化和平均池化,分别提取文本的全局特征和关键特征,并拼接两个向量得到输出向量。在预测层,本方法以各种方式聚合两个句子X、Y的特征表示,使用softmax激活函数计算两个文本的相似度概率值,判断两个句子的相似性,公式为:g=H([gx,gy,gx⊙gy,|gx-gy|])
其中,H(·)是一个前馈神经网络,有两个隐藏层。gx、gy是句子向量。
最后,使用N个训练样本
Figure BDA0003595369160000047
二元交叉熵函数作为损失函数,公式为:
Figure BDA0003595369160000048
其中,vi∈{0,1}是第i个训练样本值,gi∈{0,1}是模型预测值。
本发明实施的实验硬件环境为Intel(R)Core(TM)i7-10750H CPU@2.60GHz2.59GHz,内存为16G,软件运行环境为Windows 10版本。本发明利用LCQMC数据集和BQ数据集测试数据,证明了本方法相对于其他方法的优越性。
实施例一:语义匹配
语义匹配即判断两段文本是否表达了同样的语义,可以给出两段文本的文本相似度或者直接给出0/1标签,本例采用0/1标签判定正确与否。采用的评价指标是准确率(ACC)和F1-Score,计算公式如下:
Figure BDA0003595369160000051
Figure BDA0003595369160000052
Figure BDA0003595369160000053
Figure BDA0003595369160000054
其中,ACC是正确分类示例的百分比,TR为真正例,TF为真负例,FR为假正例,FF为假负例;F1-Score是精确性和召回率的调和平均值。实验结果如表1所示。
表1:实验结果
Figure BDA0003595369160000055
从表1中可以看出,本发明在LCQMC和BQ两个数据集上均优于表中其他模型。本发明结果优于Lattice-CNN,虽然Lattice-CNN使用了词格图的方式,但由于结构的限制,只关注了句子局部的信息,导致句子语义信息不完善,而本发明采用多粒度的方式,同时还加入HowNet外部知识库,解决了一词多义的问题,进一步增强句子的语义信息,提高了模型的准确度。与BiLSTM、BiMPM和ESIM相比,本发明的结果显著优于它们,虽然BiLSTM可以双向捕捉长距离之间的语义依赖关系,BiMPM和ESIM可以多角度匹配,但本发明从字符粒度和词粒度进行嵌入,并从外部知识库中获取语义信息,对句子进行编码,而BiLSTM、BiMPM和ESIM仅从字符或字的角度出发,导致特征提取不充分。分析可得,相比其他方法,本发明在LCQMC和BQ数据集上表现更优,本发明说明多粒度和外部知识对文本匹配的研究具有重要作用。
综上所述,本发明提出了结合外部知识库的多粒度文本表达,从字符粒度和词粒度捕获文本语义信息。通过实验表明,结合外部知识从多个粒度中捕获文本匹配特征比多粒度提取文本信息的神经网络表现得更好。
以上举例仅仅是本发明的举例说明,并不构成对本发明的保护范围限制,凡是与本发明相同或相似的设计均属于本发明保护范围。

Claims (1)

1.一种多粒度知识增强的语义匹配方法,其特征在于:
(1)构建嵌入模型:从字符粒度和词粒度对文本进行嵌入,使用Lattice LSTM融合字符和单词级别的信息,引入HowNet外部知识库,获取输入句子中所有隐含的单词信息,解决一词多义的问题。
(2)捕获匹配特征:从字符粒度和词粒度对两个句子进行编码,利用注意力机制捕获文本在字符和词两个粒度的隐藏信息。最终根据池化提取文本特征,并输入预测层判断两个句子是否相似。
CN202210390694.9A 2022-04-14 2022-04-14 一种多粒度知识增强的语义匹配方法 Pending CN114723013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210390694.9A CN114723013A (zh) 2022-04-14 2022-04-14 一种多粒度知识增强的语义匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210390694.9A CN114723013A (zh) 2022-04-14 2022-04-14 一种多粒度知识增强的语义匹配方法

Publications (1)

Publication Number Publication Date
CN114723013A true CN114723013A (zh) 2022-07-08

Family

ID=82243459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210390694.9A Pending CN114723013A (zh) 2022-04-14 2022-04-14 一种多粒度知识增强的语义匹配方法

Country Status (1)

Country Link
CN (1) CN114723013A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115422362A (zh) * 2022-10-09 2022-12-02 重庆邮电大学 一种基于人工智能的文本匹配方法
CN115858791A (zh) * 2023-02-17 2023-03-28 成都信息工程大学 短文本分类方法、装置、电子设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115422362A (zh) * 2022-10-09 2022-12-02 重庆邮电大学 一种基于人工智能的文本匹配方法
CN115422362B (zh) * 2022-10-09 2023-10-31 郑州数智技术研究院有限公司 一种基于人工智能的文本匹配方法
CN115858791A (zh) * 2023-02-17 2023-03-28 成都信息工程大学 短文本分类方法、装置、电子设备和存储介质
CN115858791B (zh) * 2023-02-17 2023-09-15 成都信息工程大学 短文本分类方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN111738004B (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN112560503A (zh) 融合深度特征和时序模型的语义情感分析方法
CN110083831A (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN112989834A (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN112926324B (zh) 融合词典与对抗迁移的越南语事件实体识别方法
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN114723013A (zh) 一种多粒度知识增强的语义匹配方法
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN114818717B (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113553848A (zh) 长文本分类方法、系统、电子设备、计算机可读存储介质
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及系统
CN113239663B (zh) 一种基于知网的多义词中文实体关系识别方法
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
Wu et al. Tdv2: A novel tree-structured decoder for offline mathematical expression recognition
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN113901802A (zh) Crnn网络融合注意力机制的短文本相似度匹配方法
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN115169429A (zh) 一种轻量化方面级文本情感分析方法
Diao et al. Leveraging integrated learning for open-domain Chinese named entity recognition
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
CN114169325B (zh) 基于词向量表征的网页新词发现和解析方法
CN115114932A (zh) 一种基于关键词的多粒度中文短文本匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination