CN110555083B - 一种基于zero-shot无监督实体关系抽取方法 - Google Patents
一种基于zero-shot无监督实体关系抽取方法 Download PDFInfo
- Publication number
- CN110555083B CN110555083B CN201910790569.5A CN201910790569A CN110555083B CN 110555083 B CN110555083 B CN 110555083B CN 201910790569 A CN201910790569 A CN 201910790569A CN 110555083 B CN110555083 B CN 110555083B
- Authority
- CN
- China
- Prior art keywords
- entity
- relationship
- triple
- type
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
一种基于zero‑shot无监督实体关系抽取方法属于计算机领域,通过提取文本数据中的三元组特征和领域知识图谱中的实体关系类型特征,并计算它们之间的相似度来判断实体关系类别,从而减少传统实体关系抽取方法对人工标注的依赖,并提高实体关系抽取的准确率。方法包括:数据预处理、特征提取、训练关系抽取网络模型和实体关系分类器。本方法将采用善于捕捉句子信息的卷积神经网络模型来分别提取三元组和关系类型特征,最后使用softmax预测实体关系类型标签。在模型构建过程中,可以利用稀疏标记的语料库作为训练集,在测试过程中也可以利用与训练过程中相同的参数来预测未标注三元组的类型。
Description
技术领域
本发明属于计算机领域,涉及一种基于zero-shot无监督实体关系抽取方法。
背景技术
在如今的大数据时代,由于数据的增长速度快,类型多样化,使得信息过载问题日益严重,因此如何快速、准确的获取所需的重要信息是如今面临的主要问题。信息抽取技术是通过从自然语言文本中抽取指定类型的实体、关系、事件等事实信息来提取出文本中所包含的重要信息。实体关系抽取作为信息抽取技术中一个重要的子任务,主要对句子或文本中概念之间的关系进行识别和分类,同时,它也是许多自然语言处理领域任务的基础,例如机器翻译、问答系统和文本挖掘等,且对于领域知识图谱的构建也起到了重要的作用。因此,实体关系抽取任务一直受到全世界研究人员的极大关注,以及在ACL(Association forComputational Linguistics)等重要会议上提出了大量的研究。
目前关系抽取的方法主要分为有监督的学习方法和无监督的学习方法。其中有监督的学习方法是最常用的,它主要通过构造大量的人工特征并结合分类器来对实体关系进行分类。例如,陈鹏提出一种基于凸组合核函数的中文领域实体关系抽取方法,并在600篇旅游领域的语料上进行实验,F值达到了62.9。但是,这种方法对专家知识的依赖度较高,并且人工的特征选择和设计耗时耗力,因此,此方法对于小规模数据来说效果较好,但不适用于大规模数据。
随着深度学习在各个领域的迅速发展,在实体关系抽取任务中的应用也越来越多,相比较传统有监督的学习方法,深度学习可以通过将预训练的词嵌入表示输入到模型中来自动学习文本特征,从而降低人工成本。例如,2019年,Huiwei Zhou等人所著论文“Knowledge-guided convolutional networks for chemical-disease relationextraction”,利用一种基于门控制的卷积神经网络分别提取疾病和药物相关的上下文特征,来自动抽取英文数据中的疾病与药物之间的关系。
以上的方法虽然都可以完成实体关系抽取任务,但是现有的实体关系抽取方法还存在以下挑战:(1)在很多领域中,实体之间的关系触发词不仅可以通过实体对附近的动词来描述,也可以通过句子中的形容词或副词描述。(2)由于我国信息技术起步较晚,在大多数领域中都缺乏大规模完整标注的语料库,例如医疗领域。基于以上局限性提出一种基于zero-shot的无监督实体关系抽取方法,通过计算句子中的每个词向量与实体对之间的语义关系来找出实体对相关的重要信息,并通过与领域本体中提取出来的关系类型相匹配,来自动判断出数据中实体关系的类别,不仅可以充分的提取出实体关系分类所需要的重要信息,也可以减少人工标注的成本。
发明内容
一种基于zero-shot的无监督实体关系抽取方法,该方法包括:
①提出了基于zero-shot的无监督实体关系抽取方法,该方法不仅可以通过Attention机制来提取出实体关系相关的重要信息,还可以通过与领域本体中提取出来的关系类型相匹配,来自动判断出数据中实体关系的类别,
不仅能够提升关系抽取的准确率,也可以降低人工标注成本。
②首先对预处理后的数据提取三元组特征,其中包含实体特征和关系特征,
对于实体特征,采用分布式词向量模型word2vec将数据中的词转化为d维向量形式;对于关系特征,本方法通过采用Attention机制来计算句子中每一个词与实体对之间的语义关系,即权重信息,从而找出关系触发词。
③其次,从已存在的领域本体中提取出包含对应关系的三元组特征来学习关系类型特征表示。并将三元组特征与关系类型特征相匹配,根据相似度系数来自动的判断数据中提取出来的三元组所对应的关系类型。
④由于CNN善于捕捉句子级的信息,因此本方法将采用CNN作来训练实体关系分类模型。将提取出的三元组特征和实体关系类型特征作为输入,
并对于每一个三元组特征和关系类型特征采用权重共享的CNN结构,
通过卷积层捕捉句子中包含的特征,并通过池化层进行降维操作,最后通过softmax进行实体关系分类。
本发明原理是一种基于zero-shot的无监督实体关系抽取方法,通过提取文本数据中的三元组特征和领域知识图谱中的实体关系类型特征,并计算三元组和实体关系类型的相似度来判断实体关系类别,从而减少传统实体关系抽取方法对人工标注数据的依赖性,并提高实体关系抽取的准确率。
为达到以上发明目的,本发明采用如下的技术方案:
一种基于zero-shot的无监督实体关系抽取方法,包括:数据预处理模块、特征提取模块、训练关系抽取网络模型、实体关系分类器模块。其中,特征提取模块主要针对数据中的三元组特征和领域本体中的实体关系特征进行提取并进行相似度匹配,具体包含三个子模块分别是:三元组特征提取、关系类型特征提取、三元组特征和关系类型特征相结合。
三元组特征提取模块:三元组特征提取模块包含两个部分,实体特征提取和关系特征提取,首先,采用分布式词向量模型word2vec将数据中的词转化为d维向量形式,其次,通过采用Attention机制来计算句子中每一个词与实体对之间的语义关系,即权重信息,从而找出关系触发词。
关系类型特征提取模块:从已存在的领域本体中提取出包含对应关系的三元组特征来学习关系类型特征表示。
三元组特征和关系类型特征相结合:通过计算三元组特征和关系类型特征的相似度来判断实体关系类别,具体来说,就是通过计算数据集中提取出的三元组{d1,d2,...,dn}∈D与领域本体中提取出的关系类型{y1,y2,...,ym}∈Y之间的语义距离来对三元组进行分类。
本发明通过计算句子中的每个词向量与实体对之间的语义关系来找出实体对相关的重要信息,并通过与领域本体中提取出来的关系类型相匹配,来自动判断出数据中实体关系的类别,不仅可以充分的提取出实体关系分类所需要的重要信息,也可以减少人工标注的成本。
附图说明
图1基于zero-shot的无监督实体关系抽取方法整体架构图
具体实施方式
下面将详细描述本发明各个方面的特征和示例性实施例
本发明通过将数据中提取出的三元组特征与本体中提取出的实体类型特征相匹配来抽取实体关系。希望提高实体关系抽取的准确率并降低人工标注人本。整体架构如图1所示,分为数据预处理模块(1)、特征提取模块(2)、训练关系抽取网络模型(3)、实体关系分类器模块(4)。
数据预处理模块(1):首先将电子病历按照“。”、“;”标点符号进行分句,其次利用哈工大LTP-Cloud平台对句子进行分词,并提取词性标注和依存句法分析。
特征提取模块(2):该模块具体可以分为三个子模块,分别是:三元组特征提取、关系类型特征提取、三元组特征和关系类型特征相结合。
三元组特征提取(21):三元组特征可以分为两个部分:实体特征提取和关系特征提取,具体描述如下:
实体特征提取:首先将预处理后的语料映射到已有的医疗本体中来识别实体信息,如输入长度为n个词组成的句子其中包含两个实体e1=wi和e2=wm(i,m∈[1,n];i≠m)。其次采用分布式词向量模型word2vec将数据中的词转化为d维向量,n为句子中词的个数,为实数空间;
关系特征提取模块:通常来讲,两个实体对附近的动词是描述实体之间关系的触发词,但是在大多数领域中,实体之间的关系不仅与实体对附近的动词有关也可以通过句子中的形容词或副词来描述,例如在医疗领域,例如“患[高血压病](实体1)2年,口服[硝苯地平缓释片](实体2),血压控制情况尚可。”中“口服”和“尚可”都是预测医疗实体关系中的重要信息。因此,判断句子中每一个词与实体对之间的关系对于预测关系类型是至关重要的。本方法将采用词注意力机制为句子中每个词向量学习与实体表示之间的语义关系,即权重信息。与实体对关联较大的词会获得较高的权重,反之,那些与实体对关联较小的词会获得较低的权重。首先,将每个词的词向量和两个实体的向量进行连接,连接后的向量为xi作为词语的向量表示,如公式(1)所示:
其次,将公示(1)中的向量表示输入到多层感知机中(Multi-Layer Perception,MLP),通过全连接层来计算句子中每个词与实体对之间的相关性评分,如公式(2)、(3)和公式(4)所示:
ui=f(Wuxi+bu) (2)
其次,抽取权重最高的两个词作为关系表示词,如公式(5)所示:
最后,将实体对于关系结合得出最后的三元组特征表示di,如公式(6)所示:
其中,wi和wm为句子中的实体,q为向量拼接后的关系表示词;
关系类型特征提取(22):从已有的本体中提取出包含关系类型的三元组yi={h,r,t},yi∈Y,h为头实体,t为尾实体,r为关系,Y为关系类型的数量Y={y1,y2,...,ym}。三元组类型特征表示的具体计算公式如下:
三元组特征和关系类型特征相结合(23):本方法将通过计算三元组特征和关系类型特征的相似度来判断实体关系类别,具体来说,就是通过计算数据集中提取出的三元组{d1,d2,...,dn}∈D与领域本体中提取出的关系类型{y1,y2,...,ym}∈Y之间的语义距离来对三元组进行分类。具体公式如下:
其中,yi为关系类型Y中的一个实体关系类型,di为数据集D中的一个三元组特征,R()为yi和di的相似性关系,maxsimilarity()为相似度计算方法,α为相似度阈值,初始阈值设为0.85,步长为0.01,并采用随机梯度下降方法来计算误差,就是使误差函数平滑连续的计算梯度下降的斜率,越接近最小值梯度越小,直到梯度的斜率达到最小值就是相似度的最优阈值。如果一个三元组可以匹配出多个与其相似的关系类型,那么就提取相似度系数最高的类型为该三元组的关系类型;
训练实体关系分类网络模块(3):由于CNN善于捕捉句子级的信息,因此本方法采用CNN作来训练实体关系分类模型。对于每一个三元组特征和关系类型特征采用权重共享的CNN结构,并且,为了保持三元组和关系类型特征的一致性,当窗口在边界附近滑动时,可能在句子边界之外,因此,需要对句子做padding操作,对超出范围的输入向量用零进行填充。若卷积核大小为h,则使用如下(9)公式计算特征ci;
ci=ReLU(w·xi∶i+h-1+b) (9)
其中,w∈Rh×d是卷积矩阵,b∈R为偏置,xi:i+h-1表示第i到第i-h+1的词向量序列,ReLU(·)为非线性激活函数。ReLU激活函数可以缓解神经网络中的饱和现象,通过对一部分神经元的输出置0,达到稀疏的效果,并使模型的收敛速度保持在一个稳定状态。假设卷积层有i个卷积核,则第i个卷积核对句子S的向量表示为:Si=[c1i,ci2,...,c(n-h+1)i]∈Rn -h+1,所有卷积核对句子的表征为:S={S1,S2,...,Sn}∈Ri×(n-h+1);
实体关系分类器模块(4):根据神经网络CNN模型的softmax分类器来产生最后的实体关系标签的分类结果。
Claims (1)
1.一种基于zero-shot无监督实体关系抽取方法,其特征在于包括以下四个模块:数据预处理模块(1)、特征提取模块(2)、训练关系抽取网络模型(3)、实体关系分类器模块(4);
(1)数据预处理模块
首先将电子病历按照“。”、“;”标点符号进行分句,其次利用哈工大LTP-Cloud平台对句子进行分词,并提取词性标注和依存句法分析;
(2)特征提取模块
该模块分为三个子模块,分别是:三元组特征提取、关系类型特征提取、三元组特征和关系类型特征相结合;
(3)训练实体关系分类网络模块
采用CNN作来训练实体关系分类模型;对于每一个三元组特征和关系类型特征采用权重共享的CNN结构,并且,为了保持三元组和关系类型特征的一致性,对句子做padding操作,对超出范围的输入向量用零进行填充;
(4)实体关系分类器模块
根据神经网络CNN模型的softmax分类器来产生最后的实体关系标签的分类结果;
其特征在于,特征提取模块具体如下:
三元组特征提取(21):三元组特征分为两个部分:实体特征提取和关系特征提取,具体描述如下:
实体特征提取:首先将预处理后的语料映射到已有的医疗本体中来识别实体信息,输入长度为n个词组成的句子其中包含两个实体e1=wi和e2=wm(i,m∈[1,n];i≠m);其次采用分布式词向量模型word2vec将数据中的词转化为d维向量形式,n为句子中词的个数,为实数空间;
关系特征提取模块:采用词注意力机制为句子中每个词向量学习与实体表示之间的语义关系,即权重信息;与实体对关联较大的词会获得较高的权重,反之,那些与实体对关联较小的词会获得较低的权重;首先,将每个词的词向量和两个实体的向量进行连接,连接后的向量为xi作为词语的向量表示,如公式(1)所示:
如公式(2)、(3)和公式(4)所示:
ui=f(Wuxi+bu) (2)
其次,抽取权重最高的两个词作为关系表示词,如公式(5)所示:
最后,将实体对于关系结合得出最后的三元组特征表示di,如公式(6)所示:
其中,wi和wm为句子中的实体,q为向量拼接后的关系表示词;
关系类型特征提取(22):从已有的本体中提取出包含关系类型的三元组yi={h,r,t),yi∈Y,h为头实体,t为尾实体,r为关系,Y为关系类型的数量Y={y1,y2,...,ym};三元组类型特征表示的具体计算公式如下:
三元组特征和关系类型特征相结合(23):通过计算数据集中提取出的三元组{d1,d2,...,dn}∈D与领域本体中提取出的关系类型{y1,y2,...,ym}∈Y之间的语义距离来对三元组进行分类;具体公式如下:
其中,yi为关系类型Y中的一个实体关系类型,di为数据集D中的一个三元组特征,R()为yi和di的相似性关系,maxsimilarity()为相似度计算方法,α为相似度阈值,初始阈值设为0.85,步长为0.01,并采用随机梯度下降方法来计算误差,就是使误差函数平滑连续的计算梯度下降的斜率,越接近最小值梯度越小,直到梯度的斜率达到最小值就是相似度的最优阈值;如果一个三元组匹配出多个与其相似的关系类型,那么就提取相似度系数最高的类型为该三元组的关系类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910790569.5A CN110555083B (zh) | 2019-08-26 | 2019-08-26 | 一种基于zero-shot无监督实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910790569.5A CN110555083B (zh) | 2019-08-26 | 2019-08-26 | 一种基于zero-shot无监督实体关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110555083A CN110555083A (zh) | 2019-12-10 |
CN110555083B true CN110555083B (zh) | 2021-06-25 |
Family
ID=68738365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910790569.5A Active CN110555083B (zh) | 2019-08-26 | 2019-08-26 | 一种基于zero-shot无监督实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110555083B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191689B (zh) * | 2019-12-16 | 2023-09-12 | 恩亿科(北京)数据科技有限公司 | 样本数据的处理方法和装置 |
CN113010769A (zh) * | 2019-12-19 | 2021-06-22 | 京东方科技集团股份有限公司 | 基于知识图谱的物品推荐方法、装置、电子设备及介质 |
CN111428505B (zh) * | 2020-01-17 | 2021-05-04 | 北京理工大学 | 一种融合触发词识别特征的实体关系抽取方法 |
CN113378568B (zh) * | 2020-03-09 | 2024-05-14 | 株式会社理光 | 关系抽取方法、装置、系统及计算机可读存储介质 |
CN111523318A (zh) * | 2020-04-02 | 2020-08-11 | 言图科技有限公司 | 一种汉语短语分析方法、系统、存储介质及电子设备 |
CN111506706B (zh) * | 2020-04-15 | 2022-06-17 | 重庆邮电大学 | 一种基于关系相似度的上下义关系森林构建方法 |
CN111581376B (zh) * | 2020-04-17 | 2024-04-19 | 中国船舶重工集团公司第七一四研究所 | 一种知识图谱自动构建系统及方法 |
CN111832307B (zh) * | 2020-07-09 | 2024-08-23 | 北京工业大学 | 一种基于知识增强的实体关系抽取方法及系统 |
CN113947087B (zh) * | 2021-12-20 | 2022-04-15 | 太极计算机股份有限公司 | 一种基于标签的关系构建方法、装置、电子设备及存储介质 |
CN114330323B (zh) * | 2022-03-08 | 2022-06-28 | 成都数联云算科技有限公司 | 实体关系联合抽取方法、装置、计算机终端及存储介质 |
CN114610819B (zh) * | 2022-03-17 | 2022-10-11 | 中科世通亨奇(北京)科技有限公司 | 一种实体关系抽取方法 |
US20230334245A1 (en) * | 2022-04-14 | 2023-10-19 | Salesforce, Inc. | Systems and methods for zero-shot text classification with a conformal predictor |
CN116167368B (zh) * | 2023-04-23 | 2023-06-27 | 昆明理工大学 | 基于类型关联特征增强的领域文本实体关系抽取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
CN109359297A (zh) * | 2018-09-20 | 2019-02-19 | 清华大学 | 一种关系抽取方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101983455B1 (ko) * | 2017-09-21 | 2019-05-28 | 숭실대학교산학협력단 | 지식베이스 구축 방법 및 그 서버 |
CN109101490B (zh) * | 2018-07-24 | 2021-04-27 | 山西大学 | 一种基于融合特征表示的事实型隐式情感识别方法和系统 |
-
2019
- 2019-08-26 CN CN201910790569.5A patent/CN110555083B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN109359297A (zh) * | 2018-09-20 | 2019-02-19 | 清华大学 | 一种关系抽取方法及系统 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
Incorporating Relation Paths in Neural Relation Extraction;Wenyuan Zeng;《EMNLP 2017》;20170930;第3-5节 * |
Also Published As
Publication number | Publication date |
---|---|
CN110555083A (zh) | 2019-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110555083B (zh) | 一种基于zero-shot无监督实体关系抽取方法 | |
CN111192680B (zh) | 一种基于深度学习和集成分类的智能辅助诊断方法 | |
CN110210037B (zh) | 面向循证医学领域的类别检测方法 | |
Gupta et al. | MMQA: A multi-domain multi-lingual question-answering framework for English and Hindi | |
CN112347268A (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
US20160350288A1 (en) | Multilingual embeddings for natural language processing | |
CN109800437A (zh) | 一种基于特征融合的命名实体识别方法 | |
CN113553440B (zh) | 一种基于层次推理的医学实体关系抽取方法 | |
CN112989835B (zh) | 一种复杂医疗实体抽取方法 | |
CN111832307A (zh) | 一种基于知识增强的实体关系抽取方法及系统 | |
CN110765755A (zh) | 一种基于双重选择门的语义相似度特征提取方法 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN112347761B (zh) | 基于bert的药物关系抽取方法 | |
CN111859938B (zh) | 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法 | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
Ren et al. | Detecting the scope of negation and speculation in biomedical texts by using recursive neural network | |
CN113657105A (zh) | 基于词汇增强的医学实体抽取方法、装置、设备及介质 | |
CN112863695A (zh) | 基于量子注意力机制双向长短期记忆预测模型及提取方法 | |
Korpusik et al. | Data collection and language understanding of food descriptions | |
Sarasu et al. | SF-CNN: Deep Text Classification and Retrieval for Text Documents. | |
Kadagadkai et al. | Summarization tool for multimedia data | |
CN112800244B (zh) | 一种中医药及民族医药知识图谱的构建方法 | |
CN112836062A (zh) | 一种文本语料库的关系抽取方法 | |
CN112765353A (zh) | 一种基于科研文本的生物医学学科分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |