CN113408289B - 一种多特征融合的供应链管理实体知识抽取的方法及系统 - Google Patents
一种多特征融合的供应链管理实体知识抽取的方法及系统 Download PDFInfo
- Publication number
- CN113408289B CN113408289B CN202110729303.7A CN202110729303A CN113408289B CN 113408289 B CN113408289 B CN 113408289B CN 202110729303 A CN202110729303 A CN 202110729303A CN 113408289 B CN113408289 B CN 113408289B
- Authority
- CN
- China
- Prior art keywords
- feature vector
- layer
- context
- vector
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013068 supply chain management Methods 0.000 title claims abstract description 33
- 238000000605 extraction Methods 0.000 title claims abstract description 30
- 230000004927 fusion Effects 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 260
- 238000010586 diagram Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000004913 activation Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 5
- 238000007726 management method Methods 0.000 abstract description 4
- 230000003631 expected effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 20
- 210000004027 cell Anatomy 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000009411 base construction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种多特征融合的供应链管理实体知识抽取的方法及系统,将数据集中的文本句子转换为字符级向量表示和部首级向量表示,合并并输入卷积层后获得局部上下文特征向量;从字符级特征向量中获取上下文特征向量,输入卷积层中获得上下文突出特征向量;合并上下文特征向量、局部上下文特征向量和上下文突出特征向量后输出得到隐层向量;构造各个实体之间关系的权重连接图,提取区域节点特征,结合实体和权重连接图进行实体预测。本发明能够更好地针对未出现在训练集而未经过训练的汉字进行语义推理,从而降低了对供应链管理知识领域数据集进行知识抽取的难度,改善了知识抽取的效果,使得对该领域数据集的知识抽取能够达到预期的效果。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种供应链管理领域实体知识抽取的方法及系统。
背景技术
当前国内供应链管理主要靠人力管理,但由于任务往往过于庞大,且知识繁多,因此容易出现错误。为了解决此问题,需要建立供应链管理知识库来辅助管理,而知识库构建需要用到的关键技术之一则是知识抽取。因为国内所需的供应链管理知识库是中文知识库,与英文相比,中文的单元词汇边界模糊、结构复杂、表现形式多样,潜在的错误词汇可能会造成干扰识别的问题,这些都使中文知识抽取的难度更高。且相比于公开数据集,供应链管理领域的语料集规模较小,但专业术语较多、知识结构较为复杂,一般的知识抽取方法往往不能取得良好的效果。如何对供应链管理领域的语料集进行更有效的知识抽取,成为了知识库构建的难题之一。
发明内容
本发明提供了一种多特征融合的供应链管理实体知识抽取的方法及系统,解决供应链管理领域的语料集规模较小,但专业术语较多、知识结构较为复杂,一般的知识抽取方法往往不能取得良好的效果的问题。
为了解决上述问题,本发明提出了一种对供应链管理领域语料集进行多特征提取,结合多个特征以达到更好的知识抽取效果的方法。本发明通过部首嵌入层提取部首级特征,将部首特征与字符特征相合并,输入到CNN中提取局部上下文特征。汉字是象形文字,所以相似的字往往包含着相似的意思,而这种相似往往体现在部首这方面。使用部首特征有助于识别那些只出现在测试集中,而不在训练集中的字符,提高泛化性。局部上下文特征在供应链管理领域知识抽取中也相当重要。比如,“供应商选择”是语料集中频繁出现的实体,而“供应商”对“选择”是名词而不是动词起着决定性作用,这证明了提取局部上下文特征的重要性。本发明通过将字符特征输入Bi-LSTM提取上下文特征,使得字符能够捕获长距离依赖信息。本发明通过将上下文特征输入CNN,提取上下文突出特征,从而把局部上下文信息和长距离依赖信息结合起来。本发明将局部上下文特征、上下文特征、上下文突出特征合并后输入到堆叠的Bi-LSTM中,提取全局上下文特征,将三种特征更好地融合到一起。本发明将堆叠的Bi-LSTM输出的隐层向量输入到Bi-GCN中,Bi-GCN的作用是对语料中的实体关系信息进行编码,构造各个实体之间关系的权重连接图,从而得到实体关系邻接矩阵,提取区域节点特征,更新全局上下文特征。最后通过CRF输出实体预测结果。
为了实现上述目的,本发明采用了如下技术方案:
一种多特征融合的供应链管理实体知识抽取的方法,包括以下步骤:
基于预训练得到的字符嵌入层和部首嵌入层,将文本句子转换为字符级向量表示和部首级向量表示;合并所述部首级特征向量和所述字符级特征向量并输入卷积层,获得局部上下文特征向量;
基于Bi-LSTM(Bidirectional Long ShortTerm Memory,双向长短时记忆)模型,从所述字符级特征向量中获取上下文特征向量,将所述上下文特征向量输入卷积层中,获得上下文突出特征向量;
将所述上下文特征向量、局部上下文特征向量和上下文突出特征向量进行合并,经过三层Bi-LSTM模型输出隐层向量;
构造各个实体之间关系的权重连接图,提取区域节点特征,结合实体和权重连接图进行实体预测。
可选地,基于预训练得到的字符嵌入层和部首嵌入层,将文本句子转换为字符级向量表示和部首级向量表示,包括:
对一个文本句子,汉字字符序列为T1={s1,s2,…,sn},si为文本句子中的字符;基于预训练得到的字符嵌入层,获取汉字字符序列的特征向量表示c1;
提取每个汉字的部首,组成部首序列R1={t1,t2,…,tn},其中ti为部首序列中的部首;基于预训练得到的部首嵌入层,获取部首序列R1的特征向量表示r1。
可选地,所述基于Bi-LSTM模型,从所述字符级特征向量中获取上下文特征向量,包括:
将所述汉字字符序列的特征向量表示c1依次输入至Dropout(丢弃)层和Bi-LSTM模型中;
根据LSTM中各细胞的计算公式,合并向前和向后输出的两个方向的最终状态,生成上下文特征向量c2;
LSTM中各细胞的计算公式如下:
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
it=σ(Wxixt+Whiht-1+Wcict-1+bi);
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc);
ot=σ(Wxoxt+Whoht-1+Wcoct+b0);
ht=ottanh(ct);
其中,ft表示t时刻遗忘门输出,it表示t时刻输入门输出,ct表示t时刻细胞状态,ot表示t时刻输出门输出,xt表示t时刻输入,ht表示t时刻隐层输出,tanh表示双曲正切激活函数,W和b均为可学习参数。
可选地,所述将所述上下文特征向量输入卷积层中,获得上下文突出特征向量,包括:
基于卷积运算,使所述上下文特征向量c2通过卷积层,输出上下文突出特征向量c3;
所述卷积运算表示为:
其中,Wuv为卷积核参数,Xi-u+1,j-v+1为输入数据,Yij为输出数据。
可选地,所述合并所述部首级特征向量和所述字符级特征向量并输入卷积层,获得局部上下文特征向量,包括:
将部首序列R1的特征向量表示r1、汉字字符序列的特征向量表示c1进行合并,通过Dropout和卷积层处理,输出后进行提取,获得局部上下文特征向量表示w1。
可选地,所述将所述上下文特征向量、局部上下文特征向量和上下文突出特征向量进行合并,经过三层Bi-LSTM模型输出隐层向量,包括:
合并所述上下文特征向量c2、上下文突出特征向量c3和局部上下文特征向量表示w1合并,输入三层Bi-LSTM模型,输出得到实体隐层表示序列E={e1,e2,…en};
所述输入三层Bi-LSTM模型,包括:
在每层Bi-LSTM模型前面加一层Dropout层,防止过拟合。
可选地,所述构造各个实体之间关系的权重连接图,提取区域节点特征,结合实体和权重连接图进行实体预测,包括:
为各个实体之间的每一种关系分别构造一个关系权重连接图;
将字符作为节点,字符间的关系作为邻接矩阵,构建图结构;
基于Bi-GCN提取区域节点的隐层特征;
Bi-GCN表达式如下:
其中,A为关系邻接矩阵,l为层数,为节点v在l层的隐层向量表示,Wl和bl表示第l层的可学习参数;tanh表示双曲正切激活函数;
将提取到的所述隐层特征分别代入到各个关系权重连接图中,基于带权Bi-GCN提取得到各个实体之间的每一种关系的隐层向量表示,所述带权Bi-GCN的表达式如下:
其中,l为层数,是节点ei在GCN在第l层的隐层向量表示,Pr(ei,v)表示节点ei和v在关系为r时的概率,Wr和br时GCN在关系为r时的权重和偏置,V是句子中所有字符的集合,R包含了所有的关系;
将得到的所述隐层向量表示,通过CRF进行实体预测,利用分类损失函数得到损失值eloss。
本发明还提供了一种多特征融合的供应链管理实体知识抽取的系统,用于实现如上所述的对供应链管理知识领域数据集进行知识抽取的方法,包括:
向量获取模块,用于:
基于预训练得到的字符嵌入层和部首嵌入层,将文本句子转换为字符级向量表示和部首级向量表示;合并所述部首级特征向量和所述字符级特征向量并输入卷积层,获得局部上下文特征向量;
基于Bi-LSTM模型,从所述字符级特征向量中获取上下文特征向量,将所述上下文特征向量输入卷积层中,获得上下文突出特征向量;
将所述上下文特征向量、局部上下文特征向量和上下文突出特征向量进行合并,经过三层Bi-LSTM模型输出隐层向量;
预测模块,用于构造各个实体之间关系的权重连接图,提取区域节点特征,结合实体和权重连接图进行实体预测。
可选地,所述向量获取模块用于:
对一个文本句子,汉字字符序列为T1={s1,s2,…,sn},si为文本句子中的字符;基于预训练得到的字符嵌入层,获取汉字字符序列的特征向量表示c1;
提取每个汉字的部首,组成部首序列R1={t1,t2,…,tn},其中ti为部首序列中的部首;基于预训练得到的部首嵌入层,获取部首序列R1的特征向量表示r1;
将所述汉字字符序列的特征向量表示c1依次输入至Dropout层和Bi-LSTM模型中;
根据LSTM中各细胞的计算公式,合并向前和向后输出的两个方向的最终状态,生成上下文特征向量c2;
LSTM中各细胞的计算公式如下:
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
it=σ(Wxixt+Whiht-1+Wcict-1+bi);
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc);
ot=σ(Wxoxt+Whoht-1+Wcoct+b0);
ht=ottanh(ct);
其中,ft表示t时刻遗忘门输出,it表示t时刻输入门输出,ct表示t时刻细胞状态,ot表示t时刻输出门输出,xt表示t时刻输入,ht表示t时刻隐层输出,tanh表示双曲正切激活函数,W和b均为可学习参数;
基于卷积运算,使所述上下文特征向量c2通过卷积层,输出上下文突出特征向量c3;
所述卷积运算表示为:
其中,Wuv为卷积核参数,Xi-u+1,j-v+1为输入数据,Yij为输出数据;
将部首序列R1的特征向量表示r1、汉字字符序列的特征向量表示c1进行合并,通过Dropout和卷积层处理,输出后进行提取,获得局部上下文特征向量表示w1;
合并所述上下文特征向量c2、上下文突出特征向量c3和局部上下文特征向量表示w1合并,输入三层Bi-LSTM模型,输出得到实体隐层表示序列E={e1,e2,…en}。
可选地,所述预测模块用于:
为各个实体之间的每一种关系分别构造一个关系权重连接图;
将字符作为节点,字符间的关系作为邻接矩阵,构建图结构;
基于Bi-GCN提取区域节点的隐层特征;
Bi-GCN表达式如下:
其中,A为关系邻接矩阵,l为层数,为节点v在l层的隐层向量表示,Wl和bl表示第l层的可学习参数;tanh表示双曲正切激活函数;
将提取到的所述隐层特征分别代入到各个关系权重连接图中,基于带权Bi-GCN提取得到各个实体之间的每一种关系的隐层向量表示,所述带权Bi-GCN的表达式如下:
其中,l为层数,是节点ei在GCN在第l层的隐层向量表示,Pr(ei,v)表示节点ei和v在关系为r时的概率,Wr和br时GCN在关系为r时的权重和偏置,V是句子中所有字符的集合,R包含了所有的关系;
将得到的所述隐层向量表示,通过CRF进行实体预测,利用分类损失函数得到损失值eloss。
与现有技术相比,本发明的有益效果如下:
本发明借助部首特征的提取,通过结合上下文特征向量、局部上下文特征向量和上下文突出特征向量这三种特征,能够获得文本句子中每个汉字字符的向量表示,基于关系权重连接图以更进一步地去考虑关系加权传播,为每个字符提供更充分的特征;基于此,本发明能够更好地针对未出现在训练集而未经过训练的汉字进行语义推理,从而降低了对供应链管理知识领域数据集进行知识抽取的难度,改善了知识抽取的效果,使得对该领域数据集的知识抽取能够达到预期的效果。
附图说明
图1为本发明提供的一种多特征融合的供应链管理实体知识抽取的方法的流程图;
图2为本发明提供的一种多特征融合的供应链管理实体知识抽取的方法的原理模型图;
图3为图2中Stack Bi-LSTM的结构图;
图4为本发明提供的一种多特征融合的供应链管理实体知识抽取的方法中步骤S1的流程图;
图5为本发明提供的一种多特征融合的供应链管理实体知识抽取的方法中步骤S2的流程图;
图6为本发明提供的一种多特征融合的供应链管理实体知识抽取的方法中步骤S3的流程图;
图7为本发明提供的一种多特征融合的供应链管理实体知识抽取的方法中步骤S5的流程图;
图8为本发明提供的一种多特征融合的供应链管理实体知识抽取的系统的结构框图。
具体实施方式
为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为便于理解本发明的技术方案,在此先对本发明的应用场景作简要介绍:
汉字是象形文字,所以相似的字往往包含着相似的意思,而这种相似往往体现在部首这方面。使用部首特征有助于识别那些只出现在测试集中,而不在训练集中的字符,提高泛化性。局部上下文特征在供应链管理领域知识抽取中也相当重要。比如,“供应商选择”是语料集中频繁出现的实体,而“供应商”对“选择”是名词而不是动词起着决定性作用,这证明了提取局部上下文特征的重要性。
基于此,本发明通过将字符特征输入Bi-LSTM提取上下文特征,使得字符能够捕获长距离依赖信息;通过将上下文特征输入CNN,提取上下文突出特征,从而把局部上下文信息和长距离依赖信息结合起来;此外,本发明将局部上下文特征、上下文特征、上下文突出特征合并后输入到堆叠的Bi-LSTM中,提取全局上下文特征,将三种特征更好地融合到一起;本发明还将堆叠的Bi-LSTM输出的隐层向量输入到Bi-GCN中,Bi-GCN的作用是对语料中的实体关系信息进行编码,构造各个实体之间关系的权重连接图,从而得到实体关系邻接矩阵,提取区域节点特征,更新全局上下文特征。最后,通过CRF输出实体预测结果。
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
请结合参考图1至图3,本发明实施例提供了一种多特征融合的供应链管理实体知识抽取的方法,包括以下步骤:
S1、基于预训练得到的字符嵌入层和部首嵌入层,将文本句子转换为字符级向量表示和部首级向量表示;
S2、合并部首级特征向量和字符级特征向量并输入卷积层,获得局部上下文特征向量;
S3、基于Bi-LSTM模型,从字符级特征向量中获取上下文特征向量;将上下文特征向量输入卷积层中,获得上下文突出特征向量;
S4、将上下文特征向量、局部上下文特征向量和上下文突出特征向量进行合并,经过三层Bi-LSTM模型输出隐层向量;
S5、构造各个实体之间关系的权重连接图,提取区域节点特征,结合实体和权重连接图进行实体预测。
请参考图4,具体地,步骤S1中,基于预训练得到的字符嵌入层和部首嵌入层,将文本句子转换为字符级向量表示和部首级向量表示,包括:
S11、对一个文本句子,汉字字符序列为T1={s1,s2,…,sn},si为文本句子中的字符;基于预训练得到的字符嵌入层,获取汉字字符序列的特征向量表示c1;
S12、提取每个汉字的部首,组成部首序列R1={t1,t2,…,tn},其中ti为部首序列中的部首;基于预训练得到的部首嵌入层,获取部首序列R1的特征向量表示r1。
步骤S11中,先通过字符嵌入层将用户输入的语句转化为汉字字符序列的特征向量表示c1,基于该汉字字符序列的特征向量表示c1能够提取用户输入的语句的字符特征。
步骤S12中,通过部首嵌入层将用户输入的语句转化为部首序列R1的特征向量表示r1,基于该部首序列R1的特征向量表示r1能够提取用户输入的语句的部首特征。
请参考图5,步骤S2中,合并部首级特征向量和字符级特征向量并输入卷积层,获得局部上下文特征向量,包括:
S21、将部首序列R1的特征向量表示r1、汉字字符序列的特征向量表示c1进行合并;
S22、通过Dropout和卷积层处理,输出后进行提取,获得局部上下文特征向量表示w1。
其中,Dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。由于是暂时且随机的丢弃,对于随机梯度下降来说,每一个mini-batch都在训练不同的网络。Dropout的每个训练批次中,通过忽略一半的特征检测器(让一半的隐层节点值为0),可以明显地减少过拟合现象。这种方式能够减少特征检测器(隐层节点)间的相互作用,该检测器间的相互作用是指某些检测器依赖其他检测器才能发挥作用。
可以理解的是,Dropout使得在前向传播的时候,让某个神经元的激活值以一定的概率p停止工作,这样可以使模型泛化性更强,因为它不会太依赖某些局部的特征。
请参考图6,步骤S3中,基于Bi-LSTM模型,从字符级特征向量中获取上下文特征向量,包括:
S31、将汉字字符序列的特征向量表示c1依次输入至Dropout层和Bi-LSTM模型中;
S32、根据LSTM(长短期记忆神经网络)中各细胞的计算公式,合并向前和向后输出的两个方向的最终状态,生成上下文特征向量c2;
LSTM中各细胞的计算公式如下:
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
it=σ(Wxixt+Whiht-1+Wcict-1+bi);
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc);
ot=σ(Wxoxt+Whoht-1+Wcoct+b0);
ht=ottanh(ct);
其中,ft表示t时刻遗忘门输出,it表示t时刻输入门输出,ct表示t时刻细胞状态,ot表示t时刻输出门输出,xt表示t时刻输入,ht表示t时刻隐层输出,tanh表示双曲正切激活函数,W和b均为可学习参数。
前述步骤中,通过使用LSTM对用户输入的文本句子的汉字字符序列的特征向量进行学习,进而生成上下文特征向量,能够取代人工以实现特征的提取,且对于文本句子的特征提取能够更符合当前语义,因此能够解决不同领域的知识抽取问题。
步骤S3中,将上下文特征向量输入卷积层中,获得上下文突出特征向量,包括:
S33、基于卷积运算,使上下文特征向量c2通过卷积层,输出上下文突出特征向量c3;
卷积运算在卷积神经网络中大量存在,是输入数据与卷积核参数的乘加运算,卷积运算表示为:
其中,Wuv为卷积核参数,Xi-u+1,j-v+1为输入数据,Yij为输出数据。
请参考图7,步骤S4中,将上下文特征向量、局部上下文特征向量和上下文突出特征向量进行合并,经过三层Bi-LSTM模型输出隐层向量,包括:
S41、合并上下文特征向量c2、上下文突出特征向量c3和局部上下文特征向量表示w1合并;
S42、输入三层Bi-LSTM模型,输出得到实体隐层表示序列E={e1,e2,…en};
输入三层Bi-LSTM模型,包括:
在每层Bi-LSTM模型前面加一层Dropout层,防止过拟合。
利用卷积神经网络提取的上下文突出特征向量,为后续将上下文特征向量c2、上下文突出特征向量c3和局部上下文特征向量进行并传入到Bi-LSTM模型训练仪奠定基础,能够实现文本句子的字符之间所隐含的语句信息特征的获取。
步骤S5中,构造各个实体之间关系的权重连接图,提取区域节点特征,结合实体和权重连接图进行实体预测,包括:
S51、为各个实体之间的每一种关系分别构造一个关系权重连接图;
具体地,假设有k种关系,就有k个权重连接图。
S52、将字符作为节点,字符间的关系作为邻接矩阵,构建图结构;
S53、基于Bi-GCN提取区域节点的隐层特征;
该步骤中,为了考虑实体关系存在着头实体和尾实体,因此基于Bi-GCN以提取区域节点的隐层特征。
Bi-GCN表达式如下:
其中,A为关系邻接矩阵,l为层数,为节点v在l层的隐层向量表示,Wl和bl表示第l层的可学习参数;tanh表示双曲正切激活函数;
S54、将提取到的隐层特征分别代入到各个关系权重连接图中,基于带权Bi-GCN提取得到各个实体之间的每一种关系的隐层向量表示;
带权Bi-GCN的表达式如下:
其中,l为层数,是节点ei在GCN在第l层的隐层向量表示,Pr(ei,v)表示节点ei和v在关系为r时的概率,Wr和br时GCN在关系为r时的权重和偏置,V是句子中所有字符的集合,R包含了所有的关系。
S55、将得到的隐层向量表示,通过CRF进行实体预测,利用分类损失函数得到损失值eloss。
CRF(Conditional Random Field,条件随机场),是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成Markov随机场。
损失函数用于用来估量模型的预测值与真实值的不一致程度。若损失函数很小,表明机器学习模型与数据真实分布很接近,则模型性能良好;若损失函数很大,表明机器学习模型与数据真实分布差别较大,则模型性能不佳。利用分类损失函数得到的损失值eloss以实现预测结果的准确性检测。
本发明实施例借助提取的部首特征,能更好地去推理那些没有在训练集中出现过,却出现在测试集中的汉字的语义。通过结合上下文特征向量、局部上下文特征向量和上下文突出特征向量这三种特征,能够获得文本中每个汉字字符的向量表示。利用关系权重连接图则能够更进一步地去考虑关系加权传播,为每个字符提供更充分的特征。
请参考图8,基于前述实施例,本发明还提供了一种多特征融合的供应链管理实体知识抽取的系统,用于实现如上的对供应链管理知识领域数据集进行知识抽取的方法,包括:
向量获取模块10,用于:
基于预训练得到的字符嵌入层和部首嵌入层,将文本句子转换为字符级向量表示和部首级向量表示;合并部首级特征向量和字符级特征向量并输入卷积层,获得局部上下文特征向量;
基于Bi-LSTM模型,从字符级特征向量中获取上下文特征向量,将上下文特征向量输入卷积层中,获得上下文突出特征向量;
将上下文特征向量、局部上下文特征向量和上下文突出特征向量进行合并,经过三层Bi-LSTM模型输出隐层向量;
预测模块20,用于构造各个实体之间关系的权重连接图,提取区域节点特征,结合实体和权重连接图进行实体预测。
具体地,向量获取模块10用于:
对一个文本句子,汉字字符序列为T1={s1,s2,…,sn},si为文本句子中的字符;基于预训练得到的字符嵌入层,获取汉字字符序列的特征向量表示c1;
提取每个汉字的部首,组成部首序列R1={t1,t2,…,tn},其中ti为部首序列中的部首;基于预训练得到的部首嵌入层,获取部首序列R1的特征向量表示r1;
将汉字字符序列的特征向量表示c1依次输入至Dropout层和Bi-LSTM模型中;
根据LSTM中各细胞的计算公式,合并向前和向后输出的两个方向的最终状态,生成上下文特征向量c2;
LSTM中各细胞的计算公式如下:
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
it=σ(Wxixt+Whiht-1+Wcict-1+bi);
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc);
ot=σ(Wxoxt+Whoht-1+Wcoct+b0);
ht=ottanh(ct);
其中,ft表示t时刻遗忘门输出,it表示t时刻输入门输出,ct表示t时刻细胞状态,ot表示t时刻输出门输出,xt表示t时刻输入,ht表示t时刻隐层输出,tanh表示双曲正切激活函数,W和b均为可学习参数;
基于卷积运算,使上下文特征向量c2通过卷积层,输出上下文突出特征向量c3;
卷积运算表示为:
其中,Wuv为卷积核参数,Xi-u+1,j-v+1为输入数据,Yij为输出数据;
将部首序列R1的特征向量表示r1、汉字字符序列的特征向量表示c1进行合并,通过Dropout和卷积层处理,输出后进行提取,获得局部上下文特征向量表示w1;
合并上下文特征向量c2、上下文突出特征向量c3和局部上下文特征向量表示w1合并,输入三层Bi-LSTM模型,输出得到实体隐层表示序列E={e1,e2,…en}。
进一步地,本实施例中,预测模块20用于:
为各个实体之间的每一种关系分别构造一个关系权重连接图;
将字符作为节点,字符间的关系作为邻接矩阵,构建图结构;
基于Bi-GCN提取区域节点的隐层特征;
Bi-GCN表达式如下:
其中,A为关系邻接矩阵,l为层数,为节点v在l层的隐层向量表示,Wl和bl表示第l层的可学习参数;tanh表示双曲正切激活函数;
将提取到的隐层特征分别代入到各个关系权重连接图中,基于带权Bi-GCN提取得到各个实体之间的每一种关系的隐层向量表示,带权Bi-GCN的表达式如下:
其中,l为层数,是节点ei在GCN在第l层的隐层向量表示,Pr(ei,v)表示节点ei和v在关系为r时的概率,Wr和br时GCN在关系为r时的权重和偏置,V是句子中所有字符的集合,R包含了所有的关系;
将得到的隐层向量表示,通过CRF进行实体预测,利用分类损失函数得到损失值eloss。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种多特征融合的供应链管理实体知识抽取的方法,其特征在于,包括以下步骤:
基于预训练得到的字符嵌入层和部首嵌入层,将文本句子转换为字符级向量表示和部首级向量表示;
合并所述部首级向量表示和所述字符级向量表示并输入卷积层,获得局部上下文特征向量;
基于Bi-LSTM模型,从所述字符级向量表示中获取上下文特征向量,将所述上下文特征向量输入卷积层中,获得上下文突出特征向量;
将所述上下文特征向量、局部上下文特征向量和上下文突出特征向量进行合并,经过三层Bi-LSTM模型后输出获得隐层向量;
构造各个实体之间关系的权重连接图,提取区域节点特征,结合实体和权重连接图进行实体预测;
所述构造各个实体之间关系的权重连接图,提取区域节点特征,结合实体和权重连接图进行实体预测,包括:
为各个实体之间的每一种关系分别构造一个关系权重连接图;
将字符作为节点,字符间的关系作为邻接矩阵,构建图结构;
基于Bi-GCN提取区域节点的隐层特征;
Bi-GCN表达式如下:
其中,l为层数,为节点u在l层的隐层向量表示,Wl和bl表示第l层的可学习参数;tanh表示双曲正切激活函数;
将提取到的所述隐层特征分别代入到各个关系权重连接图中,基于带权Bi-GCN提取得到各个实体之间的每一种关系的隐层向量表示,所述带权Bi-GCN的表达式如下:
其中,l为层数,是节点ei在GCN在第l层的隐层向量表示,Pr(ei,v)表示节点ei和v在关系为r时的概率,/>和/>是GCN在关系为r时的权重和偏置,V是句子中所有字符的集合,R包含了所有的关系;
将得到的所述隐层向量表示,通过CRF进行实体预测,利用分类损失函数得到损失值eloss。
2.根据权利要求1所述的一种多特征融合的供应链管理实体知识抽取的方法,其特征在于,基于预训练得到的字符嵌入层和部首嵌入层,将文本句子转换为字符级向量表示和部首级向量表示,包括:
对一个文本句子,汉字字符序列为T1={s1,s2,…,sn},sn为文本句子中的字符;基于预训练得到的字符嵌入层,获取汉字字符序列的特征向量表示c1;
提取每个汉字的部首,组成部首序列R1={t1,t2,…,tn},其中tn为部首序列中的部首;基于预训练得到的部首嵌入层,获取部首序列R1的特征向量表示r1。
3.根据权利要求2所述的一种多特征融合的供应链管理实体知识抽取的方法,其特征在于,所述基于Bi-LSTM模型,从所述字符级特征向量中获取上下文特征向量,包括:
将所述汉字字符序列的特征向量表示c1依次输入至Dropout层和Bi-LSTM模型中;
根据LSTM中各细胞的计算公式,合并向前和向后输出的两个方向的最终状态,生成上下文特征向量c2;
LSTM中各细胞的计算公式如下:
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
it=σ(Wxixt+Whiht-1+Wcict-1+bi);
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc);
ot=σ(Wxoxt+Whoht-1+Wcoct+b0);
ht=ottanh(ct);
其中,ft表示t时刻遗忘门输出,it表示t时刻输入门输出,ct表示t时刻细胞状态,ot表示t时刻输出门输出,xt表示t时刻输入,ht表示t时刻隐层输出,tanh表示双曲正切激活函数。
4.根据权利要求3所述的一种多特征融合的供应链管理实体知识抽取的方法,其特征在于,所述将所述上下文特征向量输入卷积层中,获得上下文突出特征向量,包括:
基于卷积运算,使所述上下文特征向量c2通过卷积层,输出上下文突出特征向量c3;
所述卷积运算表示为:
其中,Wuv为卷积核参数,Xi-u+1,j-v+1为输入数据,Yij为输出数据。
5.根据权利要求4所述的一种多特征融合的供应链管理实体知识抽取的方法,其特征在于,所述合并所述部首级向量表示和所述字符级向量表示并输入卷积层,获得局部上下文特征向量,包括:
将部首序列R1的特征向量表示r1、汉字字符序列的特征向量表示c1进行合并,通过Dropout和卷积层处理,输出后进行提取,获得局部上下文特征向量表示w1。
6.根据权利要求5所述的一种多特征融合的供应链管理实体知识抽取的方法,其特征在于,所述将所述上下文特征向量、局部上下文特征向量和上下文突出特征向量进行合并,经过三层Bi-LSTM模型后输出获得隐层向量,包括:
合并所述上下文特征向量c2、上下文突出特征向量c3和局部上下文特征向量表示w1合并,输入三层Bi-LSTM模型,输出得到实体隐层表示序列E={e1,e2,…en};
所述输入三层Bi-LSTM模型,包括:
在每层Bi-LSTM模型前面加一层Dropout层,防止过拟合。
7.一种多特征融合的供应链管理实体知识抽取的系统,其特征在于,用于实现如权利要求1至6任一项所述的多特征融合的供应链管理实体知识抽取的方法,包括:
向量获取模块,用于:
基于预训练得到的字符嵌入层和部首嵌入层,将文本句子转换为字符级向量表示和部首级向量表示;合并所述部首级特征向量和所述字符级特征向量并输入卷积层,获得局部上下文特征向量;
基于Bi-LSTM模型,从所述字符级特征向量中获取上下文特征向量,将所述上下文特征向量输入卷积层中,获得上下文突出特征向量;
将所述上下文特征向量、局部上下文特征向量和上下文突出特征向量进行合并,经过三层Bi-LSTM模型后输出获得隐层向量;
预测模块,用于构造各个实体之间关系的权重连接图,提取区域节点特征,结合实体和权重连接图进行实体预测;
所述预测模块用于:
为各个实体之间的每一种关系分别构造一个关系权重连接图;
将字符作为节点,字符间的关系作为邻接矩阵,构建图结构;
基于Bi-GCN提取区域节点的隐层特征;
Bi-GCN表达式如下:
其中,A为关系邻接矩阵,l为层数,为节点v在l层的隐层向量表示,Wl和bl表示第l层的可学习参数;tanh表示双曲正切激活函数;
将提取到的所述隐层特征分别代入到各个关系权重连接图中,基于带权Bi-GCN提取得到各个实体之间的每一种关系的隐层向量表示,所述带权Bi-GCN的表达式如下:
其中,l为层数,是节点ei在GCN在第l层的隐层向量表示,Pr(ei,v)表示节点ei和v在关系为r时的概率,/>和/>是GCN在关系为r时的权重和偏置,V是句子中所有字符的集合,R包含了所有的关系;
将得到的所述隐层向量表示,通过CRF进行实体预测,利用分类损失函数得到损失值eloss。
8.根据权利要求7所述的一种多特征融合的供应链管理实体知识抽取的系统,其特征在于,所述向量获取模块用于:
对一个文本句子,汉字字符序列为T1={s1,s2,…,sn},sn为文本句子中的字符;基于预训练得到的字符嵌入层,获取汉字字符序列的特征向量表示c1;
提取每个汉字的部首,组成部首序列R1={t1,t2,…,tn},其中tn为部首序列中的部首;基于预训练得到的部首嵌入层,获取部首序列R1的特征向量表示r1;
将所述汉字字符序列的特征向量表示c1依次输入至Dropout层和Bi-LSTM模型中;
根据LSTM中各细胞的计算公式,合并向前和向后输出的两个方向的最终状态,生成上下文特征向量c2;
LSTM中各细胞的计算公式如下:
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
it=σ(Wxixt+Whiht-1+Wcict-1+bi);
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc);
ot=σ(Wxoxt+Whoht-1+Wcoct+b0);
ht=ottanh(ct);
其中,ft表示t时刻遗忘门输出,it表示t时刻输入门输出,ct表示t时刻细胞状态,ot表示t时刻输出门输出,xt表示t时刻输入,ht表示t时刻隐层输出,tanh表示双曲正切激活函数,W和b均为可学习参数;
基于卷积运算,使所述上下文特征向量c2通过卷积层,输出上下文突出特征向量c3;
所述卷积运算表示为:
其中,Wuv为卷积核参数,Xi-u+1,j-v+1为输入数据,Yij为输出数据;
将部首序列R1的特征向量表示r1、汉字字符序列的特征向量表示c1进行合并,通过Dropout和卷积层处理,输出后进行提取,获得局部上下文特征向量表示w1;
合并所述上下文特征向量c2、上下文突出特征向量c3和局部上下文特征向量表示w1合并,输入三层Bi-LSTM模型,输出得到实体隐层表示序列E={e1,e2,…en}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110729303.7A CN113408289B (zh) | 2021-06-29 | 2021-06-29 | 一种多特征融合的供应链管理实体知识抽取的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110729303.7A CN113408289B (zh) | 2021-06-29 | 2021-06-29 | 一种多特征融合的供应链管理实体知识抽取的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113408289A CN113408289A (zh) | 2021-09-17 |
CN113408289B true CN113408289B (zh) | 2024-04-16 |
Family
ID=77680170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110729303.7A Active CN113408289B (zh) | 2021-06-29 | 2021-06-29 | 一种多特征融合的供应链管理实体知识抽取的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113408289B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579343B (zh) * | 2023-05-17 | 2024-06-04 | 成都信息工程大学 | 一种中文文旅类的命名实体识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388807A (zh) * | 2018-10-30 | 2019-02-26 | 中山大学 | 电子病历命名实体识别的方法、装置及存储介质 |
CN111079377A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种面向中文医疗文本命名实体识别的方法 |
CN111259672A (zh) * | 2020-02-12 | 2020-06-09 | 新疆大学 | 基于图卷积神经网络的中文旅游领域命名实体识别方法 |
CN111339764A (zh) * | 2019-09-18 | 2020-06-26 | 华为技术有限公司 | 一种中文命名实体识别方法以及装置 |
CN111581970A (zh) * | 2020-05-12 | 2020-08-25 | 厦门市美亚柏科信息股份有限公司 | 一种网络语境的文本识别方法、装置及存储介质 |
CN112417878A (zh) * | 2020-11-24 | 2021-02-26 | 北京明略昭辉科技有限公司 | 实体关系抽取方法、系统、电子设备及存储介质 |
CN112989833A (zh) * | 2021-04-15 | 2021-06-18 | 广东工业大学 | 一种基于多层lstm的远程监督实体关系联合抽取方法和系统 |
CN113011191A (zh) * | 2021-04-28 | 2021-06-22 | 广东工业大学 | 一种知识联合抽取模型训练方法 |
-
2021
- 2021-06-29 CN CN202110729303.7A patent/CN113408289B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388807A (zh) * | 2018-10-30 | 2019-02-26 | 中山大学 | 电子病历命名实体识别的方法、装置及存储介质 |
CN111339764A (zh) * | 2019-09-18 | 2020-06-26 | 华为技术有限公司 | 一种中文命名实体识别方法以及装置 |
CN111079377A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种面向中文医疗文本命名实体识别的方法 |
CN111259672A (zh) * | 2020-02-12 | 2020-06-09 | 新疆大学 | 基于图卷积神经网络的中文旅游领域命名实体识别方法 |
CN111581970A (zh) * | 2020-05-12 | 2020-08-25 | 厦门市美亚柏科信息股份有限公司 | 一种网络语境的文本识别方法、装置及存储介质 |
CN112417878A (zh) * | 2020-11-24 | 2021-02-26 | 北京明略昭辉科技有限公司 | 实体关系抽取方法、系统、电子设备及存储介质 |
CN112989833A (zh) * | 2021-04-15 | 2021-06-18 | 广东工业大学 | 一种基于多层lstm的远程监督实体关系联合抽取方法和系统 |
CN113011191A (zh) * | 2021-04-28 | 2021-06-22 | 广东工业大学 | 一种知识联合抽取模型训练方法 |
Non-Patent Citations (2)
Title |
---|
GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction;Tsu-Jui Fu et al.;《Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics》;第1409-1418页 * |
嵌入知识图谱信息的命名实体识别方法;阎志刚 等;《内蒙古师范大学学报(自然科学版)》;第50卷(第3期);第275-282页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113408289A (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502749B (zh) | 一种基于双层注意力机制与双向gru的文本关系抽取方法 | |
Du et al. | Text classification research with attention-based recurrent neural networks | |
CN111914067B (zh) | 中文文本匹配方法及系统 | |
CN108073711B (zh) | 一种基于知识图谱的关系抽取方法和系统 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
WO2022198750A1 (zh) | 语义识别方法 | |
CN113010693A (zh) | 融合指针生成网络的知识图谱智能问答方法 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN111695341A (zh) | 一种基于篇章结构图卷积的隐式篇章关系分析方法和系统 | |
CN114428850B (zh) | 一种文本检索匹配方法和系统 | |
CN114722820A (zh) | 基于门控机制和图注意力网络的中文实体关系抽取方法 | |
CN111144410A (zh) | 一种跨模态的图像语义提取方法、系统、设备及介质 | |
CN115081437A (zh) | 基于语言学特征对比学习的机器生成文本检测方法及系统 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN116992040A (zh) | 基于概念图的知识图谱补全方法和系统 | |
CN113408289B (zh) | 一种多特征融合的供应链管理实体知识抽取的方法及系统 | |
CN110377753B (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
CN117436451A (zh) | 基于IDCNN-Attention的农业病虫害命名实体识别方法 | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN116578707A (zh) | 一种专利层级分类方法、装置、电子设备及存储介质 | |
CN113449517B (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
CN114416941B (zh) | 融合知识图谱的对话知识点确定模型的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |