CN112084331B - 文本处理、模型训练方法、装置、计算机设备和存储介质 - Google Patents
文本处理、模型训练方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112084331B CN112084331B CN202010881097.7A CN202010881097A CN112084331B CN 112084331 B CN112084331 B CN 112084331B CN 202010881097 A CN202010881097 A CN 202010881097A CN 112084331 B CN112084331 B CN 112084331B
- Authority
- CN
- China
- Prior art keywords
- vector
- entity
- target
- text
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 248
- 238000012545 processing Methods 0.000 title claims abstract description 201
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 769
- 230000004927 fusion Effects 0.000 claims abstract description 125
- 238000007499 fusion processing Methods 0.000 claims abstract description 44
- 230000011218 segmentation Effects 0.000 claims description 91
- 239000013604 expression vector Substances 0.000 claims description 90
- 238000010586 diagram Methods 0.000 claims description 41
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 16
- 238000003672 processing method Methods 0.000 abstract description 16
- 230000000875 corresponding effect Effects 0.000 description 293
- 238000005516 engineering process Methods 0.000 description 18
- 238000013519 translation Methods 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 11
- 241000282693 Cercopithecidae Species 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 241000234295 Musa Species 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 6
- 238000004220 aggregation Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 102000015833 Cystatin Human genes 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 108050004038 cystatin Proteins 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 3
- 235000021015 bananas Nutrition 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007526 fusion splicing Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种文本处理、模型训练方法、装置、计算机设备和存储介质。文本处理方法包括:获取待处理的目标文本,对目标文本进行编码,得到目标文本编码向量;获取目标文本中的目标实体,确定目标实体对应的第一关联实体;根据第一关联实体的实体表示向量以及对应的注意力权重,确定目标实体对应的目标知识表示向量;将目标文本编码向量与目标实体对应的目标知识表示向量进行融合处理,得到目标融合结果;根据目标融合结果确定目标文本对应的文本处理结果。本申请实施例的文本处理结果可以是基于人工智能的文本处理模型处理得到的,采用本方法能够提高得到的文本处理结果的准确度。
Description
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种文本处理、模型训练方法、装置、计算机设备和存储介质。
背景技术
随着计算机以及互联网技术的发展,在很多情况下都需要对文本进行处理,例如对文本进行翻译或者对文本进行命名实体识别等。
目前,可以基于人工智能的文本处理模型对文本进行处理,以得到文本处理结果。然而,经常存在文本处理模型处理得到的文本处理结果准确度比较差的情况,即文本处理准确度比较低。
发明内容
基于此,有必要针对上述技术问题,提供一种文本处理、模型训练方法、装置、计算机设备和存储介质。
一种文本处理方法,所述方法包括:获取待处理的目标文本,对所述目标文本进行编码,得到目标文本编码向量,所述目标文本编码向量包括所述目标文本对应的目标语义向量;获取所述目标文本中的目标实体,确定所述目标实体对应的第一关联实体;根据所述第一关联实体的实体表示向量以及对应的注意力权重,确定所述目标实体对应的目标知识表示向量,其中,所述注意力权重根据所述目标语义向量与关联关系表示向量之间的关联度得到,所述关联关系表示向量为表示实体关联关系的向量;将所述目标文本编码向量与所述目标实体对应的目标知识表示向量进行融合处理,得到目标融合结果;根据所述目标融合结果确定所述目标文本对应的文本处理结果。
一种文本处理装置,所述装置包括:目标文本编码模块,用于获取待处理的目标文本,对所述目标文本进行编码,得到目标文本编码向量,所述目标文本编码向量包括所述目标文本对应的目标语义向量;第一实体获取模块,用于获取所述目标文本中的目标实体,确定所述目标实体对应的第一关联实体;目标知识表示向量确定模块,用于根据所述第一关联实体的实体表示向量以及对应的注意力权重,确定所述目标实体对应的目标知识表示向量,其中,所述注意力权重根据所述目标语义向量与关联关系表示向量之间的关联度得到,所述关联关系表示向量为表示实体关联关系的向量;第一融合模块,用于将所述目标文本编码向量与所述目标实体对应的目标知识表示向量进行融合处理,得到目标融合结果;文本处理结果确定模块,用于根据所述目标融合结果确定所述目标文本对应的文本处理结果。
在一些实施例中,所述目标知识表示向量确定模块包括:关系网络图获取单元,用于获取所述第一关联实体与所述目标实体组成的关系网络图;关联关系表示向量获取单元,用于对于所述关系网络图中的网络图实体,获取表示所述网络图实体与邻接实体的关联关系的关联关系表示向量;注意力权重确定单元,用于根据所述关联关系表示向量与所述目标语义向量得到向量关联度,根据所述向量关联度确定所述邻接实体对应的注意力权重;目标知识表示向量确定单元,用于根据所述邻接实体对应的注意力权重以及所述邻接实体的实体表示向量,确定所述网络图实体对应的目标知识表示向量;提取单元,用于从所述关系网络图的各个网络图实体对应的目标知识表示向量中,提取所述目标实体对应的目标知识表示向量。
在一些实施例中,所述网络图实体对应的目标知识表示向量是知识向量确定模型输出的,所述知识向量确定模型包括至少一个目标隐层,所述目标知识表示向量确定单元用于:将所述邻接实体的实体表示向量以及所述关联关系表示向量输入到所述目标隐层中进行处理,得到所述网络图实体对应的第一知识表示向量;根据所述网络图实体对应的第一知识表示向量以及对应的所述邻接实体对应的注意力权重,确定所述网络图实体对应的目标知识表示向量。
在一些实施例中,所述目标知识表示向量确定单元用于:根据所述网络图实体与所述邻接实体之间的实体关联关系确定目标计算方向,所述目标计算方向为相加或者相减;根据所述目标计算方向对所述邻接实体的实体表示向量以及所述关联关系表示向量进行计算,得到所述网络图实体对应的计算表示向量;利用所述目标隐层中的隐层参数对所述计算表示向量进行处理,得到所述网络图实体对应的第一知识表示向量。
在一些实施例中,所述目标知识表示向量确定单元用于:获取所述知识向量确定模型中,所述目标隐层对应的上一隐层输出的,所述邻接实体对应的输出表示向量;所述目标隐层利用第一隐层参数对所述计算表示向量以及所述输出表示向量进行处理,得到所述网络图实体对应的第一知识表示向量。
在一些实施例中,所述网络图实体对应的目标知识表示向量是知识向量确定模型输出的,所述注意力权重确定单元用于:利用所述目标隐层中的第二隐层参数对所述关联关系表示向量进行处理,得到关键向量;利用所述目标隐层中的第三隐层参数对所述目标语义向量进行处理,得到查询向量;根据所述关键向量与所述查询向量计算得到向量关联度;根据所述向量关联度确定所述邻接实体对应的注意力权重,所述向量关联度与所述邻接实体对应的注意力权重成正相关关系。
在一些实施例中,所述目标文本包括多个分词,所述目标文本编码向量包括分词编码向量序列,所述分词编码向量序列包括各个分词对应的分词编码向量;所述第一融合模块包括:知识融入编码向量得到单元,用于根据所述目标实体对应的目标知识表示向量对目标分词对应的分词编码向量进行知识融入处理,得到所述目标分词对应的知识融入编码向量;更新单元,用于利用所述目标分词对应的知识融入编码向量,更新所述分词编码向量序列中,所述目标分词对应的分词编码向量,得到更新后的分词编码向量序列;融合单元,用于利用融合模型对所述更新后的分词编码向量序列以及所述目标语义向量进行融合处理,得到融合处理后的分词编码向量序列以及融合处理后的目标语义向量。
在一些实施例中,所述文本处理结果确定模块用于:将融合处理后的目标语义向量输入到已训练的文本分类模型中,得到所述目标文本对应的文本分类结果。
在一些实施例中,所述知识融入编码向量得到单元用于:根据所述目标实体对应的目标知识表示向量与目标分词对应的分词编码向量进行向量拼接处理,得到所述目标分词对应的知识融入编码向量。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述文本处理方法对应的步骤
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本处理方法对应的步骤。
上述文本处理方法、装置、计算机设备和存储介质,目标文本编码向量中融合了目标知识表示向量,而且目标知识表示向量是根据目标文本中,目标实体对应的第一关联实体的实体表示向量以及注意力权重得到的,由于注意力权重根据目标语义向量与关联关系表示向量之间的关联度得到,因此可以根据目标文本的语义,确定关联实体的实体表示向量对目标实体的表示向量的重要程度,根据重要程度确定注意力权重,从而可以使得基于注意力权重以及实体表示向量得到的目标知识向量能够促进对目标文本的语义的理解,故基于目标融合结果得到目标文本对应的文本处理结果,提高了文本处理结果的准确度。
一种文本处理模型训练方法,所述方法包括:获取训练文本以及所述训练文本对应的标准文本处理结果;将所述训练文本输入到文本编码模型中,得到训练文本编码向量,所述训练文本编码向量包括所述训练文本对应的训练语义向量;获取所述训练文本对应的训练实体,确定所述训练实体对应的第二关联实体;将所述第二关联实体对应的实体表示向量输入到知识向量确定模型中,根据所述实体表示向量以及对应的注意力权重,确定所述训练实体对应的训练知识表示向量,所述注意力权重根据所述训练语义向量与关联关系表示向量之间的关联度得到,所述关联关系表示向量为表示实体关联关系的向量;将所述训练文本编码向量与所述训练实体对应的训练知识表示向量输入到融合模型中进行融合处理,得到训练融合结果;根据任务处理模型对所述训练融合结果进行处理,得到训练处理结果;根据所述训练处理结果与所述标准文本处理结果调整所述任务处理模型的参数,或者调整所述任务处理模型以及语言模型的参数,所述语言模型包括所述文本编码模型、所述知识向量确定模型以及所述融合模型。
一种文本处理模型训练装置,所述装置包括:训练文本获取模块,用于获取训练文本以及所述训练文本对应的标准文本处理结果;训练文本编码向量得到模块,用于将所述训练文本输入到文本编码模型中,得到训练文本编码向量,所述训练文本编码向量包括所述训练文本对应的训练语义向量;第二实体获取模块,用于获取所述训练文本对应的训练实体,确定所述训练实体对应的第二关联实体;训练知识表示向量确定模块,用于将所述第二关联实体对应的实体表示向量输入到知识向量确定模型中,根据所述实体表示向量以及对应的注意力权重,确定所述训练实体对应的训练知识表示向量,所述注意力权重根据所述训练语义向量与关联关系表示向量之间的关联度得到,所述关联关系表示向量为表示实体关联关系的向量;训练融合结果得到模块,用于将所述训练文本编码向量与所述训练实体对应的训练知识表示向量输入到融合模型中进行融合处理,得到训练融合结果;训练处理结果得到模块,用于根据任务处理模型对所述训练融合结果进行处理,得到训练处理结果;调整模块,用于根据所述训练处理结果与所述标准文本处理结果调整所述任务处理模型的参数,或者调整所述任务处理模型以及语言模型的参数,所述语言模型包括所述文本编码模型、所述知识向量确定模型以及所述融合模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述文本处理模型训练方法对应的步骤
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本处理模型训练方法对应的步骤。
上述文本处理模型训练方法、装置、计算机设备和存储介质,由于语言模型包括文本编码模型、知识向量确定模型以及融合模型,知识向量确定模型可以根据实体表示向量以及对应的注意力权重,确定训练实体对应的训练知识表示向量,注意力权重根据训练语义向量与关联关系表示向量之间的关联度得到,关联关系表示向量为表示实体关联关系的向量,由于注意力权重根据训练语义向量与关联关系表示向量之间的关联度得到,因此可以根据训练文本的语义,确定关联实体的实体表示向量对训练实体的表示向量的重要程度,根据重要程度确定注意力权重,从而可以使得得到的训练知识向量能够更好的促进对训练文本的语义的理解,故提高了得到的语言模型以及任务处理模型的文本理解能力,提高了文本处理结果的准确度。
附图说明
图1为一个实施例中文本处理方法的应用环境图;
图2为一个实施例中文本处理方法的流程示意图;
图3A为一个实施例中基于BERT的文本编码模型的编码原理示意图;
图3B为一个实施例中根据目标融合结果确定目标文本对应的文本处理结果的示意图;
图3C为一个实施例中根据目标融合结果确定目标文本对应的文本处理结果的示意图;
图3D为一个实施例中根据目标融合结果确定目标文本对应的文本处理结果的示意图;
图4为另一个实施例中根据第一关联实体的实体表示向量以及对应的注意力权重,确定目标实体对应的目标知识表示向量的流程示意图;
图5为一个实施例中基于BERT的文本编码模型的编码原理示意图;
图6为一个实施例中文本处理模型训练方法的流程示意图;
图7为一个实施例中进行文本翻译的界面图;
图8为一个实施例中基于知识图谱中知识确定知识表示向量的示意图;
图9为一个实施例中计算知识表示向量的示意图;
图10为一个实施例中文本处理装置的结构框图;
图11为一个实施例中文本处理模型训练装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习技术以及自然语言处理,具体通过如下实施例进行说明:
本申请提供的文本处理方法以及文本处理模型训练方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。当需要进行文本处理时,终端102可以向服务器104发送文本处理请求,服务器104中可以部署有文本处理模型,文本处理模型包括语言模型以及任务处理模型,可以利用该文本处理模型对待处理的目标文本进行处理,得到文本处理结果,服务器104可以将文本处理结果发送至终端102,也可以存储该文本处理结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本处理方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤S202,获取待处理的目标文本,对目标文本进行编码,得到目标文本编码向量,目标文本编码向量包括目标文本对应的目标语义向量。
其中,目标文本是待进行处理的文本,目标文本的语言可以根据实际需要确定,例如目标文本可以是中文语句,也可以是日文语句。一个目标文本可以包括多个分词,可以对目标文本进行切分,得到多个分词(token)。多个是指至少两个。其中,进行切分的方式可以采用基于词典或基于统计的分词切分方式。例如,假设目标文本为“今天是星期天”,则切分得到的分词序列可以为“今天/是/星期天”。
编码是指将文本转换成向量进行表示。目标文本编码向量是对目标文本进行编码得到的向量。目标语义向量是表示目标文本的语义的向量。目标语义向量是根据目标文本的各个分词进行编码得到的,融合了文本中各个分词的语义信息。目标文本编码向量还可以包括分词编码向量序列,分词编码向量序列包括各个分词对应的分词编码向量,分词编码向量是指对分词进行编码得到的向量。对分词进行编码得到的向量,按照所对应的分词在目标文本的顺序进行排序,形成分词编码向量序列。
具体地,服务器可以获取待处理的目标文本,对目标文本进行切分,将目标文本,切分成具有语义合理性的分词序列,利用文本编码模型对目标文本进行编码,得到目标文本编码向量,目标文本向量包括分词编码向量序列以及目标语义向量。其中,文本编码模型可以是基于BERT(Bidirectional Encoder Representation from Transformer,基于转换器的双向编码模型)。当给定目标文本,该目标文本包括N个分词,则得到分词编码向量序列的公式可以表示如公式(1),T-Encoder为文本编码模型,j表示第j个分词。Wj表示第j个分词,即可以通过文本编码模型进行编码,将通过文本形式表示的分词,通过向量进行表示。
例如,如图3A所示,为一些实施例提供的基于BERT的文本编码模型的编码原理示意图。服务器可以对目标文本进行切分,得到N个分词(token),N为正整数,表示为Tok1、Tok2……TokN。在Tok1之前加入“[CLS]”的标记,[CLS]表示“classification”分类,E表示某个嵌入向量,例如[CLS]的嵌入向量为E[CLS],T表示编码得到的编码向量,C为语义向量,为[CLS]对应的语义表示式,即语义编码向量。即服务器可以将包括N个分词的目标文本输入到文本编码模型中,文本编码模型输出文本对应的[CLS]的语义表示式C(称为目标语义向量),以及各个分词对应的分词编码向量T。
步骤S204,获取目标文本中的目标实体,确定目标实体对应的第一关联实体。
具体地,实体(Entity)是指具有特定意义的事物,例如可以包括人名、地名、机构名或者专有名词等中的至少一种。目标实体是目标文本中的实体,一个目标文本可以包括一个或者多个目标实体。例如,假设目标文本为“猴子喜欢吃香蕉”,则目标实体可以包括“猴子”以及“香蕉”。
第一关联实体是指与目标实体存在关联关系的实体。关联关系例如可以是从属关系或者依附关系等。目标实体对应的关联实体可以是根据知识图谱(Knowledge Graph)得到的。知识图谱可以用于描述实体与实体的关联关系,因此可以获取知识图谱中,与目标实体存在关联关系的关联实体。第一关联实体可以包括知识图谱中,与目标实体存在直接的关联关系的实体,以及存在间接关联关系的实体的至少一种。直接的关联关系是指目标实体与第一关联实体存在边的连接,间接的关联关系是指目标实体与第一关联实体之间,还存在中间的关联实体。例如,假设知识图谱中,目标实体为A,A的女儿为B,B的儿子为C,即A与B之间存在边的连接,B与C之间存在边的连接,则B为与A存在直接的关联关系的第一关联实体,C为与A存在间接的关联关系的第一关联实体。可以用“阶数”表示实体之间关联关系的远近,将与目标实体存在直接的关联关系的实体称为目标实体的一阶关联实体,将与一阶关联实体存在直接的关联关系的实体称为目标实体的二阶关联实体。第一关联实体可以是与目标实体的关联阶数在预设关联阶数之内的关联实体,预设阶数例如可以根据需要设置,例如可以为2。
具体地,服务器可以对目标文本进行命名实体识别(NER,Named EntityRecognition),得到目标实体。服务器可以获取知识图谱中,与目标实体的关联阶数在预设阶数之内的关联实体,作为第一关联实体。
步骤S206,根据第一关联实体的实体表示向量以及对应的注意力权重,确定目标实体对应的目标知识表示向量,其中,注意力权重根据目标语义向量与关联关系表示向量之间的关联度得到,关联关系表示向量为表示实体关联关系的向量。
具体地,实体表示向量是指用于表示实体的嵌入向量,嵌入向量(Embedding)指从语义空间到向量空间的映射结果,即可以用一个低维度向量表示一个实体,例如[0.2,0.3,……0.6]等。关联关系表示向量是表示实体之间的关系的向量。实体表示向量与关联关系表示向量可以利用知识表示学习方法得到,例如利用_TransE((TranslatingEmbedding)方法得到,知识表示学习是面向知识库中实体和关系的表示学习,TransE将三元组(head,relation,tail)中的关系relation看做从头实体head到尾实体tail的翻译。
注意力机制中,一个输出可以根据多个输入得到,注意力权重表示在确定输出时,对输入的注意力大小,一个输入对应的注意力权重越大,说明在确定输出时,越关注该输入。即注意力权重表示输入对输出的影响力。注意力权重与影响力成正相关关系。一个输入对应的注意力权重越大,则其对输出的影响就越大,则该输入对输出而言更为关键。相反地,一个输入对应的注意力权重越小,则会减弱该输入对输出的影响,说明该输入不那么关键。注意力权重可以是根据注意力模型(Attention Model)得到的。目标知识表示向量为输出,可以将第一关联实体对应的实体表示向量作为输入,也可以根据第一关联实体对应的实体表示向量得到输入。例如可以将第一关联实体对应的实体表示向量输入到知识向量确定模型中,得到第一知识表示向量,将第一知识表示向量作为输入。
注意力权重是根据目标语义向量与关联关系表示向量之间的关联度得到,注意力权重与关联度成正相关关系,关联度越大,则对应的注意力权重越大。目标语义向量与关联关系表示向量之间的关联度可以是直接关联度或者间接关联度的至少一个。直接关联度是指计算目标语义向量与关联关系表示向量的关联度例如相似度,作为目标语义向量与关联关系表示向量之间的关联度。间接关联度是指对目标语义向量进行进一步处理,对关联关系表示向量进行进一步处理,基于处理后的目标语义向量以及处理后的关联关系表示向量,得到目标语义向量与关联关系表示向量之间的关联度。例如,可以将目标语义向量以及关联关系表示向量输入到训练得到的模型中,利用模型参数对目标语义向量进行处理,对关联关系表示向量进行处理。
关联关系表示向量可以是表示第一关联实体与目标实体的关联关系的向量,也可以是表示第一关联实体之间的关系的向量,例如,第一关联实体对应的注意力权重,可以是根据从第一关联实体到目标实体所经过的最短的路径的边的注意力权重得到的,例如可以是所经过的最短路径的边的注意力权重相乘得到的。例如,假设A→B→C,目标实体为A,对于第一关联实体C,其对应的注意力权重计算方法如下:将基于B与C之间的关联关系表示向量与目标语义向量的关联度得到的注意力权重,与基于A与B之间的关联关系表示向量与目标语义向量的关联度得到的注意力权重,进行相乘,得到第一关联实体C对应的注意力权重。
知识表示向量是指基于知识得到的向量,用于表示知识。目标实体对应的关联实体,以及目标实体与关联实体之间的关联关系为知识,可以基于知识图谱得到,因此可以将根据目标实体对应的关联实体的实体表示向量以及关联关系表示向量,得到的向量称为知识表示向量。
具体地,服务器可以将第一关联实体的实体表示向量以及第一关联实体与目标实体之间的关联关系表示向量、第一关联实体之间的关联关系表示向量输入到知识向量确定模型中,知识向量确定模型根据目标语义向量与关联关系表示向量之间的关联度,确定各个第一关联实体对应的注意力权重。即目标语义向量与关联关系表示向量之间的关联度,可以表示实体之间的关系对目标文本的语义的影响力,对于与语义更相关的关系,则表示该关系是更有用的知识,需要重点关注该关系对应的关联实体。其中,知识向量确定模型可以是图神经网络模型(Graph Neural Network,GNN)。
在一些实施例中,可以获取第一关联实体与目标实体组成的关系网络图,获取关系网络图中各个网络图实体对应的实体表示向量以及表示网络图实体中实体间的关联关系的关联关系表示向量,输入到图神经网络模型中,图神经网络模型确定网络图实体的知识表示向量的方式包括:对于任意的网络图实体,基于模型参数对该网络图实体的邻接实体的实体表示向量,以及表示该网络图实体与该邻接实体的关系的关联关系表示向量进行处理,得到该网络图实体对应的第一知识表示向量。当邻接实体有多个,得到的该网络图实体对应的第一知识表示向量也有多个,故可以获取各个第一知识表示向量对应的注意力权重,根据第一知识表示向量与对应的注意力权重进行加权计算,得到网络图实体对应的目标知识表示向量,由于关系网络图中包括目标实体,即目标实体亦为网络图实体,故可以得到目标实体对应的目标知识表示向量。例如,确定目标实体对应的目标知识表示向量的公司可以表示如公式(2)。等式左边的ej表示第j个网络图实体的目标知识表示向量,等式右边的ej表示第j个网络图实体的实体表示向量,DK-Encoder(Dynamic Knowledge ContextEncoder,动态知识上下文编码模型)表示知识向量确定模型,目标文本包括N个分词,M为实体的个数。
步骤S208,将目标文本编码向量与目标实体对应的目标知识表示向量进行融合处理,得到目标融合结果。
其中,融合(Fusion)是指结合在一起,融合的方式可以根据需要设置,例如可以是拼接或者加权相加的至少一种。例如可以是进行拼接,将拼接得到的结果输入到融合模型中进行处理,融合模型例如可以是多层感知机模型、循环神经网络模型或者卷积神经网络模型等。例如,融合模型可以包括P個聚合器,每个聚合器透过MLP(multilayerperceptron,多层感知机)來混合两种不同的异质特征(heterogeneous features),即目标文本编码向量与目标实体对应的目标知识表示向量,P的个数可以根据需要设置。
在一些实施例中,目标文本编码向量包括分词编码向量序列,将目标文本编码向量与目标实体对应的目标知识表示向量进行融合处理,得到目标融合结果包括:根据目标实体对应的目标知识表示向量对目标分词对应的分词编码向量进行知识融入处理,得到目标分词对应的知识融入编码向量;利用目标分词对应的知识融入编码向量,更新分词编码向量序列中,目标分词对应的分词编码向量,得到更新后的分词编码向量序列;利用融合模型对更新后的分词编码向量序列以及目标语义向量进行融合处理,得到融合处理后的分词编码向量序列以及融合处理后的目标语义向量。
其中,目标分词是指目标实体所对应的分词,由于分词编码向量是目标文本中分词对应的编码向量,而目标实体是目标文本中的实体,因此目标文本的分词包括目标实体对应的分词,因此可以获取该目标分词对应的分词编码向量。例如,对于目标文本“猴子喜欢吃香蕉”,则分词包括“猴子”、“喜欢”、“吃”以及“香蕉”。分词编码向量序列包括“猴子”对应的分词编码向量、“喜欢”对应的分词编码向量、“吃”对应的分词编码向量以及“香蕉”对应的分词编码向量。得到目标实体“猴子”对应的目标知识表示向量后,可以将“猴子”对应的分词编码向量以及“猴子”对应的目标知识表示向量进行知识融入处理。
知识融入处理是指将目标知识表示向量融入到分词编码向量中,知识融入处理可以是拼接或者加权求和,例如向量相加。例如,可以根据目标实体对应的目标知识表示向量与目标分词对应的分词编码向量进行拼接处理,可以是直接将目标实体对应的目标知识表示向量与目标分词对应的分词编码向量进行拼接,得到目标分词对应的知识融入编码向量,也可以是先进一步处理,再进行拼接。例如,融合模型可以包括两个多头自注意力模型(multi-head self attention model),利用其中的一个多头自注意力模型对分词编码向量序列中的分词编码向量序列进行处理,利用另一个多头自注意力模型对目标知识表示向量进行处理,将经过多头自注意力模型处理得到的分词编码向量以及经过多头自注意力模型处理得到的目标知识表示向量进行拼接,得到知识融入编码向量。
例如。拼接的方式可以是水平拼接。举个例子,假设“猴子”对应的分词编码向量为k维向量,表示为(a1,a2……ak)以及“猴子”对应的目标知识表示向量为j维向量,表示为(b1,b2……bj),则水平拼接得到的知识融入向量为k+j维的向量,表示为(a1,a2……ak,b1,b2……bj)。
具体地,服务器得到目标分词对应的知识融入编码向量后,利用该知识融入编码向量替换分词编码向量序列中,目标分词对应的分词编码向量,得到更新后的分词编码向量序列。服务器可以将更新后的分词编码向量序列以及目标语义向量输入到融合模型的融合层中,进行融合处理,得到融合处理后的分词编码向量序列以及融合处理后的目标语义向量的至少一个。其中,融合模型可以是基于BERT的模型,可以继续利用基于BERT的模型对更新后的分词编码向量序列以及目标语义向量进行处理。例如,融合模型可以包括多层感知机(multilayer perceptron,MLP)。例如,融合模型得到目标融合结果的公式可以表示如公式(3),K-Encoder(Knowledge Fusion Encoder)表示融合模型,表示融合处理后的分词编码向量,表示融合处理后输出的知识表示向量,一个实体对应的融合处理后的分词编码向量与融合处理后输出的知识表示向量时拼接在一起,作为该实体对应的向量表示。
步骤S210,根据目标融合结果确定目标文本对应的文本处理结果。
其中,文本处理结果可以根据应用场景确定,例如文本处理结果可以包括文本标注结果、文本分类结果、句子关系判断结果或者文本生成结果的至少一个。文本标注是指对文本进行标注,例如对文本进行命名实体识别(Named Entity Recognition,NER)或者对文本中的分词进行词性识别等。文本分类结果是指对文本进行分类,例如进行情感分类或者垃圾邮件分类。情感分类将文本分为表达正面情感的文本或者表达负面情感的文本。垃圾邮件分类将邮件分为垃圾邮件或者非垃圾邮件。句子关系判断结果例如可以用于确定句子与句子的关系,句子间的关系可以是问句与答案的关系,也可以是上下文之间的关系,例如判断第二语句是否为第一语句的下一个语句。文本生成结果例如是对文本进行翻译或者生成文本的摘要等。
具体地,目标融合结果可以是融合处理后的分词编码向量序列或者融合处理后的目标语义向量。目标融合结果根据具体的场景确定。服务器可以将目标融合结果输入到任务处理模型中,任务处理模型对目标融合结果进行处理,得到文本处理结果。
在一些实施例中,对于文本分类任务,融合处理后的目标语义向量为目标融合结果,可以将融合处理后的目标语义向量输入到文本分类模型中,得到文本分类结果。例如,如图3B所示,对于一般(普通)的自然语言处理任务,例如文本分类任务,可以根据[CLS]的表示式确定文本处理结果。
在一些实施例中,对于文本生成结果,可以将融合处理后的分词编码向量序列输入到解码模型中,得到文本生成结果。
在一些实施例中,对于命名实体识别,融合处理后的分词编码向量序列为目标融合结果,可以利用实体标识符对融合处理后的分词编码向量序列中,实体对应的分词编码向量进行标识,以根据实体对应的分词编码向量进行命名实体识别。例如,可以在目标文本中的实体的前后都加上[ENT]字符作为实体标识符,在下游任务预测时候,使用有[ENT]标识的向量作为实体的实体表示向量进行命名实体识别。举个例子,如图3C所示,假设目标文本为“Steph Curry and Klay Thompson led the Warriors to the 2015 NBAChampionship”,假设目标实体为“Steph Curry”,则加入实体标识符之后,表示为“[ENT]Steph Curry[ENT]and[ENT]Klay Thompson[ENT]led the Warriors to the 2015 NBAChampionship”。
在一些实施例中,对于实体关系抽取,融合处理后的分词编码向量序列为目标融合结果,可以利用关系标识符对融合处理后的分词编码向量序列中,实体对应的分词编码向量进行标识,以在实体关系抽取时,根据关系标识符从中抽取得到头实体(head)对应的分词编码向量以及尾实体(tail)对应的分词编码向量,并进行拼接。关系标识符包括头实体标识符和尾实体标识符,对于每个实体,可以在该实体之前加上头实体标识符,例如[HD],在该实体之后加上尾实体标识符,例如[TL]。在下游任务做预测的时候,可以抽出头实体[HD]对应的分词编码向量以及尾实体[TL]对应的分词编码向量并拼接起来,作为最终的表示式去进行关系抽取,得到实体之间的关系。例如,如图3D所示,假设目标文本为“Steph Curry and Klay Thompson led the Warriors to the 2015 NBAChampionship”,则加上关系标识符之后,表示为“[HD]Steph Curry[TL]and[HD]KlayThompson[TL]led the Warriors to the 2015 NBA Championship”。
上述文本处理方法中,目标文本编码向量中融合了目标知识表示向量,而且目标知识表示向量是根据目标文本中,目标实体对应的第一关联实体的实体表示向量以及注意力权重得到的,由于注意力权重根据目标语义向量与关联关系表示向量之间的关联度得到,因此可以根据目标文本的语义,确定关联实体的实体表示向量对目标实体的表示向量的重要程度,根据重要程度确定注意力权重,从而可以使得基于注意力权重以及实体表示向量得到的目标知识向量能够促进对目标文本的语义的理解,故基于目标融合结果得到目标文本对应的文本处理结果,提高了文本处理结果的准确度。
在一些实施例中,如图4所示,步骤S206即根据第一关联实体的实体表示向量以及对应的注意力权重,确定目标实体对应的目标知识表示向量包括以下步骤:
步骤S402,获取第一关联实体以及目标实体组成的关系网络图。
具体地,关系网络图包括节点以及边。节点为实体,实体之间存在边表示实体之间存在直接的关联关系。
例如,假设第一关联实体是与目标实体的关联阶数在预设阶数之内的关联实体,预设阶数为2。对于目标实体A,假设实体A的女儿为B,B的儿子为C,B效力于H球队。A的效力于球队E,E还包括球员为F,球队E和H为竞争对手关系,A的朋友为D,则关系网络图可以表示如图5。可以理解,关系网络图之间的边也可以是有方向的,实体与实体之间的关系可以用三元组表示(h,r,t),h为头实体,r指关系,t指尾实体。
在一些实施例中,可以从知识图谱中获取与目标实体的关联阶数在预设关联阶数的关联实体,组成关系网络图,关系网络图可以根据公式(4)、(5)、(6)、(7)以及(8)获取得到。其中,gm表示目标实体m对应的关系网络图,表示与实体m的关联关系为i阶的尾实体,表示与实体m的关联关系为i阶的头实体。H表示头实体,t表示尾实体、r表示关系,g表示知识图谱,“∧”表示逻辑运算符“且”,表示不属于,“∈”表示属于。表示从第0阶到i-1阶的关联实体的集合。“∪”表示并集。即对于文本中的实体m,可以获取实体m在知识图谱中的位置,然后服务器可以收集此实体的i阶邻居实体。将第i阶邻居实体定义为服务器可以循环根据公式(4)~(6)获取i阶关联实体,由于实体m可能是位于三元组中的头实体或者是尾实体,因此包含了两个不同方向的实体。
步骤S404,对于关系网络图中的网络图实体,获取表示网络图实体与邻接实体的关联关系的关联关系表示向量。
其中,网络图实体是指关系网络图中的实体,目标实体以及第一关联实体为网络图中的实体。邻接实体是指与该网络图实体存在边的连接的实体。例如,图5中,对于关系网络图中的网络图实体A,其邻接实体包括B。
步骤S406,根据关联关系表示向量与目标语义向量得到向量关联度,根据向量关联度确定邻接实体对应的注意力权重。
其中,向量关联度指向量的关联程度,可以是相似度。关联度与注意力权重成正相关关系。即关联度越大,注意力权重越大。
具体地,服务器可以是将向量关联度作为注意力权重,也可以是对向量关联度进行归一化处理,得到注意力权重。
在一些实施例中,网络图实体对应的知识表示向量是知识向量确定模型输出的,知识向量确定模型包括至少一个目标隐层,对于不同的隐层,其对应的注意力权重可以是不变的,也可以是变化的。例如,根据关联关系表示向量与目标语义向量得到向量关联度,根据向量关联度确定邻接实体对应的注意力权重包括:利用目标隐层中的第二隐层参数对关联关系表示向量进行处理,得到关键向量;利用目标隐层中的第三隐层参数对目标语义向量进行处理,得到查询向量;根据关键向量与查询向量计算得到向量关联度;根据向量关联度确定邻接实体对应的注意力权重,向量关联度与邻接实体对应的注意力权重成正相关关系。
其中,注意力机制中,可以包括关键向量(key)与查询向量(query),关键向量(key)与value(第一知识向量)具有对应关系。可以基于关键向量(key)与查询向量(query)的相关度,确定邻接实体对应的注意力权重。第二隐层参数是目标隐层中,用于对关联关系表示向量进行处理的模型参数,第三隐层参数是目标隐层中,用于对目标语义向量进行处理的模型参数,不同的隐层,所对应的第二隐层参数以及第三隐层参数是变化的,因此注意力权重也在变化,相当于得到目标知识向量时,是综合不同隐层得到的注意力权重得到的,能够提高得到的目标知识向量的准确性。向量关联度可以是向量相似度,可以基于相似度算法得到,例如余弦相似度算法。
具体地,服务器可以将关联关系表示向量以及目标语义向量输入到目标隐层中,通过目标隐层的第二隐层参数计算得到关键向量,通过目标隐层的第三隐层参数计算得到查询向量,计算查询向量与关键向量的相似度,对相似度进行归一化处理,得到注意力权重。其中得到查询向量q的公式可以表示如公式(9),计算得到关键向量的公式可以表示如公式(10),以及表示第i层隐层中的第二隐层参数,和表示在第i层隐层需要学习的矩阵还有偏差,即第i层隐层中的第三隐层参数,σ为激活函数,例如tanh函数。
步骤S408,根据邻接实体对应的注意力权重以及邻接实体的实体表示向量,确定网络图实体对应的目标知识表示向量。
具体地,一个网络图实体对应的邻接实体可以有一个或者多个,服务器可以将该注意力权重与邻接实体的实体表示向量加权求和,得到网络图实体对应的知识表示向量。也可以利用已训练得到的知识向量确定模型的模型参数对邻接实体的实体表示向量进行处理,得到第一知识向量,再将第一知识表示向量以及邻接实体对应的注意力权重进行加权处理,得到网络图实体对应的目标知识表示向量。知识向量确定模型可以包括一层或者多层隐藏层(hidden layer),对于其中的至少一层隐藏层,可以执行根据第一知识表示向量以及邻接实体对应的注意力权重进行加权处理的步骤。
在一些实施例中,网络图实体对应的知识表示向量是知识向量确定模型输出的,知识向量确定模型包括至少一个目标隐层,根据邻接实体对应的注意力权重以及邻接实体的实体表示向量,确定网络图实体对应的目标知识表示向量包括:将邻接实体的实体表示向量以及关联关系表示向量输入到目标隐层中进行处理,得到网络图实体对应的第一知识表示向量;根据网络图实体对应的第一知识表示向量以及对应的邻接实体对应的注意力权重,确定网络图实体对应的目标知识表示向量。
其中,隐层是隐藏层的简称。目标隐层可以为一个或者多个。隐层中包括模型训练得到的模型参数,基于该模型参数对实体表示向量进行处理。
具体地,服务器可以将网络图实体对应的第一知识表示向量以及对应的邻接实体对应的注意力权重进行加权处理,得到网络图实体对应的知识表示向量。由于是将邻接实体的实体表示向量以及关联关系表示向量输入到隐层中进行处理,通过结合实体表示向量与关联关系表示向量确定知识表示向量,使得得到的知识表示向量更加准确。
在一些实施例中,可以是根据网络图实体与对应的邻接实体之间的实体关联关系确定目标计算方向,目标计算方向为相加或者相减;根据目标计算方向对邻接实体的实体表示向量以及关联关系表示向量进行计算,得到网络图实体对应的计算表示向量;利用目标隐层中的隐层参数对计算表示向量进行处理,得到网络图实体对应的第一知识表示向量。
具体地,当实体关联关系为该网络图实体是头实体,邻接实体是尾实体时,则目标计算方向为相减。当实体关联关系为该网络图实体是尾实体,邻接实体是头实体时,则目标计算方向为相加。在确定关系网络图中的实体表示向量以及关联关系表示向量时,可以将实体的关系看成是从头实体到尾实体的一个翻译操作,即根据头实体以及关联关系,可以得到尾实体,因此头实体的实体表示向量加上关联关系表示向量,可以表示尾实体。或者尾实体的实体表示向量减去关联关系表示向量,可以表示头实体。因此,计算表示向量是指根据目标计算方向对邻接实体的实体表示向量以及关联关系表示向量进行计算,所得到的表示网络图实体的向量。故基于目标隐层对计算表示向量进行处理,可以准确的得到网络图实体对应的第一知识表示向量。
在一些实施例中,服务器可以获取知识向量确定模型中目标隐层对应的上一隐层输出的,邻接实体对应的输出表示向量;目标隐层利用第一隐层参数对计算表示向量以及输出表示向量进行处理,得到网络图实体对应的第一知识表示向量。
具体地,邻接实体对应的输出表示向量是指上一层隐层中,输出的邻接实体的知识表示向量。第一隐层参数是隐层中,用于确定第一知识表示向量的参数。知识向量确定模型中可以包括多层隐层,对于目标隐层,可以获取上一隐层输出的邻接实体对应的知识表示向量,输入到目标隐层中,使得目标隐层是在上一隐层的基础上,继续进行处理的,能够使得知识向量随着隐层的深度逐渐增加,越来越准确。
例如,知识向量确定模型中可以包括多层目标隐层,对于关系网络图中的任意网络图实体,在每一层目标隐层,计算对应的第一知识表示向量的公式可以如公式(11),计算网络图实体的目标知识表示向量可以表示如公式(12)。公式(11)中,表示在第i层隐层中,对于网络图实体e,基于邻接实体的实体表示向量得到的第一知识向量。Wi指目标隐层中的模型参数,是模型训练得到的,是在i-1隐层得到的知识向量,[;]表示将表示式做水平方向的连接,例如将与进行水平方向上的拼接。其中,当邻接实体是三元组的头实体时,即当时,采用公式(11)的第一项计算当邻接实体是三元组的尾实体时,即当时,采用公式(11)的第二项计算公式(12)中,ei表示第i层隐层输出的网络图实体e的知识表示向量。Ne代表e的邻接节点集合,fi(.)是在第i层中的聚合函数,用于根据第一知识向量以及对应的注意力权重进行加权计算,即并非所有的知识內容gm对于理解所输入的文本都是有效的,可以通过注意力机制,为基于邻接实体得到的知识表示向量给予不同的权重,得到目标知识向量。fi(.)的公式可以表示如公式(13)。公式(13)中,T表示转置,表示对应的关键向量,q表示查询向量。Exp表示自然常数e为底的指数函数。
公式(11)、(12)以及(13)的意义可以解释如下:为了可以依据文本的上下文内容动态地确定网络图实体对应的邻接实体对网络图实体的知识表示向量的影响,可以提供一种知识向量确定模型,该知识向量确定模型是可以称为S-GNN(semantic driven graphneural network,基于语义驱动的图神经网络)。可以将关系网络图中,基于TransE算法得到的实体表示向量以及关联关系表示向量输入到S-GNN中,S-GNN模型基于目标语义向量,确定网络图实体与其邻接实体的关联关系对该语义的重要程度,从而在基于邻接实体对应的实体表示向量确定网络图对应的知识表示向量时,对目标语义越重要的关系,对于确定知识表示向量的重要度越大,从而可以挑选得到重要的知识,确定目标实体的知识表示向量。
步骤S410,从关系网络图的各个网络图实体对应的目标知识表示向量中,提取目标实体对应的目标知识表示向量。
具体地,由于关系网络图包括目标实体,即目标实体是其中的一个网络图实体,因此得到的网络图实体对应的知识表示向量后,可以提取得到目标实体所对应的知识表示向量。
本申请实施例中,通过组成关系网络图,获取网络图实体与邻接实体的关联关系的关联关系表示向量,基于关联关系表示向量与目标语义向量得到向量关联度,能够表示该网络图实体与其邻接实体之间的关联关系与目标文本的语义是否有关联或者是否具有正面的影响,故基于该注意力权重与邻接实体的实体表示向量聚合得到网络图实体的知识表示向量,能够使知识的聚合是与目标文本的语义相关的。可以理解,基于邻接实体的实体表示向量聚合得到网络图实体的知识表示向量可以是执行多次的,在每次聚合时,可以结合上一次聚合得到的知识表示向量以及邻接实体的实体表示向量进行聚合,例如,可以利用知识向量确定模型进行聚合,知识向量确定模型可以包括多层隐藏层,可以将上一层隐藏层例如第2层输出的知识表示向量、邻接实体的实体表示向量作为下一层隐藏层例如第3层的输入继续进行处理,得到下一层输出的知识表示向量。
在一个实施例中,如图6所示,提供了一种文本处理模型训练方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤S602,获取训练文本以及训练文本对应的标准文本处理结果。
其中,标准文本处理结果是指对训练文本的标准的处理结果,可以认为是正确的处理结果。例如,假设训练任务为对文本中的单词进行预测,则训练文本可以是经过单词遮蔽处理的文本,例如可以用符号“[mask]”替换完整的文本中某些词语,得到训练文本,则标准文本处理结果为被遮蔽的单词。举个例子,假设完整的文本为“今天是周五”,假设符号“[mask]”替换其中的“是”,则训练文本为“今天[mask]周五”,标准文本处理结果为“是”。又例如,假设训练任务为对文本进行分类,则标准处理结果为文本的正确的分类结果。
具体地,服务器可以获取初始文本,对初始文本进行处理,例如单词遮蔽处理,得到训练文本,并获取训练文本对应的标准文本处理结果。
步骤S604,将训练文本输入到文本编码模型中,得到训练文本编码向量,训练文本编码向量包括训练文本对应的训练语义向量。
具体地,文本编码模型可以对训练文本进行编码,例如对训练文本进行切分,得到对应的训练分词序列,再对各个训练分词序列对应的训练分词进行编码,得到各个训练分词对应的训练分词编码向量,以及表示训练文本的语义的训练语义向量。
步骤S606,获取训练文本对应的训练实体,确定训练实体对应的第二关联实体。
具体地,第二关联实体是指与训练实体存在关联关系的实体。第二关联实体例如可以是与训练实体的关联阶数在预设关联阶数之内的关联实体。得到训练实体以及训练实体对应的第二关联实体的方式可以参照步骤S204的方式,在此不再赘述。
步骤S608,将第二关联实体对应的实体表示向量输入到知识向量确定模型中,根据实体表示向量以及对应的注意力权重,确定训练实体对应的训练知识表示向量,注意力权重根据训练语义向量与关联关系表示向量之间的关联度得到,关联关系表示向量为表示实体关联关系的向量。
具体地,知识向量确定模型用于得到知识表示向量。如何得到训练知识表示向量的方式可以参照得到目标知识表示向量的方式。
例如,服务器可以获取训练实体以及第二关联实体组成的训练网络图,对于训练网络图中的网络图实体,获取表示网络图实体与邻接实体的关联关系的关联关系表示向量;根据关联关系表示向量与训练语义向量得到向量关联度,根据向量关联度确定邻接实体对应的注意力权重;根据邻接实体对应的注意力权重以及邻接实体的实体表示向量,确定训练网络图中,各个实体对应的训练知识表示向量;从训练网络图的各个网络图实体对应的训练知识表示向量中,提取训练实体对应的训练知识表示向量。
又例如,可以将邻接实体的实体表示向量以及关联关系表示向量输入到目标隐层中进行处理,得到训练网络图中各个网络图实体对应的第一知识表示向量,根据网络图实体对应的第一知识表示向量以及对应的邻接实体对应的注意力权重,确定网络图实体对应的训练知识表示向量。其中,在训练阶段,目标隐层的参数可以是在不断的进行优化的。
步骤S610,将训练文本编码向量与训练实体对应的训练知识表示向量输入到融合模型中进行融合处理,得到训练融合结果。
具体地,得到训练融合结果可以参照得到目标融合结果的方式,在此不再详细赘述。
例如,服务器可以根据训练实体对应的训练知识表示向量对训练分词对应的分词编码向量进行知识融入处理,得到训练分词对应的知识融入编码向量;利用训练分词对应的知识融入编码向量,更新训练分词编码向量序列中,训练分词对应的分词编码向量,得到更新后的分词编码向量序列;利用融合模型对更新后的分词编码向量序列以及训练语义向量进行融合处理,得到融合处理后的分词编码向量序列以及融合处理后的训练语义向量。
步骤S612,根据任务处理模型对训练融合结果进行处理,得到训练处理结果。
具体地,任务处理模型用于对文本进行处理。例如可以是翻译模型或者文本分类模型。可以根据不同的需要进行设置。
在一些实施例中,本申请实施例提供的文本处理模型处理方法可以是在对预训练语言模型(Pre-trained Model)进行预训练的预训练阶段执行的,也可以是训练得到预训练语言模型后,根据下游的文本处理任务以及预训练语言模型进行微调(fine tune)的微调阶段执行的。微调阶段是指在预训练好的预训练语言模型的基础上,根据下游的任务对任务处理模型进行调整。在预训练阶段,任务处理模型可以是对遮蔽的单词进行预测的模型或者句子关系判断模型。在微调阶段,可以根据需要用微调阶段的任务处理模型替换预训练任务中的任务处理,再进行微调。例如,微调阶段,可以将其中的任务处理替换为摘要生成模型或者翻译模型等。
步骤S614,根据训练处理结果与标准文本处理结果调整任务处理模型的参数,或者调整任务处理模型以及语言模型的参数,语言模型包括文本编码模型、知识向量确定模型以及融合模型。
具体地,训练处理结果是指模型输出的处理结果。语言模型(language model,LM)是自然语言文本序列的概率分布,表征特定长度特定序列文本存在的可能性。预训练语言模型可以利用大量的文本资料进行训练,将文本中的字词投射到一个张量空间,预训练语言模型例如可以为BERT或者RoBERTa等预训练模型。文本处理模型包括语言模型以及任务处理模型,根据不同的文本处理任务,任务处理模型可以不同,例如任务处理模型可以是文本分类的模型,也可以是进行翻译的模型。语言模型包括文本编码模型、知识向量确定模型以及融合模型。在模型训练时,如果是在微调阶段,则可以是只调整任务处理模型的模型参数,也可以是同时调整任务处理模型以及语言模型的模型参数。在预训练阶段,可以同时调整任务处理模型以及语言模型的模型参数。
在一些实施例中,服务器可以根据训练处理结果与标准文本处理结果的差异得到模型损失值,差异越大,则模型损失值越大。朝着使模型损失值下降的方向调整模型的参数,直至模型收敛,得到文本处理模型。其中模型收敛可以是指模型损失值小于预设损失值。
在预训练阶段,为了更好地将知识融入到预训练语言模型中,可以根据DenoisingEntity Auto-Encoder(DEA)的方法,随机的遮住训练文本中的实体,通过文本处理模型学习使用文本中的实体表示式预测被遮住的实体,是知识图谱中的哪个实体,即知识图谱中的实体为被遮住的实体的概率,根据预测得到知识图谱中的实体为被遮住的实体的概率,通过交叉熵函数计算得到交叉熵损失值,根据交叉熵损失值调整模型的参数。
在一些实施例中,可以根据采用的基底模型确定模型损失值的计算方式,例如可以使用BERTBASE、RoBERTaBASE或者RoBERTaLARGE作为基底模型,可以将本申请的任务处理模型以及语言模型建立在基底模型之上,并使用基底模型的参数作为初始参数,初始化文本编码参数。不同的基底模型,可以对应不同的损失函数,例如当采用BERTBASE为基底模型,则对应的损失函数可以表述如公式(14)。其中表示模型损失值,表示语言模型对应的损失值,表示进行句子关系预测的损失值,例如可以利用[CLS]的表示式去预测给定文本的下一句话(next sentence prediction,NSP),根据预测结果以及标准结果得到句子关系预测的损失值。表示基于DEA算法得到的损失值。而当采用RoBERTaBASE或者RoBERTaLARGE为基底模型,则对应的损失函数可以表述如公式(15)
上述文本处理模型训练方法,由于语言模型包括文本编码模型、知识向量确定模型以及融合模型,知识向量确定模型可以根据实体表示向量以及对应的注意力权重,确定训练实体对应的训练知识表示向量,注意力权重根据训练语义向量与关联关系表示向量之间的关联度得到,关联关系表示向量为表示实体关联关系的向量,由于注意力权重根据训练语义向量与关联关系表示向量之间的关联度得到,因此可以根据训练文本的语义,确定关联实体的实体表示向量对训练实体的表示向量的重要程度,根据重要程度确定注意力权重,从而可以使得得到的训练知识向量能够更好的促进对训练文本的语义的理解,故提高了得到的语言模型以及任务处理模型的文本理解能力,提高了文本处理结果的准确度。
本申请实施例提供的文本处理方法可以应用于对文本进行翻译或者进行分类等任务上。如图7所示,为一些实施例中进行文本翻译的界面图,为将中文翻译成英文的界面,终端可以接收输入的待翻译的句子,当接收到翻译操作,例如点击界面中的“翻译”控件的操作时,可以向服务器发送翻译请求,服务器可以将待翻译的文本输入到语言模型中,得到语言模型对应的目标融合结果,任务处理模型基于目标融合结果得到翻译结果,服务器将翻译结果返回至终端,终端在界面上显示翻译结果。
本申请实施例提供的文本处理方法,通过将预训练语音模型为基底,可以利用目标文本中实体的上下文,从知识图谱中抓取子图(关系网络图),并透过计算,得到实体对应的知识表示向量,并将知识表示向量迁入预训练语言模型,来加强语言模型对于语言的理解能力。例如,对于目标文本“Steph Curry and Klay Thompson led the Warriors tothe 2015 NBA Championship(史蒂芬·柯瑞和克雷·汤普森带领勇士队获得2015年的NBA总冠军)”而言,对于人类,可以根据目标文本推断出史蒂芬·柯瑞和克雷·汤普森为同一支球队效力,但这样对人类直观的资讯,对于语言模型而言,并不一定直观。故可以根据知识图谱的知识来获得。在知识图谱中,并非所有的资讯都是有用的,或是甚至带有负面的影响。例如参见图8,包围实体的圆圈的大小代表实体对目标文本的重要程度,图8中,对于目标实体“Stephen”,对应的三元组[瑞莉,女儿,史蒂芬],在给定的句子中,相对于[史蒂芬,效力于,勇士队]而言,重要性比较低。因此通过目标语义向量与关联关系表示向量,可以确定邻接实体对应的注意力权重,基于邻接实体对应的实体表示向量以及注意力权重确定各个实体的知识表示向量,从而可以重点关注对于目标文本而言,更加重要的知识,得到目标实体的知识表示向量。即通过引入人类的知识,依据文本的上下文去筛选出必要的知识,并通过注意力的机制给予不同权重,最后聚合成目标实体对应的知识表示向量,将知识表示向量嵌入到预训练语言模型中,提高了模型对于文本的理解能力。
以下结合图9,对本申请实施例提供的文本处理方法进行说明,包括以下步骤:
1.获取待处理的目标文本,对目标文本进行编码,得到目标文本编码向量。
具体地,可以将目标文本输入到文本编码模型进行编码,得到目标文本编码向量。目标文本编码向量包括分词编码向量序列以及目标语义向量。例如,假设目标文本为“Steph Curry and Klay Thompson led the Warriors to the 2015 NBAChampionship”,则分词之后,得到的分词结果为“Steph Curry/and/Klay Thompson/led/the/Warriors/to/the/2015 NBA Championship/”,文本编码模型可以编码得到各个分词对应的分词编码向量以及表述目标文本的语义的目标语义向量。例如,目标语义向量可以是[CLS]的语义表示式。
2.获取目标文本中的目标实体,确定目标实体对应的第一关联实体。
3.获取第一关联实体以及目标实体组成的关系网络图.
具体地,目标实体例如可以包括“Steph Curry”和“Klay Thompson”。以下以“Steph Curry”为例进行说明。根据知识图谱,可以得到“Steph Curry”效力于(plays for)“warriors”,以及“Riley”是“Steph Curry”的女儿,故可以获取得到“Steph Curry”对应的第一关联实体“warriors”和“Riley”。假设预设阶数为2阶,则可以继续获取“warriors”对应的关联实体A以及B,以及“Riley”对应的实体C以及D,组成关系网络图。
4.根据关联关系表示向量与目标语义向量得到向量关联度,根据向量关联度确定邻接实体对应的注意力权重.
5.根据邻接实体对应的注意力权重以及邻接实体的目标实体表示向量,确定网络图实体对应的目标知识表示向量。
具体地,如图9所示,文本编码模型的[CLS]的表示式输入到知识向量确定模型中,对于关系网络图中的各网络图实体,可以根据与其邻接实体的实体表示向量得到对应的第一知识表示向量,再基于CLS的表示式以及关联关系表示向量确定第一知识表示向量的注意力权重,基于第一知识表示向量以及对应的注意力权重确定网络图实体的目标知识表示向量。
再参见图9,图9中,对于网络图实体“warriors”的知识表示向量,可以根据其邻接实体A以及B的实体表示向量确定两个第一知识表示向量,可以基于[CLS]的表示式确定两个第一知识表示向量对应的注意力权重,根据第一知识表示向量以及对应的注意力权重得到“warriors”的知识表示向量。
而对于网络图实体“Steph Curry”的知识表示向量,亦可以根据“warriors”的实体表示向量确定第一知识向量a1以及根据“Riley”的实体表示向量确定第一知识向量a2,可以基于[CLS]的表示式确定两个第一知识表示向量对应的注意力权重,例如,图9中,可以得到a1对应的注意力权重为0.9,a2对应的注意力权重为0.1。即知识图谱中,对于“StephCurry and Klay Thompson led the Warriors to the 2015NBA Championship”这一个文本,“Steph Curry”效力于“warriors”这一知识,相对于“Steph Curry”的女儿为“Riley”是更重要的,因此在确定“Steph Curry”对应的知识表示向量时,更重视“Steph Curry”效力于“warriors”这一知识。
6.根据目标实体对应的目标知识表示向量与目标分词对应的分词编码向量进行向量拼接处理,得到目标分词对应的知识融入编码向量。
例如,对于目标实体“Steph Curry”,融合模型可以将文本编码模型编码得到的“Steph Curry”的分词编码向量与“Steph Curry”的目标知识表示向量拼接在一起,得到“Steph Curry”对应的知识融入编码向量。
7.利用目标分词对应的知识融入编码向量,更新分词编码向量序列中,目标分词对应的分词编码向量,得到更新后的分词编码向量序列。
具体地,融合模型可以将分词编码向量序列中,“Steph Curry”的分词编码向量替换为“Steph Curry”对应的知识融入编码向量。
8.利用融合模型对更新后的分词编码向量序列以及目标语义向量进行融合处理,得到融合处理后的分词编码向量序列以及融合处理后的目标语义向量。
具体地,融合模型可以是基于BERT的模型,可以获取目标语义向量以及更新后的分词编码向量序列,继续进行编码,得到融合处理后的分词编码向量序列以及融合处理后的目标语义向量。
10.根据目标融合结果确定目标文本对应的文本处理结果。
具体地,目标融合结果可以是融合处理后的分词编码向量序列或者融合处理后的目标语义向量的至少一个,具体根据实际需要选取。例如对于文本分类任务,可以是将融合处理后的目标语义向量作为目标融合结果。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种文本处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:目标文本编码模块1002、第一实体获取模块1004、目标知识表示向量确定模块1006、第一融合模块1008和文本处理结果确定模块1010,其中:
目标文本编码模块1002,用于获取待处理的目标文本,对目标文本进行编码,得到目标文本编码向量,目标文本编码向量包括目标文本对应的目标语义向量。
第一实体获取模块1004,用于获取目标文本中的目标实体,确定目标实体对应的第一关联实体。
目标知识表示向量确定模块1006,用于根据第一关联实体的实体表示向量以及对应的注意力权重,确定目标实体对应的目标知识表示向量,其中,注意力权重根据目标语义向量与关联关系表示向量之间的关联度得到,关联关系表示向量为表示实体关联关系的向量。
第一融合模块1008,用于将目标文本编码向量与目标实体对应的目标知识表示向量进行融合处理,得到目标融合结果。
文本处理结果确定模块1010,用于根据目标融合结果确定目标文本对应的文本处理结果。
在一些实施例中,目标知识表示向量确定模块包括:关系网络图获取单元,用于获取第一关联实体与目标实体组成的关系网络图;关联关系表示向量获取单元,用于对于关系网络图中的网络图实体,获取表示网络图实体与邻接实体的关联关系的关联关系表示向量;注意力权重确定单元,用于根据关联关系表示向量与目标语义向量得到向量关联度,根据向量关联度确定邻接实体对应的注意力权重;目标知识表示向量确定单元,用于根据邻接实体对应的注意力权重以及邻接实体的实体表示向量,确定网络图实体对应的目标知识表示向量;提取单元,用于从关系网络图的各个网络图实体对应的目标知识表示向量中,提取目标实体对应的目标知识表示向量。
在一些实施例中,网络图实体对应的目标知识表示向量是知识向量确定模型输出的,知识向量确定模型包括至少一个目标隐层,目标知识表示向量确定单元用于:将邻接实体的实体表示向量以及关联关系表示向量输入到目标隐层中进行处理,得到网络图实体对应的第一知识表示向量;根据网络图实体对应的第一知识表示向量以及对应的邻接实体对应的注意力权重,确定网络图实体对应的目标知识表示向量。
在一些实施例中,目标知识表示向量确定单元用于:根据网络图实体与邻接实体之间的实体关联关系确定目标计算方向,目标计算方向为相加或者相减;根据目标计算方向对邻接实体的实体表示向量以及关联关系表示向量进行计算,得到网络图实体对应的计算表示向量;利用目标隐层中的隐层参数对计算表示向量进行处理,得到网络图实体对应的第一知识表示向量。
在一些实施例中,目标知识表示向量确定单元用于:获取知识向量确定模型中,目标隐层对应的上一隐层输出的,邻接实体对应的输出表示向量;目标隐层利用第一隐层参数对计算表示向量以及输出表示向量进行处理,得到网络图实体对应的第一知识表示向量。
在一些实施例中,网络图实体对应的目标知识表示向量是知识向量确定模型输出的,注意力权重确定单元用于:利用目标隐层中的第二隐层参数对关联关系表示向量进行处理,得到关键向量;利用目标隐层中的第三隐层参数对目标语义向量进行处理,得到查询向量;根据关键向量与查询向量计算得到向量关联度;根据向量关联度确定邻接实体对应的注意力权重,向量关联度与邻接实体对应的注意力权重成正相关关系。
在一些实施例中,目标文本包括多个分词,目标文本编码向量包括分词编码向量序列,分词编码向量序列包括各个分词对应的分词编码向量;第一融合模块包括:知识融入编码向量得到单元,用于根据目标实体对应的目标知识表示向量对目标分词对应的分词编码向量进行知识融入处理,得到目标分词对应的知识融入编码向量;更新单元,用于利用目标分词对应的知识融入编码向量,更新分词编码向量序列中,目标分词对应的分词编码向量,得到更新后的分词编码向量序列;融合单元,用于利用融合模型对更新后的分词编码向量序列以及目标语义向量进行融合处理,得到融合处理后的分词编码向量序列以及融合处理后的目标语义向量。
在一些实施例中,文本处理结果确定模块用于:将融合处理后的目标语义向量输入到已训练的文本分类模型中,得到目标文本对应的文本分类结果。
在一些实施例中,知识融入编码向量得到单元用于:根据目标实体对应的目标知识表示向量与目标分词对应的分词编码向量进行向量拼接处理,得到目标分词对应的知识融入编码向量。
在一个实施例中,如图11所示,提供了一种文本处理模型训练装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:训练文本获取模块1102、训练文本编码向量得到模块1104、第二实体获取模块1106、训练知识表示向量确定模块1108、训练融合结果得到模块1110、训练处理结果得到模块1112和调整模块1114,其中:
训练文本获取模块1102,用于获取训练文本以及训练文本对应的标准文本处理结果。
训练文本编码向量得到模块1104,用于将训练文本输入到文本编码模型中,得到训练文本编码向量,训练文本编码向量包括训练文本对应的训练语义向量。
第二实体获取模块1106,用于获取训练文本对应的训练实体,确定训练实体对应的第二关联实体。
训练知识表示向量确定模块1108,用于将第二关联实体对应的实体表示向量输入到知识向量确定模型中,根据实体表示向量以及对应的注意力权重,确定训练实体对应的训练知识表示向量,注意力权重根据训练语义向量与关联关系表示向量之间的关联度得到,关联关系表示向量为表示实体关联关系的向量。
训练融合结果得到模块1110,用于将训练文本编码向量与训练实体对应的训练知识表示向量输入到融合模型中进行融合处理,得到训练融合结果。
训练处理结果得到模块1112,用于根据任务处理模型对训练融合结果进行处理,得到训练处理结果。
调整模块1114,用于根据训练处理结果与标准文本处理结果调整任务处理模型的参数,或者调整任务处理模型以及语言模型的参数,语言模型包括文本编码模型、知识向量确定模型以及融合模型。
关于文本处理装置以及文本处理模型训练装置的具体限定可以参见上文中对于文本处理方法的限定,在此不再赘述。上述文本处理装置以及文本处理模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标文本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本处理方法或者文本处理模型模型训练方法。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种文本处理方法,其特征在于,所述方法包括:
获取待处理的目标文本,对所述目标文本进行编码,得到目标文本编码向量,所述目标文本编码向量包括所述目标文本对应的目标语义向量;
获取所述目标文本中的目标实体,确定所述目标实体对应的第一关联实体;
根据所述第一关联实体的实体表示向量以及对应的注意力权重,确定所述目标实体对应的目标知识表示向量,其中,所述注意力权重根据所述目标语义向量与关联关系表示向量之间的关联度得到,所述关联关系表示向量为表示实体关联关系的向量;
将所述目标文本编码向量与所述目标实体对应的目标知识表示向量进行融合处理,得到目标融合结果;
根据所述目标融合结果确定所述目标文本对应的文本处理结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一关联实体的实体表示向量以及对应的注意力权重,确定所述目标实体对应的目标知识表示向量包括:
获取所述第一关联实体与所述目标实体组成的关系网络图;
对于所述关系网络图中的网络图实体,获取表示所述网络图实体与邻接实体的关联关系的关联关系表示向量;
根据所述关联关系表示向量与所述目标语义向量得到向量关联度,根据所述向量关联度确定所述邻接实体对应的注意力权重;
根据所述邻接实体对应的注意力权重以及所述邻接实体的实体表示向量,确定所述网络图实体对应的目标知识表示向量;
从所述关系网络图的各个网络图实体对应的目标知识表示向量中,提取所述目标实体对应的目标知识表示向量。
3.根据权利要求2所述的方法,其特征在于,所述网络图实体对应的目标知识表示向量是知识向量确定模型输出的,所述知识向量确定模型包括至少一个目标隐层,所述根据所述邻接实体对应的注意力权重以及所述邻接实体的实体表示向量,确定所述网络图实体对应的目标知识表示向量包括:
将所述邻接实体的实体表示向量以及所述关联关系表示向量输入到所述目标隐层中进行处理,得到所述网络图实体对应的第一知识表示向量;
根据所述网络图实体对应的第一知识表示向量以及对应的所述邻接实体对应的注意力权重,确定所述网络图实体对应的目标知识表示向量。
4.根据权利要求3所述的方法,其特征在于,所述将所述邻接实体的实体表示向量以及所述关联关系表示向量输入到所述目标隐层中进行处理,得到所述网络图实体对应的第一知识表示向量包括:
根据所述网络图实体与所述邻接实体之间的实体关联关系确定目标计算方向,所述目标计算方向为相加或者相减;
根据所述目标计算方向对所述邻接实体的实体表示向量以及所述关联关系表示向量进行计算,得到所述网络图实体对应的计算表示向量;
利用所述目标隐层中的隐层参数对所述计算表示向量进行处理,得到所述网络图实体对应的第一知识表示向量。
5.根据权利要求4所述的方法,其特征在于,所述利用所述目标隐层中的隐层参数对所述计算表示向量进行处理,得到所述网络图实体对应的第一知识表示向量包括:
获取所述知识向量确定模型中,所述目标隐层对应的上一隐层输出的,所述邻接实体对应的输出表示向量;
所述目标隐层利用第一隐层参数对所述计算表示向量以及所述输出表示向量进行处理,得到所述网络图实体对应的第一知识表示向量。
6.根据权利要求2所述的方法,其特征在于,所述网络图实体对应的目标知识表示向量是知识向量确定模型输出的,所述知识向量确定模型包括至少一个目标隐层,所述根据所述关联关系表示向量与所述目标语义向量得到向量关联度,根据所述向量关联度确定所述邻接实体对应的注意力权重包括:
利用所述目标隐层中的第二隐层参数对所述关联关系表示向量进行处理,得到关键向量;
利用所述目标隐层中的第三隐层参数对所述目标语义向量进行处理,得到查询向量;
根据所述关键向量与所述查询向量计算得到向量关联度;
根据所述向量关联度确定所述邻接实体对应的注意力权重,所述向量关联度与所述邻接实体对应的注意力权重成正相关关系。
7.根据权利要求1所述的方法,其特征在于,所述目标文本包括多个分词,所述目标文本编码向量包括分词编码向量序列,所述分词编码向量序列包括各个分词对应的分词编码向量;
所述将所述目标文本编码向量与所述目标实体对应的目标知识表示向量进行融合处理,得到目标融合结果包括:
根据所述目标实体对应的目标知识表示向量对目标分词对应的分词编码向量进行知识融入处理,得到所述目标分词对应的知识融入编码向量;
利用所述目标分词对应的知识融入编码向量,更新所述分词编码向量序列中,所述目标分词对应的分词编码向量,得到更新后的分词编码向量序列;
利用融合模型对所述更新后的分词编码向量序列以及所述目标语义向量进行融合处理,得到融合处理后的分词编码向量序列以及融合处理后的目标语义向量。
8.根据权利要求7所述的方法,其特征在于,所述根据所述目标融合结果确定所述目标文本对应的文本处理结果包括:
将融合处理后的目标语义向量输入到已训练的文本分类模型中,得到所述目标文本对应的文本分类结果。
9.根据权利要求7所述的方法,其特征在于,所述根据所述目标实体对应的目标知识表示向量对目标分词对应的分词编码向量进行知识融入处理,得到所述目标分词对应的知识融入编码向量包括:
根据所述目标实体对应的目标知识表示向量与目标分词对应的分词编码向量进行向量拼接处理,得到所述目标分词对应的知识融入编码向量。
10.一种文本处理模型训练方法,其特征在于,所述方法包括:
获取训练文本以及所述训练文本对应的标准文本处理结果;
将所述训练文本输入到文本编码模型中,得到训练文本编码向量,所述训练文本编码向量包括所述训练文本对应的训练语义向量;
获取所述训练文本对应的训练实体,确定所述训练实体对应的第二关联实体;
将所述第二关联实体对应的实体表示向量输入到知识向量确定模型中,根据所述实体表示向量以及对应的注意力权重,确定所述训练实体对应的训练知识表示向量,所述注意力权重根据所述训练语义向量与关联关系表示向量之间的关联度得到,所述关联关系表示向量为表示实体关联关系的向量;
将所述训练文本编码向量与所述训练实体对应的训练知识表示向量输入到融合模型中进行融合处理,得到训练融合结果;
根据任务处理模型对所述训练融合结果进行处理,得到训练处理结果;
根据所述训练处理结果与所述标准文本处理结果调整所述任务处理模型的参数,或者调整所述任务处理模型以及语言模型的参数,所述语言模型包括所述文本编码模型、所述知识向量确定模型以及所述融合模型。
11.一种文本处理装置,其特征在于,所述装置包括:
目标文本编码模块,用于获取待处理的目标文本,对所述目标文本进行编码,得到目标文本编码向量,所述目标文本编码向量包括所述目标文本对应的目标语义向量;
第一实体获取模块,用于获取所述目标文本中的目标实体,确定所述目标实体对应的第一关联实体;
目标知识表示向量确定模块,用于根据所述第一关联实体的实体表示向量以及对应的注意力权重,确定所述目标实体对应的目标知识表示向量,其中,所述注意力权重根据所述目标语义向量与关联关系表示向量之间的关联度得到,所述关联关系表示向量为表示实体关联关系的向量;
第一融合模块,用于将所述目标文本编码向量与所述目标实体对应的目标知识表示向量进行融合处理,得到目标融合结果;
文本处理结果确定模块,用于根据所述目标融合结果确定所述目标文本对应的文本处理结果。
12.根据权利要求11所述的装置,其特征在于,所述目标知识表示向量确定模块包括:
关系网络图获取单元,用于获取所述第一关联实体与所述目标实体组成的关系网络图;
关联关系表示向量获取单元,用于对于所述关系网络图中的网络图实体,获取表示所述网络图实体与邻接实体的关联关系的关联关系表示向量;
注意力权重确定单元,用于根据所述关联关系表示向量与所述目标语义向量得到向量关联度,根据所述向量关联度确定所述邻接实体对应的注意力权重;
目标知识表示向量确定单元,用于根据所述邻接实体对应的注意力权重以及所述邻接实体的实体表示向量,确定所述网络图实体对应的目标知识表示向量;
提取单元,用于从所述关系网络图的各个网络图实体对应的目标知识表示向量中,提取所述目标实体对应的目标知识表示向量。
13.一种文本处理模型训练装置,其特征在于,所述装置包括:
训练文本获取模块,用于获取训练文本以及所述训练文本对应的标准文本处理结果;
训练文本编码向量得到模块,用于将所述训练文本输入到文本编码模型中,得到训练文本编码向量,所述训练文本编码向量包括所述训练文本对应的训练语义向量;
第二实体获取模块,用于获取所述训练文本对应的训练实体,确定所述训练实体对应的第二关联实体;
训练知识表示向量确定模块,用于将所述第二关联实体对应的实体表示向量输入到知识向量确定模型中,根据所述实体表示向量以及对应的注意力权重,确定所述训练实体对应的训练知识表示向量,所述注意力权重根据所述训练语义向量与关联关系表示向量之间的关联度得到,所述关联关系表示向量为表示实体关联关系的向量;
训练融合结果得到模块,用于将所述训练文本编码向量与所述训练实体对应的训练知识表示向量输入到融合模型中进行融合处理,得到训练融合结果;
训练处理结果得到模块,用于根据任务处理模型对所述训练融合结果进行处理,得到训练处理结果;
调整模块,用于根据所述训练处理结果与所述标准文本处理结果调整所述任务处理模型的参数,或者调整所述任务处理模型以及语言模型的参数,所述语言模型包括所述文本编码模型、所述知识向量确定模型以及所述融合模型。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010881097.7A CN112084331B (zh) | 2020-08-27 | 2020-08-27 | 文本处理、模型训练方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010881097.7A CN112084331B (zh) | 2020-08-27 | 2020-08-27 | 文本处理、模型训练方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084331A CN112084331A (zh) | 2020-12-15 |
CN112084331B true CN112084331B (zh) | 2024-09-06 |
Family
ID=73729698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010881097.7A Active CN112084331B (zh) | 2020-08-27 | 2020-08-27 | 文本处理、模型训练方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084331B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489740B (zh) * | 2020-12-17 | 2024-08-20 | 北京惠及智医科技有限公司 | 病历检测方法及相关模型的训练方法和相关设备、装置 |
CN113569584B (zh) * | 2021-01-25 | 2024-06-14 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、电子设备及计算机可读存储介质 |
CN112819164B (zh) * | 2021-02-02 | 2024-05-24 | 京东科技信息技术有限公司 | 事理图谱的推理方法、装置及计算机设备 |
CN113609233B (zh) * | 2021-02-02 | 2024-09-03 | 腾讯科技(深圳)有限公司 | 一种实体对象编码方法、装置、电子设备和存储介质 |
CN112906361A (zh) * | 2021-02-09 | 2021-06-04 | 上海明略人工智能(集团)有限公司 | 文本数据的标注方法和装置、电子设备和存储介质 |
CN113011172B (zh) * | 2021-03-15 | 2023-08-22 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN113221578B (zh) * | 2021-04-30 | 2022-11-25 | 平安科技(深圳)有限公司 | 疾病实体检索方法、装置、设备及介质 |
CN113392182A (zh) * | 2021-05-11 | 2021-09-14 | 宜通世纪物联网研究院(广州)有限公司 | 融合上下文语义约束的知识匹配方法、装置、设备及介质 |
CN113127632B (zh) * | 2021-05-17 | 2022-07-26 | 同济大学 | 基于异质图的文本摘要方法及装置、存储介质和终端 |
CN113449104A (zh) * | 2021-06-22 | 2021-09-28 | 上海明略人工智能(集团)有限公司 | 标签增强模型构建方法、系统、电子设备及存储介质 |
CN113449038B (zh) * | 2021-06-29 | 2024-04-26 | 东北大学 | 一种基于自编码器的矿山智能问答系统及方法 |
CN113535976A (zh) * | 2021-07-09 | 2021-10-22 | 泰康保险集团股份有限公司 | 一种路径的向量化表征方法、装置、计算设备及存储介质 |
CN113743118B (zh) * | 2021-07-22 | 2024-06-21 | 武汉工程大学 | 基于融合关系信息编码的法律文书中的实体关系抽取方法 |
CN114330357B (zh) * | 2021-08-04 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、计算机设备和存储介质 |
CN113609840B (zh) * | 2021-08-25 | 2023-06-16 | 西华大学 | 一种汉语法律判决摘要生成方法及系统 |
CN113722471A (zh) * | 2021-08-30 | 2021-11-30 | 上海明略人工智能(集团)有限公司 | 一种文本摘要生成方法、系统、电子设备及介质 |
CN113743121B (zh) * | 2021-09-08 | 2023-11-21 | 平安科技(深圳)有限公司 | 长文本实体关系抽取方法、装置、计算机设备及存储介质 |
CN114239834B (zh) * | 2021-11-17 | 2022-07-19 | 中国人民解放军军事科学院国防科技创新研究院 | 基于多轮对抗属性共享的对手关系推理方法和装置 |
CN114266230B (zh) * | 2021-12-30 | 2024-11-05 | 讯飞医疗科技股份有限公司 | 文本结构化处理方法、装置、存储介质及计算机设备 |
CN114398496A (zh) * | 2022-01-07 | 2022-04-26 | 北京明略软件系统有限公司 | 文本的知识表示方法、装置、设备及计算机可读介质 |
CN114880551B (zh) * | 2022-04-12 | 2023-05-02 | 北京三快在线科技有限公司 | 上下位关系获取方法、装置、电子设备及存储介质 |
CN116610871B (zh) * | 2023-07-18 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 媒体数据的推荐方法、装置、计算机设备和存储介质 |
CN117198028A (zh) * | 2023-09-01 | 2023-12-08 | 中国建筑第二工程局有限公司 | 基于注意力机制的施工过程中危险位移监测与预警方法 |
CN117573869B (zh) * | 2023-11-20 | 2024-11-12 | 中国电子科技集团公司第十五研究所 | 一种网络引接资源关键要素提取方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN110263324B (zh) * | 2019-05-16 | 2021-02-12 | 华为技术有限公司 | 文本处理方法、模型训练方法和装置 |
CN110209816B (zh) * | 2019-05-24 | 2021-06-08 | 中国科学院自动化研究所 | 基于对抗模仿学习的事件识别及分类方法、系统、装置 |
CN110888980B (zh) * | 2019-10-10 | 2023-12-22 | 天津大学 | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 |
-
2020
- 2020-08-27 CN CN202010881097.7A patent/CN112084331B/zh active Active
Non-Patent Citations (1)
Title |
---|
Contextual Knowledge Selection and Embedding towards Enhanced Pre-Trained Language Models;YuSheng Su等;《arXiv》;20200929;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112084331A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
Hoxha et al. | Toward remote sensing image retrieval under a deep image captioning perspective | |
CN111582409B (zh) | 图像标签分类网络的训练方法、图像标签分类方法及设备 | |
Kavitha et al. | Automatic video captioning using tree hierarchical deep convolutional neural network and ASRNN-bi-directional LSTM | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
WO2020228376A1 (zh) | 文本处理方法、模型训练方法和装置 | |
CN112949647B (zh) | 三维场景描述方法、装置、电子设备和存储介质 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN113792871B (zh) | 神经网络训练方法、目标识别方法、装置和电子设备 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN111783903B (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN113704460A (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN116664719A (zh) | 一种图像重绘模型训练方法、图像重绘方法及装置 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
EP3769270A1 (en) | A method, an apparatus and a computer program product for an interpretable neural network representation | |
CN113408721A (zh) | 神经网络结构搜索方法、装置、计算机设备和存储介质 | |
CN117218477A (zh) | 图像识别及模型训练方法、装置、设备及存储介质 | |
Jedoui et al. | Deep Bayesian active learning for multiple correct outputs | |
CN116912579A (zh) | 基于多层级注意力机制的场景图生成方法 | |
CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
CN113741759B (zh) | 评论信息的展示方法、装置、计算机设备和存储介质 | |
CN113239184B (zh) | 知识库获取方法、装置、计算机设备及存储介质 | |
CN115147890A (zh) | 用于创建将用于图像识别的图像数据嵌入的系统、方法和存储介质 | |
CN113157892B (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
CN115130461A (zh) | 一种文本匹配方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |