CN113642330B - 基于目录主题分类的轨道交通规范实体识别方法 - Google Patents
基于目录主题分类的轨道交通规范实体识别方法 Download PDFInfo
- Publication number
- CN113642330B CN113642330B CN202110814564.9A CN202110814564A CN113642330B CN 113642330 B CN113642330 B CN 113642330B CN 202110814564 A CN202110814564 A CN 202110814564A CN 113642330 B CN113642330 B CN 113642330B
- Authority
- CN
- China
- Prior art keywords
- model
- training
- entity
- word
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 109
- 230000007246 mechanism Effects 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 48
- 238000013461 design Methods 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000002372 labelling Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000013145 classification model Methods 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000011160 research Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 241000238413 Octopus Species 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000013136 deep learning model Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 239000013604 expression vector Substances 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 6
- 230000000873 masking effect Effects 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明主要是基于目录主题分类的轨道交通规范实体识别方法,采用RoBERTa预训练语言模型以及全词遮盖(Whole Word Masking)机制,通过采集较大规模的建筑规范文本实现领域自适应预训练,并加入主题分类信息,提高命名实体识别任务的性能。另外将训练得到的预训练语言模型应用到命名实体识别任务中,为构建领域知识图谱提供重要支持;会带来很多好处:使命名实体识别模型更好地对领域文本进行表示,提高对于建筑实体的识别性能。逐步增加文本语料库,对已经完成的预训练语言模型进行扩展,从而使预训练语言模型适应更多样多复杂的文本内容;一次训练、多次使用,经过领域自适应预训练的语言模型可以直接应用于其他自然语言处理任务中。
Description
技术领域
本发明属于自然语言处理的信息抽取领域,涉及一种基于目录主题分类的轨道交通规范实体识别方法。
背景技术
2013-2020年,我国城轨交通运营线路长度逐年增长。截至2020年底,中国内地累计有40个城市开通城轨交通运营,运营线路达到7978.19公里。轨道交通建设工程属于复杂的工程,在规划、设计、审查和建设过程中设计众多规范。住建部发布的工程设计规范一般都是以文字的形式存在,纸质规范不能直接处理,需要先将其进行数字化存储。但是规范中的数据类型非常复杂,这对处理精度提出了更高的要求。近年来,使用以深度学习为主的算法模型对自然语言进行处理的方法成为主流,尤其是2018年以来,以BERT为代表的预训练语言模型可以很好地理解自然语言文本,从而在更多下游任务中得到很好的结果,如信息抽取、文本分类、智能问答等。与此同时,一些研究者针对垂直领域的自然语言进行数据增强方向的研究,从而更好地理解领域知识。
本发明的核心任务是命名实体识别,虽然在开放领域以及公开的数据集中,该任务已经取得了不错的进展。但是对于特定领域,尤其是在面对轨道交通工程设计规范时,由于缺少必要的知识库,命名实体识别研究仍然面临很多挑战。
(1)规范数据非常复杂
规范内容一般包含文本、图片、表格、公式等多种类型的数据格式。在采集到的数据中常常会出现多种类型数据嵌套的情况,并且会出现同一类型的数据的前后形式不一致的情况,数据之间的层级结构也不统一。
(2)跨学科,多领域的长难句理解困难
由于轨道交通工程设计涉及数十个学科、数百个工种,而国家规范都是由专业人员进行编写的,对专业知识要求极高,文本中包含大量专业术语且都是以复杂句式为主,对于进一步的结构化处理带来很多困难。
(3)低资源与高质量的矛盾
低资源是指无完整术语词典、无明确的实体分类标准、无公开数据集。而下游应用对知识图谱的质量要求极高,以自动合规性检查为例,知识图谱的质量及其完整性直接决定了检查结果的精确性和完备性。
随着深度学习在自然语言处理任务中的深入应用,预训练模型的参数量也迅速增加,为了防止过拟合则需要更大的数据集来充分训练模型参数。然而,对于大多数NLP任务而言,构建大规模的标注数据是一个巨大的挑战,因为标注成本非常巨大,特别是涉及到垂直领域中语义相关的任务时标注难度会急剧上升。相比之下,构建大规模的未标记语料库相对容易,预训练语言模型(Pre-train Models,PTMs)可以利用这些未标记数据从中提取大量的语义信息,并将这些语义表征应用于其他任务。最近的研究表明,PTMs在许多NLP任务中都取得了显著的提高。开源的预训练语言模型与下游任务适配时比较困难,不同的下游任务一般需要不同的语言模型,如文本生成任务通常需要一个特定的任务来预训练编码器和解码器,而文本匹配任务则需要为句子对设计特定的预训练任务。如果不考虑模型的数据分布以及所属领域,任务的差异性可能导致适得其反的结果。
本项目是面向轨道交通领域,将对此领域的未标注文本进行领域自适应预训练,可以利用这些未标记数据从中提取大量的语义信息和领域相关知识,并将这些语义表征应用于其他任务;根据规范目录中的章名或节名对每一条规范文本进行主题分类,加入主题信息。然后将轨道交通规范信息化处理和存储,通过对结构化数据的学习,使模型对非结构化数据信息抽取,可以自动分析提取有用信息。这项研究的推进可以在缩短工程项目审查时间的前提下,保证工程设计的质量,并以特定的数据结构知识图谱进行存储,为智能化应用提供最基础的数据支持,从而提高搜索引擎的速度与智能问答系统的准确性,极大地简化工作的复杂程度,提高了轨道交通领域智能化水平。
发明内容
本发明的目的是提供一种基于目录主题分类的轨道交通规范实体识别方法,解决使用开源预训练语言模型对垂直领域文本不适配导致模型实体识别准确率较低问题。
本发明所采用的技术方案是,基于目录主题分类的轨道交通规范实体识别方法,首先对Google发布的原始RoBERTa预训练模型作为基准模型,通过采集较大规模的轨道交通规范文本实现领域自适应预训练。结合轨道交通规范领域词典给加入全词遮盖(WholeWord Masking)机制,使RoBERTa预训练模型具备轨道交通领域知识的能力;然后将具备领域知识的预训练模型进行主题分类训练,基于每本国家规范都包含的目录数据,使用目录中的章名或节名对每一条规范文本进行主题分类;然后将生成的预训练模型应用到命名实体识别任务中,模型文件输入到主流的NER模型BiLSTM-CRF模型中进行实体识别训练,提出CAT-RailRoBERTa-BiLSTM-CRF模型;最后,将测试集数据输入到训练好的模型中,根据评价指标判断模型的效果;设置经过训练的实体识别模型作为服务端测试模型效果,把预测数据输入进模型后可以输出这条规范的实体和实体类别,并根据识别效果判断模型的可用性。
实验数据来源于国家建标库地铁设计规范,领域自适应预训练数据集采用大量国家制定的轨道交通规范和建筑领域信息规范等语料。
具体包括以下步骤:
步骤1,获取轨道交通规范实验语料;
本发明的实验语料来源于国家建标库国家规范中《地铁设计规范[附条文说明]GB50157-2013》,使用爬虫技术爬取这本规范进行实体识别研究。
步骤2,对获取的轨道交通规范语料进行数据清洗;
去除脏数据包括删除重复信息,纠正存在的错误,检查数据的一致性,对无效值和缺失值进行处理。
步骤3,对清洗完成的数据进行文本分析;
结合《建筑信息模型分类编码标准》和术语标注与术语学标准,专家定义地铁设计规范问题的实体类别。
步骤4,人工标注数据集。
从规范化处理的语料库中,选取1650条规范进行数据标注。结合专家定义的实体类别和专业术语两个方面,人工标注每条规范中的所包含的实体,即标注出实体边界与实体类别。经过对标记数据的实体进行统计集,可得出,标注数据集中实体长度分布如图3所示,各个长度实体出现的频次分布如图4所示,数据集中最长的实体包含45个字符,最短的实体包含2个字符,平均长度为5.33,实体长度主要集中在5,3,7和4。这部分的统计数据对模型训练时超参数设置以及预测结果的分析有重要意义。
步骤5,数据集划分;
本实验数据以地铁设计规范条目信息对数据集进行划分,训练集、验证集与测试集的比例大约为7:2:1。
步骤6,构建实验数据集;
利用标注过实体的规范语料构建实验数据,生成用于命名实体识别任务的轨道交通数据集;采用BIO标注模式,实验数据文件中只包含两列信息,实体和实体对应的标签。
步骤7,构建领域自适应预训练数据集;
通过各种渠道采集与建筑设计规范相关联的文本数据,经过简单清洗后,去除特殊符号,如换行符、制表符、HTML标签等,生成统一格式的json数据;数据集中包括《地铁设计规范》语料,还采集了其他建筑领域的语料,共811,120条规范文本。
步骤8,构建轨道交通领域自适应预训练语言模型;
将步骤7中得到的领域自适应预训练数据集输入到Google提出的RoBERTa-base预训练模型中,加入地铁设计规范的术语词典,生成中文轨道交通领域预训练语言模型。
步骤9,构建主题分类数据集;
利用未标注过的规范语料构建主题分类数据集,生成用于主题分类任务的轨道交通数据集。本方法先采用节名对规范进行主题标记。
步骤10,构建主题分类模型,将步骤8中生成的RoBERTa_800k预训练语言模型和步骤9中构建的主题分类数据集作为文本分类模型的输入,生成CAT-RailRoBERTa预训练模型。
步骤11,构建实体识别模型,将步骤10中生成的预训练语言模型文件和训练集作为实体识别模型的输入。
步骤12,设置训练的实体识别模型作为服务端测试模型效果,将测试数据集输入模型,可识别出测试数据的实体边界和实体类别标签,最终实现轨道交通规范文本中命名实体的自动识别。
步骤8中,构建轨道交通领域自适应预训练语言模型。将步骤7中得到的领域自适应预训练数据集输入到Google提出的RoBERTa-base预训练模型中,加入地铁设计规范的术语词典,生成中文轨道交通领域预训练语言模型。
步骤8.1,本发明采用全词Mask机制,如果一个完整的词的部分子词被Mask,则同属该词的其他部分也会被Mask。
步骤8.2,将人工标注的实体抽取形成实体词典,在调用jieba分词工具时,加入实体词典对输入的文本规范进行分词,以80%的概率将输入的token替换为[mask],10%的概率保持不变,以10%的概率替换为一个随机的token。将此机制引入到RoBERTa模型的分词函数中使其能后在Mask机制预测时轨道交通规范文本实体完整的语义,模型结构如图9所示。以“站台门噪声峰值不应超过70分贝”为例,加入了术语词典之后,预训练语言模型可以更加正确得表示“站台门”和“分贝”这两个实体。
步骤8.3,将800K的轨道交通领域预训练数据和地铁设计规范实体词典输入进模型,设置训练迭代次数为200次,得到轨道交通领域的预训练模型RoBERTa_800k。
BERT模型是通过联合所有层中的上下文信息。它使用多层的双向Transformer作为编码器模块预先训练深度双向表示,BERT-Base包含12层Transformer结构,每层隐状态的维度是768,使用12个头的多头注意力,总参数量约为110M。
Transformer的每个编码器(Encoder)首先将输入的句子经过一个多头注意力(Multi-Head Attention)层;多头注意力层帮助编码器在对每个单词进行编码时关注句子中的其他单词,然后将输入传递到前馈(feed-forward)神经网络中,每个位置的单词对应的前馈神经网络完全相同并且没有共享参数。Multi-Head Attention上方还包括一个Add&Norm层,Add表示残差连接(Residual Connection)用于防止网络退化,Norm表示LayerNormalization,用于对每一层的激活值进行归一化。
Transformer中最关键的部分就是自注意力(Self-attention)计算,在NER任务中,注意力机制可被用于寻找输入句子中相对重要的字或词,使用一个隐藏层和softmax函数计算句子中每个字或词的权重,使模型对于关键信息特别关注并进行充分学习。因为Transformer在进行计算时输入句子和输出句子实际上是同一个序列,使得每个位置的词都有全局的语义信息,有利于建立长依赖关系。利用自注意力机制可以生成不同连接的权重,从而处理变长的信息序列。用X=[x1,x2,…,xn]表示n个输入信息,可以通过以下线性变换得到查询向量序列Q,键向量序列K和值向量序列V,计算方法如公式1到公式3所示。
Q=WQX
公式1
K=WKX
公式2
V=WVX
公式3
得到矩阵Q,K,V之后就可以计算出Self-Attention的输出,计算的公式为公式4:
其中,dk是Q,K矩阵的列数,即向量的维度;KT为K矩阵的转置。
Transformer在自注意力机制的基础上还设置了多头注意力机制,网络结构中h表示存在h个不同的自注意力机制;其中,每组Q/K/V都不相同,用来扩大注意力层的“表示子空间”,然后得到多个不同的权重矩阵;每个权重矩阵可以将输入向量投射到不同的表示子空间,而不同的head可以学习到不同位置上不同的表示子空间的语义;前馈层不需要多个矩阵输入,因此需要将这些权重矩阵拼接之后做缩放点积运算(Scale dot-productattention),保证前馈层所需的输入维度,使得多个encoder的输入输出维度保持一致。句子中各个词之间是并行计算的,没有考虑到词位于句子中的位置信息,即句子的序列信息,因此输入部分的词嵌入,是由词向量和词的位置编码两部分拼接(concat)形成的,然后传入到线性激活函数层(linear)。具体的计算方法如公式5到6所示。
MultiHead(Q,K,V)=Concat(head1,…,headn)WO 公式5
headi=Attention(QWi Q,KWi K,VWi V) 公式6
其中,WO是一个线性映射矩阵。最后,Transformer引入位置编码(PositionEmbedding,PE),为词向量中加入单词的位置信息,具体计算方法如公式7到8所示。
在公式7和8中,pos表示单词的位置,i表示单词的维度。其中,2i表示偶数位置,2i+1表示奇数位置,pos∈(1,2,…,N),N为输入系列的长度,i∈(0,1,…,dmodel/2),dmodel是词嵌入的维度。
步骤10的具体过程如下:
步骤10,构建主题分类模型,将步骤8中生成的RoBERTa_800k预训练语言模型和步骤9中构建的主题分类数据集作为文本分类模型的输入,生成CAT-RailRoBERTa预训练模型。
步骤10.1,文本分类任务将采用BERT-CNN模型,模型结构如图8所示;BERT模型利用步骤8训练好的领域自适应RoBERTa_800k预训练模型,将模型文件导入。将BERT层输出的文本表示向量输入卷积神经网络,可以帮助模型提取更多的特征信息,如局部的相对位置等信息,从而增强模型的鲁棒性与拓展性。
在BERT-CNN的文本分类模型中,假设BERT层的输出矩阵为R={V1,V2,…,Vn},卷积核的长度为l,滑动步长设置为1,那么R可以分为{V1:l,V2:l+1,…,Vn-l+1:n},其中Vi+j表示向量Vi到Vj的级联。假设卷积操作后的结果为P={p1,p2,…,pn},pi的计算方法如公式9所示。
pi=WTVi:i+l-1+b
公式9
其中W是卷积核的参数,通过模型的训练进行更新,b是偏移变量。此外,将采用最大池化降低矩阵的维度,即在池化窗口中选择最大的元素。
步骤10.2,将步骤9中构建的主题分类数据集输入到BERT-CNN模型中;将生成的具有文本分类信息的CAT-RailRoBERTa预训练模型。
步骤11的具体过程如下:
步骤11,构建实体识别模型,将步骤10中生成的预训练语言模型文件和训练集作为实体识别模型的输入。
步骤11.1,将步骤6中构建的实验数据集中输入到经过文本分类训练的CAT-RailRoBERTa模型中,将一条规范转化为向量形式表示,得到一个句子的词向量、段向量和位置向量。CAT-RailRoBERTa模型的文本向量化表示如图10所示,以规范“车辆基地室外消防栓的间距不应大于120m”为例,Token Embeddings是第一个单词CLS标志,可以用于分类任务;Segment Embeddings是用来区分两种句子,可以用于以两个句子为输入的分类任务;Position Emdedding表示位置,三种Embedding都是通过训练得来的。再将段向量和位置向量作为深度学习模型的输入,最后输出融合全文语义信息的文本特征向量。
步骤11.2,将文本特征向量输入到BiLSTM-CRF模型中,生成CAT-RailRoBERTa-BiLSTM-CRF实体识别模型。本发明的有益效果是,
本发明基于RoBERTa预训练语言模型以及全词遮盖(Whole Word Masking)机制,通过采集较大规模的建筑规范文本实现领域自适应预训练,并加入主题分类信息,提高命名实体识别任务的性能。另外将训练得到的预训练语言模型应用到命名实体识别任务中,为构建领域知识图谱提供重要支持,会带来很多好处:第一,可以使命名实体识别模型更好地对领域文本进行表示,提高对于建筑实体的识别性能。第二,可以逐步增加文本语料库,对已经完成的预训练语言模型进行扩展,从而使预训练语言模型适应更多样多复杂的文本内容。第三,一次训练、多次使用,经过领域自适应预训练的语言模型可以直接应用于其他自然语言处理任务中,如文本检索、文本分类和智能问答等任务中。
附图说明
图1是本发明基于目录主题分类的轨道交通规范实体识别方法的总框架图;
图2是本发明基于目录主题分类的轨道交通规范实体识别方法的总流程图;
图3是本发明实验数据集各实体类别长度分布图与各类别出现频次;
图4是本发明实验数据集各个长度实体出现的频次分布图;
图5是本发明基于BIO标注体系的标注案例;
图6是本发明中Transformer编码器模块结构示意图;
图7是本发明中注意力机制模型结构示意图;
图8是本发明中BERT-CNN模型结构示意图;
图9是本发明中RoBERTa-WWM模型的掩码过程结构示意图;
图10是本发明中RoBERTa_800k模型的文本向量化表示示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明目的是提供一种基于目录主题分类的轨道交通规范实体识别方法,具体框架如图1所示。提出了轨道交通领域自适应实体识别模型CAT-RailRoBERTa-BiLSTM-CRF模型,模型结构如图2所示。采用RoBERTa作为领域自适应预训练的基础模型。RoBERTa(Robustly Optimized BERT Approach)采用原始BERT架构,但进行了针对性的修改,可以理解为进行了充分训练的BERT。RoBERTa采用了更大的batch size,使用了更大的预训练语料,删除了NSP(Next Sentence Prediction)任务,采用动态掩码代替静态掩码,采用Byte-Pair Encoding(BPE)进行文本编码,模型结构如图10所示。RoBERTa仅包含1.1亿参数,远小于如今数百亿参数的预训练语言模型,在计算机算力无法快速提升的情况下RoBERTa是最好的基准模型。然后将具备领域知识的预训练模型进行主题分类训练,从规范文本的特点出发,基于每本国家规范都包含的目录数据,使用目录中的章名或节名对每一条规范文本进行主题分类;最后将生成的预训练语言模型输入到BiLSTM-CRF模型中进行实体识别训练。
参照图1,本发明基于目录主题分类的轨道交通规范实体识别方法,按照以下步骤实施:
步骤1,获取轨道交通规范实验语料。本发明的实验语料来源于国家建标库国家规范中《地铁设计规范[附条文说明]GB 50157-2013》,使用爬虫技术爬取这本规范进行实体识别研究。
步骤2:对获取的轨道交通规范语料进行数据清洗。去除脏数据包括删除重复信息,纠正存在的错误,检查数据的一致性,对无效值和缺失值进行处理。
步骤3:对清洗完成的数据进行文本分析。结合《建筑信息模型分类编码标准》和术语标注与术语学标准,专家定义地铁设计规范问题的实体类别。预定义实体类型具体如表1所示。
表1预定义实体类型
步骤4,人工标注数据集。从规范化处理的语料库中,选取1650条规范进行数据标注。结合专家定义的实体类别和专业术语两个方面,人工标注每条规范中的所包含的实体,即标注出实体边界与实体类别。经过对标记数据的实体进行统计集,可得出,标注数据集中实体长度分布如图3所示,各个长度实体出现的频次分布如图4所示,数据集中最长的实体包含45个字符,最短的实体包含2个字符,平均长度为5.33,实体长度主要集中在5,3,7和4。这部分的统计数据对模型训练时超参数设置以及预测结果的分析有重要意义。
步骤5,数据集划分。本实验数据以地铁设计规范条目信息对数据集进行划分,训练集、验证集与测试集的比例大约为7:2:1。
步骤6,构建实验数据集。利用标注过实体的规范语料构建实验数据,生成用于命名实体识别任务的轨道交通数据集;采用BIO标注模式,实验数据文件中只包含两列信息,实体和实体对应的标签。
步骤6.1,我们通过标注工具标注的数据生成json文件,从json文件中提取出标注的实体类型和实体的起始位置和结束位置信息;
步骤6.2,将采用BIO标注策略与位置信息相结合的方式对原始规范文本进行序列标注,其中B(Begin)、I(Intermediate)、O(Other)的缩写,其Begin指所识别对象开始位置上的字符,Intermediate指所识别对象最中间的字符,Other指所识别对象中的非实体字符;基于BIO标注体系的标注案例如图5所示;
步骤6.3,序列标注后将其处理为深度学习模型规定的数据格式,数据文件中每个字符占一行,一行共包含实体和实体标签两列信息,生成轨道交通数据集。
步骤7,构建领域自适应预训练数据集。通过各种渠道采集与建筑设计规范相关联的文本数据,经过简单清洗后(去除特殊符号,如换行符、制表符、HTML标签等),生成统一格式的json数据。数据集中包括《地铁设计规范》语料,还采集了其他建筑领域的语料,共811,120条规范文本。
步骤8,构建轨道交通领域自适应预训练语言模型。将步骤7中得到的领域自适应预训练数据集输入到Google提出的RoBERTa-base预训练模型中,加入地铁设计规范的术语词典,生成中文轨道交通领域预训练语言模型。
步骤8.1,本发明采用全词Mask机制,如果一个完整的词的部分子词被Mask,则同属该词的其他部分也会被Mask,这更符合中文语法习惯,使模型能够更好的学习中文语言表述方式。
步骤8.2,将人工标注的实体抽取形成实体词典,在调用jieba分词工具时,加入实体词典对输入的文本规范进行分词,以80%的概率将输入的token替换为[mask],10%的概率保持不变,以10%的概率替换为一个随机的token。将此机制引入到RoBERTa模型的分词函数中使其能后在Mask机制预测时轨道交通规范文本实体完整的语义,模型结构如图9所示。以“站台门噪声峰值不应超过70分贝”为例,加入了术语词典之后,预训练语言模型可以更加正确得表示“站台门”和“分贝”这两个实体。
步骤8.3,将800K的轨道交通领域预训练数据和地铁设计规范实体词典输入进模型,设置训练迭代次数为200次,得到轨道交通领域的预训练模型RoBERTa_800k。伪代码如下:
BERT(Bidirectional Encoder Representations from Transformers)模型是通过联合所有层中的上下文信息。它使用多层的双向Transformer作为编码器模块预先训练深度双向表示,BERT-Base包含12层Transformer结构,每层隐状态的维度是768,使用12个头的多头注意力,总参数量约为110M。
Transformer的每个编码器(Encoder)首先将输入的句子经过一个多头注意力(Multi-Head Attention)层。如图6所示,多头注意力层帮助编码器在对每个单词进行编码时关注句子中的其他单词,然后将输入传递到前馈(feed-forward)神经网络中,每个位置的单词对应的前馈神经网络完全相同并且没有共享参数。Multi-Head Attention上方还包括一个Add&Norm层,Add表示残差连接(Residual Connection)用于防止网络退化,Norm表示Layer Normalization,用于对每一层的激活值进行归一化。
Transformer中最关键的部分就是自注意力(Self-attention)计算,在NER任务中,注意力机制可被用于寻找输入句子中相对重要的字或词,使用一个隐藏层和softmax函数计算句子中每个字或词的权重,使模型对于关键信息特别关注并进行充分学习。因为Transformer在进行计算时输入句子和输出句子实际上是同一个序列,使得每个位置的词都有全局的语义信息,有利于建立长依赖关系。利用自注意力机制可以生成不同连接的权重,从而处理变长的信息序列。用X=[x1,x2,…,xn]表示n个输入信息,可以通过以下线性变换得到查询向量序列Q,键向量序列K和值向量序列V,计算方法如公式1到公式3所示。
Q=WQX 公式1
K=WKX 公式2
V=WVX 公式3
得到矩阵Q,K,V之后就可以计算出Self-Attention的输出了,计算的公式为公式4:
其中,dk是Q,K矩阵的列数,即向量的维度;KT为K矩阵的转置。
Transformer在自注意力机制的基础上还设置了多头注意力机制,网络结构如图7所示,h表示存在h个不同的自注意力机制;其中,每组Q/K/V都不相同,用来扩大注意力层的“表示子空间”,然后得到多个不同的权重矩阵;每个权重矩阵可以将输入向量投射到不同的表示子空间,而不同的head可以学习到不同位置上不同的表示子空间的语义;前馈层不需要多个矩阵输入,因此需要将这些权重矩阵拼接之后做缩放点积运算(Scale dot-product attention),保证前馈层所需的输入维度,使得多个encoder的输入输出维度保持一致。句子中各个词之间是并行计算的,没有考虑到词位于句子中的位置信息,即句子的序列信息,因此输入部分的词嵌入,是由词向量和词的位置编码两部分拼接(concat)形成的,然后传入到线性激活函数层(linear)。具体的计算方法如公式5到6所示。
MultiHead(Q,K,V)=Concat(head1,…,headn)WO 公式5
headi=Attention(QWi Q,KWi K,VWi V) 公式6
其中,WO是一个线性映射矩阵。最后,Transformer引入位置编码(PositionEmbedding),为词向量中加入单词的位置信息,具体计算方法如公式7到8所示。
在公式7和8中,pos表示单词的位置,i表示单词的维度。其中,2i表示偶数位置,2i+1表示奇数位置,pos∈(1,2,…,N),N为输入系列的长度,i∈(0,1,…,dmodel/2),dmodel是词嵌入的维度。
步骤9,构建主题分类数据集。利用未标注过的规范语料构建主题分类数据集,生成用于主题分类任务的轨道交通数据集;经统计,《地铁设计规范[附条文说明]GB 50157-2013》中,共计29章,150小节。本方法将先采用节名对规范进行主题标记,如第一小节为运营模式,则文本规范标记格式为:3.3.3地铁列车除无人驾驶模式外,应至少配置一名司机驾驶或监控列车运行。1
其中“1”代表第一节,这条规范属于第一节运营模式主题类别。
步骤10,构建主题分类模型,将步骤8中生成的RoBERTa_800k预训练语言模型和步骤9中构建的主题分类数据集作为文本分类模型的输入,生成CAT-RailRoBERTa预训练模型。
步骤10.1,文本分类任务将采用BERT-CNN模型,模型结构如图8所示;BERT模型利用步骤8训练好的领域自适应RoBERTa_800k预训练模型,将模型文件导入。将BERT层输出的文本表示向量输入卷积神经网络,可以帮助模型提取更多的特征信息,如局部的相对位置等信息,从而增强模型的鲁棒性与拓展性。
在BERT-CNN的文本分类模型中,假设BERT层的输出矩阵为R={V1,V2,…,Vn},卷积核的长度为l,滑动步长设置为1,那么R可以分为{V1:l,V2:l+1,…,Vn-l+1:n},其中Vi+j表示向量Vi到Vj的级联。假设卷积操作后的结果为P={p1,p2,…,pn},pi的计算方法如公式9所示。
pi=WTVi:i+l-1+b
公式9
其中W是卷积核的参数,通过模型的训练进行更新,b是偏移变量。此外,将采用最大池化降低矩阵的维度,即在池化窗口中选择最大的元素。
步骤10.2,将步骤9中构建的主题分类数据集输入到BERT-CNN模型中;将生成的具有文本分类信息的CAT-RailRoBERTa预训练模型。
步骤11,构建实体识别模型,将步骤10中生成的预训练语言模型文件和训练集作为实体识别模型的输入。
步骤11.1,将步骤6中构建的实验数据集中输入到经过文本分类训练的CAT-RailRoBERTa模型中,将一条规范转化为向量形式表示,得到一个句子的词向量、段向量和位置向量。CAT-RailRoBERTa模型的文本向量化表示如图10所示,以规范“车辆基地室外消防栓的间距不应大于120m”为例,Token Embeddings是第一个单词CLS标志,可以用于分类任务;Segment Embeddings是用来区分两种句子,可以用于以两个句子为输入的分类任务;Position Emdedding表示位置,三种Embedding都是通过训练得来的。再将段向量和位置向量作为深度学习模型的输入,最后输出融合全文语义信息的文本特征向量。
步骤11.2,将文本特征向量输入到BiLSTM-CRF模型中,生成CAT-RailRoBERTa-BiLSTM-CRF实体识别模型,模型结构如图2所示。伪代码如下:
步骤12,设置训练的实体识别模型作为服务端测试模型效果,将测试数据集输入模型,可识别出测试数据的实体边界和实体类别标签,最终实现轨道交通规范文本中命名实体的自动识别。
Claims (5)
1.基于目录主题分类的轨道交通规范实体识别方法,其特征在于,首先对Google发布的原始RoBERTa预训练模型作为基准模型,通过采集较大规模的轨道交通规范文本实现领域自适应预训练;结合轨道交通规范领域词典给加入全词遮盖机制,使RoBERTa预训练模型具备轨道交通领域知识的能力;然后将具备领域知识的预训练模型进行主题分类训练,基于每本国家规范都包含的目录数据,使用目录中的章名或节名对每一条规范文本进行主题分类;然后将生成的预训练模型应用到命名实体识别任务中,模型文件输入到主流的NER模型BiLSTM-CRF模型中进行实体识别训练,提出CAT-RailRoBERTa -BiLSTM-CRF模型;最后,将测试集数据输入到训练好的模型中,根据评价指标判断模型的效果;设置经过训练的实体识别模型作为服务端测试模型效果,把预测数据输入进模型后可以输出这条规范的实体和实体类别,并根据识别效果判断模型的可用性;
具体包括以下步骤:
步骤1,获取轨道交通规范实验语料;
本发明的实验语料来源于国家建标库国家规范中《地铁设计规范[附条文说明]GB50157-2013》,使用爬虫技术爬取这本规范进行实体识别研究;
步骤2,对获取的轨道交通规范语料进行数据清洗;
去除脏数据包括删除重复信息,纠正存在的错误,检查数据的一致性,对无效值和缺失值进行处理;
步骤3,对清洗完成的数据进行文本分析;
结合《建筑信息模型分类编码标准》和术语标注与术语学标准,专家定义地铁设计规范问题的实体类别;
步骤4,人工标注数据集;
从规范化处理的语料库中,选取 1650条规范进行数据标注;结合专家定义的实体类别和专业术语两个方面,人工标注每条规范中的所包含的实体,即标注出实体边界与实体类别;经过对标记数据的实体进行统计集;
步骤5,数据集划分;
本实验数据以地铁设计规范条目信息对数据集进行划分,训练集、验证集与测试集的比例大约为7:2:1;
步骤6,构建实验数据集;
利用标注过实体的规范语料构建实验数据,生成用于命名实体识别任务的轨道交通数据集;采用 BIO 标注模式,实验数据文件中只包含两列信息,实体和实体对应的标签;
步骤7,构建领域自适应预训练数据集;
通过各种渠道采集与建筑设计规范相关联的文本数据,经过简单清洗后,去除特殊符号,如换行符、制表符、HTML标签等,生成统一格式的json数据;数据集中包括《地铁设计规范》语料,还采集了其他建筑领域的语料,共811,120条规范文本;
步骤8,构建轨道交通领域自适应预训练语言模型;
将步骤7中得到的领域自适应预训练数据集输入到Google提出的RoBERTa-base预训练模型中,加入地铁设计规范的术语词典,生成中文轨道交通领域预训练语言模型;
步骤9,构建主题分类数据集;
利用未标注过的规范语料构建主题分类数据集,生成用于主题分类任务的轨道交通数据集;本方法先采用节名对规范进行主题标记;
步骤10,构建主题分类模型,将步骤8中生成的RoBERTa_800k预训练语言模型和步骤9中构建的主题分类数据集作为文本分类模型的输入,生成CAT-RailRoBERTa预训练模型;
步骤11,构建实体识别模型,将步骤10中生成的预训练语言模型文件和训练集作为实体识别模型的输入;
步骤12,设置训练的实体识别模型作为服务端测试模型效果,将测试数据集输入模型,可识别出测试数据的实体边界和实体类别标签,最终实现轨道交通规范文本中命名实体的自动识别。
2.根据权利要求1所述的基于目录主题分类的轨道交通规范实体识别方法,其特征在于,实验数据来源于国家建标库地铁设计规范,领域自适应预训练数据集采用大量国家制定的轨道交通规范和建筑领域信息规范等语料。
3.根据权利要求2所述的基于目录主题分类的轨道交通规范实体识别方法,其特征在于,所述步骤8中,构建轨道交通领域自适应预训练语言模型;将步骤7中得到的领域自适应预训练数据集输入到Google提出的RoBERTa-base预训练模型中,加入地铁设计规范的术语词典,生成中文轨道交通领域预训练语言模型;
步骤8.1,采用全词Mask机制,如果一个完整的词的部分子词被Mask,则同属该词的其他部分也会被Mask;
步骤8.2,将人工标注的实体抽取形成实体词典,在调用jieba分词工具时,加入实体词典对输入的文本规范进行分词,以80%的概率将输入的token替换为[mask],10%的概率保持不变,以10%的概率替换为一个随机的token;将此机制引入到RoBERTa模型的分词函数中使其能后在Mask机制预测时轨道交通规范文本实体完整的语义;
步骤8.3,将800K的轨道交通领域预训练数据和地铁设计规范实体词典输入进模型,设置训练迭代次数为200次,得到轨道交通领域的预训练模型RoBERTa_800k;
BERT模型是通过联合所有层中的上下文信息;它使用多层的双向Transformer作为编码器模块预先训练深度双向表示, BERT-Base包含12层Transformer结构,每层隐状态的维度是768,使用12个头的多头注意力,总参数量约为110M;
Transformer的每个编码器首先将输入的句子经过一个多头注意力层;多头注意力层帮助编码器在对每个单词进行编码时关注句子中的其他单词,然后将输入传递到前馈神经网络中,每个位置的单词对应的前馈神经网络完全相同并且没有共享参数;Multi-HeadAttention 上方还包括一个 Add & Norm 层,Add 表示残差连接用于防止网络退化,Norm表示 Layer Normalization,用于对每一层的激活值进行归一化;
Transformer中最关键的部分就是自注意力计算,在NER任务中,注意力机制可被用于寻找输入句子中相对重要的字或词,使用一个隐藏层和softmax函数计算句子中每个字或词的权重,使模型对于关键信息特别关注并进行充分学习;因为Transformer在进行计算时输入句子和输出句子实际上是同一个序列,使得每个位置的词都有全局的语义信息,有利于建立长依赖关系;利用自注意力机制可以生成不同连接的权重,从而处理变长的信息序列;用X=[x 1,x 2,…,x n ]表示n个输入信息,通过以下线性变换得到查询向量序列Q,键向量序列K和值向量序列V,计算方法如公式1到公式3所示;
公式1
公式2
公式3
得到矩阵 Q, K, V之后就可以计算出 Self-Attention 的输出,计算的公式为公式4:
公式4
其中,d k是Q,K矩阵的列数,即向量的维度;KT为K矩阵的转置;
Transformer在自注意力机制的基础上还设置了多头注意力机制,网络结构中h表示存在h个不同的自注意力机制;其中,每组Q/K/V都不相同,用来扩大注意力层的“表示子空间”,然后得到多个不同的权重矩阵;每个权重矩阵可以将输入向量投射到不同的表示子空间,而不同的head可以学习到不同位置上不同的表示子空间的语义;前馈层不需要多个矩阵输入,因此需要将这些权重矩阵拼接之后做缩放点积运算,保证前馈层所需的输入维度,使得多个encoder的输入输出维度保持一致;句子中各个词之间是并行计算的,没有考虑到词位于句子中的位置信息,即句子的序列信息,因此输入部分的词嵌入,是由词向量和词的位置编码两部分拼接形成的,然后传入到线性激活函数层;具体的计算方法如公式5到6所示;
公式5
公式6
其中,WO是一个线性映射矩阵;最后,Transformer引入位置编码PE,为词向量中加入单词的位置信息,具体计算方法如公式7到8所示;
公式7
公式8
在公式7和8中,pos表示单词的位置,i表示单词的维度;其中,2i表示偶数位置,2i+1表示奇数位置,pos∈(1, 2, … , N),N为输入系列的长度,i∈(0, 1, … , d model/2),d model是词嵌入的维度。
4.根据权利要求2所述的基于目录主题分类的轨道交通规范实体识别方法,其特征在于,所述步骤10的具体过程如下:
步骤10,构建主题分类模型,将步骤8中生成的RoBERTa_800k预训练语言模型和步骤9中构建的主题分类数据集作为文本分类模型的输入,生成CAT-RailRoBERTa预训练模型;
步骤10.1,文本分类任务将采用BERT-CNN模型, BERT模型利用步骤8训练好的领域自适应RoBERTa_800k预训练模型,将模型文件导入;将BERT层输出的文本表示向量输入卷积神经网络,帮助模型提取特征信息,特征信息包括局部的相对位置信息;
在BERT-CNN的文本分类模型中,假设BERT层的输出矩阵为R = {V 1,V 2,…,V n},卷积核的长度为l,滑动步长设置为1,那么可以分为{V 1:l,V 2:l+1,…,V n-l+1:n},其中V i:j表示向量V i到V j的级联;假设卷积操作后的结果为P = {p 1,p 2,…,p n},p i的计算方法如公式9所示;
公式9
其中是卷积核的参数,通过模型的训练进行更新,/>是偏移变量;此外,将采用最大池化降低矩阵的维度,即在池化窗口中选择最大的元素;
步骤10.2,将步骤9中构建的主题分类数据集输入到BERT-CNN模型中;将生成的具有文本分类信息的CAT-RailRoBERTa预训练模型。
5.根据权利要求2所述的基于目录主题分类的轨道交通规范实体识别方法,其特征在于,所述步骤11的具体过程如下:
步骤11,构建实体识别模型,将步骤10中生成的预训练语言模型文件和训练集作为实体识别模型的输入;
步骤11.1,将步骤6中构建的实验数据集中输入到经过文本分类训练的CAT-RailRoBERTa模型中,将一条规范转化为向量形式表示,得到一个句子的词向量、段向量和位置向量;CAT-RailRoBERTa模型的文本向量化表示,Token Embeddings是第一个单词CLS标志,可以用于分类任务;Segment Embeddings是用来区分两种句子,用于以两个句子为输入的分类任务;Position Emdedding表示位置,三种Embedding都是通过训练得来的;再将段向量和位置向量作为深度学习模型的输入,最后输出融合全文语义信息的文本特征向量;
步骤11.2,将文本特征向量输入到 BiLSTM-CRF 模型中,生成CAT-RailRoBERTa-BiLSTM-CRF实体识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110814564.9A CN113642330B (zh) | 2021-07-19 | 2021-07-19 | 基于目录主题分类的轨道交通规范实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110814564.9A CN113642330B (zh) | 2021-07-19 | 2021-07-19 | 基于目录主题分类的轨道交通规范实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642330A CN113642330A (zh) | 2021-11-12 |
CN113642330B true CN113642330B (zh) | 2024-04-30 |
Family
ID=78417690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110814564.9A Active CN113642330B (zh) | 2021-07-19 | 2021-07-19 | 基于目录主题分类的轨道交通规范实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642330B (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114153802B (zh) * | 2021-12-03 | 2024-09-06 | 西安交通大学 | 一种基于Bert和残差自注意力机制的政务文件主题分类方法 |
CN114444116B (zh) * | 2021-12-20 | 2024-08-30 | 西安理工大学 | 基于安全访问控制知识图谱的授权鉴权引擎生成方法 |
CN114416930A (zh) * | 2022-02-09 | 2022-04-29 | 上海携旅信息技术有限公司 | 搜索场景下的文本匹配方法、系统、设备及存储介质 |
CN114580445B (zh) * | 2022-03-10 | 2023-03-10 | 昆明理工大学 | 基于领域感知的掩码子结构的多领域自适应神经机器翻译方法 |
CN114841658B (zh) * | 2022-04-07 | 2024-08-16 | 中国矿业大学 | 一种基于分类的专项施工方案强制性条文合规性审查方法 |
CN114925694B (zh) * | 2022-05-11 | 2024-06-04 | 厦门大学 | 一种利用实体判别信息来提高生物医学命名体识别的方法 |
CN115392252A (zh) * | 2022-09-01 | 2022-11-25 | 广东工业大学 | 一种融合自注意力与层级残差记忆网络的实体识别方法 |
CN115129826B (zh) * | 2022-09-01 | 2022-11-22 | 国网智能电网研究院有限公司 | 电力领域模型预训练方法、精调方法、装置及设备 |
CN115687939B (zh) * | 2022-09-02 | 2024-09-24 | 重庆大学 | 一种基于多任务学习的Mask文本匹配方法及介质 |
CN115293751B (zh) * | 2022-10-08 | 2023-01-06 | 深圳市地铁集团有限公司 | 一种轨道交通bim模型数据的处理方法、系统及设备 |
CN115422939B (zh) * | 2022-10-14 | 2024-04-02 | 芽米科技(广州)有限公司 | 一种基于大数据的细粒度商品命名实体识别方法 |
CN115563283B (zh) * | 2022-10-20 | 2023-04-25 | 北京大学 | 一种基于提示学习的文本分类方法 |
CN115936014B (zh) * | 2022-11-08 | 2023-07-25 | 上海栈略数据技术有限公司 | 一种医学实体对码方法、系统、计算机设备、存储介质 |
CN116484848B (zh) * | 2023-03-17 | 2024-03-29 | 北京深维智讯科技有限公司 | 一种基于nlp的文本实体识别方法 |
CN116910646B (zh) * | 2023-07-04 | 2024-02-09 | 南京航空航天大学 | So网站中知识单元的内部链接目的分类方法 |
CN116756624B (zh) * | 2023-08-17 | 2023-12-12 | 中国民用航空飞行学院 | 一种面向民航监管事项检查记录处理的文本分类方法 |
CN117350271A (zh) * | 2023-09-28 | 2024-01-05 | 上海臣道网络科技有限公司 | 一种基于大语言模型的ai内容生成方法及服务云平台 |
CN117010409B (zh) * | 2023-10-07 | 2023-12-12 | 成都中轨轨道设备有限公司 | 一种基于自然语言语义分析的文本识别方法及系统 |
CN117132997B (zh) * | 2023-10-26 | 2024-03-12 | 国网江西省电力有限公司电力科学研究院 | 一种基于多头注意力机制和知识图谱的手写表格识别方法 |
CN117493568B (zh) * | 2023-11-09 | 2024-04-19 | 中安启成科技有限公司 | 一种端到端软件功能点提取与识别方法 |
CN117743573B (zh) * | 2023-12-11 | 2024-10-18 | 中国科学院文献情报中心 | 一种语料自动标注的方法、装置、存储介质及电子设备 |
CN117540009B (zh) * | 2024-01-09 | 2024-03-26 | 江西省科学院能源研究所 | 一种基于增强预训练文本匹配模型的文本匹配方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN111985240A (zh) * | 2020-08-19 | 2020-11-24 | 腾讯云计算(长沙)有限责任公司 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
CN112270193A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 基于bert-flat的中文命名实体识别方法 |
CN112733550A (zh) * | 2020-12-31 | 2021-04-30 | 科大讯飞股份有限公司 | 基于知识蒸馏的语言模型训练方法、文本分类方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210042662A1 (en) * | 2019-08-06 | 2021-02-11 | Ninghua Albert Pu | Interactive Information Capture and Retrieval with User-Defined and/or Machine Intelligence Augmented Prompts and Prompt Processing |
-
2021
- 2021-07-19 CN CN202110814564.9A patent/CN113642330B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN111985240A (zh) * | 2020-08-19 | 2020-11-24 | 腾讯云计算(长沙)有限责任公司 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
CN112270193A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 基于bert-flat的中文命名实体识别方法 |
CN112733550A (zh) * | 2020-12-31 | 2021-04-30 | 科大讯飞股份有限公司 | 基于知识蒸馏的语言模型训练方法、文本分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于BERT-BiLSTM-CRF模型的中文实体识别;谢腾;杨俊安;刘辉;;计算机系统应用;20200715(第07期);52-59 * |
Also Published As
Publication number | Publication date |
---|---|
CN113642330A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113642330B (zh) | 基于目录主题分类的轨道交通规范实体识别方法 | |
CN109918666B (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN110110054B (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN111858944B (zh) | 一种基于注意力机制的实体方面级情感分析方法 | |
CN111639171A (zh) | 一种知识图谱问答方法及装置 | |
CN106202010A (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN117151220B (zh) | 一种基于实体链接与关系抽取的行业知识库系统及方法 | |
CN114547298B (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN114925157B (zh) | 一种基于预训练模型的核电站维修经验文本匹配方法 | |
CN113196277A (zh) | 用于检索自然语言文档的系统 | |
CN113168499A (zh) | 检索专利文档的方法 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN113196278A (zh) | 训练自然语言检索系统的方法、检索系统以及对应的用途 | |
CN114969275A (zh) | 一种基于银行知识图谱的对话方法及其系统 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN114897167A (zh) | 生物领域知识图谱构建方法及装置 | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和系统及搭建系统的方法 | |
CN116010553A (zh) | 一种基于双路编码和精确匹配信号的观点检索系统 | |
CN113971394A (zh) | 文本复述改写系统 | |
CN113282757A (zh) | 基于电商领域表示模型的端到端三元组提取方法及系统 | |
CN115203236B (zh) | 基于模板检索的文本到sql生成方法 | |
CN109815497B (zh) | 基于句法依存的人物属性抽取方法 | |
CN115329088A (zh) | 图神经网络事件检测模型的鲁棒性分析方法 | |
CN111382333B (zh) | 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |