CN113312912A - 一种用于交通基础设施检测文本的机器阅读理解方法 - Google Patents
一种用于交通基础设施检测文本的机器阅读理解方法 Download PDFInfo
- Publication number
- CN113312912A CN113312912A CN202110711212.0A CN202110711212A CN113312912A CN 113312912 A CN113312912 A CN 113312912A CN 202110711212 A CN202110711212 A CN 202110711212A CN 113312912 A CN113312912 A CN 113312912A
- Authority
- CN
- China
- Prior art keywords
- character
- text
- paragraph
- traffic infrastructure
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 85
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000009795 derivation Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims 5
- 230000000694 effects Effects 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术领域,具体涉及一种用于交通基础设施检测文本的机器阅读理解方法,包括:获取问题文本和待检测的段落文本;阅读理解模型首先对问题文本和段落文本进行编码得到对应的待检测字符向量;然后将待检测字符向量和设置的交通基础设施检测领域词向量进行融合得到对应的嵌入融合表示,并对嵌入融合表示进行语义特征捕捉;最后根据嵌入融合表示和捕捉的语义特征计算对应答案在段落文本中的字符位置,并将对应答案的字符位置作为段落文本的机器阅读理解结果;输出段落文本对应的机器阅读理解结果。本发明中的机器阅读理解方法能够兼顾理解全面性和理解准确性,从而能够提升交通基础设施检测领域中文文本的理解效果。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种用于交通基础设施检测文本的机器阅读理解方法。
背景技术
机器阅读理解是自然语言处理(Natural Language Processing,NLP)领域里的重要研究方向,其要求机器基于给定的上下文回答问题。机器阅读理解是人工智能技术的重要组成部分,过去几年里,随着深度学习的出现,机器阅读理解已经赢得了越来越广泛的关注,尤其是随着以BERT(Bidirectional Encoder Representations from Transformer)为代表的预训练语言模型的发展,机器阅读理解任务有着飞速的发展,主要体现为从关注限定文本到结合外部知识,从关注特定片段到对上下文的全面理解。
相比于普遍存在的面向英文文本的通用领域机器阅读理解方法,面向中文文本的机器阅读理解的理解准确率并不高,例如中文文本中不同的分词对应的语义等会发生变化,进而得到不同的理解。为此,公开号为CN110442691A的中国专利公开了《机器阅读理解中文的方法》,其通过BERT模型对第一问题中文文本和第一中文文本进行向量化训练,然后通过预设的第一中文机器阅读理解模型进行计算,得到对应问题文本的第一答案文本。该现有方案中,由于无需对第一问题中文文本和第一中文文本进行分词处理,所以不存在分词不当的情况发生,使得最终得到的第一答案文本的准确率更高。
申请人致力于交通基础设施检测领域的研究,交通基础设施在道路、桥梁日常服役中受到交通荷载、环境激励、突发事件以及其结构材料属性退化等内外因素的共同作用。同时,交通基础设施管理养护单位在日常检测中,积累了海量的交通基础设施健康管理历史数据。这些海量的文本数据包含大量的基本属性、结构参数、养护维修建议和检测病害等信息,并主要以自由文本、表格、图片等非结构化或半结构化数据构成。其中,对于检测单位出具的交通基础设施检测报告的文本检测尤为重要。
申请人发现,上述现有方案中的机器阅读理解方法仅能够针对通用的中文文本实施。然而,不同检测单位出具的交通基础设施检测报告在行文思路、符号运用和报告规范上具有较大差异,采用现有机器阅读理解方法会使得交通基础设施检测报告中包含的信息不能被计算机有效的利用,导致机器阅读理解的全面性不好。同时,交通基础设施检测领域具有丰富的专业术语,使用现有机器阅读理解方法难以对文本进行准确分词并理解其语义特征,导致机器阅读理解的准确性不好。因此,如何设计一种能够应用于交通基础设施检测文本且能够兼顾理解全面性和理解准确性的机器阅读理解方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种能够应用于交通基础设施检测文本且能够兼顾理解全面性和理解准确性的机器阅读理解方法,从而能够提升交通基础设施检测领域中文文本的理解效果。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种用于交通基础设施检测文本的机器阅读理解方法,具体包括:
S1:获取问题文本和待检测的段落文本;
S2:将所述问题文本和所述段落文本输入经过预先训练的阅读理解模型中;
所述阅读理解模型首先对所述问题文本和所述段落文本进行编码得到对应的待检测字符向量;然后将所述待检测字符向量和设置的交通基础设施检测领域词向量进行融合得到对应的嵌入融合表示,并对所述嵌入融合表示进行语义特征捕捉;最后根据所述嵌入融合表示和捕捉的语义特征计算对应答案在所述段落文本中的字符位置,并将对应答案的字符位置作为所述段落文本的机器阅读理解结果;
S3:输出所述段落文本对应的机器阅读理解结果。
优选的,步骤S2中,通过如下步骤对所述问题文本和所述段落文本进行编码:
S201:分别对所述问题文本和所述段落文本进行字符序列化表示,得到对应的问题字符序列和段落字符序列;
S202:通过bert模型对所述问题字符序列和所述段落字符序列进行向量嵌入,得到对应的问题字符向量和段落字符向量;
S203:对整合所述问题字符向量和段落字符向量得到对应的待检测字符向量。
优选的,问题字符序列表示为Q=[q1,q2,...,qm];式中:qi表示问题文本中的第i个字符;
段落字符序列表示为C=[d1,d2,...,dn];式中:di表示段落文本中的第i个字符;
整合时使用[SEP]作为分隔符,通过[[CLS]Q[SEP]C[SEP]]的形式构成待检测字符向量。
优选的,步骤S2中,通过如下步骤设置交通基础设施检测领域词向量:
S211:将已有的交通基础设施检测报告作为语料,并通过jieba分词的方式构建对应的交通基础设施检测领域词典;
S212:通过word2vec中的skip-gram模型对交通基础设施检测领域词典中的各个词进行词向量嵌入和词向量训练,得到对应的交通基础设施检测领域词向量。
优选的,步骤S212中,word2vec中的skip-gram模型通过如下步骤进行词向量训练:
将交通基础设施检测领域词典中的每个词表示成两个d维向量,分别作为中心词和背景词;
对中心词和背景词的向量做内积运算,并结合softmax函数计算中心词生成背景词的条件概率;
定义条件概率的损失函数并通过求导计算梯度的方式更新背景词的权重。
优选的,步骤S2中,通过如下步骤计算对应答案在所述段落文本中的字符位置:
S221:根据捕捉的语义特征确定所述问题文本中问题的最终表示和所述段落文本中各个字符的最终表示,并将所述嵌入融合表示通过线性层降为二维表示;
S222:根据对应的二维表示结合softmax函数分别计算对应答案的开始位置预测概率分数和结束位置预测概率分数;
S223:将开始位置预测概率分数取最大值时对应字符的位置作为对应答案的开始字符位置;将结束位置预测概率分数取最大值时对应字符的位置作为对应答案的结束字符位置;
S224:将对应答案的开始字符位置和结束字符位置作为所述段落文本的机器阅读理解结果。
优选的,通过如下公式计算开始位置预测概率:
优选的,步骤S2中,通过star-transformer模型对所述待检测字符向量和所述交通基础设施检测领域词向量进行融合和语义特征捕捉。
优选的,训练所述阅读理解模型时,通过如下公式计算star-transformer模型的多头注意力:
式中:q、K、V分别表示查询向量、键向量和值向量;d表示向量维度;
式中:ai=Att(qWi Q,HWi K,HWi V),i∈[1,k];给定序列H∈Rn×d,K=HWK,V=HWV;WK、WV、Wi Q,Wi K,Wi V,WO均表示star-transformer模型的可学习参数;k表示头的数量。
优选的,训练所述阅读理解模型时,通过如下步骤更新star-transformer模型的中继节点和卫星节点:
通过公式H0=E和S0=average(E)初始化卫星节点Ht∈Rn×d和中继节点st∈R1×d;
通过如下公式更新所有的卫星节点:
式中:表示t时刻第i个卫星节点的全局语义信息;表示t时刻第i个卫星节点的状态,表示t-1时刻第i个卫星节点的状态;RELU为激活函数,用于过滤小于0的值,LayerNorm表示层正则化,用于完成数据归一化;
结合当前卫星节点通过多头注意力机制和RELU激活函数、层正则化和如下公式更新中继节点:
st=MultiAtt(st-1,[st-1;Ht]);
st=LayerNorm(ReLU(st));
式中:st表示t时刻中继节点的状态,st-1表示t-1时刻中继节点的状态;RELU为激活函数,用于过滤小于0的值,LayerNorm表示层正则化,用于完成数据归一化。
本发明中的机器阅读理解方法与现有技术相比,具有如下有益效果:
在本发明中,通过文本编码的方式统一文本格式,使得模型能够适应不同行文思路、符号运用和报告规范的文本,即能够提升机器阅读理解的全面性;同时,通过融合交通基础设施检测领域词向量的方式引入了交通基础设施检测领域的外部知识,使得能够对文本进行准确分词并理解其语义特征,进而能够提高答案在词粒度上的表现效果,即能够提升机器阅读理解的准确性,因此,本发明能够兼顾理解全面性和理解准确性,从而能够提升交通基础设施检测领域中文文本的理解效果。此外,本发明通过捕捉语义特征的方式学习和关注局部以及长距离依赖关系,能够帮助捕捉长文本中的长距离语义依赖关系,能够有效地降低局部和非局部成分的无偏差学习负担,从而能够提模型泛化能力。最后,本发明通过计算字符位置的方式确定问题文本的答案,能够进一步提升机器阅读理解的准确性。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为实施例中机器阅读理解方法的逻辑框图;
图2为实施例中阅读理解模型的网络结构图;
图3为实施例中段落文本、问题文本和对应答案的示意图。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例:
本实施例中公开了一种用于交通基础设施检测文本的机器阅读理解方法。
如图1所示,一种用于交通基础设施检测文本的机器阅读理解方法,具体包括:
S1:获取问题文本和待检测的段落文本。具体的,待检测的段落文本包括交通基础设施检测报告中的某一段或几段的文本内容。
S2:将问题文本和段落文本输入经过预先训练的阅读理解模型中;
结合图2所示,阅读理解模型包括编码层、融合层和输出层(全连接层)。首先在编码层中对问题文本和段落文本进行编码得到对应的待检测字符向量;然后在融合层中将待检测字符向量和设置的交通基础设施检测领域词向量进行融合得到对应的嵌入融合表示,并对嵌入融合表示进行语义特征捕捉;最后在输出层中根据嵌入融合表示和捕捉的语义特征计算对应答案在段落文本中的字符位置,并将对应答案的字符位置作为段落文本的机器阅读理解结果;
S3:输出段落文本对应的机器阅读理解结果。具体的,根据输出的机器阅读理解结果能够在待检测的段落文本中确定答案的所在位置,段落文本、问题文本和对应答案之间的对应关系如图3所示。
在本发明中,通过文本编码的方式统一文本格式,使得模型能够适应不同行文思路、符号运用和报告规范的文本,即能够提升机器阅读理解的全面性;同时,通过融合交通基础设施检测领域词向量的方式引入了交通基础设施检测领域的外部知识,使得能够对文本进行准确分词并理解其语义特征,进而能够提高答案在词粒度上的表现效果,即能够提升机器阅读理解的准确性,因此,本发明能够兼顾理解全面性和理解准确性,从而能够提升交通基础设施检测领域中文文本的理解效果。此外,本发明通过捕捉语义特征的方式学习和关注局部以及长距离依赖关系,能够帮助捕捉长文本中的长距离语义依赖关系,能够有效地降低局部和非局部成分的无偏差学习负担,从而能够提高模型泛化能力。最后,本发明通过计算字符位置的方式确定问题文本的答案,能够进一步提升机器阅读理解的准确性。
具体实施过程中,通过如下步骤对问题文本和段落文本进行编码:
S201:分别对问题文本和段落文本进行字符序列化表示,得到对应的问题字符序列和段落字符序列。具体的,问题字符序列表示为Q=[q1,q2,...,qm];式中:qi表示问题文本中的第i个字符;段落字符序列表示为C=[d1,d2,...,dn];式中:di表示段落文本中的第i个字符。
S202:通过bert模型对问题字符序列和段落字符序列进行向量嵌入,得到对应的问题字符向量和段落字符向量。具体的,在bert模型自带的词典中通过查表操作得到字符的向量。
S203:对整合问题字符向量和段落字符向量得到对应的待检测字符向量。具体的,结合图2所示,整合时使用[SEP]作为分隔符,通过[[CLS]Q[SEP]C[SEP]]的形式构成待检测字符向量。
在本发明中,通过bert模型能够有效的对问题文本和段落文本进行编码,进而能够统一文本格式,使得模型能够适应不同行文思路、符号运用和报告规范的文本,从而能够进一步提升机器阅读理解的全面性。
具体实施过程中,通过如下步骤设置交通基础设施检测领域词向量:
S211:将已有的交通基础设施检测报告作为语料,并通过jieba分词的方式构建对应的交通基础设施检测领域词典。具体的,jieba分词的具体过程是:结合交通基础设施检测领域知识,在现有中文分词算法基础上对交通基础设施检测报告进行语料拆分、标注,并构建交通基础设施检测语料库,然后识别交通基础设施检测语料库中的新词、区分有歧义的专业术语,构建交通基础设施检测领域词典,进一步提高面向交通基础设施检测领域的中文分词精度。
S212:通过word2vec中的skip-gram模型对交通基础设施检测领域词典中的各个词进行词向量嵌入和词向量训练,得到对应的交通基础设施检测领域词向量(交通基础设施检测领域知识表示)。
具体的,通过如下步骤进行词向量训练:
将交通基础设施检测领域词典中的每个词表示成两个d维向量,分别作为中心词和背景词。具体的,作为中心词时,向量表示为vi∈Rd;作为背景词时,向量表示为ui∈Rd;其中,中心词wc在词典中索引为c,背景词wo在词典中索引为o。
对中心词和背景词的向量做内积运算,并结合softmax函数计算中心词生成背景词的条件概率。
定义条件概率的损失函数并通过求导计算梯度的方式更新背景词的权重。
在本发明中,通过jieba分词和word2vec训练得到能够增强输入特征表达、能够提高面向交通基础设施检测领域中文分词精度的交通基础设施检测领域词向量,使得能够对文本进行准确分词并理解其语义特征,进而能够提高答案在词粒度上的表现效果,从而能够进一步提升机器阅读理解的准确性。
具体实施过程中,通过如下步骤计算对应答案在段落文本中的字符位置:
S221:根据捕捉的语义特征确定问题文本中问题的最终表示和段落文本中各个字符的最终表示,并将嵌入融合表示通过线性层降为二维表示;
S222:根据对应的二维表示结合softmax函数分别计算对应答案的开始位置预测概率分数和结束位置预测概率分数;
S223:将开始位置预测概率分数取最大值时对应字符的位置作为对应答案的开始字符位置;将结束位置预测概率分数取最大值时对应字符的位置作为对应答案的结束字符位置;
S224:将对应答案的开始字符位置和结束字符位置作为段落文本的机器阅读理解结果。
具体的,通过如下公式计算开始位置预测概率:
在本发明中,通过计算开始字符位置和结束字符位置概率分数的方式能够有效预测答案,进而能够准确的确定问题文本的答案,从而能够进一步提升机器阅读理解的准确性。
具体实施过程中,步骤S2中,通过star-transformer模型对待检测字符向量和交通基础设施检测领域词向量进行融合和语义特征捕捉。
在本发明中,以Bert(预训练微调模型)为Baseline,针对交通基础设施检测领域大部分需要回答的答案长度过长,而引入star-transformer模型机制实现融合和语义特征捕捉,star-transformer模型的星型拓扑结构可以有侧重的学习和关注局部以及长距离依赖关系,能够有效的帮助捕捉长文本中的长距离语义依赖关系,并且由于其结构具有较好的并行能力和较低的复杂度,能够更为有效地降低局部和非局部成分的无偏差学习负担,从而能够进一步提高模型的泛化能力。
具体实施过程中,通过已有交通基础设施检测报告作为训练文本数据对阅读理解模型进行训练,训练过程参考步骤S2:首先在编码层中对训练文本数据及其问题文本进行编码得到对应的训练字符向量;然后在融合层中将训练字符向量和设置的交通基础设施检测领域词向量进行融合得到对应的训练嵌入融合表示,并对训练嵌入融合表示进行语义特征捕捉;最后在输出层中根据训练嵌入融合表示和捕捉的语义特征计算对应答案在段落文本中的字符位置,并将对应答案的字符位置作为段落文本的机器阅读理解训练结果。通过将机器阅读理解训练结果与人工输入结果比较的方式评价阅读理解模型的训练效果,当阅读理解模型输出机器阅读理解训练结果的损失很小且趋于收敛时模型训练完成。
具体的,训练阅读理解模型时,通过如下公式计算star-transformer模型的多头注意力:
式中:q、K、V分别表示查询向量、键向量和值向量;d表示向量维度;
式中:ai=Att(qWi Q,HWi K,HWi V),i∈[1,k];给定序列H∈Rn×d,K=HWK,V=HWV;WK、WV、Wi Q,Wi K,Wi V,WO均表示可star-transformer模型的学习参数;k表示头的数量。
具体的,训练阅读理解模型时,需要更新Star-transformer模型中的一些参数,结构中需要一个中继节点st∈R1×d和许多卫星节点Ht∈Rn×d,本实施例将融合层得到的输出作为嵌入,记为E=[e1,…,en],ei∈R1×d是第i个字词的联合嵌入。
通过如下步骤更新star-transformer模型的中继节点和卫星节点:
通过如下公式更新所有的卫星节点:
式中:表示t时刻第i个卫星节点的全局语义信息(全局语义信息融合了历史信息、相邻局部信息、初始信息和上一时刻的中继节点信息);表示t时刻第i个卫星节点的状态,表示t-1时刻第i个卫星节点的状态;RELU为激活函数,用于过滤小于0的值,LayerNorm表示层正则化,用于完成数据归一化;
结合当前卫星节点通过多头注意力机制和RELU激活函数、层正则化和如下公式更新中继节点:
st=MultiAtt(st-1,[st-1;Ht]);整个公式表示st是由t-1时刻中继节点的历史信息和t-1时刻中继节点与t时刻所有卫星节点联合的信息进行多头注意力机制计算得到;
st=LayerNorm(ReLU(st));
式中:st表示t时刻中继节点的状态,st-1表示t-1时刻中继节点的状态;RELU为激活函数,用于过滤小于0的值,LayerNorm表示层正则化,用于完成数据归一化。
需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。同时,实施例中公知的具体结构及特性等常识在此未作过多描述。最后,本发明要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
Claims (10)
1.一种用于交通基础设施检测文本的机器阅读理解方法,其特征在于,具体包括:
S1:获取问题文本和待检测的段落文本;
S2:将所述问题文本和所述段落文本输入经过预先训练的阅读理解模型中;
所述阅读理解模型首先对所述问题文本和所述段落文本进行编码得到对应的待检测字符向量;然后将所述待检测字符向量和设置的交通基础设施检测领域词向量进行融合得到对应的嵌入融合表示,并对所述嵌入融合表示进行语义特征捕捉;最后根据所述嵌入融合表示和捕捉的语义特征计算对应答案在所述段落文本中的字符位置,并将对应答案的字符位置作为所述段落文本的机器阅读理解结果;
S3:输出所述段落文本对应的机器阅读理解结果。
2.如权利要求1所述的用于交通基础设施检测文本的机器阅读理解方法,其特征在于,步骤S2中,通过如下步骤对所述问题文本和所述段落文本进行编码:
S201:分别对所述问题文本和所述段落文本进行字符序列化表示,得到对应的问题字符序列和段落字符序列;
S202:通过bert模型对所述问题字符序列和所述段落字符序列进行向量嵌入,得到对应的问题字符向量和段落字符向量;
S203:对整合所述问题字符向量和段落字符向量得到对应的待检测字符向量。
3.如权利要求2所述的用于交通基础设施检测文本的机器阅读理解方法,其特征在于:
问题字符序列表示为Q=[q1,q2,...,qm];式中:qi表示问题文本中的第i个字符;
段落字符序列表示为C=[d1,d2,...,dn];式中:di表示段落文本中的第i个字符;
整合时使用[SEP]作为分隔符,通过[[CLS]Q[SEP]C[SEP]]的形式构成待检测字符向量。
4.如权利要求1所述的用于交通基础设施检测文本的机器阅读理解方法,其特征在于,步骤S2中,通过如下步骤设置交通基础设施检测领域词向量:
S211:将已有的交通基础设施检测报告作为语料,并通过jieba分词的方式构建对应的交通基础设施检测领域词典;
S212:通过word2vec中的skip-gram模型对交通基础设施检测领域词典中的各个词进行词向量嵌入和词向量训练,得到对应的交通基础设施检测领域词向量。
5.如权利要求4所述的用于交通基础设施检测文本的机器阅读理解方法,其特征在于:步骤S212中,word2vec中的skip-gram模型通过如下步骤进行词向量训练:
将交通基础设施检测领域词典中的每个词表示成两个d维向量,分别作为中心词和背景词;
对中心词和背景词的向量做内积运算,并结合softmax函数计算中心词生成背景词的条件概率;
定义条件概率的损失函数并通过求导计算梯度的方式更新背景词的权重。
6.如权利要求1所述的用于交通基础设施检测文本的机器阅读理解方法,其特征在于,步骤S2中,通过如下步骤计算对应答案在所述段落文本中的字符位置:
S221:根据捕捉的语义特征确定所述问题文本中问题的最终表示和所述段落文本中各个字符的最终表示,并将所述嵌入融合表示通过线性层降为二维表示;
S222:根据对应的二维表示结合softmax函数分别计算对应答案的开始位置预测概率分数和结束位置预测概率分数;
S223:将开始位置预测概率分数取最大值时对应字符的位置作为对应答案的开始字符位置;将结束位置预测概率分数取最大值时对应字符的位置作为对应答案的结束字符位置;
S224:将对应答案的开始字符位置和结束字符位置作为所述段落文本的机器阅读理解结果。
8.如权利要求1所述的用于交通基础设施检测文本的机器阅读理解方法,其特征在于,步骤S2中,通过star-transformer模型对所述待检测字符向量和所述交通基础设施检测领域词向量进行融合和语义特征捕捉。
10.如权利要求8所述的用于交通基础设施检测文本的机器阅读理解方法,其特征在于,训练所述阅读理解模型时,通过如下步骤更新star-transformer模型的中继节点和卫星节点:
通过公式H0=E和S0=average(E)初始化卫星节点Ht∈Rn×d和中继节点st∈R1×d;
通过如下公式更新所有的卫星节点:
式中:表示t时刻第i个卫星节点的全局语义信息;表示t时刻第i个卫星节点的状态,表示t-1时刻第i个卫星节点的状态;RELU为激活函数,用于过滤小于0的值,LayerNorm表示层正则化,用于完成数据归一化;
结合当前卫星节点通过如下公式更新中继节点:
st=MultiAtt(st-1,[st-1;Ht]);
st=LayerNorm(ReLU(st));
式中:st表示t时刻中继节点的状态,st-1表示t-1时刻中继节点的状态;RELU为激活函数,用于过滤小于0的值,LayerNorm表示层正则化,用于完成数据归一化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110711212.0A CN113312912B (zh) | 2021-06-25 | 2021-06-25 | 一种用于交通基础设施检测文本的机器阅读理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110711212.0A CN113312912B (zh) | 2021-06-25 | 2021-06-25 | 一种用于交通基础设施检测文本的机器阅读理解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113312912A true CN113312912A (zh) | 2021-08-27 |
CN113312912B CN113312912B (zh) | 2023-03-31 |
Family
ID=77380277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110711212.0A Active CN113312912B (zh) | 2021-06-25 | 2021-06-25 | 一种用于交通基础设施检测文本的机器阅读理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113312912B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951803A (zh) * | 2020-08-13 | 2020-11-17 | 东北林业大学 | 基于Star-Transformer的口语理解方法、系统及设备 |
CN113837102A (zh) * | 2021-09-26 | 2021-12-24 | 广州华多网络科技有限公司 | 图文融合分类方法及其装置、设备、介质、产品 |
CN113869048A (zh) * | 2021-09-30 | 2021-12-31 | 广州华多网络科技有限公司 | 商品对象搜索方法及其装置、设备、介质、产品 |
CN114611486A (zh) * | 2022-03-09 | 2022-06-10 | 上海弘玑信息技术有限公司 | 信息抽取引擎的生成方法及装置、电子设备 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN110083838A (zh) * | 2019-04-29 | 2019-08-02 | 西安交通大学 | 基于多层神经网络与外部知识库的生物医学语义关系提取方法 |
CN110083682A (zh) * | 2019-04-19 | 2019-08-02 | 西安交通大学 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
CN110188362A (zh) * | 2019-06-10 | 2019-08-30 | 北京百度网讯科技有限公司 | 文本处理方法及装置 |
CN110502627A (zh) * | 2019-08-28 | 2019-11-26 | 上海海事大学 | 一种基于多层Transformer聚合编码器的答案生成方法 |
CN110597947A (zh) * | 2019-03-20 | 2019-12-20 | 桂林电子科技大学 | 一种基于全局和局部注意力交互的阅读理解系统及方法 |
CN110929515A (zh) * | 2019-11-21 | 2020-03-27 | 中国民航大学 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
CN111027327A (zh) * | 2019-10-29 | 2020-04-17 | 平安科技(深圳)有限公司 | 机器阅读理解方法、设备、存储介质及装置 |
CN111078836A (zh) * | 2019-12-10 | 2020-04-28 | 中国科学院自动化研究所 | 基于外部知识增强的机器阅读理解方法、系统、装置 |
CN111930914A (zh) * | 2020-08-14 | 2020-11-13 | 工银科技有限公司 | 问题生成方法和装置、电子设备以及计算机可读存储介质 |
CN111951803A (zh) * | 2020-08-13 | 2020-11-17 | 东北林业大学 | 基于Star-Transformer的口语理解方法、系统及设备 |
CN111966797A (zh) * | 2020-07-23 | 2020-11-20 | 天津大学 | 利用引入了语义信息的词向量进行机器阅读理解的方法 |
CN112464643A (zh) * | 2020-11-26 | 2021-03-09 | 广州视源电子科技股份有限公司 | 一种机器阅读理解方法、装置、设备及存储介质 |
CN112818128A (zh) * | 2021-01-21 | 2021-05-18 | 上海电力大学 | 一种基于知识图谱增益的机器阅读理解模型 |
-
2021
- 2021-06-25 CN CN202110711212.0A patent/CN113312912B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN110597947A (zh) * | 2019-03-20 | 2019-12-20 | 桂林电子科技大学 | 一种基于全局和局部注意力交互的阅读理解系统及方法 |
CN110083682A (zh) * | 2019-04-19 | 2019-08-02 | 西安交通大学 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
CN110083838A (zh) * | 2019-04-29 | 2019-08-02 | 西安交通大学 | 基于多层神经网络与外部知识库的生物医学语义关系提取方法 |
CN110188362A (zh) * | 2019-06-10 | 2019-08-30 | 北京百度网讯科技有限公司 | 文本处理方法及装置 |
CN110502627A (zh) * | 2019-08-28 | 2019-11-26 | 上海海事大学 | 一种基于多层Transformer聚合编码器的答案生成方法 |
CN111027327A (zh) * | 2019-10-29 | 2020-04-17 | 平安科技(深圳)有限公司 | 机器阅读理解方法、设备、存储介质及装置 |
CN110929515A (zh) * | 2019-11-21 | 2020-03-27 | 中国民航大学 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
CN111078836A (zh) * | 2019-12-10 | 2020-04-28 | 中国科学院自动化研究所 | 基于外部知识增强的机器阅读理解方法、系统、装置 |
CN111966797A (zh) * | 2020-07-23 | 2020-11-20 | 天津大学 | 利用引入了语义信息的词向量进行机器阅读理解的方法 |
CN111951803A (zh) * | 2020-08-13 | 2020-11-17 | 东北林业大学 | 基于Star-Transformer的口语理解方法、系统及设备 |
CN111930914A (zh) * | 2020-08-14 | 2020-11-13 | 工银科技有限公司 | 问题生成方法和装置、电子设备以及计算机可读存储介质 |
CN112464643A (zh) * | 2020-11-26 | 2021-03-09 | 广州视源电子科技股份有限公司 | 一种机器阅读理解方法、装置、设备及存储介质 |
CN112818128A (zh) * | 2021-01-21 | 2021-05-18 | 上海电力大学 | 一种基于知识图谱增益的机器阅读理解模型 |
Non-Patent Citations (8)
Title |
---|
QIPENG GUO等: "Star-Transformer", 《ARXIV:1902.09113V1》 * |
QIU XIPENG等: "Pre-trained models for natural language processing: A survey", 《SCIENCE CHINA(TECHNOLOGICAL SCIENCES)》 * |
XUGUANG WANG等: "No Answer is Better Than Wrong Answer: A Reflection Model for Document Level Machine Reading Comprehension", 《ARXIV:2009.12056V2 》 * |
乐远: "融合外部知识的机器阅读理解方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
叶栋: "基于深度神经网络的军事机器阅读理解技术研究", 《中国优秀硕士学位论文全文数据库 (社会科学Ⅰ辑)》 * |
申 晖等: "基于 BSTTC 模型的中文命名实体识别", 《计算机系统应用》 * |
舒福舟: "基于机器阅读理解的售后问答系统设计与实现", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
顾迎捷等: "基于神经网络的机器阅读理解综述", 《软件学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951803A (zh) * | 2020-08-13 | 2020-11-17 | 东北林业大学 | 基于Star-Transformer的口语理解方法、系统及设备 |
CN111951803B (zh) * | 2020-08-13 | 2022-12-16 | 东北林业大学 | 基于Star-Transformer的口语理解方法、系统及设备 |
CN113837102A (zh) * | 2021-09-26 | 2021-12-24 | 广州华多网络科技有限公司 | 图文融合分类方法及其装置、设备、介质、产品 |
CN113837102B (zh) * | 2021-09-26 | 2024-05-10 | 广州华多网络科技有限公司 | 图文融合分类方法及其装置、设备、介质、产品 |
CN113869048A (zh) * | 2021-09-30 | 2021-12-31 | 广州华多网络科技有限公司 | 商品对象搜索方法及其装置、设备、介质、产品 |
CN114611486A (zh) * | 2022-03-09 | 2022-06-10 | 上海弘玑信息技术有限公司 | 信息抽取引擎的生成方法及装置、电子设备 |
CN114611486B (zh) * | 2022-03-09 | 2022-12-16 | 上海弘玑信息技术有限公司 | 信息抽取引擎的生成方法及装置、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113312912B (zh) | 2023-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825845B (zh) | 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法 | |
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN113312912B (zh) | 一种用于交通基础设施检测文本的机器阅读理解方法 | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
Sharma et al. | A survey of methods, datasets and evaluation metrics for visual question answering | |
CN111563166A (zh) | 一种针对数学问题分类的预训练模型方法 | |
CN111680484B (zh) | 一种视觉常识推理问答题的答题模型生成方法和系统 | |
Lopes et al. | An AutoML-based approach to multimodal image sentiment analysis | |
CN113553850A (zh) | 一种基于有序结构编码指针网络解码的实体关系抽取方法 | |
CN114419642A (zh) | 一种文档图像中键值对信息的抽取方法、装置及系统 | |
CN113987201A (zh) | 一种基于本体适配器的零样本知识图谱补全方法 | |
CN111340006B (zh) | 一种手语识别方法及系统 | |
CN114186568A (zh) | 一种基于关系编码和层次注意力机制的图像段落描述方法 | |
CN118171149B (zh) | 标签分类方法、装置、设备、存储介质和计算机程序产品 | |
CN113704434A (zh) | 知识库问答方法、电子设备及可读存储介质 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN113010662B (zh) | 一种层次化会话式机器阅读理解系统和方法 | |
CN117390131B (zh) | 一种用于多领域的文本情感分类方法 | |
CN113642630A (zh) | 基于双路特征编码器的图像描述方法及系统 | |
CN115374281B (zh) | 基于多粒度融合和图卷积网络的会话情感分析方法 | |
Ji et al. | LSTM based semi-supervised attention framework for sentiment analysis | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
CN113590745B (zh) | 一种可解释的文本推断方法 | |
CN114595338A (zh) | 基于混合特征表示的实体关系联合抽取系统及方法 | |
CN114328931A (zh) | 题目批改方法、模型的训练方法、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |