CN113312912A

CN113312912A - 一种用于交通基础设施检测文本的机器阅读理解方法

Info

Publication number: CN113312912A
Application number: CN202110711212.0A
Authority: CN
Inventors: 杨建喜; 向芳悦; 李韧; 李东; 蒋仕新; 刘新龙; 王笛
Original assignee: Chongqing Jiaotong University
Current assignee: Chongqing Jiaotong University
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-08-27
Anticipated expiration: 2041-06-25
Also published as: CN113312912B

Abstract

本发明涉及人工智能技术领域，具体涉及一种用于交通基础设施检测文本的机器阅读理解方法，包括：获取问题文本和待检测的段落文本；阅读理解模型首先对问题文本和段落文本进行编码得到对应的待检测字符向量；然后将待检测字符向量和设置的交通基础设施检测领域词向量进行融合得到对应的嵌入融合表示，并对嵌入融合表示进行语义特征捕捉；最后根据嵌入融合表示和捕捉的语义特征计算对应答案在段落文本中的字符位置，并将对应答案的字符位置作为段落文本的机器阅读理解结果；输出段落文本对应的机器阅读理解结果。本发明中的机器阅读理解方法能够兼顾理解全面性和理解准确性，从而能够提升交通基础设施检测领域中文文本的理解效果。

Description

一种用于交通基础设施检测文本的机器阅读理解方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种用于交通基础设施检测文本的机器阅读理解方法。

背景技术

机器阅读理解是自然语言处理(Natural Language Processing,NLP)领域里的重要研究方向，其要求机器基于给定的上下文回答问题。机器阅读理解是人工智能技术的重要组成部分，过去几年里，随着深度学习的出现，机器阅读理解已经赢得了越来越广泛的关注，尤其是随着以BERT(Bidirectional Encoder Representations from Transformer)为代表的预训练语言模型的发展，机器阅读理解任务有着飞速的发展，主要体现为从关注限定文本到结合外部知识，从关注特定片段到对上下文的全面理解。

相比于普遍存在的面向英文文本的通用领域机器阅读理解方法，面向中文文本的机器阅读理解的理解准确率并不高，例如中文文本中不同的分词对应的语义等会发生变化，进而得到不同的理解。为此，公开号为CN110442691A的中国专利公开了《机器阅读理解中文的方法》，其通过BERT模型对第一问题中文文本和第一中文文本进行向量化训练，然后通过预设的第一中文机器阅读理解模型进行计算，得到对应问题文本的第一答案文本。该现有方案中，由于无需对第一问题中文文本和第一中文文本进行分词处理，所以不存在分词不当的情况发生，使得最终得到的第一答案文本的准确率更高。

申请人致力于交通基础设施检测领域的研究，交通基础设施在道路、桥梁日常服役中受到交通荷载、环境激励、突发事件以及其结构材料属性退化等内外因素的共同作用。同时，交通基础设施管理养护单位在日常检测中，积累了海量的交通基础设施健康管理历史数据。这些海量的文本数据包含大量的基本属性、结构参数、养护维修建议和检测病害等信息，并主要以自由文本、表格、图片等非结构化或半结构化数据构成。其中，对于检测单位出具的交通基础设施检测报告的文本检测尤为重要。

申请人发现，上述现有方案中的机器阅读理解方法仅能够针对通用的中文文本实施。然而，不同检测单位出具的交通基础设施检测报告在行文思路、符号运用和报告规范上具有较大差异，采用现有机器阅读理解方法会使得交通基础设施检测报告中包含的信息不能被计算机有效的利用，导致机器阅读理解的全面性不好。同时，交通基础设施检测领域具有丰富的专业术语，使用现有机器阅读理解方法难以对文本进行准确分词并理解其语义特征，导致机器阅读理解的准确性不好。因此，如何设计一种能够应用于交通基础设施检测文本且能够兼顾理解全面性和理解准确性的机器阅读理解方法是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种能够应用于交通基础设施检测文本且能够兼顾理解全面性和理解准确性的机器阅读理解方法，从而能够提升交通基础设施检测领域中文文本的理解效果。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种用于交通基础设施检测文本的机器阅读理解方法，具体包括：

S1：获取问题文本和待检测的段落文本；

S2：将所述问题文本和所述段落文本输入经过预先训练的阅读理解模型中；

所述阅读理解模型首先对所述问题文本和所述段落文本进行编码得到对应的待检测字符向量；然后将所述待检测字符向量和设置的交通基础设施检测领域词向量进行融合得到对应的嵌入融合表示，并对所述嵌入融合表示进行语义特征捕捉；最后根据所述嵌入融合表示和捕捉的语义特征计算对应答案在所述段落文本中的字符位置，并将对应答案的字符位置作为所述段落文本的机器阅读理解结果；

S3：输出所述段落文本对应的机器阅读理解结果。

优选的，步骤S2中，通过如下步骤对所述问题文本和所述段落文本进行编码：

S201：分别对所述问题文本和所述段落文本进行字符序列化表示，得到对应的问题字符序列和段落字符序列；

S202：通过bert模型对所述问题字符序列和所述段落字符序列进行向量嵌入，得到对应的问题字符向量和段落字符向量；

S203：对整合所述问题字符向量和段落字符向量得到对应的待检测字符向量。

优选的，问题字符序列表示为Q＝[q₁,q₂,...,q_m]；式中：q_i表示问题文本中的第i个字符；

段落字符序列表示为C＝[d₁,d₂,...,d_n]；式中：d_i表示段落文本中的第i个字符；

整合时使用[SEP]作为分隔符，通过[[CLS]Q[SEP]C[SEP]]的形式构成待检测字符向量。

优选的，步骤S2中，通过如下步骤设置交通基础设施检测领域词向量：

S211：将已有的交通基础设施检测报告作为语料，并通过jieba分词的方式构建对应的交通基础设施检测领域词典；

S212：通过word2vec中的skip-gram模型对交通基础设施检测领域词典中的各个词进行词向量嵌入和词向量训练，得到对应的交通基础设施检测领域词向量。

优选的，步骤S212中，word2vec中的skip-gram模型通过如下步骤进行词向量训练：

将交通基础设施检测领域词典中的每个词表示成两个d维向量，分别作为中心词和背景词；

对中心词和背景词的向量做内积运算，并结合softmax函数计算中心词生成背景词的条件概率；

定义条件概率的损失函数并通过求导计算梯度的方式更新背景词的权重。

优选的，步骤S2中，通过如下步骤计算对应答案在所述段落文本中的字符位置：

S221：根据捕捉的语义特征确定所述问题文本中问题的最终表示和所述段落文本中各个字符的最终表示，并将所述嵌入融合表示通过线性层降为二维表示；

S222：根据对应的二维表示结合softmax函数分别计算对应答案的开始位置预测概率分数和结束位置预测概率分数；

S223：将开始位置预测概率分数取最大值时对应字符的位置作为对应答案的开始字符位置；将结束位置预测概率分数取最大值时对应字符的位置作为对应答案的结束字符位置；

S224：将对应答案的开始字符位置和结束字符位置作为所述段落文本的机器阅读理解结果。

优选的，通过如下公式计算开始位置预测概率：

式中：P_i ^s表示开始位置预测概率分数；W_s表示开始位置的参数学习矩阵；u^Q表示问题的最终表示；

表示段落文本中第i个字符的最终表示；

式中：P_i ^e表示结束位置预测概率分数；W_e表示结束位置的参数学习矩阵；u^Q表示问题的最终表示；

表示段落文本中第i个字符的最终表示。

优选的，步骤S2中，通过star-transformer模型对所述待检测字符向量和所述交通基础设施检测领域词向量进行融合和语义特征捕捉。

优选的，训练所述阅读理解模型时，通过如下公式计算star-transformer模型的多头注意力：

注意力公式

式中：q、K、V分别表示查询向量、键向量和值向量；d表示向量维度；

多头注意力公式

式中：a_i＝Att(qW_i ^Q,HW_i ^K,HW_i ^V),i∈[1,k]；给定序列H∈R^n×d，K＝HW^K,V＝HW^V；W^K、W^V、W_i ^Q,W_i ^K,W_i ^V,W^O均表示star-transformer模型的可学习参数；k表示头的数量。

优选的，训练所述阅读理解模型时，通过如下步骤更新star-transformer模型的中继节点和卫星节点：

通过公式H⁰＝E和S⁰＝average(E)初始化卫星节点H^t∈R^n×d和中继节点s^t∈R^1×d；

通过如下公式更新所有的卫星节点：

式中：

表示t时刻第i个卫星节点的全局语义信息；

表示t时刻第i个卫星节点的状态，

表示t-1时刻第i个卫星节点的状态；RELU为激活函数，用于过滤小于0的值，LayerNorm表示层正则化，用于完成数据归一化；

结合当前卫星节点通过多头注意力机制和RELU激活函数、层正则化和如下公式更新中继节点：

s^t＝MultiAtt(s^t-1,[s^t-1；H^t])；

s^t＝LayerNorm(ReLU(s^t))；

式中：s^t表示t时刻中继节点的状态，s^t-1表示t-1时刻中继节点的状态；RELU为激活函数，用于过滤小于0的值，LayerNorm表示层正则化，用于完成数据归一化。

本发明中的机器阅读理解方法与现有技术相比，具有如下有益效果：

在本发明中，通过文本编码的方式统一文本格式，使得模型能够适应不同行文思路、符号运用和报告规范的文本，即能够提升机器阅读理解的全面性；同时，通过融合交通基础设施检测领域词向量的方式引入了交通基础设施检测领域的外部知识，使得能够对文本进行准确分词并理解其语义特征，进而能够提高答案在词粒度上的表现效果，即能够提升机器阅读理解的准确性，因此，本发明能够兼顾理解全面性和理解准确性，从而能够提升交通基础设施检测领域中文文本的理解效果。此外，本发明通过捕捉语义特征的方式学习和关注局部以及长距离依赖关系，能够帮助捕捉长文本中的长距离语义依赖关系，能够有效地降低局部和非局部成分的无偏差学习负担，从而能够提模型泛化能力。最后，本发明通过计算字符位置的方式确定问题文本的答案，能够进一步提升机器阅读理解的准确性。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为实施例中机器阅读理解方法的逻辑框图；

图2为实施例中阅读理解模型的网络结构图；

图3为实施例中段落文本、问题文本和对应答案的示意图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种用于交通基础设施检测文本的机器阅读理解方法。

如图1所示，一种用于交通基础设施检测文本的机器阅读理解方法，具体包括：

S1：获取问题文本和待检测的段落文本。具体的，待检测的段落文本包括交通基础设施检测报告中的某一段或几段的文本内容。

S2：将问题文本和段落文本输入经过预先训练的阅读理解模型中；

结合图2所示，阅读理解模型包括编码层、融合层和输出层(全连接层)。首先在编码层中对问题文本和段落文本进行编码得到对应的待检测字符向量；然后在融合层中将待检测字符向量和设置的交通基础设施检测领域词向量进行融合得到对应的嵌入融合表示，并对嵌入融合表示进行语义特征捕捉；最后在输出层中根据嵌入融合表示和捕捉的语义特征计算对应答案在段落文本中的字符位置，并将对应答案的字符位置作为段落文本的机器阅读理解结果；

S3：输出段落文本对应的机器阅读理解结果。具体的，根据输出的机器阅读理解结果能够在待检测的段落文本中确定答案的所在位置，段落文本、问题文本和对应答案之间的对应关系如图3所示。

在本发明中，通过文本编码的方式统一文本格式，使得模型能够适应不同行文思路、符号运用和报告规范的文本，即能够提升机器阅读理解的全面性；同时，通过融合交通基础设施检测领域词向量的方式引入了交通基础设施检测领域的外部知识，使得能够对文本进行准确分词并理解其语义特征，进而能够提高答案在词粒度上的表现效果，即能够提升机器阅读理解的准确性，因此，本发明能够兼顾理解全面性和理解准确性，从而能够提升交通基础设施检测领域中文文本的理解效果。此外，本发明通过捕捉语义特征的方式学习和关注局部以及长距离依赖关系，能够帮助捕捉长文本中的长距离语义依赖关系，能够有效地降低局部和非局部成分的无偏差学习负担，从而能够提高模型泛化能力。最后，本发明通过计算字符位置的方式确定问题文本的答案，能够进一步提升机器阅读理解的准确性。

具体实施过程中，通过如下步骤对问题文本和段落文本进行编码：

S201：分别对问题文本和段落文本进行字符序列化表示，得到对应的问题字符序列和段落字符序列。具体的，问题字符序列表示为Q＝[q₁,q₂,...,q_m]；式中：q_i表示问题文本中的第i个字符；段落字符序列表示为C＝[d₁,d₂,...,d_n]；式中：d_i表示段落文本中的第i个字符。

S202：通过bert模型对问题字符序列和段落字符序列进行向量嵌入，得到对应的问题字符向量和段落字符向量。具体的，在bert模型自带的词典中通过查表操作得到字符的向量。

S203：对整合问题字符向量和段落字符向量得到对应的待检测字符向量。具体的，结合图2所示，整合时使用[SEP]作为分隔符，通过[[CLS]Q[SEP]C[SEP]]的形式构成待检测字符向量。

在本发明中，通过bert模型能够有效的对问题文本和段落文本进行编码，进而能够统一文本格式，使得模型能够适应不同行文思路、符号运用和报告规范的文本，从而能够进一步提升机器阅读理解的全面性。

具体实施过程中，通过如下步骤设置交通基础设施检测领域词向量：

S211：将已有的交通基础设施检测报告作为语料，并通过jieba分词的方式构建对应的交通基础设施检测领域词典。具体的，jieba分词的具体过程是：结合交通基础设施检测领域知识，在现有中文分词算法基础上对交通基础设施检测报告进行语料拆分、标注，并构建交通基础设施检测语料库，然后识别交通基础设施检测语料库中的新词、区分有歧义的专业术语，构建交通基础设施检测领域词典，进一步提高面向交通基础设施检测领域的中文分词精度。

S212：通过word2vec中的skip-gram模型对交通基础设施检测领域词典中的各个词进行词向量嵌入和词向量训练，得到对应的交通基础设施检测领域词向量(交通基础设施检测领域知识表示)。

具体的，通过如下步骤进行词向量训练：

将交通基础设施检测领域词典中的每个词表示成两个d维向量，分别作为中心词和背景词。具体的，作为中心词时，向量表示为v_i∈R^d；作为背景词时，向量表示为u_i∈R^d；其中，中心词w_c在词典中索引为c，背景词w_o在词典中索引为o。

对中心词和背景词的向量做内积运算，并结合softmax函数计算中心词生成背景词的条件概率。

具体的，通过公式

计算条件概率；

通过公式

定义损失函数；

式中：

表示交通基础设施检测领域词典中索引为o的背景词向量；

表示第i个转置后的背景词向量；v_c表示中心词向量；

表示把背景词向量和中心词向量交互后基于exp函数求和。

在本发明中，通过jieba分词和word2vec训练得到能够增强输入特征表达、能够提高面向交通基础设施检测领域中文分词精度的交通基础设施检测领域词向量，使得能够对文本进行准确分词并理解其语义特征，进而能够提高答案在词粒度上的表现效果，从而能够进一步提升机器阅读理解的准确性。

具体实施过程中，通过如下步骤计算对应答案在段落文本中的字符位置：

S221：根据捕捉的语义特征确定问题文本中问题的最终表示和段落文本中各个字符的最终表示，并将嵌入融合表示通过线性层降为二维表示；

S224：将对应答案的开始字符位置和结束字符位置作为段落文本的机器阅读理解结果。

具体的，通过如下公式计算开始位置预测概率：

表示段落文本中第i个字符的最终表示；

表示段落文本中第i个字符的最终表示。

在本发明中，通过计算开始字符位置和结束字符位置概率分数的方式能够有效预测答案，进而能够准确的确定问题文本的答案，从而能够进一步提升机器阅读理解的准确性。

具体实施过程中，步骤S2中，通过star-transformer模型对待检测字符向量和交通基础设施检测领域词向量进行融合和语义特征捕捉。

在本发明中，以Bert(预训练微调模型)为Baseline，针对交通基础设施检测领域大部分需要回答的答案长度过长，而引入star-transformer模型机制实现融合和语义特征捕捉，star-transformer模型的星型拓扑结构可以有侧重的学习和关注局部以及长距离依赖关系，能够有效的帮助捕捉长文本中的长距离语义依赖关系，并且由于其结构具有较好的并行能力和较低的复杂度，能够更为有效地降低局部和非局部成分的无偏差学习负担，从而能够进一步提高模型的泛化能力。

具体实施过程中，通过已有交通基础设施检测报告作为训练文本数据对阅读理解模型进行训练，训练过程参考步骤S2：首先在编码层中对训练文本数据及其问题文本进行编码得到对应的训练字符向量；然后在融合层中将训练字符向量和设置的交通基础设施检测领域词向量进行融合得到对应的训练嵌入融合表示，并对训练嵌入融合表示进行语义特征捕捉；最后在输出层中根据训练嵌入融合表示和捕捉的语义特征计算对应答案在段落文本中的字符位置，并将对应答案的字符位置作为段落文本的机器阅读理解训练结果。通过将机器阅读理解训练结果与人工输入结果比较的方式评价阅读理解模型的训练效果，当阅读理解模型输出机器阅读理解训练结果的损失很小且趋于收敛时模型训练完成。

具体的，训练阅读理解模型时，通过如下公式计算star-transformer模型的多头注意力：

注意力公式

通过给定一个任务相关的查询Query向量Q，通过计算与Key的注意力分布并附加在Value上，从而计算向量之间的注意力分布。

多头注意力公式

使用多个头去学习和关注q与H之间不同的特征，将几个头学习到的注意力信息融合。

式中：a_i＝Att(qW_i ^Q,HW_i ^K,HW_i ^V),i∈[1,k]；给定序列H∈R^n×d，K＝HW^K,V＝HW^V；W^K、W^V、W_i ^Q,W_i ^K,W_i ^V,W^O均表示可star-transformer模型的学习参数；k表示头的数量。

具体的，训练阅读理解模型时，需要更新Star-transformer模型中的一些参数，结构中需要一个中继节点s^t∈R^1×d和许多卫星节点H^t∈R^n×d，本实施例将融合层得到的输出作为嵌入，记为E＝[e₁,…,e_n]，e_i∈R^1×d是第i个字词的联合嵌入。

通过如下步骤更新star-transformer模型的中继节点和卫星节点：

通过如下公式更新所有的卫星节点：

整个公式表示

是由第i个卫星的历史信息和全局信息进行注意力机制计算得到；

式中：

表示t时刻第i个卫星节点的全局语义信息(全局语义信息融合了历史信息、相邻局部信息、初始信息和上一时刻的中继节点信息)；

表示t时刻第i个卫星节点的状态，

s^t＝MultiAtt(s^t-1,[s^t-1；H^t])；整个公式表示s^t是由t-1时刻中继节点的历史信息和t-1时刻中继节点与t时刻所有卫星节点联合的信息进行多头注意力机制计算得到；

s^t＝LayerNorm(ReLU(s^t))；

需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。同时，实施例中公知的具体结构及特性等常识在此未作过多描述。最后，本发明要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。