CN112528598B

CN112528598B - 基于预训练语言模型和信息论的自动化文本摘要评测方法

Info

Publication number: CN112528598B
Application number: CN202011429809.8A
Authority: CN
Inventors: 金耀辉; 何浩; 肖力强; 陈文清; 田济东
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-04-05
Anticipated expiration: 2040-12-07
Also published as: CN112528598A

Abstract

本发明提供了一种基于预训练语言模型和信息论的自动化文本摘要评测方法，包括：基于输入文本和生成摘要使用预训练语言模型计算语义单元概率；对语义单元使用信息论计算信息含量；将所有语义单元信息进行加和获得文本摘要总信息量；使用互信息计算输入文本与摘要之间的相关性；用最大信息含量减去摘要总信息量对摘要冗余度进行建模；对总信息量、相关性、冗余度进行加权平均作为综合评测指标。同时提供一种相应的系统、终端及存储介质。本发明使用预训练语言模型辅助信息论可以更加准确地估计文本概率计算文本信息量，所创建的信息量、相关性、冗余度三个自动化指标更加贴合人类评测标准，可以用来代替人工评测，降低自动化摘要系统的评价成本。

Description

基于预训练语言模型和信息论的自动化文本摘要评测方法

技术领域

本发明涉及自然语言处理技术领域，具体地，涉及一种基于预训练语言模型和信息论的自动化文本摘要评测方法，同时提供了一种相应的系。

背景技术

文本摘要是快速从海量文本信息中获取知识的重要手段，在信息爆炸时代，显得愈发重要。自动化文本摘要系统的设计和学习很大程度上依赖于评价指标的准确度。一个好的评价质量应该是能够反映人类对于摘要的主观感受。

目前存在两种评测方法：一种是人工评测，另外一种是模拟人工评测的自动化评测。人工评测是摘要评价技术的金标准，例如面向召回率的金字塔评测方法常被使用。但是金字塔评测方法需要大量的人力，甚至在它的更新版本中，涉及到单词嵌入和一个轻量级众包计划的使用。这使得人工评测使用成本极高。从而自动化评测的使用频率更高，例如ROUGE，BLUE等基于短语(N-gram)的评测方法。但是这些自动化评测方法在评测系统摘要是需要人工攥写的参考摘要，这极大的限制了其使用场景。

此外，自动化评测方法与人工主观感受存在很大的差异，对于信息性、相关性等指标还存在很大差异。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种基于预训练语言模型和信息论的自动化文本摘要评测方法。

本发明是通过以下技术方案实现的。

根据本发明的一个方面，提供了一种基于预训练语言模型和信息论的自动化文本摘要评测方法，包括：

基于输入文本和生成摘要，使用预训练语言模型计算语义单元概率；

对输入文本和生成摘要的语义单元，分别使用信息论计算词汇信息量；

对生成摘要词汇信息量进行加和，获得摘要总信息量；

使用互信息计算输入文本与生成摘要之间信息分布的相关性；

计算摘要最大词汇信息量并减去摘要总信息量，对冗余度进行建模；

对摘要总信息量、相关性和冗余度进行加权平均，最终得到综合评测指标。

优选地，所述基于输入文本和生成摘要，使用预训练语言模型计算语义单元概率，包括：

对输入文本和生成摘要进行切分，分别得到语义单元序列[w₀，w₁，…，w_i，…]；

依次替换语义单元序列中的目标语义单元为特殊遮蔽字符；

将遮蔽后语义单元序列输入至预训练语言模型，对被遮蔽词语进行预测，并得到相应的预测概率，即为语义单元概率p(w_i)＝LM(w_i|c_i)；

其中，LM表示语言模型网络，c_i表示预测目标所在上下文；

重复所述概率预测过程，得到输入文本和生成摘要中所有词汇的语义单元概率。

优选地，所述预训练语言模型基于transformer网络架构，在预测遮蔽单元时，编码双向上下文的语义信息，同时，使用非监督方式在大规模语料库上进行预训练。

优选地，所述对输入文本和生成摘要的语义单元，分别使用信息论计算词汇信息量，包括：

采用香农信息论自信息计算方法，对每个语义单元的词汇信息量I(w_i)进行计算如下，：

I(w_i)＝-log₂ LM(w_i|c_i)

其中，LM(w_i|c_i)为相应的语义单元概率。

优选地，所述词汇信息量I(w_i)的单位为比特bit，表示存储一个词汇所需要的最小存储空间。

优选地，所述对生成摘要词汇信息量I(w_i)进行加和，用于表示信息度Inf(S)，所述信息度Inf(S)即为获得的摘要总信息量I(S)，则：

Inf(S)＝I(S)＝-∑_i log₂ LM_S(w_i|c_i)

其中，LM(w_i|c_i)表示相应的语义单元概率，S表示计算的语义单元属于生成摘要。

优选地，所述使用互信息计算输入文本与生成摘要之间信息分布的相关性，包括：

采用负的KL散度计算输入文本与摘要之间的相关性Rel(S，D)为：

其中，S，D分别表示生成摘要和输入文本，KL为分布距离计算方法Kullback-Leibler divergence，LM_s(w_i|c_i)为生成摘要的词语单元概率，LM_D(w_i|c_i)为输入文本的词语单元概率。

优选地，所述计算摘要最大词汇信息量并减去摘要总信息量，对冗余度进行建模，包括：

计算摘要最大词汇信息量I_max(S)为：

I_max(S)＝|S|log₂V

其中，|S|表示生成摘要的长度，V表示摘要生成系统所使用的词库大小；

冗余度Red(S)计算方法为：

Red(S)＝I_max(S)-I(S)

其中，I(S)为摘要总信息量。

优选地，所述对摘要总信息量、相关性和冗余度进行加权平均，最终得到综合评测指标的方法，包括：

采用线性加和方式，将总信息量I(S)、相关性Rel(S，D)、冗余度Red(S)统一为综合评测指标Q(S，D)，计算方式如下：

Q(S，D)＝αRed(S)+βInf(S)+γRel(S，D)

其中，α，β，γ为可调节系数；

所述综合评测指标Q(S，D)用于评价生成摘要的好坏，该指标的数值越大，摘要生成质量越好；反之，质量越差。

根据本发明的另一个方面，提供了一种基于预训练语言模型和信息论的自动化文本摘要评测系统，包括：

语义单元概率计算模块，该模块基于输入文本和生成摘要，使用预训练语言模型计算语义单元概率；

词汇信息量计算模块，该模块对输入文本和生成摘要的语义单元，分别使用信息论计算词汇信息量；

摘要总信息量计算模块，该模块对生成摘要词汇信息量进行加和，获得摘要总信息量；

相关性计算模块，该模块使用互信息计算输入文本与生成摘要之间信息分布的相关性；

冗余度计算模块，该模块计算摘要最大词汇信息量并减去摘要总信息量，对冗余度进行建模；

综合评测模块，该模块对摘要总信息量、相关性和冗余度进行加权平均，最终得到综合评测指标。

根据本发明的第三个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，所述处理器执行所述计算机程序时能够用于执行上述任一项所述的方法。

根据本发明的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述任一项所述的方法。

由于采用了上述技术方案，本发明与现有技术相比，具有如下任意一项有益效果：

1、本发明提供的基于预训练语言模型和信息论的自动化文本摘要评测方法、系统、终端及存储介质，其中所采用的预训练语言模型，相较于传统统计方法可以更加准确地估计文本概率计算文本信息量.

2、本发明提供的基于预训练语言模型和信息论的自动化文本摘要评测方法、系统、终端及存储介质，基于信息论所创建的信息量、相关性、冗余度三个自动化指标更加贴合人工主观评测标准，可以用来代替人工评测，从而降低了自动化摘要系统评价成本。

3、本发明提供的基于预训练语言模型和信息论的自动化文本摘要评测方法、系统、终端及存储介质，将该评测指标应用于实际自动化摘要系统，可以有效的指导自动化摘要系统的设计和训练。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一优选实施例中基于预训练语言模型和信息论的自动化文本摘要评测方法的流程图。

图2为本发明一优选实施例中基于预训练模型BERT计算词汇信息量计算方法示意图。

图3为本发明一优选实施例中基于预训练语言模型和信息论的自动化文本摘要评测系统组成模块示意图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本发明一实施例提供了一种基于预训练语言模型和信息论的自动化文本摘要评测方法，该方法能够更加贴近人工评测的质量，降低评测文本摘要的成本，从而为自动化文本摘要系统的设计和训练提供一种方便，低成本的方法。

假设系统输入文本和生成摘要分别为D，S。输入文本和生成摘要经过切分后，分别形成语义单元的序列[w₁，w₁，…，w_i，…]。则评测方法包括如下步骤：

S101：基于输入文本和生成摘要，使用预训练语言模型计算语义单元概率；

S102：对输入文本和生成摘要的语义单元，分别使用信息论计算词汇信息量；

S103：对生成摘要词汇信息量进行加和，获得摘要总信息量；

S104：使用互信息计算输入文本与生成摘要之间信息分布的相关性；

S105：计算摘要最大词汇信息量并减去摘要总信息量，对冗余度进行建模；

S106：对摘要总信息量、相关性和冗余度进行加权平均，最终得到综合评测指标。

作为一优选实施例，S101：基于输入文本和生成摘要，使用预训练语言模型计算语义单元概率，包括：

依次替换语义单元序列中的目标语义单元为特殊遮蔽字符；

其中，LM表示语言模型网络，c_i表示预测目标所在上下文；

重复概率预测过程，得到输入文本和生成摘要中所有词汇的语义单元概率。

作为一优选实施例，预训练语言模型基于transformer网络架构，在预测遮蔽单元时，编码双向上下文的语义信息，同时，使用非监督方式在大规模语料库上进行预训练。

作为一优选实施例，S102：对输入文本和生成摘要的语义单元，分别使用信息论计算词汇信息量，包括：

I(w_i)＝-log₂ LM(w_i|c_i)

其中，LM(w_i|c_i)为相应的语义单元概率。

作为一优选实施例，词汇信息量I(w_i)的单位为比特bit，表示存储一个词汇所需要的最小存储空间。

作为一优选实施例，S103：对生成摘要词汇信息量I(w_i)进行加和，用于表示信息度Inf(S)，信息度Inf(S)即为获得的摘要总信息量I(S)，则：

Inf(S)＝I(S)＝-∑_i log₂ LM_S(w_i|c_i)

作为一优选实施例，S104：使用互信息计算输入文本与生成摘要之间信息分布的相关性，包括：

作为一优选实施例，S105：计算摘要最大词汇信息量并减去摘要总信息量，对冗余度进行建模，包括：

计算摘要最大词汇信息量I_max(S)为：

I_max(S)＝|S|log₂V

冗余度Red(S)计算方法为：

Red(S)＝I_max(S)-I(S)

其中，I(S)为摘要总信息量。

作为一优选实施例，S106：对摘要总信息量、相关性和冗余度进行加权平均，最终得到综合评测指标的方法，包括：

Q(S，D)＝αRed(S)+βInf(S)+γRel(S，D)

其中，α，β，γ为可调节系数。

综合评测指标Q(S，D)用于从三个方面评价生成摘要的好坏，该指标的数值越大，摘要生成质量越好；反之，质量越差。

下面结合附图，对本发明上述实施例所提供的技术方案进一步详细描述。

在本实施例中，将语义单元实例化为词语，预训练语言模型实例化为BERT。假设系统输入文本和摘要为D，S。文档和摘要经过分词后为词语的序列[w₀，w₁，…，w_i，…]。如图1所示，评测方法包括如下步骤：

S101：基于输入文本和生成摘要上下文使用预训练语言模型计算词语概率，即为语义单元概率：

对于输入文本，将其中的目标词汇使用遮蔽符号(如[MASK])进行替换，例如，这里替换w₁，源文档变为[w₀，[MASK]，…，w_i，…]。如图2所示，对遮蔽后序列做位置向量嵌入，然后输入预训练语言模型BERT计算词语概率P_D(w_i)。

对于生成摘要。重复以上步骤可得其每一个词语的概率P_S(w_i)。

S102：对语义单元使用信息论计算信息含量；

基于S101步骤中输入文本的词语的概率，应用香农信息论自信息计算方法可以得到每个词汇的信息量I(wi)：

I(w_i)＝-log₂P_D(w_i)

重复以上信息量计算步骤，得到输入文本中的每一个词语的信息量I_D(w_i)。

对于生成摘要，使用同样方法可得其每一个词语的信息量I_S(w_i)。

词语的信息量单位为比特bit，表示存储一个词汇所需要的最小存储空间。

S103：将所有语义单元信息进行加和获得文本摘要总信息量：

对于生成摘要，为了得的其总体信息量，对其所有词语信息量进行加和，用于表示信息度Inf(S)：

Inf(S)＝-∑_i log₂ P(w_i)

该信息度Inf(S)即为摘要总信息量I(S)。

S104：使用负的KL散度计算输入文本与摘要之间的相关性Rel(S，D)：

S105：计算摘要可表达的最大信息量，I_max(S)＝|S|log₂V，其中，|S|表示生成摘要的长度，V表示摘要生成系统所使用的词库大小。在BERT模型中词库大小设定为30k。使用最大信息含量I_max(S)减去摘要总信息量I(S)对冗余度Red(S)进行建模：

Red(S)＝I_max(S)-I(S)

S106：对生成摘要的总信息量I(S)、相关性Rel(S，D)、冗余度Red(S)进行线性加权平均获得最终综合评测指标Q(S，D)：

Q(S，D)＝αRed(S)+βInf(S)+γRel(S，D)

其中，α，β，γ为可调节系数。根据不同数据集或不同模型可进行调节。

该综合评测指标可以从三个方面全面评价一个生成摘要的好坏。该指标的数值越大，摘要生成质量越好。反之，质量越差。

本发明另一实施例提供了一种基于预训练语言模型和信息论的自动化文本摘要评测系统，如图3所示，可以包括：语义单元概率计算模块、词汇信息量计算模块、摘要总信息量计算模块、相关性计算模块、冗余度计算模块以及综合评测模块。

其中：

本发明第三个实施例提供了一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，处理器执行计算机程序时能够用于执行上述实施例任一项的方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

本发明第四个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行本发明上述实施例中任一项的方法。

本发明上述实施例提供的基于预训练语言模型和信息论的自动化文本摘要评测方法、系统、终端以及存储介质，基于输入文本和生成摘要上下文使用预训练语言模型计算语义单元概率；对语义单元使用信息论计算信息含量；将所有语义单元信息进行加和获得文本摘要总信息量；使用互信息计算输入文本与摘要之间的相关性；用最大信息含量减去摘要总信息量对摘要冗余度进行建模；对总信息量、相关性、冗余度进行加权平均作为综合评测指标。本发明上述实施例使用预训练语言模型辅助信息论可以更加准确地估计文本概率计算文本信息量，所创建的信息量、相关性、冗余度三个自动化指标更加贴合人类评测标准，可以用来代替人工评测，降低自动化摘要系统的评价成本。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照方法的技术方案实现系统的组成，即，方法中的实施例可理解为构建系统的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于预训练语言模型和信息论的自动化文本摘要评测方法，其特征在于，包括：

对生成摘要词汇信息量进行加和，获得摘要总信息量；

2.根据权利要求1所述的基于预训练语言模型和信息论的自动化文本摘要评测方法，所述基于输入文本和生成摘要，使用预训练语言模型计算语义单元概率，包括：

依次替换语义单元序列中的目标语义单元为特殊遮蔽字符；

其中，LM表示语言模型网络，c_i表示预测目标所在上下文；

3.根据权利要求2所述的基于预训练语言模型和信息论的自动化文本摘要评测方法，其特征在于，所述预训练语言模型基于transformer网络架构，在预测遮蔽单元时，编码双向上下文的语义信息，同时，使用非监督方式在大规模语料库上进行预训练。

4.根据权利要求1所述的基于预训练语言模型和信息论的自动化文本摘要评测方法，其特征在于，所述对输入文本和生成摘要的语义单元，分别使用信息论计算词汇信息量，包括：

采用香农信息论自信息计算方法，对每个语义单元的词汇信息量I(w_i)进行计算如下：

I(w_i)＝-log₂LM(w_i|c_i)

其中，LM(w_i|c_i)为相应的语义单元概率。

5.根据权利要求4所述的基于预训练语言模型和信息论的自动化文本摘要评测方法，其特征在于，所述词汇信息量I(w_i)的单位为比特bit，表示存储一个词汇所需要的最小存储空间。

6.根据权利要求1所述的基于预训练语言模型和信息论的自动化文本摘要评测方法，其特征在于，所述对生成摘要词汇信息量I(w_i)进行加和，用于表示信息度Inf(S)，所述信息度Inf(S)即为获得的摘要总信息量I(S)，则：

Inf(S)＝I(S)＝-∑_ilog₂LM_S(w_i|c_i)

7.根据权利要求1所述的基于预训练语言模型和信息论的自动化文本摘要评测方法，其特征在于，所述使用互信息计算输入文本与生成摘要之间信息分布的相关性，包括：

其中，S，D分别表示生成摘要和输入文本，KL为分布距离计算方法Kullback-Leiblerdivergence，LM_S(w_i|c_i)为生成摘要的词语单元概率，LM_D(w_i|c_i)为输入文本的词语单元概率。

8.根据权利要求1所述的基于预训练语言模型和信息论的自动化文本摘要评测方法，其特征在于，所述计算摘要最大词汇信息量并减去摘要总信息量，对冗余度进行建模，包括：

计算摘要最大词汇信息量I_max(S)为：

I_max(S)＝|S|log₂V

冗余度Red(S)计算方法为：

Red(S)＝I_max(S)-I(S)

其中，I(S)为摘要总信息量。

9.根据权利要求1所述的基于预训练语言模型和信息论的自动化文本摘要评测方法，其特征在于，所述对摘要总信息量、相关性和冗余度进行加权平均，最终得到综合评测指标的方法，包括：

Q(S，D)＝αRed(S)+βInf(S)+γRel(S，D)

其中，α，β，γ为可调节系数；

10.一种基于预训练语言模型和信息论的自动化文本摘要评测系统，其特征在于，包括：

11.一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时能够用于执行权利要求1至9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于执行权利要求1-9中任一项所述的方法。