CN109508459B

CN109508459B - 一种从新闻中提取主题和关键信息的方法

Info

Publication number: CN109508459B
Application number: CN201811313654.4A
Authority: CN
Inventors: 杨红飞
Original assignee: Hangzhou Firestone Technology Co ltd
Current assignee: Huoshi Creation Technology Co ltd
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2022-11-29
Anticipated expiration: 2038-11-06
Also published as: CN109508459A

Abstract

本发明公开了一种从新闻中提取主题和关键信息的方法，包括以下步骤：对新闻内容进行去HTML标签处理；对处理后的新闻内容分别进行主题标注和序列化标注，得到新闻内容对应的主题标签和新闻内容中的每个字对应的序列化标签；创建主题和关键信息提取模型，该模型包括一个seq2seq网络和一个全连接网络，全连接网络的输入来自seq2seq网络的编码阶段的状态输出，训练模型得到最优参数；对未标注的新闻内容进行去HTML标签处理后注入到提取模型中，得到最优的主题标签和序列化标签，根据主题标签得到新闻所属类别，根据序列化标签得到新闻内容对应的槽位值。该方法采用seq2seq+attention+crf，强化分类模型和槽填充模型的依赖关系，减少文本标注的复杂度，同时减少项目开发复杂度。

Description

一种从新闻中提取主题和关键信息的方法

技术领域

本发明涉及文本分类及信息抽取领域，尤其涉及一种从新闻中提取主题和关键信息的方法。

背景技术

新闻主题提取属于文本分类的范畴，关键信息提取中的槽填充属于信息抽取的范畴，都是自然语言处理的主要组成部分。文本分类相关研究最早可以追溯到上世纪50年代，当时是通过专家规则(Pattern)进行分类，甚至在80年代初一度发展到利用知识工程建立专家系统，这样做的好处是短平快的解决top问题，但显然天花板非常低，不仅费时费力，覆盖的范围和准确率都非常有限。后来伴随着统计学习方法的发展，特别是90年代后互联网在线文本数量增长和机器学习学科的兴起，逐渐形成了一套解决大规模文本分类问题的经典玩法，这个阶段的主要套路是人工特征工程+浅层分类模型。整个文本分类问题就拆分成了特征工程和分类器两部分。

特征工程在机器学习中往往是最耗时耗力的，但却极其的重要。抽象来讲，机器学习问题是把数据转换成信息再提炼到知识的过程，特征是“数据-->信息”的过程，决定了结果的上限，而分类器是“信息-->知识”的过程，则是去逼近这个上限。然而特征工程不同于分类器模型，不具备很强的通用性，往往需要结合对特征任务的理解。文本分类问题所在的自然语言领域自然也有其特有的特征处理逻辑，传统分本分类任务大部分工作也在此处。文本特征工程分为文本预处理、特征提取、文本表示三个部分，最终目的是把文本转换成计算机可理解的格式，并封装足够用于分类的信息，即很强的特征表达能力。分类器基本都是统计分类方法了，基本上大部分机器学习方法都在文本分类领域有所应用，比如朴素贝叶斯分类算法(

Bayes)、KNN、SVM、最大熵和神经网络等等。

将自然语言句子这样的非结构化数据转换成结构化数据，然后利用强大的查询工具，如SQL。这种从文本中获取意义的方法被称为信息提取，信息提取系统搜索大量非结构化文本，寻找特定类型的实体和关系，并用它们来填充有组织的数据库。这些数据库可以用来寻找特定问题的答案。主要分为命名实体识别、关系提取。

命名实体识别(NER)是在自然语言处理中的一个经典问题，其应用也极为广泛。比如从一句话中识别出人名、地名，从电商的搜索中识别出产品的名字，识别药物名称等等。传统的公认比较好的处理算法是条件随机场(CRF)，它是一种判别式概率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。简单是说在NER中应用是，给定一系列的特征去预测每个词的标签。

关系提取主要是对实体间的语义分类，现有主流的关系抽取技术分为有监督的学习方法、半监督的学习方法和无监督的学习方法三种：

1、有监督的学习方法将关系抽取任务当做分类问题，根据训练数据设计有效的特征，从而学习各种分类模型，然后使用训练好的分类器预测关系。该方法的问题在于需要大量的人工标注训练语料，而语料标注工作通常非常耗时耗力。

2、半监督的学习方法主要采用Bootstrapping进行关系抽取。对于要抽取的关系，该方法首先手工设定若干种子实例，然后迭代地从数据从抽取关系对应的关系模板和更多的实例。

3、无监督的学习方法假设拥有相同语义关系的实体对拥有相似的上下文信息。因此可以利用每个实体对对应上下文信息来代表该实体对的语义关系，并对所有实体对的语义关系进行聚类。

与其他两种方法相比，有监督的学习方法能够抽取更有效的特征，其准确率和召回率都更高。因此有监督的学习方法受到了越来越多学者的关注。

在现如今多数的应用中，命名实体识别、关系提取都是单独的任务在执行，更不用说再结合文本分类了。目前常用的实体、关系抽取方法为流水线的方法：输入一个句子，首先进行命名实体识别，然后对识别出来的实体进行两两组合，再进行关系分类，最后把存在实体关系的三元组作为输入。流水线的方法存在的缺点有：1)错误传播，实体识别模块的错误会影响到下面的关系分类性能；2)忽视了两个子任务之间存在的关系。3)产生了没必要的冗余信息，由于对识别出来的实体进行两两配对，然后再进行关系分类，那些没有关系的实体对就会带来多余信息，提升错误率。

现有的文本分类和槽填充都只是作为单独的模型来训练的，不但忽视了任务之间的依赖关系，而且加重了整个项目的开发周期，加大了文本标注的工作量。文本分类和信息抽取都常用有监督学习的方式实现的，而有监督学习必须要有足够多样本数据，样本的标注是比较耗时耗力的工作，而且标注质量也因人而已。这样的话，任务阅读标注的复杂度就越大并且质量也越难保障。目前用深度学习解决自然语言处理的问题最为流行，但深度学习一般训练的周期较长，任务越多尤为突出，严重制约了项目的迭代。

发明内容

槽填充是自然语言理解中的一个重要任务，是用于提取和事件相关的各种角色信息和属性信息。新闻分类和槽填充通常将其划分为两个独立的模型来训练的，并且两个模型是不相关的。但是在业务角度上说槽填充是依赖于新闻分类的，不同类别的问题，要填充的槽类型也是不一样的。本发明提供的技术方案是将新闻分类和槽填充当做一个模型来训练，将多个任务整合在一个任务中，充分考虑了任务间的相关性，这样可以更大程度地避免新闻分类和槽类型不匹配的问题，缩小了开发周期，提高了结果的准确度。

本发明方法主要采用seq2seq+attention+crf的方案来解决，具体包括以下步骤：

(1)对网页上爬取的新闻内容进行去HTML标签处理；

(2)对处理后的新闻内容分别进行主题标注和序列化标注，得到新闻内容对应的主题标签和新闻内容中的每个字对应的序列化标签；所述主题标注用于标注新闻所属类别；所述序列化标注主要是针对在已经标注主题的情况下，确定主题相关的角色或者属性信息；

(3)创建主题和关键信息提取模型，该模型包括一个seq2seq网络和一个全连接网络，全连接网络的输入来自于seq2seq网络的编码阶段的状态输出；

(4)将步骤(2)标注好的新闻数据注入到提取模型的seq2seq网络中，对新闻内容中的字进行编码，编码过程如下：首先对新闻内容中的每个字进行embedding向量化处理，得到向量化矩阵，然后将向量化矩阵注入到编码BiLstm双向循环神经网络中，得到outputs输出矩阵和finalState最终状态矩阵；

(5)针对主题标签，将finalState矩阵注入到提取模型的全连接网络中，得到logic中间结果矩阵，将logic矩阵和实际的主题标签做交叉熵处理得到损失值category_loss；

(6)针对序列化标签，将outputs矩阵进行attention注意力机制变换得到attention注意力矩阵；

(7)将attention矩阵以及outputs矩阵一起输入到seq2seq网络的解码BiLstm双向循环神经网络中，得到decode_outputs解码输出矩阵，用crf损失函数计算decode_outputs矩阵和序列化标签对应的损失值solt_loss；

(8)将category_loss加上solt_loss得到提取网络的整体损失值loss，然后利用梯度下降法对loss进行反向传播，得到提取模型的最优参数；

(9)对未标注的新闻内容进行去HTML标签处理后，注入到主题和关键信息提取模型中，得到最优的主题标签和序列化标签，根据主题标签得到新闻所属类别，根据序列化标签得到新闻内容对应的槽位值，即角色或属性信息。

进一步地，所述步骤(4)中，对新闻内容中的每个字进行embedding向量化处理具体为：用迁移学习的方法将预训练好的embedding字向量直接注入到seq2seq网络中，在训练过程中不需要对embedding字向量中的参数进行更新。

进一步地，所述步骤(6)中，将outputs矩阵进行attention注意力机制变换得到attention注意力矩阵的过程中，采用Self attention和Multi-head的方式，解决了传统attention模型无法平行化的缺点，提升效果和性能。

进一步地，所述步骤(9)中，主题和关键信息提取模型输出主题标签矩阵和序列化标签矩阵，对于主题标签矩阵，以softmax为激活函数，得出最大概率的主题标签作为最优的主题标签；对于序列化标签矩阵，将decode_outputs解码输出矩阵进行条件随机场crf解码得到最优的序列化标签。

本发明的有益效果是：本发明提出了一种一次性解决新闻主题提取和关键信息提取的方法，本发明采用seq2seq+attention+crf的方案，强化了分类模型和槽填充模型的依赖关系，减少了文本标注的复杂度，同时可减少项目开发复杂度。

附图说明

图1为本发明一个实施例的实现流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

本发明提供的一种从新闻中提取主题和关键信息的方法，包括以下步骤：

(1)对网页上爬取的新闻内容进行去HTML标签处理；

(2)对处理后的新闻内容分别进行主题标注和序列化标注，得到新闻内容对应的主题标签和新闻内容中的每个字对应的序列化标签；

主题标注主要标注新闻所属类别，比如，对于金融机构，将与招商信息相关的新闻标注为1，其他新闻标注为0；

序列化标注主要是针对在已经标注主题的情况下，确定主题相关的角色或者属性信息，比如对于招商信息相关的融资事件，对应的角色为投资方、被投资方等，对应的属性为融资金额、融资轮次等，这些对应的角色和属性就是槽位；

对新闻内容中的每个字进行embedding向量化处理过程中，用迁移学习的方法将预训练好的embedding字向量直接注入到seq2seq网络中，在训练过程中不需要对embedding字向量中的参数进行更新。

(6)针对序列化标签，将outputs矩阵进行attention注意力机制变换得到attention注意力矩阵，在此过程中，采用Self attention和Multi-head的方式，解决了传统attention模型无法平行化的缺点，提升效果和性能；

主题和关键信息提取模型输出主题标签矩阵和序列化标签矩阵，对于主题标签矩阵，以softmax为激活函数，得出最大概率的主题标签作为最优的主题标签；对于序列化标签矩阵，将decode_outputs解码输出矩阵进行条件随机场crf解码得到最优的序列化标签。

例如对以下新闻进行本发明方法的处理：

"迈瑞发布了基于大数据算法的高端智能妇产超声专用机女娲Resona 8，她包含胎儿颅脑自动容积导航、胎儿面部自动导航、胎心自动容积导航、智能盆底超声等多项智能应用，将为妇女的产前诊断、产后康复、生殖健康带来贴心地呵护"；

如图1所示，将该新闻输入至主题和关键信息提取模型中，模型在编码阶段以字为基本单位分别进行embedding、f-lstm、b-lstm得到outputs输出矩阵和finalState最终状态矩阵；将finalState最终状态矩阵进行全连接处理得到最终的主题标签；在解密阶段，将outpouts和outputs对应的attention一起注入解密网络，在解密网络中分别进行lstm、crfdecode处理得到最终的序列化标签，最后将序列化标签转换成对应的槽位值。

以上所述仅为本发明的较佳实施举例，并不用于限制本发明，凡在本发明精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种从新闻中提取主题和关键信息的方法，其特征在于，包括以下步骤：

(1)对网页上爬取的新闻内容进行去HTML标签处理；

2.根据权利要求1所述的一种从新闻中提取主题和关键信息的方法，其特征在于，所述步骤(4)中，对新闻内容中的每个字进行embedding向量化处理具体为：用迁移学习的方法将预训练好的embedding字向量直接注入到seq2seq网络中，在训练过程中不需要对embedding字向量中的参数进行更新。

3.根据权利要求1所述的一种从新闻中提取主题和关键信息的方法，其特征在于，所述步骤(6)中，将outputs矩阵进行attention注意力机制变换得到attention注意力矩阵的过程中，采用Self attention和Multi-head的方式，解决了传统attention模型无法平行化的缺点，提升效果和性能。

4.根据权利要求1所述的一种从新闻中提取主题和关键信息的方法，其特征在于，所述步骤(9)中，主题和关键信息提取模型输出主题标签矩阵和序列化标签矩阵，对于主题标签矩阵，以softmax为激活函数，得出最大概率的主题标签作为最优的主题标签；对于序列化标签矩阵，将decode_outputs解码输出矩阵进行条件随机场crf解码得到最优的序列化标签。

5.根据权利要求1所述的一种从新闻中提取主题和关键信息的方法，其特征在于，该方法采用seq2seq+attention+crf，强化分类模型和槽填充模型的依赖关系，减少文本标注的复杂度，同时减少项目开发复杂度。