CN109446423A

CN109446423A - 一种新闻以及文本的情感判断系统及方法

Info

Publication number: CN109446423A
Application number: CN201811257151.XA
Authority: CN
Inventors: 李敏; 吴家鸣; 赵巍巍
Original assignee: Beijing Jiebao Data Technology Co ltd
Current assignee: Beijing Jiebao Data Technology Co ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-03-08
Anticipated expiration: 2038-10-26
Also published as: CN109446423B

Abstract

本发明公开了一种新闻以及文本的情感判断方法，包括以下步骤：对网络爬取的新闻文本预处理，去除爬虫网页标签，并且去除新闻文本中的停用词；采用深度学习法对新闻文本初步情感判断；利用SVM方法对新闻文本二次情感判断；收集总结新闻文本内的表示正面或负面的情感词语，并且与正负面情感数据库进行匹配，计算新闻文本内正面或负面的情感词语的比重，进行三次情感判断；将初步情感判断结果、二次情感判断结果和三次情感判断结果进行权重计算，综合判断新闻文本的情感；本方案将以上三种方法的情感判断方法进行权重计算，来对新闻以及文本进行综合的情感判断，提高对新闻以及文本的情感判断的准确率。

Description

一种新闻以及文本的情感判断系统及方法

技术领域

本发明涉及人工智能和自然语言处理技术领域，具体为一种新闻以及文本的情感判断系统及方法。

背景技术

随着网络技术、网络媒体的迅猛发展，网络中的新闻、用户观点、用户评价、社会的舆情等海量信息已经急剧增加。这些信息中很多会带有主观情感的信息，有正面的情感、也有负面的情感。

在过去，都是用人工来判断新闻以及文本的情感。这需要大量的人力去判断网络新闻以及文本的情感。用人工来对情感进行判断的话，作为网络信息爆炸的今天，人工判断新闻调性以及文本的情感倾向是极为落后的。

因此，如何从海量的信息中、采用非人工的、高速的、精确的判断这些信息的主观情感，成为政府、企业单位、事业单位等的迫切的、重要的技术课题。

其中在这个专利申请号为201710463295.X的发明中，公布了一种网络新闻获取并预测文本情感的系统。这种系统以网络爬取的新闻文本作为训练集，利用SVM方法、对网络新闻的情感进行标注、并进行训练，之后，进行网络新闻情感的判断。

在上面的这个发明中，存在着一些问题，即只使用一种情感判断方式，在情感判断的精确性上是具有局限性的，精确性上很难有更好的性能。

发明内容

为了克服现有技术方案的不足,本发明提供一种新闻以及文本的情感判断系统及方法，能有效的解决背景技术提出的问题。

本发明解决其技术问题所采用的技术方案是：

一种新闻以及文本的情感判断方法，其特征在于，包括以下步骤：

步骤100、对网络爬取的新闻文本预处理，将新闻文本的标题和内容合并，去除爬虫网页标签和文本中的停用词；

步骤200、采用深度学习法对新闻文本初步情感判断；

步骤300、利用SVM方法对新闻文本二次情感判断；

步骤400、收集总结新闻文本内表示正面或负面的情感词语，并且将情感词语与情感数据库进行匹配，计算新闻文本内正面或负面的情感词语的比重，进行三次情感判断；

步骤500、将初步情感判断结果、二次情感判断结果和三次情感判断结果进行权重计算，综合判断新闻文本的情感。

进一步地，在步骤200中，采用深度学习法进行初步情感判断的具体步骤为：

步骤201、将去除停用词的新闻文本进行分词处理，得到一元词、二元词、三元词和多元词的词语序列；

步骤202、将步骤201中词语序列的分词元素分别与情感数据库进行对比，重新将词语序列按照否定词和程度词重新排列，生成扩展词序列；

步骤203、统计扩展词序列中词元素中表示情感倾向的所有词组数量，即统计在新闻或文本中表示正面倾向的词总量、表示负面倾向的词总量和中性倾向的词总量；

步骤204、将扩展词序列中的情感倾向词输入至情感判断模型进行训练，得出判断结果。

进一步地，在所述步骤202中，在将分词元素与情感数据库对比，生成扩展词序列的步骤具体为：

首先，将新闻或文本标题分类对应到相应的主题领域；

然后，选择对应主题领域内的情感数据库；

最后，分别将词语序列内的分词元素与情感数据库进行匹配，将与正面或者负面情感倾向词相邻的程度词和否定词合并到一起，并且将情感数据库中与分词元素相近的标准词代替词语序列中的词元素，重新整合成扩展词序列。

进一步地，在步骤300中，采用SVM方法进行二次情感判断的具体方法为：

步骤301、按照顺序提取出新闻文本中的情感倾向特征词，并将新闻文本中的情感倾向特征词分为正面、中性、负面三类；

步骤302、采用情感倾向特征词的IG算法，将多个特征词集成在特征词典内；

步骤303、对特征词典内的特征词进行tf/idf计算，把特征词的tf/idf值加入SVM模型中进行训练，得到正面、中性、负面三类情感倾向值。

进一步地，所述IG算法的计算公式具体为：

IG＝∑P(i)ln(P(i)/Q(i))；

其中IG为信息增益，P(i)为第i个特征词的概率分布，Q(i)为情感分类的概率分布。

进一步地，所述情感数据库包括正面情感词典、负面情感词典、程度副词词典和否定词典。

进一步地，在所述步骤500中，对情感判断结果进行权重计算的公式具体为：

E(X)＝∑(p(x)*e(x))；

其中E(X)为上述三种算法的情感倾向统计数学期望，p(x)为上述某算法的权重，e(x)为上述某算法情感倾向值。

进一步地，三种情感判断算法的权重具体计算方法：

第一、获取多种不同领域和不同主题的实验文本；

第二、人工对实验文本准确识别文本的情感倾向结果，即对该主题为正面倾向、反面倾向或者中立倾向；

第三、依次根据深度学习法、SVM方法和情感数据库法三种情感判断方法对上述实验文本来进行情感判断，并分别记录三种情感判断方法对实验文本的情感判断结果；

第四、依次将三种情感判断方法对所有实验文本的判断结果与人工判断的情感结果进行对比，分别确定三种情感判断方法的准确率，并且该准确率即为三种情感判断方法的权重。

与现有技术相比，本发明的有益效果是：本发明将深度学习法、SVM方法、情感数据库方法进行结合，将以上三种方法的情感判断方法进行权重计算，来对新闻以及文本进行综合的情感判断在实际应用中，对新闻以及文本的情感判断取得了非常好的效果,准确率非常高。

附图说明

图1为本发明的判断流程示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种新闻以及文本的情感判断方法，包括以下步骤：

步骤100、对网络爬取的新闻文本预处理，将新闻文本的标题和内容合并，去除爬虫网页标签和文本中的停用词，对爬取下来的内容进行去除杂乱标签处理，杂乱标签包括例如“◆”、“▲”、“↓”等等符号。并且去除掉网页的html标签，停用词具体为连接词和副词，比如说“和”、“得”、“的”、“之间”等。

步骤200、采用深度学习法对新闻文本初步情感判断。

在此步骤中，采用深度学习法进行初步情感判断的具体步骤为：

步骤201，将去除停用词的新闻文本进行分词处理，得到一元词、二元词、三元词和多元词的词语序列，这里的分词处理是对新闻文本的每句话按照常用的词语为单位分成若干个词元素，从而形成若干组二元词、三元词和多元词的词语序列。

步骤202，将上述步骤中词语序列的分词元素分别与情感数据库进行对比，重新将词语序列按照否定词和程度词重新排列，生成扩展词序列，由于现在网络社会的快速发展，有很多新词出现以表达某种情绪，为避免遗漏情感倾向词，先将词语序列的词元素与情感数据库进行对比，对于已存在情感数据库内的词元素则不做改变，对于可转化的词元素，则用情感数据库汇总的相近词代替词向量序列中的词元素，例如可将“鸡肋”转化为“无用”，并且由于中文的一个正面倾向词加上否定词，有可能就转化为反面倾向词，而程度副词的添加，可提高情感倾向值，因此在此步骤中，需要对词语元素进行重新的整合成一个新的元素，生成扩展词序列。

在所述步骤202中，在将分词元素与情感数据库对比，生成扩展词序列的步骤具体为：

首先，将新闻或文本标题分类对应到相应的主题领域；

然后，选择对应主题领域内的情感数据库；

有些词汇在不同的领域中，其表示的情感倾向差别很大，所以先对新闻文本的主题明确，便于对情感倾向的分词元素进行正反面分类，对分词元素进行正面或者负面情感分类，最后重新对词向量序列按照正面或者负面情感分成正面情感向量序列和负面情感向量序列。

步骤203，统计扩展词序列中词元素中表示情感倾向的所有词组数量，即统计在新闻或文本中表示正面倾向的词总量、表示负面倾向的词总量和中性倾向的词总量，在统计情感倾向词之前，先要利用词嵌入技术对扩展词向量序列中的词元素进行向量转换，生成词向量序列词，词嵌入技术就是给扩展词向量序列中的每个元素赋一个向量，向量代表空间里的点，含义接近的词，其向量也接近，这样对于词的操作就可以转化为对于向量的操作了，在深度学习中又被称为张量。

进一步说明的是，对于正面情感倾向词和反面情感倾向词，对其赋值之后的向量差别很大，用向量表示词的好处在于：第一，可以克服文字长短不均的问题，因为如果每个词已经有对应的词向量，那么对于长度为N的文本，只要选取对应的N个词所代表的向量，并按文本中词的先后顺序排在一起，其中每个词向量的维度都是一样的；第二，词本身无法形成特征，但是张量就是抽象的量化，它是通过多层神经网络的层层抽象计算出来的；第三，文本是由词组成的，文本的特征可以由词的张量组合，文本的张量蕴含了多个词之间的组合含义，这可以被认为是文本的特征工程，进而为机器学习文本分类提供基础。

步骤204，将扩展词序列中的情感倾向词输入至情感判断模型进行训练，得出判断结果，情感判断模型采用深度卷积神经网络原理进行情感判断，所述深度卷积神经网络利用ReLU线性整流函数进行情感词激活。

本实施方式中的情感数据库包括正面情感词典、负面情感词典、程度副词词典和否定词典。

步骤300、利用SVM方法对新闻文本二次情感判断；

采用SVM方法进行二次情感判断的具体方法为：

(1)按照顺序提取出新闻文本中的情感倾向特征词，并将新闻文本中的情感倾向特征词分为正面、中性、负面三类，在提取出新闻文本之前，首先确定新闻主题，可按照一元词、二元词、三元词或者多元词进行分词处理，然后将具有情感倾向特征词进行情感分类。

(2)采用情感倾向特征词的IG算法，将多个特征词集成在特征词典内，所述IG算法的计算公式具体为：

IG＝∑P(i)ln(P(i)/Q(i))；

需要补充说明的是，特征词典是一种变容器模型，且可存储任意类型对象，在本实施方式中，特征词典可包括多个元素，其中特征词典中的每个元素包括特征词变量以及对应特征词的信息增益。

(3)对特征词典内的特征词进行tf/idf计算，把特征词的tf/idf值加入SVM模型中进行训练，得到正面、中性、负面三类情感倾向值，tf/idf用于计算特征词的权重计算，其中tf代表特征词的词频，用以计算该特征词描述文档内容的能力，idf为逆文档频率，用于计算该特征词区分文档的能力，将tf/idf值通过非线性变换加入到特征词的信息增益中，从而得到正面、中性、负面三类情感倾向值。

步骤400、收集总结新闻文本内的表示正面或负面的情感词语，并且与正负面情感数据库进行匹配，计算新闻文本内正面或负面的情感词语的比重，进行三次情感判断。

在此步骤中，首先需要对新闻或者文本分词得到分词序列，并且对分词序列按照相邻的程度词和否定词整合，生成扩展词序列，并且对扩展词序列中的情感倾向词进行标注分类，然后当新闻以及文本中有相应的负面的情感的词语时，便对应新闻或者文本做出为负面判断，否则为非负面新闻以及文本，最后对多个分词序列进行负面判断和非非负面判断的统计叠加，比较负面判断和非负面判断的比重，判断该新闻文本的情感趋向。

在此步骤中，对情感判断结果进行权重计算的公式具体为：

E(X)＝∑(p(x)*e(x))；

利用权重法对三种情感判断方法进行加权平均，可减小准确率低的判断算法所占的比例，从而提高情感判断的准确率。

需要补充说明的是，三种情感判断算法的权重具体计算方法：

第一、获取多种不同领域和不同主题的实验文本；

也就是说，本实施方式中三种情感判断方法的权重，是经过大量文本的判断实验得到的，此种方式也尽可能的提高每种判断情感方法的权重准确性。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种新闻以及文本的情感判断方法，其特征在于，包括以下步骤：

步骤200、采用深度学习法对新闻文本初步情感判断；

步骤300、利用SVM方法对新闻文本二次情感判断；

2.根据权利要求1所述的一种新闻以及文本的情感判断方法，其特征在于，在步骤200中，采用深度学习法进行初步情感判断的具体步骤为：

3.根据权利要求2所述的一种新闻以及文本的情感判断方法，其特征在于，在所述步骤202中，在将分词元素与情感数据库对比，生成扩展词序列的步骤具体为：

首先，将新闻或文本标题分类对应到相应的主题领域；

然后，选择对应主题领域内的情感数据库；

4.根据权利要求1所述的一种新闻以及文本的情感判断方法，其特征在于，在步骤300中，采用SVM方法进行二次情感判断的具体方法为：

5.根据权利要求4所述的一种新闻以及文本的情感判断方法，其特征在于，所述IG算法的计算公式具体为：

IG＝∑P(i)ln(P(i)/Q(i))；

6.根据权利要求1所述的一种新闻以及文本的情感判断方法，其特征在于，所述情感数据库包括正面情感词典、负面情感词典、程度副词词典和否定词典。

7.根据权利要求1所述的一种新闻以及文本的情感判断方法，其特征在于，在所述步骤500中，对情感判断结果进行权重计算的公式具体为：

E(X)＝∑(p(x)*e(x))；

8.根据权利要求7所述的一种新闻以及文本的情感判断方法，其特征在于，三种情感判断算法的权重具体计算方法：

第一、获取多种不同领域和不同主题的实验文本；