CN111949790A

CN111949790A - 基于lda主题模型与分层神经网络的情感分类方法

Info

Publication number: CN111949790A
Application number: CN202010698706.5A
Authority: CN
Inventors: 刘洪涛; 钱启敏
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-11-17

Abstract

本发明公开了一种基于LDA主题模型与分层神经网络的情感分类方法，包括：将文档输入LDA主题模型获得文档的文档‑主题分布和主题‑词分布；将文档以标点符号划分为句子，以句子为单位进行分词并将句中的词汇表示为词向量输入到双向循环神经网络中，获取词汇的隐藏状态向量；在词汇层面，使用注意力机制获取词级别的主题特征向量，结合词汇的隐藏状态向量，形成句子的向量表示；在句子层面，将句子向量输入到双向循环神经网络中，获得句子的隐藏状态向量后，使用注意力机制对文档中的句子进行加权，获取文档的向量表示。本发明增加了模型的领域适应能力，并充分利用文档的层次结构，分别在词汇和句子两层使用注意力机制，时序信息及显著信息，提高模型情感分类的准确度。

Description

基于LDA主题模型与分层神经网络的情感分类方法

技术领域

本发明涉及自然语言处理中的情感分析领域，尤其是指一种基于LDA主题模型与分层神经网络的情感分类方法。

背景技术

随着互联网行业的快速发展，越来越多的人选择通过网络来表述自己的观点与情感，如何从海量数据中高效提取出有价值的信息是一个研究重点，情感分析研究对自然语言处理、管理科学、政治学、经济学和社会科学都有很大的价值。

情感分析结合文本数据的主题是一个重要研究课题，文档主题向量本质是表示文档的深层语义，是主题和语义的内在结合，抽取的文档主题向量可以广泛的应用于情感分析任务中，例如社交网络和新媒体的舆情分析，新闻热点的及时获取等。

当前的情感分析方法主要包括以下三类：基于语言规则的方法、基于传统机器学习的方法和基于深度神经网络的方法。近年来，随着互联网的发展和数据工程的发展，文本数据的体量急剧增大和语言表示的多元化，使得神经网络技术的优势逐渐明显。相比于基于规则的方法和传统机器学习的方法，深度神经网络由于其模型与函数的复杂性，在面对当今复杂多变的语言模型时，可以捕捉更全面，更深层的文本特征，及对文本有更好的理解能力，故在情感分析领域也可以达到更好的效果，因此使用神经网络的方法成为主流方法。

现有的基于深度神经网络的情感分析的研究中，主要的工作是将文本通过神经网络的embedding层训练并表示成向量或矩阵的形式，然后构建合适的深度神经网络模型进行深层特征的抽象，最后在神经网络模型的输出层利用激活函数进行分类概率的计算。这类深度学习的方法仅仅是将文本内容转换成数字向量作为模型的输入，并未考虑到文本数据所在的领域特殊性，也没有充分的利用文本的层次结构去挖掘出文本的信息。

发明内容

本发明的目的是为了克服现有方法模型的缺陷，针对缺乏对文本具体领域的关注和没有充分利用文档层次结构挖掘文档潜在信息的问题，提出一种新的基于LDA主题模型和分层神经网络的情感分类方法，可以合理使用文档主题特征的同时，又充分学习到文档所包含的潜在信息，提高模型的泛化能力和情感分析的准确度。

本发明的核心思想是：充分利用文档的主题信息和层次结构，得到更有利于情感分类的文档向量表示。为符合文档的层次结构，使用分层的神经网络模型，在词汇层融入由LDA主题模型提取出的主题信息，并在词汇和句子两层使用注意力机制提取文本不同位置，不同意义的词汇及句子的重要性，完成了主题信息的融入，也学习到了包含文档上下文的语义信息，时序信息及显著信息的文档向量。

鉴于此，本发明采用的技术方案是：基于LDA主题模型与分层神经网络的情感分类方法，包括以下步骤：

S1、将文档输入LDA主题模型获得文档的文档-主题分布和主题-词分布；

S2、将文档以标点符号划分为句子，以句子为单位进行分词，并将句中的词汇表示为词向量，输入到双向循环神经网络中，获取词汇的隐藏状态向量；

S3、在词汇层面，获取词级别的主题特征向量，结合词汇的隐藏状态向量，使用注意力机制对句子中的词汇进行加权，形成句子的向量表示；

S4、在句子层面，将句子向量输入到双向循环神经网络中，获得句子的隐藏状态向量后，使用注意力机制对文档中的句子进行加权，获取文档的向量表示。

本发明具有以下有益效果：

1.本发明方法利用LDA主题模型提取文档的主题信息，主题信息为θ_d和β_k，在深度学习方法引入领域信息，在本文中具体表现为在词汇层面，获取词级别的主题特征向量，结合词汇的隐藏状态向量后，使用注意力机制对句子中的词汇进行加权，形成句子的向量表示，这样处理增强了模型在处理不同数据集时的泛化能力。

2.本发明方法使用的神经网络符合文档的层次结构，该神经网络共有两层，一层处理词汇合成句子向量表示，另一层处理句子合成词汇向量表示，这样能够充分挖掘文档的上下文信息和时序信息。

3.本发明方法在词汇层次和句子层次都使用了注意力机制，赋予不同位置和不同意义的词汇和句子不同的注意力权重α_it和α_i，能够充分利用文档的显著信息。

图说明

图1是本发明一种基于LDA主题模型和分层神经网络的情感分析方法的流程图；

图2是本发明方法中LDA主题模型的概率图模型示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下根据附图及实施例对本发明所述的分类方法进一步详细说明。

如图1所示，一种基于LDA主题模型和分层神经网络的情感分析方法，其基本实施过程如下：

步骤S1、将文档输入LDA主题模型获得文档的文档-主题分布θ_d和主题-词分布β_k。

具体实现过程如下：

主题模型LDA假设文档集中共有D篇文档，所有文档共有K个主题，V个词汇(不重复)，在输入所有文档后，经过LDA算法，会得到每篇文档分属这K个主题的概率分布θ_d和每个主题下V个词汇的概率分布β_k。

LDA的长文本主题挖掘能力强且是无监督模型，被认为不依赖训练样本，不存在领域转移问题，具有很好的领域适应性；LDA模型为完全贝叶斯的概率图模型，参数的推理需要推断参数的后验分布，因此采用吉布斯采样算法估计模型参数，如图2为LDA概率图模型示意图，刻画了整个长文本数据集的生成过程，详细过程阐述如下：

1)对于每一篇文档d＝1，…，D：

采样一个文档-主题分布θ_d～Dir(α)

2)对于每一个主题k＝1，…，K：

采样一个主题-词汇分布β_k～Dir(η)

3)对于文中的每一个词w＝1，…，V：

3.1)采样一个主题标签Z_dv～Mult(θ_d)

3.2)在主题标签Z_dv的主题词汇分布下采样一个单词

其中Mult(.)是多项式分布，Dir(.)是Dirichlet分布，θ_d是任一文档d的主题分布，α是分布的超参数，是一个K维向量。K代表主题个数；β_k是任一主题K的词汇分布，η是分布的超参数，是一个V维向量。V代表数据集中所有文档中不重复的词的个数；文档-主题分布，主题-词汇分布是模型需要学习的参数，Z_dv是隐变量，表示数据中任一文档d中的第n个词，从主题分布θd中得到的主题编号Z_dv的分布，W_dv是可观察到的变量。

表示在主题Z_dv下的主题词汇分布。

步骤S2、将文档以句号，问号等标点符号划分为句子，以句子为单位进行分词，去停用词等预处理，并将句中的词汇表示为词向量，输入到双向循环神经网络中，获取词汇的隐藏状态向量。

具体实现过程如下：

步骤S2.1、将文档以句号，问号等标点符号划分为句子，d＝(s₁,…,s_i,…,s_L)；

步骤S2.2、以句子为单位进行分词，去停用词等预处理；

步骤S2.3、将句中的词汇表示为词向量，本发明利用Google的开源Word2vec工具将句中的词汇全部表示为词向量，s_i＝(w_i1,…,w_it,…w_iT)；

步骤S2.4、将句子的词向量，输入到双向循环神经网络中，获取词汇的隐藏状态向量；假设将文档的第i个句子的第t个单词的词向量w_it，传入到双向GRU，得到包含上下文信息的隐藏状态向量，其过程即如下表示：

其中，

代表词汇的前向隐藏状态，

代表词汇的后向隐藏状态，

和

均代表GRU单元，h_it代表词汇的隐藏状态向量，它概括了以该词汇为中心的整体信息，T代表第i个句子有T个词汇。

步骤S3，在词汇层面，获取词级别的主题特征向量，结合词汇的隐藏状态向量后，使用注意力机制对句子中的词汇进行加权，形成句子的向量表示。

具体实现过程如下：

步骤S3.1、将LDA主题模型提取出的主题-词分布通过全连接层转化成低维主题嵌入e_k k∈[1,K]，得到的e_k具有与词汇隐藏状态向量相同的维数：

e_k＝tanh(Wβ_k)

e_k表示低维主题嵌入，β_k表示主题-词汇分布，W是参数矩阵，tanh是非线性函数。

步骤S3.2、针对句中的每个词，计算出词与每个主题之间的关联权重：

q_it,k＝h_it·e_k ^T

α_it,k＝softmax(q_it,k·θ_k)

q_it,k是一个用于计算α的中间变量，直观上来看，q_it,k是衡量词的隐藏向量与主题向量e_k的匹配程度，从而在一定程度上反映了词与主题之间的相关性，为了包含更多的主题信息，所以引入θ_k，θ_k代表文档-主题分布里第k个主题的概率，h_it表示词汇的隐藏状态向量，e_k表示低维主题嵌入，α_it,k代表第i个句子中第t个词汇和第K个主题之间的关联权重。

步骤S3.3、计算出词级别的主题特征向量：

g_it是第i个句子第t个词汇的词汇主题特征向量，α_it,k是词与每个主题之间的关联权重，e_k表示低维主题嵌入

步骤S3.4、结合词汇的隐藏状态向量，使用注意力机制对句子中的词汇进行加权，形成句子的向量表示：

h_i'_t＝[h_it,g_it]

u_it＝tanh(W_wh_i'_t+b_w)

h_it表示第i个句子第t个词汇的隐藏状态向量，g_it表示第i个句子第t个词汇的主题特征向量，h_i'_t表示将词汇的隐藏状态向量和主题特征向量进行特征融合形成的包含主题信息的词汇向量表示；u_it是h_i'_t通过单层感知机得到的隐藏的表示；α_it是衡量该词汇在整个句子中的重要性权重；s_i是句子的向量表示；另外的参数W_w，b_w，u_w为需要学习的模型参数。

步骤S4，在句子层面，将句子向量输入到双向循环神经网络中，获得句子的隐藏状态向量后，使用注意力机制对文档中的句子进行加权，获取文档的向量表示。

具体实现过程如下：

步骤S4.1、假设文档的第i个句子向量为s_i，i∈[1,L]，L代表一篇文档总共为L个句子。传入到双向GRU得到句子的隐藏状态向量h_i：

步骤S4.2、使用注意力机制对文档中的句子进行加权，获取文档的向量表示v：

u_i＝tanh(W_sh_i+b_s)

h_i表示第i个句子的隐藏状态向量；u_i是h_i通过单层感知机得到的隐藏的表示；α_i是衡量该句子在整个文档中的重要性权重；F是文档的向量表示；另外的参数W_s，b_s，u_s为需要学习的模型参数。

步骤S5、使用大规模语料来训练基于LDA主题模型与分层神经网络的情感分类模型。

首先，对大规模文本数据集进行预处理，包括中文分词，噪声处理等；

设置LDA模型超参数，主题个数；Dirichlet先验分布超参数α＝50/topic，

主题个数根据数据集定。初始化神经网络的神经元个数，隐藏层状态向量维数，神经元参数，设置迭代学习次数，使用梯度下降法对模型进行训练。

然后通过上述模型的步骤，根据训练测试数据集的情感维度，假设数据集的情感维度是四，0代表高兴，1代表悲伤，2代表兴奋，3代表中立，不悲不喜，可以获得每篇文档的情感所属，假设文档的情感为高兴，则模型输出0；假设文档的情感为悲伤，则模型输出为1，其余同理可推。

Claims

1.基于LDA主题模型与分层神经网络的情感分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于LDA主题模型与分层神经网络的情感分类方法，其特征在于：所述文档-主题分布和主题-词分布分别为：每篇文档分属K个主题的概率分布和每个主题下V个词汇的概率分布。

3.根据权利要求1或2所述基于LDA主题模型与分层神经网络的情感分类方法，其特征在于：所述LDA主题模型的处理过程为：

1)对于每一篇文档d＝1，…，D，采样一个文档-主题分布θ_d～Dir(α)；

2)对于每一个主题k＝1，…，K，采样一个主题-词汇分布β_k～Dir(η)；

3)对于文中的每一个词w＝1，…，V，采样一个主题标签Z_dv～Mult(θ_d)，在主题标签Z_dv的主题词汇分布下采样一个单词

其中Mult(.)是多项式分布，Dir(.)是Dirichlet分布，θ_d是任一文档d的主题分布，α是分布的超参数，是一个K维向量，K代表主题个数；β_k是任一主题K的词汇分布，η是分布的超参数，是一个V维向量，V代表数据集中所有文档中不重复的词的个数；文档-主题分布，主题-词汇分布是模型需要学习的参数，Z_dv是隐变量，W_dv是可观察到的变量，D是文档集中的文档数量。

4.根据权利要求1所述基于LDA主题模型与分层神经网络的情感分类方法，其特征在于：步骤2所述获取词汇的隐藏状态向量具体为，将文档的第i个句子的第t个单词的词向量w_it，传入到双向双向循环神经网络，得到包含上下文信息的隐藏状态向量，其过程如下表示：