CN110321563B - 基于混合监督模型的文本情感分析方法 - Google Patents
基于混合监督模型的文本情感分析方法 Download PDFInfo
- Publication number
- CN110321563B CN110321563B CN201910580225.1A CN201910580225A CN110321563B CN 110321563 B CN110321563 B CN 110321563B CN 201910580225 A CN201910580225 A CN 201910580225A CN 110321563 B CN110321563 B CN 110321563B
- Authority
- CN
- China
- Prior art keywords
- sentence
- emotion
- text
- node
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言分析技术,旨在提供一种基于混合监督模型的文本情感分析方法。包括:利用基于复合神经网络的定性情感分析模型进行强监督定性分析,通过将LSTM与CNN联合构造复合神经网络,并用于同时提取文本的序列特征与多维度特征,更准确地预测文本的情感极性可信度;基于句法分析树实现弱监督定量分析,通过对句子分词和构造句法分析树得到句子的层级修饰关系;然后根据情感词典进行递归向上的标注与计算,计算出各句的情感强度值;将前述可信度与情感强度相乘,得到文本的终判情感强度。本发明提出的混合监督模型,可以取现有技术两种计算方式的长处,能够给出兼具可信度与精细度的分析结果。
Description
技术领域
本发明涉及自然语言分析技术,特别涉及基于混合监督模型的文本情感分析方法。
背景技术
文本情感分析是指利用自然语言处理(Natural Language Processing,NLP)领域相关手段对目标文本中的主观情感因素进行研究分析的技术。通常而言,情感分析的目的是为了分析判断作者在给定文本中表达出的情感趋向或者情绪类别、观点意见等。
现有的情感分析各类方案,依据训练集标签种类和分析结果的粒度,可以分为以下两类:定性情感分析对被分析文本给出定性的情感极性方向,以及相应的正极性概率值。其训练集的标签只有两个可能取值,分别代表正负两个极性标签。定量情感分析对被分析文本给出定量的情感强度值,而强度值的符号代表情感极性方向。训练集的标签文本的情感强度值,其可能取值有多个,每个可能取值代表不同的情感强度级别。
定性情感分析的研究中,普遍涉及到了词的向量表示以及文本特征提取。自然语言处理领域中的一个重要研究领域就是如何将词汇转化为易于计算和处理的形式,由于词汇是字符串,无法对其进行直接加减等计算,因此需要将其转化为易于计算机处理计算的二进制结构化数据形式,2013年Google开源了其用于将词转化为向量表示的工具Word2Vec,能够使用无监督的语料将词汇转化为多维度实数向量,被人们广泛使用;而文本特征提取的任务是将词向量序列状态的文本转化为便于模型计算处理的数据结构,所提取出特征的质量好坏直接决定了模型最终的表现上限,目前常用的文本特征提取方式主要包括基于规则、基于统计特征、基于文本表示模型和基于神经网络四种。
定量情感分析的研究中,目前成果较少,其核心原因是所需的篇章级别情感强度标注数据集较为缺乏,很多时候只能依靠弱监督方式。大致上,定量情感分析方式可以分为基于强监督学习和基于弱监督学习两类。文本情感分析领域在国内外具有很多研究成果,应用了支持向量机SVM,朴素贝叶斯发、最大熵模型、LSTM、CNN等模型,但是这些方案无法提供可靠的文本定量情感强度值。
在某些场景下的情感分析任务中会希望得到定量的分析结果,但目前普遍应用的定性分析方式无法满足此要求,而现有的各类定量分析方式也面临可靠性不足的问题。为了提供较为可靠的文本定量情感强度值,本发明提出了基于混合监督模型的文本情感分析算法。
发明内容
本发明要解决的技术问题是,克服现有技术中的不足,提供一种基于混合监督模型的文本情感分析方法。
为解决上述技术问题,本发明采用的解决方案是:
提供一种基于混合监督模型的文本情感分析方法,包括:
(1)利用基于复合神经网络的定性情感分析模型进行强监督定性分析,通过将长短期记忆单元(LSTM)与卷积神经网络(CNN)联合构造复合神经网络,并用于同时提取文本的序列特征与多维度特征,更准确地预测文本的情感极性可信度;
(2)基于句法分析树实现弱监督定量分析,通过对句子分词和构造句法分析树得到句子的层级修饰关系;然后根据情感词典进行递归向上的标注与计算,计算出各句的情感强度值;
(3)将步骤(1)中强监督部分给出的可信度与步骤(2)中弱监督部分给出的情感强度相乘,得到文本的终判情感强度。
本发明中,所述步骤(1)包括:
(1.1)将输入的中文文本分词后通过Word2Vec转化为词向量序列的形式,依序输入长短期记忆单元中,对文本中上下文所包含情感的序列特征进行建模提取;
(1.2)将所提取到的特征输入卷积神经网络中,对文本中不同维度下的情感特征进行提取建模;
(1.3)将卷积神经网络的输出接入全连接的多层感知机中进行拟合回归,输出文本属于正类的情感极性概率值,再根据此值计算出文本的情感极性可信度。
本发明中,在将每个词向量输入长短期记忆单元后,输出此时模型的隐状态向量并按输入顺序纵向堆叠,将词序列形式的文本映射为一个二维矩阵;然后使用卷积神经网络对该矩阵进行处理,进一步对文本情感的空间特征进行高层抽象后,作为卷积神经网络的输出。
本发明中,在所述步骤(1.2)中,保存相对较浅层次的输出特征图作为n较小的ngram特征,与相对的高层特征一起构成多维度的文本特征输出。
本发明中,在所述步骤(1.2)中,经过多层卷积层提取特征后产生的特征图是不定长的,导致提取出的特征图无法直接输入宽度固定的全连接层,需进一步通过空间金字塔池化方式将变长的输入映射到定长的输出,具体包括:将长宽不定的二维矩阵按长宽比例分割映射到一个定长宽的二维网格中,再对落入每个网格中的子矩阵进行相应的池化操作,得到定长的输出。
本发明中,在所述步骤(1.3)中,为了保证卷积神经网络层的充分训练,应当将卷积神经网络层最后时刻的隐状态输出也输入全连接层中,即为卷积神经网络层创建一个短路连接。
本发明中,所述步骤(2)包括:
(2.1)构造基于句法分析树的弱监督定量分析模型,对待分析文本进行分句与分词后,逐句进行句法分析,构造句法分析树,并根据词典和预定规则对句法分析树进行自底向上的递归标记计算,最终得到每句的情感强度值;
(2.2)对文本进行关键词提取,根据每个句子内所包含的关键词数量与权重以及与标题的相似度综合确定句子的权重,再将所有句子的情感强度值加权求和,得到文本的初判情感强度值。
本发明进一步提供了一种基于混合监督模型的文本情感分析装置,包括:
强监督定性分析模块,用于利用基于复合神经网络的定性情感分析模型进行强监督定性分析,通过将长短期记忆单元与卷积神经网络联合构造复合神经网络,并用于同时提取文本的序列特征与多维度特征,更准确地预测文本的情感极性可信度;
弱监督定量分析模块,用于基于句法分析树实现弱监督定量分析,通过对句子分词和构造句法分析树得到句子的层级修饰关系;然后根据情感词典进行递归向上的标注与计算,计算出各句的情感强度值;
终判情感强度模块,用于将强监督部分给出的可信度与弱监督部分给出的情感强度相乘,得到文本的终判情感强度。
本发明进一步提供了一种基于混合监督模型的文本情感分析装置,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,能够实现如权利要求1至6任一项所述基于混合监督模型的文本情感分析方法。
本发明进一步提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能够实现如权利要求1至6任一项所述基于混合监督模型的文本情感分析方法。
与现有技术相比,本发明的技术效果是:
在情感分析领域,最好的现有技术都是单一的定性分析或定量分析,这两者都存在各自的缺陷:定性分析较为可靠,但无法给出耕细粒度的分析结果,实用性受限;定量分析虽然能够给出具体的情感强度,但因其弱监督方式,可信度方面稍显欠缺。本发明提出的混合监督模型,可以取上述两者的长处,能够给出兼具可信度与精细度的分析结果。
附图说明
图1强监督定性部分的算法流程图;
图2LSTM-CNN复合神经网络架构图;
图3复合神经网络中的CNN卷积层及其输出;
图4空间金字塔池化;
图5全连接层的构造;
图6弱监督定量分析部分的算法流程图;
图7原始句法分析树;
图8完全标注的句法分析树;
图9基于混合监督模型的文本分析算法基本流程图。
具体实施方式
首先需要说明的是,本发明涉及大数据分析及深度学习技术,是计算机技术在的一种应用。在本发明的实现过程中,会涉及到多个软件功能模块的应用。申请人认为,如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后,在结合现有公知技术的情况下,本领域技术人员完全可以运用其掌握的软件编程技能实现本发明。前述软件功能模块包括但不限于:长短期记忆单元、卷积神经网络、强监督定性分析模块、弱监督定量分析模块、终判情感强度模块等,凡本发明申请文件提及的均属此范畴,申请人不再一一列举。
下面结合附图,对本发明的具体实施方式进行详细描述。
现有的分析技术虽然使用不同的手段提升了情感分析的精准度,但其情感分析方式均属于定性情感分析。在某些场景下的舆情分析任务中,由于分析粒度过于粗糙,不能满足实际的需求。例如,在某第三方网贷论坛上,关于某平台有以下两例评论文本:
1、“利率低,不赚钱,有点抠门!”
2、“无良平台,提现困难,怀疑卷款跑路!”
其中,第一例是用户对平台利率低赚钱慢的抱怨,而第二例是用户发现提款困难后发出的警告。在互联网金融舆情分析任务背景下,两者表现出的情感强度相差很大,前者较为轻微,后者较为严重。
然而,在定性情感分析中,训练集仅具有二分类标签,此时两者的训练集标签相同,均为“负向”,因此即便输出负极性的概率值,也不能保证后者的负极性概率值一定远大于前者,甚至可能会因为训练集中例1类型的负样本过多而导致训练出的定性判别模型趋向于对例1输出比例2高得多的负极性概率值,这将导致的舆情分析判断出现失误。事实上,例1类型的评论对于互金领域的风险评估而言消极程度并不高,因为它表明平台的利率制定较为合理。
由上可见,单纯给出正负极性概率的定性分析在某些任务场景下无法给出令人满意的结果,在这些任务中,往往期望得到带有具体强度数值或等级的情感分析结果,此时定性情感分析方式无能为力。相比定性情感分析,定量情感分析方式可以给出具体的强度值。在上例中,例2所表达出的负面情感强度明显强于例1,其中“跑路”和“提款困难”等短语在网贷领域的负面强度远远高于“利率低”和“抠门”等表述,其标签中的情感强度值应当显著大于例1。因此,在定量情感分析所给出的量化情感强度值上,两者区别明显。由此可见,定量情感分析在此场景的舆情分析任务中更贴合实际需要。
然而,目前并不存在高质量的具有明确多级别情感标注的篇章级别中文文本数据集,情感词典仅为词级别文本标注集,句法分析模型也仅由句级别文本标注集训练,而在篇章层面目前仍然缺乏具有明确情感强度级别的标注数据集,因此定量情感分析方式总体上是弱监督的,其计算结果的可信度相对于定性分析而言有一定差距,因此限制了定量情感分析方式的应用场景。
针对以上问题,本发明提出了基于混合监督模型的文本情感分析系统,将定性分析与定量分析方式相结合,互相取长补短,能够给出兼具可信度和精细度的分析结果,从而提供更加优质的舆情走势情况。
为了使分析结果同时具备定性情感分析的可信与定量情感分析的精确,本发明提出基于混合监督模型的文本定量情感分析方法:
首先,提出一种全新的强监督定性分析模型,通过将长短期记忆单元(Long-ShortTerm Memory,LSTM)与卷积神经网络(Convolutional Neural Network,CNN)联合,构造了复合神经网络,能够同时提取文本的序列特征与多维度特征,从而更准确地预测文本的情感极性。
其后,提出一种弱监督的定量分析模型,通过对句子分词、构造句法分析树,得到句子的层级修饰关系,再根据情感词典进行递归向上的标注与计算,计算出各句的情感强度值。
最后,结合强监督部分给出的可信度与弱监督部分给出的情感强度,综合得到文本的终判情感强度。
步骤1:基于复合神经网络的定性情感分析模型
文本的情感特征应当是兼具空间性与序列性的一种复合特征,单独的CNN或者LSTM均无法进行有效的提取与处理。针对此问题,本发明将LSTM与CNN结合起来,针对文本的复合情感特征进行建模。
1.1模型总体架构
首先,将输入的中文文本分词后通过Word2Vec转化为词向量序列的形式,依序输入LSTM中,对文本中上下文所包含情感的序列特征进行建模提取。
再将所提取到的特征输入CNN中,后者将对文本中不同维度下的情感特征进行提取建模。
最后将CNN的输出接入全连接的多层感知机中进行拟合回归,输出文本属于正类的情感极性概率值,再根据此值计算出文本的情感极性可信度。
图1给出了基于复合神经网络的强监督定性分析模型的算法流程图。
每个词向量输入LSTM后,将输出此时模型的隐状态向量,将隐状态向量按输入顺序纵向堆叠,可以将词序列形式的文本映射为一个二维矩阵,使用CNN对此矩阵进行处理,进一步对文本情感的空间特征进行高层抽象。所提出的复合神经网络的架构如图2所示。
例如,当输入一个词的词向量wi时,LSTM的隐藏层便输出一个定长的向量li。当一篇文章的所有词输入完毕时,LSTM的输出堆叠形成一个二维实数矩阵:
L=[l1,l2,…lt]
式中t为此文章包括的所有词数。随后,此矩阵被输入CNN,经过多层卷积层提取空间情感特征,并最后经过金字塔池化层映射为定长的输出。最后,CNN的输出与LSTM的最终输出拼接后,输入全连接层进行回归拟合,得到最终的文本正极性情感概率。
1.2提取多维度空间情感特征的CNN卷积层
文本中的特征是多维度的,即n-gram特征。经过多层卷积层后得到的特征图输出所获得的n-gram特征的n较大,可以从CNN的感知野公式中看出这一点:
ri+1=(ri-1)*stride+sizekernel
式中ri是第i层的感知野大小,stride为卷积步长,sizekernel为卷积核的大小。当stride>1时,{ri}成一个近似的等比数列,公比为stride,随着层数加深,卷积层的感知野指数增大,对应n-gram特征中很大的n。当stride=1时,{ri}成为一个公差为sizekernel-1的等差数列,当卷积层数多时也会出现类似的问题。
同时,n较小时的短语级别特征也同样重要,而深层的输出特征图显然不包括这些短语级特征。因此,有必要保存较浅层次的输出特征图,作为n较小的ngram特征,与高层特征一起构成多维度的文本特征输出。为了保存多维度的文本特征,本发明所采用的CNN卷积层构造如图3所示。
1.3空间金字塔池化层
L矩阵行数为此文章中的词数,因此经过多层卷积层提取特征后产生的特征图是不定长的,导致提取出的特征图无法直接输入宽度固定的全连接层,针对定尺寸二维矩阵的传统CNN在此问题上无法直接应用。
本发明引入了空间金字塔池化方式(Spatial Pyramid Pooling,SPP)将变长的输入映射到定长的输出。空间金字塔池化方式是将长宽不定的二维矩阵按长宽比例分割映射到一个定长宽的二维网格中,再对落入每个网格中的子矩阵进行相应的池化操作,此时得到的输出便是定长的。例如,图4描述了空间金字塔池化的框架:
设定空间金字塔输出层的行级池化尺度序列为
{1,K,K2,K3,K4}
采用最大池化方式,即池化后得到的值为矩阵在池化窗口内所有元素的最大值。
1.4全连接层
经过前述卷积层和金字塔池化层后,网络提取出了文本情感的复合特征。将金字塔池化层的输出展开为一个长向量后,将其输入全连接网络中进行回归拟合,得到文本的情感极性概率值。
为了保证LSTM层的充分训练,应当将LSTM层最后时刻的隐状态输出也输入全连接层中,即为LSTM层创建一个短路连接,如图4-5所示。
本发明的全连接层采用两层全连接神经元层,激活函数为relu函数。全连接层的最终输出是一个概率值p,表示文本属于正极性的概率,最终的损失函数采用交叉熵损失函数:
(y,p)=C(y,p)=ylog p+(1-y)log(1-p)
式中y为文本的情感极性标签,1表示正极性,0表示负极性。
步骤2:基于句法分析树的弱监督定量分析方法
2.1模型总体架构
在前述定量分析模型基础上,再额外构造弱监督的定量分析部分。
首先,构造基于句法分析树的弱监督定量分析模型。对待分析文本进行分句与分词后,逐句进行句法分析,构造句法分析树,并根据词典和预定规则对句法分析树进行自底向上的递归标记计算,最终得到每句的情感强度值。
随后,对文本进行关键词提取,根据每个句子内所包含的关键词数量与权重以及与标题的相似度综合确定句子的权重,再将所有句子的情感强度值加权求和,得到文本的初判情感强度值。弱监督定性模型的算法流程图如图6所示。
2.2句子层级计算
在句子层面,首先需要对每个分句后的句子si分词,使之成为词组形式word_split(si)={w1,w2,…wl}。将每个句子分词后对应的词组输入句法分析树生成器,即可得到句子对应的句法分析树,记作Tr(si)。例如,一棵构建完毕的句法分析树的原始形式如图7所示,具体说明如下:
原始的句法分析树只有结点语法标记,并不满足后续计算所需,还要对生成的句法分析树的节点作相应标记,在此引入如下三种标记:
1.结点修饰属性种类标记,标示结点属于何种修饰属性。可取值包括{“情感”,“程度”,“否定”,“普通”}。
2.结点系数值,标示结点在计算中的代表数值,是一个实数值。
3.结点修饰方向,标示结点的修饰方向,可取值包括{“前向”,“后向”}。
图8给出了图7中原始句法分析树完全标记后的对应的最终形式。
2.2.1叶节点标记规则
结点的标记与情感值计算是自底向上递归进行的。在叶结点层,每个叶结点就是一个单独的词,可以根据词典确定,因此其标记规则和运算定义如下:
结点属性种类:
如果词命中了情感词典,则其属性种类标记为“情感”,
否则如果命中程度或者否定词典,则其属性为“程度”或者“否定”。
如果没有命中以上词典,则其属性为“普通”。
结点系数值:
如果词命中了情感、程度或者否定词典,则其系数为根据词典中对应的情感强度/系数值,
否则,节点系数值为0。
结点修饰方向:
如果此结点是父结点的最右子结点,则其修饰方向必须为“前向”。
如果此结点是一个程度/否定词,则跟其在词典中的方向标记一致。
如不满足a和b,则默认为“后向”。
获取结点n的属性、结点系数值与修饰方向的操作分别记作attr(n),val(n)以及dir(n).
2.2.1非叶节点标记规则
向上递归到非叶子结点时,其情感值计算和标记由其兄弟结点和子结点决定,具体规则如下:
结点属性种类:当结点内除去冠词、连词等语法虚词子结点后,
如果剩余子结点的属性全部为“程度”或者“否定”,则整个结点的属性为“程度”
如果包括至少一个“情感”子结点,则整个结点的属性为“情感”。
否则,结点属性为“普通。
结点系数值与结点修饰方向:去除首尾虚词结点后的当前结点n一定满足以下形式:
n={b1,b2,…,f1,f2,…},s,≥0
其中bs是右起第一个后向修饰结点,f1,f2,…ft均是前向修饰结点。
将n分割为如下两部分:
nb={b1,b2,…,bs}
nf={f1,f2,…,ft}
对于nb和nf分别初始化整体计算符号为“*”,从左向右按如下方式构造四则运算式:
若当前子结点ncur是一个程度/否定结点,则向运算式后加入实数val(ncur)和乘号“*”
否则,向运算式后加入实数val(ncur)和加号“+”,同时整体计算符号变为“+”。
构造完成后,对此表达式求值,即得到nb和nf的系数值val(nb)和val(nf)。
按如上规则对给定的句法分析树进行递归的自底向上的标记与计算,最后根结点的情感值val(root)便是整个句子的情感值。
2.3篇级加权汇总
计算每个句子的在篇章级别计算中的权重。句子的权重主要由两部分决定,即句子中包括的文章主题关键词以及句子与标题的相似度(如果有标题)。
文章关键词及其权重可以由TF-IDF关键词提取算法求得。更关心那些最具有代表性的关键词。因此,对求得的关键词作截断,只取权重最大的N个词,并且重新将权重归一化,如下式:
式中kwi为原始计算出的关键词权重,而kwi*是重新归一化后的权重。
设句子si中的包括的所有关键词出现的词频为{f1i,f2i,…fNi},则其的依关键词权重αi可以按如下计算:
式中d为默认权重,即句子不含任何关键词时的权重,以防当句子不含任何关键词时的权重变为0,是一个模型参数。
句子与标题的相似度计算可以借由之前Word2Vec产生的词向量产生句向量,再计算本句和标题所各自对应的句向量之间的余弦相似度。
句子si的句向量vec(si)计算方式如下:
vec(si)=∑vec(wj)
因此句子和标题title间的相似度可以定义为:
句子的粗权重可以由下式确定:
swi=mαi+(1-m)βi
式中m为模型参数,控制模型更偏向句子的关键词还是与标题的相似度。
由于句子数量和文章长短成正比,因此还需要对最终每个句子的权重作归一化处理,即
因此整篇文章的初判情感强度值为
sentival=∑swi*i*val(si)
式中vali为句子si在句子级别的情感强度。
步骤3情感极性可信度与终判情感强度值的构建
初判情感强度值和强监督定性部分所给出的可信度值将综合确定文本的终判情感强度值,作为文本情感强度值得最终计算结果。混合监督模型的算法流程如图4-9所示。
在强监督定性部分训练完毕后,对于一篇输入文本,定性部分将输出其情感极性为正向的概率p,则其情感极性为负向的概率即为1-p。因此可信度函数cred(p)定义如下:
由此得到的可信度与前述弱监督部分得到的初判情感强度相乘,得到终判情感强度值:
sentival*=sentival*cred
此值将作为混合监督模型对于文本情感强度值的最终计算结果,即终判情感强度值。
本发明基于上述方法,进一步提供了基于混合监督模型的文本情感分析装置,包括:
强监督定性分析模块,用于利用基于复合神经网络的定性情感分析模型进行强监督定性分析,通过将长短期记忆单元与卷积神经网络联合构造复合神经网络,并用于同时提取文本的序列特征与多维度特征,更准确地预测文本的情感极性可信度;
弱监督定量分析模块,用于基于句法分析树实现弱监督定量分析,通过对句子分词和构造句法分析树得到句子的层级修饰关系;然后根据情感词典进行递归向上的标注与计算,计算出各句的情感强度值;
终判情感强度模块,用于将强监督部分给出的可信度与弱监督部分给出的情感强度相乘,得到文本的终判情感强度。
或者,提供一种基于混合监督模型的文本情感分析装置,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,能够实现如前所述基于混合监督模型的文本情感分析方法。
或者,提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能够实现如前所述基于混合监督模型的文本情感分析方法。
Claims (3)
1.一种基于混合监督模型的文本情感分析方法,其特征在于,包括:
(1)利用基于复合神经网络的定性情感分析模型进行强监督定性分析,通过将长短期记忆单元与卷积神经网络联合构造复合神经网络,并用于同时提取文本的序列特征与多维度特征,更准确地预测文本的情感极性可信度;具体包括:
(1.1)将输入的中文文本分词后通过Word2Vec转化为词向量序列的形式,依序输入长短期记忆单元中,对文本中上下文所包含情感的序列特征进行建模提取;
在将每个词向量输入长短期记忆单元后,输出此时模型的隐状态向量并按输入顺序纵向堆叠,将词序列形式的文本映射为一个二维矩阵;然后使用卷积神经网络对该矩阵进行处理,进一步对文本情感的空间特征进行高层抽象后,作为卷积神经网络的输出;
(1.2)将所提取到的特征输入卷积神经网络中,对文本中不同维度下的情感特征进行提取建模;
保存相对较浅层次的输出特征图作为n较小的ngram特征,与相对的高层特征一起构成多维度的文本特征输出;
经过多层卷积层提取特征后产生的特征图是不定长的,通过空间金字塔池化将长宽不定的二维矩阵按长宽比例分割映射到一个定长宽的二维网格中,再对落入每个网格中的子矩阵进行相应的池化操作,得到定长的输出;
(1.3)将卷积神经网络的输出接入全连接的多层感知机中进行拟合回归,输出文本属于正类的情感极性概率值,再根据此值计算出文本的情感极性可信度;
为了保证LSTM层的充分训练,应当将LSTM层最后时刻的隐状态输出也输入全连接层中,即为LSTM层创建一个短路连接;
(2)基于句法分析树实现弱监督定量分析,通过对句子分词和构造句法分析树得到句子的层级修饰关系;然后根据情感词典进行递归向上的标注与计算,计算出各句的情感强度值;具体包括:
(2.1)构造基于句法分析树的弱监督定量分析模型,对待分析文本进行分句与分词后,逐句进行句法分析,构造句法分析树,并根据词典和预定规则对句法分析树进行自底向上的递归标记计算,最终得到每句的情感强度值;
(2.1.1)句子层级计算
在句子层面,首先需要对每个分句后的句子si分词,使之成为词组形式word_split(si)={w1,w2,…wl};将每个句子分词后对应的词组输入句法分析树生成器,即得到句子对应的句法分析树,记作Tr(si);
对生成的句法分析树的节点作相应标记,引入如下三种标记:
结点修饰属性种类标记,标示结点属于何种修饰属性,可取值包括{“情感”,“程度”,“否定”,“普通”};结点系数值,标示结点在计算中的代表数值,是一个实数值;结点修饰方向,标示结点的修饰方向,可取值包括{“前向”,“后向”};
(2.1.2)叶节点标记规则
结点的标记与情感值计算是自底向上递归进行的;在叶结点层,每个叶结点就是一个单独的词,根据词典确定,因此其标记规则和运算定义如下:
结点属性种类:如果词命中了情感词典,则其属性种类标记为“情感”,否则如果命中程度或者否定词典,则其属性为“程度”或者“否定”;如果没有命中以上词典,则其属性为“普通”;
结点系数值:如果词命中了情感、程度或者否定词典,则其系数为根据词典中对应的情感强度/系数值,否则,节点系数值为0;
结点修饰方向:如果此结点是父结点的最右子结点,则其修饰方向必须为“前向”;如果此结点是一个程度/否定词,则跟其在词典中的方向标记一致;如不满足前两种情况,则默认为“后向”;获取结点n的属性、结点系数值与修饰方向的操作分别记作attr(n),val(n)以及dir(n);
(2.1.3)非叶节点标记规则
向上递归到非叶子结点时,其情感值计算和标记由其兄弟结点和子结点决定,具体规则如下:
结点属性种类:当结点内除去冠词、连词等语法虚词子结点后,如果剩余子结点的属性全部为“程度”或者“否定”,则整个结点的属性为“程度”;如果包括至少一个“情感”子结点,则整个结点的属性为“情感”;否则,结点属性为“普通”;
结点系数值与结点修饰方向:去除首尾虚词结点后的当前结点n一定满足以下形式:n={b1,b2,…,f1,f2,…},s,≥0;其中bs是右起第一个后向修饰结点,f1,f2,…ft均是前向修饰结点;
将n分割为如下两部分:
nb={b1,b2,…,bs}
nf={f1,f2,…,ft}
对于nb和nf分别初始化整体计算符号为“*”,从左向右按如下方式构造四则运算式:若当前子结点ncur是一个程度/否定结点,则向运算式后加入实数val(ncur)和乘号“*”;否则,向运算式后加入实数val(ncur)和加号“+”,同时整体计算符号变为“+”;构造完成后,对此表达式求值,即得到nb和nf的系数值val(nb)和val(nf);
按如上规则对给定的句法分析树进行递归的自底向上的标记与计算,最后根结点的情感值val(root)便是整个句子的情感值;
(2.2)对文本进行关键词提取,根据每个句子内所包含的关键词数量与权重以及与标题的相似度综合确定句子的权重,再将所有句子的情感强度值加权求和,得到文本的初判情感强度值;具体包括:
文章关键词及其权重由TF-IDF关键词提取算法求得;对关键词作截断,只取权重最大的N个词,并且重新将权重归一化,如下式:
式中kwi为原始计算出的关键词权重,kwi*是重新归一化后的权重;
设句子si中的包括的所有关键词出现的词频为{f1i,f2i,…fNi},则其的依关键词权重αi按如下计算:
式中d为默认权重,即句子不含任何关键词时的权重,以防当句子不含任何关键词时的权重变为0,是一个模型参数;
句子与标题的相似度计算借由之前Word2Vec产生的词向量产生句向量,再计算本句和标题所各自对应的句向量之间的余弦相似度;
句子si的句向量vec(si)计算方式如下:
vec(si)=∑vec(wj)
因此句子和标题title间的相似度定义为:
句子的粗权重由下式确定:
swi=mαi+(1-m)βi
式中m为模型参数,控制模型更偏向句子的关键词还是与标题的相似度;
由于句子数量和文章长短成正比,因此还需要对最终每个句子的权重作归一化处理,即:
因此,整篇文章的初判情感强度值为:
sentival=∑swi*i*val(si)
式中val(si)为句子si在句子级别的情感强度;
(3)将步骤(1)中强监督部分给出的可信度与步骤(2)中弱监督部分给出的情感强度相乘,得到文本的终判情感强度。
2.一种基于混合监督模型的文本情感分析装置,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,能够实现如权利要求1所述基于混合监督模型的文本情感分析方法。
3.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能够实现如权利要求1所述基于混合监督模型的文本情感分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910580225.1A CN110321563B (zh) | 2019-06-28 | 2019-06-28 | 基于混合监督模型的文本情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910580225.1A CN110321563B (zh) | 2019-06-28 | 2019-06-28 | 基于混合监督模型的文本情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110321563A CN110321563A (zh) | 2019-10-11 |
CN110321563B true CN110321563B (zh) | 2021-05-11 |
Family
ID=68121387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910580225.1A Active CN110321563B (zh) | 2019-06-28 | 2019-06-28 | 基于混合监督模型的文本情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110321563B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795537B (zh) * | 2019-10-30 | 2022-10-25 | 秒针信息技术有限公司 | 一种确定目标商品的改进策略的方法、装置、设备和介质 |
CN110826327A (zh) * | 2019-11-05 | 2020-02-21 | 泰康保险集团股份有限公司 | 情感分析方法、装置、计算机可读介质及电子设备 |
CN111143567B (zh) * | 2019-12-30 | 2023-04-07 | 成都数之联科技股份有限公司 | 一种基于改进神经网络的评论情感分析方法 |
CN111143539B (zh) * | 2019-12-31 | 2023-06-23 | 重庆和贯科技有限公司 | 基于知识图谱的教学领域问答方法 |
CN112632286A (zh) * | 2020-09-21 | 2021-04-09 | 北京合享智慧科技有限公司 | 一种文本属性特征的识别、分类及结构分析方法及装置 |
CN112258131B (zh) * | 2020-11-12 | 2021-08-24 | 拉扎斯网络科技(上海)有限公司 | 路径预测网络训练、订单处理方法及装置 |
CN112883708A (zh) * | 2021-02-25 | 2021-06-01 | 哈尔滨工业大学 | 基于2d-lstm的文本蕴含识别方法 |
CN113094713B (zh) * | 2021-06-09 | 2021-08-13 | 四川大学 | 一种自适应的主机入侵检测序列特征提取方法及系统 |
CN113496123B (zh) * | 2021-06-17 | 2023-08-11 | 三峡大学 | 谣言检测方法、装置、电子设备及存储介质 |
CN113749656B (zh) * | 2021-08-20 | 2023-12-26 | 杭州回车电子科技有限公司 | 基于多维生理信号的情感识别方法和装置 |
CN113901804B (zh) * | 2021-10-11 | 2024-08-30 | 东方财富信息股份有限公司 | 一种文章关键词提取方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160350644A1 (en) * | 2015-05-29 | 2016-12-01 | Sas Institute Inc. | Visualizing results of electronic sentiment analysis |
CN108108433A (zh) * | 2017-12-19 | 2018-06-01 | 杭州电子科技大学 | 一种基于规则和数据网络融合的情感分析方法 |
CN108388608B (zh) * | 2018-02-06 | 2020-08-04 | 金蝶软件(中国)有限公司 | 基于文本感知的情感反馈方法、装置、计算机设备和存储介质 |
CN108415972A (zh) * | 2018-02-08 | 2018-08-17 | 合肥工业大学 | 文本情感处理方法 |
CN108536681B (zh) * | 2018-04-16 | 2023-05-30 | 腾讯科技(深圳)有限公司 | 基于情感分析的智能问答方法、装置、设备及存储介质 |
CN108763204A (zh) * | 2018-05-21 | 2018-11-06 | 浙江大学 | 一种多层次的文本情感特征提取方法和模型 |
CN108804417B (zh) * | 2018-05-21 | 2022-03-15 | 山东科技大学 | 一种基于特定领域情感词的文档级情感分析方法 |
CN109284499A (zh) * | 2018-08-01 | 2019-01-29 | 数据地平线(广州)科技有限公司 | 一种行业文本情感获取方法、装置及存储介质 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
CN109408805A (zh) * | 2018-09-07 | 2019-03-01 | 青海大学 | 一种基于混合深度学习的藏文情感分析方法及系统 |
CN109543039B (zh) * | 2018-11-23 | 2022-04-08 | 中山大学 | 一种基于深度网络的自然语言情感分析方法 |
CN109933795B (zh) * | 2019-03-19 | 2023-07-28 | 上海交通大学 | 基于上下文-情感词向量的文本情感分析系统 |
-
2019
- 2019-06-28 CN CN201910580225.1A patent/CN110321563B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110321563A (zh) | 2019-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
Wang et al. | Application of convolutional neural network in natural language processing | |
CN109472024B (zh) | 一种基于双向循环注意力神经网络的文本分类方法 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN111930942B (zh) | 文本分类方法、语言模型训练方法、装置及设备 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN111274790B (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN112001186A (zh) | 一种利用图卷积神经网络和中文句法的情感分类方法 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN111414481A (zh) | 基于拼音和bert嵌入的中文语义匹配方法 | |
CN112328797A (zh) | 一种基于神经网络和注意力机制的情感分类方法及系统 | |
CN111078833A (zh) | 一种基于神经网络的文本分类方法 | |
CN114020906A (zh) | 基于孪生神经网络的中文医疗文本信息匹配方法及系统 | |
CN112036705A (zh) | 一种质检结果数据获取方法、装置及设备 | |
CN116049387A (zh) | 一种基于图卷积的短文本分类方法、装置、介质 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN113468854A (zh) | 一种多文档自动摘要生成方法 | |
CN113255360A (zh) | 基于层次化自注意力网络的文档评级方法和装置 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN115238696A (zh) | 中文命名实体识别方法、电子设备及存储介质 | |
CN114547303A (zh) | 基于Bert-LSTM的文本多特征分类方法及装置 | |
CN117891958A (zh) | 一种基于知识图谱的标准数据处理方法 | |
CN113590827A (zh) | 一种基于多角度的科研项目文本分类装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |