CN107908715A - 基于Adaboost和分类器加权融合的微博情感极性判别方法 - Google Patents
基于Adaboost和分类器加权融合的微博情感极性判别方法 Download PDFInfo
- Publication number
- CN107908715A CN107908715A CN201711105753.9A CN201711105753A CN107908715A CN 107908715 A CN107908715 A CN 107908715A CN 201711105753 A CN201711105753 A CN 201711105753A CN 107908715 A CN107908715 A CN 107908715A
- Authority
- CN
- China
- Prior art keywords
- classifier
- feature
- adaboost
- microblog
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000002996 emotional effect Effects 0.000 title claims abstract description 33
- 230000004927 fusion Effects 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000012850 discrimination method Methods 0.000 claims description 15
- 230000008451 emotion Effects 0.000 claims description 15
- 238000012706 support-vector machine Methods 0.000 claims description 15
- 230000006872 improvement Effects 0.000 claims description 12
- 238000003066 decision tree Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 238000000691 measurement method Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 13
- 238000004364 calculation method Methods 0.000 abstract description 10
- 238000004458 analytical method Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于Adaboost和分类器加权融合的微博情感极性判别方法。其包括对微博文本进行处理;利用向量空间模型将词语用特征向量表示,使用卡方统计值进行特征选取;对语句进行特征权重表示,构建出每条微博文本对应的特征向量;对基本分类器进行训练;应用Adaboost学习方法进行提升;将基本分类器和应用Adaboost提升后的分类器进行加权融合,最终得到微博文本情感极性等步骤。本发明利用特征选择和特征表示方法找到了最佳方案,在较低的特征维度下选用布尔值达到了较好的效果,大大降低了计算量。利用Adaboost方法对单一分类器进行了提升,使弱分类器的性能得到提高。
Description
技术领域
本发明属于自然语言处理中的文本情感分析技术领域,特别是涉及一种基于Adaboost和分类器加权融合的微博情感极性判别方法。
背景技术
在信息急速膨胀的互联网时代,越来越多的用户倾向于通过互联网来分享自己的观点或体验,所以社交网络中存在着大量的带有主观情感色彩的短文本。新浪微博是为大众提供娱乐休闲生活服务的信息分享和交流平台,目前新浪微博的活跃用户数保持在2亿左右,其继承了传统论坛、博客等形式的优点,结合手机等移动终端,使信息能够实时快速发布和获取。微博集娱乐、社交、营销于一身,已经从满足人们“弱关系”的社交需求上逐渐演变成为大众化的舆论平台,成为一个最重要的实时信息源和一种影响力日益增强的网络舆论传播中心,越来越多机构及公众人物都通过微博来发布或传播信息。
情感分析,也称为意见挖掘(Opinion Mining),是对有情感色彩的文本进行分析、处理、归纳和应用的过程,涉及到自然语言处理、机器学习、信息抽取、统计学等多个研究领域。将微博这种新型的社交媒体与情感分析技术相结合,具有很高的研究价值和广泛的应用前景。
微博情感分析可以应用于以下几类场景中:
(1)舆情监控。舆情是指在一定的范围内,某一个具有影响力的社会热点事件发生后,大众对该事件的评价、态度、意见和情绪的总和。微博对社会及政治热点事件有强大的反应能力,可以在极短的时间内迅速积累阅读量和讨论数。
(2)市场预测。消费者购买产品或服务时,往往会参考其他用户发表的评论来决定自己的消费意图。同时,商家也可以通过评论来获取用户对产品的满意度和改进方案,制定相应的商业策略。微博中包含大量的评论信息,可以为股票走势预测、电影票房预测和产品迭代方案等提供数据支撑。
(3)人工智能系统。微博情感分析可以推动人工智能系统的发展,例如:推荐系统可避免推荐有大量负面反馈的项目;自动问答系统可以将人机对话中人的情绪识别出来,使系统得出更加正确的答案,从而智能水平得到提高;机器翻译系统通过情感分析技术可以在不同的语言构成的语料中保持情感一致,使机器翻译准确率得到提高,翻译结果更符合人类日常交流。
目前,中文文本情感分析方法主要有基于语义理解和基于机器学习两类方法。但这两种方法应用于微博情感分析后面临以下两个问题:①基于语义理解的方法用构建基准褒贬词库和定义表达规则的方法对语料进行模式匹配,对于表达方式复杂、不规则的微博文本处理上有很大的局限性。②基于机器学习的方法受限于所选择的分类器性能和特征选取方法,不同训练集可能会得到差异较大的分类器。
发明内容
为了解决上述问题,本发明的目的在于提供一种基于Adaboost和分类器加权融合的微博情感极性判别方法。
为了达到上述目的,本发明提供的基于Adaboost和分类器加权融合的微博情感极性判别方法包括按顺序进行的下列步骤:
(1)对互联网上的微博文本进行抓取、人工标注情感极性、预处理和分词操作;
(2)利用向量空间模型将上述词语用特征向量表示,并使用卡方统计值进行特征选取;
(3)根据上述步骤(2)选取的特征,对上述步骤(1)中得到的语句进行特征权重表示,构建出每条微博文本对应的特征向量;
(4)将步骤(3)中得到的特征向量输入到支持向量机、决策树和朴素贝叶斯三种不同的基本分类器中进行情感极性判别,由此对基本分类器进行训练,获得不同基本分类器的准确率;
(5)将步骤(4)中经过训练的基本分类器应用Adaboost学习方法进行提升,并将提升后的分类器与上述基本分类器的准确率相比来判断是否有提高,若有提高,保留应用Adaboost后的分类器,否则保留基本分类器;
(6)将步骤(5)得到的基本分类器和应用Adaboost提升后的分类器进行加权融合,最终得到微博文本情感极性。
在步骤(1)中,所述的对互联网上的微博文本进行抓取、人工标注情感极性、预处理和分词操作的方法是:采用网络爬虫的方法将互联网上微博用户所发表的多条微博文本抓取到本地数据库中作为数据集,然后人工标注出每条微博文本的正负极性而形成正向情感文件和负向情感文件,之后逐条对微博文本进行预处理操作,以去除网页链接、转发、回复微博时的微博用户名、话题标签、特殊字符在内的与情感表达无关的噪声信息;微博文本经过预处理后称为语句;之后利用分词工具对上述语句进行分词而得到词语,将词语作为特征表示的最小单元;分词工具使用Java开源分词工具Ansj。
在步骤(2)中,所述的利用向量空间模型将上述词语用特征向量表示,并使用卡方统计值进行特征选取的方法是:首先将文本中出现的所有词语进行排序,形成一个一定规模的可查编号的词典;其中某个词语在该词典中出现的序号就是它在特征向量中的维度;对于一个数据集中某一条特定的微博文本,经过分词后,该词语出现一次,就将该词语对应的特征向量维度填入某个值,从而实现词语的特征向量表示;然后计算数据集中每一个特征的卡方统计值,并按照大小进行排序,然后分别选取卡方统计值大小为前N个、2N个……数N个特征维数下的特征,并分别计算每一特征维数下所有正向情感文件和负向情感文件的准确率、召回率、F值以及综合准确率,最后选取最高综合准确率对应的特征维数为最佳特征维数。
在步骤(3)中,所述的根据上述步骤(2)选取的特征,对上述步骤(1)中得到的语句进行特征权重表示,构建出每条微博文本对应的特征向量的方法是:对上述步骤(2)选取的特征进行赋值以形成最终的特征向量,即特征权重表示。
在步骤(5)中,所述的将步骤(4)中经过训练的基本分类器应用Adaboost学习方法进行提升的方法是:关注前一轮弱分类器中被错误分类的样本,把错分类的样本权重提高,同时把正确分类的样本权重降低,调整权重后再进行下一个分类器的训练。
在步骤(6)中,所述的将步骤(5)得到的基本分类器和应用Adaboost提升后的分类器进行加权融合,最终得到微博文本情感极性的方法是:分类器加权融合的过程是选择不同种类的分类器对同一数据集进行训练,再通过合适的度量方法将这些分类器的结果组合在一起;加权融合为不同分类器设置权重,将分类器判定的概率函数乘以其对应的权值后进行汇总来得到最终结果;最后通过比较分类器的正向准确率和负向准确率的大小来确定微博文本的情感极性。
本发明提供的基于Adaboost和分类器加权融合的微博情感极性判别方法具有以下优点:(1)本发明利用特征选择和特征表示方法找到了最佳方案,在较低的特征维度下选用布尔值达到了较好的效果,大大降低了计算量。(2)利用Adaboost方法对单一分类器进行了提升,使弱分类器的性能得到提高。(3)将三种分类器进行加权投票组合,结合了不同分类器的优势,克服了单一分类器的缺陷。
附图说明
图1为本发明提供的基于Adaboost和分类器加权融合的微博情感极性判别方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明提供的基于Adaboost和分类器加权融合的微博情感极性判别方法进行详细说明。
如图1所示,本发明提供的基于Adaboost和分类器加权融合的微博情感极性判别方法包括按顺序进行的下列步骤:
(1)对互联网上的微博文本进行抓取、人工标注情感极性、预处理和分词操作;
采用网络爬虫的方法将互联网上微博用户所发表的多条微博文本抓取到本地数据库中作为数据集,然后人工标注出每条微博文本的正负极性而形成正向情感文件和负向情感文件,之后逐条对微博文本进行预处理操作,以去除网页链接、转发、回复微博时的微博用户名、话题标签、特殊字符在内的与情感表达无关的噪声信息,例如:(1)网页链接,形如“http://t.cn/Rtj0WWN”等,由于不包含有用信息,因此在预处理时去除。(2)转发、回复微博时的微博用户名,形如“@李琼子:回复@草图匠老王:这事儿归精神病院管警察叔叔不管”,其中@符号后的微博用户名需要去除;微博文本经过预处理后称为语句;
之后利用分词工具对上述语句进行分词而得到词语,将词语作为特征表示的最小单元。分词工具使用Java开源分词工具Ansj。
(2)利用向量空间模型将上述词语用特征向量表示,并使用卡方(CHI)统计值进行特征选取;
应用机器学习方法进行文本情感分析时,计算机不能直接识别中文字符,需要将文本进行向量表示之后再作为训练数据送入分类器中。机器学习中广泛使用的文本表示方法是向量空间模型(Vector Space Model,VSM),又称作词袋模型。向量空间模型是自然语言处理中常用的一种文本表示方法,它将文本看作是一系列词语的集合,将文本中出现的所有词语进行排序,就可以形成一个一定规模的可查编号的词典。其中某个词语在该词典中出现的序号就是它在特征向量中的维度。对于一个数据集中某一条特定的微博文本,经过分词后,该词语出现一次,就将该词语对应的特征向量维度填入某个值,从而实现词语的特征向量表示。
但是,如果把文本中出现的所有词语都当作一个向量,随着数据量的增加,会产生巨大的特征维数。选取大量的特征对分类器进行训练,会使训练数据数量显得相对不足,反而会降低分类效果,导致分类模型失效。对分类器作用较大的往往都是少量特征,大部分特征是冗余的,在预处理过程中虽然已经去掉了一部分噪声信息,但仍存在许多对分类结果没有贡献的特征,这会导致计算量的增大,造成资源浪费。因此,需要在保持文本信息不丢失的情况下尽可能减少要处理的特征,使空间向量的维数降低,达到提升分类效果和提高计算效率的目的,这个过程就被称作特征选取,或特征抽取、特征降维。
选取出的特征应该具有如下特点:对待分类文本的区分能力强,包含足够的信息量用以表示文本信息,且容易实现分离。CHI统计通过衡量特征与类别之间的关联程度来进行特征选取,是一种文本分类领域常用的特征选择方法。若特征t与类别ci相互独立,则表明特征t对类别ci完全没有表征作用,即不能用特征t判断该文本是否属于类别ci。CHI统计值的计算公式如下:
其中,N表示数据集中的文本总数,N11表示该文本中包含特征t且类别是ci的文本数,N10表示该文本中包含特征t但类别不是ci的文本数,N01表示该文本中不包含特征t且类别是ci的文本数,N00表示该文本中不包含特征t且类别不是ci的文本数。
最佳特征维数取决于分类准确率。按照式(1)计算数据集中每一个特征的CHI统计值,并按照大小进行排序,然后分别选取CHI统计值大小为前N个、2N个……数N个特征维数下的特征,并分别计算每一特征维数下所有正向情感文件和负向情感文件的准确率、召回率、F值以及综合准确率,最后选取最高综合准确率对应的特征维数为最佳特征维数。
例如,当分类器选取为SVM时,分别选取CHI统计值的大小为前500、1000、1500、2000、2500、3000的特征,并分别计算每一特征维数下所有正向情感文件和负向情感文件的准确率、召回率、F值以及综合准确率,实验结果如表1所示。从实验结果中可以看出,SVM分类器在特征维数等于1000时取得了最佳效果,验证了上述特征选择的有效性,可以依赖少量的信息量丰富的特征降低运算量,达到理想的分类准确率。
表1不同特征维数的实验结果
(3)根据上述步骤(2)选取的特征,对上述步骤(1)中得到的语句进行特征权重表示,构建出每条微博文本对应的特征向量;
特征选取完毕之后,需要对特征进行赋值以形成最终的特征向量,即特征权重表示,本方法验证了布尔值和TF-IDF两种特征表示方法。
1)布尔值:
该方法定义了一个二值函数f:T→{0,1},采用布尔表达式对语句进行表示。在某个语句中特征向量的权重是一个布尔值,语句表示的结果是0和1的集合,又称为one-hot编码方式。即对于某一个语句D={f(t1),f(t2),…,f(tn)},
2)词频逆文本频率(TF-IDF):
TF-IDF综合了词频和逆文本频率两种特征权重的性质,词频选择特征在语句中出现的次数作为该词语表示的特征向量维度的权重,逆文本频率的表达式如(3)所示,其中N表示训练集中的样本总数,dfi表示含有特征ti的语句总数。TF-IDF计算公式如式(4)所示:
以SVM分类器为例,选取CHI统计值为前1000的特征,为了验证不同特征表示方法的实验效果,分别将布尔值和TF-IDF用于特征表示,实验结果如表2所示。
表2不同特征权重表示方法的实验结果
从实验结果中可以看出,SVM分类器在选取TF-IDF表示时对负向情感文本的分类情况不理想,综合分析语句特点,得出原因为在微博文本表达中,正向情感文本表达丰富,而负向情感文本表达方式较少,且负向倾向不如正向明显。基于这种情况本发明对特征选取方法进行改进,用TF-IDF作为正向情感文本的特征权重表示方法,用布尔值作为负向情感文本的特征权重表示方法,取得了良好的效果,如表3所示。
表3两种特征权重表示方法结合的实验结果
两种特征表示方法结合的方式使实验结果明显提高,验证了TF-IDF权重表示方式的有效性。由于测试数据需要选取与训练数据相同的特征权重表示方式,本方法中测试数据已知标签,但这种方法无法用于对未知标签的文本预测,没有实际应用价值。因此,本发明选择布尔值作为权重表示方法。
(4)将步骤(3)中得到的特征向量输入到支持向量机、决策树和朴素贝叶斯三种不同的基本分类器中进行情感极性判别,由此对基本分类器进行训练,获得不同基本分类器的准确率;
支持向量机(SVM)是一种针对线性分类的最佳准则,通过非线性映射把样本映射到高维空间中,从而将原本的线性不可分问题转化为高维空间的线性可分问题。由于SVM在解决非线性和小样本的模式识别问题中优势明显,因此被广泛应用在图像分类、手写字识别、文本分类及生物特征识别等领域,并取得了良好的效果。
决策树(Decision Tree)是一种根据概率分析的图解实现决策的树形结构算法。决策树的构成包括结点和有向边,其中结点分为内部结点和叶子结点,内部节点为特征或属性,外部结点为某一类别。
朴素贝叶斯算法是统计学中贝叶斯决策理论的一部分,它根据统计知识判断某一预测样本所属的分类。贝叶斯推断建立在主观判断的基础上,即可以不需客观依据先估计出一个值,然后根据实际结果不断修正,具有计算速度快的优点。
为了验证不同基本分类器的实验效果,选取CHI统计值前1000的特征,布尔值用于特征权重表示,三种基本分类器的实验结果如表4所示。从实验结果中可以看出,在特征选取和特征权重表示方法相同的情况下,朴素贝叶斯分类器和SVM分类器均取得了良好的效果,决策树分类器准确率较低。
表4不同基本分类器的实验结果
(5)将步骤(4)中经过训练的基本分类器应用Adaboost学习方法进行提升,并将提升后的分类器与上述基本分类器的准确率相比来判断是否有提高,若有提高,保留应用Adaboost后的分类器,否则保留基本分类器;
首先采用Adaboost学习方法对经过训练的基本分类器进行提升,Adaboost(Adaptive Boosting)是提升(Boosting)方法的一种。对分类问题来说,找到一个粗糙的分类规则,即弱分类器要比找到一个精确的分类规则,即强分类器要容易,提升方法就是从弱分类器开始,反复迭代得到强分类器的过程。Adaboost的做法是,关注前一轮弱分类器中被错误分类的样本,把错分类的样本权重提高,同时把正确分类的样本权重降低,调整权重后再进行下一个分类器的训练。
由于Adaboost对弱分类器的提升效果明显,对强分类器效果较差,需要对比提升前后分类器的准确率是否得到提高。若准确率持平,则放弃本步骤,以减小计算量,只保留准确率得到提高的分类器。
为了验证利用Adaboost学习方法对朴素贝叶斯、支持向量机和决策树分类器的提升效果,将布尔值和TF-IDF用于特征表示,选取CHI统计值为前1000的特征,分别对三种分类器使用Adaboost进行提升,提升前后的实验结果如表5所示。
表5对不同基本分类器进行Adaboost提升前后的实验结果
从实验结果可以看出,Adaboost学习方法对朴素贝叶斯和SVM的提升结果远远没有对决策树分类器的提升效果明显。因为朴素贝叶斯和SVM分类器已经达到了强分类器的水平,而决策树分类器与前两种分类器相比,算法流程简单,计算量小,作为基本分类器效果不佳,因此用Adaboost学习后效果改善明显。为了避免计算资源的浪费,通过本实验后,只对决策树分类器进行Adaboost学习,用于后续分类器融合步骤。
(6)将步骤(5)得到的基本分类器和应用Adaboost提升后的分类器进行加权融合,最终得到微博文本情感极性。
分类器加权融合的过程是选择不同种类的分类器对同一数据集进行训练,再通过合适的度量方法将这些分类器的结果组合在一起,克服单一分类器的固有缺陷,达到准确率提升的目的。加权融合为不同分类器设置权重,将分类器判定的概率函数乘以其对应的权值后进行汇总来得到最终结果。假设xi为第i个分类器,Ppos(i)为第i个分类器的正向情感文本准确率,Pneg(i)为第i个分类器的负向情感文本准确率,P(pos|xi)和P(neg|xi)分别为第i个分类器将待测微博文本分为正向情感文本和负向情感文本的概率,P(pos)和P(neg)分别为最终分类器将待测微博文本分为正向情感文本和负向情感文本的概率,计算公式如(5)、(6)所示。
当P(pos)>P(neg)时,判断该微博文本为正向情感文本,反之为负向情感文本。
经过对分类器、特征选择、特征权重表示和Adaboost提升效果的验证,本方法选定为以朴素贝叶斯、SVM和经过Adaboost提升后的决策树分类器进行加权融合,实验结果如表6所示。
表6本方法最终实验结果
从实验结果中可知,利用本发明提供的基于Adaboost和分类器加权投票的情感极性判别方法获得的正向情感文本、负向情感文本的F值和综合准确率与上述步骤中任意方法相比,都达到了最高水平。经过加权投票规则的分类器融合后,结合了三种基本分类器的优势,从而取得了最佳效果。
Claims (6)
1.一种基于Adaboost和分类器加权融合的微博情感极性判别方法,其特征在于:所述的基于Adaboost和分类器加权融合的微博情感极性判别方法包括按顺序进行的下列步骤:
(1)对互联网上的微博文本进行抓取、人工标注情感极性、预处理和分词操作;
(2)利用向量空间模型将上述词语用特征向量表示,并使用卡方统计值进行特征选取;
(3)根据上述步骤(2)选取的特征,对上述步骤(1)中得到的语句进行特征权重表示,构建出每条微博文本对应的特征向量;
(4)将步骤(3)中得到的特征向量输入到支持向量机、决策树和朴素贝叶斯三种不同的基本分类器中进行情感极性判别,由此对基本分类器进行训练,获得不同基本分类器的准确率;
(5)将步骤(4)中经过训练的基本分类器应用Adaboost学习方法进行提升,并将提升后的分类器与上述基本分类器的准确率相比来判断是否有提高,若有提高,保留应用Adaboost后的分类器,否则保留基本分类器;
(6)将步骤(5)得到的基本分类器和应用Adaboost提升后的分类器进行加权融合,最终得到微博文本情感极性。
2.根据权利要求1所述的基于Adaboost和分类器加权融合的微博情感极性判别方法,其特征在于:在步骤(1)中,所述的对互联网上的微博文本进行抓取、人工标注情感极性、预处理和分词操作的方法是:采用网络爬虫的方法将互联网上微博用户所发表的多条微博文本抓取到本地数据库中作为数据集,然后人工标注出每条微博文本的正负极性而形成正向情感文件和负向情感文件,之后逐条对微博文本进行预处理操作,以去除网页链接、转发、回复微博时的微博用户名、话题标签、特殊字符在内的与情感表达无关的噪声信息;微博文本经过预处理后称为语句;之后利用分词工具对上述语句进行分词而得到词语,将词语作为特征表示的最小单元;分词工具使用Java开源分词工具Ansj。
3.根据权利要求1所述的基于Adaboost和分类器加权融合的微博情感极性判别方法,其特征在于:在步骤(2)中,所述的利用向量空间模型将上述词语用特征向量表示,并使用卡方统计值进行特征选取的方法是:首先将文本中出现的所有词语进行排序,形成一个一定规模的可查编号的词典;其中某个词语在该词典中出现的序号就是它在特征向量中的维度;对于一个数据集中某一条特定的微博文本,经过分词后,该词语出现一次,就将该词语对应的特征向量维度填入某个值,从而实现词语的特征向量表示;然后计算数据集中每一个特征的卡方统计值,并按照大小进行排序,然后分别选取卡方统计值大小为前N个、2N个……数N个特征维数下的特征,并分别计算每一特征维数下所有正向情感文件和负向情感文件的准确率、召回率、F值以及综合准确率,最后选取最高综合准确率对应的特征维数为最佳特征维数。
4.根据权利要求1所述的基于Adaboost和分类器加权融合的微博情感极性判别方法,其特征在于:在步骤(3)中,所述的根据上述步骤(2)选取的特征,对上述步骤(1)中得到的语句进行特征权重表示,构建出每条微博文本对应的特征向量的方法是:对上述步骤(2)选取的特征进行赋值以形成最终的特征向量,即特征权重表示。
5.根据权利要求1所述的基于Adaboost和分类器加权融合的微博情感极性判别方法,其特征在于:在步骤(5)中,所述的将步骤(4)中经过训练的基本分类器应用Adaboost学习方法进行提升的方法是:关注前一轮弱分类器中被错误分类的样本,把错分类的样本权重提高,同时把正确分类的样本权重降低,调整权重后再进行下一个分类器的训练。
6.根据权利要求1所述的基于Adaboost和分类器加权融合的微博情感极性判别方法,其特征在于:在步骤(6)中,所述的将步骤(5)得到的基本分类器和应用Adaboost提升后的分类器进行加权融合,最终得到微博文本情感极性的方法是:分类器加权融合的过程是选择不同种类的分类器对同一数据集进行训练,再通过合适的度量方法将这些分类器的结果组合在一起;加权融合为不同分类器设置权重,将分类器判定的概率函数乘以其对应的权值后进行汇总来得到最终结果;最后通过比较分类器的正向准确率和负向准确率的大小来确定微博文本的情感极性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711105753.9A CN107908715A (zh) | 2017-11-10 | 2017-11-10 | 基于Adaboost和分类器加权融合的微博情感极性判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711105753.9A CN107908715A (zh) | 2017-11-10 | 2017-11-10 | 基于Adaboost和分类器加权融合的微博情感极性判别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107908715A true CN107908715A (zh) | 2018-04-13 |
Family
ID=61844817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711105753.9A Pending CN107908715A (zh) | 2017-11-10 | 2017-11-10 | 基于Adaboost和分类器加权融合的微博情感极性判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107908715A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563638A (zh) * | 2018-04-13 | 2018-09-21 | 武汉大学 | 一种基于主题识别和集成学习的微博情感分析方法 |
CN108898274A (zh) * | 2018-05-30 | 2018-11-27 | 国网浙江省电力有限公司宁波供电公司 | 一种电力调度日志缺陷分类方法 |
CN108920545A (zh) * | 2018-06-13 | 2018-11-30 | 四川大学 | 基于扩展的情感词典和卡方模型的中文情感特征选择方法 |
CN109087146A (zh) * | 2018-08-15 | 2018-12-25 | 深圳快购科技有限公司 | 影院票房收入的预测方法及系统 |
CN109543032A (zh) * | 2018-10-26 | 2019-03-29 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN109635254A (zh) * | 2018-12-03 | 2019-04-16 | 重庆大学 | 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法 |
CN109670045A (zh) * | 2018-11-02 | 2019-04-23 | 天津大学 | 基于本体模型和多核支持向量机的情感原因抽取方法 |
CN109871889A (zh) * | 2019-01-31 | 2019-06-11 | 内蒙古工业大学 | 突发事件下大众心理评估方法 |
CN110020668A (zh) * | 2019-03-01 | 2019-07-16 | 杭州电子科技大学 | 一种基于词袋模型和adaboosting的食堂自助计价方法 |
CN110059183A (zh) * | 2019-03-22 | 2019-07-26 | 重庆邮电大学 | 一种基于大数据的汽车行业用户观点情感分类方法 |
CN110245227A (zh) * | 2019-04-25 | 2019-09-17 | 义语智能科技(广州)有限公司 | 文本分类的融合分类器的训练方法及设备 |
CN110413772A (zh) * | 2019-06-20 | 2019-11-05 | 平安科技(深圳)有限公司 | 识别中文情感的方法及装置、计算机设备、存储介质 |
CN110569920A (zh) * | 2019-09-17 | 2019-12-13 | 国家电网有限公司 | 一种多任务机器学习的预测方法 |
CN110633476A (zh) * | 2019-09-27 | 2019-12-31 | 北京百度网讯科技有限公司 | 用于获取知识标注信息的方法及装置 |
CN111666757A (zh) * | 2019-02-21 | 2020-09-15 | 北京京东尚科信息技术有限公司 | 商品评论情感倾向分析方法、装置、设备和可读存储介质 |
CN111859074A (zh) * | 2020-07-29 | 2020-10-30 | 东北大学 | 基于深度学习的网络舆情信息源影响力评估方法及系统 |
CN111984769A (zh) * | 2020-06-30 | 2020-11-24 | 联想(北京)有限公司 | 一种应答系统的信息处理方法及装置 |
CN112017758A (zh) * | 2020-09-15 | 2020-12-01 | 龙马智芯(珠海横琴)科技有限公司 | 情感识别方法、装置、情感识别系统以及分析决策终端 |
CN112199500A (zh) * | 2020-09-30 | 2021-01-08 | 北京猎豹移动科技有限公司 | 针对评论的情感倾向识别方法、装置及电子设备 |
CN112711678A (zh) * | 2019-10-25 | 2021-04-27 | 北京京东尚科信息技术有限公司 | 数据解析方法、装置、设备及存储介质 |
CN112989036A (zh) * | 2021-02-05 | 2021-06-18 | 北京紫光展锐通信技术有限公司 | 一种文本分类的特征提取方法及装置 |
CN113033610A (zh) * | 2021-02-23 | 2021-06-25 | 河南科技大学 | 一种多模态融合敏感信息分类检测方法 |
CN118070103A (zh) * | 2024-03-26 | 2024-05-24 | 广东金湾信息科技有限公司 | 基于机器学习的舆情情感分类方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750844A (zh) * | 2015-04-09 | 2015-07-01 | 中南大学 | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 |
US20160092793A1 (en) * | 2014-09-26 | 2016-03-31 | Thomson Reuters Global Resources | Pharmacovigilance systems and methods utilizing cascading filters and machine learning models to classify and discern pharmaceutical trends from social media posts |
CN106202584A (zh) * | 2016-09-20 | 2016-12-07 | 北京工业大学 | 一种基于标准词典和语义规则的微博情感分析方法 |
CN106598944A (zh) * | 2016-11-25 | 2017-04-26 | 中国民航大学 | 一种民航安保舆情情感分析方法 |
CN107247703A (zh) * | 2017-06-08 | 2017-10-13 | 天津大学 | 基于卷积神经网络和集成学习的微博情感分析方法 |
-
2017
- 2017-11-10 CN CN201711105753.9A patent/CN107908715A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092793A1 (en) * | 2014-09-26 | 2016-03-31 | Thomson Reuters Global Resources | Pharmacovigilance systems and methods utilizing cascading filters and machine learning models to classify and discern pharmaceutical trends from social media posts |
CN104750844A (zh) * | 2015-04-09 | 2015-07-01 | 中南大学 | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 |
CN106202584A (zh) * | 2016-09-20 | 2016-12-07 | 北京工业大学 | 一种基于标准词典和语义规则的微博情感分析方法 |
CN106598944A (zh) * | 2016-11-25 | 2017-04-26 | 中国民航大学 | 一种民航安保舆情情感分析方法 |
CN107247703A (zh) * | 2017-06-08 | 2017-10-13 | 天津大学 | 基于卷积神经网络和集成学习的微博情感分析方法 |
Non-Patent Citations (1)
Title |
---|
刘楠: ""面向微博短文本的情感分析研究"", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563638A (zh) * | 2018-04-13 | 2018-09-21 | 武汉大学 | 一种基于主题识别和集成学习的微博情感分析方法 |
CN108563638B (zh) * | 2018-04-13 | 2021-08-10 | 武汉大学 | 一种基于主题识别和集成学习的微博情感分析方法 |
CN108898274A (zh) * | 2018-05-30 | 2018-11-27 | 国网浙江省电力有限公司宁波供电公司 | 一种电力调度日志缺陷分类方法 |
CN108920545A (zh) * | 2018-06-13 | 2018-11-30 | 四川大学 | 基于扩展的情感词典和卡方模型的中文情感特征选择方法 |
CN108920545B (zh) * | 2018-06-13 | 2021-07-09 | 四川大学 | 基于扩展的情感词典和卡方模型的中文情感特征选择方法 |
CN109087146A (zh) * | 2018-08-15 | 2018-12-25 | 深圳快购科技有限公司 | 影院票房收入的预测方法及系统 |
CN109543032A (zh) * | 2018-10-26 | 2019-03-29 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN109670045A (zh) * | 2018-11-02 | 2019-04-23 | 天津大学 | 基于本体模型和多核支持向量机的情感原因抽取方法 |
CN109635254A (zh) * | 2018-12-03 | 2019-04-16 | 重庆大学 | 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法 |
CN109871889B (zh) * | 2019-01-31 | 2019-12-24 | 内蒙古工业大学 | 突发事件下大众心理评估方法 |
CN109871889A (zh) * | 2019-01-31 | 2019-06-11 | 内蒙古工业大学 | 突发事件下大众心理评估方法 |
CN111666757A (zh) * | 2019-02-21 | 2020-09-15 | 北京京东尚科信息技术有限公司 | 商品评论情感倾向分析方法、装置、设备和可读存储介质 |
CN110020668A (zh) * | 2019-03-01 | 2019-07-16 | 杭州电子科技大学 | 一种基于词袋模型和adaboosting的食堂自助计价方法 |
CN110020668B (zh) * | 2019-03-01 | 2020-12-29 | 杭州电子科技大学 | 一种基于词袋模型和adaboosting的食堂自助计价方法 |
CN110059183B (zh) * | 2019-03-22 | 2022-08-23 | 重庆邮电大学 | 一种基于大数据的汽车行业用户观点情感分类方法 |
CN110059183A (zh) * | 2019-03-22 | 2019-07-26 | 重庆邮电大学 | 一种基于大数据的汽车行业用户观点情感分类方法 |
CN110245227B (zh) * | 2019-04-25 | 2021-12-28 | 义语智能科技(广州)有限公司 | 文本分类的融合分类器的训练方法及设备 |
CN110245227A (zh) * | 2019-04-25 | 2019-09-17 | 义语智能科技(广州)有限公司 | 文本分类的融合分类器的训练方法及设备 |
CN110413772A (zh) * | 2019-06-20 | 2019-11-05 | 平安科技(深圳)有限公司 | 识别中文情感的方法及装置、计算机设备、存储介质 |
CN110569920B (zh) * | 2019-09-17 | 2022-05-10 | 国家电网有限公司 | 一种多任务机器学习的预测方法 |
CN110569920A (zh) * | 2019-09-17 | 2019-12-13 | 国家电网有限公司 | 一种多任务机器学习的预测方法 |
CN110633476B (zh) * | 2019-09-27 | 2024-04-05 | 北京百度网讯科技有限公司 | 用于获取知识标注信息的方法及装置 |
CN110633476A (zh) * | 2019-09-27 | 2019-12-31 | 北京百度网讯科技有限公司 | 用于获取知识标注信息的方法及装置 |
CN112711678A (zh) * | 2019-10-25 | 2021-04-27 | 北京京东尚科信息技术有限公司 | 数据解析方法、装置、设备及存储介质 |
CN111984769B (zh) * | 2020-06-30 | 2024-04-26 | 联想(北京)有限公司 | 一种应答系统的信息处理方法及装置 |
CN111984769A (zh) * | 2020-06-30 | 2020-11-24 | 联想(北京)有限公司 | 一种应答系统的信息处理方法及装置 |
CN111859074B (zh) * | 2020-07-29 | 2023-12-29 | 东北大学 | 基于深度学习的网络舆情信息源影响力评估方法及系统 |
CN111859074A (zh) * | 2020-07-29 | 2020-10-30 | 东北大学 | 基于深度学习的网络舆情信息源影响力评估方法及系统 |
CN112017758A (zh) * | 2020-09-15 | 2020-12-01 | 龙马智芯(珠海横琴)科技有限公司 | 情感识别方法、装置、情感识别系统以及分析决策终端 |
CN112199500A (zh) * | 2020-09-30 | 2021-01-08 | 北京猎豹移动科技有限公司 | 针对评论的情感倾向识别方法、装置及电子设备 |
CN112199500B (zh) * | 2020-09-30 | 2024-07-23 | 北京猎豹移动科技有限公司 | 针对评论的情感倾向识别方法、装置及电子设备 |
CN112989036A (zh) * | 2021-02-05 | 2021-06-18 | 北京紫光展锐通信技术有限公司 | 一种文本分类的特征提取方法及装置 |
CN113033610B (zh) * | 2021-02-23 | 2022-09-13 | 河南科技大学 | 一种多模态融合敏感信息分类检测方法 |
CN113033610A (zh) * | 2021-02-23 | 2021-06-25 | 河南科技大学 | 一种多模态融合敏感信息分类检测方法 |
CN118070103A (zh) * | 2024-03-26 | 2024-05-24 | 广东金湾信息科技有限公司 | 基于机器学习的舆情情感分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908715A (zh) | 基于Adaboost和分类器加权融合的微博情感极性判别方法 | |
Desai et al. | Techniques for sentiment analysis of Twitter data: A comprehensive survey | |
Halim et al. | A machine learning-based investigation utilizing the in-text features for the identification of dominant emotion in an email | |
CN107025299B (zh) | 一种基于加权lda主题模型的金融舆情感知方法 | |
CN107944014A (zh) | 一种基于深度学习的中文文本情感分析方法 | |
CN105183833A (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
Pong-Inwong et al. | Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration | |
CN108563638A (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
Pinto et al. | Real time sentiment analysis of political twitter data using machine learning approach | |
CN111651606B (zh) | 一种文本处理方法、装置及电子设备 | |
Liu et al. | Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm | |
CN114896386A (zh) | 基于BiLSTM的电影评论语义情感分析方法及系统 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
Wen et al. | DesPrompt: Personality-descriptive prompt tuning for few-shot personality recognition | |
Jayakody et al. | Sentiment analysis on product reviews on twitter using Machine Learning Approaches | |
Khanvilkar et al. | Smart recommendation system based on product reviews using Random Forest | |
Mahalakshmi et al. | Twitter sentiment analysis using conditional generative adversarial network | |
Akber et al. | Personality prediction based on contextual feature embedding SBERT | |
ShiXiao et al. | Real-time sentiment analysis on social networks using meta-model and machine learning techniques | |
Cuadrado et al. | team UTB-NLP at finances 2023: financial targeted sentiment analysis using a phonestheme semantic approach | |
CN116933164A (zh) | 基于相似性的医康养服务需求分类方法 | |
Kumar et al. | Social media analysis for sentiment classification using gradient boosting machines | |
Jishag et al. | Automated review analyzing system using sentiment analysis | |
Nsaif et al. | Political post classification based on firefly and xg boost |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180413 |