CN112329869A - 一种冷启动情况下的垃圾评论检测分类系统及方法 - Google Patents
一种冷启动情况下的垃圾评论检测分类系统及方法 Download PDFInfo
- Publication number
- CN112329869A CN112329869A CN202011247482.2A CN202011247482A CN112329869A CN 112329869 A CN112329869 A CN 112329869A CN 202011247482 A CN202011247482 A CN 202011247482A CN 112329869 A CN112329869 A CN 112329869A
- Authority
- CN
- China
- Prior art keywords
- information
- comment
- spam
- user
- behavior characteristics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种冷启动情况下的垃圾评论检测分类系统及方法,其利用拥有大量数据的老用户上,运用老用户的行为特征和易得信息训练生成对抗网络。然后运用新用户的易得信息用训练好的生成器生成新用户的行为特征,最后将经过领域自适应的生成行为特征对用户进行分类。该方法支持垃圾评论分类,能够在可利用数据十分匮乏时,即冷启动情况下进行垃圾评论检测,并取得良好的效果。
Description
技术领域
本发明涉及数据分析技术领域,具体涉及一种冷启动情况下的垃圾评论检测分类系统及方法。
背景技术
随着人工智能的发展,运用人工智能技术进行数据分析成为了一个重要的应用方向。特别是近年来,随着移动互联网技术的迅速发展,在线点评网站拥有大量的评论,而这些评论有可能是垃圾评论,相关技术中,主流方法是基于语言特征和基于行为特征的垃圾评论检测。但是,基于语言学特征进行垃圾评论检测的准确度通常不高;而基于行为特征的垃圾评论检测需要长时间的观察与大量的数据支持,不适用于冷启动问题这样数据匮乏的情况。因此,相关技术中的文本语义理解方法的效果在冷启动情况下并不理想。因此,急需提供一种可以在冷启动情况下进行垃圾评论检测的方法。
发明内容
本发明的目的在于提供一种冷启动情况下的垃圾评论检测分类系统及方法,。该方法支持垃圾评论分类,能够在可利用数据十分匮乏时,即冷启动情况下进行垃圾评论检测,且准确度高,能够对垃圾评论进行精准筛查检测。
为了达到上述技术效果,本发明提供了如下技术方案:
一种冷启动情况下的垃圾评论检测分类系统,包括易得信息生产模块,用于生成新用户与老用户的易得信息;真实行为特征提取模块,用于从老用户的大量数据中提取老用户的真实行为特征;
生成对抗网络模块,用于利用老用户的真实行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;
特征生成模块,用于利用在老用户数据集上训练好的生成对抗网络生成器生成新用户的行为特征;
领域自适应模块,用于进行领域自适应,提取其他相关但不同领域的信息;
分类模块,用于将用户通过特征进行分类,判断是否是垃圾评论的生产者。
本发明还提供了一种冷启动情况下的垃圾评论检测分类方法,包括以下步骤:
步骤s1:对于老用户,预处理易得信息;
步骤s2:对于老用户,通过长时间收集到的老用户评论信息生成老用户的行为特征;
步骤s3:对于老用户,利用老用户的行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;
步骤s4:对于新用户,预处理易得信息;
步骤s5:将新用户的易得信息都放入步骤s3在老用户数据上得到的生成器,生成新用户的行为特征;
步骤s6:运用迁移学习的方法,对相关但不同领域的评论信息进行自适应操作,得到领域自适应后的新用户行为特征;
步骤s7:将通过s4,s5,s6步骤后得到的新用户行为特征放入分类模型,进行分类,完成垃圾评论检测分类系统。;
进一步的技术方案为,所述步骤s1包括提取老用户的易得特征,具体包括评分信息,属性信息和评论文本信息。
进一步的技术方案为,所述步骤s2包括计算老用户的真实行为特征,具体包括活动窗口期,最大评论数,评论数量,正向评论数,评论者偏移,最大评论内容相似度。
进一步的技术方案为,所述步骤s3具体为:首先,利用老用户的易得信息作为约束,从随机向量生成行为特征,生成对抗网络的判别器则区分输入是来自真实数据还是生成的行为特征,并返回结果,并再次训练生成器,生成器的目的是最大程度生成判别器无法区分的数据,而判别器的目的是最大程度的区分出输入来自真实数据还是生成器,重复这一过程,不断优化生成对抗网络。
进一步的技术方案为,所述步骤s4包括,提取新用户的易得特征,具体包括评分信息,属性信息和评论文本信息。
进一步的技术方案为,所述步骤s5包括,通过新用户的易得信息做约束,生成新用户的行为特征。
进一步的技术方案为,所述步骤s6包括,通过迁移学习中的TCA方法,将相关但不同的领域信息互相利用,来补充信息,从而提高垃圾检测的准确率。
进一步的技术方案为,所述步骤s7包括,将新用户的行为特征放入分类器进行分类,得到垃圾评论检测模型的结果。
与现有技术相比,本发明具有如下有益效果:本发明听出一种可以在冷启动情况下,进行垃圾评论检测的方法和系统,冷启动情况是指在一个新用户发表它的第一条评论时检测是否是垃圾评论,冷启动情况的主要的难点在于可利用的信息较少,无法对用户的行为特征进行很好的描述,而生成对抗网络能够在有限的信息中进行挖掘,得到更多的信息。本发明中选取的有限的信息诸如评论的评分,文本等即使在冷启动情况下也能够轻易获取的信息。通过能够轻易获取的信息利用生成对抗网络来生成用户的行为特征。于是,当本发明面临每一个新的用户撰写的新评论的时候,都运用训练好的生成对抗网络的生成器生成该用户的行为特征,再运用在已经拥有大量行为特征的老用户中训练好的分类器对生成的行为特征进行分类。由此判断该用户是否为垃圾评论生产者。
本发明采用的方法能够在冷启动情况下,也就是新用户发表的第一条评论,判断该评论是否是垃圾评论。利用老用户的数据训练生成对抗网络,再将能够获取到的新用户的信息通过训练好的生成对抗网络的生成器生成新用户的行为特征,该系统成功解决了冷启动情况下新用户数据少的问题,且分类精确准确,应用场景广。
附图说明
图1为本发明冷启动情况下垃圾评论检测分类系统图;
图2为冷启动情况下垃圾评论检测分类系统技术流程图;
图3为生成对抗网络的网络结构。
具体实施方式
下面结合附图和具体实施例对本发明进行进一步的解释和说明。
实施例1
如图1所示,图1为本发明冷启动情况下垃圾评论检测分类系统结构示意图,包括:
易得信息生成模块,用于生成新用户与老用户的易得信息;
真实行为特征特征提取模块,用于从老用户的大量数据中提取老用户的真实行为特征;
生成对抗网络模块,用于利用老用户的真实行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;
特征生成模块,用于利用在老用户数据集上训练好的生成对抗网络生成器生成新用户的行为特征;
领域自适应模块,用于进行领域自适应,提取其他相关但不同领域的信息;
分类模块,用于将用户通过特征进行分类,判断是否是垃圾评论的生产者。
实施例2
如图2、图3所示,提供了一种冷启动情况下垃圾评论检测分类方法,具体包括以下步骤:
步骤s1:对于老用户,预处理易得信息;
步骤s2:对于老用户,通过长时间收集到的老用户评论信息生成老用户的行为特征;
步骤s3:对于老用户,利用老用户的行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;
步骤s4:对于新用户,重复步骤s1;
步骤s5:将新用户的易得信息都放入步骤s3在老用户数据上得到的生成器,生成新用户的行为特征;
步骤s6:运用迁移学习的方法,对相关但不同领域的评论信息进行自适应操作,得到领域自适应后的新用户行为特征;
步骤s7:将通过s4,s5,s6步骤后得到的新用户行为特征放入分类模型,进行分类,完成垃圾评论检测分类系统;
进一步的所述步骤s1的步骤包括:
步骤s12:提取用户预设属性信息;
步骤s13:运用卷积神经网络提取词向量的方法将评论的文本提取为向量表示;
进一步的所述步骤s2的步骤包括:
步骤s21:计算活动窗口期用户最后一条评论的发表日期de和第一条评论发表日期ds的差:AW=de-ds;
步骤s22:统计最大评论数最大评论数MNR=max(Ri),其中Ri为第i天用户的评论数;
步骤s23:计算评论数量评论数量RC=∑Ri,其中Ri为第i天用户的评论数;
步骤s26:计算最大评论内容相似度MCS=max(cos(Vti,Vtj))(i≠j)。其中cos(.)表示向量间的余弦相似度,Vti,Vtj表示一个用户的第i条和第j条评论,自然,i≠j。注意,如果用户只有一条评论,MCS致为1。
进一步的所述步骤s3的步骤包括:
为了方便叙述,做出以下定义和阐述,将步骤s1中得到的易得信息简写为EAF,将步骤s2中选取并计算的真实行为特征(real behavior features)简写为RBF,相应的,将生成器中生成的生成行为特征(synthetic behavior features)简写为SBF。
生成器:一个生成网络G(.),通过密度为p_z的随机输入z训练具有目标相似概率分布的输出x_g=G(z)。
判别器:一个判别网络D(.),判别输入x是来自与生成器G或真实数据,其中x可能是具有密度p_t的真实数据或由生成器G生成的密度为p_z的“假”数据。
步骤s31:以易得信息作为约束条件训练生成对抗网络的生成器,生成器的损失函数LG由两部分组成,一个是用来误导判别器的任务损失函数Lt,而另一个则是使生成的SBFs与RBFs拥有更相似的分布的相近损失函数Lc。我们使用交叉熵来定义整个生成器的损失函数:
步骤s32:以老用户的真实行为特征作为生成对抗网络判别器的真实数据,判别器应该能够判别出来源于真实训练数据的(EAF+,RBF)对为真,而来自于生成器的(EAF+,SBF)对为假。因此,我们定义两个损失
函数以及来满足这个目的。在判别器中的另一个误差来源可能是非真实的行为特征。为了分开两种误差的来源,我们添加了由RBFs和不与这个RBFs对应的EAFs组成的第三种输入,显然,判别器应该能狗判别出这种输入为假。我们将这个损失函数表示为所以,整个判别器的损失函数为:
步骤s33:训练生成器生成SBFs,运用判别器判断判别器的输入来自生成器还是真实数据,并返回结果,也就是训练判别器;
步骤s34:重复步骤s33的过程,优化生成器和判别器,生成器的目的是误导判别器,而判别器的目标则是区分出生成器生成的数据。所以,训练生成器时,我们想要最大化上述误差而训练判别器时则想要最小化上述误差。用公式表示这一博弈过程maxG(minD E(G,D))。
进一步的所述步骤s5的步骤包括:
步骤s51:提取s3中训练好的生成对抗网络的生成器;
步骤s52:在步骤s4中得到的新用户易得信息上运用步骤s51中的生成器,得到新用户的生成行为特征。
进一步的所述步骤s6的步骤包括:
步骤s61:运用迁移学习中TCA领域自适应的方法找到相关但不同的两个领域的跨域分量;
步骤s62:最小化两领域之间的距离,保留两个相关但不同领域的独特性的同时,提取另一领域的信息。
采用上述步骤:能够在冷启动情况下,也就是新用户发表的第一条评论,判断该评论是否是垃圾评论。利用老用户的数据训练生成对抗网络,再将能够获取到的新用户的信息通过训练好的生成对抗网络的生成器生成新用户的行为特征,该方法成功解决了冷启动情况下新用户数据少的问题,且分类精确准确,应用场景广。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (9)
1.一种冷启动情况下的垃圾评论检测分类系统,其特征在于,包括易得信息生产模块,用于生成新用户与老用户的易得信息;真实行为特征提取模块,用于从老用户的大量数据中提取老用户的真实行为特征;
生成对抗网络模块,利用老用户的真实行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;
特征生成模块,利用在老用户数据集上训练好的生成对抗网络生成器生成新用户的行为特征;
领域自适应模块,用于进行领域自适应,提取其他相关但不同领域的信息;
分类模块,用于将用户通过特征进行分类,判断是否是垃圾评论的生产者。
2.一种冷启动情况下的垃圾评论检测分类方法,其特征在于,包括以下步骤:
步骤s1:对于老用户,预处理易得信息;
步骤s2:对于老用户,通过长时间收集到的老用户评论信息生成老用户的行为特征;
步骤s3:对于老用户,利用老用户的行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;
步骤s4:对于新用户,预处理易得信息;
步骤s5:将新用户的易得信息都放入步骤s3在老用户数据上得到的生成器,生成新用户的行为特征;
步骤s6:运用迁移学习的方法,对相关但不同领域的评论信息进行自适应操作,得到领域自适应后的新用户行为特征;
步骤s7:将通过s4,s5,s6步骤后得到的新用户行为特征放入分类模型,进行分类,完成垃圾评论检测分类系统。
3.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法,其特征在于,所述步骤s1包括提取老用户的易得特征,具体包括评分信息,属性信息和评论文本信息。
4.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法,其特征在于,所述步骤s2包括计算老用户的真实行为特征,具体包括活动窗口期,最大评论数,评论数量,正向评论数,评论者偏移,最大评论内容相似度。
5.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法,其特征在于,所述步骤s3具体为:首先,利用老用户的易得信息作为约束,从随机向量生成行为特征,生成对抗网络的判别器则区分输入是来自真实数据还是生成的行为特征,并返回结果,并再次训练生成器,生成器的目的是最大程度生成判别器无法区分的数据,而判别器的目的是最大程度的区分出输入来自真实数据还是生成器,重复这一过程,不断优化生成对抗网络。
6.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法,其特征在于,所述步骤s4包括,提取新用户的易得特征,具体包括评分信息,属性信息和评论文本信息。
7.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法,其特征在于,所述步骤s5包括,通过新用户的易得信息做约束,生成新用户的行为特征。
8.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法,其特征在于,所述步骤s6包括,通过迁移学习中的TCA方法,将相关但不同的领域信息互相利用,来补充信息,从而提高垃圾检测的准确率。
9.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法,其特征在于,所述步骤s7包括,将新用户的行为特征放入分类器进行分类,得到垃圾评论检测模型的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011247482.2A CN112329869A (zh) | 2020-11-10 | 2020-11-10 | 一种冷启动情况下的垃圾评论检测分类系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011247482.2A CN112329869A (zh) | 2020-11-10 | 2020-11-10 | 一种冷启动情况下的垃圾评论检测分类系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112329869A true CN112329869A (zh) | 2021-02-05 |
Family
ID=74317368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011247482.2A Pending CN112329869A (zh) | 2020-11-10 | 2020-11-10 | 一种冷启动情况下的垃圾评论检测分类系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329869A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442781A (zh) * | 2019-06-28 | 2019-11-12 | 武汉大学 | 一种基于生成对抗网络的对级排序项目推荐方法 |
CN111767403A (zh) * | 2020-07-07 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种文本分类方法和装置 |
-
2020
- 2020-11-10 CN CN202011247482.2A patent/CN112329869A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442781A (zh) * | 2019-06-28 | 2019-11-12 | 武汉大学 | 一种基于生成对抗网络的对级排序项目推荐方法 |
CN111767403A (zh) * | 2020-07-07 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种文本分类方法和装置 |
Non-Patent Citations (2)
Title |
---|
??.0427: "利用GAN来为冷启动用户生成行为特征完成yelp数据集上,冷启动垃圾识别的问题", 《HTTPS://BLOG.CSDN.NET/LILY960427/ARTICLE/DETAILS/92095912》 * |
XIAOYA TANG等: "Generating Behavior Features for Cold-Start Spam Review Detection", 《DASFAA 2019: DATABASE SYSTEMS FOR ADVANCED APPLICATIONS》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
Probierz et al. | Rapid detection of fake news based on machine learning methods | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN107908715A (zh) | 基于Adaboost和分类器加权融合的微博情感极性判别方法 | |
CN105740228A (zh) | 一种互联网舆情分析方法 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN110990564A (zh) | 一种基于情感计算与多头注意力机制的负面新闻识别方法 | |
CN111831790A (zh) | 一种基于低门限集成与文本内容匹配的虚假新闻识别方法 | |
CN105005553A (zh) | 基于情感词典的短文本情感倾向分析方法 | |
CN105022805A (zh) | 一种基于so-pmi商品评价信息的情感分析方法 | |
CN109086794B (zh) | 一种基于t-lda主题模型的驾驶行为模式识方法 | |
Baria et al. | Theoretical evaluation of machine and deep learning for detecting fake news | |
Sujana et al. | Rumor detection on Twitter using multiloss hierarchical BiLSTM with an attenuation factor | |
Islam et al. | Deep learning for multi-labeled cyberbully detection: Enhancing online safety | |
Jin et al. | Image credibility analysis with effective domain transferred deep networks | |
Kang et al. | Utilization strategy of user engagements in korean fake news detection | |
CN117094291A (zh) | 基于智能写作的自动新闻生成系统 | |
Subhash et al. | Fake News Detection Using Deep Learning and Transformer-Based Model | |
CN115309860B (zh) | 基于伪孪生网络的虚假新闻检测方法 | |
Rajesh et al. | Fraudulent news detection using machine learning approaches | |
Mathur et al. | Analysis of tweets for cyberbullying detection | |
Guo et al. | In opinion holders’ shoes: Modeling cumulative influence for view change in online argumentation | |
Zhao et al. | Fuzzy sentiment membership determining for sentiment classification | |
CN113157993A (zh) | 一种基于时序图极化分析的网络水军行为预警模型 | |
Murugesan et al. | ESTIMATION OF PRECISION IN FAKE NEWS DETECTION USING NOVEL BERT ALGORITHM AND COMPARISON WITH RANDOM FOREST. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210205 |