Nothing Special   »   [go: up one dir, main page]

CN109918648B - 一种基于动态滑动窗口特征评分的谣言深度检测方法 - Google Patents

一种基于动态滑动窗口特征评分的谣言深度检测方法 Download PDF

Info

Publication number
CN109918648B
CN109918648B CN201910095308.1A CN201910095308A CN109918648B CN 109918648 B CN109918648 B CN 109918648B CN 201910095308 A CN201910095308 A CN 201910095308A CN 109918648 B CN109918648 B CN 109918648B
Authority
CN
China
Prior art keywords
rumor
feature
value
features
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910095308.1A
Other languages
English (en)
Other versions
CN109918648A (zh
Inventor
许志伟
郭美城
刘利民
邢红梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN201910095308.1A priority Critical patent/CN109918648B/zh
Publication of CN109918648A publication Critical patent/CN109918648A/zh
Application granted granted Critical
Publication of CN109918648B publication Critical patent/CN109918648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于动态滑动窗口特征评分的谣言深度检测方法,该方法包括一种基于滑动窗口的特征提取机制,对输入语句的相邻词进行迭代,获取输入语句的显著全局和局部特征,准确地表示文本语义结构;该方法包括特征评分机制,根据输入语句矩阵各列的综合得分,删除与谣言检测几乎没有影响的特征相关的词列,保留关键特征相关的词列;该方法包括基于卷积神经网络的深度谣言检测模型,将动态滑动窗口评分机制得到的文本语义特征作为输入层的输入数据,经卷积计算,提取最大特征值,进行分类,最终提高了谣言检测的准确性。

Description

一种基于动态滑动窗口特征评分的谣言深度检测方法
技术领域
本发明属于大数据分析与应用技术领域,涉及在线谣言检测,特别涉及一种基于动态滑动窗口特征评分的谣言深度检测方法。
背景技术
随着移动互联网技术的快速发展,在线社交网络(OSN)—一种新的信息发布和共享服务平台,已逐渐成为人们日常生活中不可或缺的一部分。由于每个人都可以在OSN平台上自由发表意见与交流消息,这些社交网络平台通常会携带大量未经证实和不确定的信息,因此OSN平台成为了谣言传播的主要方式。谣言的广泛传播给OSN平台带来了网络安全的威胁。
除了潜在的安全问题,网络谣言从国家层面讲也会危害国家的安定团结,影响国家的繁荣和发展;从社会层面讲,搅乱社会秩序,影响人们的生产生活;从个人层面讲,影响未成年人的思维方式和对事物的认知态度。综合看,OSN平台在面对谣言时的脆弱性已经成为一个需要解决的严重社会问题。
然而,在现有的谣言检测方法中,有的需要手工标注特征,这样造成大量人力和时间上的浪费,而且存在主观因素的影响;有的忽略了文本语义特征,很难找到谣言的关键语义特征,从而区分谣言和常规信息;有的没有筛选并删除噪声特征,噪声特征作为深度神经网络模型的输入,将影响谣言检测方法的准确性。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于动态滑动窗口特征评分的谣言深度检测方法,大大提高了谣言检测的准确性,且计算开销小,易于实际部署。
为了实现上述目的,本发明采用的技术方案是:
一种基于动态滑动窗口特征评分的谣言深度检测方法,包括:
基于滑动窗口进行特征提取:对输入语句的相邻词进行迭代,获取输入语句的显著全局和局部特征,准确地表示文本语义结构;
特征评分:根据输入语句矩阵各列的综合得分,删除与谣言检测没有影响的特征相关的词列,保留关键特征相关的词列;
建立基于卷积神经网络的深度谣言检测模型,将得到的关键特征相关的词列作为输入层的输入数据,经卷积计算,提取最大特征值,进行分类,最终提高谣言检测的准确性。
所述特征提取的对象为包含不同长度单词的文本特征,通过对输入语句相邻词不同长度的迭代来捕获,从而找到输入语句的语义结构,并将其纳入谣言深度检测模型。
所述对输入语句相邻词不同长度的迭代来捕获的方法为:设定一定的窗口数目n,n等于最大句子长度,句子长度用单词数表示,通过不同大小的窗口框住不同长度的词,在窗口向后滑动的过程中,增量提取文本语义特征。
所述特征评分输入语句矩阵各列的综合得分的获取步骤如下:
步骤1)计算每个特征的TF-IDF值,筛选关键特征;
步骤2)应用卡方检验来查验关键特征与类别之间的相关性,所述类别包括谣言类和常规信息类;
步骤3)计算每列综合得分。
所述方法用于筛选在进行文本向量化表示过程中对检测贡献度较大的特征,并且与动态滑动窗口结合,能够在不破坏句子本身结构的前提下,从特征提取方面进一步改善了谣言深度检测的效率与准确率。
所述步骤1)是利用TF-IDF值寻找文本中的关键特征,其是一种统计方法,用以评估一字词对于文本的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,TF-IDF值的计算公式如下:
Figure BDA0001964372030000031
其中,
Figure BDA0001964372030000032
是包含第i列特征的TF-IDF得分,
Figure BDA0001964372030000033
是以i列为中心的k大小窗口的数目,k是窗口大小,
Figure BDA0001964372030000034
是包含第i列特征的k大小的第j个特征的TF-IDF得分;当输入的句子数为m时,输入的句子用大小为m×n的矩阵表示,该矩阵可在输入的句子上构造。如果句子的长度小于n,用数字0填充,使其扩展到相同的长度;
根据上述TF-IDF值的计算公式,增量的计算出每个特征的TF-IDF均值,利用均值筛选关键特征,特征的TF-IDF均值越大,表明该特征在文本中的重要程度越大,从而筛选出文本的关键特征;
所述步骤2)是利用卡方检验来检验关键特征与谣言信息类和常规信息类之间的相关性;卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度决定卡方值的大小,值越大,实际观测值与理论推断值偏离程度越大,越不符合;值越小,实际观测值与理论推断值偏离程度越低,越符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合;检验公式如下:
Figure BDA0001964372030000035
其中,是
Figure BDA0001964372030000036
包含第i列特征的卡方分数,
Figure BDA0001964372030000037
是包含第i列特征的k大小的第j个特征的卡方分数,其计算公式如下:
Figure BDA0001964372030000038
其中Cregular是常规信息内容组,Crumor是谣言信息内容组,
Figure BDA0001964372030000041
是包含i列的k大小第j个特征的单词,χ2表示表示卡方检验;
所述步骤3)中,第i列的综合得分Si通过以下公式得出:
Si=wt×STi+wx×SXi
其中,wt
Figure BDA0001964372030000042
的权重,wx
Figure BDA0001964372030000043
的权重,wt和wx是根据基于梯度下降的算法的结果确定的,wt
Figure BDA0001964372030000044
的权重,wx
Figure BDA0001964372030000045
的权重,每列的综合得分越高,则与关键特征越相关,取得分高于设定阈值的词列,作为关键特征相关的词列。
所述基于卷积神经网络的深度谣言检测模型中进行如下处理:
步骤1)在输入层输入关键特征相关的词列,即将动态滑动窗口评分机制得到的文本语义特征作为输入层的输入数据;
步骤2)在卷积层进行卷积运算,得到特征映射;即将输入层的向量传到卷积层后,被卷积成若干的特征映射;
步骤3)在池化层提取最大特征值;即,在池化层中利用Max-Pooling方法提取最大特征值。简单来说,就是从之前卷积得到的一维特征值中提取出最大的值,最大值代表着最为显著的特征。这里的池化思想与样本代替总体的统计学思想相类似。池化层最大的优点就是它可以解决句子长短不一的问题,因为无论这些不同的句子映射为多少不同的特征向量,经过池化操作都提取了其中的最大值。
步骤4)在Softmax层进行一维向量全连接,将池化层输出的一维向量经过全连接后得到一个Softmax层的雏形,以获得输入的文本是否为谣言的概率分布,概率越大,其为谣言的可能性越大。
本发明通过如下方法对深度谣言检测模型进行评估:
步骤1)选择基线方案评估深度谣言检测模型的有效性;
步骤2)选择评估指标评估所提出的检测方案和基线方案的有效性;
步骤3)精度评价。
所述基线方案为超深卷积神经网络、字符集卷积神经网络或区域卷积神经网络,所述评估指标为准确度(A)、精确率(P)、召回率(R)、F1值和准确度增益(α),所述步骤3)使用准确度增益来评估模型检测精度的改善趋势。
与现有技术相比,本发明通过动态滑动窗口特征评分机制,能够从大量数据中捕获包含不同长度单词的文本特征,并筛选出与关键特征相关的词列。基于此,搭建基于CNN的谣言深度检测模型,将关键特征代替噪声特征作为谣言深度检测模型的输入数据,通过对模型的训练,有效地提高了谣言检测的准确性。采用该方法在保证提高谣言检测的准确性的前提下,避免手工标注特征,节约成本,计算开销小,易于实际部署。
附图说明
图1为基于动态滑动窗口特征评分的谣言深度检测方法流程图。
图2为基于CNN的谣言深度检测模型框架图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1给出了根据本发明一个实施例的基于动态滑动窗口特征评分的谣言深度检测方法流程图。概括来讲,该方法包括:步骤1)滑动窗口捕获特征;步骤2)计算TF-IDF值,筛选关键特征;步骤3)应用卡方检验获取特征相关词列;步骤4)搭建谣言深度检测模型;步骤5)评估方法有效性。
更具体地,在步骤1)滑动窗口捕获特征。使用该特征提取机制,通过对输入语句相邻词不同长度的迭代来捕获包含不同长度单词的文本特征,从而找到输入语句的语义结构并将其纳入谣言深度检测模型。
当k是窗口大小时,
Figure BDA0001964372030000051
是以i列为中心的k大小窗口的数目。
Figure BDA0001964372030000061
在步骤2)计算每个特征的TF-IDF值,筛选关键特征。是利用TF-IDF值寻找文本中的关键特征,其是一种统计方法,用以评估一字词对于文本的重要程度。公式如下:
Figure BDA0001964372030000062
其中,
Figure BDA0001964372030000063
是包含第i列特征的TF-IDF得分,
Figure BDA0001964372030000064
是包含第i列的k大小的第j个特征的TF-IDF得分。
在步骤3)应用卡方检验获取特征相关词列。利用卡方检验来查验特征和类别(即谣言和常规消息)之间的相关性。公式如下:
Figure BDA0001964372030000065
其中,是
Figure BDA0001964372030000066
包含第i列的特征的卡方分数,
Figure BDA0001964372030000067
是包含第i列的k大小的j特征的卡方分数,其计算公式如下:
Figure BDA0001964372030000068
其中Cregular是常规信息内容组,Crumor是谣言信息内容组,
Figure BDA0001964372030000069
是包含i列的k大小j特征的单词。
输入数据每列的综合得分。得分越高,与关键特征越相关,反之亦然。第i列的综合得分Si可通过以下公式得出:
Si=wt×STi+wx×SXi (5)
其中,Si是综合得分中
Figure BDA00019643720300000610
的权重,wx
Figure BDA00019643720300000611
的权重,wt和wx是根据基于梯度下降的算法的结果确定的。
在步骤4)搭建了一种谣言深度检测模型。参考图2,将动态滑动窗口评分机制得到的文本语义特征作为输入层的输入数据。假设所有句子中,最长的句子有n个词,句子的数量为k,那么这个矩阵的大小就是n×k的(在CNN模型中,文本的特征表示,词向量矩阵也可被看做是高度为,k宽度,n为的图像)。
将输入层的向量传到卷积层后,被卷积成若干的特征映射。卷积窗口的大小拟设定为h×k,其中h表示卷积窗口内的行数,k表示词向量的维数。通过一系列的卷积后,便可得到若干列数为1的特征映射。
在池化层中利用Max-Pooling方法提取最大特征值。简单来说,就是从之前卷积得到的一维特征值中提取出最大的值,最大值代表着最为显著的特征。
将池化层输出得到的一维向量经过全连接后得到一个Softmax层的雏形,Softmax层通常根据任务的需要而设定,其反映着最终类别的概率分布。这一层的功能主要是用来进行分类,得到输入的文本是否为谣言的分析结果。
在步骤5)评估方法有效性。首先选择三个基线方案来评估深度谣言检测模型的有效性,分别为VD-CNN、Char-CNN和RCNN。所有这些方案都是在TensorFlow上实现的,并作为基线方案来评估模型的有效性。VD-CNN是一个基于CNN的模型,用于谣言检测和其他文本分类应用,对输入的小范围单词执行卷积操作。模型的深度越大,方案的精度越高;Char-CNN使用字符级卷积网络来实现与VD-CNN相同的目标;RCNN应用循环结构来捕获句子的上下文特征,以实现准确的文本分类。
其次,选择评估指标来评估所提出的检测方案和基线方案的有效性。利用评价指标来评估所提出的检测方案和基线方案的有效性。其中,选择准确度A、精确率P(正确分类特征与实际特征的比率)、召回率(正确分类特征与应归为谣言评论的比率)、F1值(精确率与召回率的调和平均值)和准确度增益α(评估所提出的方案相对于基线的准确度增量)来评估所提出的谣言深度检测模型和基线方案的有效性。
最后,使用准确度增益来评估模型检测精度的改善趋势。
在本发明的一个具体实施例中,在Twitter上收集了谣言和常规消息数据集,其中包括3,830条常规消息和1,972条与五个著名事件有关的谣言:渥太华射击,查理周刊,德国之翼崩溃,悉尼围攻和弗格森。另外两个数据集包括4544个常规评论和4163个虚假评论,分别针对20个最受欢迎的芝加哥酒店,这些评论在Trip-Advisor和Yelp上发布。由于所有这些数据集都包含非文本信息,因此我们对它们执行预处理操作。具体来说,我们只使用这些数据集上的文本信息,并使用相同类型的标签系统识别这些文本。从外观上看,第一个数据集中的谣言和常规消息的比率显示出数据不平衡现象。对不平衡数据集的模型训练将影响机器学习的准确性。为了保证模型训练过程的准确性,我们删除了与重点五个事件无关的一些消息,以平衡第一个数据集中的谣言和常规消息。通过这种方式,我们完成了对上述两个数据集的预处理操作,并分别获得了两个精化数据集,即DS1和DS2。
步骤1)对于每一个句子,将单词数作为这个句子的长度。最大句子长度用n表示,当输入的句子数为m时,输入的句子用大小为m×n的矩阵表示,该矩阵可在输入的句子上构造。如果句子的长度小于n,我们将用数字0填充,使其扩展到相同的长度。
在实现输入语句的节省空间的矢量表示后,使用可变长度的滑动窗口来捕捉不同尺度的特征,根据句子语义结构,窗口数目最小值设为3,最大值由具体输入决定。
步骤2)计算每个滑动窗口内特征的TF-IDF。文本内的高词语频率,以及该词语在整个文本集合中的低频率,对该词语赋予较高权重。TF-IDF过滤掉常见的词语,保留重要的词语,从而筛选出文本中关键特征。
步骤3)应用卡方检验获取特征相关词列。上一步骤筛选出的关键特征,利用卡方统计,查验特征和类别之间的相关性。将特征分为常规信息内容组和谣言信息内容组。计算每列的综合得分,得分增加与关键特征成正相关。
通过上述步骤,既得出了文本的关键特征,也得出了与关键特征的相关词列,将得到的数据以矩阵的形式表示。
步骤4)搭建谣言深度检测模型。采用卷积神经网络模型在TensorFlow框架下对数据集中的谣言数据进行建模。将筛选到的有效谣言特征作为输入,在神经网络的第一层把向量直接映射到低维;第二层根据句子最基本的主谓宾三要素设定filter的大小为(3,4,5)之后进行卷积操作;第三层使用max-pooling的方法将第二层卷积得到的结果max化,并连接成一个长的特征向量;第四层对连接过的向量使用dropout操作规避过拟合问题,之后传到softmax进行分类,得到分类结果。
步骤5)评估方法的有效性。用谣言深度检测模型对测试数据进行检测,得到检测结果。下面用准确率、准确度增益作为检测结果的评价指标,与三个基线方案作对比,其中1、2、3、4分别代表VD-CNN、Char-CNN、RCNN和本发明提出的深度谣言检测模型,对比结果如表1、表2所示:
表1准确率对比结果
Figure BDA0001964372030000091
训练达到8次后,准确率趋于稳定。谣言深度检测模型的最大准确率为86.46%,最小准确率为79.07%。与Char-CNN相比,准确率提高了2%,与RCNN和VD-CNN相比,准确率分别提高了5%和8%。
表2准确度增益结果
Figure BDA0001964372030000092
当迭代次数大于8时,SWFE-CNN相对于Char-CNN和RCNN的精度增益值趋于稳定,在1-1.2之间波动。虽然SWFE-CNN相对于VD-CNN的准确率增益值波动较大,但除了前7个训练时段的值外,其余的准确率增益均高于1.13。
与现有的方法相比,本发明可以避免手工标注特征,分析文本的语义结构,筛选谣言关键特征,提高谣言检测的准确性。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims (7)

1.一种基于动态滑动窗口特征评分的谣言深度检测方法,包括:
基于滑动窗口进行特征提取:对输入语句的相邻词进行迭代,获取输入语句的显著全局和局部特征,准确地表示文本语义结构;
特征评分:根据输入语句矩阵各列的综合得分,删除与谣言检测没有影响的特征相关的词列,保留关键特征相关的词列;
建立基于卷积神经网络的深度谣言检测模型,将得到的关键特征相关的词列作为输入层的输入数据,经卷积计算,提取最大特征值,进行分类,最终提高谣言检测的准确性;
其中所述特征评分中,输入语句矩阵各列的综合得分的获取步骤如下:
步骤11)计算每个特征的TF-IDF值,筛选关键特征;
步骤12)应用卡方检验来查验关键特征与类别之间的相关性,所述类别包括谣言信息类和常规信息类;
步骤13)计算每列综合得分;
其特征在于,所述步骤11)是利用TF-IDF值寻找文本中的关键特征,其是一种统计方法,用以评估一字词对于文本的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,TF-IDF值的计算公式如下:
Figure FDA0002385685630000011
其中,
Figure FDA0002385685630000012
是包含第i列特征的TF-IDF得分,
Figure FDA0002385685630000013
是以i列为中心的k大小窗口的数目,k是窗口大小,
Figure FDA0002385685630000014
Figure FDA0002385685630000015
是包含第i列特征的k大小的第j个特征的TF-IDF得分,n为窗口数目;
根据上述TF-IDF值的计算公式,增量的计算出每个特征的TF-IDF均值,利用均值筛选关键特征,特征的TF-IDF均值越大,表明该特征在文本中的重要程度越大,从而筛选出文本的关键特征;
所述步骤12)是利用卡方检验来检验关键特征与谣言信息类和常规信息类之间的相关性;卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度决定卡方值的大小,值越大,实际观测值与理论推断值偏离程度越大,越不符合;值越小,实际观测值与理论推断值偏离程度越低,越符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合;检验公式如下:
Figure FDA0002385685630000021
其中,是
Figure FDA0002385685630000022
包含第i列特征的卡方分数,
Figure FDA0002385685630000023
是包含第i列特征的k大小的第j个特征的卡方分数,其计算公式如下:
Figure FDA0002385685630000024
其中Cregular是常规信息内容组,Crumor是谣言信息内容组,
Figure FDA0002385685630000025
是包含i列的k大小第j个特征的单词,χ2表示卡方检验;
所述步骤13)中,第i列的综合得分Si通过以下公式得出:
Si=wt×STi+wx×SXi
其中,wt是STi (k)的权重,wx
Figure FDA0002385685630000026
的权重,wt和wx是根据基于梯度下降的算法的结果确定的,每列的综合得分越高,则与关键特征越相关,取得分高于设定阈值的词列,作为关键特征相关的词列。
2.根据权利要求1所述基于动态滑动窗口特征评分的谣言深度检测方法,其特征在于,所述特征提取的对象为包含不同长度单词的文本特征,通过对输入语句相邻词不同长度的迭代来捕获,从而找到输入语句的语义结构。
3.根据权利要求2所述基于动态滑动窗口特征评分的谣言深度检测方法,其特征在于,所述对输入语句相邻词不同长度的迭代来捕获的方法为:设定一定的窗口数目n,n等于最大句子长度,句子长度用单词数表示,通过不同大小的窗口框住不同长度的词,在窗口向后滑动的过程中,增量提取文本语义特征。
4.根据权利要求1所述基于动态滑动窗口特征评分的谣言深度检测方法,其特征在于,所述基于卷积神经网络的深度谣言检测模型中进行如下处理:
步骤21)在输入层输入关键特征相关的词列;
步骤22)在卷积层进行卷积运算,得到特征映射;
步骤23)在池化层提取最大特征值;
步骤24)在Softmax层进行一维向量全连接。
5.根据权利要求4所述基于动态滑动窗口特征评分的谣言深度检测方法,其特征在于,所述步骤23)中,在池化层利用Max-Pooling方法提取最大特征值;所述步骤24)中,将池化层输出的一维向量经过全连接后得到一个Softmax层的雏形,以获得输入的文本是否为谣言的概率分布,概率越大,其为谣言的可能性越大。
6.根据权利要求1所述基于动态滑动窗口特征评分的谣言深度检测方法,其特征在于,通过如下方法对深度谣言检测模型进行评估:
步骤31)选择基线方案评估深度谣言检测模型的有效性;
步骤32)选择评估指标评估所提出的检测方案和基线方案的有效性;
步骤33)精度评价。
7.根据权利要求6所述基于动态滑动窗口特征评分的谣言深度检测方法,其特征在于,所述基线方案为超深卷积神经网络、字符集卷积神经网络或区域卷积神经网络,所述评估指标为准确度(A)、精确率(P)、召回率(R)、F1值和准确度增益(α),所述步骤3)使用准确度增益来评估模型检测精度的改善趋势。
CN201910095308.1A 2019-01-31 2019-01-31 一种基于动态滑动窗口特征评分的谣言深度检测方法 Active CN109918648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910095308.1A CN109918648B (zh) 2019-01-31 2019-01-31 一种基于动态滑动窗口特征评分的谣言深度检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910095308.1A CN109918648B (zh) 2019-01-31 2019-01-31 一种基于动态滑动窗口特征评分的谣言深度检测方法

Publications (2)

Publication Number Publication Date
CN109918648A CN109918648A (zh) 2019-06-21
CN109918648B true CN109918648B (zh) 2020-04-21

Family

ID=66961124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910095308.1A Active CN109918648B (zh) 2019-01-31 2019-01-31 一种基于动态滑动窗口特征评分的谣言深度检测方法

Country Status (1)

Country Link
CN (1) CN109918648B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688949B (zh) * 2019-09-26 2022-11-01 北大方正集团有限公司 字体识别方法和装置
CN111666751B (zh) * 2020-06-04 2023-09-29 北京百度网讯科技有限公司 训练文本扩充方法、装置、设备以及存储介质
CN111506710B (zh) * 2020-07-01 2020-11-06 平安国际智慧城市科技股份有限公司 基于谣言预测模型的信息发送方法、装置和计算机设备
CN116050383B (zh) * 2023-03-29 2023-06-23 珠海金智维信息科技有限公司 一种理财产品销售环节飞单话术检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563686A (zh) * 2018-03-14 2018-09-21 中国科学院自动化研究所 基于混合神经网络的社交网络谣言识别方法及系统
CN108614855A (zh) * 2018-03-19 2018-10-02 众安信息技术服务有限公司 一种谣言识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491480B (zh) * 2018-03-12 2021-05-11 义语智能科技(上海)有限公司 谣言检测方法及设备
CN111431742B (zh) * 2018-05-31 2021-09-24 腾讯科技(深圳)有限公司 网络信息检测方法、装置、存储介质和计算机设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563686A (zh) * 2018-03-14 2018-09-21 中国科学院自动化研究所 基于混合神经网络的社交网络谣言识别方法及系统
CN108614855A (zh) * 2018-03-19 2018-10-02 众安信息技术服务有限公司 一种谣言识别方法

Also Published As

Publication number Publication date
CN109918648A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN111159395B (zh) 基于图神经网络的谣言立场检测方法、装置和电子设备
CN104239485B (zh) 一种基于统计机器学习的互联网暗链检测方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN107122340B (zh) 一种基于同义词分析的科技项目申报书的相似度检测方法
EP3848797A1 (en) Automatic parameter value resolution for api evaluation
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN107391760A (zh) 用户兴趣识别方法、装置及计算机可读存储介质
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN112015721A (zh) 一种基于大数据的电商平台存储数据库的优化方法
CN110955776A (zh) 一种政务文本分类模型的构建方法
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN111177367A (zh) 案件分类方法、分类模型训练方法及相关产品
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
Afrifa et al. Cyberbullying detection on twitter using natural language processing and machine learning techniques
CN109325125B (zh) 一种基于cnn优化的社交网络谣言检测方法
CN106446124A (zh) 一种基于网络关系图的网站分类方法
CN114385775A (zh) 一种基于大数据的敏感词识别方法
CN104794209B (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
Campbell et al. Content+ context networks for user classification in twitter
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant