CN113609292A - 基于图结构的已知虚假新闻智能检测方法 - Google Patents
基于图结构的已知虚假新闻智能检测方法 Download PDFInfo
- Publication number
- CN113609292A CN113609292A CN202110906574.5A CN202110906574A CN113609292A CN 113609292 A CN113609292 A CN 113609292A CN 202110906574 A CN202110906574 A CN 202110906574A CN 113609292 A CN113609292 A CN 113609292A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- word segmentation
- vector
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 76
- 230000011218 segmentation Effects 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000000547 structure data Methods 0.000 claims abstract description 7
- 238000003058 natural language processing Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
一种基于图结构的已知虚假新闻智能检测方法,通过获取训练用的新闻图像文本数据集后对文本与相应图片进行图文一对一数据对处理;用自然语言处理工具对每个数据对中的文本数据进行预处理,将文本切割为分词的组合;利用现有的中文新闻语料库计算各个分词的IDF值,再在每个文本内计算各自分词的TF值,从而计算每个分词在各自文本中的TF‑IDF值以表征图像与分词间的关联强度;利用Word2vec模型得到数据对中,文本数据中的每个分词的向量表示,每个分词向量都独立作为分词节点的初始特征向量;利用VGG模型得到数据对中,图像数据中的图片向量表示,作为图像节点的初始特征向量;根据得到的每个分词和图像之间的TF‑IDF值作为边,从而形成图得到图结构数据;利用所得数据对CARMN网络进行训练,并对网络融合图片与文本向量后产生的最终向量进行二分类,达到检测虚假新闻的目的。本发明利用图结构得到更有效的图片与文字向量,提高虚假新闻检测的准确率。
Description
技术领域
本发明涉及的是一种神经网络应用领域的技术,具体是一种基于图结构的已知虚假新闻智能检测方法。
背景技术
现有的神经网络对已知虚假新闻的语义提取方面的特点为:仅使用词向量模型对文本语义进行提取,其缺陷在于已有算法的检测准确率不够高,有较高的误判率,因此提高算法的准确率是一个重大挑战。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于图结构的已知虚假新闻智能检测方法。
本发明是通过以下技术方案实现的:
本发明包括以下步骤:
步骤1)获取训练用的新闻图像文本数据集,其中包含已标注的虚假新闻和非虚假新闻。
步骤2)对文本与相应图片进行图文一对一数据对处理。
步骤3)用自然语言处理工具对每个数据对中的文本数据进行预处理,将文本切割为分词的组合。
步骤4)利用现有的中文新闻语料库计算各个分词的IDF值,再在每个文本内计算各自分词的TF值,从而计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度。
步骤5)利用Word2vec模型得到数据对中,文本数据中的每个分词的向量表示,每个分词向量都独立作为分词节点的初始特征向量。
步骤6)利用VGG模型得到数据对中,图像数据中的图片向量表示,作为图像节点的初始特征向量。
步骤7)因为数据对中只有单个文本以及对应的单张图像,每个分词在各自文本中的TF-IDF值可以等价于每个分词在各自文本对应的图像中的TF-IDF值。根据得到的每个分词和图像之间的TF-IDF值作为边,从而形成图得到图结构数据。
步骤8)利用所得数据对CARMN网络进行训练,并对网络融合图片与文本向量后产生的最终向量进行二分类,达到检测虚假新闻的目的。
本发明涉及一种实现上述方法的系统,包括:图文预处理单元、文本处理单元、图像处理单元以及CARMN单元,其中:图文预处理单元实现文本与相应图片的一对一处理;文本处理单元依照图文预处理单元的结果,使用自然语言处理工具对文本数据计算分词向量,并与CARMN单元相连并传输文本向量信息,图像处理单元将图片用向量的形式表示,并与CARMN相连并传输图像向量信息;CARMN单元接收文本处理单元和图像处理单元的数据,并送入CARMN网络进行训练,得到二分类结果。
附图说明
图1为本发明的流程图;
图2为本发明中文本和图片一对一处理过程示意图;
图3为本发明中图结构数据示意图。
具体实施方式
如图1所示,为本实施例涉及一种基于图结构的已知虚假新闻智能检测系统,包括预处理单元文本处理单元、图像处理单元与CARMN单元,其中:预处理单元获取训练用的新闻图像文本数据集并对文本与相应图片进行预处理,获得图文一对一的数据对;文本处理单元采用python的jieba库处理工具对每个数据对中的文本数据进行去除非中文字符、去除停用词和分词切割处理,将文本切割为分词的组合并计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度后利用Word2vec模型得到分词的向量表示,作为分词节点的初始特征向量;图像处理单元利用VGG模型得到一对一图文数据对中每张图片的向量表示,作为图像节点的初始特征向量;CARMN单元根据得到的每个分词和图像之间的TF-IDF值作为边成图得到图结构数据并利用CARMN网络对图结构数据中的图像张量和与其相连的分词张量一同进行训练,并对网络融合图片与文本向量后产生的最终向量进行二分类,达到检测虚假新闻的目的。
所述的新闻图像文本数据集包括:经标签的真、假新闻的文本与对应图片,其中:真、假新闻的数量各占一半;文本对应一张、多张或没有附图。
所述的图文一对一数据对是指:将一张图片与一篇文本的组合认为是一个单位数据,具体为:当文本只有一张附图,则自然为一对一数据对;当文本有多张附图,则重复文本,每张图片与原文本都组成一对图文一对一数据,共生成与图片数目相等的数据对,每个数据对的文本都相同,即原文本;当文本没有附图,则在之后的训练中生成一个特定的张量表示空图片,原文本与空图片构成数据对。
所述的去除非中文字符是指:文本只保留中文,去除标点、数字等其余字符。
所述的去除停用词是指:去除中文文本中常见于每篇文本的无特殊语义词语。
所述的分词切割是指:将中文文本按照语法分割为一系列词语,本实施例所使用的是jieba库cut_for_search函数。
所述的计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度,具体为:对当前文本中的每一个分词利用TF-IDF算法,从而得到TF-IDF=TF×IDF,其中:词频逆文本频率指数m为当前文本中分词i的出现次数,n为当前文本所有分词的数目。P为语料库中文本总数,q为语料库中包含分词i的文本数量。
所述的语料库为清华NLP组提供的THUCNews新闻文本分类数据集,是根据新浪新闻2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,均为UTF-8纯文本格式。
所述的Word2vec模型能够将分词转换成相应的词向量。本实施例所使用的词向量模型是预训练好的词向量模型。此模型能将分词转换为维度为1*300的词向量。
所述的预训练好的模型使用的是论文Li,S.,et al."Analogical Reasoning onChinese Morphological and Semantic Relations."Meeting ofthe Association forComputational Linguistics 2018中基于微博预训练的模型。
所述的VGG模型是一种用于提取图像特征的卷积网络,本实施例使用的是VGG19网络。
所述的VGG19网络输入224*224大小的RGB图像,通过3*3的卷积核和步骤为2的2*2maxpool对图像进行特征融合,最终通过三个全连接层提取图像的特征得到维度为1*1000的特征向量。
所述的图像节点的初始特征向量就是利用VGG19网络提取到的图像向量。本实施例使用VGG19预训练模型已经训练好的参数进行特征提取。
本实施例基于pytorch,在pytorch中直接调用VGG19模型,包括预训练的和未训练的。使用VGG19预训练模型,只需调用时使用命令:torchvision.models.vgg19(pretrained=True)即可。
本实施例中的VGG网络内嵌在整个网络中,但是参数是被锁死的,对于VGG部分的参数不进行进一步训练。
所述的图包括:图像节点、分词节点和边,其中:图像节点为图像的维度为1*1000的特征向量;分词节点为维度为1*300的词向量;边为求出的分词与对应图像的大于0的关联强度数值。
所述的图像张量,即图像节点本身的特征向量。
所述的文本张量,即图像所连的分词节点构成的张量,具体为:每个相连分词节点使用其初始词向量乘上与图像相连的边所表示的TF-IDF值得到加权分词词向量,再将图像相连的所有分词节点的所有加权分词词向量进行拼接得到最终的文本张量。
所述的拼接为按行拼接,本实施例中设定最多为80个加权分词词向量,具体规则包括:
i)当图像节点所连分词节点数目小于80,则用0向量补充。
ii)当图像节点数目大于80,则选择先在文本中出现的80个分词的加权分词词向量。
iii)最终产生的文本张量的维度为80*300。
所述的CARMN网络是一个多模态网络,输入图像向量与文本向量,通过自注意力残差网络和CARN模块融合图像与文本的特征,再通过特征提取得到最终的向量,并进行二分类,其中:自注意力残差网络通过使用多个矩阵融合图片与文本的信息得到信息之间的相关性;目标模态可以利用CARN模块有选择地从另一个模态中提取信息后,通过剩余连接将信息添加到目标模态。
所述的CARN模块包括:表示文本模态有选择的提取图像模态信息并融合的单元和表示图像模态有选择的提取文本模态信息并融合的单元。
本实施例使用CARMN网络基于Pytorch,选取了Adam优化器,学习率设定为0.0001,训练轮数epoch设定为150,损失函数选取的是交叉熵函数。
所述的Adam优化器为torch.optim.Adam()。
所述的交叉熵函数为torch.nn.CrossEntropyLoss()。
在WeiboA(论文Jin,Z.,Cao,J.,Guo,H.,Zhang,Y.,&Luo,J.Multimodal fusionwith recurrentneural networks forrumor detection on microblogs.Proceedingsofthe 25th acm international conference on multimedia[J]2017:795-816中提出)和WeiboB(论文Cao,J.,Guo,J.,Li,X.,Jin,Z.,Guo,H.,&Li,J.Automatic rumor detectionon microblogs:a survey[J].
2018:125-134中提出)两个公开数据集上进行测试,测试结果如下:
WeiboA数据集测试结果:
WeiboB数据集测试结果:
因为WeiboA数据集小,训练效果不佳。但在WeiboB数据集上,本发明对准确率有显著的提升效果。
本发明利用图结构得到更有效的图片与文字向量,提高虚假新闻检测的准确率。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (10)
1.一种基于图结构的已知虚假新闻智能检测方法,其特征在于,包括以下步骤:
步骤1)获取训练用的新闻图像文本数据集,其中包含已标注的虚假新闻和非虚假新闻;
步骤2)对文本与相应图片进行图文一对一数据对处理;
步骤3)用自然语言处理工具对每个数据对中的文本数据进行预处理,将文本切割为分词的组合;
步骤4)利用现有的中文新闻语料库计算各个分词的IDF值,再在每个文本内计算各自分词的TF值,从而计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度;
步骤5)利用Word2vec模型得到数据对中,文本数据中的每个分词的向量表示,每个分词向量都独立作为分词节点的初始特征向量;
步骤6)利用VGG模型得到数据对中,图像数据中的图片向量表示,作为图像节点的初始特征向量;
步骤7)因为数据对中只有单个文本以及对应的单张图像,每个分词在各自文本中的TF-IDF值可以等价于每个分词在各自文本对应的图像中的TF-IDF值;根据得到的每个分词和图像之间的TF-IDF值作为边,从而形成图得到图结构数据;
步骤8)利用所得数据对CARMN网络进行训练,并对网络融合图片与文本向量后产生的最终向量进行二分类,达到检测虚假新闻的目的。
2.一种实现权利要求1所述的方法的基于图结构的已知虚假新闻智能检测系统,其特征在于,包括:预处理单元文本处理单元、图像处理单元与CARMN单元,其中:预处理单元获取训练用的新闻图像文本数据集并对文本与相应图片进行预处理,获得图文一对一的数据对;文本处理单元采用python的jieba库处理工具对每个数据对中的文本数据进行去除非中文字符、去除停用词和分词切割处理,将文本切割为分词的组合并计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度后利用Word2vec模型得到分词的向量表示,作为分词节点的初始特征向量;图像处理单元利用VGG模型得到一对一图文数据对中每张图片的向量表示,作为图像节点的初始特征向量;CARMN单元根据得到的每个分词和图像之间的TF-IDF值作为边成图得到图结构数据并利用CARMN网络对图结构数据中的图像张量和与其相连的分词张量一同进行训练,并对网络融合图片与文本向量后产生的最终向量进行二分类,达到检测虚假新闻的目的;
所述的新闻图像文本数据集包括:经标签的真、假新闻的文本与对应图片,其中:真、假新闻的数量各占一半;文本对应一张、多张或没有附图;
所述的图文一对一数据对是指:将一张图片与一篇文本的组合认为是一个单位数据,具体为:当文本只有一张附图,则自然为一对一数据对;当文本有多张附图,则重复文本,每张图片与原文本都组成一对图文一对一数据,共生成与图片数目相等的数据对,每个数据对的文本都相同,即原文本;当文本没有附图,则在之后的训练中生成一个特定的张量表示空图片,原文本与空图片构成数据对;
所述的去除非中文字符是指:文本只保留中文,去除标点、数字等其余字符;
所述的去除停用词是指:去除中文文本中常见于每篇文本的无特殊语义词语;
所述的分词切割是指:将中文文本按照语法分割为一系列词语,本实施例所使用的是jieba库cut_for_search函数。
4.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统,其特征是,所述的VGG19网络输入224*224大小的RGB图像,通过3*3的卷积核和步骤为2的2*2maxpool对图像进行特征融合,最终通过三个全连接层提取图像的特征得到维度为1*1000的特征向量。
5.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统,其特征是,所述的图像节点的初始特征向量就是利用VGG19网络提取到的图像向量,本实施例使用VGG19预训练模型已经训练好的参数进行特征提取。
6.根据权利要求5所述的基于图结构的已知虚假新闻智能检测系统,其特征是,VGG网络内嵌在整个网络中,但是参数是被锁死的,对于VGG部分的参数不进行进一步训练。
7.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统,其特征是,所述的图包括:图像节点、分词节点和边,其中:图像节点为图像的维度为1*1000的特征向量;分词节点为维度为1*300的词向量;边为求出的分词与对应图像的大于0的关联强度数值。
8.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统,其特征是,所述的图像张量,即图像节点本身的特征向量;所述的文本张量,即图像所连的分词节点构成的张量,具体为:每个相连分词节点使用其初始词向量乘上与图像相连的边所表示的TF-IDF值得到加权分词词向量,再将图像相连的所有分词节点的所有加权分词词向量进行拼接得到最终的文本张量。
9.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统,其特征是,所述的拼接为按行拼接,本实施例中设定最多为80个加权分词词向量,具体规则包括:
i)当图像节点所连分词节点数目小于80,则用0向量补充;
ii)当图像节点数目大于80,则选择先在文本中出现的80个分词的加权分词词向量;
iii)最终产生的文本张量的维度为80*300。
10.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统,其特征是,所述的CARMN网络是一个多模态网络,输入图像向量与文本向量,通过自注意力残差网络和CARN模块融合图像与文本的特征,再通过特征提取得到最终的向量,并进行二分类,其中:自注意力残差网络通过使用多个矩阵融合图片与文本的信息得到信息之间的相关性;目标模态可以利用CARN模块有选择地从另一个模态中提取信息后,通过剩余连接将信息添加到目标模态;
所述的CARN模块包括:表示文本模态有选择的提取图像模态信息并融合的单元和表示图像模态有选择的提取文本模态信息并融合的单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110906574.5A CN113609292B (zh) | 2021-08-09 | 2021-08-09 | 基于图结构的已知虚假新闻智能检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110906574.5A CN113609292B (zh) | 2021-08-09 | 2021-08-09 | 基于图结构的已知虚假新闻智能检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113609292A true CN113609292A (zh) | 2021-11-05 |
CN113609292B CN113609292B (zh) | 2023-10-13 |
Family
ID=78339910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110906574.5A Active CN113609292B (zh) | 2021-08-09 | 2021-08-09 | 基于图结构的已知虚假新闻智能检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609292B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114048292A (zh) * | 2021-11-23 | 2022-02-15 | 西安热工研究院有限公司 | 一种基于信息检索与数据挖掘加权技术的虚假消息检测方法 |
CN116912845A (zh) * | 2023-06-16 | 2023-10-20 | 广东电网有限责任公司佛山供电局 | 一种基于nlp与ai的智能内容识别与分析方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020082560A1 (zh) * | 2018-10-25 | 2020-04-30 | 平安科技(深圳)有限公司 | 文本关键词提取方法、装置、设备及计算机可读存储介质 |
CN111222000A (zh) * | 2019-12-31 | 2020-06-02 | 中国地质大学(武汉) | 一种基于图卷积神经网络的图像分类方法及系统 |
CN111831790A (zh) * | 2020-06-23 | 2020-10-27 | 广东工业大学 | 一种基于低门限集成与文本内容匹配的虚假新闻识别方法 |
US20200342314A1 (en) * | 2019-04-26 | 2020-10-29 | Harbin Institute Of Technology (shenzhen) | Method and System for Detecting Fake News Based on Multi-Task Learning Model |
-
2021
- 2021-08-09 CN CN202110906574.5A patent/CN113609292B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020082560A1 (zh) * | 2018-10-25 | 2020-04-30 | 平安科技(深圳)有限公司 | 文本关键词提取方法、装置、设备及计算机可读存储介质 |
US20200342314A1 (en) * | 2019-04-26 | 2020-10-29 | Harbin Institute Of Technology (shenzhen) | Method and System for Detecting Fake News Based on Multi-Task Learning Model |
CN111222000A (zh) * | 2019-12-31 | 2020-06-02 | 中国地质大学(武汉) | 一种基于图卷积神经网络的图像分类方法及系统 |
CN111831790A (zh) * | 2020-06-23 | 2020-10-27 | 广东工业大学 | 一种基于低门限集成与文本内容匹配的虚假新闻识别方法 |
Non-Patent Citations (1)
Title |
---|
刘春丽;李晓戈;刘睿;范贤;杜丽萍: "基于表示学习的中文分词", 计算机应用, vol. 36, no. 10 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114048292A (zh) * | 2021-11-23 | 2022-02-15 | 西安热工研究院有限公司 | 一种基于信息检索与数据挖掘加权技术的虚假消息检测方法 |
CN116912845A (zh) * | 2023-06-16 | 2023-10-20 | 广东电网有限责任公司佛山供电局 | 一种基于nlp与ai的智能内容识别与分析方法及装置 |
CN116912845B (zh) * | 2023-06-16 | 2024-03-19 | 广东电网有限责任公司佛山供电局 | 一种基于nlp与ai的智能内容识别与分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113609292B (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Exploring deep multimodal fusion of text and photo for hate speech classification | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
CN113780486B (zh) | 一种视觉问答的方法、装置及介质 | |
CN105631468A (zh) | 一种基于rnn的图片描述自动生成方法 | |
CN111160452A (zh) | 一种基于预训练语言模型的多模态网络谣言检测方法 | |
CN113051380B (zh) | 信息生成方法、装置、电子设备和存储介质 | |
CN112818951A (zh) | 一种票证识别的方法 | |
CN114880496B (zh) | 多媒体信息话题分析方法、装置、设备及存储介质 | |
CN115982350A (zh) | 基于多模态Transformer的虚假新闻检测方法 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
Stewart et al. | Seq2kg: an end-to-end neural model for domain agnostic knowledge graph (not text graph) construction from text | |
CN113609292A (zh) | 基于图结构的已知虚假新闻智能检测方法 | |
CN117874607A (zh) | 一种虚假新闻早期检测方法、系统、设备、介质 | |
CN113159071A (zh) | 一种跨模态图像-文本关联异常检测方法 | |
CN115545041A (zh) | 一种增强医疗语句语义向量表示的模型构造方法及系统 | |
CN111046177A (zh) | 一种仲裁案件自动预判方法及装置 | |
CN111008329A (zh) | 基于内容分类的页面内容推荐方法及装置 | |
CN113283535B (zh) | 一种融合多模态特征的虚假消息检测方法和装置 | |
Tazalli et al. | Computer vision-based Bengali sign language to text generation | |
CN113282746B (zh) | 一种网络媒体平台变体评论对抗文本生成方法 | |
CN117591752B (zh) | 一种多模态虚假信息检测方法、系统及存储介质 | |
Jayashree et al. | Sentimental analysis on voice based reviews using fuzzy logic | |
CN113761184A (zh) | 文本数据的分类方法、设备及存储介质 | |
CN115115868B (zh) | 一种基于三元组的多模态协同场景识别方法 | |
CN115357720B (zh) | 基于bert的多任务新闻分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |