CN103544255B - 基于文本语义相关的网络舆情信息分析方法 - Google Patents
基于文本语义相关的网络舆情信息分析方法 Download PDFInfo
- Publication number
- CN103544255B CN103544255B CN201310482522.5A CN201310482522A CN103544255B CN 103544255 B CN103544255 B CN 103544255B CN 201310482522 A CN201310482522 A CN 201310482522A CN 103544255 B CN103544255 B CN 103544255B
- Authority
- CN
- China
- Prior art keywords
- text
- information
- similarity
- public
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000011156 evaluation Methods 0.000 claims abstract description 7
- 238000001914 filtration Methods 0.000 claims abstract 2
- 238000000034 method Methods 0.000 claims description 48
- 239000000284 extract Substances 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 238000007621 cluster analysis Methods 0.000 claims description 12
- 230000006872 improvement Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000004088 simulation Methods 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 2
- 238000005520 cutting process Methods 0.000 claims description 2
- 230000003447 ipsilateral effect Effects 0.000 claims description 2
- 238000013517 stratification Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 claims 1
- 238000005065 mining Methods 0.000 abstract description 9
- 238000012545 processing Methods 0.000 abstract description 9
- 238000007781 pre-processing Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 abstract description 3
- 239000000203 mixture Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000009412 basement excavation Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000000205 computational method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000270322 Lepidosauria Species 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004530 micro-emulsion Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于文本语义相关的网络舆情信息分析系统,包括以下模块:网络舆情信息采集模块,从网页中采集蕴含丰富的各种舆情信息;舆情信息萃取模块和舆情信息预处理模块将采集的舆情信息进行初步过滤和切分,提取正文部分的元信息,建立文本的特征语义网络图,并进行加权计算和特征抽取,为舆情信息挖掘提供服务。舆情信息挖掘模块,采用基于语义相似度的改进文本聚类分析方法,将文本进行归类;舆情信息分析模块,把舆情信息经过挖掘的数据进行OLAP多维统计,分析舆情评测指标,为相关舆情信息决策提供支持。本发明解决文本中词语语义信息不完整的问题,高效实现大规模网络环境下对动态数据的聚类分析和热点话题发现。
Description
技术领域
本发明涉及网络信息技术领域,具体是一种基于文本语义相关的网络舆情信息分析方法。
背景技术
当今社会,互联网已经渗透到人们的日常生活中,微博、论坛、博客等即时通信工具已经成为人们获取信息,进而发表看法、传播信息的重要渠道。借助网络平台,舆情信息迅速传播,引起广泛关注,其传播的速度之快、范围之广、影响力之大,远非传统媒体可比,网络空间的匿名交互性、非时空限制性等特点,使网络舆情这股强大的社会舆论力量,对社会发展和稳定产生一定的冲击和影响。正面的网络舆情似“正能量”,推动和促进社会发展;负面的网络舆情对社会稳定形成负面效应,引发舆情危机。由此,加强网络舆情信息监测、分析、管理,对稳定社会秩序、构建和谐社会具有重要的现实意义。对网络舆情信息及时监测、正确判断决策、迅速及时回应,积极采取有效措施化解舆情危机,成为网络舆情管理工作的重点和难点问题。
发明内容
针对上述背景技术中网络舆情信息的特点和网络舆情信息管理中需要解决的问题,本发明提供一种基于文本语义相关的网络舆情信息分析方法。
本发明解决其技术问题所采用的技术方案是,一种基于文本语义相关的网络舆情信息分析方法。采用包括网络舆情信息采集模块、舆情信息萃取模块、舆情信息预处理模块、舆情信息挖掘模块、舆情信息分析模块和包含舆情信息数据库的网络舆情信息分析系统,并包括如下步骤:
a.网络舆情信息采集模块从网页中采集各种舆情信息,并存储到舆情信息数据库中;
b.舆情信息萃取模块和舆情信息预处理模块将步骤a采集的舆情信息进行初步过滤和切分,抽取文本所包含的内容信息,为舆情信息挖掘提供数据服务;
c.在步骤b基础上,舆情信息挖掘模块采用基于语义相似度的改进文本聚类分析方法,生成类别描述信息,筛选出聚类分析结果中包含的文本信息;利用基于特征统计的TFIDF词频特征计算方法统计类别特征,获取类别特征词,选择名词作为候选类别特征词,按照候选特征词权重排序,以权重值较大的候选特征词作为类别关键词,利用类别关键词之间的语义关系,形成分类结果;识别和建立新的网络舆情主题,检测、跟踪已有舆情主题的相关内容;
d.最后,舆情信息分析模块把舆情信息经过步骤c挖掘的数据进行OLAP多维统计分析,分析舆情主题内容关注度、舆情主题情感倾向等舆情评测指标。
在步骤a中,所述舆情信息采集模块,是对网络舆情信息源进行采集,与一般的网络爬虫不同的是,它不仅要完成网页的爬取,而且要将网页内容进行格式化处理,提取舆情的主题和内容,所得数据存入txt格式或html格式文件,并存储到舆情信息数据库;网络舆情信息采集模块采用分时访问、定时更换IP地址和模拟浏览器进行单点登录三种技术结合进行防屏蔽。网络舆情信息采集模块采用分时访问、定时更换IP地址和模拟浏览器进行单点登录三种技术结合进行防屏蔽。网络舆情信息采集模块执行的具体步骤为:所述舆情信息采集模块执行的具体步骤为,从预先定义的主题相关网页的URL开始,获取网页中的文本信息,并从当前网页中抽取新的URL放入队列中,直到满足条件的舆情信息采集完毕,URL队列为空为止;将采集到的网页文本信息按照字段分类存储到舆情信息数据库中,提供舆情信息萃取模块调用。
所述舆情信息萃取模块,是清除网页中的无关内容,如网页中的广告、导航信息、图片、版权说明等噪声数据,提取对舆情分析有用的正文部分的元信息,对文本进行重构,将具有主题代表性的信息聚集在一起;所述舆情信息预处理模块,是对采集的舆情信息源经过所述舆情信息萃取模块萃取后,进行中文分词处理、过滤停用词、命名实体识别、词性标注、语法解析和特征词提取,建立正序索引和倒排索引;建立文本特征语义网络图,以文本中包含的实体E作为图的节点,两个实体之间的语义关系作为图的有向边,实体之间的语义关系结合词频信息作为节点的权重,有向边的权重表示实体关系在文本中的重要程度,所述实体E包括事物实体NE、事件实体VE、事件关系实体RE;统计文本的词频和文本频率信息,然后进行特征词抽取,选取体现文本特征的词表示该文本。
在步骤b中,所述舆情信息萃取模块,是清除网页中的无关内容,提取对舆情分析有用的正文部分的元信息,对文本进行重构,将具有主题代表性的信息聚集在一起;所述舆情信息预处理模块,是对采集的舆情信息源经过所述舆情信息萃取模块萃取后,进行中文分词处理、过滤停用词、命名实体识别、词性标注、语法解析和特征词提取,建立正序索引和倒排索引;建立文本特征语义网络图,以文本中包含的实体E作为图的节点,两个实体之间的语义关系作为图的有向边,实体之间的语义关系结合词频信息作为节点的权重,有向边的权重表示实体关系在文本中的重要程度,所述实体E包括事物实体NE、事件实体VE、事件关系实体RE;统计文本的词频和文本频率信息,然后进行特征词抽取,选取体现文本特征的词表示该文本。
要实现网络舆情信息文本挖掘、自然语言处理等文本分析,首先要进行分词处理,借鉴国内中文分词领域的研究成果,使用中国科学院计算技术研究所研制的ICTCLAS汉语词法分析系统所具有的词语切分、词性标注、命名实体识别等功能,通过对舆情信息文本内容进行分词,提取长度大于二的词语。在文本分词之后,过滤对计算机理解文本无用的停用词,保留名词、动词、名形词、动形词等词性的词,得到备选特征词集,有效减少索引的大小,增加检索效率,提高准确率。经过分词处理的文本文档,建立正序索引和倒排索引,实现用户的查询交互。文本经过分词、词性标注、去停用词后,建立文本的特征语义网络图,统计文本的词频和文本频率等信息,然后进行加权计算和特征抽取等。
在步骤c中,所述舆情信息挖掘模块,是在对文本集进行预处理,包括中文分词处理、停用词过滤和结构化标签信息分析后,将信息萃取模块生成的文本数据集,根据文本特征语义网络图构建的文本语义特征描述结构,利用相似度评价方法计算文本之间的语义相似度,构建相似度矩阵,采用基于语义相似度的改进文本聚类分析方法生成聚类结果;聚类分析结果生成类别描述信息,筛选出聚类分析结果中包含的文本信息;利用基于特征统计的TFIDF词频特征计算方法统计类别特征,获取候选类别特征词,选择名词作为候选类别特征词,按照候选特征词权重排序,以权重值确定候选特征词作为类别关键词,利用类别关键词之间的语义关系,形成分类结果;将挖掘结果构建知识库,知识库还可以设置成具有同时支持舆情主题发现、舆情倾向性分析等文本挖掘功能。
在步骤d中,所述舆情信息分析模块,是对已存入舆情信息数据库中的经过步骤c挖掘的数据进行OLAP多维统计分析,分析舆情主题关注度、舆情内容敏感度、舆情传播扩散度、舆情发布影响度等舆情评测指标,为相关部门及时掌握舆情动态、适时发布舆情信息、做出正确决策提供支持。
与现有技术相比,本发明具有以下有益效果:
1.当前网络舆情信息反映出了海量性、动态性、不完整性、表现形式多样性等特点,而现有的舆情信息分析方法往往忽视了舆情信息文本内容的相关关系,导致舆情信息分析结果不准确;本发明采用构建舆情信息文本的文本特征语义网络图模型,在文本描述结构中引入词语语义关联及上下文语境之间的联系;结合基于语义相似度的改进文本聚类算法,挖掘分析出舆情信息文本中上下文语义相关的内容。
2.通过建立舆情信息文本的文本特征语义网络图,将舆情信息文本中词语间的上下文关系形成特征项和权重组成的有向图结构,在保留文本词语上下文信息结构的同时,强化了文本中词语上下文语义的内涵,较好地描述文本中隐含的语义信息和主题特征,解决文本中词语语义信息缺失的问题。
3.基于语义相似度的改进文本聚类算法适合于大规模网络环境下对动态数据的聚类分析和舆情主题热点发现,通过对文本语义相似度计算,构建文本语义相似度矩阵,深度挖掘出舆情信息文本中上下文语义相关的内容,及时检测、跟踪新的主题事件;采用类内多个中心的主题表示方法,选择文本与类内每个中心的相似度最大值作为该类文本的相似度,有效地提高了系统运行效率,随着文本数量的增加,聚类分析效果会更加明显。
附图说明
图1是本发明实施例基于文本语义相关的网络舆情信息分析方法的工作流程图。
具体实施方式
下面将结合附图和具体实施例对本发明做进一步说明。但本发明的实施方式不限于此。
如图1所示,本发明的方法中,包括网络舆情信息采集模块、舆情信息萃取模块、舆情信息预处理模块、舆情信息挖掘模块、舆情信息分析模块和包含舆情信息数据库的网络舆情信息分析系统。其处理流程是:
(1)舆情信息采集
对网络舆情信息源进行采集,与一般的网络爬虫不同的是,它不仅要完成网页的爬取,而且要将网页内容进行格式化处理,提取有用的舆情信息,如舆情的主题和内容,所得数据存入txt格式或html格式文件,写入原始舆情信息数据库。具体步骤为:按照预设的网络舆情信息采集策略,从多个种子网页的URL开始,通过各类端口发送遵循http协议的指令(采用GET方法);远程服务器根据申请指令的内容返回HTML类型的文档。舆情信息采集模块收集返回文档中所有的信息后先保存至缓存,然后传送到数据库中保存,获取网页中的文本信息;在获取网页文本信息过程中,不断从当前网页中抽取新出现的超链接URL访问,并剔除已经访问过的超链接URL,如此反复循环,直到满足搜索策略的网页文本信息采集完毕,未访问的URL队列为空为止。将采集的网页文本信息按照字段分类存储到数据库中,提供舆情信息萃取模块调用。
网络舆情信息采集模块通常采用分时访问、定时更换IP地址、模拟浏览器进行单点登录等多种技术结合的防屏蔽策略。针对许多网站如论坛、博客、微博等通过用户登录方式才能访问,这里采用模拟浏览器的策略较易实现,利用微软.NET开发工具VisualStudio2008提供的Web Browser控件为微软IE浏览器的API调用,利用SSO单点登录模拟提交用户名及密码登录,等待用户登录信息加载完成后,页面跳转至相应URL地址,通过提交关键词进行检索,获得所需网页的源文件。
采集的网页文本信息包括Web内容信息、Web结构和使用记录信息两部分。Web内容信息包含新闻标题、正文内容、评论信息等文本内容信息,Web结构和Web使用记录信息包含点击量、浏览量、评论量等统计信息。
(2)舆情信息萃取
采集的网页信息含有广告、导航信息、图片、版权说明等噪声数据,对舆情信息分析来说真正需要的是正文部分的元信息,清除掉这些无关内容,提取对舆情信息分析有用的正文部分的元信息,为文本后续的挖掘、分析提供服务。具体流程如下:
(2-1)首先使用Tidy工具对正文网页进行HTML标记规范化,然后利用html parser工具构建HTML树,将HTML标记作为树的节点,这样表示便于对HTML代码的管理和操作,可以更好地对代码进行结构化挖掘。
(2-2)从采集的舆情信息源中提取标题、关键词、正文、长度、更新时间和URL等相关信息,标题可截取标签<TITLE>与</TITLE>之间的信息;关键词包含在HTML文件头部的META标签,可从META标签信息中提取;时间信息可通过模式匹配分析和网页分析提取。
(2-3)正文提取的具体步骤为:选择适当的关键词,获取相关网页的URL地址,通过访问URL地址所在的服务器,得到网页的HTML源代码;删除网页源代码中的无用标记行,保留网页主体内容;将HTML代码中的段落符号(如</p>、<br>等)替换为特殊符号(如*[/p]*、*[/br]*等),回车符和换行符替换为行分隔符,采用行结构存储方式,保留网页内容格式;提取每一行HTML标记“<”与“>”之间的文本;用回车符替换特殊符号(如*[/p]*、*[/br]*等),保持正文原有的段落;对结果字符串进行去除HTML特殊转义字符(如"、<等)处理,结合正则表达式,匹配并提取最终的正文结果。
从采集的舆情信息源中提取标题、关键词、正文、长度、更新时间和URL等相关信息后,舆情信息萃取模块还要实现文本信息的重构。
文本重构通过分析网络新闻、论坛帖子、微博博文等舆情信息存在形式和文本的结构特征,将具有代表性话题的信息组成“主旨块”,其余部分的信息组成“内容块”,以提高聚类分析效果。
对于网页新闻的文本重构,是把网页新闻的标题和首段信息组成“主旨块”,其余的新闻描述信息和评论内容组成“内容块”。
对于论坛帖子的文本重构,是将帖子的标题和主帖组成“主旨块”,将回帖和跟帖信息净化处理,去除没有汉字内容的帖子和使用常用评价词的帖子,选择若干条帖子构成“内容块”。
(3)舆情信息预处理
舆情信息萃取后,接下来进行中文分词处理、命名实体识别、词性标注、语法解析、特征词提取等预处理,将结果保存到数据库中。要实现网络舆情信息文本挖掘、自然语言处理等文本分析,首先要进行分词处理,借鉴国内中文分词领域的研究成果,采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS进行文本的分词及词性标注,通过中文分词处理,提取长度大于二的词语。ICTCLAS的功能有中文文本的分词、词性标注、新词识别等;使用角色模型(role model)的方法进行命名实体识别;同时支持用户根据需要定义个性化词典,不仅具有较高的分词精度,分词效果也较好。其实现代码如下:
在文本分词之后,过滤对计算机理解文本无用的停用词,保留名词、动词、名形词、动形词等词性的词,得到备选特征词集,以避免文本的冗杂,有效减少索引的大小,增加检索效率,提高检索准确率。
经过分词处理的文本,建立正序索引和倒排索引,实现用户的查询交互。对于正序索引,根据词频的排序,选择前N个词语表示文本,用哈希表表示为:<文件名,关键词词组>;建立正序索引后,搜索文本中的关键词,找出包含此关键词的所有文件名,建立文件名词组,可得倒排索引,用哈希表表示为:<关键词,文件名词组>。
索引的建立和索引的检索服务基于Apache开源项目Lucene实现,Lucene提供完整的查询引擎和索引引擎,文本分析引擎;采用Hadoop存储和管理海量的索引文件。
索引的建立过程如下:
1.创建索引写对象IndexWriter。该对象创建时需提供词汇解析器,不同的词汇解析器采用不同的词库。选用ThesaurusAnalyzer,能够提取内容摘要;
2.为取自数据库中的每个结果集创建一个Document对象;
3.将结果集中的数据元分别创建一个Field对象,并添加到Document对象;
4.写入该Document对象。
索引检索的过程为:首先创建查询解析器,该查询解析器需要Field对象名以及对应的词汇解析器等参数;再由查询解析器和关键字获得查询对象;通过查询对象获取检索的结果集,结果集由Document对象构成。
文本经过分词、词性标注、去停用词后,建立文本的特征语义网络图,统计文本的词频和文本频率等信息,然后进行加权计算和特征抽取等。
文本特征语义网络图是一种用实体及其语义关系来表达舆情信息的有向图,以文本中包含的实体E(包括事物实体NE、事件实体VE、事件关系实体RE)作为图的节点,两个实体之间的语义关系作为图的有向边,实体之间的语义关系结合词频信息作为节点的权重,有向边的权重表示实体关系在文本中的重要程度。通过网络节点权值的引入和基于概念的合并与简化,构建文本特征语义网络图,提取文本的核心语义。即通过网络节点表示的词语合并,节点权值相加;再合并有向边,有向边权值相加,构建文本特征语义网络图,描述文本中的语义信息和主题特征。具体概念描述如下:
C1:事物实体NE定义为NE(id,concept,property,power)。id代表实体标识,concept代表实体概念,property代表实体属性,power代表权重。
C2:事件实体VE定义为VE(id,concept,property,power,isN,subT,objT1,objT2)。除了包含NE的几个数据项外,isN代表是否为否定,subT代表主体实体表头,objTl和objT2代表客体实体1与2的表头。
C3:事件关系实体RE定义为RE(id,concept,property,power,isN,subT,objT)。RE用一对主客体实体就可完全描述。
文本特征语义网络图模型分析步骤如下:
S1:在分析文本时,首先以语句为单位,构建各条语句对应的特征语义网络图。逐句分析每句产生了哪些NE,将NE及其属性信息记入实体信息表。
S2:NE分析完毕后,分析VE,登记VE的概念,属性,主体和客体。主客体相同的VE实体表示为同一VE,否则设置不同的id。
S3:接下来分析RE。分析RE要注意与NE、VE区分开来,把RE的概念、属性、主体、客体登记到实体信息表。
S4:分析结束后,得到该语句的实体信息表。实体信息表描述了实体之间的关系,用来构造实体关系图,NE与VE之间,RE与NE、VE之间,实体E与属性T之间通过不同的连线把实体关系可视化。
S5:在分析构建第一条语句的特征语义网络图基础上,将后续语句的特征语义网络图合并,先合并节点,再合并有向边。
S6:合并节点时,把节点之间词语相同或者语义相似度满足阈值条件的节点合并,节点权值相加;否则保留该节点。
S7:有向边合并,是把合并后的节点间存在的有向边进行合并,有向边权值相加。
S8:更新新合并节点邻接边的权值为该节点的权值,强化节点之间的语义关系。
S9:输出所有合并语句的特征语义网络图后,完成整个文本的特征语义网络图的构造。
下一步对词性特征权重赋值,以准确标示文本。按照汉语词性特点及完整事件描述要素(时间、地点、人物以及事件内容),结合中国科学院汉语词性标记集,文本特征权重赋值分为:标题权重值为3,子标题和关键词权重值为2,摘要权重值为1.5,段首句和段尾句权重值为1.3。
舆情信息经过预处理后,为文本的标题、正文和回复设置不同的标签,在计算权重时,读取关键词的标签信息,完成词语的位置权重的赋值。
(4)舆情信息挖掘
舆情信息挖掘模块,是在对文本集进行预处理,包括中文分词处理、停用词过滤和结构化标签信息分析后,将信息萃取模块生成的文本数据集,根据文本特征语义网络图构建的文本语义特征描述结构,利用相似度评价方法计算文本之间的语义相似度,构建相似度矩阵,采用基于语义相似度的改进文本聚类分析方法生成聚类结果;聚类分析结果生成类别描述信息,筛选出聚类分析结果中包含的文本信息;利用基于特征统计的TFIDF词频特征计算方法统计类别特征,获取候选类别特征词,选择名词作为候选类别特征词,按照候选特征词权重排序,以权重值确定候选特征词作为类别关键词,利用类别关键词之间的语义关系,形成分类结果;将挖掘结果构建知识库,知识库还可以设置成具有同时支持舆情主题发现、舆情倾向性分析等文本挖掘功能。
首先定义和计算文本之间的相似度,即文本之间所讨论主题的相关程度,用Sim(D1,D2)表示文本D1和文本D2之间的相似度。相似度取值范围在0和1之间,与文本D1和D2的相似程度成正比。文本之间的相似度越大,表明文本之间的主题相关程度越大。文本之间的语义相似度评价方法如下:
设经过步骤b的舆情信息萃取和预处理后的文本为D1(t11,t12,t13,…,t1m),D2(t21,t22,t23,…,t2m),计算文本D1中所有关键词t1i与文本D2中所有关键词t2i的相似度,形成相似度矩阵如下:
Simij(1=i,j=m)表示文本D1关键词t1i与文本D2关键词t2j的相似度;M(D1,D2)表示文本D1与文本D2之间的相似度矩阵;i为文本D1的关键词数;m为文本D2的关键词数;
词语相似度计算公式为:S(T1,T2)=Max(i=1,2,…,n;j=1,2,…,m)S(y1i,y2j),即词语相似度为两词语所有义项(一个词语所包含的多个词义)相似度中的最大值。
依次遍历相似度矩阵M,找到相似度Sim值最大的关键词对应组合,并删除对应的行和列。然后继续遍历相似度矩阵M找到相似度值最大的关键词组合,反复循环直至矩阵M为零值矩阵。最后利用得到的相似度最大关键词组合序列,求得文本D1和D2的语义相似度,计算公式如下:
其中,max为相似度Sim的最大值;i为文本D1的关键词数;j为文本D2的关键词数。
基于语义相似度的改进文本聚类分析方法,描述如下:
1.首先对所有采集的文本经过预处理后,采用TFIDF加权法对所有类别关键词进行特征加权,提取m个最优特征关键词形成原始的基于关键词特征向量Di*。
2.依据所述知识库对原始的基于关键词特征向量Di*中关键词进行预处理:在知识库中找到与关键词匹配的词汇并将其替换,形成新的特征向量Di,Di=(T1,T2,…,Ti),i=1,2,3,…,m。
3.形成n个文本的m个特征向量Di,利用文本语义相似度计算公式计算采集的文本之间的语义相似度,形成文本集的相似度矩阵M,并求出所有特征向量的平均相似度MA。计算公式如下:
4.设定三个相似度阈值,一个重复度阈值为0.9,一个主题中心阈值为0.5,以及一个新主题阈值为0.3;
5.将文本与中心主题比较,如果文本与中心主题的初始中心相似度大于重复度阈值0.9,认为该文本属于同一主题同一内容文本;如果相似度小于新主题阈值0.3,则该文本需要新建一个类;如果相似度在0~0.5范围内,则该文本属于同一主题的不同侧面讨论的核心内容文本,标记为第二个中心,以此类推,形成多个中心的层次化的聚类结果。
6.针对多个中心的主题表示方法,选择文本与类内每个中心的相似度的最大值作为该类文本的相似度。
基于语义相似度的改进文本聚类算法适合于大规模网络环境下对动态数据的聚类分析和舆情主题热点发现,能及时检测到新事件,检测、跟踪新的舆情主题;采用类内多个中心的舆情主题表示方法,有效地提高了系统运行效率,随着文本数量的增加,效果会更加明显。
5)舆情信息分析
所述舆情信息分析模块对已存入舆情信息数据库中的经过步骤c挖掘的数据进行OLAP多维统计分析,分析舆情主题内容关注度、舆情主题情感倾向等舆情评测指标,为相关部门及时掌握舆情动态、适时发布舆情信息、做出正确决策提供支持。
通过采集、处理和挖掘分析产生的舆情主题,表示为:T=(T1,T2,…,Tn),其中Ti表示舆情主题的文本。舆情主题文本的关注度表示为:Ti=αNp+βNr,舆情主题的关注度度量公式为:其中α,β表示权重,Np表示舆情主题文本的点击数,Nr表示评论数;Np_i表示第i个舆情主题文本的点击数,Nr_i表示第i个舆情主题文本的评论数。由于Np>Nr,经过统计,α取值为0.02,β取值为0.98。
舆情主题的情感倾向基于舆情主题文本的聚类分析数据描述。首先设定一个阙值,只有当文本的倾向度量值大于阙值,文本才表现出极性(正面性、负面性)。文本的倾向度量值为正,则该文本为正面的评论,反之则为负面的评论。
舆情信息经过采集、预处理、信息萃取、挖掘和分析,可以得到舆情主题的详细数据,按照建立的舆情指标评价体系进行处理,处理的结果提供决策帮助。
Claims (7)
1.基于文本语义相关的网络舆情信息分析方法,其特征在于:采用包括网络舆情信息采集模块、舆情信息萃取模块、舆情信息预处理模块、舆情信息挖掘模块、舆情信息分析模块和包含舆情信息数据库的网络舆情信息分析系统,并包括如下步骤:
a.网络舆情信息采集模块从网页中采集各种舆情信息,并存储到舆情信息数据库中;
b.舆情信息萃取模块和舆情信息预处理模块将步骤a采集的舆情信息进行初步过滤和切分,抽取文本所包含的内容信息,为舆情信息挖掘提供数据服务;
c.在步骤b基础上,舆情信息挖掘模块采用基于语义相似度的改进文本聚类分析方法,生成类别描述信息,筛选出聚类分析结果中包含的文本信息;利用基于特征统计的TFIDF词频特征计算方法统计类别特征,获取类别特征词,选择名词作为候选类别特征词,按照候选特征词权重排序,以权重值较大的候选特征词作为类别关键词,利用类别关键词之间的语义关系,形成分类结果;识别和建立新的网络舆情主题,检测、跟踪已有舆情主题的相关内容;
d.最后,舆情信息分析模块把舆情信息经过步骤c挖掘的数据进行OLAP多维统计分析,分析舆情主题内容关注度、舆情主题情感倾向等舆情评测指标;
在步骤a中,所述舆情信息采集模块,是对网络舆情信息源进行采集,不仅要完成网页的爬取,而且要将网页内容进行格式化处理,提取舆情的主题和内容,所得数据存入txt格式或html格式文件,并存储到舆情信息数据库;网络舆情信息采集模块采用分时访问、定时更换IP地址和模拟浏览器进行单点登录三种技术结合进行防屏蔽。
2.根据权利要求1所述的基于文本语义相关的网络舆情信息分析方法,其特征是,所述舆情信息采集模块执行的具体步骤为,从预先定义的主题相关网页的URL开始,获取网页中的文本信息,并从当前网页中抽取新的URL放入队列中,直到满足条件的舆情信息采集完毕,URL队列为空为止;将采集到的网页文本信息按照字段分类存储到舆情信息数据库中,提供舆情信息萃取模块调用。
3.根据权利要求1所述的基于文本语义相关的网络舆情信息分析方法,其特征是,在步骤b中,所述舆情信息萃取模块,是清除网页中的无关内容,提取对舆情分析有用的正文部分的元信息,对文本进行重构,将具有主题代表性的信息聚集在一起;所述舆情信息预处理模块,是对采集的舆情信息源经过所述舆情信息萃取模块萃取后,进行中文分词处理、过滤停用词、命名实体识别、词性标注、语法解析和特征词提取,建立正序索引和倒排索引;建立文本特征语义网络图,以文本中包含的实体E作为图的节点,两个实体之间的语义关系作为图的有向边,实体之间的语义关系结合词频信息作为节点的权重,有向边的权重表示实体关系在文本中的重要程度,所述实体E包括事物实体NE、事件实体VE、事件关系实体RE;统计文本的词频和文本频率信息,然后进行特征词抽取,选取体现文本特征的词表示该文本。
4.根据权利要求3所述的基于文本语义相关的网络舆情信息分析方法,其特征是,在步骤c中,所述舆情信息挖掘模块,是在对文本集进行预处理,包括中文分词处理、停用词过滤和结构化标签信息分析后,将信息萃取模块生成的文本数据集,根据文本特征语义网络图构建的文本语义特征描述结构,利用相似度评价方法计算文本之间的语义相似度,构建相似度矩阵,采用基于语义相似度的改进文本聚类分析方法生成聚类结果;聚类分析结果生成类别描述信息,筛选出聚类分析结果中包含的文本信息;利用基于特征统计的TFIDF词频特征计算方法统计类别特征,获取候选类别特征词,选择名词作为候选类别特征词,按照候选特征词权重排序,以权重值确定候选特征词作为类别关键词,利用类别关键词之间的语义关系,形成分类结果;将挖掘结果构建知识库。
5.根据权利要求3或4所述的基于文本语义相关的网络舆情信息分析方法,其特征是,文本特征语义网络图是利用实体及其语义关系来表达舆情信息的有向图,通过网络节点表示的词语合并,节点权值相加;再合并有向边,有向边权值相加,构建文本特征语义网络图,描述文本中的语义信息和主题特征。
6.根据权利要求4所述的基于文本语义相关的网络舆情信息分析方法,其特征是,文本之间的语义相似度评价方法为:
设经过步骤b的舆情信息萃取和预处理后的文本为D1(t11,t12,t13,…,t1m),D2(t21,t22,t23,…,t2m),计算文本D1中所有关键词t1i与文本D2中所有关键词t2i的相似度,形成相似度矩阵如下:
Simij(1=i,j=m)表示文本D1关键词t1i与文本D2关键词t2j的相似度;M(D1,D2)表示文本D1与文本D2之间的相似度矩阵;i为文本D1的关键词数;m为文本D2的关键词数;
词语相似度计算公式S(T1,T2)=Max(i=1,2,…,n;j=1,2,…,m)S(y1i,y2j),即词语相似度为两词语所有义项相似度中的最大值,所述义项是指一个词语所包含的多个词义;
依次遍历相似度矩阵M,找到相似度Sim值最大的关键词对应组合,并删除对应的行和列;然后继续遍历相似度矩阵M找到Sim值最大的关键词组合,反复循环直至矩阵M为零值矩阵;最后利用得到的相似度最大关键词组合序列,求得文本D1和D2的语义相似度,计算公式如下:
其中,max为相似度Sim的最大值;i为文本D1的关键词数;j为文本D2的关键词数。
7.根据权利要求6所述的基于文本语义相关的网络舆情信息分析方法,其特征是,基于语义相似度的改进文本聚类分析方法为:
1)首先对所有采集的文本经过预处理后,采用TFIDF加权法对所有类别关键词进行特征加权,提取m个最优特征关键词形成原始的基于关键词特征向量Di*;
2)依据所述知识库对原始的基于关键词特征向量Di*中关键词进行预处理:在知识库中找到与关键词匹配的词汇并将其替换,形成新的特征向量Di,Di=(T1,T2,…,Ti),i=1,2,3,…,m;
3)形成n个文本的m个特征向量Di,利用文本语义相似度计算公式计算采集的文本之间的语义相似度,形成文本集的相似度矩阵M,并求出所有特征向量的平均相似度MA;计算公式如下:
其中,n为文本数;
4)设定三个相似度阈值,一个重复度阈值为0.9,一个主题中心阈值为0.5,以及一个新主题阈值为0.3;
5)将文本与中心主题比较,如果文本与中心主题的初始中心相似度大于重复度阈值0.9,认为该文本属于同一主题同一内容文本;如果相似度小于新主题阈值0.3,则该文本需要新建一个类;如果相似度在0~0.5范围内,则该文本属于同一主题的不同侧面讨论的核心内容文本,标记为第二个中心,以此类推,形成多个中心的层次化的聚类结果;
6)针对多个中心的主题表示方法,选择文本与类内每个中心的相似度的最大值作为该类文本的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310482522.5A CN103544255B (zh) | 2013-10-15 | 2013-10-15 | 基于文本语义相关的网络舆情信息分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310482522.5A CN103544255B (zh) | 2013-10-15 | 2013-10-15 | 基于文本语义相关的网络舆情信息分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103544255A CN103544255A (zh) | 2014-01-29 |
CN103544255B true CN103544255B (zh) | 2017-01-11 |
Family
ID=49967707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310482522.5A Active CN103544255B (zh) | 2013-10-15 | 2013-10-15 | 基于文本语义相关的网络舆情信息分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103544255B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446409A (zh) * | 2018-09-19 | 2019-03-08 | 杭州安恒信息技术股份有限公司 | 一种疑似传销行为的目标对象的识别方法 |
Families Citing this family (151)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902659B (zh) * | 2014-03-04 | 2017-06-27 | 深圳市至高通信技术发展有限公司 | 一种舆情分析方法及相应的装置 |
CN103886051A (zh) * | 2014-03-13 | 2014-06-25 | 电子科技大学 | 一种基于实体及特征的评论分析方法 |
CN103927545B (zh) * | 2014-03-14 | 2017-10-17 | 小米科技有限责任公司 | 聚类方法及相关装置 |
CN104915359B (zh) * | 2014-03-14 | 2019-05-28 | 华为技术有限公司 | 主题标签推荐方法及装置 |
CN103902674B (zh) * | 2014-03-19 | 2017-10-27 | 百度在线网络技术(北京)有限公司 | 特定主题的评论数据的采集方法和装置 |
CN103838886A (zh) * | 2014-03-31 | 2014-06-04 | 辽宁四维科技发展有限公司 | 基于代表词知识库的文本内容分类方法 |
CN103841216A (zh) * | 2014-04-01 | 2014-06-04 | 深圳市科盾科技有限公司 | 一种基于云平台的网络舆情监控系统 |
CN104199829B (zh) * | 2014-07-25 | 2017-07-04 | 中国科学院自动化研究所 | 情感数据分类方法和系统 |
CN104346425B (zh) * | 2014-07-28 | 2017-10-31 | 中国科学院计算技术研究所 | 一种层次化的互联网舆情指标体系的方法及系统 |
CN104217718B (zh) * | 2014-09-03 | 2017-05-17 | 陈飞 | 依据环境参数及群体趋向数据的语音识别方法和系统 |
JP6605022B2 (ja) * | 2014-09-03 | 2019-11-13 | ザ ダン アンド ブラッドストリート コーポレーション | 経験属性による体系化されていないデータのソースの分析、選定、及び取り込みのためのシステム及びプロセス |
CN104268194A (zh) * | 2014-09-19 | 2015-01-07 | 国家电网公司 | 一种动态生成舆情简报的方法 |
CN105574047A (zh) * | 2014-10-17 | 2016-05-11 | 任子行网络技术股份有限公司 | 一种基于网站主页特征分析的中文网站分类方法和系统 |
CN104504150B (zh) * | 2015-01-09 | 2017-09-29 | 成都布林特信息技术有限公司 | 新闻舆情监测系统 |
CN105992194B (zh) * | 2015-01-30 | 2019-10-29 | 阿里巴巴集团控股有限公司 | 网络数据内容的获取方法及装置 |
CN104699763B (zh) * | 2015-02-11 | 2017-10-17 | 中国科学院新疆理化技术研究所 | 多特征融合的文本相似性度量系统 |
CN106156041B (zh) * | 2015-03-26 | 2019-05-28 | 科大讯飞股份有限公司 | 热点信息发现方法及系统 |
CN106156192A (zh) * | 2015-04-21 | 2016-11-23 | 北大方正集团有限公司 | 舆情数据聚类方法和舆情数据聚类系统 |
CN106294358A (zh) * | 2015-05-14 | 2017-01-04 | 北京大学 | 一种信息的检索方法及系统 |
CN104820629B (zh) * | 2015-05-14 | 2018-01-30 | 中国电子科技集团公司第五十四研究所 | 一种智能的舆情突发事件应急处理系统及方法 |
CN104915453A (zh) * | 2015-07-01 | 2015-09-16 | 北京奇虎科技有限公司 | 对poi信息进行分类的方法、装置和系统 |
CN104899339A (zh) * | 2015-07-01 | 2015-09-09 | 北京奇虎科技有限公司 | 对poi信息进行分类的方法和装置 |
CN105183803A (zh) * | 2015-08-25 | 2015-12-23 | 天津大学 | 一种社交网络平台中的个性化搜索方法及其搜索装置 |
CN105183478B (zh) * | 2015-09-11 | 2018-11-23 | 中山大学 | 一种基于颜色传递的网页重构方法及其装置 |
CN106528581B (zh) * | 2015-09-15 | 2019-05-07 | 阿里巴巴集团控股有限公司 | 文本检测方法及装置 |
CN106649367B (zh) * | 2015-10-30 | 2020-03-03 | 北京国双科技有限公司 | 检测关键词推广程度的方法和装置 |
CN107430633B (zh) * | 2015-11-03 | 2021-05-14 | 慧与发展有限责任合伙企业 | 用于数据存储的系统及方法和计算机可读介质 |
CN105279277A (zh) * | 2015-11-12 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 知识数据的处理方法和装置 |
CN105389389B (zh) * | 2015-12-10 | 2018-09-25 | 安徽博约信息科技股份有限公司 | 一种网络舆情传播态势媒体联动分析方法 |
CN105677802A (zh) * | 2015-12-31 | 2016-06-15 | 宁波公众信息产业有限公司 | 一种互联网信息分析系统 |
CN105447202A (zh) * | 2015-12-31 | 2016-03-30 | 宁波公众信息产业有限公司 | 一种互联网信息采集系统 |
CN105677873B (zh) * | 2016-01-11 | 2019-03-26 | 中国电子科技集团公司第十研究所 | 基于领域知识模型的文本情报关联聚类汇集处理方法 |
CN105740238B (zh) * | 2016-03-04 | 2019-02-01 | 北京理工大学 | 一种融合句义信息的事件关系强度图构建方法 |
CN105956070A (zh) * | 2016-04-28 | 2016-09-21 | 优品财富管理有限公司 | 一种整合重复记录的方法及系统 |
CN105956069A (zh) * | 2016-04-28 | 2016-09-21 | 优品财富管理有限公司 | 一种网络资讯的采集和分析方法及系统 |
CN106126558B (zh) * | 2016-06-16 | 2019-09-20 | 东软集团股份有限公司 | 一种舆情监控方法及装置 |
CN106294542B (zh) * | 2016-07-25 | 2018-03-30 | 北京市信访矛盾分析研究中心 | 一种信访数据挖掘评分方法及系统 |
CN106294619A (zh) * | 2016-08-01 | 2017-01-04 | 上海交通大学 | 舆情智能监管方法 |
JP2019536137A (ja) * | 2016-10-25 | 2019-12-12 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 知識グラフベースの臨床診断支援 |
CN106776724B (zh) * | 2016-11-16 | 2020-09-08 | 福建天泉教育科技有限公司 | 一种题目分类方法及系统 |
CN106651696B (zh) * | 2016-11-16 | 2020-10-27 | 福建天泉教育科技有限公司 | 一种近似题推送方法及系统 |
CN106599054B (zh) * | 2016-11-16 | 2019-12-24 | 福建天泉教育科技有限公司 | 一种题目分类及推送的方法及系统 |
CN108090040B (zh) * | 2016-11-23 | 2021-08-17 | 北京国双科技有限公司 | 一种文本信息分类方法及系统 |
CN107045524B (zh) * | 2016-12-30 | 2019-12-27 | 中央民族大学 | 一种网络文本舆情分类的方法及系统 |
CN107016068A (zh) * | 2017-03-21 | 2017-08-04 | 深圳前海乘方互联网金融服务有限公司 | 知识图谱构建方法及装置 |
CN107918633B (zh) * | 2017-03-23 | 2021-07-02 | 广州思涵信息科技有限公司 | 基于语义分析技术的敏感舆情内容识别方法和预警系统 |
CN107145516B (zh) * | 2017-04-07 | 2021-03-19 | 北京捷通华声科技股份有限公司 | 一种文本聚类方法及系统 |
CN107066585B (zh) * | 2017-04-17 | 2019-10-01 | 济南大学 | 一种概率主题计算与匹配的舆情监测方法及系统 |
CN107093021A (zh) * | 2017-04-21 | 2017-08-25 | 深圳市创艺工业技术有限公司 | 电网工程物资合同履约诚信舆情监控系统 |
CN107085608A (zh) * | 2017-04-21 | 2017-08-22 | 上海喆之信息科技有限公司 | 一种有效的网络热点监测系统 |
CN107038156A (zh) * | 2017-04-28 | 2017-08-11 | 北京清博大数据科技有限公司 | 一种基于大数据的舆论热点预测方法 |
CN107291808A (zh) * | 2017-05-16 | 2017-10-24 | 南京邮电大学 | 一种基于语义的云制造大数据分类方法 |
CN107220236A (zh) * | 2017-05-23 | 2017-09-29 | 武汉朱雀闻天科技有限公司 | 一种确定疑似裸贷学生的方法及装置 |
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
CN107292743A (zh) * | 2017-06-07 | 2017-10-24 | 前海梧桐(深圳)数据有限公司 | 针对企业投融资的智能化决策方法及其系统 |
CN107231570A (zh) * | 2017-06-13 | 2017-10-03 | 中国传媒大学 | 新闻数据内容特征获取系统及应用系统 |
CN107358344B (zh) * | 2017-06-29 | 2021-09-03 | 浙江图讯科技股份有限公司 | 企业隐患管理方法及其管理系统、电子设备及存储介质 |
CN107291697A (zh) * | 2017-06-29 | 2017-10-24 | 浙江图讯科技股份有限公司 | 一种语义分析方法、电子设备、存储介质及其诊断系统 |
CN107276854B (zh) * | 2017-07-27 | 2021-11-09 | 浩鲸云计算科技股份有限公司 | 一种大数据下molap统计分析的方法 |
CN107527289B (zh) * | 2017-08-25 | 2021-08-06 | 上海优扬新媒信息技术有限公司 | 一种投资组合行业配置方法、装置、服务器和存储介质 |
CN107491438A (zh) * | 2017-08-25 | 2017-12-19 | 前海梧桐(深圳)数据有限公司 | 基于自然语言的企业决策要素提取方法及其系统 |
CN107679084B (zh) * | 2017-08-31 | 2021-09-28 | 平安科技(深圳)有限公司 | 聚类标签生成方法、电子设备及计算机可读存储介质 |
CN107679977A (zh) * | 2017-09-06 | 2018-02-09 | 广东中标数据科技股份有限公司 | 一种基于语义分析的税务管理平台及实现方法 |
CN107918644B (zh) * | 2017-10-31 | 2020-12-08 | 北京锐思爱特咨询股份有限公司 | 声誉管理框架内的新闻议题分析方法和实施系统 |
CN107908694A (zh) * | 2017-11-01 | 2018-04-13 | 平安科技(深圳)有限公司 | 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质 |
CN108052527A (zh) * | 2017-11-08 | 2018-05-18 | 中国传媒大学 | 基于标签体系的电影桥段分析推荐方法 |
CN108170666A (zh) * | 2017-11-29 | 2018-06-15 | 同济大学 | 一种基于tf-idf关键词提取的改进方法 |
CN108197638B (zh) * | 2017-12-12 | 2020-03-20 | 阿里巴巴集团控股有限公司 | 对待评估样本进行分类的方法及装置 |
CN110019720B (zh) * | 2017-12-19 | 2022-02-08 | 阿里巴巴(中国)有限公司 | 一种评论的内容分获取方法及系统 |
CN108062306A (zh) * | 2017-12-29 | 2018-05-22 | 国信优易数据有限公司 | 一种营商环境评价的指标体系构建系统及方法 |
CN108363784A (zh) * | 2018-01-20 | 2018-08-03 | 西北工业大学 | 一种基于文本机器学习的舆情走向预测方法 |
CN108595466B (zh) * | 2018-02-09 | 2022-05-10 | 中山大学 | 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法 |
CN108287922B (zh) * | 2018-02-28 | 2022-03-08 | 福州大学 | 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法 |
CN108536762A (zh) * | 2018-03-21 | 2018-09-14 | 上海蔚界信息科技有限公司 | 一种大批量文本数据自动分析方案 |
CN108681977B (zh) * | 2018-03-27 | 2022-05-31 | 成都律云科技有限公司 | 一种律师信息处理方法和系统 |
CN108550380A (zh) * | 2018-04-12 | 2018-09-18 | 北京深度智耀科技有限公司 | 一种基于公共网络的药品安全信息监测方法和装置 |
CN108628994A (zh) * | 2018-04-28 | 2018-10-09 | 广东亿迅科技有限公司 | 一种舆情数据处理系统 |
CN108932291B (zh) * | 2018-05-23 | 2022-08-23 | 福建亿榕信息技术有限公司 | 电网舆情评价方法、存储介质及计算机 |
CN108804594A (zh) * | 2018-05-28 | 2018-11-13 | 国家计算机网络与信息安全管理中心 | 一种新闻内容全文检索引擎的构建方法及装置 |
CN110633373B (zh) * | 2018-06-20 | 2023-06-09 | 上海财经大学 | 一种基于知识图谱和深度学习的汽车舆情分析方法 |
CN110727794A (zh) * | 2018-06-28 | 2020-01-24 | 上海传漾广告有限公司 | 一种网络语义收集分析及内容概括分析系统及方法 |
CN109145085B (zh) * | 2018-07-18 | 2020-11-27 | 北京市农林科学院 | 语义相似度的计算方法及系统 |
CN109376237B (zh) * | 2018-09-04 | 2024-05-28 | 中国平安人寿保险股份有限公司 | 客户稳定性的预测方法、装置、计算机设备和存储介质 |
CN109408808B (zh) * | 2018-09-12 | 2023-08-22 | 中国传媒大学 | 一种文艺作品的评估方法及评估系统 |
CN109214008A (zh) * | 2018-09-28 | 2019-01-15 | 珠海中科先进技术研究院有限公司 | 一种基于关键词提取的情感分析方法及系统 |
CN109299271B (zh) * | 2018-10-30 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 训练样本生成、文本数据、舆情事件分类方法及相关设备 |
CN109558586B (zh) * | 2018-11-02 | 2023-04-18 | 中国科学院自动化研究所 | 一种资讯的言据自证评分方法、设备和存储介质 |
CN109582953B (zh) * | 2018-11-02 | 2023-04-07 | 中国科学院自动化研究所 | 一种资讯的言据支撑评分方法、设备和存储介质 |
CN109635074B (zh) * | 2018-11-13 | 2024-05-07 | 平安科技(深圳)有限公司 | 一种基于舆情信息的实体关系分析方法及终端设备 |
CN109189934B (zh) * | 2018-11-13 | 2024-07-19 | 平安科技(深圳)有限公司 | 舆情推荐方法、装置、计算机设备及存储介质 |
CN109635107A (zh) * | 2018-11-19 | 2019-04-16 | 北京亚鸿世纪科技发展有限公司 | 多数据源的语义智能分析及事件场景还原的方法及装置 |
CN109526027B (zh) * | 2018-11-27 | 2022-07-01 | 中国移动通信集团福建有限公司 | 一种小区容量优化方法、装置、设备及计算机存储介质 |
CN109766438B (zh) * | 2018-12-12 | 2024-07-16 | 平安科技(深圳)有限公司 | 简历信息提取方法、装置、计算机设备和存储介质 |
CN110046292B (zh) * | 2018-12-13 | 2024-04-23 | 创新先进技术有限公司 | 舆情数据处理方法、装置、设备及存储介质 |
CN111435594A (zh) * | 2019-01-14 | 2020-07-21 | 珠海格力电器股份有限公司 | 获取烹饪器具的烹饪参数的方法和装置、烹饪器具 |
CN109977995A (zh) * | 2019-02-11 | 2019-07-05 | 平安科技(深圳)有限公司 | 文本模板识别方法、装置及计算机可读存储介质 |
CN110134844A (zh) * | 2019-04-04 | 2019-08-16 | 平安科技(深圳)有限公司 | 细分领域舆情监控方法、装置、计算机设备及存储介质 |
CN110110156A (zh) * | 2019-04-04 | 2019-08-09 | 平安科技(深圳)有限公司 | 行业舆情监控方法、装置、计算机设备及存储介质 |
CN110188196B (zh) * | 2019-04-29 | 2021-10-08 | 同济大学 | 一种基于随机森林的文本增量降维方法 |
CN110222172B (zh) * | 2019-05-15 | 2021-03-16 | 北京邮电大学 | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 |
CN110119416A (zh) * | 2019-05-16 | 2019-08-13 | 重庆八戒传媒有限公司 | 一种服务数据分析系统及方法 |
CN110188168B (zh) * | 2019-05-24 | 2021-09-03 | 北京邮电大学 | 语义关系识别方法和装置 |
CN110348539B (zh) * | 2019-07-19 | 2021-05-07 | 知者信息技术服务成都有限公司 | 短文本相关性判别方法 |
CN112348421A (zh) * | 2019-08-08 | 2021-02-09 | 北京国双科技有限公司 | 一种数据处理方法及装置 |
CN110472055B (zh) * | 2019-08-21 | 2021-09-14 | 北京百度网讯科技有限公司 | 用于标注数据的方法和装置 |
CN110532492A (zh) * | 2019-08-27 | 2019-12-03 | 东北大学 | 一种论坛数据管理分类系统及方法 |
CN112541105A (zh) * | 2019-09-20 | 2021-03-23 | 福建师范大学地理研究所 | 一种关键词生成方法、舆情监测方法、装置、设备和介质 |
CN110705288A (zh) * | 2019-09-29 | 2020-01-17 | 武汉海昌信息技术有限公司 | 一种基于大数据的舆情分析系统 |
CN110852090B (zh) * | 2019-11-07 | 2024-03-19 | 中科天玑数据科技股份有限公司 | 一种用于舆情爬取的机构特征词汇扩展系统和方法 |
CN110991190B (zh) * | 2019-11-29 | 2021-06-29 | 华中科技大学 | 一种文档主题增强系统、文本情绪预测系统和方法 |
CN110990389A (zh) * | 2019-11-29 | 2020-04-10 | 上海易点时空网络有限公司 | 精简题库的方法、装置及计算机可读存储介质 |
CN110968668B (zh) * | 2019-11-29 | 2023-03-14 | 中国农业科学院农业信息研究所 | 一种基于超网络的网络舆情主题相似度计算方法及装置 |
CN111144575B (zh) * | 2019-12-05 | 2022-08-12 | 支付宝(杭州)信息技术有限公司 | 舆情预警模型的训练方法、预警方法、装置、设备及介质 |
CN111158973B (zh) * | 2019-12-05 | 2021-06-18 | 北京大学 | 一种web应用动态演化监测方法 |
CN111160019B (zh) * | 2019-12-30 | 2023-08-15 | 中国联合网络通信集团有限公司 | 一种舆情监测的方法、装置及系统 |
CN111241077B (zh) * | 2020-01-03 | 2023-06-09 | 四川新网银行股份有限公司 | 基于互联网数据的金融欺诈行为的识别方法 |
CN111259635A (zh) * | 2020-01-09 | 2020-06-09 | 智业软件股份有限公司 | 一种对病历书写文本补全和预测的方法及系统 |
CN111291186B (zh) * | 2020-01-21 | 2024-01-09 | 北京捷通华声科技股份有限公司 | 一种基于聚类算法的上下文挖掘方法、装置和电子设备 |
CN111291162B (zh) * | 2020-02-26 | 2024-04-09 | 深圳前海微众银行股份有限公司 | 质检例句挖掘方法、装置、设备及计算机可读存储介质 |
CN111401074A (zh) * | 2020-04-03 | 2020-07-10 | 山东爱城市网信息技术有限公司 | 一种基于Hadoop的短文本情感倾向性分析方法、系统及装置 |
CN111563190B (zh) * | 2020-04-07 | 2023-03-14 | 中国电子科技集团公司第二十九研究所 | 一种区域网络用户行为的多维度分析与监管方法及系统 |
CN111797333B (zh) * | 2020-06-04 | 2021-04-20 | 南京擎盾信息科技有限公司 | 舆情传播任务展示的方法及装置 |
CN111708886A (zh) * | 2020-06-11 | 2020-09-25 | 国网天津市电力公司 | 一种基于数据驱动的舆情分析终端及舆情文本分析方法 |
CN111914096B (zh) * | 2020-07-06 | 2024-02-02 | 同济大学 | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 |
CN111831922B (zh) * | 2020-07-14 | 2021-02-05 | 深圳市众创达企业咨询策划有限公司 | 一种基于互联网信息的推荐系统与方法 |
CN111914141B (zh) * | 2020-07-30 | 2023-01-10 | 广州城市信息研究所有限公司 | 一种舆情知识库构建方法及舆情知识库 |
CN112084298A (zh) * | 2020-07-31 | 2020-12-15 | 北京明略昭辉科技有限公司 | 基于快速btm的舆情主题处理方法和装置 |
CN112214576B (zh) * | 2020-09-10 | 2024-02-06 | 深圳价值在线信息科技股份有限公司 | 舆情分析方法、装置、终端设备及计算机可读存储介质 |
CN112184323A (zh) * | 2020-10-13 | 2021-01-05 | 上海风秩科技有限公司 | 评价标签生成方法和装置、存储介质及电子设备 |
CN112528197B (zh) * | 2020-11-20 | 2023-07-07 | 四川新网银行股份有限公司 | 一种基于人工智能的网络舆情实时监测的系统及方法 |
CN112464653A (zh) * | 2020-12-03 | 2021-03-09 | 合肥天源迪科信息技术有限公司 | 一种基于通信短信的实时事件识别和匹配方法 |
CN112650848A (zh) * | 2020-12-30 | 2021-04-13 | 交控科技股份有限公司 | 基于文本语义相关乘客评价的城铁舆情信息分析方法 |
CN113282702B (zh) * | 2021-03-16 | 2023-12-19 | 广东医通软件有限公司 | 一种智能检索方法及检索系统 |
CN113032653A (zh) * | 2021-04-02 | 2021-06-25 | 盐城师范学院 | 一种基于大数据的舆情监测平台 |
CN113822038B (zh) * | 2021-06-03 | 2024-06-25 | 腾讯科技(深圳)有限公司 | 一种摘要生成方法和相关装置 |
CN113468333B (zh) * | 2021-09-02 | 2021-11-19 | 华东交通大学 | 一种融合层次类别信息的事件检测方法与系统 |
CN113836307B (zh) * | 2021-10-15 | 2024-02-20 | 国网北京市电力公司 | 一种供电服务工单热点发现方法、系统、装置及存储介质 |
CN114281994B (zh) * | 2021-12-27 | 2022-06-03 | 盐城工学院 | 一种基于三层加权模型的文本聚类集成方法及系统 |
CN114386422B (zh) * | 2022-01-14 | 2023-09-15 | 淮安市创新创业科技服务中心 | 基于企业污染舆情抽取的智能辅助决策方法及装置 |
CN114491207A (zh) * | 2022-01-18 | 2022-05-13 | 平安普惠企业管理有限公司 | 舆情分析方法及相关产品 |
CN114692593B (zh) * | 2022-03-21 | 2023-04-07 | 中国刑事警察学院 | 一种网络信息安全监测预警方法 |
CN114385890B (zh) * | 2022-03-22 | 2022-05-20 | 深圳市世纪联想广告有限公司 | 互联网舆情监控系统 |
CN114462393A (zh) * | 2022-04-12 | 2022-05-10 | 安徽数智建造研究院有限公司 | 网页文本信息提取方法及装置、终端设备和存储介质 |
CN115082947B (zh) * | 2022-07-12 | 2023-08-15 | 江苏楚淮软件科技开发有限公司 | 纸质信件快速采集分拣阅信系统 |
CN115757793B (zh) * | 2022-11-29 | 2023-09-05 | 海南达润丰企业管理合伙企业(有限合伙) | 基于人工智能的话题分析预警方法、系统及云平台 |
CN116521858B (zh) * | 2023-04-20 | 2024-04-30 | 浙江浙里信征信有限公司 | 基于动态聚类和可视化的上下文语义序列比较方法 |
CN117743376B (zh) * | 2024-02-19 | 2024-05-03 | 蓝色火焰科技成都有限公司 | 一种数字金融服务的大数据挖掘方法、装置及存储介质 |
CN117910467B (zh) * | 2024-03-15 | 2024-05-10 | 成都启英泰伦科技有限公司 | 一种离线语音识别过程中的分词处理方法 |
CN118520174B (zh) * | 2024-07-19 | 2024-09-27 | 西安银信博锐信息科技有限公司 | 基于数据分析的客户行为特征提取方法 |
CN118656495A (zh) * | 2024-08-20 | 2024-09-17 | 湖南数据产业集团有限公司 | 一种舆情发布溯源方法、装置、设备及其存储介质 |
CN118656496A (zh) * | 2024-08-21 | 2024-09-17 | 舟谱数据技术南京有限公司 | 基于nlp的检索数据管理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101529418A (zh) * | 2006-01-19 | 2009-09-09 | 维里德克斯有限责任公司 | 用于获取、分析和挖掘数据和信息的系统和方法 |
CN101788988A (zh) * | 2009-01-22 | 2010-07-28 | 蔡亮华 | 信息抓取方法 |
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8874581B2 (en) * | 2010-07-29 | 2014-10-28 | Microsoft Corporation | Employing topic models for semantic class mining |
-
2013
- 2013-10-15 CN CN201310482522.5A patent/CN103544255B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101529418A (zh) * | 2006-01-19 | 2009-09-09 | 维里德克斯有限责任公司 | 用于获取、分析和挖掘数据和信息的系统和方法 |
CN101788988A (zh) * | 2009-01-22 | 2010-07-28 | 蔡亮华 | 信息抓取方法 |
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
Non-Patent Citations (1)
Title |
---|
基于语义相似度的文本聚类算法的研究;孙爽;《中国优秀硕士学位论文全文数据库 信息科技辑》;20080115(第01期);I140-15 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446409A (zh) * | 2018-09-19 | 2019-03-08 | 杭州安恒信息技术股份有限公司 | 一种疑似传销行为的目标对象的识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103544255A (zh) | 2014-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
CN106874378B (zh) | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 | |
CN103514183B (zh) | 基于交互式文档聚类的信息检索方法及系统 | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
CN105512687A (zh) | 训练情感分类模型和文本情感极性分析的方法及系统 | |
CN112650848A (zh) | 基于文本语义相关乘客评价的城铁舆情信息分析方法 | |
CN110020189A (zh) | 一种基于中文相似性计算的文章推荐方法 | |
CN106815307A (zh) | 公共文化知识图谱平台及其使用办法 | |
CN104035972B (zh) | 一种基于微博的知识推荐方法与系统 | |
CN103226578A (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
CN103955529A (zh) | 一种互联网信息搜索聚合呈现方法 | |
CN111899089A (zh) | 基于知识图谱的企业风险预警方法及系统 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN105068991A (zh) | 一种基于大数据的舆情发现方法 | |
CN105653668A (zh) | 云环境中基于DOMTree的网页内容分析提取优化方法 | |
CN104268148A (zh) | 一种基于时间串的论坛页面信息自动抽取方法及系统 | |
CN103309862A (zh) | 一种网页类型识别方法和系统 | |
CN106776672A (zh) | 技术发展脉络图确定方法 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN102929902A (zh) | 一种基于中文检索的分词方法及装置 | |
CN105183765A (zh) | 一种基于大数据的话题抽取方法 | |
CN112905800A (zh) | 基于公众人物舆情知识图谱和XGBoost多特征融合情感预警方法 | |
CN104346382B (zh) | 使用语言查询的文本分析系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220425 Address after: 213000 room 1505, No. 9-1, Taihu East Road, Xinbei District, Changzhou City, Jiangsu Province Patentee after: CHANGZHOU HUALONG NETWORK TECHNOLOGY CO.,LTD. Address before: Gehu Lake Road Wujin District 213164 Jiangsu city of Changzhou province No. 1 Patentee before: CHANGZHOU University |