CN104199974A - 一种面向微博的动态主题检测与演变追踪方法 - Google Patents
一种面向微博的动态主题检测与演变追踪方法 Download PDFInfo
- Publication number
- CN104199974A CN104199974A CN201410488391.6A CN201410488391A CN104199974A CN 104199974 A CN104199974 A CN 104199974A CN 201410488391 A CN201410488391 A CN 201410488391A CN 104199974 A CN104199974 A CN 104199974A
- Authority
- CN
- China
- Prior art keywords
- theme
- microblogging
- data
- time interval
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种面向微博的动态主题检测与演变追踪方法,属于智能信息处理技术领域。方法包括:步骤1,构建分布式爬虫,获取微博数据;步骤2,对微博数据进行预处理;步骤3,进行中文分词去除停用词,获取词集合VOC;步骤4,对各个时间区间的微博数据进行LDA聚类,提取潜在主题;步骤5,筛选出每个时间区间内的微博热门主题;步骤6,对全局时间的热门主题进行层次聚类,获取各主题之间的聚合和分化关系;步骤7,根据主题的聚合和分化关系,可视化主题演变过程。本发明以较低的时间复杂度挖掘出一个事件在不同时期的主题词分布和同一个主题在不同时期的细粒度主题,具有高效性、鲁棒性等优点,具有较大的实用价值。
Description
技术领域
本发明属于智能信息处理技术领域,具体涉及一种面向微博的动态主题检测与演变追踪方法。
背景技术
随着互联网上文本信息的爆炸性增长,人们越来越难以从海量文本信息中及时获得感兴趣的主题或事件信息。话题识别与追踪(Topic detecting and tracking,TDT)技术旨在依据事件对语言文本信息流进行组织,发展一系列能够满足以上用户需要的核心技术。话题追踪是TDT的子任务之一,话题追踪能够帮助人们把分散的信息有效地汇集并组织起来,从整体上了解一个话题的全部信息。而话题演化分析作为TDT的新的研究方向,意在话题追踪的基础上,发现话题中各个事件之间的关系以及话题演化的历程,把话题的来龙去脉清楚的展现给用户。
目前主题演变的主流方法是动态主题模型(Dynamic topic model,简称DTM),这种方法的主要思想是当前时刻的模型参数后验作为下一时刻模型参数的条件分布引入模型,从全局上看,整个话题演化模型依然是图形模型,但在模型参数推导过程中比较困难。另外对全局的处理使得通过一次建模就可以得到所有时刻的话题表示,但不具有在线添加新文本的功能,对于新到达的文本只能重新离散、全局建模。
动态混合模型(Dynamic Mixture Model,简称DMM)与DTM相比,具有更强的时间假设。在DTM中每一个时间窗口内的文本顺序是可以相互交换的,而DMM中的文本是严格按照时间顺序先后到达的,每个时刻只到达一篇文本,从这个角度来说,DMM是在线的话题演化模型,DMM虽然一次性能够计算出同一个主题在不同时间的概率分布,但是存在如下问题:
1、三维矩阵空间过于占用内存。由于需要在每个时间段上求解主题分布,因此需要建立主题-时间-词三维矩阵,导致内存占用量大大增加。
2、对新来的文本不再使用,每当新来文本时,只能重新计算。
实际应用中对主题的检测以及主题演化趋势的分析都要求实时进行,其难点在于处理的文档数据量很大,文档数据类型复杂,包括新闻、论坛、博客等形式的文本。以上方法都基于特定的前提假设,只能对少量的实验数据进行一定的分析与挖掘,无法满足实际应用的需求。
发明内容
针对现有主题检测系统无法分析计算主题演化趋势的缺陷,本发明通过层次聚类实时计算不同时间段内主题之间的相似性关系,从而分析出主题随时间的演化趋势,并可绘制出主题演化趋势图,具体提出了一种面向微博的动态主题检测与演变追踪方法。具体步骤为:
步骤一、构建分布式爬虫,获取微博数据。
步骤二、对微博数据进行预处理。
预处理包括去噪和去重,具体指去除微博数据中文本字数小于长度阈值L的数据、重复的数据、广告内容、自动回复数据和网址数据,其中微博数据包括微博正文和评论中的数据。
步骤三、对所有微博数据进行中文分词,去除停用词,获取分词结果,构成词集合VOC。
步骤四、对各个时间区间的微博数据分别进行LDA聚类,提取潜在主题。
将一条微博数据,包括正文和评论,经过中文分词后构成的词集合视为一个文档,对每个时间区间内的所有文档建立文档-主题模型,提取主题,并得到每个文档对应到不同主题的概率和每个主题生成单词的概率。
步骤五、筛选出每个时间区间内的微博热门主题。
从步骤四得到的微博主题中对所有文档计算其在每个时间区间内的归属主题,并按照划分到主题下的文档数量进行排序,选取热门主题。
步骤六:根据LDA聚类结果对全局时间的热门主题进行层次聚类,并获取各热门主题之间的聚合和分化关系。
根据步骤四得到的主题在词集合VOC上的概率分布,合并步骤五得到的所有时间区间的热门主题,对热门主题在全局时间内进行层次聚类。进而通过层次聚类结果,计算各主题之间的分化和聚合情况。
步骤七:根据主题的聚合和分化关系,可视化主题演变过程。
本发明的优点和积极效果在于:
(1)一种面向微博的动态主题检测与演变追踪方法,该方法具有高效性、鲁棒性等优点,具有较大的实用价值。
(2)一种面向微博的动态主题检测与演变追踪方法,挖掘出同一个主题在不同时期的细粒度主题。
(3)一种面向微博的动态主题检测与演变追踪方法,以较低的时间复杂度挖掘出一个事件在不同时期的主题词分布。
说明书附图
图1是本发明的一种面向微博的动态主题检测与演变追踪方法的流程图。
图2是本发明中关于对数据进行预处理的步骤流程图。
图3是本发明中关于中文分词的流程图。
图4是本发明中关于层次聚类的流程图。
图5是本发明中选取的热门主题示意图。
图6是本发明中主题随时间的演化效果图。
具体实施方式
下面将结合附图和具体实施例对本发明作出进一步的详细说明。
本发明基于主题模型分别对不同时间的文档进行聚类,利用层次聚类技术对不同时间区间的主题进行层次聚类,构建主题之间的聚合、分化关系。将选取主题的热门程度以及影响力作为主题特性研究的切入点,并着重分析热门主题以及影响力高的主题的变化趋势。
专利200710062943.7和本发明类似,不同之处在于其后续求取不同时间点的相似度时,只根据相邻两个主题求取相似度,若主题中间消亡一段时间,后期再次出现,则无法捕捉,并且无法捕捉到主题的分化和聚合信息。
本发明是一种自动计算微博上主题演化趋势的方法,采集互联网文本信息,收集新浪微博的语料,并对其进行预处理;包括提取文本信息,过滤停用词及公式符号等。分时间段检测主题事件,通过在每个时间点离散计算主题分布,融合各个阶段的主题结果,进行层次聚类;通过层次聚类的方法把不同时间片的主题聚类,完成对主题的追踪和演变分析,根据层次聚类的结果,可视化主题演化图。
一种面向微博的动态主题检测与演变追踪方法,具体步骤如附图1所示:
步骤一、构建分布式爬虫,获取微博数据。
通过新浪API(Application Programming Interface)获取新浪微博数据,本发明选取一个月内的微博数据,每一条微博数据均包括微博正文和评论的数据。
步骤二、对微博数据进行预处理。
预处理包括去噪和去重;对微博数据分别通过如附图2所示的具体步骤实施:
步骤201:去除微博数据中文本字数小于长度阈值L的数据;
具体采用比较大小的程序自动过滤微博数据中文本长度小于长度阈值L的微博数据。长度阈值L值根据经验或具体领域视情况而定。本实施例优选5;
步骤202:去除重复的微博数据;
由于微博内有大量的重复性微博数据,利用Bloom filter算法或Simhash算法对微博数据中的重复数据进行过滤。
步骤203:去除微博数据中包含的广告内容;
设定广告词匹配规则库,去除微博数据中包含的广告数据,广告词匹配规则库中包含了一般常用的广告词;编写正则表达式用于匹配广告词匹配规则库中的任意词,正则表达式是根据具体模板而定的。
步骤204:去除基于网络特定回复模板的自动回复微博数据;
基于网络特定回复模板设定与网络自动回复内容匹配的正则表达式,去除微博数据中基于网络特定回复模板的自动回复微博数据。
步骤205:去除微博数据中的网址数据。设定匹配网址的正则表达式,去除微博数据中的网址数据。
步骤206:重复步骤201,再次计算微博数据中文本字数的长度,并去除不满足长度规则的微博数据,进行二次清洗。
步骤三、对所有微博数据进行中文分词,去除停用词,获取分词结果,构成词集合VOC。
具体过程如附图3所示:
步骤301:对微博数据进行中文分词同时去除停用词;调用中文分词器对微博数据进行分词,同时去除停用词;
步骤302:对微博数据中的英文词进行形态变换,转换到统一形式;
对步骤301处理之后的分词结果中包含的英文词进行形态变换,转换到统一形式;包括将时态统一为一般现在时,将语态统一为主动语态。
步骤303:计算每个词的文档频率df和词频tf;主要是对步骤302得到的分词结果中的每个词,计算其文档频率df和词频tf;
文档频率df:是指出现过该词的文件个数除以文件集中的文件总数;
词频tf:是指该词在文件中出现的次数除以该文件的总词语数。
步骤304:计算每个词的特征强度ft;针对步骤302得到的分词结果中的每个词,计算其特征强度ft,特征强度ft定义为:
其中idf代表逆文档频率,是文档频率df的倒数;
步骤305:提取特征强度ft大于特征强度阈值T的词,构成词集合VOC。
根据步骤304计算所得的特征强度ft,筛选特征强度ft大于强度阈值T的词,将微博数据中所有的特征强度ft大于特征强度阈值T的词组成词集合VOC,特征强度阈值T根据具体适用场合而定。
步骤四:对各个时间区间的微博数据分别进行LDA聚类,提取潜在主题。
本实施例中将词集合VOC中的每一条微博数据设为一个文档d,对于任一时间区间period,其区间内所有文档d组成文档集合D;设每一个文档d均含有n个单词;单词序列设为<w1,w2,...,wn>,wi表示第i个单词。
对每个时间区间内的所有文档建立文档-主题模型,得到主题集合T并提取主题,得到每个文档对应到不同主题的概率和每个主题生成单词的概率。
所述的文档-主题模型选取基于Gibbs sampling的LDA话题模型,在每个时间区间内对当时的文档集合D进行聚类,挖掘到隐含的主题集合T设为<t1,t2,...,tk>。提取的主题为topic;本实施例选取k个topic,ti表示第i个topic。
通过LDA聚类得到的两个结果向量表示如下:
对任意文档d,对应到不同topic的概率为θd<Pt1,Pt2,...,Ptk>,其中,Pti表示文档d对应第i个topic的概率。
对任何主题topic,生成不同单词的概率为其中,Pwi表示topic生成第i个单词的概率。
步骤五:筛选出每个时间区间内的微博热门主题;
具体计算步骤如下:
步骤501:对每个时间区间内的所有主题,计算其归属主题。
设置文档-主题关联强度阈值R,针对步骤四得到的微博主题中,对于文档d,若其对应到第i个topic的概率Pti超过R,则文档d属于主题ti,一篇文档d可能同时归属于多个主题。
步骤502:对所有主题按照划分到其下的文档d的数量进行排序,取前N个主题作为热门主题。N根据所有主题下的文档数量分布而定,本发明N优选20,如附图5所示为20个热门主题的示意图。
前20个热门主题随时间的分布图如附图6所示,其中,横坐标表示时间,纵坐标表示LDA聚类后的主题热度。图中每条曲线对应一个热门主题。从图中可以看出各个主题从产生到消亡或其间有波动起伏的过程。
步骤六:根据LDA聚类结果对全局时间的热门主题进行层次聚类,并获取各热门主题之间的聚合和分化关系。
具体步骤如附图4所示:
步骤601:形成全局各个时间区间内的热门主题。
根据步骤五得到的每个时间区间内的热门主题,合并所有时间区间的热门主题,形成全局各个时间区间内的热门主题。
步骤602:对各热门主题进行层次聚类,获得聚类结果。
提取步骤四得到的每个主题生成不同单词的概率分布抽取每个时间区间内各主题在词集合VOC上的概率分布;根据概率分布,对各热门主题在全局时间内所有的主题进行层次聚类,获得各热门主题在全局各个时间区间内所有主题的聚类结果。
步骤603:根据层次聚类结果,结合时间信息,获取热门主题的聚合和分化关系。
热门主题的聚合和分化关系如下:
若主题t1,t2分别为前后连续时间区间period1、period2内两个主题,且t1,t2属于同一类,则t2视为可能由主题t1演变而来;
若主题t1,t2为时间区间period1内两个主题,主题t3为时间区间period2内主题,period1、period2为前后连续时间区间,且t1,t2,t3属于同一类,则t3视为可能由主题t1,t2聚合而来;
若主题t1为时间区间period1内主题,主题t2,t3为时间区间period2内两个主题,period1、period2为前后连续时间区间,且t1,t2,t3属于同一类,则t2,t3视为可能由主题t1分化而来;
步骤七:根据主题的聚合和分化关系,可视化主题演变过程。
将得到主题的聚合和分化关系,以拓扑网络形式表达,从而体现追踪热门主题的演变过程。利用HTML5技术和d3.js数据可视化js库实现动态的主题聚合和分化,实现热门主题的演变追踪可视化。
实施例:采用以下算法进行层次聚类
Claims (5)
1.一种面向微博的动态主题检测与演变追踪方法,其特征在于:包括如下步骤:
步骤一、构建分布式爬虫,获取微博数据;
步骤二、对微博数据进行预处理;
步骤三、对所有微博数据进行中文分词,去除停用词,获取分词结果,构成词集合VOC;
步骤四:对各个时间区间的微博数据分别进行LDA聚类,提取潜在主题;
将词集合VOC中的一条微博数据视为一个文档,对每个时间区间内的所有文档建立文档-主题模型,提取主题,并得到每个文档对应到不同主题的概率和每个主题生成单词的概率;
步骤五:筛选出每个时间区间内的微博热门主题;
步骤六:根据LDA聚类结果对全局时间的热门主题进行层次聚类,并获取各热门主题之间的聚合和分化关系;
根据步骤四得到的主题在词集合VOC上的概率分布,合并步骤五得到的所有时间区间的热门主题,对热门主题在全局时间内进行层次聚类;进而通过层次聚类结果获取各主题之间的分化和聚合关系;
步骤七:根据主题的聚合和分化关系,可视化主题演变过程。
2.根据权利要求1所述的一种面向微博的动态主题检测与演变追踪方法,其特征在于,所述的预处理包括去噪和去重,具体指去除微博数据中文本字数小于长度阈值L的数据、重复的数据、广告内容、自动回复数据和网址数据,其中微博数据包括微博正文和评论中的数据。
3.根据权利要求1所述的一种面向微博的动态主题检测与演变追踪方法,其特征在于,所述的步骤三具体包括:
步骤301:对微博数据进行中文分词,同时去除停用词;
步骤302:对微博数据中的英文词进行形态变换,转换到统一形式;
步骤303:计算每个词的文档频率df和词频tf;
步骤304:计算每个词的特征强度ft,特征强度ft定义为:
其中idf代表逆文档频率,是文档频率df的倒数;
步骤305:提取特征强度ft大于特征强度阈值T的词向量,构成词集合VOC。
4.根据权利要求1所述的一种面向微博的动态主题检测与演变追踪方法,其特征在于,所述的步骤五具体步骤如下:
步骤501:对每个时间区间内的所有主题,计算其归属主题;
设置文档-主题关联强度阈值R,针对步骤四得到的微博主题中,对于文档d,若其对应到第i个topic的概率Pti超过R,则文档d属于主题ti,一篇文档d可同时归属于多个主题;
步骤502:对所有主题按照划分到其下的文档d的数量进行排序,取前N个主题作为热门主题。
5.根据权利要求1所述的一种面向微博的动态主题检测与演变追踪方法,其特征在于,所述的步骤六具体包括:
步骤601:形成全局各个时间区间内的热门主题;
根据每个时间区间内的热门主题,合并所有时间区间的热门主题,形成全局各个时间区间内的热门主题;
步骤602:对各热门主题进行层次聚类,获得聚类结果;
提取每个主题生成不同单词的概率分布抽取每个时间区间内各主题在词集合VOC上的概率分布;根据概率分布,对各热门主题在全局时间内所有的主题进行层次聚类,获得各热门主题在全局各个时间区间内所有主题的聚类结果;
步骤603:根据层次聚类结果,结合时间信息,获取主题的聚合和分化关系;
热门主题的聚合和分化关系如下:
若主题t1,t2分别为前后连续时间区间period1、period2内两个主题,且t1,t2属于同一类,则t2视为可能由主题t1演变而来;
若主题t1,t2为时间区间period1内两个主题,主题t3为时间区间period2内主题,period1、period2为前后连续时间区间,且t1,t2,t3属于同一类,则t3视为可能由主题t1,t2聚合而来;
若主题t1为时间区间period1内主题,主题t2,t3为时间区间period2内两个主题,period1、period2为前后连续时间区间,且t1,t2,t3属于同一类,则t2,t3视为可能由主题t1分化而来。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410488391.6A CN104199974A (zh) | 2013-09-22 | 2014-09-22 | 一种面向微博的动态主题检测与演变追踪方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310432003.8 | 2013-09-22 | ||
CN201310432003 | 2013-09-22 | ||
CN201410488391.6A CN104199974A (zh) | 2013-09-22 | 2014-09-22 | 一种面向微博的动态主题检测与演变追踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104199974A true CN104199974A (zh) | 2014-12-10 |
Family
ID=52085267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410488391.6A Pending CN104199974A (zh) | 2013-09-22 | 2014-09-22 | 一种面向微博的动态主题检测与演变追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104199974A (zh) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809751A (zh) * | 2015-04-30 | 2015-07-29 | 百度在线网络技术(北京)有限公司 | 生成事件组演化图的方法和装置 |
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
CN105389377A (zh) * | 2015-11-18 | 2016-03-09 | 清华大学 | 基于主题挖掘的事件团获取方法 |
CN105447067A (zh) * | 2014-09-30 | 2016-03-30 | 华东师范大学 | 一种社交媒体中热点微博数据的自适应取样方法 |
CN105550365A (zh) * | 2016-01-15 | 2016-05-04 | 中国科学院自动化研究所 | 一种基于文本主题模型的可视化分析系统 |
CN105608217A (zh) * | 2015-12-31 | 2016-05-25 | 中国科学院电子学研究所 | 一种基于遥感数据的热点主题展示方法 |
CN105787025A (zh) * | 2016-02-24 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 网络平台公共账号分类方法及装置 |
CN106484724A (zh) * | 2015-08-31 | 2017-03-08 | 富士通株式会社 | 信息处理装置和信息处理方法 |
CN106815310A (zh) * | 2016-12-20 | 2017-06-09 | 华南师范大学 | 一种对海量文档集的层次聚类方法及系统 |
CN106951554A (zh) * | 2017-03-29 | 2017-07-14 | 浙江大学 | 一种层次化新闻热点及其演化的挖掘与可视化方法 |
CN107133238A (zh) * | 2016-02-29 | 2017-09-05 | 阿里巴巴集团控股有限公司 | 一种文本信息聚类方法和文本信息聚类系统 |
CN107644089A (zh) * | 2017-09-26 | 2018-01-30 | 武大吉奥信息技术有限公司 | 一种基于网络媒体的热门事件提取方法 |
CN107908698A (zh) * | 2017-11-03 | 2018-04-13 | 广州索答信息科技有限公司 | 一种主题网络爬虫方法、电子设备、存储介质、系统 |
CN108052636A (zh) * | 2017-12-20 | 2018-05-18 | 北京工业大学 | 确定文本主题相关度的方法、装置及终端设备 |
CN108108353A (zh) * | 2017-12-19 | 2018-06-01 | 北京邮电大学 | 一种基于弹幕的视频语义标注方法、装置及电子设备 |
CN108241610A (zh) * | 2016-12-26 | 2018-07-03 | 上海神计信息系统工程有限公司 | 一种文本流的在线主题检测方法和系统 |
CN108717421A (zh) * | 2018-04-23 | 2018-10-30 | 深圳市城市规划设计研究院有限公司 | 一种基于时空变化的社交媒体文本主题提取方法及系统 |
CN109684480A (zh) * | 2018-12-30 | 2019-04-26 | 杭州翼兔网络科技有限公司 | 一种基于行业的聚类方法 |
CN109710936A (zh) * | 2018-12-27 | 2019-05-03 | 中电科大数据研究院有限公司 | 一种跨层级政府公文公告主题分析方法 |
CN109739988A (zh) * | 2018-12-30 | 2019-05-10 | 杭州翼兔网络科技有限公司 | 一种行业热度获取方法 |
CN109859808A (zh) * | 2018-07-25 | 2019-06-07 | 武汉心络科技有限公司 | 一种医疗数据采集方法及系统 |
CN109885760A (zh) * | 2019-01-22 | 2019-06-14 | 上海交通大学 | 基于用户兴趣的信息溯源方法和系统 |
CN110096704A (zh) * | 2019-04-29 | 2019-08-06 | 扬州大学 | 一种短文本流的动态主题发现算法 |
CN110222172A (zh) * | 2019-05-15 | 2019-09-10 | 北京邮电大学 | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 |
CN110428102A (zh) * | 2019-07-31 | 2019-11-08 | 杭州电子科技大学 | 基于hc-tc-lda的重大事件趋势预测方法 |
CN112380342A (zh) * | 2020-11-10 | 2021-02-19 | 福建亿榕信息技术有限公司 | 一种电力文档主题提取方法及设备 |
CN112597269A (zh) * | 2020-12-25 | 2021-04-02 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 流式数据事件文本专题及检测系统 |
US11244013B2 (en) | 2018-06-01 | 2022-02-08 | International Business Machines Corporation | Tracking the evolution of topic rankings from contextual data |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101571853A (zh) * | 2009-05-22 | 2009-11-04 | 哈尔滨工程大学 | 网络话题内容演化分析装置及分析方法 |
CN101980199A (zh) * | 2010-10-28 | 2011-02-23 | 北京交通大学 | 基于态势评估的网络热点话题发现方法及系统 |
US20130151531A1 (en) * | 2011-12-13 | 2013-06-13 | Xerox Corporation | Systems and methods for scalable topic detection in social media |
-
2014
- 2014-09-22 CN CN201410488391.6A patent/CN104199974A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101571853A (zh) * | 2009-05-22 | 2009-11-04 | 哈尔滨工程大学 | 网络话题内容演化分析装置及分析方法 |
CN101980199A (zh) * | 2010-10-28 | 2011-02-23 | 北京交通大学 | 基于态势评估的网络热点话题发现方法及系统 |
US20130151531A1 (en) * | 2011-12-13 | 2013-06-13 | Xerox Corporation | Systems and methods for scalable topic detection in social media |
Non-Patent Citations (2)
Title |
---|
崔凯: "基于LDA的主题演化研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张婷: "科学传播研究的可视化分析", 《中国博士学位论文全文数据库 经济与管理科学辑》 * |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447067A (zh) * | 2014-09-30 | 2016-03-30 | 华东师范大学 | 一种社交媒体中热点微博数据的自适应取样方法 |
CN104809751A (zh) * | 2015-04-30 | 2015-07-29 | 百度在线网络技术(北京)有限公司 | 生成事件组演化图的方法和装置 |
CN104809751B (zh) * | 2015-04-30 | 2017-11-24 | 百度在线网络技术(北京)有限公司 | 生成事件组演化图的方法和装置 |
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
CN106484724A (zh) * | 2015-08-31 | 2017-03-08 | 富士通株式会社 | 信息处理装置和信息处理方法 |
CN105389377A (zh) * | 2015-11-18 | 2016-03-09 | 清华大学 | 基于主题挖掘的事件团获取方法 |
CN105389377B (zh) * | 2015-11-18 | 2019-02-05 | 清华大学 | 基于主题挖掘的事件团获取方法 |
CN105608217A (zh) * | 2015-12-31 | 2016-05-25 | 中国科学院电子学研究所 | 一种基于遥感数据的热点主题展示方法 |
CN105608217B (zh) * | 2015-12-31 | 2019-03-26 | 中国科学院电子学研究所 | 一种基于遥感数据的热点主题展示方法 |
CN105550365A (zh) * | 2016-01-15 | 2016-05-04 | 中国科学院自动化研究所 | 一种基于文本主题模型的可视化分析系统 |
CN105787025B (zh) * | 2016-02-24 | 2021-07-09 | 腾讯科技(深圳)有限公司 | 网络平台公共账号分类方法及装置 |
CN105787025A (zh) * | 2016-02-24 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 网络平台公共账号分类方法及装置 |
CN107133238A (zh) * | 2016-02-29 | 2017-09-05 | 阿里巴巴集团控股有限公司 | 一种文本信息聚类方法和文本信息聚类系统 |
CN106815310B (zh) * | 2016-12-20 | 2020-04-21 | 华南师范大学 | 一种对海量文档集的层次聚类方法及系统 |
CN106815310A (zh) * | 2016-12-20 | 2017-06-09 | 华南师范大学 | 一种对海量文档集的层次聚类方法及系统 |
CN108241610A (zh) * | 2016-12-26 | 2018-07-03 | 上海神计信息系统工程有限公司 | 一种文本流的在线主题检测方法和系统 |
CN106951554B (zh) * | 2017-03-29 | 2021-04-20 | 浙江大学 | 一种层次化新闻热点及其演化的挖掘与可视化方法 |
CN106951554A (zh) * | 2017-03-29 | 2017-07-14 | 浙江大学 | 一种层次化新闻热点及其演化的挖掘与可视化方法 |
CN107644089A (zh) * | 2017-09-26 | 2018-01-30 | 武大吉奥信息技术有限公司 | 一种基于网络媒体的热门事件提取方法 |
CN107644089B (zh) * | 2017-09-26 | 2020-08-04 | 武大吉奥信息技术有限公司 | 一种基于网络媒体的热门事件提取方法 |
CN107908698A (zh) * | 2017-11-03 | 2018-04-13 | 广州索答信息科技有限公司 | 一种主题网络爬虫方法、电子设备、存储介质、系统 |
CN107908698B (zh) * | 2017-11-03 | 2021-04-13 | 广州索答信息科技有限公司 | 一种主题网络爬虫方法、电子设备、存储介质、系统 |
CN108108353B (zh) * | 2017-12-19 | 2020-11-10 | 北京邮电大学 | 一种基于弹幕的视频语义标注方法、装置及电子设备 |
CN108108353A (zh) * | 2017-12-19 | 2018-06-01 | 北京邮电大学 | 一种基于弹幕的视频语义标注方法、装置及电子设备 |
CN108052636B (zh) * | 2017-12-20 | 2022-02-25 | 北京工业大学 | 确定文本主题相关度的方法、装置及终端设备 |
CN108052636A (zh) * | 2017-12-20 | 2018-05-18 | 北京工业大学 | 确定文本主题相关度的方法、装置及终端设备 |
CN108717421A (zh) * | 2018-04-23 | 2018-10-30 | 深圳市城市规划设计研究院有限公司 | 一种基于时空变化的社交媒体文本主题提取方法及系统 |
US11244013B2 (en) | 2018-06-01 | 2022-02-08 | International Business Machines Corporation | Tracking the evolution of topic rankings from contextual data |
CN109859808A (zh) * | 2018-07-25 | 2019-06-07 | 武汉心络科技有限公司 | 一种医疗数据采集方法及系统 |
CN109710936A (zh) * | 2018-12-27 | 2019-05-03 | 中电科大数据研究院有限公司 | 一种跨层级政府公文公告主题分析方法 |
CN109739988A (zh) * | 2018-12-30 | 2019-05-10 | 杭州翼兔网络科技有限公司 | 一种行业热度获取方法 |
CN109684480B (zh) * | 2018-12-30 | 2021-01-05 | 北京人民在线网络有限公司 | 一种基于行业的聚类方法 |
CN109684480A (zh) * | 2018-12-30 | 2019-04-26 | 杭州翼兔网络科技有限公司 | 一种基于行业的聚类方法 |
CN109885760B (zh) * | 2019-01-22 | 2020-12-29 | 上海交通大学 | 基于用户兴趣的信息溯源方法和系统 |
CN109885760A (zh) * | 2019-01-22 | 2019-06-14 | 上海交通大学 | 基于用户兴趣的信息溯源方法和系统 |
CN110096704A (zh) * | 2019-04-29 | 2019-08-06 | 扬州大学 | 一种短文本流的动态主题发现算法 |
CN110096704B (zh) * | 2019-04-29 | 2023-05-05 | 扬州大学 | 一种短文本流的动态主题发现方法 |
CN110222172B (zh) * | 2019-05-15 | 2021-03-16 | 北京邮电大学 | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 |
CN110222172A (zh) * | 2019-05-15 | 2019-09-10 | 北京邮电大学 | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 |
CN110428102A (zh) * | 2019-07-31 | 2019-11-08 | 杭州电子科技大学 | 基于hc-tc-lda的重大事件趋势预测方法 |
CN110428102B (zh) * | 2019-07-31 | 2021-11-09 | 杭州电子科技大学 | 基于hc-tc-lda的重大事件趋势预测方法 |
CN112380342A (zh) * | 2020-11-10 | 2021-02-19 | 福建亿榕信息技术有限公司 | 一种电力文档主题提取方法及设备 |
CN112597269A (zh) * | 2020-12-25 | 2021-04-02 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 流式数据事件文本专题及检测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104199974A (zh) | 一种面向微博的动态主题检测与演变追踪方法 | |
Shi et al. | Event detection and identification of influential spreaders in social media data streams | |
CN102831193A (zh) | 基于分布式多级聚类的话题检测装置及方法 | |
CN103942340A (zh) | 一种基于文本挖掘的微博用户兴趣识别方法 | |
CN103793501B (zh) | 基于社交网络的主题社团发现方法 | |
CN103812872A (zh) | 一种基于混合狄利克雷过程的网络水军行为检测方法及系统 | |
CN104484343A (zh) | 一种对微博进行主题发现与追踪的方法 | |
CN104239539A (zh) | 一种基于多种信息融合的微博信息过滤方法 | |
CN104504024B (zh) | 基于微博内容的关键词挖掘方法及系统 | |
CN103617169A (zh) | 一种基于Hadoop的微博热点话题提取方法 | |
CN103530603A (zh) | 基于环路图模型的视频异常检测方法 | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
CN102662960A (zh) | 在线监督式主题建模及其演变分析的方法 | |
CN103793489A (zh) | 一种在线社交网络中社群话题的发现方法 | |
CN104536830A (zh) | 一种基于MapReduce的KNN文本分类方法 | |
CN103823792A (zh) | 从文本文档中检测热点事件的方法和设备 | |
CN109376231A (zh) | 一种媒体热点跟踪方法及系统 | |
CN105335368A (zh) | 一种产品聚类方法及装置 | |
Rao et al. | An optimal machine learning model based on selective reinforced Markov decision to predict web browsing patterns | |
Keyvanpour | A survey on community detection methods based on the nature of social networks | |
CN104199947A (zh) | 一种对重点人员言论监督与关联关系挖掘的方法 | |
CN104636324A (zh) | 话题溯源方法和系统 | |
CN105243095A (zh) | 一种基于微博文本的情绪分类方法及系统 | |
CN112765313A (zh) | 一种基于原文和评论信息分析算法的虚假信息检测方法 | |
CN103984731A (zh) | 微博环境下自适应话题追踪方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20141210 |