CN104199974A

CN104199974A - 一种面向微博的动态主题检测与演变追踪方法

Info

Publication number: CN104199974A
Application number: CN201410488391.6A
Authority: CN
Inventors: 闫碧莹; 邓攀; 余雷; 赵鑫; 袁伟; 万安格
Original assignee: SINOPARADOFT (BEIJING) PARALLEL SOFTWARE Co Ltd
Current assignee: SINOPARADOFT (BEIJING) PARALLEL SOFTWARE Co Ltd
Priority date: 2013-09-22
Filing date: 2014-09-22
Publication date: 2014-12-10

Abstract

本发明提出一种面向微博的动态主题检测与演变追踪方法，属于智能信息处理技术领域。方法包括：步骤1，构建分布式爬虫，获取微博数据；步骤2，对微博数据进行预处理；步骤3，进行中文分词去除停用词，获取词集合VOC；步骤4，对各个时间区间的微博数据进行LDA聚类，提取潜在主题；步骤5，筛选出每个时间区间内的微博热门主题；步骤6，对全局时间的热门主题进行层次聚类，获取各主题之间的聚合和分化关系；步骤7，根据主题的聚合和分化关系，可视化主题演变过程。本发明以较低的时间复杂度挖掘出一个事件在不同时期的主题词分布和同一个主题在不同时期的细粒度主题，具有高效性、鲁棒性等优点，具有较大的实用价值。

Description

一种面向微博的动态主题检测与演变追踪方法

技术领域

本发明属于智能信息处理技术领域，具体涉及一种面向微博的动态主题检测与演变追踪方法。

背景技术

随着互联网上文本信息的爆炸性增长，人们越来越难以从海量文本信息中及时获得感兴趣的主题或事件信息。话题识别与追踪(Topic detecting and tracking,TDT)技术旨在依据事件对语言文本信息流进行组织，发展一系列能够满足以上用户需要的核心技术。话题追踪是TDT的子任务之一，话题追踪能够帮助人们把分散的信息有效地汇集并组织起来，从整体上了解一个话题的全部信息。而话题演化分析作为TDT的新的研究方向，意在话题追踪的基础上，发现话题中各个事件之间的关系以及话题演化的历程，把话题的来龙去脉清楚的展现给用户。

目前主题演变的主流方法是动态主题模型(Dynamic topic model，简称DTM)，这种方法的主要思想是当前时刻的模型参数后验作为下一时刻模型参数的条件分布引入模型，从全局上看，整个话题演化模型依然是图形模型，但在模型参数推导过程中比较困难。另外对全局的处理使得通过一次建模就可以得到所有时刻的话题表示，但不具有在线添加新文本的功能，对于新到达的文本只能重新离散、全局建模。

动态混合模型(Dynamic Mixture Model，简称DMM)与DTM相比，具有更强的时间假设。在DTM中每一个时间窗口内的文本顺序是可以相互交换的，而DMM中的文本是严格按照时间顺序先后到达的，每个时刻只到达一篇文本，从这个角度来说，DMM是在线的话题演化模型，DMM虽然一次性能够计算出同一个主题在不同时间的概率分布，但是存在如下问题：

1、三维矩阵空间过于占用内存。由于需要在每个时间段上求解主题分布，因此需要建立主题-时间-词三维矩阵，导致内存占用量大大增加。

2、对新来的文本不再使用，每当新来文本时，只能重新计算。

实际应用中对主题的检测以及主题演化趋势的分析都要求实时进行，其难点在于处理的文档数据量很大，文档数据类型复杂，包括新闻、论坛、博客等形式的文本。以上方法都基于特定的前提假设，只能对少量的实验数据进行一定的分析与挖掘，无法满足实际应用的需求。

发明内容

针对现有主题检测系统无法分析计算主题演化趋势的缺陷，本发明通过层次聚类实时计算不同时间段内主题之间的相似性关系，从而分析出主题随时间的演化趋势，并可绘制出主题演化趋势图，具体提出了一种面向微博的动态主题检测与演变追踪方法。具体步骤为：

步骤一、构建分布式爬虫，获取微博数据。

步骤二、对微博数据进行预处理。

预处理包括去噪和去重，具体指去除微博数据中文本字数小于长度阈值L的数据、重复的数据、广告内容、自动回复数据和网址数据，其中微博数据包括微博正文和评论中的数据。

步骤三、对所有微博数据进行中文分词，去除停用词，获取分词结果，构成词集合VOC。

步骤四、对各个时间区间的微博数据分别进行LDA聚类，提取潜在主题。

将一条微博数据，包括正文和评论，经过中文分词后构成的词集合视为一个文档，对每个时间区间内的所有文档建立文档-主题模型，提取主题，并得到每个文档对应到不同主题的概率和每个主题生成单词的概率。

步骤五、筛选出每个时间区间内的微博热门主题。

从步骤四得到的微博主题中对所有文档计算其在每个时间区间内的归属主题，并按照划分到主题下的文档数量进行排序，选取热门主题。

步骤六：根据LDA聚类结果对全局时间的热门主题进行层次聚类，并获取各热门主题之间的聚合和分化关系。

根据步骤四得到的主题在词集合VOC上的概率分布，合并步骤五得到的所有时间区间的热门主题，对热门主题在全局时间内进行层次聚类。进而通过层次聚类结果，计算各主题之间的分化和聚合情况。

步骤七：根据主题的聚合和分化关系，可视化主题演变过程。

本发明的优点和积极效果在于：

(1)一种面向微博的动态主题检测与演变追踪方法，该方法具有高效性、鲁棒性等优点，具有较大的实用价值。

(2)一种面向微博的动态主题检测与演变追踪方法，挖掘出同一个主题在不同时期的细粒度主题。

(3)一种面向微博的动态主题检测与演变追踪方法，以较低的时间复杂度挖掘出一个事件在不同时期的主题词分布。

说明书附图

图1是本发明的一种面向微博的动态主题检测与演变追踪方法的流程图。

图2是本发明中关于对数据进行预处理的步骤流程图。

图3是本发明中关于中文分词的流程图。

图4是本发明中关于层次聚类的流程图。

图5是本发明中选取的热门主题示意图。

图6是本发明中主题随时间的演化效果图。

具体实施方式

下面将结合附图和具体实施例对本发明作出进一步的详细说明。

本发明基于主题模型分别对不同时间的文档进行聚类，利用层次聚类技术对不同时间区间的主题进行层次聚类，构建主题之间的聚合、分化关系。将选取主题的热门程度以及影响力作为主题特性研究的切入点，并着重分析热门主题以及影响力高的主题的变化趋势。

专利200710062943.7和本发明类似，不同之处在于其后续求取不同时间点的相似度时，只根据相邻两个主题求取相似度，若主题中间消亡一段时间，后期再次出现，则无法捕捉，并且无法捕捉到主题的分化和聚合信息。

本发明是一种自动计算微博上主题演化趋势的方法，采集互联网文本信息，收集新浪微博的语料，并对其进行预处理；包括提取文本信息，过滤停用词及公式符号等。分时间段检测主题事件，通过在每个时间点离散计算主题分布，融合各个阶段的主题结果，进行层次聚类；通过层次聚类的方法把不同时间片的主题聚类，完成对主题的追踪和演变分析，根据层次聚类的结果，可视化主题演化图。

一种面向微博的动态主题检测与演变追踪方法，具体步骤如附图1所示：

步骤一、构建分布式爬虫，获取微博数据。

通过新浪API(Application Programming Interface)获取新浪微博数据，本发明选取一个月内的微博数据，每一条微博数据均包括微博正文和评论的数据。

步骤二、对微博数据进行预处理。

预处理包括去噪和去重；对微博数据分别通过如附图2所示的具体步骤实施：

步骤201：去除微博数据中文本字数小于长度阈值L的数据；

具体采用比较大小的程序自动过滤微博数据中文本长度小于长度阈值L的微博数据。长度阈值L值根据经验或具体领域视情况而定。本实施例优选5；

步骤202：去除重复的微博数据；

由于微博内有大量的重复性微博数据，利用Bloom filter算法或Simhash算法对微博数据中的重复数据进行过滤。

步骤203：去除微博数据中包含的广告内容；

设定广告词匹配规则库，去除微博数据中包含的广告数据，广告词匹配规则库中包含了一般常用的广告词；编写正则表达式用于匹配广告词匹配规则库中的任意词，正则表达式是根据具体模板而定的。

步骤204：去除基于网络特定回复模板的自动回复微博数据；

基于网络特定回复模板设定与网络自动回复内容匹配的正则表达式，去除微博数据中基于网络特定回复模板的自动回复微博数据。

步骤205：去除微博数据中的网址数据。设定匹配网址的正则表达式，去除微博数据中的网址数据。

步骤206：重复步骤201，再次计算微博数据中文本字数的长度，并去除不满足长度规则的微博数据，进行二次清洗。

具体过程如附图3所示：

步骤301：对微博数据进行中文分词同时去除停用词；调用中文分词器对微博数据进行分词，同时去除停用词；

步骤302：对微博数据中的英文词进行形态变换，转换到统一形式；

对步骤301处理之后的分词结果中包含的英文词进行形态变换，转换到统一形式；包括将时态统一为一般现在时，将语态统一为主动语态。

步骤303：计算每个词的文档频率df和词频tf；主要是对步骤302得到的分词结果中的每个词，计算其文档频率df和词频tf；

文档频率df：是指出现过该词的文件个数除以文件集中的文件总数；

词频tf：是指该词在文件中出现的次数除以该文件的总词语数。

步骤304：计算每个词的特征强度ft；针对步骤302得到的分词结果中的每个词，计算其特征强度ft，特征强度ft定义为：

ft = \log (\frac{tf}{idf + 1} + 1)

其中idf代表逆文档频率，是文档频率df的倒数；

步骤305：提取特征强度ft大于特征强度阈值T的词，构成词集合VOC。

根据步骤304计算所得的特征强度ft，筛选特征强度ft大于强度阈值T的词，将微博数据中所有的特征强度ft大于特征强度阈值T的词组成词集合VOC，特征强度阈值T根据具体适用场合而定。

步骤四：对各个时间区间的微博数据分别进行LDA聚类，提取潜在主题。

本实施例中将词集合VOC中的每一条微博数据设为一个文档d，对于任一时间区间period，其区间内所有文档d组成文档集合D；设每一个文档d均含有n个单词；单词序列设为＜w1,w2,...,wn＞，wi表示第i个单词。

对每个时间区间内的所有文档建立文档-主题模型，得到主题集合T并提取主题，得到每个文档对应到不同主题的概率和每个主题生成单词的概率。

所述的文档-主题模型选取基于Gibbs sampling的LDA话题模型，在每个时间区间内对当时的文档集合D进行聚类，挖掘到隐含的主题集合T设为＜t1,t2,...,tk＞。提取的主题为topic；本实施例选取k个topic，ti表示第i个topic。

通过LDA聚类得到的两个结果向量表示如下：

对任意文档d，对应到不同topic的概率为θ_d＜P_t1,P_t2,...,P_tk＞，其中，P_ti表示文档d对应第i个topic的概率。

对任何主题topic，生成不同单词的概率为其中，P_wi表示topic生成第i个单词的概率。

步骤五：筛选出每个时间区间内的微博热门主题；

具体计算步骤如下：

步骤501：对每个时间区间内的所有主题，计算其归属主题。

设置文档-主题关联强度阈值R，针对步骤四得到的微博主题中，对于文档d，若其对应到第i个topic的概率P_ti超过R，则文档d属于主题ti，一篇文档d可能同时归属于多个主题。

步骤502：对所有主题按照划分到其下的文档d的数量进行排序，取前N个主题作为热门主题。N根据所有主题下的文档数量分布而定，本发明N优选20，如附图5所示为20个热门主题的示意图。

前20个热门主题随时间的分布图如附图6所示，其中，横坐标表示时间，纵坐标表示LDA聚类后的主题热度。图中每条曲线对应一个热门主题。从图中可以看出各个主题从产生到消亡或其间有波动起伏的过程。

具体步骤如附图4所示：

步骤601：形成全局各个时间区间内的热门主题。

根据步骤五得到的每个时间区间内的热门主题，合并所有时间区间的热门主题，形成全局各个时间区间内的热门主题。

步骤602：对各热门主题进行层次聚类，获得聚类结果。

提取步骤四得到的每个主题生成不同单词的概率分布抽取每个时间区间内各主题在词集合VOC上的概率分布；根据概率分布，对各热门主题在全局时间内所有的主题进行层次聚类，获得各热门主题在全局各个时间区间内所有主题的聚类结果。

步骤603：根据层次聚类结果，结合时间信息，获取热门主题的聚合和分化关系。

热门主题的聚合和分化关系如下：

若主题t1,t2分别为前后连续时间区间period1、period2内两个主题，且t1,t2属于同一类，则t2视为可能由主题t1演变而来；

若主题t1,t2为时间区间period1内两个主题，主题t3为时间区间period2内主题，period1、period2为前后连续时间区间，且t1,t2,t3属于同一类，则t3视为可能由主题t1,t2聚合而来；

若主题t1为时间区间period1内主题，主题t2,t3为时间区间period2内两个主题，period1、period2为前后连续时间区间，且t1,t2,t3属于同一类，则t2,t3视为可能由主题t1分化而来；

将得到主题的聚合和分化关系，以拓扑网络形式表达，从而体现追踪热门主题的演变过程。利用HTML5技术和d3.js数据可视化js库实现动态的主题聚合和分化，实现热门主题的演变追踪可视化。

实施例：采用以下算法进行层次聚类

Claims

1.一种面向微博的动态主题检测与演变追踪方法，其特征在于：包括如下步骤：

步骤一、构建分布式爬虫，获取微博数据；

步骤二、对微博数据进行预处理；

步骤三、对所有微博数据进行中文分词，去除停用词，获取分词结果，构成词集合VOC；

步骤四：对各个时间区间的微博数据分别进行LDA聚类，提取潜在主题；

将词集合VOC中的一条微博数据视为一个文档，对每个时间区间内的所有文档建立文档-主题模型，提取主题，并得到每个文档对应到不同主题的概率和每个主题生成单词的概率；

步骤五：筛选出每个时间区间内的微博热门主题；

步骤六：根据LDA聚类结果对全局时间的热门主题进行层次聚类，并获取各热门主题之间的聚合和分化关系；

根据步骤四得到的主题在词集合VOC上的概率分布，合并步骤五得到的所有时间区间的热门主题，对热门主题在全局时间内进行层次聚类；进而通过层次聚类结果获取各主题之间的分化和聚合关系；

2.根据权利要求1所述的一种面向微博的动态主题检测与演变追踪方法，其特征在于，所述的预处理包括去噪和去重，具体指去除微博数据中文本字数小于长度阈值L的数据、重复的数据、广告内容、自动回复数据和网址数据，其中微博数据包括微博正文和评论中的数据。

3.根据权利要求1所述的一种面向微博的动态主题检测与演变追踪方法，其特征在于，所述的步骤三具体包括：

步骤301：对微博数据进行中文分词，同时去除停用词；

步骤303：计算每个词的文档频率df和词频tf；

步骤304：计算每个词的特征强度ft，特征强度ft定义为：

ft = \log (\frac{tf}{idf + 1} + 1)

其中idf代表逆文档频率，是文档频率df的倒数；

步骤305：提取特征强度ft大于特征强度阈值T的词向量，构成词集合VOC。

4.根据权利要求1所述的一种面向微博的动态主题检测与演变追踪方法，其特征在于，所述的步骤五具体步骤如下：

步骤501：对每个时间区间内的所有主题，计算其归属主题；

设置文档-主题关联强度阈值R，针对步骤四得到的微博主题中，对于文档d，若其对应到第i个topic的概率P_ti超过R，则文档d属于主题ti，一篇文档d可同时归属于多个主题；

步骤502：对所有主题按照划分到其下的文档d的数量进行排序，取前N个主题作为热门主题。

5.根据权利要求1所述的一种面向微博的动态主题检测与演变追踪方法，其特征在于，所述的步骤六具体包括：

步骤601：形成全局各个时间区间内的热门主题；

根据每个时间区间内的热门主题，合并所有时间区间的热门主题，形成全局各个时间区间内的热门主题；

步骤602：对各热门主题进行层次聚类，获得聚类结果；

提取每个主题生成不同单词的概率分布抽取每个时间区间内各主题在词集合VOC上的概率分布；根据概率分布，对各热门主题在全局时间内所有的主题进行层次聚类，获得各热门主题在全局各个时间区间内所有主题的聚类结果；

步骤603：根据层次聚类结果，结合时间信息，获取主题的聚合和分化关系；

热门主题的聚合和分化关系如下：

若主题t1为时间区间period1内主题，主题t2,t3为时间区间period2内两个主题，period1、period2为前后连续时间区间，且t1,t2,t3属于同一类，则t2,t3视为可能由主题t1分化而来。