CN108717421A - 一种基于时空变化的社交媒体文本主题提取方法及系统 - Google Patents
一种基于时空变化的社交媒体文本主题提取方法及系统 Download PDFInfo
- Publication number
- CN108717421A CN108717421A CN201810364959.1A CN201810364959A CN108717421A CN 108717421 A CN108717421 A CN 108717421A CN 201810364959 A CN201810364959 A CN 201810364959A CN 108717421 A CN108717421 A CN 108717421A
- Authority
- CN
- China
- Prior art keywords
- social media
- time
- text
- space
- text subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于时空变化的社交媒体文本主题提取方法,其包括以下步骤:系统提取社交媒体数据的时间、位置、文本信息;构建基于时间变化信息的社交媒体文本主题;基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题。一种基于时空变化的社交媒体文本主题提取系统,其包括:信息获取模块、时间文本获取模块、空间文本获取模块。本方案将社交媒体数据的时间和空间特征与文本信息相结合,为基于社交媒体数据的文本主题提取提供了一种新的思路,广泛应用于社交媒体领域。
Description
技术领域
本发明涉及社交媒体文本提取领域,具体为基于时空变化的社交媒体文本主题提取方法及系统。
背景技术
“大数据”时代的到来,为人们深入理解居民活动空间和社会经济环境带来了新的机遇。近年来,随着脸谱(Facebook)、推特(Twitter)和微博(Micro Blog)等移动社交平台的兴起,其产生的社交媒体数据已逐渐成为探究居民活动特征和社会经济特征的重要数据来源。这类数据中,80%以上都为文本数据类型,也有很多数据带有其发布时的时间和位置信息。因此,对社交媒体数据进行文本挖掘,并结合位置属性分析,已成为当前研究的热点。
随着主题模型的提出与广泛应用,其已经被证明是文本挖掘和主题提取的一种非常有效的方式。现有技术研究较好的提取了社交媒体数据中的文本主题,但他们都仅仅应用到了社交媒体数据中的文本信息,忽略了其数据包含的时间和位置属性。
事实上,社交媒体数据所包含的时间和位置属性,能够很好的反映人们所处的活动空间和社会环境。例如,社交媒体数据中跟饮食相关的主题多集中于居民下班高峰期,具有显著的时间分布规律;科教相关的主题多分布于城市教育功能区,餐饮娱乐类主题多位于商业区,它们具有特定的空间分布特征。
现有社交媒体文本提取方法仅仅应用到了社交媒体数据中的文本信息,忽略了其数据包含的时间和位置属性。因此,有必要进行改进。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于时空变化的社交媒体文本主题提取方法及系统。
本发明所采用的技术方案是:
本发明提供一种基于时空变化的社交媒体文本主题提取方法,其包括以下步骤:
系统提取社交媒体数据的时间、位置、文本信息;
构建基于时间变化信息的社交媒体文本主题;
基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题。
作为该技术方案的改进,所述方法还包括文本预处理,其具体为:去除标点符号、将英文字母变为小写、去除停顿词、去除出现频率小于5的词语。
作为该技术方案的改进,所述方法还包括:
系统构建各时间间隔内的文本文档;
系统构建顾及时间变化的文本主题,并计算其分布概率;
系统对构建的文本主题的分布概率进行归一化处理。
进一步地,所述步骤提取基于空间位置信息的社交媒体文本主题,其包括:
系统基于路网数据,划分社交媒体数据位置所在的空间单元,并提取落入同一个空间单元的社交媒体数据集,构建每个空间单元的文本文档;
将带有时间变化信息的文本主题引入LDA主题模型,计算每个空间单元内文本主题的分布概率。
进一步地,所述社交媒体数据集包括:新浪微博数据集,Twitter数据集,Facebook数据集。
另一方面,本发明还提供一种基于时空变化的社交媒体文本主题提取系统,其包括:
信息获取模块,用于执行步骤系统提取社交媒体数据的时间、位置、文本信息;
时间文本获取模块,用于执行步骤构建基于时间变化信息的社交媒体文本主题;
空间文本获取模块,用于执行步骤基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题。
本发明的有益效果是:本发明提供的基于时空变化的社交媒体文本主题提取方法及系统,首先,通过编写网络爬虫,获取社交媒体数据,并提取数据的时间信息、空间信息和文本信息;继而,引入潜在狄利克雷主题模型与归一化方法,构建基于时间变化信息的文本主题;最后,以路网为空间单元,构建文本文档,通过主题模型计算每个空间单元内带有时间变化信息的文本主题的分布概率。本方案将社交媒体数据的时间和空间特征与文本信息相结合,为基于社交媒体数据的文本主题提取提供了一种新的思路。
附图说明
下面结合附图对本发明的具体实施方式作进一步说明:
图1是本发明第一实施例的流程示意图;
图2为本发明第二实施例的不同主题数的混淆值;
图3为本发明第二实施例的文本主题的时间变化信息;
图4为本发明第二实施例的基于路网数据的空间单元划分;
图5a为本发明第二实施例的文本主题14的空间分布;
图5b为本发明第二实施例的文本主题23的空间分布。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明提供一种引入时空变化的社交媒体文本主题提取方法,包括如下步骤:
步骤A:社交媒体数据的时间、位置、文本信息提取。
通过编写网络爬虫,获取社交媒体数据。具体地,通过爬取社交媒体数据的发布时间,获取时间信息;通过爬取社交媒体数据发布的经度、纬度信息,获取位置信息;通过爬取社交媒体数据发布的文本,获取文本信息,并利用文本预处理的方法,去除文本信息中的噪音数据,保留有效的文本信息。其中,文本预处理方法包括:去除标点符号,将英文字母变为小写,去除停顿词,去除出现频率小于5的词语。
预处理后的社交媒体数据的部分时间、位置、文本信息,如表1所示:
表1
步骤B:基于时间变化信息的社交媒体文本主题构建。
首先,利用步骤A中提取的社交媒体数据的时间信息、文本信息,构建每个时间间隔内的文本文档。继而,引入潜在狄利克雷(Latent Dirichlet Allocation,LDA)主题模型,利用所构建的文本文档,构建顾及时间变化的文本主题,并计算其分布概率。最后,对构建的文本主题的概率进行归一化处理,其归一化后的分布概率即为文本主题的时间变化信息。
步骤B1:利用步骤A提取的时间信息、文本信息,如以1小时作为时间间隔,构建时间间隔t的文本文档dt,其公式如下:
其中,D为所有文本文档dt的集合,t∈[1,24]为工作日的时间间隔,t∈[25,48]为非工作日的时间间隔。
步骤B2:利用步骤B1所得文本文档dt,引入LDA主题模型,计算每个时间间隔t内的主题及主题分布,其公式如下:
其中,z为模型计算所得主题,为文本文档dt内的社交媒体文本信息,n为文本文档dt内所有文本信息的数量。α,β为模型的超参数,依据经验定义α=50/k,β=0.1,k为社交媒体文本主题的数量,由以下公式计算所得:
选取最小的P(D)的值所对应的主题数量。除此以外,Θ为文本主题在在每个文本文档dt内的分布概率。
实施例中,本方案分别计算了文本主题数为k∈[2,20,30,40……100]时,所对应的perplexity的值(混淆值),如图2所示。当k=2时,perplexity的值相对较高,k增长至30时,混淆值骤降,k继续增长到100时,perplexity混淆值下降缓慢,无明显变化。因此,本实施例选择k=30作为文本主题数。
计算所得部分文本主题如表2所示:
表2
步骤B3:对构建的文本主题的概率进行归一化处理,其归一化后的分布概率即为文本主题的时间变化信息。
由步骤B得文本主题分布概率Θ,其矩阵定义如下:(此公式需补充mathtype格式)
其中,矩阵的每一行表示每一个时间间隔内各个文本主题的分布概率,每一列表示每个主题在各个时间间隔内的分布概率。例如,Pt,i表示主题zi在时间间隔t内分布的概率。由此得到主题z的时间变化信息
继而,对每个主题在各时间间隔内的变化信息进行归一化处理,其公式如下:
其中,max(Θz)、min(Θz)分别表示主题z在各时间间隔内的最大分布概率和最小分布概率。
本实施例中,归一化所得30个文本主题的时间变化信息如图3所示。其中,横坐标表示48个时间间隔,纵坐标表示30个文本主题。图示的中的颜色越浅,表示某文本主题在某个时间间隔内的出现概率越高。由图3可得,不同文本主题的时间变化不尽相同。
步骤C:基于空间位置信息的社交媒体文本主题提取。首先,基于路网数据,划分社交媒体数据位置所在的空间单元,并提取落入同一个空间单元的社交媒体数据集,构建每个空间单元的文本文档。继而,将步骤B所得带有时间变化信息的文本主题引入LDA主题模型,计算每个空间单元内文本主题的分布概率,其分布概率即为社交媒体文本主题的空间变化信息。
其中,所述社交媒体数据集包括:新浪微博数据集,Twitter数据集,Facebook数据集。
步骤C1:利用路网数据,将研究区域划分为空间单元,取落入同一个空间单元的社交媒体数据,将同一个空间单元内的文本信息归类为同一个文本文档则所有空间单元内的文本文档为
本实施例中,引入Open Street Map的路网数据,提取其主要道路,划分空间单元。如图4所示,共得到305个空间单元,用来计算文本主题的空间分布。
步骤C2:将步骤B所得带有时间变化信息的文本主题引入LDA主题模型,利用公式(2),计算每个空间单元内带有时间变化信息的文本主题的分布概率,其矩阵定义如下:
其中,矩阵的每一行表示每一个空间单元内各个文本主题的分布概率,每一列表示每个主题在各个空间单元内的分布概率。Θp即为带有时间信息的文本主题在各空间单元的分布概率。
本实施例中,以文本主题14、23为例,其空间分布分别如图5a、图5b所示。图示中,空间单元的颜色越深,表示文本主题在该空间单元内的分布概率越大。
另一方面,本发明还提供一种基于时空变化的社交媒体文本主题提取系统,其包括:
信息获取模块,用于执行步骤系统提取社交媒体数据的时间、位置、文本信息;
时间文本获取模块,用于执行步骤构建基于时间变化信息的社交媒体文本主题;
空间文本获取模块,用于执行步骤基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题。
本发明提供的基于时空变化的社交媒体文本主题提取方法及系统,首先,通过编写网络爬虫,获取社交媒体数据,并提取数据的时间信息、空间信息和文本信息;继而,引入潜在狄利克雷主题模型与归一化方法,构建基于时间变化信息的文本主题;最后,以路网为空间单元,构建文本文档,通过主题模型计算每个空间单元内带有时间变化信息的文本主题的分布概率。本方案将社交媒体数据的时间和空间特征与文本信息相结合,为基于社交媒体数据的文本主题提取提供了一种新的思路。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (6)
1.一种基于时空变化的社交媒体文本主题提取方法,其特征在于,其包括以下步骤:
系统提取社交媒体数据的时间、位置、文本信息;
构建基于时间变化信息的社交媒体文本主题;
基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题。
2.根据权利要求1所述的基于时空变化的社交媒体文本主题提取方法,其特征在于,所述方法还包括文本预处理,其具体为:去除标点符号、将英文字母变为小写、去除停顿词、去除出现频率小于5的词语。
3.根据权利要求1所述的基于时空变化的社交媒体文本主题提取方法,其特征在于,所述方法还包括:
系统构建各时间间隔内的文本文档;
系统构建顾及时间变化的文本主题,并计算其分布概率;
系统对构建的文本主题的分布概率进行归一化处理。
4.根据权利要求1所述的基于时空变化的社交媒体文本主题提取方法,其特征在于,所述步骤提取基于空间位置信息的社交媒体文本主题,其包括:
系统基于路网数据,划分社交媒体数据位置所在的空间单元,并提取落入同一个空间单元的社交媒体数据集,构建每个空间单元的文本文档;
将带有时间变化信息的文本主题引入LDA主题模型,计算每个空间单元内文本主题的分布概率。
5.根据权利要求4所述的基于时空变化的社交媒体文本主题提取方法,其特征在于,所述社交媒体数据集包括:新浪微博数据集,Twitter数据集,Facebook数据集。
6.一种基于时空变化的社交媒体文本主题提取系统,其特征在于,其包括:
信息获取模块,用于执行步骤系统提取社交媒体数据的时间、位置、文本信息;
时间文本获取模块,用于执行步骤构建基于时间变化信息的社交媒体文本主题;
空间文本获取模块,用于执行步骤基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810364959.1A CN108717421B (zh) | 2018-04-23 | 2018-04-23 | 一种基于时空变化的社交媒体文本主题提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810364959.1A CN108717421B (zh) | 2018-04-23 | 2018-04-23 | 一种基于时空变化的社交媒体文本主题提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108717421A true CN108717421A (zh) | 2018-10-30 |
CN108717421B CN108717421B (zh) | 2023-01-24 |
Family
ID=63899336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810364959.1A Active CN108717421B (zh) | 2018-04-23 | 2018-04-23 | 一种基于时空变化的社交媒体文本主题提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108717421B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662960A (zh) * | 2012-03-08 | 2012-09-12 | 浙江大学 | 在线监督式主题建模及其演变分析的方法 |
US20130124437A1 (en) * | 2011-11-16 | 2013-05-16 | Marco Pennacchiotti | Social media user recommendation system and method |
CN103279479A (zh) * | 2013-04-19 | 2013-09-04 | 中国科学院计算技术研究所 | 一种面向微博客平台文本流的突发话题检测方法及系统 |
CN103390051A (zh) * | 2013-07-25 | 2013-11-13 | 南京邮电大学 | 一种基于微博数据的话题发现与追踪方法 |
CN103488769A (zh) * | 2013-09-27 | 2014-01-01 | 中国科学院自动化研究所 | 一种基于多媒体数据挖掘的地标信息检索方法 |
CN104199974A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种面向微博的动态主题检测与演变追踪方法 |
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
CN105354244A (zh) * | 2015-10-13 | 2016-02-24 | 广西师范学院 | 一种用于社交网络社区挖掘的时空lda模型 |
CN105740342A (zh) * | 2016-01-22 | 2016-07-06 | 天津中科智能识别产业技术研究院有限公司 | 一种基于社会关系主题模型的社交网络朋友推荐方法 |
US20160203523A1 (en) * | 2014-02-21 | 2016-07-14 | Lithium Technologies, Inc. | Domain generic large scale topic expertise and interest mining across multiple online social networks |
CN106909643A (zh) * | 2017-02-20 | 2017-06-30 | 同济大学 | 基于知识图谱的社交媒体大数据主题发现方法 |
CN106919680A (zh) * | 2017-02-28 | 2017-07-04 | 山东师范大学 | 一种利用poi数据进行地表覆盖分类的方法及系统 |
US20170235726A1 (en) * | 2016-02-12 | 2017-08-17 | Fujitsu Limited | Information identification and extraction |
-
2018
- 2018-04-23 CN CN201810364959.1A patent/CN108717421B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130124437A1 (en) * | 2011-11-16 | 2013-05-16 | Marco Pennacchiotti | Social media user recommendation system and method |
CN102662960A (zh) * | 2012-03-08 | 2012-09-12 | 浙江大学 | 在线监督式主题建模及其演变分析的方法 |
CN103279479A (zh) * | 2013-04-19 | 2013-09-04 | 中国科学院计算技术研究所 | 一种面向微博客平台文本流的突发话题检测方法及系统 |
CN103390051A (zh) * | 2013-07-25 | 2013-11-13 | 南京邮电大学 | 一种基于微博数据的话题发现与追踪方法 |
CN104199974A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种面向微博的动态主题检测与演变追踪方法 |
CN103488769A (zh) * | 2013-09-27 | 2014-01-01 | 中国科学院自动化研究所 | 一种基于多媒体数据挖掘的地标信息检索方法 |
US20160203523A1 (en) * | 2014-02-21 | 2016-07-14 | Lithium Technologies, Inc. | Domain generic large scale topic expertise and interest mining across multiple online social networks |
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
CN105354244A (zh) * | 2015-10-13 | 2016-02-24 | 广西师范学院 | 一种用于社交网络社区挖掘的时空lda模型 |
CN105740342A (zh) * | 2016-01-22 | 2016-07-06 | 天津中科智能识别产业技术研究院有限公司 | 一种基于社会关系主题模型的社交网络朋友推荐方法 |
US20170235726A1 (en) * | 2016-02-12 | 2017-08-17 | Fujitsu Limited | Information identification and extraction |
CN106909643A (zh) * | 2017-02-20 | 2017-06-30 | 同济大学 | 基于知识图谱的社交媒体大数据主题发现方法 |
CN106919680A (zh) * | 2017-02-28 | 2017-07-04 | 山东师范大学 | 一种利用poi数据进行地表覆盖分类的方法及系统 |
Non-Patent Citations (3)
Title |
---|
YU LIU等: "Microscopic and Macroscopic Spatio-Temporal Topic Models for Check-in Data", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 * |
尹兰等: "基于关键词图的社交话题抽取及情感极性判别", 《贵州师范大学学报(自然科学版)》 * |
陈元娟: "基于时空数据的用户社交链接预测研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108717421B (zh) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103984771B (zh) | 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法 | |
Kovacs-Gyori et al. | # London2012: Towards citizen-contributed urban planning through sentiment analysis of twitter data | |
CN103699626B (zh) | 一种微博用户个性化情感倾向分析方法及系统 | |
CN109255033A (zh) | 一种基于位置服务领域的知识图谱的推荐方法 | |
CN103778200B (zh) | 一种报文信息源抽取方法及其系统 | |
CN102073729A (zh) | 一种关系化知识共享平台及其实现方法 | |
CN103631874B (zh) | 社交平台的ugc标签类别确定方法和装置 | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
CN103455581A (zh) | 基于语义扩展的海量短文本信息过滤方法 | |
CN106547875A (zh) | 一种基于情感分析和标签的微博在线突发事件检测方法 | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN110298039B (zh) | 事件地的识别方法、系统、设备及计算机可读存储介质 | |
Hanifah et al. | Twitter information extraction for smart city | |
CN105279208A (zh) | 一种数据标示方法和管理系统 | |
CN106462933A (zh) | 使用内容结构来社交地连接用户 | |
CN103942233B (zh) | 目录型网页的介绍页识别方法及装置 | |
CN104166455A (zh) | 用于确定目标用户所对应的输入模型的方法与设备 | |
CN108717421A (zh) | 一种基于时空变化的社交媒体文本主题提取方法及系统 | |
CN103970865A (zh) | 基于种子词的微博文本层次主题发现方法及系统 | |
CN106777395A (zh) | 一种基于社区文本数据的话题发现系统 | |
CN111782970A (zh) | 一种数据分析方法和装置 | |
CN106920192A (zh) | 一种教育咨询管理系统 | |
Ma et al. | Keyword-based semantic analysis of microblog for public opinion study in online collective behaviors | |
CN109902148A (zh) | 一种通讯录联系人的企业名称自动补全的方法 | |
CN104657349A (zh) | 一种论坛帖子特征识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 10 / F, Jianyi building, 3 Zhenxing Road, Futian District, Shenzhen, Guangdong 518028 Patentee after: Shenzhen Urban Planning and Design Institute Co.,Ltd. Address before: 10 / F, Jianyi building, 3 Zhenxing Road, Futian District, Shenzhen, Guangdong 518028 Patentee before: URBAN PLANNING & DESIGN INSTITUTE OF SHENZHEN (UPDIS) |