Nothing Special   »   [go: up one dir, main page]

CN109241273B - 一种新媒体环境下少数民族主题数据的抽取方法 - Google Patents

一种新媒体环境下少数民族主题数据的抽取方法 Download PDF

Info

Publication number
CN109241273B
CN109241273B CN201810969312.1A CN201810969312A CN109241273B CN 109241273 B CN109241273 B CN 109241273B CN 201810969312 A CN201810969312 A CN 201810969312A CN 109241273 B CN109241273 B CN 109241273B
Authority
CN
China
Prior art keywords
data
words
minority
domain
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810969312.1A
Other languages
English (en)
Other versions
CN109241273A (zh
Inventor
岳昆
麻友
李维华
王笑一
郭建斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN201810969312.1A priority Critical patent/CN109241273B/zh
Publication of CN109241273A publication Critical patent/CN109241273A/zh
Application granted granted Critical
Publication of CN109241273B publication Critical patent/CN109241273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种从新媒体平台获取数据、对少数民族主题数据进行抽取的方法,根据新媒体数据海量、非结构化、多主题等特点,采用LDA模型对预处理后的新媒体数据进行特征抽取、主题分析、隐含主题挖掘,然后利用少数民族领域知识构建KG,用领域KG引导少数民族主题数据的抽取。本发明在采用LDA模型和KG引导数据的抽取过程中,根据不同数据规模设定参数,从而进行算法的优化,实现准确、高效、可扩展的新媒体数据抽取。

Description

一种新媒体环境下少数民族主题数据的抽取方法
技术领域
本发明公开了一种从新媒体平台获取数据、对少数民族主题数据进行抽取的方法。涉及一种基于隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)新媒体数据进行隐含主题分析和特征抽取、并利用领域知识图谱(Knowledge Graph,KG)实现少数民族主题数据的抽取的方法。属于数据处理与知识发现领域。
背景技术
新媒体是相对于报刊、广播、电视等传统媒体而言的新的媒体形态,包括网络媒体、手机媒体和数字电视等,具有交互性与即时性、海量性与共享性、多媒体与超文本、个性化与社群化等特征。随着新媒体在信息传播中发挥日益重要的作用,网络媒体数据的处理与分析也受到国内外学者的高度关注。数据根据主要内容的区别进行划分,描述同一类内容的数据称为相同主题的数据,如旅游、娱乐、影视等主题。从海量、异构的网络媒体数据中获取特定主题的数据,并根据不同领域进行主题分析、内容筛选和信息过滤,是新媒体数据处理与知识发现的重要研究内容,也是决策支持、影响预测、知识库构建、舆情分析等工作的重要基础。
此外,随着我国文化战略的深入推进,围绕少数民族信息获取、分析与利用的课题研究不断增多,海量的新媒体数据包括大量有价值的少数民族主题数据,如微博平台中的少数民族旅游信息分享、少数民族间文化交流、少数民族热点问题、少数民族新闻事件等数据,可为少数民族主题的相关研究和开发丰富其数据来源。在新媒体环境下研究少数民族主题的数据抽取,针对少数民族政治、经济、文化等方面的实际问题,对海量新媒体数据的处理与分析,数据驱动的知识发现,以及数据密集型的少数民族地区舆情监控与管理政策制定、少数民族文化传播与遗产保护的研究和应用,具有重要意义。
数据抽取是从源数据中抽取目标数据的过程,公知的数据抽取研究成果众多,针对不同数据或不同应用而采用的数据抽取技术各有不同,例如,刘锦文等(<中国科学技术大学硕士论文>,2016)实现了基于无监督学习对新闻数据的中文人物社会关系抽取研究,吴自虎等(<辽宁大学硕士论文>,2017)提出了一种基于模板的网络舆情数据抽取方法,张雄等(<解放军信息工程大学硕士论文>,2017)针对网络文本数据提出基于深度融合卷积神经网络的关系抽取模型,姚晓鹏等(<计算机应用与软件>,2018)提出了一种全局模式下的深网数据抽取与挖掘方法,袁华等(<管理工程学报>,2018)提出了一种海量数据中热点话题及其特征词的抽取方法,实现从海量用户生成内容中分析“热点话题词”和“局部特征词”间的关系,阎开品等(<专利CN107436902A>,2017)提供了一种基于海量数据的数据抽取方法和系统,分别针对静态数据源和动态数据源,抽取得到对应的目标数据。这些方法针对各自的数据源和拟解决的问题都能较好地完成数据抽取任务,但并非通用技术,针对海量、非结构化、多主题的新媒体平台中少数民族主题数据的抽取也缺乏通用性。因此,本发明针对新媒体海量、非结构化、多主题等特征,基于LDA模型挖掘网络新媒体数据中的隐含主题,实现多主题分析,再利用数据特征词序列和知识图谱描述的实体及实体间的关联关系,能够更准确、全面地实现少数民族主题数据的抽取。
LDA模型是一种贝叶斯层次模型,公知的研究中,LDA模型在数据抽取、文本挖掘、社交网络和自然语言处理等领域广泛应用。例如,刘少鹏等(<计算机学报>,2015)使用LDA对海量的电影评论数据进行了定性和描述性的主题提取,刘冰玉等(<软件学报>,2017)研究海量的电商评论数据,实现了基于语义约束LDA的商品特征和情感词提取,赵科科等(<专利CN107885754A>,2018)提供一种基于LDA模型从交易数据中提取信用变量的方法和装置。以上研究成果利用LDA模型对海量数据进行处理,展现了LDA模型在主题分析、特征提取、文本挖掘等问题研究上的突出作用,在此基础上,本发明进一步在分析海量、非结构化、多主题的新媒体数据上发挥LDA模型的优势。
KG是一种表达实体、概念及其之间关系的语义网络,公知的研究中,KG被广泛用于个性化推荐、智能搜索、知识发现等领域。例如,陈德华等(<计算机研究与发展>,2017)提出一种临床领域时序KG的链接预测模型,高俊平等(<计算机学报>,2016)提出一种面向中文维基百科领域知识的演化的关系抽取方法,雷凯等(<专利CN108073711A>,2018)提出了一种基于KG的关系抽取方法,提取KG的路径与属性信息以挖掘潜在的语义信息。以上成果无论是医学研究还是数据关系的抽取,都充分展现了KG语义网络丰富的先验知识在现实应用中的作用,但同时针对不同应用来选取KG,也影响着问题研究的高效性与有效性,针对不同的应用场景、特定的研究领域,需要构建相应的KG,更全面、完备地涵盖所研究领域的知识与语义关系,从而提高数据抽取结果的准确性和高效性。
多民族特征,使得少数民族主题的相关研究成为重要的课题,但由于少数民族主题下数据源的有限性、知识的偏僻性、文化的差异性,使得跨学科研究的难度相对较大,而在当前研究的学科交叉成为众多课题的必然,如何利用新媒体中大量的数据作为依据,从中抽取有价值的数据,成为相关研究的基础。
因此,本发明针对新媒体少数民族主题数据的抽取问题,以新媒体平台的大规模数据和少数民族领域知识为基础,以从海量、非结构化、多主题的新媒体数据中抽取少数民族主题数据为目标,利用LDA模型从非结构化的数据中挖掘隐含的多主题信息、进行主题分析,并实现数据的特征抽取,再利用领域KG丰富的语义关系,解决海量的新媒体数据中抽取少数民族主题数据过程中遇到的专业性强、词源偏僻、词汇歧义的问题。综上,本发明给出了一种新媒体环境下少数民族主题数据的抽取方法,为大规模新媒体数据的处理、分析、预测和决策等应用奠定新的技术基础,也为特定领域新媒体数据抽取提供参考。
发明内容
为克服少数民族领域因词源生僻、专业性强、词语异义等情况造成的效率瓶颈问题,本发明提供一种从新媒体平台获取数据、基于LDA模型和KG对少数民族主题数据进行抽取的方法。该方法能针对海量、非结构化、多主题等新媒体数据的特点,实现准确、高效、可扩展的新媒体特定领域数据的抽取。
本方法分为三个步骤,第一步是数据预处理,获取所需新媒体数据,采用分词工具对数据内容进行分词处理,根据所研究少数民族领域增加领域词汇进行分词,并添加个性化停用词,简化数据预处理结果;第二步是新媒体数据的主题分析与特征抽取,利用LDA模型对预处理后的数据进行迭代处理,并进行主题分析、挖掘数据隐含的主题,得到每条数据的主题向量和所有主题的高频词向量,将数据所属主题的高频词向量与数据内容匹配,得到每条数据的特征词序列;第三步是基于KG的少数民族主题数据抽取,首先将少数民族领域知识构建领域KG,利用KG引导,即利用KG丰富的语义关系作为先验知识,以第二步中数据的特征词序列为依据进行匹配,筛选过滤出少数民族主题的数据,同时构建领域无关的噪声数据构成的KG,实现反向过滤,增加数据抽取的准确性。
本方法的步骤如下:
S1:数据预处理
S1.1:从社交网络或新闻网页上获取M条媒体数据I={I 1, I 2, …, I M },I i 表示第i条数据,0≤iMI i 用一个三元组(id, T i , A i )表示,id为数据实例标识,T i 表示数据I i 的文字内容,A i ={A i,u , A i,p , A i,l , A i,v , A i,f , A i,q , A i,c , A i,r }表示附加信息,分别表示数据发布者A i,u 、发布时间A i,p 、发布地点A i,l 、发布源A i,v 、转发量A i,f 、点赞量A i,q 、评论数A i,c 和数据的读取时间A i,r
S1.2:少数民族领域知识Z=<term, attributes, addition>由领域专家给出,term为实体名,attributes为实体属性,addition为词条附加说明;
S1.3:获取停用词集Stop_words
S1.4:采用分词工具对获取的媒体数据文字内容T i 进行分词处理,分词前先将Stop_words添加到分词工具默认停用词集中,将少数民族领域知识实体名term集添加到分词工具默认词汇集中,T i 的分词结果单独存到数据I i 末端,记为Seg_T i
S2:主题分析与特征抽取
S2.1:定义词典W={w 1, w 2, …, w S }存储数据包含的全部词汇,S为词典中的词汇总数,w i w j (1≤i,jS,ij);
S2.2:定义数据I i 的主题向量Λ i =(λ 1,i, λ 2,i , …, λ K,i ),λ k,i I i 中词汇属于主题z k 的概率,0≤λ k,i ≤1,其中,主题z k 用高频词向量Δ k =((w 1, δ 1,k ), (w 2, δ 2,k ), …,
Figure DEST_PATH_IMAGE002
))表示,S k z k 的总词数,δ t,k z k 总词汇中的词w t 的概率,0≤δ t,k ≤1。δ t,k λ k,i 分别由公式(1)(2)求得:
Figure DEST_PATH_IMAGE004
(1)
Figure DEST_PATH_IMAGE006
(2)
其中,
Figure DEST_PATH_IMAGE008
表示主题z k 的词汇w t 的总数,
Figure DEST_PATH_IMAGE010
表示I i 中包含主题z k 中词汇的数量,S为词典中的词汇总数,K为主题总数;
S2.3:采样主题与词汇;
S2.3.1:给定迭代次数N iter N iter ≥1,主题总数KK≥1,参数αβκ,0<α,β<1,κ≥1;
S2.3.2:对每个主题z k ,采样主题中词汇的概率分布φ k ~Dir(β);
S2.3.3:对数据I i ,采样数据的主题概率分布θ i ~Dir(α),对数据的Seg_T i ,采样单词的主题
Figure DEST_PATH_IMAGE012
,采样主题的词汇
Figure DEST_PATH_IMAGE014
;统计主题z k 的词汇总数
Figure DEST_PATH_IMAGE016
、数据I i 中包含主题z k 中词汇的数量
Figure DEST_PATH_IMAGE018
S2.3.4:重复S2.3.3,迭代N iter 次直到每个词汇w i,j 的主题z i,j 达到收敛,此时每个词汇所属主题不再改变;
S2.4:获取主题z k 的高频词向量与数据I i 的主题向量;
S2.4.1:读取每条数据I i 的词汇w i,j 和对应的主题z i,j ,统计主题z i,j =z k 的词汇w i,j 总数
Figure DEST_PATH_IMAGE020
和数据I i z i,j =z k 中词汇w i,j 的数量
Figure DEST_PATH_IMAGE022
S2.4.2:根据公式(1)计算得到每个主题z k 中词汇w t 的概率δ t,k ,按照δ t,k 降序排列,得到主题z k 的高频词向量Δ k =((w 1,δ 1,k ), (w 2,δ 2,k ), …, (
Figure DEST_PATH_IMAGE024
)),0≤kK
S2.4.3:根据公式(2)计算得到每条数据I i 中词汇属于主题z k 的概率λ k,i ,根据λ k,i 降序排列,得到数据I i 的主题向量Λ i =(λ 1,i, λ 2,i , …, λ K,i );
S2.5:获取数据特征词序列;
S2.5.1:读取数据I i 的主题向量Λ i λ k,i 降序,取top-κ个主题;
S2.5.2:将数据中Seg_T i 的词汇与以上top-κ个主题的高频词向量的Δ k 词汇进行映射匹配,两者词汇并集记录为d i =<w i,1 , w i,2 ,…,
Figure DEST_PATH_IMAGE026
>,表示数据I i 的特征词序列;
S3:少数民族主题数据的抽取
S3.1:定义少数民族领域KG为G k =(V, E),其中V={v 1, v 2, …, v n }表示KG中实体对应节点的集合,E={e 1, e 2,…, e m }表示实体之间边的集合;任意一条边对应一个节点三元组e x =(v i , v j , label),节点v i 称为始点,节点v j 称为终点,label为始点与终点的关系标签;
S3.2:利用少数民族领域知识Z,构建领域KG,用G k 表示;
S3.2.1:首先,从领域专家获取少数民族领域知识Z=<term, attributes,addition>,依次取Z的元素实体名v i 与本领域名称v 0 表示为三元组(v 0 , v i , label),labelv i 的属性作为
Figure DEST_PATH_IMAGE028
的关系标签;
S3.2.2:再依次建立每个元素v i v j 的三元组(v i , v j , label),此时label由节点的附加信息addition得到
Figure DEST_PATH_IMAGE030
的关系标签,如v i v j 无关系,则相应的边也不存在,所有的三元组共同构成少数民族领域KG为G k
S3.3:对于领域无关的数据,称为噪声数据,这些数据不属于所研究领域、但在数据抽取过程影响领域数据抽取的准确性,为此,构建的无关领域KG,用¬G k 表示;
S3.3.1:先从领域专家获取少数民族无关领域的知识¬Z=<term, attributes,addition>,依次取¬Z的元素实体名v i 与本领域名称v 0 表示为三元组(v 0 , v i , label),labelv i 的属性作为
Figure DEST_PATH_IMAGE032
的关系标签;
S3.3.2:再依次建立每个元素v i v j 的三元组(v i , v j , label),label由节点的附加信息addition得到
Figure DEST_PATH_IMAGE034
的关系标签,如v i v j 无关系,则相应的边也不存在,所有的三元组共同构成无关领域KG为¬G k
S3.4:实现少数民族领域数据的抽取;
S3.4.1:给定判定参数τ,0≤τ≤1;
S3.4.2:对数据I i ,计算其特征词序列d i 的长度m i m i ≥0;
S3.4.3:对数据的d i 的每个词汇w i,j ,利用G k 节点间的关联(v x , v x+1, label)依次查找的节点的邻接点,统计数据I i 中词汇存在少数民族领域的词汇的个数,记为nn≥0;
S3.4.4:同样对数据的d i 的每个词汇w i,j ,利用¬G k 节点间的关联(v x , v x+1, label)依次查找的节点的邻接点,统计数据I i 中词汇为领域无关的噪声数据的词汇个数,记为
Figure DEST_PATH_IMAGE036
S3.4.5:计算数据I i 在领域G k 的概率
Figure DEST_PATH_IMAGE038
,数据I i 在领域¬G k 的概率
Figure DEST_PATH_IMAGE040
。如果p>τp<τ,则判别数据I i 为少数民族主题的数据,并将I i 加入到最终的少数民族数据集D中;
本发明通过以上的步骤可实现从新媒体环境下对少数民族主题数据的抽取,而为了数据抽取更加准确、高效,进一步对方法中的参数进行限定优化,在步骤S2.3.1中,迭代次数N iter 的给定关系到方法的效率与结果的准确性,迭代次数过少则结果中每个词汇w i,j 的主题z i,j 尚未收敛,主题特征词不准确,迭代次数过多,已经收敛后的迭代增加耗时,降低效率,本发明取
Figure DEST_PATH_IMAGE042
S为词典中的词汇总数,
Figure DEST_PATH_IMAGE044
为向上取整数,将迭代次数与数据量直接联系,此外,参数αK≤40时取值α=0.5,当K>40时取值α=20/K,而β取值0.01,κ取值
Figure DEST_PATH_IMAGE046
,即随着主题数K增加,取数据top-κ个主题的高频词向量求数据的特征词序列也随着增加。另外,在步骤S3.4.1中,领域的判定参数τ的范围取0.05≤τ≤0.15,此时数据能够实现更准确的领域归属判定。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例:“新浪微博”藏族数据的抽取实例。
步骤一:预处理
首先从“新浪微博”平台获取微博数据,单条微博数据如表1所示。
表1 微博数据示例
Figure DEST_PATH_IMAGE048
为方便描述,在以下数据抽取的说明中将附加信息项A i 隐藏,于是获取的新浪微博数据,包含5条微博数据a1~a5,如表2所示。
表2 新浪微博数据
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE052
然后,对微博数据的文字部分T i 进行分词处理,选取分词工具,支持自定义词典和停用词,并引入藏族的领域知识Z={<西藏,地名,藏族聚集省>,<拉萨,城市名,西藏省会>,<贡嘎,地名,西藏南部>,<藏区,模糊地名,泛指藏族聚集地>,<藏民,人群统称,指藏族人>,<哈达,物名,藏族人礼仪丝织品>},将藏族领域的词汇添加到分词工具词典中,分词结果记作Seg_T i ,如表3所示。
表3 新浪微博数据分词结果
Figure DEST_PATH_IMAGE054
步骤二:主题分析与特征抽取
读取微博数据,根据词汇的出现顺序和不重复原则得到词典W={1:西藏,2:和平,3:解放,4:居住,5:藏民,6:古天乐,7:基金,8:捐资,9:援建,10:学校,11:藏区,12:哈达,13:假期,14:香格里拉,15:青海湖,16:拉萨,17:旅行,18:攻略,19:贡嘎,20:机场,21:公里}。
给定迭代次数
Figure DEST_PATH_IMAGE056
,主题总数K=3,参数α=0.5,β=0.01,
Figure DEST_PATH_IMAGE058
。采样单词的主题
Figure DEST_PATH_IMAGE060
,采样主题的词汇
Figure DEST_PATH_IMAGE062
,迭代10次,使得单词都能分配到相应主题。
得到所有词汇所对应的主题分别为:
Figure DEST_PATH_IMAGE064
旅游:{假期,旅行,攻略,拉萨,机场,公里,香格里拉,青海湖,西藏,贡嘎}
Figure DEST_PATH_IMAGE066
文化:{和平,解放,居住,学校,哈达,藏区,藏民}
Figure DEST_PATH_IMAGE068
公益:{基金,捐资,援建,古天乐}
循环统计条微博数据的各个主体的总数
Figure DEST_PATH_IMAGE070
和各个主题的词汇总数
Figure DEST_PATH_IMAGE072
。以微博数据a1为例,计算
Figure DEST_PATH_IMAGE074
,有
Figure DEST_PATH_IMAGE076
Figure DEST_PATH_IMAGE078
Figure DEST_PATH_IMAGE080
,所以由公式(1)有:
Figure DEST_PATH_IMAGE082
Figure DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE086
因此,微博数据a1内容的主题向量为(0.2143,0.75,0.0357)。同理可求得微博数据a2的主题向量为(0.0357,0.2143,0.75),a3的主题向量为(0.0435,0.9130,0.0435),a4的主题向量为(0.9130,0.0435,0.0435),a5的主题向量为(0.9583,0.0208,0.0208)。
对于每个主题z k ,计算
Figure DEST_PATH_IMAGE088
,以主题
Figure 146664DEST_PATH_IMAGE064
为例,由词典W可知,t=1表示“西藏”,t=13表示“假期”,t=16表示“拉萨”,由公式(2)计算δ t,k 如下:
Figure DEST_PATH_IMAGE090
Figure DEST_PATH_IMAGE092
Figure DEST_PATH_IMAGE094
Figure DEST_PATH_IMAGE096
进一步按照
Figure DEST_PATH_IMAGE098
降序排列,得到主题
Figure 939170DEST_PATH_IMAGE064
的高频词向量Δ 1=((“拉萨”, 0.2118),(“假期”, 0.1414), (“西藏”, 0.1414), (“旅行”, 0.0711) , (“攻略”, 0.0711), …)。同理可得主题
Figure 781225DEST_PATH_IMAGE066
的高频词向量为Δ 2=((“学校”, 0.2182), (“藏民”, 0.2182), (“和平”,0.1097), (“哈达”, 0.1097) , (“解放”, 0.1097), …),主题
Figure 176434DEST_PATH_IMAGE068
的高频词向量为Δ 3=((“基金”, 0.2399), (“捐资”, 0.2399), (“援建”, 0.2399), (“古天乐”, 0.2399))。
取κ=1,即取每条微博数据的Seg_T i 与数据top-1个主题的高频词向量的词汇进行映射匹配,得到数据的特征词序列。以微博数据a1为例,其top-1主题为主题
Figure 990806DEST_PATH_IMAGE066
,则将主题
Figure 626318DEST_PATH_IMAGE066
的高频词向量Δ 2与a1的Seg_T i 的映射匹配,得d 1=<“和平”, “解放”, “居住”, “藏民”>,同理得到:
d 2=<“古天乐”, “基金”, “捐资”, “援建”>
d 3=<“藏区”, “学校”, “藏民”, “哈达”>
d 4=<“假期”, “香格里拉”, “青海湖”, “拉萨”>
d 5=<“旅行”, “攻略”, “假期”, “西藏”, “拉萨”, “贡嘎”, “机场”, “拉萨”,“公里”>
步骤三:少数民族的数据抽取
首先,由藏族领域知识Z={<西藏,地名,藏族聚集省>,<拉萨,城市名,西藏省会>,<贡嘎,地名,西藏南部>,<藏区,模糊地名,泛指藏族聚集地>,<藏民,人群统称,指藏族人>,<哈达,物名,藏族人礼仪丝织品>}构建领域KG。
依次取Z的元素实体名v i 与本领域名称v 0表示为三元组(v 0, v i , label),如(“藏族”,“西藏”,“地名”),再依次建立每个元素v i v j 的三元组(v i , v j , label),此时label由节点的附加信息得到,如(“西藏”,“拉萨”,“省会”),图形化表示结果如附图3所示。
同上,由“旅游”主题的领域无关知识¬Z={<云南,省名,旅游省份 >,<青海,省名,旅游省份>,<香格里拉,地名,云南旅游景点>,<青海湖,湖泊名,青海省旅游景点>}构建一个与藏族无关的“旅游”的KG为¬G k ,如附图4所示。
给定参数τ=0.1。对微博数据a1,求取词特征词序列d 1的长度m i =4,对d 1每个词汇分别从G k 中沿节点与边查找对应的词汇,统计得到
Figure DEST_PATH_IMAGE100
因此,微博数据a1在领域G k 的概率
Figure DEST_PATH_IMAGE102
,在领域¬G k 的概率
Figure DEST_PATH_IMAGE104
,由于p>ττ,则微博数据a1属于“藏族”领域数据,将a1加入抽取得到的藏族数据集D中。同理可得,a3和a5也属于“藏族”领域数据。对于a4,由于
Figure DEST_PATH_IMAGE106
Figure DEST_PATH_IMAGE108
,所以属于涉及到藏族地名的无关噪声数据。
“藏族”主题数据的抽取结果如表4所示。
表4 “藏族”主题数据抽取结果
Figure DEST_PATH_IMAGE110
附图说明
图1,本发明执行流程图。包括以下三个步骤:新媒体数据的预处理,主题分析与特征抽取,少数民族数据的抽取。
图2,LDA图模型。
图3,实施例中藏族领域知识图谱图形化示例。
图4,实施例中噪声数据对应知识图谱图形化示例。

Claims (3)

1.一种新媒体环境下少数民族主题数据的抽取方法,其特征在于包括以下步骤:
S1:数据预处理
S1.1:从社交网络或新闻网页上获取M条媒体数据I={I 1, I 2, …, I M },I i 表示第i条数据,0≤iMI i 用一个三元组(id, T i , A i )表示,id为数据实例标识,T i 表示数据I i 的文字内容,A i ={A i,u , A i,p , A i,l , A i,v , A i,f , A i,q , A i,c , A i,r }表示附加信息,分别表示数据发布者A i,u 、发布时间A i,p 、发布地点A i,l 、发布源A i,v 、转发量A i,f 、点赞量A i,q 、评论数A i,c 和数据的读取时间A i,r
S1.2:少数民族领域知识Z=<term, attributes, addition>由领域专家给出,term为实体名,attributes为实体属性,addition为词条附加说明;
S1.3:获取停用词集Stop_words
S1.4:采用分词工具对获取的媒体数据文字内容T i 进行分词处理,分词前先将Stop_ words添加到分词工具默认停用词集中,将少数民族领域知识实体名term集添加到分词工具默认词汇集中,T i 的分词结果单独存到数据I i 末端,记为Seg_T i
S2:主题分析与特征抽取
S2.1:定义词典W={w 1, w 2, …, w S }存储数据包含的全部词汇,S为词典中的词汇总数,w i w j ,1≤i,jS,ij
S2.2:定义数据I i 的主题向量Λ i =(λ 1,i, λ 2,i , …, λ K,i ),λ k,i I i 中词汇属于主题z k 的概率,0≤λ k,i ≤1,其中,主题z k 用高频词向量Δ k =((w 1,δ 1,k ), (w 2,δ 2,k ), …, (
Figure 294171DEST_PATH_IMAGE001
))表示,S k z k 的总词数,δ t,k z k 总词汇中的词w t 的概率,0≤δ t,k ≤1,δ t,k λ k,i 分别由公式(1)(2)求得:
Figure 837410DEST_PATH_IMAGE002
(1)
Figure 617147DEST_PATH_IMAGE003
(2)
其中,
Figure 74673DEST_PATH_IMAGE004
表示主题z k 的词汇w t 的总数,
Figure 889045DEST_PATH_IMAGE005
表示I i 中包含主题z k 中词汇的数量,S为词典中的词汇总数,K为主题总数,
Figure 524557DEST_PATH_IMAGE006
t维的狄利克雷分布的超参数,
Figure 791590DEST_PATH_IMAGE007
k维的狄利克雷分布的超参数;
S2.3:采样主题与词汇;
S2.3.1:给定迭代次数N iter N iter ≥1,主题总数KK≥1,参数αβκ,0<α,β<1,κ≥1;
S2.3.2:对每个主题z k ,采样主题中词汇的概率分布φ k ~Dir(β),Dir(β)表示超参数为β的狄利克雷分布;
S2.3.3:对数据I i ,采样数据的主题概率分布θ i ~Dir(α),Dir(α)表示超参数为α的狄利克雷分布,对数据的Seg_T i ,采样单词的主题z i,j ~Mult(
Figure 990490DEST_PATH_IMAGE008
),采样主题的词汇w i,j ~Mult(
Figure 721686DEST_PATH_IMAGE009
),Mult(
Figure 715050DEST_PATH_IMAGE008
)和Mult(
Figure 783893DEST_PATH_IMAGE009
)分别表示参数为
Figure 520905DEST_PATH_IMAGE008
Figure 106607DEST_PATH_IMAGE009
的多项式分布;统计主题z k 的词汇总数
Figure 536452DEST_PATH_IMAGE010
、数据I i 中包含主题z k 中词汇的数量
Figure 591127DEST_PATH_IMAGE011
S2.3.4:重复S2.3.3,迭代N iter 次直到每个词汇w i,j 的主题z i,j 达到收敛,此时每个词汇所属主题不再改变;
S2.4:获取主题z k 的高频词向量与数据I i 的主题向量;
S2.4.1:读取每条数据I i 的词汇w i,j 和对应的主题z i,j ,统计主题z i,j =z k 的词汇w i,j 总数
Figure 866250DEST_PATH_IMAGE012
和数据I i z i,j =z k 中词汇w i,j 的数量
Figure 509721DEST_PATH_IMAGE013
S2.4.2:根据公式(1)计算得到每个主题z k 中词汇w t 的概率δ t,k ,按照δ t,k 降序排列,得到主题z k 的高频词向量Δ k =((w 1,δ 1,k ), (w 2,δ 2,k ), …, (
Figure 907204DEST_PATH_IMAGE014
)),0≤kK
S2.4.3:根据公式(2)计算得到每条数据I i 中词汇属于主题z k 的概率λ k,i ,根据λ k,i 降序排列,得到数据I i 的主题向量Λ i =(λ 1,i, λ 2,i , …, λ K,i );
S2.5:获取数据特征词序列;
S2.5.1:读取数据I i 的主题向量Λ i λ k,i 降序,取top-κ个主题;
S2.5.2:将数据中Seg_T i 的词汇与以上top-κ个主题的高频词向量的Δ k 词汇进行映射匹配,两者词汇并集记录为d i =<w i,1 ,w i,2 ,…,
Figure 636126DEST_PATH_IMAGE015
>,表示数据I i 的特征词序列;
S3:少数民族主题数据的抽取
S3.1:定义少数民族领域KG为G k =(V, E),其中V={v 1, v 2, …, v n }表示KG中实体对应节点的集合,E={e 1, e 2,…, e m }表示实体之间边的集合;任意一条边对应一个节点三元组e x =(v i , v j , label),节点v i 称为始点,节点v j 称为终点,label为始点与终点的关系标签;
S3.2:利用少数民族领域知识Z,构建领域KG,用G k 表示;
S3.2.1:首先,从领域专家获取少数民族领域知识Z=<term, attributes, addition>,依次取Z的元素实体名v i 与本领域名称v 0 表示为三元组(v 0 , v i , label),labelv i 的属性作为
Figure 26525DEST_PATH_IMAGE016
的关系标签;
S3.2.2:再依次建立每个元素v i v j 的三元组(v i , v j , label),此时label由节点的附加信息addition得到
Figure 524502DEST_PATH_IMAGE017
的关系标签,如v i v j 无关系,则相应的边也不存在,所有的三元组共同构成少数民族领域KG为G k
S3.3:对于领域无关的数据,称为噪声数据,这些数据不属于所研究领域、但在数据抽取过程影响领域数据抽取的准确性,为此,构建的无关领域KG,用¬G k 表示;
S3.3.1:先从领域专家获取少数民族无关领域的知识¬Z=<term, attributes,addition>,依次取¬Z的元素实体名v i 与本领域名称v 0 表示为三元组(v 0 , v i , label),labelv i 的属性作为
Figure 296149DEST_PATH_IMAGE018
的关系标签;
S3.3.2:再依次建立每个元素v i v j 的三元组(v i , v j , label),label由节点的附加信息addition得到
Figure 309105DEST_PATH_IMAGE019
的关系标签,如v i v j 无关系,则相应的边也不存在,所有的三元组共同构成无关领域KG为¬G k
S3.4:实现少数民族领域数据的抽取;
S3.4.1:给定判定参数τ,0≤τ≤1;
S3.4.2:对数据I i ,计算其特征词序列d i 的长度m i m i ≥0;
S3.4.3:对数据的d i 的每个词汇w i,j ,利用G k 节点间的关联(v x , v x+1, label)依次查找节点的邻接点,统计数据I i 中词汇存在少数民族领域的词汇的个数,记为nn≥0;
S3.4.4:同样对数据的d i 的每个词汇w i,j ,利用¬G k 节点间的关联(v x , v x+1, label)依次查找节点的邻接点,统计数据I i 中词汇为领域无关的噪声数据的词汇个数,记为
Figure 191610DEST_PATH_IMAGE020
S3.4.5:计算数据I i 在领域G k 的概率
Figure 357143DEST_PATH_IMAGE022
,数据I i 在领域¬G k 的概率
Figure 299691DEST_PATH_IMAGE023
,如果p>τ
Figure 737626DEST_PATH_IMAGE024
<τ,则判别数据I i 为少数民族主题的数据,并将I i 加入到最终的少数民族数据集D中。
2.根据权利要求1所述的新媒体环境下少数民族主题数据的抽取方法,其特征在于,步骤S2.3.1中,各个参数取值
Figure 220560DEST_PATH_IMAGE025
Figure 693129DEST_PATH_IMAGE026
为向上取整数,当K≤40时取α=0.5,当K>40时α=20/K,而参数β=0.01,κ=
Figure 121093DEST_PATH_IMAGE027
3.根据权利要求1所述的新媒体环境下少数民族主题数据的抽取方法,其特征在于,步骤S3.4.1中,判定参数τ的范围是0.05≤τ≤0.15。
CN201810969312.1A 2018-08-23 2018-08-23 一种新媒体环境下少数民族主题数据的抽取方法 Active CN109241273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810969312.1A CN109241273B (zh) 2018-08-23 2018-08-23 一种新媒体环境下少数民族主题数据的抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810969312.1A CN109241273B (zh) 2018-08-23 2018-08-23 一种新媒体环境下少数民族主题数据的抽取方法

Publications (2)

Publication Number Publication Date
CN109241273A CN109241273A (zh) 2019-01-18
CN109241273B true CN109241273B (zh) 2022-02-18

Family

ID=65069466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810969312.1A Active CN109241273B (zh) 2018-08-23 2018-08-23 一种新媒体环境下少数民族主题数据的抽取方法

Country Status (1)

Country Link
CN (1) CN109241273B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110013B (zh) * 2019-05-10 2020-03-24 成都信息工程大学 一种基于时空属性的实体竞争关系数据挖掘方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像系统和方法
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN104217038A (zh) * 2014-09-30 2014-12-17 中国科学技术大学 一种针对财经新闻的知识网络构建方法
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN106156090A (zh) * 2015-04-01 2016-11-23 上海宽文是风软件有限公司 一种基于知识图谱(Man-tree)的制造设计知识个性化推送方法
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN106960025A (zh) * 2017-03-19 2017-07-18 北京工业大学 一种基于领域知识图谱的个性化文献推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008106B (zh) * 2013-02-25 2018-07-20 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像系统和方法
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN104217038A (zh) * 2014-09-30 2014-12-17 中国科学技术大学 一种针对财经新闻的知识网络构建方法
CN106156090A (zh) * 2015-04-01 2016-11-23 上海宽文是风软件有限公司 一种基于知识图谱(Man-tree)的制造设计知识个性化推送方法
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN106960025A (zh) * 2017-03-19 2017-07-18 北京工业大学 一种基于领域知识图谱的个性化文献推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SeCo-LDA Mining Service Co-occurrence Topics for Recommendation;Zhenfeng Gao et al.;《2016 IEEE International Conference on Web Services》;20160901;25-32 *
基于Topic Model的我国档案学主题结构与演化研究;董克 等;《信息资源管理学报》;20170726;第7卷(第3期);97-105 *
民族志传播:一幅不十分完备的研究地图——基于中文文献的考察;郭建斌;《新闻大学》;20180415(第2期);1-17,149 *

Also Published As

Publication number Publication date
CN109241273A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN104317801B (zh) 一种面向大数据的数据清洗系统及方法
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN113158033A (zh) 一种基于知识图谱偏好传播的协同推荐模型构建方法
CN102819575B (zh) 一种用于Web服务推荐的个性化搜索方法
US20100205176A1 (en) Discovering City Landmarks from Online Journals
CN113065003B (zh) 一种基于多指标的知识图谱生成方法
CN105550190A (zh) 面向知识图谱的跨媒体检索系统
CN110502640A (zh) 一种基于建构的概念词义发展脉络的提取方法
Wang et al. A novel blockchain oracle implementation scheme based on application specific knowledge engines
Sheng et al. Xi’an tourism destination image analysis via deep learning
Lee et al. Mining tourists’ destinations and preferences through LSTM-based text classification and spatial clustering using Flickr data
CN106354844A (zh) 基于文本挖掘的服务组合包推荐系统及方法
Wu et al. Towards semantic web of things: from manual to semi-automatic semantic annotation on web of things
CN109241273B (zh) 一种新媒体环境下少数民族主题数据的抽取方法
Song et al. Topic modeling: Measuring scholarly impact using a topical lens
Omri et al. Towards an efficient big data indexing approach under an uncertain environment
Ge et al. A Novel Chinese Domain Ontology Construction Method for Petroleum Exploration Information.
Wen et al. GCN-IA: User profile based on graph convolutional network with implicit association labels
Rani et al. Efficient query clustering technique and context well-informed document clustering
CN112732845A (zh) 一种基于端到端的大型知识图谱构建和存储方法和系统
Yochum et al. Tourist attraction recommendation based on knowledge graph
Vo An integrated network embedding with reinforcement learning for explainable recommendation
KR20090072542A (ko) 다중 온톨로지를 이용한 의미형 검색시스템
Nogueira A framework for automatic annotation of semantic trajectories

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
OL01 Intention to license declared
OL01 Intention to license declared