CN109241273B - 一种新媒体环境下少数民族主题数据的抽取方法 - Google Patents
一种新媒体环境下少数民族主题数据的抽取方法 Download PDFInfo
- Publication number
- CN109241273B CN109241273B CN201810969312.1A CN201810969312A CN109241273B CN 109241273 B CN109241273 B CN 109241273B CN 201810969312 A CN201810969312 A CN 201810969312A CN 109241273 B CN109241273 B CN 109241273B
- Authority
- CN
- China
- Prior art keywords
- data
- words
- minority
- domain
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 238000013075 data extraction Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 30
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000006855 networking Effects 0.000 claims description 2
- 238000005065 mining Methods 0.000 abstract description 3
- 238000011160 research Methods 0.000 description 16
- 241000630665 Hada Species 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 235000013550 pizza Nutrition 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 1
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 241000152447 Hades Species 0.000 description 1
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 101100283966 Pectobacterium carotovorum subsp. carotovorum outN gene Proteins 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 235000013402 health food Nutrition 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种从新媒体平台获取数据、对少数民族主题数据进行抽取的方法,根据新媒体数据海量、非结构化、多主题等特点,采用LDA模型对预处理后的新媒体数据进行特征抽取、主题分析、隐含主题挖掘,然后利用少数民族领域知识构建KG,用领域KG引导少数民族主题数据的抽取。本发明在采用LDA模型和KG引导数据的抽取过程中,根据不同数据规模设定参数,从而进行算法的优化,实现准确、高效、可扩展的新媒体数据抽取。
Description
技术领域
本发明公开了一种从新媒体平台获取数据、对少数民族主题数据进行抽取的方法。涉及一种基于隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)新媒体数据进行隐含主题分析和特征抽取、并利用领域知识图谱(Knowledge Graph,KG)实现少数民族主题数据的抽取的方法。属于数据处理与知识发现领域。
背景技术
新媒体是相对于报刊、广播、电视等传统媒体而言的新的媒体形态,包括网络媒体、手机媒体和数字电视等,具有交互性与即时性、海量性与共享性、多媒体与超文本、个性化与社群化等特征。随着新媒体在信息传播中发挥日益重要的作用,网络媒体数据的处理与分析也受到国内外学者的高度关注。数据根据主要内容的区别进行划分,描述同一类内容的数据称为相同主题的数据,如旅游、娱乐、影视等主题。从海量、异构的网络媒体数据中获取特定主题的数据,并根据不同领域进行主题分析、内容筛选和信息过滤,是新媒体数据处理与知识发现的重要研究内容,也是决策支持、影响预测、知识库构建、舆情分析等工作的重要基础。
此外,随着我国文化战略的深入推进,围绕少数民族信息获取、分析与利用的课题研究不断增多,海量的新媒体数据包括大量有价值的少数民族主题数据,如微博平台中的少数民族旅游信息分享、少数民族间文化交流、少数民族热点问题、少数民族新闻事件等数据,可为少数民族主题的相关研究和开发丰富其数据来源。在新媒体环境下研究少数民族主题的数据抽取,针对少数民族政治、经济、文化等方面的实际问题,对海量新媒体数据的处理与分析,数据驱动的知识发现,以及数据密集型的少数民族地区舆情监控与管理政策制定、少数民族文化传播与遗产保护的研究和应用,具有重要意义。
数据抽取是从源数据中抽取目标数据的过程,公知的数据抽取研究成果众多,针对不同数据或不同应用而采用的数据抽取技术各有不同,例如,刘锦文等(<中国科学技术大学硕士论文>,2016)实现了基于无监督学习对新闻数据的中文人物社会关系抽取研究,吴自虎等(<辽宁大学硕士论文>,2017)提出了一种基于模板的网络舆情数据抽取方法,张雄等(<解放军信息工程大学硕士论文>,2017)针对网络文本数据提出基于深度融合卷积神经网络的关系抽取模型,姚晓鹏等(<计算机应用与软件>,2018)提出了一种全局模式下的深网数据抽取与挖掘方法,袁华等(<管理工程学报>,2018)提出了一种海量数据中热点话题及其特征词的抽取方法,实现从海量用户生成内容中分析“热点话题词”和“局部特征词”间的关系,阎开品等(<专利CN107436902A>,2017)提供了一种基于海量数据的数据抽取方法和系统,分别针对静态数据源和动态数据源,抽取得到对应的目标数据。这些方法针对各自的数据源和拟解决的问题都能较好地完成数据抽取任务,但并非通用技术,针对海量、非结构化、多主题的新媒体平台中少数民族主题数据的抽取也缺乏通用性。因此,本发明针对新媒体海量、非结构化、多主题等特征,基于LDA模型挖掘网络新媒体数据中的隐含主题,实现多主题分析,再利用数据特征词序列和知识图谱描述的实体及实体间的关联关系,能够更准确、全面地实现少数民族主题数据的抽取。
LDA模型是一种贝叶斯层次模型,公知的研究中,LDA模型在数据抽取、文本挖掘、社交网络和自然语言处理等领域广泛应用。例如,刘少鹏等(<计算机学报>,2015)使用LDA对海量的电影评论数据进行了定性和描述性的主题提取,刘冰玉等(<软件学报>,2017)研究海量的电商评论数据,实现了基于语义约束LDA的商品特征和情感词提取,赵科科等(<专利CN107885754A>,2018)提供一种基于LDA模型从交易数据中提取信用变量的方法和装置。以上研究成果利用LDA模型对海量数据进行处理,展现了LDA模型在主题分析、特征提取、文本挖掘等问题研究上的突出作用,在此基础上,本发明进一步在分析海量、非结构化、多主题的新媒体数据上发挥LDA模型的优势。
KG是一种表达实体、概念及其之间关系的语义网络,公知的研究中,KG被广泛用于个性化推荐、智能搜索、知识发现等领域。例如,陈德华等(<计算机研究与发展>,2017)提出一种临床领域时序KG的链接预测模型,高俊平等(<计算机学报>,2016)提出一种面向中文维基百科领域知识的演化的关系抽取方法,雷凯等(<专利CN108073711A>,2018)提出了一种基于KG的关系抽取方法,提取KG的路径与属性信息以挖掘潜在的语义信息。以上成果无论是医学研究还是数据关系的抽取,都充分展现了KG语义网络丰富的先验知识在现实应用中的作用,但同时针对不同应用来选取KG,也影响着问题研究的高效性与有效性,针对不同的应用场景、特定的研究领域,需要构建相应的KG,更全面、完备地涵盖所研究领域的知识与语义关系,从而提高数据抽取结果的准确性和高效性。
多民族特征,使得少数民族主题的相关研究成为重要的课题,但由于少数民族主题下数据源的有限性、知识的偏僻性、文化的差异性,使得跨学科研究的难度相对较大,而在当前研究的学科交叉成为众多课题的必然,如何利用新媒体中大量的数据作为依据,从中抽取有价值的数据,成为相关研究的基础。
因此,本发明针对新媒体少数民族主题数据的抽取问题,以新媒体平台的大规模数据和少数民族领域知识为基础,以从海量、非结构化、多主题的新媒体数据中抽取少数民族主题数据为目标,利用LDA模型从非结构化的数据中挖掘隐含的多主题信息、进行主题分析,并实现数据的特征抽取,再利用领域KG丰富的语义关系,解决海量的新媒体数据中抽取少数民族主题数据过程中遇到的专业性强、词源偏僻、词汇歧义的问题。综上,本发明给出了一种新媒体环境下少数民族主题数据的抽取方法,为大规模新媒体数据的处理、分析、预测和决策等应用奠定新的技术基础,也为特定领域新媒体数据抽取提供参考。
发明内容
为克服少数民族领域因词源生僻、专业性强、词语异义等情况造成的效率瓶颈问题,本发明提供一种从新媒体平台获取数据、基于LDA模型和KG对少数民族主题数据进行抽取的方法。该方法能针对海量、非结构化、多主题等新媒体数据的特点,实现准确、高效、可扩展的新媒体特定领域数据的抽取。
本方法分为三个步骤,第一步是数据预处理,获取所需新媒体数据,采用分词工具对数据内容进行分词处理,根据所研究少数民族领域增加领域词汇进行分词,并添加个性化停用词,简化数据预处理结果;第二步是新媒体数据的主题分析与特征抽取,利用LDA模型对预处理后的数据进行迭代处理,并进行主题分析、挖掘数据隐含的主题,得到每条数据的主题向量和所有主题的高频词向量,将数据所属主题的高频词向量与数据内容匹配,得到每条数据的特征词序列;第三步是基于KG的少数民族主题数据抽取,首先将少数民族领域知识构建领域KG,利用KG引导,即利用KG丰富的语义关系作为先验知识,以第二步中数据的特征词序列为依据进行匹配,筛选过滤出少数民族主题的数据,同时构建领域无关的噪声数据构成的KG,实现反向过滤,增加数据抽取的准确性。
本方法的步骤如下:
S1:数据预处理
S1.1:从社交网络或新闻网页上获取M条媒体数据I={I 1, I 2, …, I M },I i 表示第i条数据,0≤i≤M,I i 用一个三元组(id, T i , A i )表示,id为数据实例标识,T i 表示数据I i 的文字内容,A i ={A i,u , A i,p , A i,l , A i,v , A i,f , A i,q , A i,c , A i,r }表示附加信息,分别表示数据发布者A i,u 、发布时间A i,p 、发布地点A i,l 、发布源A i,v 、转发量A i,f 、点赞量A i,q 、评论数A i,c 和数据的读取时间A i,r ;
S1.2:少数民族领域知识Z=<term, attributes, addition>由领域专家给出,term为实体名,attributes为实体属性,addition为词条附加说明;
S1.3:获取停用词集Stop_words;
S1.4:采用分词工具对获取的媒体数据文字内容T i 进行分词处理,分词前先将Stop_words添加到分词工具默认停用词集中,将少数民族领域知识实体名term集添加到分词工具默认词汇集中,T i 的分词结果单独存到数据I i 末端,记为Seg_T i ;
S2:主题分析与特征抽取
S2.1:定义词典W={w 1, w 2, …, w S }存储数据包含的全部词汇,S为词典中的词汇总数,w i ≠w j (1≤i,j≤S,i≠j);
S2.2:定义数据I i 的主题向量Λ i =(λ 1,i, λ 2,i , …, λ K,i ),λ k,i 是I i 中词汇属于主题z k 的概率,0≤λ k,i ≤1,其中,主题z k 用高频词向量Δ k =((w 1, δ 1,k ), (w 2, δ 2,k ), …,))表示,S k 为z k 的总词数,δ t,k 是z k 总词汇中的词w t 的概率,0≤δ t,k ≤1。δ t,k 和λ k,i 分别由公式(1)(2)求得:
S2.3:采样主题与词汇;
S2.3.1:给定迭代次数N iter ,N iter ≥1,主题总数K,K≥1,参数α,β,κ,0<α,β<1,κ≥1;
S2.3.2:对每个主题z k ,采样主题中词汇的概率分布φ k ~Dir(β);
S2.3.3:对数据I i ,采样数据的主题概率分布θ i ~Dir(α),对数据的Seg_T i ,采样单词的主题,采样主题的词汇;统计主题z k 的词汇总数、数据I i 中包含主题z k 中词汇的数量;
S2.3.4:重复S2.3.3,迭代N iter 次直到每个词汇w i,j 的主题z i,j 达到收敛,此时每个词汇所属主题不再改变;
S2.4:获取主题z k 的高频词向量与数据I i 的主题向量;
S2.4.2:根据公式(1)计算得到每个主题z k 中词汇w t 的概率δ t,k ,按照δ t,k 降序排列,得到主题z k 的高频词向量Δ k =((w 1,δ 1,k ), (w 2,δ 2,k ), …, ()),0≤k≤K;
S2.4.3:根据公式(2)计算得到每条数据I i 中词汇属于主题z k 的概率λ k,i ,根据λ k,i 降序排列,得到数据I i 的主题向量Λ i =(λ 1,i, λ 2,i , …, λ K,i );
S2.5:获取数据特征词序列;
S2.5.1:读取数据I i 的主题向量Λ i 按λ k,i 降序,取top-κ个主题;
S2.5.2:将数据中Seg_T i 的词汇与以上top-κ个主题的高频词向量的Δ k 词汇进行映射匹配,两者词汇并集记录为d i =<w i,1 , w i,2 ,…, >,表示数据I i 的特征词序列;
S3:少数民族主题数据的抽取
S3.1:定义少数民族领域KG为G k =(V, E),其中V={v 1, v 2, …, v n }表示KG中实体对应节点的集合,E={e 1, e 2,…, e m }表示实体之间边的集合;任意一条边对应一个节点三元组e x =(v i , v j , label),节点v i 称为始点,节点v j 称为终点,label为始点与终点的关系标签;
S3.2:利用少数民族领域知识Z,构建领域KG,用G k 表示;
S3.2.1:首先,从领域专家获取少数民族领域知识Z=<term, attributes,addition>,依次取Z的元素实体名v i 与本领域名称v 0 表示为三元组(v 0 , v i , label),label取v i 的属性作为的关系标签;
S3.2.2:再依次建立每个元素v i 与v j 的三元组(v i , v j , label),此时label由节点的附加信息addition得到的关系标签,如v i 与v j 无关系,则相应的边也不存在,所有的三元组共同构成少数民族领域KG为G k ;
S3.3:对于领域无关的数据,称为噪声数据,这些数据不属于所研究领域、但在数据抽取过程影响领域数据抽取的准确性,为此,构建的无关领域KG,用¬G k 表示;
S3.3.1:先从领域专家获取少数民族无关领域的知识¬Z=<term, attributes,addition>,依次取¬Z的元素实体名v i 与本领域名称v 0 表示为三元组(v 0 , v i , label),label取v i 的属性作为的关系标签;
S3.3.2:再依次建立每个元素v i 与v j 的三元组(v i , v j , label),label由节点的附加信息addition得到的关系标签,如v i 与v j 无关系,则相应的边也不存在,所有的三元组共同构成无关领域KG为¬G k ;
S3.4:实现少数民族领域数据的抽取;
S3.4.1:给定判定参数τ,0≤τ≤1;
S3.4.2:对数据I i ,计算其特征词序列d i 的长度m i ,m i ≥0;
S3.4.3:对数据的d i 的每个词汇w i,j ,利用G k 节点间的关联(v x , v x+1, label)依次查找的节点的邻接点,统计数据I i 中词汇存在少数民族领域的词汇的个数,记为n,n≥0;
S3.4.4:同样对数据的d i 的每个词汇w i,j ,利用¬G k 节点间的关联(v x , v x+1, label)依次查找的节点的邻接点,统计数据I i 中词汇为领域无关的噪声数据的词汇个数,记为;
本发明通过以上的步骤可实现从新媒体环境下对少数民族主题数据的抽取,而为了数据抽取更加准确、高效,进一步对方法中的参数进行限定优化,在步骤S2.3.1中,迭代次数N iter 的给定关系到方法的效率与结果的准确性,迭代次数过少则结果中每个词汇w i,j 的主题z i,j 尚未收敛,主题特征词不准确,迭代次数过多,已经收敛后的迭代增加耗时,降低效率,本发明取,S为词典中的词汇总数,为向上取整数,将迭代次数与数据量直接联系,此外,参数α当K≤40时取值α=0.5,当K>40时取值α=20/K,而β取值0.01,κ取值,即随着主题数K增加,取数据top-κ个主题的高频词向量求数据的特征词序列也随着增加。另外,在步骤S3.4.1中,领域的判定参数τ的范围取0.05≤τ≤0.15,此时数据能够实现更准确的领域归属判定。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例:“新浪微博”藏族数据的抽取实例。
步骤一:预处理
首先从“新浪微博”平台获取微博数据,单条微博数据如表1所示。
表1 微博数据示例
为方便描述,在以下数据抽取的说明中将附加信息项A i 隐藏,于是获取的新浪微博数据,包含5条微博数据a1~a5,如表2所示。
表2 新浪微博数据
然后,对微博数据的文字部分T i 进行分词处理,选取分词工具,支持自定义词典和停用词,并引入藏族的领域知识Z={<西藏,地名,藏族聚集省>,<拉萨,城市名,西藏省会>,<贡嘎,地名,西藏南部>,<藏区,模糊地名,泛指藏族聚集地>,<藏民,人群统称,指藏族人>,<哈达,物名,藏族人礼仪丝织品>},将藏族领域的词汇添加到分词工具词典中,分词结果记作Seg_T i ,如表3所示。
表3 新浪微博数据分词结果
步骤二:主题分析与特征抽取
读取微博数据,根据词汇的出现顺序和不重复原则得到词典W={1:西藏,2:和平,3:解放,4:居住,5:藏民,6:古天乐,7:基金,8:捐资,9:援建,10:学校,11:藏区,12:哈达,13:假期,14:香格里拉,15:青海湖,16:拉萨,17:旅行,18:攻略,19:贡嘎,20:机场,21:公里}。
得到所有词汇所对应的主题分别为:
因此,微博数据a1内容的主题向量为(0.2143,0.75,0.0357)。同理可求得微博数据a2的主题向量为(0.0357,0.2143,0.75),a3的主题向量为(0.0435,0.9130,0.0435),a4的主题向量为(0.9130,0.0435,0.0435),a5的主题向量为(0.9583,0.0208,0.0208)。
进一步按照降序排列,得到主题的高频词向量Δ 1=((“拉萨”, 0.2118),(“假期”, 0.1414), (“西藏”, 0.1414), (“旅行”, 0.0711) , (“攻略”, 0.0711), …)。同理可得主题的高频词向量为Δ 2=((“学校”, 0.2182), (“藏民”, 0.2182), (“和平”,0.1097), (“哈达”, 0.1097) , (“解放”, 0.1097), …),主题的高频词向量为Δ 3=((“基金”, 0.2399), (“捐资”, 0.2399), (“援建”, 0.2399), (“古天乐”, 0.2399))。
取κ=1,即取每条微博数据的Seg_T i 与数据top-1个主题的高频词向量的词汇进行映射匹配,得到数据的特征词序列。以微博数据a1为例,其top-1主题为主题,则将主题的高频词向量Δ 2与a1的Seg_T i 的映射匹配,得d 1=<“和平”, “解放”, “居住”, “藏民”>,同理得到:
d 2=<“古天乐”, “基金”, “捐资”, “援建”>
d 3=<“藏区”, “学校”, “藏民”, “哈达”>
d 4=<“假期”, “香格里拉”, “青海湖”, “拉萨”>
d 5=<“旅行”, “攻略”, “假期”, “西藏”, “拉萨”, “贡嘎”, “机场”, “拉萨”,“公里”>
步骤三:少数民族的数据抽取
首先,由藏族领域知识Z={<西藏,地名,藏族聚集省>,<拉萨,城市名,西藏省会>,<贡嘎,地名,西藏南部>,<藏区,模糊地名,泛指藏族聚集地>,<藏民,人群统称,指藏族人>,<哈达,物名,藏族人礼仪丝织品>}构建领域KG。
依次取Z的元素实体名v i 与本领域名称v 0表示为三元组(v 0, v i , label),如(“藏族”,“西藏”,“地名”),再依次建立每个元素v i 与v j 的三元组(v i , v j , label),此时label由节点的附加信息得到,如(“西藏”,“拉萨”,“省会”),图形化表示结果如附图3所示。
同上,由“旅游”主题的领域无关知识¬Z={<云南,省名,旅游省份 >,<青海,省名,旅游省份>,<香格里拉,地名,云南旅游景点>,<青海湖,湖泊名,青海省旅游景点>}构建一个与藏族无关的“旅游”的KG为¬G k ,如附图4所示。
因此,微博数据a1在领域G k 的概率,在领域¬G k 的概率,由于p>τ且τ,则微博数据a1属于“藏族”领域数据,将a1加入抽取得到的藏族数据集D中。同理可得,a3和a5也属于“藏族”领域数据。对于a4,由于,,所以属于涉及到藏族地名的无关噪声数据。
“藏族”主题数据的抽取结果如表4所示。
表4 “藏族”主题数据抽取结果
附图说明
图1,本发明执行流程图。包括以下三个步骤:新媒体数据的预处理,主题分析与特征抽取,少数民族数据的抽取。
图2,LDA图模型。
图3,实施例中藏族领域知识图谱图形化示例。
图4,实施例中噪声数据对应知识图谱图形化示例。
Claims (3)
1.一种新媒体环境下少数民族主题数据的抽取方法,其特征在于包括以下步骤:
S1:数据预处理
S1.1:从社交网络或新闻网页上获取M条媒体数据I={I 1, I 2, …, I M },I i 表示第i条数据,0≤i≤M,I i 用一个三元组(id, T i , A i )表示,id为数据实例标识,T i 表示数据I i 的文字内容,A i ={A i,u , A i,p , A i,l , A i,v , A i,f , A i,q , A i,c , A i,r }表示附加信息,分别表示数据发布者A i,u 、发布时间A i,p 、发布地点A i,l 、发布源A i,v 、转发量A i,f 、点赞量A i,q 、评论数A i,c 和数据的读取时间A i,r ;
S1.2:少数民族领域知识Z=<term, attributes, addition>由领域专家给出,term为实体名,attributes为实体属性,addition为词条附加说明;
S1.3:获取停用词集Stop_words;
S1.4:采用分词工具对获取的媒体数据文字内容T i 进行分词处理,分词前先将Stop_ words添加到分词工具默认停用词集中,将少数民族领域知识实体名term集添加到分词工具默认词汇集中,T i 的分词结果单独存到数据I i 末端,记为Seg_T i ;
S2:主题分析与特征抽取
S2.1:定义词典W={w 1, w 2, …, w S }存储数据包含的全部词汇,S为词典中的词汇总数,w i ≠w j ,1≤i,j≤S,i≠j;
S2.2:定义数据I i 的主题向量Λ i =(λ 1,i, λ 2,i , …, λ K,i ),λ k,i 是I i 中词汇属于主题z k 的概率,0≤λ k,i ≤1,其中,主题z k 用高频词向量Δ k =((w 1,δ 1,k ), (w 2,δ 2,k ), …, ())表示,S k 为z k 的总词数,δ t,k 是z k 总词汇中的词w t 的概率,0≤δ t,k ≤1,δ t,k 和λ k,i 分别由公式(1)(2)求得:
S2.3:采样主题与词汇;
S2.3.1:给定迭代次数N iter ,N iter ≥1,主题总数K,K≥1,参数α,β,κ,0<α,β<1,κ≥1;
S2.3.2:对每个主题z k ,采样主题中词汇的概率分布φ k ~Dir(β),Dir(β)表示超参数为β的狄利克雷分布;
S2.3.3:对数据I i ,采样数据的主题概率分布θ i ~Dir(α),Dir(α)表示超参数为α的狄利克雷分布,对数据的Seg_T i ,采样单词的主题z i,j ~Mult(),采样主题的词汇w i,j ~Mult(),Mult()和Mult()分别表示参数为和的多项式分布;统计主题z k 的词汇总数、数据I i 中包含主题z k 中词汇的数量;
S2.3.4:重复S2.3.3,迭代N iter 次直到每个词汇w i,j 的主题z i,j 达到收敛,此时每个词汇所属主题不再改变;
S2.4:获取主题z k 的高频词向量与数据I i 的主题向量;
S2.4.2:根据公式(1)计算得到每个主题z k 中词汇w t 的概率δ t,k ,按照δ t,k 降序排列,得到主题z k 的高频词向量Δ k =((w 1,δ 1,k ), (w 2,δ 2,k ), …, ()),0≤k≤K;
S2.4.3:根据公式(2)计算得到每条数据I i 中词汇属于主题z k 的概率λ k,i ,根据λ k,i 降序排列,得到数据I i 的主题向量Λ i =(λ 1,i, λ 2,i , …, λ K,i );
S2.5:获取数据特征词序列;
S2.5.1:读取数据I i 的主题向量Λ i 按λ k,i 降序,取top-κ个主题;
S2.5.2:将数据中Seg_T i 的词汇与以上top-κ个主题的高频词向量的Δ k 词汇进行映射匹配,两者词汇并集记录为d i =<w i,1 ,w i,2 ,…, >,表示数据I i 的特征词序列;
S3:少数民族主题数据的抽取
S3.1:定义少数民族领域KG为G k =(V, E),其中V={v 1, v 2, …, v n }表示KG中实体对应节点的集合,E={e 1, e 2,…, e m }表示实体之间边的集合;任意一条边对应一个节点三元组e x =(v i , v j , label),节点v i 称为始点,节点v j 称为终点,label为始点与终点的关系标签;
S3.2:利用少数民族领域知识Z,构建领域KG,用G k 表示;
S3.2.1:首先,从领域专家获取少数民族领域知识Z=<term, attributes, addition>,依次取Z的元素实体名v i 与本领域名称v 0 表示为三元组(v 0 , v i , label),label取v i 的属性作为的关系标签;
S3.2.2:再依次建立每个元素v i 与v j 的三元组(v i , v j , label),此时label由节点的附加信息addition得到的关系标签,如v i 与v j 无关系,则相应的边也不存在,所有的三元组共同构成少数民族领域KG为G k ;
S3.3:对于领域无关的数据,称为噪声数据,这些数据不属于所研究领域、但在数据抽取过程影响领域数据抽取的准确性,为此,构建的无关领域KG,用¬G k 表示;
S3.3.1:先从领域专家获取少数民族无关领域的知识¬Z=<term, attributes,addition>,依次取¬Z的元素实体名v i 与本领域名称v 0 表示为三元组(v 0 , v i , label),label取v i 的属性作为的关系标签;
S3.3.2:再依次建立每个元素v i 与v j 的三元组(v i , v j , label),label由节点的附加信息addition得到的关系标签,如v i 与v j 无关系,则相应的边也不存在,所有的三元组共同构成无关领域KG为¬G k ;
S3.4:实现少数民族领域数据的抽取;
S3.4.1:给定判定参数τ,0≤τ≤1;
S3.4.2:对数据I i ,计算其特征词序列d i 的长度m i ,m i ≥0;
S3.4.3:对数据的d i 的每个词汇w i,j ,利用G k 节点间的关联(v x , v x+1, label)依次查找节点的邻接点,统计数据I i 中词汇存在少数民族领域的词汇的个数,记为n,n≥0;
S3.4.4:同样对数据的d i 的每个词汇w i,j ,利用¬G k 节点间的关联(v x , v x+1, label)依次查找节点的邻接点,统计数据I i 中词汇为领域无关的噪声数据的词汇个数,记为;
3.根据权利要求1所述的新媒体环境下少数民族主题数据的抽取方法,其特征在于,步骤S3.4.1中,判定参数τ的范围是0.05≤τ≤0.15。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810969312.1A CN109241273B (zh) | 2018-08-23 | 2018-08-23 | 一种新媒体环境下少数民族主题数据的抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810969312.1A CN109241273B (zh) | 2018-08-23 | 2018-08-23 | 一种新媒体环境下少数民族主题数据的抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109241273A CN109241273A (zh) | 2019-01-18 |
CN109241273B true CN109241273B (zh) | 2022-02-18 |
Family
ID=65069466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810969312.1A Active CN109241273B (zh) | 2018-08-23 | 2018-08-23 | 一种新媒体环境下少数民族主题数据的抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241273B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110013B (zh) * | 2019-05-10 | 2020-03-24 | 成都信息工程大学 | 一种基于时空属性的实体竞争关系数据挖掘方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577549A (zh) * | 2013-10-16 | 2014-02-12 | 复旦大学 | 一种基于微博标签的人群画像系统和方法 |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN104217038A (zh) * | 2014-09-30 | 2014-12-17 | 中国科学技术大学 | 一种针对财经新闻的知识网络构建方法 |
CN105653706A (zh) * | 2015-12-31 | 2016-06-08 | 北京理工大学 | 一种基于文献内容知识图谱的多层引文推荐方法 |
CN106156090A (zh) * | 2015-04-01 | 2016-11-23 | 上海宽文是风软件有限公司 | 一种基于知识图谱(Man-tree)的制造设计知识个性化推送方法 |
CN106909643A (zh) * | 2017-02-20 | 2017-06-30 | 同济大学 | 基于知识图谱的社交媒体大数据主题发现方法 |
CN106960025A (zh) * | 2017-03-19 | 2017-07-18 | 北京工业大学 | 一种基于领域知识图谱的个性化文献推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008106B (zh) * | 2013-02-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种获取热点话题的方法及装置 |
-
2018
- 2018-08-23 CN CN201810969312.1A patent/CN109241273B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577549A (zh) * | 2013-10-16 | 2014-02-12 | 复旦大学 | 一种基于微博标签的人群画像系统和方法 |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN104217038A (zh) * | 2014-09-30 | 2014-12-17 | 中国科学技术大学 | 一种针对财经新闻的知识网络构建方法 |
CN106156090A (zh) * | 2015-04-01 | 2016-11-23 | 上海宽文是风软件有限公司 | 一种基于知识图谱(Man-tree)的制造设计知识个性化推送方法 |
CN105653706A (zh) * | 2015-12-31 | 2016-06-08 | 北京理工大学 | 一种基于文献内容知识图谱的多层引文推荐方法 |
CN106909643A (zh) * | 2017-02-20 | 2017-06-30 | 同济大学 | 基于知识图谱的社交媒体大数据主题发现方法 |
CN106960025A (zh) * | 2017-03-19 | 2017-07-18 | 北京工业大学 | 一种基于领域知识图谱的个性化文献推荐方法 |
Non-Patent Citations (3)
Title |
---|
SeCo-LDA Mining Service Co-occurrence Topics for Recommendation;Zhenfeng Gao et al.;《2016 IEEE International Conference on Web Services》;20160901;25-32 * |
基于Topic Model的我国档案学主题结构与演化研究;董克 等;《信息资源管理学报》;20170726;第7卷(第3期);97-105 * |
民族志传播:一幅不十分完备的研究地图——基于中文文献的考察;郭建斌;《新闻大学》;20180415(第2期);1-17,149 * |
Also Published As
Publication number | Publication date |
---|---|
CN109241273A (zh) | 2019-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN104317801B (zh) | 一种面向大数据的数据清洗系统及方法 | |
CN111680173A (zh) | 统一检索跨媒体信息的cmr模型 | |
CN113158033A (zh) | 一种基于知识图谱偏好传播的协同推荐模型构建方法 | |
CN102819575B (zh) | 一种用于Web服务推荐的个性化搜索方法 | |
US20100205176A1 (en) | Discovering City Landmarks from Online Journals | |
CN113065003B (zh) | 一种基于多指标的知识图谱生成方法 | |
CN105550190A (zh) | 面向知识图谱的跨媒体检索系统 | |
CN110502640A (zh) | 一种基于建构的概念词义发展脉络的提取方法 | |
Wang et al. | A novel blockchain oracle implementation scheme based on application specific knowledge engines | |
Sheng et al. | Xi’an tourism destination image analysis via deep learning | |
Lee et al. | Mining tourists’ destinations and preferences through LSTM-based text classification and spatial clustering using Flickr data | |
CN106354844A (zh) | 基于文本挖掘的服务组合包推荐系统及方法 | |
Wu et al. | Towards semantic web of things: from manual to semi-automatic semantic annotation on web of things | |
CN109241273B (zh) | 一种新媒体环境下少数民族主题数据的抽取方法 | |
Song et al. | Topic modeling: Measuring scholarly impact using a topical lens | |
Omri et al. | Towards an efficient big data indexing approach under an uncertain environment | |
Ge et al. | A Novel Chinese Domain Ontology Construction Method for Petroleum Exploration Information. | |
Wen et al. | GCN-IA: User profile based on graph convolutional network with implicit association labels | |
Rani et al. | Efficient query clustering technique and context well-informed document clustering | |
CN112732845A (zh) | 一种基于端到端的大型知识图谱构建和存储方法和系统 | |
Yochum et al. | Tourist attraction recommendation based on knowledge graph | |
Vo | An integrated network embedding with reinforcement learning for explainable recommendation | |
KR20090072542A (ko) | 다중 온톨로지를 이용한 의미형 검색시스템 | |
Nogueira | A framework for automatic annotation of semantic trajectories |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |