CN106909643A - 基于知识图谱的社交媒体大数据主题发现方法 - Google Patents
基于知识图谱的社交媒体大数据主题发现方法 Download PDFInfo
- Publication number
- CN106909643A CN106909643A CN201710089527.XA CN201710089527A CN106909643A CN 106909643 A CN106909643 A CN 106909643A CN 201710089527 A CN201710089527 A CN 201710089527A CN 106909643 A CN106909643 A CN 106909643A
- Authority
- CN
- China
- Prior art keywords
- semantic
- theme
- social media
- big data
- mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013507 mapping Methods 0.000 claims abstract description 41
- 238000005259 measurement Methods 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 claims abstract description 5
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000013138 pruning Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract description 4
- 230000003044 adaptive effect Effects 0.000 abstract description 3
- 230000036541 health Effects 0.000 abstract description 3
- 238000004821 distillation Methods 0.000 abstract 2
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000032683 aging Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001373 regressive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于知识图谱的社交媒体大数据主题发现方法,通过知识图谱概率化处理、社交媒体大数据语义相似度计算、主题的模糊密度聚类以及弱信息量主题过滤4个步骤来实现社交媒体大数据的主题发现。知识图谱概率化处理步骤完成知识图谱中三元组事实的置信度评估及其为真概率值的生成,社交媒体大数据语义相似度计算步骤实现每对文档的语义映射图构造以及基于近似图匹配策略评估文档间的语义相似度,主题的模糊密度聚类步骤获取社交媒体大数据的不同主题并自动确定主题的数量,而弱信息量主题过滤步骤删除语义强度不足的主题并将最优的主题列表返回给用户。与现有技术相比,本发明具有扩展性程度高、自适应能力强以及准确性高等优点,能够有效应用于社会公共安全、民众医疗健康、互联网深度信息服务和电子商务等领域。
Description
技术领域
本发明涉及一种主题发现方法,尤其是涉及一种基于知识图谱的社交媒体大数据主题发现方法。
背景技术
近年来,随着云计算、移动通信和社交网络等技术的迅猛发展,社交媒体平台中所包含的大数据,即社交媒体大数据,越发显现4“V”(Volume、Velocity、Variety、Veracity)特性。随着日积月累,社交媒体大数据,蕴含着丰富的社会信息,其中包含着大量重要社会事件线索信息的网络映射,而这些网络映射信息通常看似杂乱无章的。深度分析和挖掘社交媒体大数据,快速精准地发现其中所隐含的深层次主题,进而在现有被发现主题的基础上,有效预测社会事件未来发展的态势,是促进国家社会治安稳定和知识经济可持续发展的重要手段。
社交媒体环境下的主题建模与发现方法,国内外有很多成熟的研究和应用。LHong等人分别采用了LDA模型与“作者-主题”模型对Twitter数据进行主题建模,以此来预测流行的Twitter话题并对推文(tweet)进行主题分类。KW Lim等人提出TN(Twitter网络)主题模型,以一种完全非参贝叶斯的方式来联合模拟文本和社交网络。TN主题模型采用PDP(泊松-狄利克雷过程)进行文本建模,而使用高斯过程的随机函数来实现社交网络建模。MJPaul等人基于ATAM(Ailment Topic Aspect Model)和LDA主题模型设计了一个主题建模框架来发现Twitter上的健康主题。TH Nguyen等人提出了一种面向社交媒体的“主题-评论”特征来实现股票价格的预测,并提出新颖的主题模型TSLDA(Topic Sentiment LatentDirichlet Allocation)来高效融合主题和评论。W Zhao等人利用LDA模型检测纽约时报中代表性主题,但由于推文的短文本特性使得LDA模型不能很好地发现Twitter中有代表性的主题。为此,作者提出了一种基于推文的LDA模型(Twitter-LDA),然后使用文本挖掘技术对比Twitter和纽约时报的主题,并为进一步信息检索和数据挖掘的研究提供参考。
然而我们发现,社交媒体大数据有着许多自身的特点,包括时效性强、内容简短、碎片化程度高以及关联性强等。这些特点,使得现有技术存在如下两方面的缺陷,主要表现在:(1)现有技术大都基于PLSI(Probabilistic Latent Semantic Indexing)、LDA(LatentDirichlet Allocation)等主题模型(概率图模型)来实现主题发现。由于社交媒体大数据具有内容简短、碎片化程度高等特点,使得这些方法在捕获数据语义信息、自动确定主题数量以及过滤弱信息量主题等方面存在明显的缺陷,从而严重影响所发现主题的质量。(2)现有技术大都只注重结果的准确程度,然而社交媒体大数据的强时效性需要现有方法在准确率和时间代价之间取得均衡,并且具有较高的可扩展性。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种高效、准确的社交媒体大数据主题发现方法,具有扩展性程度高、自适应能力强以及准确性高等优点。
本发明技术方案为:
一种基于知识图谱的社交媒体大数据主题发现方法,其特征在于,包括如下步骤:
步骤1、从输入端获取用户现有知识图谱KG={<ei,r,ej>},其中ei,ej为知识图谱KG中的任意两个实体,r为实体ei到ej的关系,对于KG中的每一个三元组事实<ei,r,ej>,本发明识别出<ei,r,ej>的m个数据源DS1,DS2,…,DSm,进而,对于每个数据源DSx(1≤x≤m),评估该数据源的可信度,最终融合这m个数据源的可信度来获取三元组事实<ei,r,ej>的置信值。当KG中的每一个三元组事实均处理完毕之后,本发明得到带置信值的中间知识图谱iKG={<ei,r,ej,cs>},其中cs为三元组事实<ei,r,ej>的置信值。
接着,本发明对iKG中的置信值进行等价变换,并产生概率化知识图谱pKG={<ei,r,ej,pv>},其中pv=P(<ei,r,ej>为真|cs),为条件概率,表示在置信值为cs的条件下,三元组事实<ei,r,ej>为真的概率,用于分别输入步骤2、步骤4。
步骤2、本发明针对社交媒体大数据中的每对文档d1和d2,分别抽取这两个文档的实体,进而基于步骤1中生成的概率化知识图谱pKG,将它们所包含的实体映射到pKG上,并融合pKG中实体间的关系及其概率值,从而构造出语义映射图G(V,E,W),其中V=V1∪V2∪V’,V1和V2分别为d1和d2这两个文档的实体集合,V’为pKG中V1、V2间关系链接需要访问的实体集合,E为pKG中V1、V2和V’实体间的关系集合,W为从四元组事实<ei,r,ej,pv>到语义强度域ST的映射函数,其中ST为非负实数域的一个真子集,即对于任意<ei,r,ej,pv>∈pKG,W(<ei,r,ej,pv>)=st∈ST。
基于构造出来的语义映射图G(V,E,W),本发明使用近似图匹配策略来获取d1和d2这两个文档的语义相似度。本发明首先对G(V,E,W)进行剪枝处理,即对于G(V,E,W)中不相交的两部分实体集合(对应d1和d2这两个文档中的实体),只保留它们实体间的最小语义强度路径,并删除其它所有的路径,从而得到剪枝后的语义映射图G’(V’,E’,W’),其中V’=V,W’=W,而E’为语义映射图G剪枝后所保留下来的关系。然后,本发明采用图编辑距离技术在语义映射图G’(V’,E’,W’)中进行近似的语义匹配,并计算出d1和d2这两个文档的近似语义相似度。
步骤3、当社交媒体大数据中每对文档的语义相似度计算完毕之后,本发明基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基于密度的聚类)算法,并重新构造DBSCAN算法中的距离度量函数DIS以及模糊化处理两个输入参数:即领域半径ε和领域内最少文档量miD,来实施文档主题的模糊聚类,并最终得到k个不同的主题T1,T2,…,Tk。
步骤4、本发明基于步骤1中产生的概率化知识图谱pKG,对步骤3产生的k个主题T1,T2,…,Tk进行语义强度评估,获取每个主题所包含的语义信息量,然后,对这些主题按照信息量的强弱进行降序排序形成主题列表。在此基础上,本发明构建编码长度函数cl(θ),其中θ为主题列表的分割点,进而利用最小描述长度(MDL:Minimum Description Length)准则,通过最小化cl(θ)来获取θ的最佳取值,并将主题列表中分割点θ之后的主题执行删除操作,从而获得并向用户返回最优的θ个主题T’1,T’2,…,T’θ。
本发明具有以下优点:
1、本发明充分考虑社交媒体大数据多模态并存的特点,从而具有较高的可用性。
2、本发明基于知识图谱,并利用知识图谱丰富的数据语义信息以及强大的语义推理能力,来实现社交媒体大数据深层次主题的发现,能够显著提高主题发现的准确度。
3、本发明对弱信息量主题进行有效过滤,能够解决主题发现过程中主题噪声干扰问题。
与现有技术相比,本发明具有扩展性程度高、自适应能力强以及准确性高等优点,能够有效应用于社会公共安全、民众医疗健康、互联网深度信息服务和电子商务等领域。
附图说明
图1本发明的工作流程图。
具体实施方式
工作流程如图1所示。
在步骤1中,本发明对于现有知识图谱KG中的每一个三元组事实<ei,r,ej>,识别出该三元组的m个数据源DS1,DS2,…,DSm之后,需要对每个数据源DSx(1≤x≤m)的可信度进行评估。由于DSx包含大量的数据,而且数据的分布情况未知,因此我们很难精确评估其可信度,本发明采取近似评估策略,实施方式如下:对于数据源DSx,首先抽取数量为w的三元组事实,组成集合TFx={<e,r,e’>},而w取值通过如下方式确定,记DSx中三元组事实的个数为ψ:
其中min为取最小值函数。然后,本发明以TFx集合为数据样本,训练并构造数据源DSx中三元组事实置信值的回归预测模型。在此基础上,本发明利用Bootstrap自举重采样策略来近似计算并获取数据源DSx的数据分布及其置信区间,继而使用蒙特卡罗(MonteCarlo)仿真技术,基于近似的数据分布进行随机抽取多个不同的三元组,并利用训练获得的的回归预测模型求取它们的置信值,最后对这些置信值计算平均值,作为数据源DSx的近似可信度cs(DSx)。
在三元组事实<ei,r,ej>的m个数据源DS1,DS2,…,DSm可信度获取的基础上,本发明通过加权的方式来求得三元组事实<ei,r,ej>的最终置信值:
其中cs(<ei,r,ej>|DSx)为三元组事实<ei,r,ej>在数据源DSx中的置信值。
当KG中的每一个三元组事实均处理完毕之后,本发明得到带置信值的中间知识图谱iKG={<ei,r,ej,cs>},其中cs为三元组事实<ei,r,ej>的置信值。本发明在中间知识图谱iKG的基础上,产生概率化知识图谱pKG={<ei,r,ej,pv>},其中pv=P(<ei,r,ej>为真|cs),为条件概率,即pv等于在置信值为cs的条件下,三元组事实<ei,r,ej>为真的概率。本发明通过构造P(<ei,r,ej>为真|cs)的学习模型M来获得<ei,r,ej>所对应的pv值,学习模型M表示为:
其中e为自然对数的底数,而λ1和λ2是学习模型M的两个参数,采用LM(Levenberg-Marquardt)算法或牛顿法进行训练来获取最终最优参数值。
在步骤2中,对于社交媒体大数据中的任意两个文档d1和d2,本发明构造其对应的语义映射图G(V,E,W)方法如下:首先利用Stanford CoreNLP工具分别抽取这两个文档的实体,抽取后的实体集合分别记为S(d1)和S(d2),然后,对于S(d1)中的每个实体e,在所述概率化知识图谱pKG中识别并定位出e,从而得到S(d1)在pKG上的实体集合V1,同样对于S(d2)中的每个实体e’,在pKG中识别并定位出e’,从而得到S(d2)在pKG上的实体集合V2。接着,在pKG中,获取V1中各实体与V2中各实体之间链接所需要访问的实体集合V’。
在此基础上,本发明计算出语义映射图G的三个组成参数V,E和W:1)V为G的顶点集合,V=V1∪V2∪V’;2)E为G的边集合,3)W为从G中每个三元组事实<ei,r,ej>到语义强度域ST的映射函数,其中ST为非负实数域的一个真子集,即对于任意<ei,r,ej>∈G,W(<ei,r,ej>)=st∈ST,st取值计算过程为:首先在pKG中获取<ei,r,ej>的置信值pv,然后求得:
st=pv×{IC(ei)+IC(r)+PMI(r,ej)},
其中IC(ei)=-log2P(ei)和IC(r)=-log2P(r)分别是ei和r的信息量,P(ei)为ei在概率化知识图谱pKG所有实体中出现的概率,而P(r)为r在概率化知识图谱pKG所有关系中出现的概率;PMI(r,ej)为r和ej间的点互信息,即:
P(r,ej)为概率化知识图谱pKG中四元组事实<*,r,ej,*>出现的概率,*为通配符。
在语义映射图G(V,E,W)构造完毕之后,本发明使用近似的图语义匹配策略,来计算d1和d2这两个文档之间的语义相似度,具体实施方式如下:本发明首先对G(V,E,W)进行剪枝处理,即对于G(V,E,W)中不相交的两部分实体集合(对应d1和d2这两个文档中的实体),只保留它们实体间的最小语义强度路径,并删除其它所有的路径,从而得到剪枝后的语义映射图G’(V’,E’,W’),其中V’=V,W’=W,而E’为语义映射图G剪枝后所保留下来的关系。然后,本发明基于图编辑距离技术来进行近似的语义匹配,即在G’(V’,E’,W’)中,计算出最优的图编辑距离变换过程,该过程等价于获取具有最小语义强度代价的如下变换:通过对文档d1中的实体进行插入、删除、修改操作变换成文档d2中的实体。在该变换过程中,本发明首先构造编辑距离矩阵H来存储d1中各实体与d2中各实体之间的最短语义强度,并对编辑距离矩阵H进行标准化处理,然后基于匈牙利(Hungarian)算法来获取近似最优的图编辑距离变换。
在步骤3中,当社交媒体大数据中每对文档的语义相似度计算完毕之后,本发明基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基于密度的聚类)算法,并重新构造DBSCAN算法中的距离度量函数DIS以及模糊化处理两个输入参数:即领域半径ε和领域内最少文档量miD,来实施文档主题的模糊聚类,并最终得到k个不同的主题T1,T2,…,Tk。
在发明中,两个文档d1和d2的距离DIS(d1,d2)定义为:
其中e为自然对数的底数,sim(d1,d2)为文档d1和d2间的语义相似度。
领域半径参数ε模糊化处理的具体实施过程为:本发明首先使用数值区间[ε1,ε2]来代替ε,其中在此基础上构建两文档d1和d2关于数值区间[ε1,ε2]的隶属度函数LD(d1,d2,[ε1,ε2]):
领域内最少文档量参数miD模糊化处理的具体实施过程为:本发明首先使用数值区间[α1,α2]来代替miD,其中e为自然对数的底数,在此基础上构建领域内文档数量n关于数值区间[α1,α2]的隶属度函数LD(n,[α1,α2]):
在步骤4中,针对步骤3中获得的k个主题T1,T2,…,Tk,本发明首先基于步骤1产生的概率化知识图谱pKG,计算每个主题Ti(1≤i≤k)的语义强度st(Ti):
其中dj为主题Ti所包含的每个文档,st(dj)为它的语义强度,计算方式如下:
其中ez为文档dj所包含的每个实体,IC(ez)=-log2P(ez)为ez的信息量,P(ez)为ez在pKG所有实体中出现的概率。
然后,对这k个主题T1,T2,…,Tk按照语义强度的强弱进行降序排序,并形成主题列表TL=<T’1,T’2,…,T’k>。接着,本发明基于主题列表TL构造编码长度函数cl(θ),其中θ为主题列表的分割点,构建过程如下:(1)将主题列表TL分割成两个子列表TL1=<T’1,T’2,…,T’θ>和TL2=<T’θ+1,T’θ+2,…,T’k>;(2)对于子列表TL1,本发明首先计算TL1中θ个主题的语义强度平均值Ψ(TL1):
然后,对于TL1中的每个主题T’x(1≤x≤θ),本发明计算Ψ(TL1)与T’x语义强度间的差值,即Ix=Ψ(TL1)-st(T’x);(3)同样,对于子列表TL2,本发明首先计算TL2中k-θ个主题的语义强度平均值Ψ(TL2):
然后,对于TL2中的每个主题T’y(θ+1≤y≤k),本发明计算T’y语义强度与Ψ(TL2)间的差值,即Iy=st(T’y)-Ψ(TL2);(4)基于(2)和(3),编码长度函数cl(θ)表示为:
当构造完毕编码长度函数cl(θ)之后,本发明利用最小描述长度(MDL:MinimumDescription Length)准则,通过最小化cl(θ)来获取θ的最佳取值,并将主题列表中分割点θ之后的主题执行删除操作,从而获得并向用户返回最优的θ个主题T’1,T’2,…,T’θ。
Claims (2)
1.一种基于知识图谱的社交媒体大数据主题发现方法,其特征在于,包括如下步骤:
步骤1、从输入端获取用户现有知识图谱KG={<ei,r,ej>},其中ei,ej为知识图谱KG中的任意两个实体,r为实体ei到ej的关系,对于KG中的每一个三元组事实<ei,r,ej>,识别出<ei,r,ej>的m个数据源DS1,DS2,…,DSm,进而,对于每个数据源DSx(1≤x≤m),评估该数据源的可信度,最终融合这m个数据源的可信度来获取三元组事实<ei,r,ej>的置信值;当KG中的每一个三元组事实均处理完毕之后,得到带置信值的中间知识图谱iKG={<ei,r,ej,cs>},其中cs为三元组事实<ei,r,ej>的置信值;接着,对iKG中的置信值进行等价变换,并产生概率化知识图谱pKG={<ei,r,ej,pv>},其中pv=P(<ei,r,ej>为真|cs),为条件概率,表示在置信值为cs的条件下,三元组事实<ei,r,ej>为真的概率,用于分别输入步骤2、步骤4;
步骤2、针对社交媒体大数据中的每对文档d1和d2,分别抽取这两个文档的实体,进而基于步骤1中生成的概率化知识图谱pKG,将它们所包含的实体映射到pKG上,并融合pKG中实体间的关系及其概率值,从而构造出语义映射图G(V,E,W),其中V=V1∪V2∪V’,V1和V2分别为d1和d2这两个文档的实体集合,V’为pKG中V1、V2间关系链接需要访问的实体集合,E为pKG中V1、V2和V’实体间的关系集合,W为从四元组事实<ei,r,ej,pv>到语义强度域ST的映射函数,其中ST为非负实数域的一个真子集,即对于任意<ei,r,ej,pv>∈pKG,W(<ei,r,ej,pv>)=st∈ST;基于构造出来的语义映射图G(V,E,W),使用近似图匹配策略来获取d1和d2这两个文档的语义相似度;
步骤3、当社交媒体大数据中每对文档的语义相似度计算完毕之后,基于DBSCAN(Density-BasedSpatial Clustering of Applications with Noise,基于密度的聚类)算法,并重新构造DBSCAN算法中的距离度量函数DIS以及模糊化处理两个输入参数:即领域半径ε和领域内最少文档量miD,来实施文档主题的模糊聚类,并最终得到k个不同的主题T1,T2,…,Tk;
步骤4、本发明基于步骤1中产生的概率化知识图谱pKG,对步骤3产生的k个主题T1,T2,…,Tk进行语义强度评估,获取每个主题所包含的语义信息量,然后,对这些主题按照信息量的强弱进行降序排序形成主题列表;在此基础上,构建编码长度函数cl(θ),其中θ为主题列表的分割点,进而利用最小描述长度(MDL:Minimum Description Length)准则,通过最小化cl(θ)来获取θ的最佳取值,并将主题列表中分割点θ之后的主题执行删除操作,从而获得并向用户返回最优的θ个主题T’1,T’2,…,T’θ。
2.如权利要求1所述的基于知识图谱的社交媒体大数据主题发现方法,其特征在于,步骤2中,所述使用近似图匹配策略来获取d1和d2这两个文档的语义相似度,具体为:
首先对G(V,E,W)进行剪枝处理,即对于G(V,E,W)中不相交的两部分实体集合(对应d1和d2这两个文档中的实体),只保留它们实体间的最小语义强度路径,并删除其它所有的路径,从而得到剪枝后的语义映射图G’(V’,E’,W’),其中V’=V,W’=W,而E’为语义映射图G剪枝后所保留下来的关系;然后,采用图编辑距离技术在语义映射图G’(V’,E’,W’)中进行近似的语义匹配,并计算出d1和d2这两个文档的近似语义相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710089527.XA CN106909643B (zh) | 2017-02-20 | 2017-02-20 | 基于知识图谱的社交媒体大数据主题发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710089527.XA CN106909643B (zh) | 2017-02-20 | 2017-02-20 | 基于知识图谱的社交媒体大数据主题发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106909643A true CN106909643A (zh) | 2017-06-30 |
CN106909643B CN106909643B (zh) | 2020-08-14 |
Family
ID=59209216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710089527.XA Active CN106909643B (zh) | 2017-02-20 | 2017-02-20 | 基于知识图谱的社交媒体大数据主题发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106909643B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376287A (zh) * | 2018-03-02 | 2018-08-07 | 复旦大学 | 基于CN-DBpedia的多值属性分割装置及方法 |
CN108717421A (zh) * | 2018-04-23 | 2018-10-30 | 深圳市城市规划设计研究院有限公司 | 一种基于时空变化的社交媒体文本主题提取方法及系统 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN109086290A (zh) * | 2018-06-08 | 2018-12-25 | 广东万丈金数信息技术股份有限公司 | 基于多源数据决策树的注册信息真实性判断方法及系统 |
CN109241273A (zh) * | 2018-08-23 | 2019-01-18 | 云南大学 | 一种新媒体环境下少数民族主题数据的抽取方法 |
CN109684456A (zh) * | 2018-12-27 | 2019-04-26 | 中国电子科技集团公司信息科学研究院 | 基于物联网能力知识图谱的场景能力智能问答系统 |
CN109800296A (zh) * | 2019-01-21 | 2019-05-24 | 四川长虹电器股份有限公司 | 一种基于用户真实意图的语意模糊识别方法 |
CN110147451A (zh) * | 2019-05-10 | 2019-08-20 | 北京云知声信息技术有限公司 | 一种基于知识图谱的对话命令理解方法 |
CN110390039A (zh) * | 2019-07-25 | 2019-10-29 | 广州汇智通信技术有限公司 | 基于知识图谱的社交关系分析方法、装置及设备 |
CN110458099A (zh) * | 2019-08-12 | 2019-11-15 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN110795567A (zh) * | 2019-09-29 | 2020-02-14 | 北京远舢智能科技有限公司 | 一种知识图谱平台 |
CN110928961A (zh) * | 2019-11-14 | 2020-03-27 | 出门问问(苏州)信息科技有限公司 | 一种多模态实体链接方法、设备及计算机可读存储介质 |
CN111143479A (zh) * | 2019-12-10 | 2020-05-12 | 浙江工业大学 | 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法 |
CN111159356A (zh) * | 2019-12-31 | 2020-05-15 | 重庆和贯科技有限公司 | 基于教学内容的知识图谱构建方法 |
CN111966793A (zh) * | 2019-05-20 | 2020-11-20 | 云号(北京)科技有限公司 | 基于知识图谱的智慧问答方法、系统和知识图谱更新系统 |
CN113887584A (zh) * | 2021-09-16 | 2022-01-04 | 同济大学 | 一种基于社交媒体数据的应急交通策略评估方法 |
CN114048240A (zh) * | 2021-11-18 | 2022-02-15 | 长春理工大学 | 一种基于近似图匹配算法的数据集成方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035917A (zh) * | 2014-06-10 | 2014-09-10 | 复旦大学 | 一种基于语义空间映射的知识图谱管理方法和系统 |
US20160224637A1 (en) * | 2013-11-25 | 2016-08-04 | Ut Battelle, Llc | Processing associations in knowledge graphs |
CN106156090A (zh) * | 2015-04-01 | 2016-11-23 | 上海宽文是风软件有限公司 | 一种基于知识图谱(Man-tree)的制造设计知识个性化推送方法 |
CN106202041A (zh) * | 2016-07-01 | 2016-12-07 | 北京奇虎科技有限公司 | 一种解决知识图谱中的实体对齐问题的方法和装置 |
CN106250412A (zh) * | 2016-07-22 | 2016-12-21 | 浙江大学 | 基于多源实体融合的知识图谱构建方法 |
-
2017
- 2017-02-20 CN CN201710089527.XA patent/CN106909643B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160224637A1 (en) * | 2013-11-25 | 2016-08-04 | Ut Battelle, Llc | Processing associations in knowledge graphs |
CN104035917A (zh) * | 2014-06-10 | 2014-09-10 | 复旦大学 | 一种基于语义空间映射的知识图谱管理方法和系统 |
CN106156090A (zh) * | 2015-04-01 | 2016-11-23 | 上海宽文是风软件有限公司 | 一种基于知识图谱(Man-tree)的制造设计知识个性化推送方法 |
CN106202041A (zh) * | 2016-07-01 | 2016-12-07 | 北京奇虎科技有限公司 | 一种解决知识图谱中的实体对齐问题的方法和装置 |
CN106250412A (zh) * | 2016-07-22 | 2016-12-21 | 浙江大学 | 基于多源实体融合的知识图谱构建方法 |
Non-Patent Citations (1)
Title |
---|
EDWARD H.Y.LIM等: "Knowledge discovery from text learning for ontology modeling", 《2009 SIXTH INTERNATIONAL CONFERENCE ON FUZZY SYSTEM AND KNOWLEDGE DISCOVERY》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376287A (zh) * | 2018-03-02 | 2018-08-07 | 复旦大学 | 基于CN-DBpedia的多值属性分割装置及方法 |
CN108717421A (zh) * | 2018-04-23 | 2018-10-30 | 深圳市城市规划设计研究院有限公司 | 一种基于时空变化的社交媒体文本主题提取方法及系统 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN108763333B (zh) * | 2018-05-11 | 2022-05-17 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN109086290A (zh) * | 2018-06-08 | 2018-12-25 | 广东万丈金数信息技术股份有限公司 | 基于多源数据决策树的注册信息真实性判断方法及系统 |
CN109241273B (zh) * | 2018-08-23 | 2022-02-18 | 云南大学 | 一种新媒体环境下少数民族主题数据的抽取方法 |
CN109241273A (zh) * | 2018-08-23 | 2019-01-18 | 云南大学 | 一种新媒体环境下少数民族主题数据的抽取方法 |
CN109684456A (zh) * | 2018-12-27 | 2019-04-26 | 中国电子科技集团公司信息科学研究院 | 基于物联网能力知识图谱的场景能力智能问答系统 |
CN109800296B (zh) * | 2019-01-21 | 2022-03-01 | 四川长虹电器股份有限公司 | 一种基于用户真实意图的语意模糊识别方法 |
CN109800296A (zh) * | 2019-01-21 | 2019-05-24 | 四川长虹电器股份有限公司 | 一种基于用户真实意图的语意模糊识别方法 |
CN110147451A (zh) * | 2019-05-10 | 2019-08-20 | 北京云知声信息技术有限公司 | 一种基于知识图谱的对话命令理解方法 |
CN111966793B (zh) * | 2019-05-20 | 2024-03-15 | 云号(北京)科技有限公司 | 基于知识图谱的智慧问答方法、系统和知识图谱更新系统 |
CN111966793A (zh) * | 2019-05-20 | 2020-11-20 | 云号(北京)科技有限公司 | 基于知识图谱的智慧问答方法、系统和知识图谱更新系统 |
CN110390039A (zh) * | 2019-07-25 | 2019-10-29 | 广州汇智通信技术有限公司 | 基于知识图谱的社交关系分析方法、装置及设备 |
CN110458099A (zh) * | 2019-08-12 | 2019-11-15 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN110795567A (zh) * | 2019-09-29 | 2020-02-14 | 北京远舢智能科技有限公司 | 一种知识图谱平台 |
CN110928961A (zh) * | 2019-11-14 | 2020-03-27 | 出门问问(苏州)信息科技有限公司 | 一种多模态实体链接方法、设备及计算机可读存储介质 |
CN110928961B (zh) * | 2019-11-14 | 2023-04-28 | 出门问问(苏州)信息科技有限公司 | 一种多模态实体链接方法、设备及计算机可读存储介质 |
CN111143479A (zh) * | 2019-12-10 | 2020-05-12 | 浙江工业大学 | 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法 |
CN111143479B (zh) * | 2019-12-10 | 2023-09-01 | 易点生活数字科技有限公司 | 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法 |
CN111159356A (zh) * | 2019-12-31 | 2020-05-15 | 重庆和贯科技有限公司 | 基于教学内容的知识图谱构建方法 |
CN113887584B (zh) * | 2021-09-16 | 2022-07-05 | 同济大学 | 一种基于社交媒体数据的应急交通策略评估方法 |
CN113887584A (zh) * | 2021-09-16 | 2022-01-04 | 同济大学 | 一种基于社交媒体数据的应急交通策略评估方法 |
CN114048240A (zh) * | 2021-11-18 | 2022-02-15 | 长春理工大学 | 一种基于近似图匹配算法的数据集成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106909643B (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106909643A (zh) | 基于知识图谱的社交媒体大数据主题发现方法 | |
CN106156286B (zh) | 面向专业文献知识实体的类型抽取系统及方法 | |
CN102314519B (zh) | 一种基于公安领域知识本体模型的信息搜索方法 | |
Fayazi et al. | Uncovering crowdsourced manipulation of online reviews | |
McKenzie et al. | Weighted multi-attribute matching of user-generated points of interest | |
CN104268271B (zh) | 一种兴趣和网络结构双内聚的社交网络社区发现方法 | |
CN102799671B (zh) | 基于PageRank算法的网络个性化推荐方法 | |
CN106503148B (zh) | 一种基于多知识库的表格实体链接方法 | |
Mirani et al. | Sentiment analysis of isis related tweets using absolute location | |
CN110457404A (zh) | 基于复杂异质网络的社交媒体账户分类方法 | |
Ma et al. | Natural disaster topic extraction in sina microblogging based on graph analysis | |
CN107145527A (zh) | 对齐异构社交网络中基于元路径的链路预测方法 | |
CN105719191A (zh) | 多尺度空间下不确定行为语义的社交群体发现系统及方法 | |
CN109508385A (zh) | 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 | |
CN107679135A (zh) | 面向网络文本大数据的话题检测与跟踪方法、装置 | |
Borzymek et al. | Enriching trust prediction model in social network with user rating similarity | |
CN113705099A (zh) | 基于对比学习的社交平台谣言检测模型构建方法及检测方法 | |
Wei et al. | [Retracted] Analysis and Risk Assessment of Corporate Financial Leverage Using Mobile Payment in the Era of Digital Technology in a Complex Environment | |
CN108470035B (zh) | 一种基于判别混合模型的实体-引文相关性分类方法 | |
CN105653686A (zh) | 一种域名网址活跃度统计方法及系统 | |
CN113095088B (zh) | 一种基于文本的消费意图分析方法 | |
CN105761152A (zh) | 社交网络中一种基于三元组的参与话题预测方法 | |
JP2023171286A (ja) | グラフ機械学習のためのグラフの遠隔統計的生成 | |
Wang | Retracted: Multi‐data multiple gray clustering analysis based on layered mining for ubiquitous clouds and social internet of things | |
Zhang et al. | Similarity analysis of knowledge graph-based company embedding for stocks portfolio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |