Nothing Special   »   [go: up one dir, main page]

CN108763333A - 一种基于社会媒体的事件图谱构建方法 - Google Patents

一种基于社会媒体的事件图谱构建方法 Download PDF

Info

Publication number
CN108763333A
CN108763333A CN201810445536.2A CN201810445536A CN108763333A CN 108763333 A CN108763333 A CN 108763333A CN 201810445536 A CN201810445536 A CN 201810445536A CN 108763333 A CN108763333 A CN 108763333A
Authority
CN
China
Prior art keywords
event
entity
topic
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810445536.2A
Other languages
English (en)
Other versions
CN108763333B (zh
Inventor
张日崇
马宏远
王飞
杜翠兰
王玥
柳毅
李建欣
赵晓航
胡春明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
National Computer Network and Information Security Management Center
Original Assignee
Beihang University
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, National Computer Network and Information Security Management Center filed Critical Beihang University
Priority to CN201810445536.2A priority Critical patent/CN108763333B/zh
Publication of CN108763333A publication Critical patent/CN108763333A/zh
Application granted granted Critical
Publication of CN108763333B publication Critical patent/CN108763333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明则提出一种基于社会媒体的事件图谱构建方法,首先进行多源数据预处理,接着对预处理后的数据进行多源事件信息抽取,然后通过事件关系评价对事件间关系进行判定,最后进行实体信息融合,对异构图中的实体进行属性补全。本发明将事件看做抽象实体,基于社会媒体文本数据对抽取事件基本构成要素,事件进行关联,并融合已有结构化知识库构建事件图谱,这样能够提供更全面更直接的面向事件的信息检索服务,还能通过将传统非结构化文本内容的研究转化为基于图的研究,有利于发掘更深层次的信息。

Description

一种基于社会媒体的事件图谱构建方法
技术领域
本发明涉及一种事件图谱构建方法,尤其涉及一种基于社会媒体的事件图 谱构建方法。
背景技术
随着互联网的迅速普及,各类社会网络媒体,如博客、维基、播客、论坛、 社交网络、内容社区等蓬勃发展,这些社会媒体已成为人们发布、获取、传播 事件资讯最为重要的渠道,对这些事件进行整理和研究有助于人们了解事件发 展规律、指导生产生活,在新闻推荐、舆情分析等领域也有广泛需求和应用。 然而数据源及数据量的爆炸式增长固然意味着更丰富信息,但无结构的组织方 式、低价值密度等特性也给事件信息挖掘带来了挑战,将这些数据转化成结构 化的、带层级关联关系的事件知识,将有助于解决该问题。
从数据源总体情况来看,当前社会网络媒体中的事件数据往往散布在各种 非结构化网页中,包含大量无用数据,不利于对信息的有效分析和利用,其主 要存在以下三方面问题:①信息冗余度高而价值密度低,网页数据噪声多;② 数据规模大且分散,难以实现对海量事件数据高效查询获取;③缺乏统一规范, 难以发现信息与信息间的层次结构和关联性。
现有技术中,对事件进行结构化表示的主流方法是利用事件抽取技术,从 自然语言文本中抽取事件有用的信息。如元事件抽取主要针对短文句、段落中 的独立事件,首先对事件触发词进行识别找到事件句,再对时间、地点、人物 等基本要素进行抽取,而主题事件抽取则在此基础上面向长文本或者多文本, 对与同一主题直接相关的元事件进行聚合。然而事件抽取技术仅仅针对文本进 行浅层处理,最终产物以事件库为主,并未深入到语义层面,难以满足如关联 分析、关联查询等需求,且事件抽取往往针对单一数据源进行处理,不能充分 发挥多源数据优势丰富事件库中的要素信息,提升信息价值密度。
发明内容
针对以上问题,为挖掘社会媒体事件结构信息及事件间关联关系,提高多 源事件信息的浏览、检索效率,强化事件库归纳、推理能力,本发明则提出将 事件看做抽象实体,基于社会媒体文本数据对抽取事件基本构成要素,事件进 行关联,并融合已有结构化知识库构建事件图谱,这样能够提供更全面更直接 的面向事件的信息检索服务,还能通过将传统非结构化文本内容的研究转化为 基于图的研究,有利于发掘更深层次的信息。本发明对以新闻、百科、微博为 代表的多源社会化网络媒体数据进行采集作为数据输入,以事件为核心实体, 识别数据中事件及其相关要素形成事件元组,通过事件关系评价、实体信息融合等技术,再利用百科知识库对事件信息进行补全,完成社会媒体的事件图谱 构建。
本发明提出一种基于社会媒体的事件图谱构建方法,首先进行多源数据预 处理,接着对预处理后的数据进行多源事件信息抽取,然后通过事件关系评价 对事件间关系进行判定,最后进行实体信息融合,对异构图中的实体进行属性 补全。
附图说明
图1为本发明一实施例的事件图谱;
图2为本发明的图谱构建任务流程图;
图3为本发明的新闻爬虫基本工作流程;
图4为本发明的信息抽取的主要技术和任务图;
图5为本发明的信息融合子模块的流程图。
图6为本发明一实施例的转移量矩阵。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实 施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
近年来,知识图谱及相关的技术逐渐受到重视,不同于传统的信息抽取, 知识图谱技术从数据获取、数据融合、知识计算三方面都强调对多源数据尤其 已有知识库的利用,通过“实体-关系-实体”三元组,将现实世界中的实体与 概念映射到一个语义网络中,能够有效解决开放互联网大数据信息价值密度低 的问题,特别适用于实体相关、语义相关的信息检索任务。传统知识图谱主要 研究对象多是客观实体,对实体相关属性、关系进行挖掘。
为挖掘社会媒体事件结构信息及事件间关联关系,提高多源事件信息的浏 览、检索效率,强化事件库归纳、推理能力,本发明则提出将事件看做抽象实 体,基于社会媒体文本数据对抽取事件基本构成要素,事件进行关联,并融合 已有结构化知识库构建事件图谱,这样能够提供更全面更直接的面向事件的信 息检索服务,还能通过将传统非结构化文本内容的研究转化为基于图的研究, 有利于发掘更深层次的信息。
本发明对以新闻、百科、微博为代表的多源社会化网络媒体数据进行采集 作为数据输入,以事件为核心实体,识别数据中事件及其相关要素形成事件元 组,通过事件关系评价、实体信息融合等技术,再利用百科知识库对事件信息 进行补全,完成社会媒体的事件图谱构建。如图1所示的实施例是“C国第五 次核试验”事件的部分图谱展示,图中将一系列相关事件关联且具备一定的预 测能力。
如图2所示为本发明的社会媒体的事件图谱构建任务分解图。具体构建过 程分为以下四部分:
(1)数据采集预处理
构建事件图谱需要大量的事件文本语料,本发明选取了国内外新闻、百科 及部分特定微博号进行定向采集,为实现大规模采集,通过预设爬虫解析模板 保证采集精度,当因页面改版等原因导致模板失效时,通过无监督网页标签打 分进行通用抽取,实现自适应解析,可以有效减少人工模板制定工作量。
(2)多源事件信息抽取
本发明提出以多维度事件要素元组作为事件表示,利用实体识别等技术结 合排序算法,对事件实体(人物、组织、时间等)、主题类别、谓词等要素进行 抽取。并通过聚类、索引辅助解决跨源多文本事件发现、要素合并问题,将非 结构化的多源社会媒体文本转化为结构化的元事件要素八元组。
(3)事件关系评价
为降低冗余、实现关联查询,需要对事件间关系进行判定。结合现实需求, 本发明指定了事件间的三类关系:共指(描述同一主题的不同事件)、关联(同 一主题不同阶段事件,顺承或因果)、同类(具有相同属性的不同事件)关系, 本发明在事件要素元组基础上,提出实体相似度和语义相似度相结合的方法对 事件关系进行量化,完成事件关系评价,构建事件异构图。
(4)实体信息融合
为丰富图中信息,可以融合已有百科实体知识,对异构图中的实体进行属 性补全,这涉及到事件实体指称与百科词条之间的实体链接问题。本发明提出 利用百科搜索自动构建同义词库,利用WMD算法对实体指称上下文与百科词 条描述相关度进行评价,结合两者解决链接问题。
本发明中数据采集工作均采用网络爬虫的方式完成,主要针对百科数据、 新闻网站、部分新浪微博数据进行采集:其中一则新闻往往就是一个事件,可 以辅助事件发现,而微博(及新闻评论)信息维度更广,更能体现民意等信息, 百科数据可构建结构化知识库,用于融合丰富事件知识。为了保证数据采集过 程中文本信息的统一性(同一类数据格式规范一致)、完整性(不丢失某些字段 信息)和实用性(避免无价值字段的采集),需要针对不同网站的页面格式进行 定制,出于对易用性和易维护性的考虑,本发明使用了WebMagic开源爬虫框 架来实现基本爬虫功能,同时移植ContentExtractor网页正文解析工具实现网页 自适应解析。如下表1是数据采集总体说明:
表1
对于百科类网页,主要针对包含Linked Data信息的Description半结构化 字段以及包含结构化信息的InfoBox字段进行采集;对于微博数据针对人民日 报、新京报等主流媒体账号进行了定向爬取。新闻是本发明事件分析的重点, 如图3所示为新闻爬虫基本工作流程。以新闻网站为例介绍爬虫工作原理:对 于主流新闻网页,页面逻辑均为列表页-详情页两级结构,可以通过定制解析器 实现递归爬取。
元事件指的是描述单一动作发生或单一状态变化的事件,从本发明所使用 的数据来看,一则新闻或一条微博通常都只包含一个事件,所以本发明重点研 究了对元事件信息的抽取。本发明将事件定义为一个八元组<时间,地点,人物 (组织),谓词(动作),摘要(描述),关键词,情感(评价),类别>,其中前 三类可以看做传统的命名实体识别任务。如图4所示为信息抽取的主要技术和 任务,下面对事件抽取生成八元组结构化信息的过程进行分别阐述。
本发明使用了CRF++工具基于MSRA公开数据集对CRF模型进行训练, 根据社会媒体事件一步优化训练特征,选取窗口大小为3而非1。实体抽取的 一个示例如表2所示:
表2
结合社会媒体事件特征,主要将事件划分为五大类,参考应急管理条例确 定分类标准,具体类别如下表3。
表3
对于其他类型的事件,则直接予以忽略,由于新闻一般自带经过人工整理 的类别标签(如国际新闻、军事新闻等),这部分标签可以辅助分类,所以实现 过程中首先对事件相关新闻的类别标签进行映射。如果不能确定所属类别,接 下来则对文本中关键字利用项目提供的类别关键词库进行匹配分析,类别关键 词库由开源细胞词库与word2vec近义词扩展得到,可以实现常见词的分类,如 “地震”对应“自然灾害类”,“雾霾”及其相关近义词如“PM2.5”对应环境 卫生类。但是对于部分词如“火灾”,词库无法判定是自然灾害还是安全事故类, 使用SVM多分类器对文本主题进行判定。
这里的谓词主要指动作,即元事件触发词,如“李四访问D国”中的“访 问”这一动作。谓词通常是动词或动词性短语,本发明使用开源工具jieba词性 标注后动词词性的词作为谓词候选词,但是经过了两步筛选和打分:①谓词通 常与命名实体出现在同一句话中,所以将谓词抽取范围限制在命名实体出现的 左右两句话中。②因为同一事件相关文本较多,同一个动作表示方式有很多种 形式,所以本发明首先对相关谓词候选词利用word2vec向量化表示,对近义词 进行合并,在通过频率排序的方式,选取出现频率最高的动词作为事件谓词。
事件摘要抽取指的是从事件相关文本中,选取或生成最能概括表达该事件 的句子。在具体实现过程中,针对不同微博和新闻不同数据各自特点,设计了 不同摘要提取方法。首先是新闻,对于主流新闻网站(如腾讯、澎湃),一般会 有对新闻的人工编辑摘要,对这部分有用信息可以利用爬虫直接爬取复用,对 于缺少人工摘要的新闻,可以直接选取标题作为摘要。对于微博文本,首先需 要对其内容进行过滤HTML标签、表情符等预处理,接着判断是否带有话题标 签,如果带有话题标签则使用话题标签作为摘要,如果缺少话题标签,则通过 对比句中单词TF-IDF值之和,对句子重要程度进行打分,排序选取摘要句。
摘要抽取最后一步是要对上述处理之后的摘要候选句进行排序,同样经过 句向量比较、合并之后,按照出现频次排序的方式,选取出出现频率最高的摘 要句作为事件摘要。具体实现过程中,通常直接采用人工编辑的新闻摘要作为 相关事件摘要,以保证准确度。
事件关键词抽取指的是对刻画该事件的最重要的词进行抽取,该任务与事 件摘要抽取类似。同样针对不同数据类型各自特点,分步骤进行计算。对于新 闻数据,同样一般会有人工编辑整理的关键词集,可以直接爬取复用,对于缺 少人工整理关键词的新闻,可以选择命名实体识别得到的高频实体、谓词及高 频实体词以及TF-IDF权重较高的词加入关键词集。对于微博文本,通过构建 微博文本单词共现图,并通过快速异常子图检测算法快速得到表示微博的一些 关键词图。运用该方法可以得到一个关于微博事件的关键词集合,通过word2vec 计算相似度合并近义词后,选取top-5作为微博事件关键词。
经过上述处理,事件相关的每一份新闻和全部微博文本都形成了一个关键 词集,同样在经过词向量相似度计算合并近义词,在按照的出现频次排序,选 取出现次数最多的top-5关键词作为关键词集合。
本发明中事件关系指定为“共指”、“关联”、“同属”三类(“无关”关系不 考虑),分别针对以下场景:未合并的关于同一元事件的相关事件;与另一元事 件具有演化(如出访行程)/因果(如案件的发生调查追责三个阶段)等时序关 系的相关事件;发现同类/同主体的事件。在得到事件要素八元组的基础上,本 发明采用基于元组异构图的方式对上述关系进行挖掘,相较于直接文本比较的 方式,这种方式属性和结构更加清晰,便于关系计算。
当事件要素信息确定之后,事件与事件之间的关系也基本可以确定,通过 计算主体、地点以及文本摘要等属性综合相似度来对事件关联度进行量化,给 定两个事件Ei和Ej,对应要素元组表示为Ei:<timei,loci,pari,verbi,desci,keysi, topicei>和Ej:<timej,locj,parj,verbj,descj,keysj,topicj>,其中各项要素解释如表 4:
表4
事件关联度主要基于现实规律:时间上相近的两个事件存在“共指”或“关 联”关系的可能性更高,而发生在同一或相邻地点的事件同样具有“同属”或 “关联”,同理,具有其他其他相似要素的事件可以被认为具有同属关系。定义 事件Ei和Ej关联度为Rij,当关系Rij>θ(θ为预设阈值)时说明事件相关,i,j 为正整数。具体量化公式主要分为两部分:实体关联度和语义关联度,其中实 体关联度定义如式(1):
式中满足α+β+γ+δ=1,且α,β,γ,δ>0,根据事件主题类型,进行动 态调整。事件实体关联度,包括时间、地点、人物、类型四者的相似度,这些 是传统事件表示的基本要素,不涉及语义层面的计算。
其中时间相似度Simtime是两个事件时间差(按小时计算)的反比函数,即 事件时间越接近,相关度越高,取值区间为[0,1];
对于主题相似度,考虑到“自然灾害类”和“安全事故类”事件可能带来 次生影响,如“C国核爆炸”、“C国地震”和“某省发布核污染黄色预警”三 者之间存在一定联系,所以具体实现时,如果两个事件类型一致,则 Simtopic(topici,topicj)取1,如果存在自然灾害或安全事故,则将 Simtopic(topici,topicj)取经验值1/2,如果不满足上述情形,则取0。
如果两个事件地点完全一致或某个地点包含于另一地点(如“BJ市”和“BJ 市HD区),则认为事件地点相似度为1,否则取0,因此地点相似度量化公式 如式(2):
易知Simloc(loci,locj)取值区间为{0,1}。
对于事件人物相似度的计算,考虑到参与者集合一般元素较少,因此采用Jaccard相关系数进行量化,及考虑参与人物重叠度,具体公式如式(3),取值区 间为[0,1]:
另一部分是事件语义关联度,包括事件描述和动作词的相似度,利用词向 量化中带有的事件语义信息,对事件相关度进行深层挖掘,其量化公式如下:
simsematic(Ei,Ej)=A·Simdesc(desci,descj)+B( ·Simverb(verbi,υerbj) 4)
其中A+B=1,且A,B>0,同样实现时根据事件主题类型进行动态调整。 新闻描述和动词相似度计算方式为比较词向量与句向量之间的余弦相似度,取 值区间均为[0,1]。
本发明中使用了一个四段函数来区分关系Rij的类型,定义见式(5):
其中0<θ3<θ2<θ1<2,为关系划分所设置的阈值。
通过上述处理,最终将事件和事件关联,可以得到关于事件的异构图。对 于共指事件,需要对要素元组及相关文本集合进行合并,而对于关联事件(通 常是一些时间上间隔稍长或关键实体相同的相关事件)需要在图数据库中进行 关联。
在构建社会媒体事件图谱过程中,需要对多源信息数据融合,由于中文自 然语言本身的表达多样性和歧义性,而不同来源的数据间又缺少指向链接,所 以需要计算事件实体指称项与候选百科词条实体间的语义相似度,分别针对一 词多义(实体消歧)和多词一义(共指消歧)的情况进行处理。在抽取实体指 称项之后,本发明选取百度百科词条作为实体名统一表述,提出了一种利用百 科搜索引擎自动跳转功能,构建本发明信息融合子模块的方式,其总体处理步 骤如图5所示为融合子模块处理流程图。
本发明以百度百科词条名作为同一实体的唯一表述,而实体消歧就是处理事 件文本中实体指称项与多个词条名重名(一词多义)的问题。本发明根据指称 项上下文与词条描述间的语义接近程度,利用词向量对词的语义相关度进行计 算,实现实体消歧。例如事件描述“苹果市值突破9000亿”中“苹果”的上下 文,语义上更接近“苹果公司是B国的一家高科技公司”中的“苹果”,而非 “苹果是蔷薇科苹果亚科苹果属植物”中的“苹果”。
首先利用词袋模型(nBOW)对文本进行表示,本发明中使用该实体指称项 出现的前后三句作为输入,经过分词、去除停用词及指称项本身,组成词袋,
对于单词ti,特征量为该词的word2vec词向量,表示该词权重, 其中i,j为正整数,ci为该词在文档中出现次数,利用欧式距离计算词与词之间 的相似度(相似度越高,转移代价越小)。
如图6所示构建转移量矩阵Tn×n,其中n为词袋中词的总个数,Tij表示词 ti有多少语义转移到词tj。以c(i,j)表示ti、tj间的转移代价(使用欧式距离衡量), 算法目标函数为最小化约束条件为 求解得到wmd值即最终两个词袋之间的相转移 代价,对“公司”、“市值”这类统计语义上接近的词转移代价更小,WMD方 法可以进行实体消歧。
本发明使用共指消歧解决多个指称项对应于统一实体的问题,例如新闻中 出现“北京航空航天大学”或“北航”等多个指称项都指向同一命名实体。其 核心问题是定义不同指称项间的相似度,本发明采取了构建利用同义词表的方 式,将不同名的指称项对统一应到标准唯一实体名(百度百科词条名),以解决 该问题。
对于事件中发现的命名实体,首先检索现有同义词典,如没有对应匹配, 则通过百科网页API提交检索,解析网页抽取同义词,词条Description和 InfoBox字段中往往也有“又称”“别名”等属性,使用正则表达式进行匹配抽 取,因而也在抽取词条Description和InfoBox字段的同时将相关同一词对追加 进同义词典。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限 制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员 应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中 部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本 质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于社会媒体的事件图谱构建方法,其特征在于,首先进行多源数据预处理,接着对预处理后的数据进行多源事件信息抽取,然后通过事件关系评价对事件间关系进行判定,最后进行实体信息融合,对异构图中的实体进行属性补全。
2.如权利要求1所述的方法,其特征在于,在所述多源数据预处理中使用了WebMagic开源爬虫框架来实现基本爬虫功能,同时移植ContentExtractor网页正文解析工具实现网页自适应解析,针对百科数据、新闻网站、新浪文本进行采集;在所述多源事件信息抽取中,包括五个任务,所述任务包括命名实体识别,事件分类,谓词抽取,摘要抽取,关键词抽取。
3.如权利要求2所述的方法,其特征在于,在命名实体识别中,基于CRF++工具基于MSRA公开数据集对CRF模型进行训练,根据社会媒体事件一步优化训练特征,选取窗口大小为3。
4.如权利要求2所述的方法,其特征在于,事件具体类别包括自然灾害类,安全事故类,环境卫生类,社会安全类,政治军事类;所述事件分类中,首先对事件相关新闻的类别标签进行映射,如果不能确定所属类别,对文本中关键字利用项目提供的类别关键词库进行匹配分析,所述类别关键词库由开源细胞词库与word2vec近义词扩展得到实现常见词的分类,使用SVM多分类器对文本主题进行判定实现非常见词分类。
5.如权利要求2所述的方法,其特征在于,在所述摘要抽取中,对于主流新闻网站利用爬虫直接爬取复用,对于缺少人工摘要的新闻,直接选取标题作为摘要;对于微博文本,首先需要对其内容进行过滤HTML标签、表情符等预处理,接着判断是否带有话题标签,如果带有话题标签则使用话题标签作为摘要,如果缺少话题标签,则通过对比句中单词TF-IDF值之和,对句子重要程度进行打分,排序选取摘要句;对所述摘要候选句进行排序,经过句向量比较、合并之后,按照出现频次排序的方式,选取出出现频率最高的摘要句作为事件摘要。
6.如权利要求4所述的方法,其特征在于,所述事件关系评价中,定义事件Ei和Ej关联度为Rij,当关系Rij>θ(θ为预设阈值)时说明事件相关。具体量化公式主要分为两部分:实体关联度和语义关联度,其中实体关联度公式为
所述time为事件时间,loc为事件地点,par为事件参与人物,topic为事件主体分类,式中满足α+β+γ+δ=1,且α,β,γ,δ>0,其中时间相似度Simtime是两个事件时间差的反比函数,相关度越高,取值区间为[0,1],对于主题相似度,如果两个事件类型一致,则Simtopic(topici,topicj)为1,如果存在自然灾害或安全事故,则将Simtopic(topici,topicj)为1/2,如果均不满足上述情形,则Simtopic(topici,topicj)取0;如果两个事件地点完全一致或某个地点包含于另一地点,则认为事件地点相似度simloc(loci,locj)为1,否则取0;所述
所述事件语义关联度计算公式为:simsematic(Ei,Ej)=A·Simdesc(desci,descj)+B·Simverb(verbi,verbj),所述desc为事件描述,所述verb为事件动作词,其中A+B=1,且A,B>0;所述关联度Rij为:
其中0<θ3<θ2<θ1<2,θ1,θ2,θ3为关系划分阈值。
7.如权利要求1所述的方法,其特征在于,在所述实体信息融合中包括实体消歧和共指消歧,所述实体消歧首先利用词袋模型(nBOW)对文本进行表示,使用该实体指称项出现的前后三句作为输入,经过分词、去除停用词及指称项本身,组成词袋,对于单词ti,特征量为该词的word2vec词向量表示该词权重,其中ci为该词在文档中出现次数,利用欧式距离计算词与词之间的相似度,以c(i,j)表示ti、tj间的转移代价,算法目标函数为最小化约束条件为 求解得到wmd值即最终两个词袋之间的相转移代价;所述共指消歧采取了构建利用同义词表的方式,将不同名的指称项对统一应到标准唯一实体名。
CN201810445536.2A 2018-05-11 2018-05-11 一种基于社会媒体的事件图谱构建方法 Active CN108763333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810445536.2A CN108763333B (zh) 2018-05-11 2018-05-11 一种基于社会媒体的事件图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810445536.2A CN108763333B (zh) 2018-05-11 2018-05-11 一种基于社会媒体的事件图谱构建方法

Publications (2)

Publication Number Publication Date
CN108763333A true CN108763333A (zh) 2018-11-06
CN108763333B CN108763333B (zh) 2022-05-17

Family

ID=64009696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810445536.2A Active CN108763333B (zh) 2018-05-11 2018-05-11 一种基于社会媒体的事件图谱构建方法

Country Status (1)

Country Link
CN (1) CN108763333B (zh)

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543034A (zh) * 2018-11-07 2019-03-29 中山大学 基于知识图谱的文本聚类方法、装置及可读存储介质
CN109582958A (zh) * 2018-11-20 2019-04-05 厦门大学深圳研究院 一种灾难故事线构建方法及装置
CN109614603A (zh) * 2018-12-12 2019-04-12 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN109635107A (zh) * 2018-11-19 2019-04-16 北京亚鸿世纪科技发展有限公司 多数据源的语义智能分析及事件场景还原的方法及装置
CN109635194A (zh) * 2018-12-12 2019-04-16 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN109684629A (zh) * 2018-11-26 2019-04-26 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备
CN109684483A (zh) * 2018-12-11 2019-04-26 平安科技(深圳)有限公司 知识图谱的构建方法、装置、计算机设备及存储介质
CN109726819A (zh) * 2018-12-29 2019-05-07 东软集团股份有限公司 一种实现事件推理的方法及装置
CN109902144A (zh) * 2019-01-11 2019-06-18 杭州电子科技大学 一种基于改进wmd算法的实体对齐方法
CN109918639A (zh) * 2018-12-13 2019-06-21 北京海致星图科技有限公司 一种基于深度学习技术和规则库的银行授信文本解析方法
CN109977237A (zh) * 2019-05-27 2019-07-05 南京擎盾信息科技有限公司 一种面向法律领域的动态法律事件图谱构建方法
CN110020433A (zh) * 2019-04-01 2019-07-16 中科天玑数据科技股份有限公司 一种基于企业关联关系的工商高管人名消歧方法
CN110134842A (zh) * 2019-04-03 2019-08-16 深圳价值在线信息科技股份有限公司 基于信息图谱的信息匹配方法、装置、存储介质和服务器
CN110287491A (zh) * 2019-06-25 2019-09-27 北京百度网讯科技有限公司 事件名生成方法及装置
CN110287338A (zh) * 2019-06-21 2019-09-27 北京百度网讯科技有限公司 行业热点确定方法、装置、设备和介质
CN110489520A (zh) * 2019-07-08 2019-11-22 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质
CN110543574A (zh) * 2019-08-30 2019-12-06 北京百度网讯科技有限公司 一种知识图谱的构建方法、装置、设备及介质
CN110704640A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种知识图谱的表示学习方法及装置
CN110807104A (zh) * 2019-11-08 2020-02-18 上海秒针网络科技有限公司 异常信息的确定方法及装置、存储介质、电子装置
CN110990574A (zh) * 2019-12-17 2020-04-10 上饶市中科院云计算中心大数据研究院 一种新闻资讯管理方法及装置
CN111125352A (zh) * 2019-12-23 2020-05-08 同方知网(北京)技术有限公司 一种基于知识图谱的关联数据可视化数据驾驶舱构建方法
CN111177311A (zh) * 2019-12-10 2020-05-19 华能集团技术创新中心有限公司 一种事件处理结果的数据分析模型及分析方法
CN111177405A (zh) * 2019-12-18 2020-05-19 深圳壹账通智能科技有限公司 数据搜索匹配方法、装置、计算机设备和存储介质
CN111191413A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
CN111191466A (zh) * 2019-12-25 2020-05-22 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN111428486A (zh) * 2019-01-08 2020-07-17 北京沃东天骏信息技术有限公司 物品信息数据处理方法、装置、介质及电子设备
CN111597333A (zh) * 2020-04-27 2020-08-28 国家计算机网络与信息安全管理中心 一种面向区块链领域的事件与事件要素抽取方法及装置
CN111694947A (zh) * 2020-06-15 2020-09-22 中国银行股份有限公司 一种文本摘要展示方法、装置、存储介质及设备
CN112100324A (zh) * 2020-08-28 2020-12-18 广州探迹科技有限公司 一种基于贪婪实体链接的知识图谱自动校验迭代的方法
CN112101022A (zh) * 2020-08-12 2020-12-18 新华智云科技有限公司 一种地震事件实体链接方法
CN112149423A (zh) * 2020-10-16 2020-12-29 中国农业科学院农业信息研究所 一种面向领域实体关系联合抽取的语料标注方法及系统
CN112148863A (zh) * 2020-10-15 2020-12-29 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
CN112364627A (zh) * 2020-10-23 2021-02-12 北京建筑大学 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质
CN112464668A (zh) * 2020-11-26 2021-03-09 南京数脉动力信息技术有限公司 一种提取智能家居行业动态信息的方法和系统
CN112528640A (zh) * 2020-12-09 2021-03-19 天津大学 一种基于异常子图检测的领域术语自动抽取方法
CN112559762A (zh) * 2020-12-09 2021-03-26 中电科新型智慧城市研究院有限公司 一种公共安全知识图谱构建方法、装置及可读存储介质
CN112559756A (zh) * 2020-08-07 2021-03-26 新华智云科技有限公司 一种地震事件知识图谱构建方法、应用方法
CN112598563A (zh) * 2020-12-29 2021-04-02 中国科学技术大学 一种基于知识图谱的智慧城市数据构建方法
CN112612817A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 数据处理方法、装置、终端设备及计算机可读存储介质
CN112633000A (zh) * 2020-12-25 2021-04-09 北京明略软件系统有限公司 一种文本中实体的关联方法、装置、电子设备及存储介质
CN112667819A (zh) * 2020-12-07 2021-04-16 数据地平线(广州)科技有限公司 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置
CN112749239A (zh) * 2021-01-20 2021-05-04 青岛海信网络科技股份有限公司 一种事件图谱构建方法、装置及计算设备
CN112818668A (zh) * 2021-02-05 2021-05-18 上海市气象灾害防御技术中心(上海市防雷中心) 气象灾情数据语义识别分析方法和系统
CN112836018A (zh) * 2021-02-07 2021-05-25 北京联创众升科技有限公司 应急预案的处理方法及装置
CN112948552A (zh) * 2021-02-26 2021-06-11 北京信息科技大学 一种事理图谱在线扩展方法及装置
CN112995110A (zh) * 2019-12-17 2021-06-18 深信服科技股份有限公司 一种恶意事件信息的获取方法、装置及电子设备
WO2021175009A1 (zh) * 2020-03-02 2021-09-10 深圳壹账通智能科技有限公司 预警事件图谱的构建方法、装置、设备及存储介质
CN113449101A (zh) * 2020-03-26 2021-09-28 北京中科闻歌科技股份有限公司 公共卫生安全事件检测及事件集合构建方法及系统
CN113495951A (zh) * 2020-04-03 2021-10-12 源析(青岛)信息技术有限公司 一种面向持续性社会事件的知识图谱的构建方法
CN113505127A (zh) * 2021-06-22 2021-10-15 侍意(厦门)网络信息技术有限公司 对有关联性对象的数据的存储结构及方法、检索和可视化展示方法
CN114036922A (zh) * 2021-06-18 2022-02-11 苏州智汇谷科技服务有限公司 基于融合路径权重相似度判断关联事件的方法及装置
CN114398891A (zh) * 2022-03-24 2022-04-26 三峡智控科技有限公司 基于日志关键词生成kpi曲线并标记波段特征的方法
CN114706992A (zh) * 2022-02-17 2022-07-05 中科雨辰科技有限公司 一种基于知识图谱的事件信息处理系统
CN112287118B (zh) * 2020-10-30 2023-06-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 事件模式频繁子图挖掘与预测方法
CN116501898A (zh) * 2023-06-29 2023-07-28 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置
CN117689475A (zh) * 2023-12-27 2024-03-12 北汽蓝谷信息技术有限公司 股权投资业务数字化经营管控体系方法及系统
CN117931997A (zh) * 2024-01-25 2024-04-26 中科世通亨奇(北京)科技有限公司 新闻事件的梳理方法及系统
CN118133220A (zh) * 2024-01-29 2024-06-04 湖南蚁坊软件股份有限公司 基于事件知识图谱的舆情事件融合方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777331A (zh) * 2017-01-11 2017-05-31 北京航空航天大学 知识图谱生成方法及装置
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN107506486A (zh) * 2017-09-21 2017-12-22 北京航空航天大学 一种基于实体链接的关系扩充方法
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN106777331A (zh) * 2017-01-11 2017-05-31 北京航空航天大学 知识图谱生成方法及装置
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置
CN107506486A (zh) * 2017-09-21 2017-12-22 北京航空航天大学 一种基于实体链接的关系扩充方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SIMON GOTTSCHALK: "EventKG: A Multilingual Event-Centric Temporal Knowledge Graph", 《ARXIV》 *
马晓军等: "融合词向量和主题模型的领域实体消歧", 《模式识别与人工智能》 *

Cited By (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543034A (zh) * 2018-11-07 2019-03-29 中山大学 基于知识图谱的文本聚类方法、装置及可读存储介质
CN109543034B (zh) * 2018-11-07 2021-07-16 中山大学 基于知识图谱的文本聚类方法、装置及可读存储介质
CN109635107A (zh) * 2018-11-19 2019-04-16 北京亚鸿世纪科技发展有限公司 多数据源的语义智能分析及事件场景还原的方法及装置
CN109582958A (zh) * 2018-11-20 2019-04-05 厦门大学深圳研究院 一种灾难故事线构建方法及装置
CN109684629B (zh) * 2018-11-26 2022-12-16 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备
CN109684629A (zh) * 2018-11-26 2019-04-26 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备
CN109684483A (zh) * 2018-12-11 2019-04-26 平安科技(深圳)有限公司 知识图谱的构建方法、装置、计算机设备及存储介质
CN109635194A (zh) * 2018-12-12 2019-04-16 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN109614603A (zh) * 2018-12-12 2019-04-12 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN109918639A (zh) * 2018-12-13 2019-06-21 北京海致星图科技有限公司 一种基于深度学习技术和规则库的银行授信文本解析方法
CN109918639B (zh) * 2018-12-13 2024-02-13 北京海致星图科技有限公司 一种基于深度学习技术和规则库的银行授信文本解析方法
CN109726819A (zh) * 2018-12-29 2019-05-07 东软集团股份有限公司 一种实现事件推理的方法及装置
CN109726819B (zh) * 2018-12-29 2021-09-14 东软集团股份有限公司 一种实现事件推理的方法及装置
CN111428486A (zh) * 2019-01-08 2020-07-17 北京沃东天骏信息技术有限公司 物品信息数据处理方法、装置、介质及电子设备
CN111428486B (zh) * 2019-01-08 2023-06-23 北京沃东天骏信息技术有限公司 物品信息数据处理方法、装置、介质及电子设备
CN109902144A (zh) * 2019-01-11 2019-06-18 杭州电子科技大学 一种基于改进wmd算法的实体对齐方法
CN110020433A (zh) * 2019-04-01 2019-07-16 中科天玑数据科技股份有限公司 一种基于企业关联关系的工商高管人名消歧方法
CN110020433B (zh) * 2019-04-01 2023-04-18 中科天玑数据科技股份有限公司 一种基于企业关联关系的工商高管人名消歧方法
CN110134842A (zh) * 2019-04-03 2019-08-16 深圳价值在线信息科技股份有限公司 基于信息图谱的信息匹配方法、装置、存储介质和服务器
CN109977237A (zh) * 2019-05-27 2019-07-05 南京擎盾信息科技有限公司 一种面向法律领域的动态法律事件图谱构建方法
CN110287338A (zh) * 2019-06-21 2019-09-27 北京百度网讯科技有限公司 行业热点确定方法、装置、设备和介质
CN110287491B (zh) * 2019-06-25 2024-01-12 北京百度网讯科技有限公司 事件名生成方法及装置
CN110287491A (zh) * 2019-06-25 2019-09-27 北京百度网讯科技有限公司 事件名生成方法及装置
CN110489520A (zh) * 2019-07-08 2019-11-22 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质
CN110489520B (zh) * 2019-07-08 2023-05-16 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质
CN110543574A (zh) * 2019-08-30 2019-12-06 北京百度网讯科技有限公司 一种知识图谱的构建方法、装置、设备及介质
CN110543574B (zh) * 2019-08-30 2022-05-17 北京百度网讯科技有限公司 一种知识图谱的构建方法、装置、设备及介质
CN110704640A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种知识图谱的表示学习方法及装置
CN110807104B (zh) * 2019-11-08 2023-04-14 上海明胜品智人工智能科技有限公司 异常信息的确定方法及装置、存储介质、电子装置
CN110807104A (zh) * 2019-11-08 2020-02-18 上海秒针网络科技有限公司 异常信息的确定方法及装置、存储介质、电子装置
CN111177311A (zh) * 2019-12-10 2020-05-19 华能集团技术创新中心有限公司 一种事件处理结果的数据分析模型及分析方法
CN111177311B (zh) * 2019-12-10 2024-03-29 华能集团技术创新中心有限公司 一种事件处理结果的数据分析模型及分析方法
CN110990574A (zh) * 2019-12-17 2020-04-10 上饶市中科院云计算中心大数据研究院 一种新闻资讯管理方法及装置
CN110990574B (zh) * 2019-12-17 2023-05-09 上饶市中科院云计算中心大数据研究院 一种新闻资讯管理方法及装置
CN112995110A (zh) * 2019-12-17 2021-06-18 深信服科技股份有限公司 一种恶意事件信息的获取方法、装置及电子设备
CN111177405A (zh) * 2019-12-18 2020-05-19 深圳壹账通智能科技有限公司 数据搜索匹配方法、装置、计算机设备和存储介质
CN111125352A (zh) * 2019-12-23 2020-05-08 同方知网(北京)技术有限公司 一种基于知识图谱的关联数据可视化数据驾驶舱构建方法
CN111125352B (zh) * 2019-12-23 2023-05-16 同方知网数字出版技术股份有限公司 一种基于知识图谱的关联数据可视化数据驾驶舱构建方法
CN111191466A (zh) * 2019-12-25 2020-05-22 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN111191413A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
CN111191413B (zh) * 2019-12-30 2021-11-12 北京航空航天大学 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
WO2021175009A1 (zh) * 2020-03-02 2021-09-10 深圳壹账通智能科技有限公司 预警事件图谱的构建方法、装置、设备及存储介质
CN113449101A (zh) * 2020-03-26 2021-09-28 北京中科闻歌科技股份有限公司 公共卫生安全事件检测及事件集合构建方法及系统
CN113495951A (zh) * 2020-04-03 2021-10-12 源析(青岛)信息技术有限公司 一种面向持续性社会事件的知识图谱的构建方法
CN111597333B (zh) * 2020-04-27 2022-08-02 国家计算机网络与信息安全管理中心 一种面向区块链领域的事件与事件要素抽取方法及装置
CN111597333A (zh) * 2020-04-27 2020-08-28 国家计算机网络与信息安全管理中心 一种面向区块链领域的事件与事件要素抽取方法及装置
CN111694947A (zh) * 2020-06-15 2020-09-22 中国银行股份有限公司 一种文本摘要展示方法、装置、存储介质及设备
CN112559756A (zh) * 2020-08-07 2021-03-26 新华智云科技有限公司 一种地震事件知识图谱构建方法、应用方法
CN112101022B (zh) * 2020-08-12 2024-02-20 新华智云科技有限公司 一种地震事件实体链接方法
CN112101022A (zh) * 2020-08-12 2020-12-18 新华智云科技有限公司 一种地震事件实体链接方法
CN112100324A (zh) * 2020-08-28 2020-12-18 广州探迹科技有限公司 一种基于贪婪实体链接的知识图谱自动校验迭代的方法
CN112148863A (zh) * 2020-10-15 2020-12-29 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
CN112149423A (zh) * 2020-10-16 2020-12-29 中国农业科学院农业信息研究所 一种面向领域实体关系联合抽取的语料标注方法及系统
CN112149423B (zh) * 2020-10-16 2024-01-26 中国农业科学院农业信息研究所 一种面向领域实体关系联合抽取的语料标注方法及系统
CN112364627A (zh) * 2020-10-23 2021-02-12 北京建筑大学 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质
CN112364627B (zh) * 2020-10-23 2023-07-25 北京建筑大学 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质
CN112287118B (zh) * 2020-10-30 2023-06-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 事件模式频繁子图挖掘与预测方法
CN112464668A (zh) * 2020-11-26 2021-03-09 南京数脉动力信息技术有限公司 一种提取智能家居行业动态信息的方法和系统
CN112612817B (zh) * 2020-12-07 2024-02-27 深圳价值在线信息科技股份有限公司 数据处理方法、装置、终端设备及计算机可读存储介质
CN112612817A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 数据处理方法、装置、终端设备及计算机可读存储介质
CN112667819A (zh) * 2020-12-07 2021-04-16 数据地平线(广州)科技有限公司 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置
CN112528640A (zh) * 2020-12-09 2021-03-19 天津大学 一种基于异常子图检测的领域术语自动抽取方法
CN112559762A (zh) * 2020-12-09 2021-03-26 中电科新型智慧城市研究院有限公司 一种公共安全知识图谱构建方法、装置及可读存储介质
CN112633000B (zh) * 2020-12-25 2024-07-09 北京明略软件系统有限公司 一种文本中实体的关联方法、装置、电子设备及存储介质
CN112633000A (zh) * 2020-12-25 2021-04-09 北京明略软件系统有限公司 一种文本中实体的关联方法、装置、电子设备及存储介质
CN112598563A (zh) * 2020-12-29 2021-04-02 中国科学技术大学 一种基于知识图谱的智慧城市数据构建方法
CN112598563B (zh) * 2020-12-29 2023-11-17 中国科学技术大学 一种基于知识图谱的智慧城市数据构建方法
CN112749239A (zh) * 2021-01-20 2021-05-04 青岛海信网络科技股份有限公司 一种事件图谱构建方法、装置及计算设备
CN112818668A (zh) * 2021-02-05 2021-05-18 上海市气象灾害防御技术中心(上海市防雷中心) 气象灾情数据语义识别分析方法和系统
CN112818668B (zh) * 2021-02-05 2024-03-29 上海市气象灾害防御技术中心(上海市防雷中心) 气象灾情数据语义识别分析方法和系统
CN112836018A (zh) * 2021-02-07 2021-05-25 北京联创众升科技有限公司 应急预案的处理方法及装置
CN112948552A (zh) * 2021-02-26 2021-06-11 北京信息科技大学 一种事理图谱在线扩展方法及装置
CN112948552B (zh) * 2021-02-26 2023-06-02 北京信息科技大学 一种事理图谱在线扩展方法及装置
CN114036922A (zh) * 2021-06-18 2022-02-11 苏州智汇谷科技服务有限公司 基于融合路径权重相似度判断关联事件的方法及装置
CN113505127A (zh) * 2021-06-22 2021-10-15 侍意(厦门)网络信息技术有限公司 对有关联性对象的数据的存储结构及方法、检索和可视化展示方法
CN114706992A (zh) * 2022-02-17 2022-07-05 中科雨辰科技有限公司 一种基于知识图谱的事件信息处理系统
CN114398891A (zh) * 2022-03-24 2022-04-26 三峡智控科技有限公司 基于日志关键词生成kpi曲线并标记波段特征的方法
CN116501898B (zh) * 2023-06-29 2023-09-01 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置
CN116501898A (zh) * 2023-06-29 2023-07-28 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置
CN117689475A (zh) * 2023-12-27 2024-03-12 北汽蓝谷信息技术有限公司 股权投资业务数字化经营管控体系方法及系统
CN117931997A (zh) * 2024-01-25 2024-04-26 中科世通亨奇(北京)科技有限公司 新闻事件的梳理方法及系统
CN117931997B (zh) * 2024-01-25 2024-11-05 中科世通亨奇(北京)科技有限公司 新闻事件的梳理方法及系统
CN118133220A (zh) * 2024-01-29 2024-06-04 湖南蚁坊软件股份有限公司 基于事件知识图谱的舆情事件融合方法、装置及设备

Also Published As

Publication number Publication date
CN108763333B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN108763333A (zh) 一种基于社会媒体的事件图谱构建方法
Jain et al. Summarization of legal documents: Where are we now and the way forward
Rogers et al. What’s in your embedding, and how it predicts task performance
Ghorpade et al. Featured based sentiment classification for hotel reviews using NLP and Bayesian classification
CN105760462B (zh) 基于关联数据查询的人机交互方法及装置
Haque et al. Literature review of automatic multiple documents text summarization
CN114997288B (zh) 一种设计资源关联方法
Soni et al. A survey on implicit aspect detection for sentiment analysis: terminology, issues, and scope
CN112733547A (zh) 一种利用语义依存分析的中文问句语义理解方法
Yehia et al. Text mining and knowledge discovery from big data: challenges and promise
Zheng et al. An adaptive LDA optimal topic number selection method in news topic identification
Amato et al. An application of semantic techniques for forensic analysis
CN114896387A (zh) 军事情报分析可视化方法、装置以及计算机可读存储介质
Chin et al. Automatic discovery of concepts from text
Khairova et al. A Parallel Corpus-Based Approach to the Crime Event Extraction for Low-Resource Languages
Colruyt et al. EventDNA: a dataset for Dutch news event extraction as a basis for news diversification
Abuteir et al. Automatic sarcasm detection in Arabic text: A supervised classification approach
Shaikh et al. Bringing shape to textual data-a feasible demonstration
Chawla et al. Pre-trained affective word representations
Gamallo Evaluation of Distributional Models with the Outlier Detection Task
Arnfield Enhanced Content-Based Fake News Detection Methods with Context-Labeled News Sources
Arumugam Processing the textual information using open natural language processing (NLP)
Chaabene et al. Semantic annotation for the “on demand graphical representation” of variable data in Web documents
Saneifar et al. From terminology extraction to terminology validation: an approach adapted to log files
Maree et al. Coupling semantic and statistical techniques for dynamically enriching web ontologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant