Nothing Special   »   [go: up one dir, main page]

CN110008352B - 实体发现方法及装置 - Google Patents

实体发现方法及装置 Download PDF

Info

Publication number
CN110008352B
CN110008352B CN201910242996.XA CN201910242996A CN110008352B CN 110008352 B CN110008352 B CN 110008352B CN 201910242996 A CN201910242996 A CN 201910242996A CN 110008352 B CN110008352 B CN 110008352B
Authority
CN
China
Prior art keywords
entity
candidate
entities
designated
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910242996.XA
Other languages
English (en)
Other versions
CN110008352A (zh
Inventor
徐程程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910242996.XA priority Critical patent/CN110008352B/zh
Publication of CN110008352A publication Critical patent/CN110008352A/zh
Application granted granted Critical
Publication of CN110008352B publication Critical patent/CN110008352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种实体发现的方法及装置,该方法包括:获取至少一个数据来源的实体候选数据;根据实体候选数据中包括的各个实体的实体参数从各个实体中选取出候选实体;若候选实体包含于指定实体集合中,则从指定实体集合中提取包括候选实体在内的至少一个指定实体的实体特征;根据至少一个指定实体的实体特征从至少一个指定实体中确定出目标实体,并基于目标实体与指定实体集合中其他指定实体之间的关联关系,从指定实体集合中确定出目标实体的至少一个关联实体;根据目标实体以及目标实体的至少一个关联实体生成目标实体集合。采用本申请实施例,可及时发现热门实体,提高热门实体的召回率和召回效率,适用性高。

Description

实体发现方法及装置
技术领域
本申请涉及数据处理领域,尤其涉及一种实体发现方法及装置。
背景技术
知识图谱需要保证知识的全面性和实时性。当知识图谱构建的整体流程搭建成功后,实体的自动发现及下载是保持知识自动更新的重要入口。一般而言,网站每天会有很多新的实体出现,而现有技术只能发现展示在主页的实体,导致热门实体的召回不足。同时,知识图谱中有很多已经存在但是很重要的实体,需要定期下载进行更新,无论是依靠配置抓取规则还是人工运营的方式都无法有效发现它们,如果全部更新的话占用资源较大,通常不太现实,因此导致很多知识时效性较差。
发明内容
本申请实施例提供一种实体发现的方法及装置,可及时发现热门实体,提高热门实体的召回率和召回效率,适用性高。
第一方面,本申请实施例提供了一种实体发现的方法,该方法包括:
获取至少一个数据来源的实体候选数据;
根据上述实体候选数据中包括的各个实体的实体参数从上述各个实体中选取出候选实体;
若上述候选实体包含于指定实体集合中,则从上述指定实体集合中提取包括上述候选实体在内的至少一个指定实体的实体特征;
根据上述至少一个指定实体的实体特征从上述至少一个指定实体中确定出目标实体,并基于上述目标实体与上述指定实体集合中其他指定实体之间的关联关系,从上述指定实体集合中确定出上述目标实体的至少一个关联实体;
根据上述目标实体以及上述目标实体的上述至少一个关联实体生成目标实体集合。
本申请实施例可及时发现热门实体,通过确定目标实体和目标实体的关联实体可提高热门实体的召回率和召回效率,适用性高。
结合第一方面,在一种可能的实施方式中,上述方法还包括:
若上述候选实体不包含于上述指定实体集合,则根据上述候选实体和上述指定实体集合中所包括的各个指定实体生成目标实体集合。
本申请实施例可及时发现不包含于指定实体集合的实体,提高了实体的召回率和召回效率,适用性强。
结合第一方面,在一种可能的实施方式中,上述数据来源包括新闻频道、搜索日志及社交平台中的至少一项;上述获取至少一个数据来源的实体候选数据,包括:
获取新闻频道中的新闻标题、新闻摘要以及新闻正文中的一项或者多项数据,并将获取的数据确定为实体候选数据;和/或
获取搜索日志中的搜索记录,并将获取的上述搜索记录确定为实体候选数据;和/或
获取社交平台中的讨论话题,并将获取的上述讨论话题确定为实体候选数据。
本申请实施例可及时发现实体,增加了数据来源的多样性,进而可提高热门实体的召回率,灵活性高且适用性强。
结合第一方面,在一种可能的实施方式中,上述方法还包括:
基于命名实体识别算法识别并提取上述实体候选数据中包括的各个实体;
从上述实体候选数据中确定出上述各个实体分别对应的实体参数。
本申请实施例可提高实体识别的精度,进而增大热门实体的召回率和准确率,适用性强。
结合第一方面,在一种可能的实施方式中,上述实体参数包括实体出现次数、实体更新次数以及实体浏览次数中的任一项;上述根据上述实体候选数据中包括的各个实体的实体参数从上述各个实体中选取出候选实体,包括:
若上述实体候选数据中包括来自单个数据来源的一个或者多个第一实体,则将上述一个或者多个第一实体中实体参数大于或者等于第一预设实体参数阈值的第一实体确定为候选实体;
若上述实体候选数据中包括来自至少两个数据来源的一个或者多个第二实体,则将任一第二实体在各个数据来源中的实体参数进行求和,并将实体参数之和大于或者等于第二预设实体参数阈值的第二实体确定为候选实体。
本申请实施例可增大热门实体的召回率,灵活性高且适用范围广。
结合第一方面,在一种可能的实施方式中,上述实体参数包括实体数据来源数量;上述根据上述实体候选数据中包括的各个实体的实体参数从上述各个实体中选取出候选实体,包括:
从上述实体候选数据中确定出来自至少两个数据来源的一个或者多个第三实体,并将上述一个或者多个第三实体中实体数据来源数量不小于预设数据源数量阈值的第三实体确定为候选实体。
本申请实施例可增大热门实体的召回率,灵活性高且适用范围广。
结合第一方面,在一种可能的实施方式中,上述实体特征包括实体重要度区分值、实体数据来源数量、实体属性数量、实体出现次数、实体更新次数及实体浏览次数中的至少两项;上述根据上述至少一个指定实体的实体特征从上述至少一个指定实体中确定出目标实体,包括:
将上述至少一个指定实体中的任一指定实体的各个实体特征分别进行归一化处理以得到各个指定实体对应的归一化处理后的实体特征;
将上述各个指定实体对应的上述归一化处理后的实体特征输入实体分类模型,基于上述实体分类模型输出上述至少一个指定实体中所包括的目标实体;
其中,上述实体分类模型由线性模型和/或非线性模型训练得到且具备识别热度大于或者等于预设热度阈值的实体的能力。
本申请实施例可提高热门实体的召回率和准确率,不易出错且操作简便,适用性强。
结合第一方面,在一种可能的实施方式中,上述基于上述目标实体与上述指定实体集合中其他指定实体之间的关联关系,从上述指定实体集合中确定出上述目标实体的至少一个关联实体,包括:
获取上述目标实体的目标实体类型并确定上述目标实体类型的关联实体类型集合;
从上述指定实体集合中包括的与上述目标实体有关联关系的各个指定实体中,确定出实体类型包含于上述关联实体类型集合的一个或者多个指定实体;
将确定出的上述一个或者多个指定实体确定为上述目标实体的关联实体。
本申请实施例可增大热门实体的召回率,提高热门实体的召回效率,操作简便,灵活性高,适用性强。
第二方面,本申请实施例提供了一种实体发现的装置,该装置包括:
候选数据获取模块,用于获取至少一个数据来源的实体候选数据;
候选实体确定模块,用于根据上述候选数据获取模块确定的上述实体候选数据中包括的各个实体的实体参数从上述各个实体中选取出候选实体;
实体特征提取模块,用于若上述候选实体确定模块确定的上述候选实体包含于指定实体集合中,则从上述指定实体集合中提取包括上述候选实体在内的至少一个指定实体的实体特征;
目标实体确定模块,用于根据上述实体特征提取模块确定的上述至少一个指定实体的实体特征从上述至少一个指定实体中确定出目标实体,并基于上述目标实体与上述指定实体集合中其他指定实体之间的关联关系,从上述指定实体集合中确定出上述目标实体的至少一个关联实体;
第一实体集合生成模块,用于根据上述目标实体确定模块确定的上述目标实体以及上述目标实体的上述至少一个关联实体生成目标实体集合。
结合第二方面,在一种可能的实施方式中,上述装置还包括:
第二实体集合生成模块,用于若上述候选实体确定模块确定的上述候选实体不包含于上述指定实体集合,则根据上述候选实体和上述指定实体集合中所包括的各个指定实体生成目标实体集合。
结合第二方面,在一种可能的实施方式中,上述数据来源包括新闻频道、搜索日志及社交平台中的至少一项;上述候选数据获取模块具体用于:
获取新闻频道中的新闻标题、新闻摘要以及新闻正文中的一项或者多项数据,并将获取的数据确定为实体候选数据;和/或
获取搜索日志中的搜索记录,并将获取的上述搜索记录确定为实体候选数据;和/或
获取社交平台中的讨论话题,并将获取的上述讨论话题确定为实体候选数据。
结合第二方面,在一种可能的实施方式中,上述装置还包括:
实体识别模块,用于基于命名实体识别算法识别并提取上述实体候选数据中包括的各个实体及上述各个实体的实体参数。
结合第二方面,在一种可能的实施方式中,上述实体参数包括实体出现次数、实体更新次数以及实体浏览次数中的任一项;上述候选实体确定模块具体用于:
若上述实体候选数据中包括来自单个数据来源的一个或者多个第一实体,则将上述一个或者多个第一实体中实体参数大于或者等于第一预设实体参数阈值的第一实体确定为候选实体;
若上述实体候选数据中包括来自至少两个数据来源的一个或者多个第二实体,则将任一第二实体在各个数据来源中的实体参数进行求和,并将实体参数之和大于或者等于第二预设实体参数阈值的第二实体确定为候选实体。
结合第二方面,在一种可能的实施方式中,上述实体参数包括实体数据来源数量;上述候选实体确定模块具体用于:
从上述实体候选数据中确定出来自至少两个数据来源的一个或者多个第三实体,并将上述一个或者多个第三实体中实体数据来源数量不小于预设数据源数量阈值的第三实体确定为候选实体。
结合第二方面,在一种可能的实施方式中,上述实体特征包括实体重要度区分值、实体数据来源数量、实体属性数量、实体出现次数、实体更新次数及实体浏览次数中的至少两项;上述目标实体确定模块包括:
目标实体发现单元,用于将上述至少一个指定实体中的任一指定实体的各个实体特征分别进行归一化处理以得到各个指定实体对应的归一化处理后的实体特征;
将上述各个指定实体对应的上述归一化处理后的实体特征输入实体分类模型,基于上述实体分类模型输出上述至少一个指定实体中所包括的目标实体;
其中,上述实体分类模型由线性模型和/或非线性模型训练得到且具备识别热度大于或者等于预设热度阈值的实体的能力。
结合第二方面,在一种可能的实施方式中,上述目标实体确定模块包括:
关联实体发现单元,用于获取上述目标实体的目标实体类型并确定上述目标实体类型的关联实体类型集合;
从上述指定实体集合中包括的与上述目标实体有关联关系的各个指定实体中,确定出实体类型包含于上述关联实体类型集合的一个或者多个指定实体;
将确定出的上述一个或者多个指定实体确定为上述目标实体的关联实体。
第三方面,本申请实施例提供了一种终端设备,该终端设备包括处理器和存储器,该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序,该计算机程序包括程序指令,该处理器被配置用于调用上述程序指令,执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
实施本申请实施例,具有如下有益效果:
基于获取到的至少一个数据来源的实体候选数据,可根据实体候选数据中包括的各个实体的实体参数确定出候选实体,若候选实体包含于指定实体集合中,则可从指定实体集合中提取包括候选实体在内的至少一个指定实体的实体特征,并根据实体特征可确定出目标实体。利用目标实体与指定实体集合中其他指定实体之间的关联关系,可确定出目标实体的至少一个关联实体,并最终生成目标实体集合,既能够及时发现实体,还能够提高实体的召回率和召回效率,适用性高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的实体发现方法的流程示意图;
图2是本申请实施例提供的数据来源示意图;
图3是本申请实施例提供的实体特征示意图;
图4是本申请实施例提供的一度关系扩散的示意图;
图5是本申请实施例提供的一度关系扩散的应用场景示意图;
图6是本申请实施例提供的二度关系扩散的示意图;
图7是本申请实施例提供的三度关系扩散的示意图;
图8是本申请实施例提供的实体发现装置的结构示意图;
图9是本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的实体发现的方法,可广泛适用于各种知识图谱(KnowledgeGraph)或实体联系模式图(Entity-relationship model,ERD)的热门实体更新、热门实体召回或热门实体发现,为方便描述,可以知识图谱中的热门实体更新、热门实体召回或热门实体发现为例进行说明。其中,知识图谱是由Google公司在2012年提出来的一个新的概念,其本质上是一种语义网络,为便于理解,我们也可以将知识图谱理解成多关系图(Multi-relational Graph)。在数据结构中,图(Graph)是由节点(Vertex)和边(Edge)构成,但这些图通常只包含一种类型的节点和边,而多关系图中通常包括了多种类型的节点和多种类型的边。在知识图谱里,每个节点代表“实体(Entity)”,每条边代表实体与实体间的“关系(Relation)”,其中实体指的是现实世界中的事物,比如人名、地名、机构名、概念、专有名词等,关系则用来表达不同实体之间的某种联系,比如人-“居住在”-北京、张三和李四是“朋友”、逻辑回归是深度学习的“先导知识”等等。一般而言,我们所说的热门实体通常包括两类,一类是最近一段时间被提及比较多的实体,比如影视明星,热门电视剧等;另一类是比较重要的实体,其知识更新比较频繁,比如影视明星,综艺节目等。
本申请实施例提供的方法可由用于执行知识图谱中的热门实体更新、热门实体召回或热门实体发现的终端设备或系统执行,其中,终端设备包括但不限于智能手机、平板电脑、笔记本电脑和台式计算机等,在此不做限制。为方便描述,下面将以终端设备为例进行说明。
本申请实施例提供的方法基于获取到的至少一个数据来源的实体候选数据,可根据实体候选数据中包括的各个实体的实体参数从各个实体中确定出候选实体,若候选实体包含于指定实体集合(例如某一个知识图谱)中,则可从指定实体集合中提取包括候选实体在内的至少一个指定实体的实体特征,并根据实体特征可确定出目标实体(例如热门实体)。再利用目标实体与指定实体集合中其他指定实体之间的关联关系,可确定出目标实体的至少一个关联实体,并最终生成目标实体集合(例如热门实体集合)。采用本申请实施例提供的方法,既能够及时发现热门实体,还能够提高热门实体的召回率和召回效率,适用性高。
下面将结合图1至图9分别对本申请实施例提供的方法及相关装置分别进行详细说明。本申请实施例提供的方法中可包括获取实体候选数据、基于实体候选数据中的实体参数确定候选实体、基于从指定实体集合中提取出的指定实体的实体特征确定目标实体、以及基于实体间关联关系确定目标实体的关联实体并生成目标实体集合等数据处理阶段。其中,上述各个数据处理阶段的实现方式可参见如下图1所示的实现方式。
参见图1,图1为本申请实施例提供的实体发现方法的流程示意图。本申请实施例提供的方法可以包括如下步骤101至104:
101、获取至少一个数据来源的实体候选数据,并根据实体候选数据中包括的各个实体的实体参数从各个实体中选取出候选实体。
在一些可行的实施方式中,实体通常不会脱离文本而独立存在,换句话说,实体通常包含在文本中。因此为了增大热门实体的召回率,且能够保证知识更新的全面性以及所召回实体的多样性,我们可选择从多个数据来源中获取以网页形式、日志形式、文本形式和/或表格形式存在的数据作为实体候选数据。其中,数据来源包括但不限于新闻频道、搜索日志及社交平台中的一项或多项,这里,数据来源优选新闻频道,新闻具备时效性高、真实性强和准确性高的特点,从而可增加从新闻频道获取的数据作为实体候选数据的时效性和有效性,适用性更高。参见图2,图2是本申请实施例提供的数据来源示意图,其中,新闻频道包括娱乐频道、科技频道、军事频道和体育频道等。搜索日志包括QQ浏览器中的搜索日志、TT浏览器中的搜索日志或其他任意浏览器或搜索引擎中的搜索日志。社交平台可包括微博、贴吧、讨论组等,具体根据实际应用场景确定,在此不做限制。具体的,通过获取新闻频道中的新闻标题、新闻摘要以及新闻正文中的一项或者多项数据,可将获取到的新闻标题、新闻摘要和/或新闻正文确定为实体候选数据。通过获取搜索日志中的搜索记录及搜索返回结果,可将获取到的搜索记录和搜索返回结果确定为实体候选数据。例如搜索日志中如果记录了搜索记录“《流浪XX》是谁导演的”和搜索的返回结果“《流浪XX》的导演是郭X”,则可将搜索记录“《流浪XX》是谁导演的”和搜索的返回结果“《流浪XX》的导演是郭X”作为实体候选数据。通过获取社交平台中用户的讨论话题,可将获取到的讨论话题确定为实体候选数据。这里的讨论话题可以是讨论次数超过预设讨论次数阈值或是阅读次数超过预设阅读次数阈值或是位于话题榜上前几位的热门话题。通过获取不同数据来源的多种数据作为实体候选数据,并从实体候选数据中提取实体,实体候选数据的数据来源更多样,实体候选数据的数据内容更丰富,从而可增大热门实体的召回率,且可以让知识图谱更加完善。
在一些可行的实施方式中,实体候选数据中除了包括实体,还包括诸如动词、形容词、量词、助词和感叹词等无意义的词性,因此可基于命名实体识别(Named EntityRecognition,NER)算法识别实体候选数据中包括的各个实体,其中,识别出的实体包括人名、地名、机构名、专有名词等,具体可根据实际应用场景确定,在此不做限制。可选的,如果仅使用NER算法有时可能会遗漏一些实体,因此为了提高实体的召回率和准确率,还可以使用分词技术和/或关系抽取技术识别实体候选数据中包括的实体,进而可得到实体候选数据中包括的全部实体。不难理解的是,随着移动互联网的发展和各方面业务需求的不断升级,信息流通所产生的数据正呈井喷式增长,进而使得从实体候选数据中提取出的实体数量或实体个数也非常庞大。因此,为了减轻后续对热门实体进行分类的工作量,可基于实体参数对获取到的全部实体进行热门实体的粗筛选或初步过滤。一般而言,一个实体被提及或被搜索或被看或被更新的次数越多,说明其越受欢迎,也更可能成为热门实体,因此,可将统计得到的实体出现次数或实体更新次数或实体浏览次数作为实体参数,并将各个实体的实体参数与预设实体参数阈值进行比较以选取候选热门实体,为方便描述,简称候选实体。通过设置实体参数阈值,可将实体参数小于实体参数阈值的所有实体进行过滤或去除,操作简便且不易出错。
不难理解的是,基于NER算法和/或分词技术和/或关系抽取技术提取出的全部实体皆来自于各个数据来源的实体候选数据。因此,通过统计提取出的各个实体的实体参数并将各个实体的实体参数存储于实体候选数据中,可基于实体候选数据中包括的各个实体的实体参数与获取的预设实体参数阈值的大小关系,从各个实体中选取出候选实体,其中,实体参数包括但不限于实体出现次数、实体更新次数以及实体浏览次数中的任一项。具体的,若实体候选数据中包括来自单个数据来源的一个或者多个实体(为方便描述,可用第一实体表示来自单个数据来源的实体),则可将上述一个或者多个第一实体中实体参数大于或者等于第一预设实体参数阈值的第一实体确定为候选实体。这里,第一预设实体参数阈值的大小可基于经验值设置,也可基于实体候选数据中出现的实体数量以及各个实体的参数大小来确定以从实体候选数据中包括的大量实体中筛选出更具用户关注的候选实体。其中,上述单个数据来源包括同一类型的单个数据来源。例如,假设新闻频道包括娱乐频道、科技频道、军事频道和体育频道,则第一实体可以为仅来自娱乐频道的新闻数据中的任一实体,或第一实体也可以为仅来自体育频道的新闻数据中的任一实体。
可选的,若实体候选数据中包括来自至少两个数据来源的一个或者多个实体(为方便描述,可用第二实体表示来自至少两个数据来源的实体),则可将任一第二实体在各个数据来源中的实体参数进行求和,并将实体参数之和大于或者等于第二预设实体参数阈值的第二实体确定为候选实体。不难理解的是,热门实体通常不止出现在一种数据来源中,因此通过将各个数据来源中的实体参数进行求和更能体现实体的热度。这里,第二预设实体参数阈值的大小可基于实际情况进行设置,一般而言,由于第二实体是来自多个数据来源的实体,第二实体的实体参数整合了多个数据来源中同一个第二实体的实体参数,实体参数通常较大,因此所设置的第二预设实体参数阈值可大于上述第一预设实体参数阈值。其中,上述至少两个数据来源包括同一类型的不同数据来源或不同类型的不同数据来源。例如,假设新闻频道包括娱乐频道、科技频道、军事频道和体育频道,浏览器包括A浏览器、B浏览器和C浏览器,若第二实体来自同一类型的不同数据来源,则第二实体可以为同时来自娱乐频道和体育频道的新闻数据中的任一实体,若第二实体来自不同类型的不同数据来源,则第二实体可以为同时来自娱乐频道的新闻数据和A浏览器的搜索日志中的任一实体。不难理解的是,由于实体参数包括实体出现次数、实体更新次数以及实体浏览次数中的任一项,因此若实体参数中包括实体出现次数,则第一预设实体出现次数(即第一预设实体参数阈值)可小于第二预设实体出现次数(即第二预设实体参数阈值),若实体参数中包括实体更新次数,则第一预设实体更新次数(即第一预设实体参数阈值)可小于第二预设实体更新次数(即第二预设实体参数阈值)。
可选的,若实体候选数据中包括来自至少两个数据来源的一个或者多个实体(为方便描述,可用第二实体表示来自至少两个数据来源的实体),则可获取任一第二实体的各个实体参数中的最大实体参数,这里,也可用最大实体参数来衡量任一第二实体的热度,于是,可将最大实体参数大于或者等于第一预设实体参数阈值的第二实体确定为候选实体。
举例来说,假设实体候选数据中的各个实体的实体参数包括实体出现次数,且确定候选实体时是基于实体出现次数和第一预设实体出现次数阈值来确定,则基于实体候选数据中来自单个数据来源的一个或者多个第一实体的实体参数从各个实体中选取出候选实体时,可将上述一个或者多个第一实体中实体出现次数大于或者等于第一预设实体出现次数阈值的第一实体确定为候选实体。例如,假设第一预设实体出现次数阈值是300,其中,实体1来自娱乐频道的新闻数据且实体1的实体出现次数是500次,实体2来自体育频道的新闻数据且实体2的实体出现次数是203次,实体3来自A浏览器的搜索日志且实体3的实体出现次数是150次,因此,可将实体出现次数(即500)大于第一预设实体出现次数阈值(即300)的实体1确定为候选实体。
又举例来说,假设实体候选数据中的各个实体的实体参数包括实体出现次数,且确定候选实体时是基于实体出现次数和第二预设实体出现次数阈值来确定,则基于实体候选数据中来自至少两个数据来源的一个或者多个第二实体的实体参数从各个实体中选取出候选实体时,可将任一第二实体在各个数据来源中的实体出现次数进行求和,并将实体出现次数之和大于或者等于第二预设实体出现次数阈值的第二实体确定为候选实体。例如,假设第二预设实体出现次数阈值是1000,其中,实体4来自娱乐频道和体育频道中的新闻数据且实体4在娱乐频道和体育频道的新闻数据中的实体出现次数分别是800次和700次,即实体4的实体出现次数之和为1500次。实体5来自娱乐频道的新闻数据和A浏览器的搜索日志且实体5在娱乐频道的新闻数据和A浏览器的搜索日志中的实体出现次数分别是630次和270次,即实体4的实体出现次数之和为900次。因此,可将实体出现次数之和(即1500)大于或等于第二预设实体出现次数阈值(即1000)的实体4确定为候选实体。
可选的,热门实体除了实体出现次数或实体更新次数或实体浏览次数比较多之外,还可以用实体数据来源数量进行度量,一般而言,一个实体的数据来源越多,说明其越受欢迎,因此实体参数还可以包括实体数据来源数量。具体的,可从实体候选数据中确定出来自至少两个数据来源的一个或者多个实体(为方便描述,可用第三实体表示来自至少两个数据来源的实体),并将一个或者多个第三实体中实体数据来源数量不小于预设数据源数量阈值的第三实体确定为候选实体,这里数据源数量阈值的大小可基于经验值或实际情况设置,在此不做限制。举例来说,假设确定候选实体时是基于实体数据来源数量和预设数据源数量阈值来确定,则基于实体候选数据中来自至少两个数据来源的一个或者多个第三实体的实体参数从各个实体中选取出候选实体时,可将上述一个或者多个第三实体中实体数据来源数量不小于预设数据源数量阈值的第三实体确定为候选实体。例如,假设预设数据源数量阈值是3,其中,实体6来自娱乐频道和体育频道中的新闻数据,即实体6的实体数据来源数量为2。实体7来自娱乐频道和体育频道的新闻数据且还来自A浏览器的搜索日志,即实体7的实体数据来源数量为3。因此,可将实体数据来源数量(即3)大于或等于预设数据源数量阈值(即3)的实体7确定为候选实体。
可选的,为了增大热门实体的召回率和准确率,还可以设置实体的多级筛选。例如,可设置两级筛选,其中,两级筛选的条件可以为当任一第二实体的实体参数之和小于第二预设实体参数阈值时,获取上述任一第二实体的实体参数中的最大实体参数,若最大实体参数不小于第一预设实体参数阈值,则可将该第二实体确定为候选实体。这种筛选方式可将来自多个数据来源但实体参数之和小于第二预设实体参数阈值的实体选取出来作为候选实体,既实现了非热门实体的初步过滤也可以将潜在或可能是热门实体的实体保留下来。又例如,同样是设置两级筛选,可将筛选条件设置为当任一第二实体的实体参数之和小于第二预设实体参数阈值时,获取上述任一第二实体的实体数据来源数量,若实体数据来源数量不小于预设数据源数量阈值,则可将该第二实体确定为候选实体。该筛选方式同样能够将来自多个数据来源但实体参数之和小于第二预设实体参数阈值的实体选取出来作为候选实体,既实现了非热门实体的初步过滤也可以将潜在或可能是热门实体的实体保留下来。
102、若候选实体包含于指定实体集合中,则从指定实体集合中提取包括候选实体在内的至少一个指定实体的实体特征。
在一些可行的实施方式中,随着信息更新速度的加快,可能会出现一些新实体,这里新实体为第一次出现的实体,在本申请实施例中,为了保证知识的全面性,若候选实体为新实体,则可将新实体确定为目标实体(热门实体)。具体的,通过将候选实体与指定实体集合中包括的各个指定实体逐一进行匹配,可确定该候选实体是否包含于指定实体集合中,其中,指定实体集合包括知识图谱、ERD等,在此不做限制。若没有从指定实体集合中匹配出与该候选实体相同的指定实体,说明该候选实体即为新实体,因此则可将该候选实体与指定实体集合中所包括的各个指定实体生成目标实体集合(热门实体集合)。若从上述指定实体集合中匹配到了与候选实体相同的指定实体,则提取该候选实体的实体特征,这里候选实体是来自任一数据来源且包含于指定实体集合中的指定实体。
参见图3,图3是本申请实施例提供的实体特征示意图,其中,每个指定实体的实体特征可包括实体重要度区分值、实体数据来源数量、实体属性数量、实体出现次数、实体更新次数及实体浏览次数中的至少两项且各项实体特征可预先统计并存储在指定实体集合中。这里,实体重要度区分值是用于衡量实体重要程度的指标,尤其针对同名不同义的实体,其重要程度是不一样的。比如“马云”这个实体可能是对应商业人物马云,也可能对应一位叫马云的歌手,因此实体的重要程度就可以用实体重要度区分值来区分。一般情况下,实体重要度区分值可以是取值范围为0到1000之间的整数且实体重要度区分值的取值越高,说明实体越重要。实体数据来源数量是指可以抽取出实体和实体知识的原网站,比如“章某怡”这一实体在某某百科、某瓣、某贴吧等网站都可以找到对应的介绍页面,那么“章某怡”这一实体的实体数据来源数量就是指这些链接网站的数量。不难理解的是,实体数据来源数量也能在侧面反映出实体的重要程度或热度,一般而言实体数据来源数量越多,说明该实体的重要程度或热度越高。实体属性数量是指与该实体有关联关系的其他实体的数量,一般而言实体属性数量越多,说明该实体的重要程度或热度越高。实体出现次数是指实体在一个或多个数据来源的实体候选数据中的出现次数或出现次数之和。实体更新次数是指实体总共被更新的次数,可以理解的是,实体在过去被更新的次数越多,未来越可能被继续更新。实体浏览次数是指实体被看的次数,可以理解的是,实体被看的次数越多,说明该实体越受欢迎。为方便描述,下文提到的实体特征皆包括实体重要度区分值、实体数据来源数量、实体属性数量、实体出现次数、实体更新次数及实体浏览次数这6项特征值。
可选的,在一些可行的实施方式中,指定实体集合中还存在部分指定实体虽然在本次操作中不来自任一数据来源,但本身存在于指定实体集合且被做了标记,因此也可以将此类指定实体(被做了标记的指定实体,比如某些特定类别的实体)作为实体特征提取的对象。这样的好处是一方面能够增大实体的召回率且考虑了实体本身的特性。不难理解的是,之所以在指定实体集合中选择部分指定实体做标记而非对全部指定实体都做标记是因为指定实体集合中包括的类似“术语类”或“字词类”的指定实体的知识信息通常是不会更新的,而例如“软件类”、“产品类”、“人物类”、“影视剧类”或“小说类”等特定类别的指定实体的知识更新往往比较繁杂,因此可将此类指定实体通过做标记或打标签的方式标记为重要实体,以便后续可以对事先做好标记的指定实体进行实体特征的提取。
103、根据至少一个指定实体的实体特征从至少一个指定实体中确定出目标实体,并基于目标实体与指定实体集合中其他指定实体之间的关联关系,从指定实体集合中确定出目标实体的至少一个关联实体。
在一些可行的实施方式中,通过获取至少一个指定实体的实体特征,可得到每个指定实体的实体特征中包括的实体重要度区分值、实体数据来源数量、实体属性数量、实体出现次数、实体更新次数和实体浏览次数等。不难理解的是,由上述步骤提取出的6项特征值可以从不同方面或角度体现指定实体的重要程度或热度,但在实际应用中,并不是只有满足6项特征值都比较大时才是热门实体。换句话说,有的热门实体可能存在某几项特征值较大,但其他特征值比较小的情况,因此为了提高判断的准确性,同时使判断过程的可操作性更强,判断结果更加可靠,可通过将这6项特征值输入实体分类模型,然后基于实体分类模型输出所述至少一个指定实体中所包括的目标实体(即热门实体)。不难理解的是,判断指定实体是否为目标实体是一个二分类问题,其中,实体分类模型的构建可包括实体分类模型的建模数据采集,实体分类模型的训练,以及实体分类模型的测试等数据处理阶段。可以理解的是,实体分类模型的建模数据可以是来自知识图谱或ERD中的实体特征,这里,分类结果可设置为1或0。在进行实体分类模型的训练时,可将由实体特征以及分类结果组成的信息特征对输入实体分类模型的初始网络模型中,其中,初始网络模型可以是线性模型,比如logistic regression、支持向量机(Support Vector Machine,SVM)等,或者初始网络模型也可以是非线性模型,比如基于树形的模型,梯度提升树(Gradient BoostingDecision Tree,GBDT),随机森林等,具体可根据实际应用场景确定,在此不做限制。通过上述初始网络模型对输入的信息特征对中包括的实体特征以及分类结果进行学习,构建输入任一指定实体的实体特征时能够输出对应的分类结果的实体分类模型。实体分类模型构建完成之后,可采集任意几组已知分类结果的实体特征作为实体分类模型的测试数据。并将各组测试数据输入构建完成的实体分类模型,基于实体分类模型输出的分类结果与指定实体的实际分类结果进行比较,若多组测试数据中实体分类模型输出的分类结果与指定实体的实际分类结果相同的概率大于或等于预设精度,说明构建完成的实体分类模型符合构建要求,反之,说明构建完成的实体分类模型不符合构建要求,则继续进行实体分类模型的训练直到符合要求。
可选的,在机器学习领域中,不同评价指标(即实体特征中的不同特征值就是所述的不同评价指标)往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,例如一个指定实体的实体数据来源数量一般为十几个,而实体出现次数一般为几千次,为了消除各个特征值之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。换句话说,通过对原始数据进行数据标准化处理,使得各指标处于同一数量级,以便后续进行综合对比评价。其中,最典型的数据标准化处理方法就是数据的归一化处理,经过归一化处理后的数据可以被限定在一定的范围内(比如[0,1]或者[-1,1])。在本申请实施例中,可采用极差变换法或0均值标准化法对任一指定实体的实体特征中所包括的实体重要度区分值、实体数据来源数量、实体属性数量、实体出现次数、实体更新次数及实体浏览次数等各项特征值(比如6项特征值)分别进行归一化处理以得到各个指定实体对应的归一化处理后的实体特征。通过将归一化后的6项特征值输入实体分类模型可基于实体分类模型输出所述至少一个指定实体中所包括的目标实体(热门实体)。这里,构建实体分类模型时,所采集的建模数据也应该是经过归一化处理后的数据,具体建模过程可参见前一段落所述,在此不再赘述,从而可降低实体分类模型构建过程中的数据处理复杂度,提高数据处理效率。
可选的,在一些可行的实施方式中,热门实体(即目标实体)的发现数量往往很有限,因此为了提高热门实体的召回率和增强热门实体的召回效率,本申请实施例还通过关系扩散的方式得到了更多的热门实体。这里,关系扩散通常为一度关系扩散,其中某一实体通过一度关系扩散获得的实体为与该实体联系紧密或直接相关的实体。例如,如果以一个人的社交圈(这里特指朋友)为例解释一度关系,那么与自身有一度关系的人为自己最熟悉的朋友。此外,通过朋友的介绍,把关系扩展到朋友的朋友,即二度关系,通过朋友的朋友把关系扩展到朋友的朋友的朋友,则为三度关系,以此类推,在此不做限制。
参见图4,图4是本申请实施例提供的一度关系扩散的示意图,通过一度关系扩散得到的热门实体的关联实体为关联实体1、关联实体2和关联实体3。具体地,上述基于NER算法在识别并提取实体候选数据中所包括的各个实体时,还可以对提取出的每个实体做分类。例如我们从娱乐频道的新闻数据中提取出实体“章某怡”,并标记实体类型为“人物类”,或者我们从娱乐频道的新闻数据中提取出实体“流浪XX”,并标记实体类型为“影视剧类”。指定实体集合中包括了各种实体类型对应的各个关联实体类型集合。其中一个实体类型对应了一个关联实体类型集合,一个关联实体类型集合中包括至少一个该实体类型的可扩散实体类型,这里关联实体类型集合中所包括的可扩散实体类型可由用户预先设定。于是,通过从指定实体集合中获取热门实体所属的目标实体类型,进而可从指定实体集合中确定出上述目标实体类型的关联实体类型集合,其中,目标实体类型的关联实体类型集合中包括至少一个目标实体类型的可扩散实体类型。比如,假设目标实体类型是“人物类”,目标实体类型的关联实体类型集合为集合1,其中,集合1中包括的可扩散实体类型为“人物类”和“影视剧类”。通过确定与热门实体(目标实体)有关联关系的所有指定实体分别所属的实体类型,可将得到的每个指定实体的实体类型分别与上述关联实体类型集合中的可扩散实体类型进行比较,进而确定上述每个指定实体的实体类型与目标实体类型的关联实体类型集合间的所属关系,若上述任一指定实体的实体类型包含于目标实体类型的关联实体类型集合,则将所述任一指定实体确定为所述热门实体的关联实体。
举例来说,参见图5,图5是本申请实施例提供的一度关系扩散的应用场景示意图。假设确定出某个热门实体为“张某霖”,其中,热门实体“张某霖”的目标实体类型是“人物类”,则可确定出目标实体类型“人物类”的关联实体类型集合为集合1,其中,集合1中包括的可扩散实体类型为“人物类”和“影视剧类”。在指定实体集合中,与热门实体“张某霖”有一度关系的指定实体包括妻子“袁某仪”、同事“周某豪”、生日“1971年8月27日”、籍贯“香港”、参演作品“《反贪风暴4》”,其中,“袁某仪”和“周某豪”所属的实体类型是“人物类”、“1971年8月27日”所属的实体类型是“日期”、“香港”所属的实体类型是“地名”、“《反贪风暴4》”所属的实体类型是“影视剧类”。通过确定出与热门实体“张某霖”有一度关系的所有指定实体的实体类型,可根据每个指定实体的实体类型与集合1中包括的关联实体类型“人物类”和“影视剧类”的所属关系,确定出热门实体“张某霖”的关联实体为“袁某仪”、“周某豪”和“《反贪风暴4》”。
可选的,在一些可行的实施方式中,除了将确定的热门实体的一度关系对应的实体作为关联实体,还可以将热门实体的二度关系和/或三度关系对应的实体确定为关联实体。参见图6,图6是本申请实施例提供的二度关系扩散的示意图,通过二度关系扩散得到的热门实体的关联实体为关联实体4、关联实体5、关联实体6和关联实体7。参见图7,图7是本申请实施例提供的三度关系扩散的示意图,通过三度关系扩散得到的热门实体的关联实体为关联实体8、关联实体9及关联实体10。不难理解的是,一度关系是与热门实体联系最紧密的实体,而二度关系则为与热门实体联系次紧密的实体,三度关系与热门实体的紧密程度低于二度关系,基于二度关系和/或三度关系扩散发现关联实体的具体实现方式如上述一度关系扩散的实现过程所示,在此不再赘述。
104、根据目标实体以及目标实体的至少一个关联实体生成目标实体集合。
在一些可行的实施方式中,在确定热门实体(目标实体)和热门实体的至少一个关联实体后,可利用所有的热门实体和热门实体的关联实体共同生成目标实体集合,为方便描述,可将目标实体集合中包括的所有实体统称为最终热门实体。不难理解的是,目标实体集合中还可以包括每个最终热门实体对应的至少一个数据来源的统一资源定位符(Uniform Resource Locator,URL)地址,通过提取目标实体集合中的每个最终热门实体对应的各个数据来源的URL地址,可获取到每个最终热门实体对应的实体候选数据,基于实体候选数据完成对最终热门实体的知识更新。
在本申请实施例中,基于命名实体识别算法可从各个新闻频道、搜索日志和/或社交平台等数据来源的实体候选数据中识别并提取出实体候选数据中包括的各个实体及各个实体分别对应的实体参数。其中,实体参数包括实体出现次数、实体更新次数、实体浏览次数以及实体数据来源数量中的任一项。根据各个实体的实体参数与实体参数阈值间的大小关系,可从各个实体中确定出候选实体,若候选实体包含于指定实体集合中,则可从指定实体集合中提取包括候选实体在内的至少一个指定实体的实体特征,其中实体特征包括实体重要度区分值、实体数据来源数量、实体属性数量、实体出现次数、实体更新次数及实体浏览次数。通过将归一化处理后的各个实体特征输入实体分类模型,可基于实体分类模型输出至少一个指定实体中所包括的目标实体。再利用目标实体与指定实体集合中其他指定实体之间的关联关系,可确定出目标实体的至少一个关联实体,并最终生成目标实体集合。采用本申请实施例提供的方法,能够及时发现实体,提高实体的召回率和准确率,适用性高。
参见图8,图8是本申请实施例提供的实体发现装置的结构示意图。本申请实施例提供的实体发现的装置包括:
候选数据获取模块31,用于获取至少一个数据来源的实体候选数据;
候选实体确定模块32,用于根据上述候选数据获取模块31确定的上述实体候选数据中包括的各个实体的实体参数从上述各个实体中选取出候选实体;
实体特征提取模块33,用于若上述候选实体确定模块32确定的上述候选实体包含于指定实体集合中,则从上述指定实体集合中提取包括上述候选实体在内的至少一个指定实体的实体特征;
目标实体确定模块34,用于根据上述实体特征提取模块33确定的上述至少一个指定实体的实体特征从上述至少一个指定实体中确定出目标实体,并基于上述目标实体与上述指定实体集合中其他指定实体之间的关联关系,从上述指定实体集合中确定出上述目标实体的至少一个关联实体;
第一实体集合生成模块35,用于根据上述目标实体确定模块34确定的上述目标实体以及上述目标实体的上述至少一个关联实体生成目标实体集合。
在一些可行的实施方式中,上述装置还包括:
第二实体集合生成模块36,用于若上述候选实体确定模块确定的上述候选实体不包含于上述指定实体集合,则根据上述候选实体和上述指定实体集合中所包括的各个指定实体生成目标实体集合。
在一些可行的实施方式中,上述数据来源包括新闻频道、搜索日志及社交平台中的至少一项;上述候选数据获取模块31具体用于:
获取新闻频道中的新闻标题、新闻摘要以及新闻正文中的一项或者多项数据,并将获取的数据确定为实体候选数据;和/或
获取搜索日志中的搜索记录,并将获取的上述搜索记录确定为实体候选数据;和/或
获取社交平台中的讨论话题,并将获取的上述讨论话题确定为实体候选数据。
在一些可行的实施方式中,上述装置还包括:
实体识别模块37,用于基于命名实体识别算法识别并提取上述实体候选数据中包括的各个实体及上述各个实体的实体参数。
在一些可行的实施方式中,上述实体参数包括实体出现次数、实体更新次数以及实体浏览次数中的任一项;上述候选实体确定模块具体用于:
若上述实体候选数据中包括来自单个数据来源的一个或者多个第一实体,则将上述一个或者多个第一实体中实体参数大于或者等于第一预设实体参数阈值的第一实体确定为候选实体;
若上述实体候选数据中包括来自至少两个数据来源的一个或者多个第二实体,则将任一第二实体在各个数据来源中的实体参数进行求和,并将实体参数之和大于或者等于第二预设实体参数阈值的第二实体确定为候选实体。
在一些可行的实施方式中,上述实体参数包括实体数据来源数量;上述候选实体确定模块32具体用于:
从上述实体候选数据中确定出来自至少两个数据来源的一个或者多个第三实体,并将上述一个或者多个第三实体中实体数据来源数量不小于预设数据源数量阈值的第三实体确定为候选实体。
在一些可行的实施方式中,上述实体特征包括实体重要度区分值、实体数据来源数量、实体属性数量、实体出现次数、实体更新次数及实体浏览次数中的至少两项;上述目标实体确定模块34包括:
目标实体发现单元3401,用于将上述至少一个指定实体中的任一指定实体的各个实体特征分别进行归一化处理以得到各个指定实体对应的归一化处理后的实体特征;
将上述各个指定实体对应的上述归一化处理后的实体特征输入实体分类模型,基于上述实体分类模型输出上述至少一个指定实体中所包括的目标实体;
其中,上述实体分类模型由线性模型和/或非线性模型训练得到且具备识别热度大于或者等于预设热度阈值的实体的能力。
在一些可行的实施方式中,上述目标实体确定模块34包括:
关联实体发现单元3402,用于获取上述目标实体的目标实体类型并确定上述目标实体类型的关联实体类型集合;
从上述指定实体集合中包括的与上述目标实体有关联关系的各个指定实体中,确定出实体类型包含于上述关联实体类型集合的一个或者多个指定实体;
将确定出的上述一个或者多个指定实体确定为上述目标实体的关联实体。
具体实现中,上述实体发现的装置可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式。例如,上述候选数据获取模块31可用于执行上述各个步骤中获取各个数据来源的实体候选数据等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述候选实体确定模块32可用于执行上述各个步骤中基于实体候选数据中的实体参数确定候选实体等相关步骤所描述的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述实体特征提取模块33可用于执行上述各个步骤中确定候选实体的所属关系、提取指定实体的实体特征等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述目标实体确定模块34可用于执行上述各个步骤中基于实体特征确定目标实体以及基于实体间关联关系确定目标实体的关联实体等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述第一实体集合生成模块35可用于执行上述各个步骤中根据目标实体和目标实体的关联实体生成目标实体集合等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述第二实体集合生成模块36可用于执行上述各个步骤中基于候选实体及指定实体集合中的各个指定实体生成目标实体集合等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述实体识别模块37可用于执行上述各个步骤中提取实体候选数据中包括的各个实体以及确定各个实体的实体参数等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,实体发现的装置可基于命名实体识别算法从各个新闻频道、搜索日志和/或社交平台等数据来源的实体候选数据中识别并提取出实体候选数据中包括的各个实体及各个实体分别对应的实体参数。其中,实体参数包括实体出现次数、实体更新次数、实体浏览次数以及实体数据来源数量中的任一项。根据各个实体的实体参数与实体参数阈值间的大小关系,可从各个实体中确定出候选实体,若候选实体包含于指定实体集合中,则可从指定实体集合中提取包括候选实体在内的至少一个指定实体的实体特征,其中实体特征包括实体重要度区分值、实体数据来源数量、实体属性数量、实体出现次数、实体更新次数及实体浏览次数。通过将归一化处理后的各个实体特征输入实体分类模型,可基于实体分类模型输出至少一个指定实体中所包括的目标实体。再利用目标实体与指定实体集合中其他指定实体之间的关联关系,可确定出目标实体的至少一个关联实体,并最终生成目标实体集合。采用本申请实施例提供的方法,能够及时发现实体,提高实体的召回率和准确率,灵活性高,适用范围广。
参见图9,图9是本申请实施例提供的终端设备的结构示意图。如图9所示,本实施例中的终端设备可以包括:一个或多个处理器401和存储器402。上述处理器401和存储器402通过总线403连接。存储器402用于存储计算机程序,该计算机程序包括程序指令,处理器401用于执行存储器402存储的程序指令,执行如下操作:
获取至少一个数据来源的实体候选数据;
根据上述实体候选数据中包括的各个实体的实体参数从上述各个实体中选取出候选实体;
若上述候选实体包含于指定实体集合中,则从上述指定实体集合中提取包括上述候选实体在内的至少一个指定实体的实体特征;
根据上述至少一个指定实体的实体特征从上述至少一个指定实体中确定出目标实体,并基于上述目标实体与上述指定实体集合中其他指定实体之间的关联关系,从上述指定实体集合中确定出上述目标实体的至少一个关联实体;
根据上述目标实体以及上述目标实体的上述至少一个关联实体生成目标实体集合。
在一些可行的实施方式中,上述处理器401用于:
若上述候选实体不包含于上述指定实体集合,则根据上述候选实体和上述指定实体集合中所包括的各个指定实体生成目标实体集合。
在一些可行的实施方式中,上述数据来源包括新闻频道、搜索日志及社交平台中的至少一项;上述处理器401用于:
获取新闻频道中的新闻标题、新闻摘要以及新闻正文中的一项或者多项数据,并将获取的数据确定为实体候选数据;和/或
获取搜索日志中的搜索记录,并将获取的上述搜索记录确定为实体候选数据;和/或
获取社交平台中的讨论话题,并将获取的上述讨论话题确定为实体候选数据。
在一些可行的实施方式中,上述处理器401用于:
基于命名实体识别算法识别并提取上述实体候选数据中包括的各个实体;
从上述实体候选数据中确定出上述各个实体分别对应的实体参数。
在一些可行的实施方式中,上述实体参数包括实体出现次数、实体更新次数以及实体浏览次数中的任一项;上述处理器401用于:
若上述实体候选数据中包括来自单个数据来源的一个或者多个第一实体,则将上述一个或者多个第一实体中实体参数大于或者等于第一预设实体参数阈值的第一实体确定为候选实体;
若上述实体候选数据中包括来自至少两个数据来源的一个或者多个第二实体,则将任一第二实体在各个数据来源中的实体参数进行求和,并将实体参数之和大于或者等于第二预设实体参数阈值的第二实体确定为候选实体。
在一些可行的实施方式中,上述实体参数包括实体数据来源数量;上述处理器401用于:
从上述实体候选数据中确定出来自至少两个数据来源的一个或者多个第三实体,并将上述一个或者多个第三实体中实体数据来源数量不小于预设数据源数量阈值的第三实体确定为候选实体。
在一些可行的实施方式中,上述实体特征包括实体重要度区分值、实体数据来源数量、实体属性数量、实体出现次数、实体更新次数及实体浏览次数中的至少两项;上述处理器401用于:
将上述至少一个指定实体中的任一指定实体的各个实体特征分别进行归一化处理以得到各个指定实体对应的归一化处理后的实体特征;
将上述各个指定实体对应的上述归一化处理后的实体特征输入实体分类模型,基于上述实体分类模型输出上述至少一个指定实体中所包括的目标实体;
其中,上述实体分类模型由线性模型和/或非线性模型训练得到且具备识别热度大于或者等于预设热度阈值的实体的能力。
在一些可行的实施方式中,上述处理器401用于:
获取上述目标实体的目标实体类型并确定上述目标实体类型的关联实体类型集合;
从上述指定实体集合中包括的与上述目标实体有关联关系的各个指定实体中,确定出实体类型包含于上述关联实体类型集合的一个或者多个指定实体;
将确定出的上述一个或者多个指定实体确定为上述目标实体的关联实体。
应当理解,在一些可行的实施方式中,上述处理器401可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器402可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如,存储器402还可以存储设备类型的信息。
具体实现中,上述终端设备可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,终端设备可基于命名实体识别算法从各个新闻频道、搜索日志和/或社交平台等数据来源的实体候选数据中识别并提取出实体候选数据中包括的各个实体及各个实体分别对应的实体参数。其中,实体参数包括实体出现次数、实体更新次数、实体浏览次数以及实体数据来源数量中的任一项。根据各个实体的实体参数与实体参数阈值间的大小关系,可从各个实体中确定出候选实体,若候选实体包含于指定实体集合中,则可从指定实体集合中提取包括候选实体在内的至少一个指定实体的实体特征,其中实体特征包括实体重要度区分值、实体数据来源数量、实体属性数量、实体出现次数、实体更新次数及实体浏览次数。通过将归一化处理后的各个实体特征输入实体分类模型,可基于实体分类模型输出至少一个指定实体中所包括的目标实体。再利用目标实体与指定实体集合中其他指定实体之间的关联关系,可确定出目标实体的至少一个关联实体,并最终生成目标实体集合。采用本申请实施例提供的方法,能够及时发现实体,提高实体的召回率和准确率,灵活性高,适用范围广。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图1中各个步骤所提供的实体发现的方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的实体发现的装置或者上述终端设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smartmedia card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

Claims (10)

1.一种实体发现方法,其特征在于,所述方法包括:
获取至少一个数据来源的实体候选数据;
根据所述实体候选数据中包括的各个实体的实体参数从所述各个实体中选取出候选实体;
若所述候选实体包含于指定实体集合中,则从所述指定实体集合中提取包括所述候选实体在内的至少一个指定实体的实体特征,所述至少一个指定实体中包括所述候选实体和所述指定实体集合中被做了标记的指定实体;
根据所述至少一个指定实体的实体特征从所述至少一个指定实体中确定出目标实体,并基于所述目标实体与所述指定实体集合中其他指定实体之间的关联关系,从所述指定实体集合中确定出所述目标实体的至少一个关联实体;
根据所述目标实体以及所述目标实体的所述至少一个关联实体生成目标实体集合;
其中,所述实体特征包括实体重要度区分值、实体数据来源数量、实体属性数量、实体出现次数、实体更新次数及实体浏览次数中的至少两项;所述根据所述至少一个指定实体的实体特征从所述至少一个指定实体中确定出目标实体,包括:
将所述至少一个指定实体中的任一指定实体的各个实体特征分别进行归一化处理以得到各个指定实体对应的归一化处理后的实体特征;
将所述各个指定实体对应的所述归一化处理后的实体特征输入实体分类模型,基于所述实体分类模型输出所述至少一个指定实体中所包括的目标实体;
其中,所述实体分类模型由线性模型和/或非线性模型训练得到且具备识别热度大于或者等于预设热度阈值的实体的能力。
2.根据权利要求1所述方法,其特征在于,所述方法还包括:
若所述候选实体不包含于所述指定实体集合,则根据所述候选实体和所述指定实体集合中所包括的各个指定实体生成目标实体集合。
3.根据权利要求2所述方法,其特征在于,所述数据来源包括新闻频道、搜索日志及社交平台中的至少一项;所述获取至少一个数据来源的实体候选数据,包括:
获取新闻频道中的新闻标题、新闻摘要以及新闻正文中的一项或者多项数据,并将获取的数据确定为实体候选数据;和/或
获取搜索日志中的搜索记录,并将获取的所述搜索记录确定为实体候选数据;和/或
获取社交平台中的讨论话题,并将获取的所述讨论话题确定为实体候选数据。
4.根据权利要求3所述方法,其特征在于,所述方法还包括:
基于命名实体识别算法识别并提取所述实体候选数据中包括的各个实体;
从所述实体候选数据中确定出所述各个实体分别对应的实体参数。
5.根据权利要求4所述方法,其特征在于,所述实体参数包括实体出现次数、实体更新次数以及实体浏览次数中的任一项;所述根据所述实体候选数据中包括的各个实体的实体参数从所述各个实体中选取出候选实体,包括:
若所述实体候选数据中包括来自单个数据来源的一个或者多个第一实体,则将所述一个或者多个第一实体中实体参数大于或者等于第一预设实体参数阈值的第一实体确定为候选实体;
若所述实体候选数据中包括来自至少两个数据来源的一个或者多个第二实体,则将任一第二实体在各个数据来源中的实体参数进行求和,并将实体参数之和大于或者等于第二预设实体参数阈值的第二实体确定为候选实体。
6.根据权利要求4所述方法,其特征在于,所述实体参数包括实体数据来源数量;所述根据所述实体候选数据中包括的各个实体的实体参数从所述各个实体中选取出候选实体,包括:
从所述实体候选数据中确定出来自至少两个数据来源的一个或者多个第三实体,并将所述一个或者多个第三实体中实体数据来源数量不小于预设数据源数量阈值的第三实体确定为候选实体。
7.根据权利要求1-6任一项所述方法,其特征在于,所述基于所述目标实体与所述指定实体集合中其他指定实体之间的关联关系,从所述指定实体集合中确定出所述目标实体的至少一个关联实体,包括:
获取所述目标实体的目标实体类型并确定所述目标实体类型的关联实体类型集合;
从所述指定实体集合中包括的与所述目标实体有关联关系的各个指定实体中,确定出实体类型包含于所述关联实体类型集合的一个或者多个指定实体;
将确定出的所述一个或者多个指定实体确定为所述目标实体的关联实体。
8.一种实体发现的装置,其特征在于,所述装置包括:
候选数据获取模块,用于获取至少一个数据来源的实体候选数据;
候选实体确定模块,用于根据所述候选数据获取模块确定的所述实体候选数据中包括的各个实体的实体参数从所述各个实体中选取出候选实体;
实体特征提取模块,用于若所述候选实体确定模块确定的所述候选实体包含于指定实体集合中,则从所述指定实体集合中提取包括所述候选实体在内的至少一个指定实体的实体特征,所述至少一个指定实体中包括所述候选实体和所述指定实体集合中被做了标记的指定实体;
目标实体确定模块,用于根据所述实体特征提取模块确定的所述至少一个指定实体的实体特征从所述至少一个指定实体中确定出目标实体,并基于所述目标实体与所述指定实体集合中其他指定实体之间的关联关系,从所述指定实体集合中确定出所述目标实体的至少一个关联实体;
第一实体集合生成模块,用于根据所述目标实体确定模块确定的所述目标实体以及所述目标实体的所述至少一个关联实体生成目标实体集合;
其中,所述实体特征包括实体重要度区分值、实体数据来源数量、实体属性数量、实体出现次数、实体更新次数及实体浏览次数中的至少两项;所述目标实体确定模块包括:
目标实体发现单元,用于将所述至少一个指定实体中的任一指定实体的各个实体特征分别进行归一化处理以得到各个指定实体对应的归一化处理后的实体特征;将所述各个指定实体对应的所述归一化处理后的实体特征输入实体分类模型,基于所述实体分类模型输出所述至少一个指定实体中所包括的目标实体;
其中,所述实体分类模型由线性模型和/或非线性模型训练得到且具备识别热度大于或者等于预设热度阈值的实体的能力。
9.一种终端设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN201910242996.XA 2019-03-28 2019-03-28 实体发现方法及装置 Active CN110008352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910242996.XA CN110008352B (zh) 2019-03-28 2019-03-28 实体发现方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910242996.XA CN110008352B (zh) 2019-03-28 2019-03-28 实体发现方法及装置

Publications (2)

Publication Number Publication Date
CN110008352A CN110008352A (zh) 2019-07-12
CN110008352B true CN110008352B (zh) 2022-12-20

Family

ID=67168611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910242996.XA Active CN110008352B (zh) 2019-03-28 2019-03-28 实体发现方法及装置

Country Status (1)

Country Link
CN (1) CN110008352B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625837B (zh) * 2020-05-22 2023-07-04 北京金山云网络技术有限公司 识别系统漏洞的方法、装置和服务器
CN112633000B (zh) * 2020-12-25 2024-07-09 北京明略软件系统有限公司 一种文本中实体的关联方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992478A (zh) * 2017-11-30 2018-05-04 百度在线网络技术(北京)有限公司 确定热点事件的方法和装置
CN108038183A (zh) * 2017-12-08 2018-05-15 北京百度网讯科技有限公司 结构化实体收录方法、装置、服务器和存储介质
CN108509479A (zh) * 2017-12-13 2018-09-07 深圳市腾讯计算机系统有限公司 实体推荐方法及装置、终端及可读存储介质
CN108536702A (zh) * 2017-03-02 2018-09-14 腾讯科技(深圳)有限公司 一种相关实体确定方法、装置及计算设备
CN109189938A (zh) * 2018-08-31 2019-01-11 北京字节跳动网络技术有限公司 用于更新知识图谱的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9229988B2 (en) * 2013-01-18 2016-01-05 Microsoft Technology Licensing, Llc Ranking relevant attributes of entity in structured knowledge base
US20160292281A1 (en) * 2015-04-01 2016-10-06 Microsoft Technology Licensing, Llc Obtaining content based upon aspect of entity
US10333816B2 (en) * 2015-09-22 2019-06-25 Ca, Inc. Key network entity detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536702A (zh) * 2017-03-02 2018-09-14 腾讯科技(深圳)有限公司 一种相关实体确定方法、装置及计算设备
CN107992478A (zh) * 2017-11-30 2018-05-04 百度在线网络技术(北京)有限公司 确定热点事件的方法和装置
CN108038183A (zh) * 2017-12-08 2018-05-15 北京百度网讯科技有限公司 结构化实体收录方法、装置、服务器和存储介质
CN108509479A (zh) * 2017-12-13 2018-09-07 深圳市腾讯计算机系统有限公司 实体推荐方法及装置、终端及可读存储介质
CN109189938A (zh) * 2018-08-31 2019-01-11 北京字节跳动网络技术有限公司 用于更新知识图谱的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Discovering emerging entities with ambiguous names;Johannes Hoffart等;《Proceedings of the 23rd International World Wide Web Conference》;20140430;385-395 *
面向自然语言查询的知识搜索关键技术研究;黄鹏程;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20160715(第7期);I138-1243 *

Also Published As

Publication number Publication date
CN110008352A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN106874279B (zh) 生成应用类别标签的方法及装置
WO2017045443A1 (zh) 一种图像检索方法及系统
CN110413738B (zh) 一种信息处理方法、装置、服务器及存储介质
US20120323839A1 (en) Entity recognition using probabilities for out-of-collection data
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
CN111241389B (zh) 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
JP2013504118A (ja) クエリのセマンティックパターンに基づく情報検索
Im et al. Linked tag: image annotation using semantic relationships between image tags
CN111797239A (zh) 应用程序的分类方法、装置及终端设备
CN109635073A (zh) 论坛社区应用管理方法、装置、设备及计算机可读存储介质
US20220237240A1 (en) Method and apparatus for collecting information regarding dark web
CN112148701A (zh) 一种文件检索的方法及设备
CN110209721A (zh) 判决文书调取方法、装置、服务器及存储介质
CN112507167A (zh) 一种识别视频合集的方法、装置、电子设备及存储介质
CN111737577A (zh) 一种基于业务平台的数据查询方法、装置、设备和介质
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN110008352B (zh) 实体发现方法及装置
CN116189215A (zh) 自动审核方法、装置、电子设备及存储介质
CN108875050B (zh) 面向文本的数字取证分析方法、装置和计算机可读介质
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN110347922A (zh) 基于相似度的推荐方法、装置、设备和存储介质
CN117493645B (zh) 一种基于大数据的电子档案推荐系统
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN105512270B (zh) 一种确定相关对象的方法和装置
CN107577667B (zh) 一种实体词处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant