Nothing Special   »   [go: up one dir, main page]

CN106716402B - 以实体为中心的知识发现 - Google Patents

以实体为中心的知识发现 Download PDF

Info

Publication number
CN106716402B
CN106716402B CN201580037649.3A CN201580037649A CN106716402B CN 106716402 B CN106716402 B CN 106716402B CN 201580037649 A CN201580037649 A CN 201580037649A CN 106716402 B CN106716402 B CN 106716402B
Authority
CN
China
Prior art keywords
entity
search results
profile
data
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580037649.3A
Other languages
English (en)
Other versions
CN106716402A (zh
Inventor
D.A.罗伯茨
M.克莱曼维纳
J.R.弗兰克
B.A.奥尔森
D.Z.梅泽
A.R.加兰特
J.J.M.贝拉尼奇
T.M.迪伯瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuo Power Co
Original Assignee
Salesforce com Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Salesforce com Inc filed Critical Salesforce com Inc
Publication of CN106716402A publication Critical patent/CN106716402A/zh
Application granted granted Critical
Publication of CN106716402B publication Critical patent/CN106716402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3349Reuse of stored results of previous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

以实体为中心的知识发现系统的用户接口呈现包括涉及实体的结构化和非结构化数据的混合的实体简档。因为用户基于从各种源聚集的信息来细化实体简档,所以可以使用改变的实体简档作为基本上连续地更新的查询来搜索、检索和排列与被扼要描述的实体具体地相关的新且相关的信息。本文中描述的平台提供了用于细化实体描述和搜索附加信息的活动环路,其中人类输入和基于机器的算法可以合作以更快速地构建对感兴趣的实体的综合描述。

Description

以实体为中心的知识发现
相关申请
本申请要求2014年5月12日提交的美国临时申请号61/996,575以及2014年8月28日提交的美国临时申请号62/070,549的优先权,所述美国临时申请中的每个被特此通过引用整体地结合。
技术领域
本公开一般地涉及以实体为中心的知识发现。
背景技术
许多信息检索任务是以实体为中心的,并且集中在具有公知且强类型的属性的特定类型的实体上。例如,诸如公司之类的实体可能具有许多雇员、股票代号、营业地址、季度收入日期以及涉及日期、美元总额、地理位置等的许多其它已知的属性。类似地,可以通过生日、家庭地址、社交图等来表征人。从非结构化或半结构化数据之中搜索关于实体的新信息要求对实体的描述和响应于该描述而检索的文档的内容两者的注意。虽然已经开发了诸如折叠树之类的工具来帮助聚集该类型的信息并对其进行分类,但仍有对用于使用户发现数据并将数据聚集到实体的简档中的改进的工具的需要。
发明内容
以实体为中心的知识发现系统的用户接口呈现包括涉及实体的结构化和非结构化数据的混合的实体简档。因为用户基于从各种源聚集的信息来细化实体简档,所以可以使用改变的实体简档作为基本上连续地更新的查询来搜索、检索和排列具体地与被扼要描述的实体有关的新的且相关的信息。本文中描述的平台提供了用于细化实体描述并搜索附加信息的活动环路,其中人类输入和基于机器的算法可以合作以更快速地构建对感兴趣的实体的综合描述。
在一个方面中,一种具有体现在非临时计算机可读介质中的计算机可执行代码的计算机程序产品当在一个或多个计算设备上执行时实行以下步骤:在显示器中提供第一窗口,其接受包含关于实体的信息的简档的用户输入,所述信息包括实体的一个或多个区别性属性的一个或多个值;以及在显示器中提供与第一窗口同时地可见的第二窗口,其中第二窗口示出来自一个或多个源的多个搜索结果,所述多个搜索结果用提到实体的预定可能性来标识每个包含提及的文档。第二窗口可以按照使用根据一个或多个预定准则相对于该多个搜索结果中的其它搜索结果优先地排列搜索结果中的至少一个的算法排列的顺序来显示搜索结果。代码还可以执行将搜索结果中的一个的内容显示为显示器中的项目的步骤,其中第一窗口通过将该项目添加到第一窗口而对项目的用户选择进行响应,从而提供简档中的改变,并且进一步地,其中第二窗口通过提供经更新的搜索结果而对简档中的改变进行响应。
实现可以具有以下特征中的一个或多个。区别性属性中的一个可以是实体的名称。提供经更新的搜索结果可以包括在显示器中呈现经更新的搜索结果、响应于用以保存改变的用户动作而呈现经更新的搜索结果、响应于请求经更新的搜索结果的用户动作而呈现经更新的搜索结果,或者在显示器中呈现经更新的搜索结果的可用性的指示。代码还可以执行如下步骤:确定实体的类型,该类型具有针对该类型组织包括一个或多个区别性属性的多个属性的预定概要(schema)。代码还可以执行如下步骤:在显示器中提供经更新的搜索结果的指示。经更新的搜索结果的指示可以包括第二窗口中的经更新的搜索结果的呈现以及给用户的经更新的搜索结果可用的通知的呈现中的至少一个。代码还可以执行如下步骤:接收用以显示经更新的搜索结果的用户请求并响应性地在显示器中呈现经更新的搜索结果。一个或多个预定准则可以包括如下中的一个或多个:搜索结果提到实体的可能性、搜索结果提供关于实体的新信息项的可能性以及搜索结果与实体的相关性。代码还可以执行如下步骤:使用根据简档的状态而变化的排列函数基于一个或多个预定准则来排列搜索结果。简档可以包括:一个或多个超链接;一个或多个显式字段;以及纯文本。实体可以包括人、公司、组织或化学组成。数据的用户选择可以包括项目到第一窗口的拖放。该拖放可以:创建针对简档中的改变的引用,其中该引用参考与用户选择相关联的搜索结果中的一个;创建针对简档中的改变的维基参考标签,其中维基参考标签参考包含用户选择的搜索结果中的一个;和/或在简档中创建与项目中的所选文本条目相对应的文本条目。代码还可以执行如下步骤:以突出项目中的实体的提及的方式显示所述项目。代码还可以执行如下步骤:以突出项目中的关于实体的新信息的方式显示所述项目。第二窗口可以对从第一窗口进行的信息的用户选择进行响应以根据对信息的用户兴趣的推断指示来更新第二窗口中的搜索结果。第一窗口可以包括:文本编辑工具、超文本标记语言(HTML)编辑工具;和/或维基编辑工具。简档可以包括:半结构化文档;关于实体的非结构化数据;关于实体的结构化数据;具有预定义数据模型的数据;没有预定义数据模型的数据;分字段数据;语义标记数据;具有在简档中并未正式地定义的隐含结构的数据;和/或包括文本文档和HTML文档中的一个或多个的可编辑文档。代码还可以执行如下步骤:在被配置成显示从第二窗口选择的搜索结果中的一个的第三窗口中显示所述项目。
在另一方面中,一种设备包括处理器、网络接口以及存储计算机可执行指令的存储器,该计算机可执行指令当在处理器上执行时执行步骤:在显示器中提供第一窗口,其接受包含关于实体的信息的简档的用户输入,所述信息包括用于实体的一个或多个区别性属性的一个或多个值;以及
在显示器中提供与第一窗口同时地可见的第二窗口,其中第二窗口示出了来自一个或多个源的多个搜索结果,该搜索结果用提到实体的预定可能性来标识每个包含提及的文档。第二窗口可以按照使用根据一个或多个预定准则将搜索结果中的至少一个相对于所述多个搜索结果中的其它搜索结果的优先排列的算法排列的顺序来显示搜索结果。该计算机可执行指令还可以将搜索结果中的一个的内容显示为显示器中的项目,其中第一窗口通过将该项目添加到第一窗口而对项目的用户选择进行响应,从而提供简档中的改变,并且进一步地,其中第二窗口通过提供经更新的搜索结果对简档中的改变进行响应。
在另一方面中,一种方法包括:在显示器中提供第一窗口,其接受包含关于实体的信息的简档的用户输入,所述信息包括用于实体的一个或多个区别性属性的一个或多个值;在显示器中提供与第一窗口同时地可见的第二窗口,其中第二窗口示出了来自一个或多个源的多个搜索结果,其用提到实体的预定可能性来标识每个包含提及的文档。第二窗口可以按照使用根据一个或多个预定准则将搜索结果中的至少一个相对于所述多个搜索结果中的其它搜索结果的优先排列的算法排列的顺序来显示搜索结果。方法还可以包括将搜索结果中的一个的内容显示为显示器中的项目,其中第一窗口通过将该项目添加到第一窗口而对项目的用户选择进行响应,从而提供简档中的改变,并且进一步地,其中第二窗口通过提供经更新的搜索结果对简档中的改变进行响应。
在一个方面中,一种包括在非临时计算机可读介质中体现的计算机可执行代码的计算机程序产品,该计算机可执行代码当在一个或多个计算设备上执行时执行步骤:在显示器中提供第一窗口,其接受包含关于实体的信息的简档的用户输入,所述信息包括用于实体的一个或多个区别性属性的一个或多个值;以及在显示器中提供与第一窗口同时地可见的第二窗口,其中第二窗口示出了来自一个或多个源的多个搜索结果,其用提到实体的预定可能性来标识每个包含提及的文档,并且其中第二窗口按照使用根据一个或多个预定准则将搜索结果中的至少一个相对于所述多个搜索结果中的其它搜索结果的优先排列的算法排列的顺序来显示搜索结果。代码还可以执行如下步骤:在显示器中提供与第一和第二窗口同时地可见的第三窗口,所述第三窗口显示搜索结果中的一个的内容,其中第一窗口被操作耦合到第三窗口以从第三窗口接收所选数据的用户选择并将所选数据放入第一窗口中,从而提供简档中的改变,其中所述第二窗口对简档中的改变进行响应而更新搜索结果,并且其中第三窗口对第二窗口中的搜索结果中的所选的一个的选择进行响应而在第三窗口中显示搜索结果中的所选的一个的内容。
在另一方面中,一种方法包括:将实体简档存储在包含半结构化数据的可编辑文档中,所述半结构化数据包括具有预定义数据模型的第一数据和不具有预定义数据模型的第二数据,所述实体简档描述了具有一种类型的实体,该类型具有包括实体的一个或多个区别性属性以及用于所述一个或多个区别性属性中的至少一个的值的预定概要;在用户接口中向用户显示实体简档;检测导致已修改实体简档的对用户接口中的实体简档的用户修改;响应于该用户修改针对在已修改实体简档中指定的实体的提及而自动地执行基于实体的搜索,从而检索一个或多个搜索结果;以及向用户显示一个或多个搜索结果。
实现可以具有以下特征中的一个或多个。方法还可以包括根据搜索结果提到实体的置信度水平将搜索结果中的一个排列。方法还可以包括根据搜索结果提供关于实体的新信息向的置信度水平而将搜索结果中的一个排列。实体简档可以包括如下中的一个或多个:超链接、显式字段以及纯文本。实体可以包括人、公司、组织或化合物。用户修改可以包括数据到可编辑文档中的拖放。该拖放可以:参考数据源来创建用于数据的引用;参考数据源来创建用于数据的维基参考标签;和/或在实体简档中创建对应于内容源中的所选文本条目的文本条目。一个或多个搜索结果可以包括突出一个或多个搜索结果宏的实体的提及和/或突出一个或多个搜索结果中的新信息项。用户修改可以包括实体简档中的信息的用户选择,从而提供对信息的用户兴趣的推断指示。用户接口可以包括如下中的一个或多个:用于可编辑文档的文本编辑工具、用于可编辑文档的超文本标记语言(HTML)编辑工具以及用于可编辑文档的维基编辑工具。实体简档可以包括:关于实体的非结构化数据、关于实体的结构化数据、分字段数据、语义标记数据和/或具有在实体见当内并未正式定义的隐含结构的数据。可编辑文档可以包括文本文档和HTML文档中的一个或多个。
在另一方面,一种用于提供实时搜索文档的计算机程序产品,该计算机程序产品包括在非临时计算机可读介质中体现的计算机可执行代码,该计算机可执行代码当在一个或多个计算设备上执行时执行步骤:将实体简档存储在包含半结构化数据的可编辑文档中,所述半结构化数据包括具有预定义数据模型的第一数据和不具有预定义数据模型的第二数据,所述实体简档描述了具有一种类型的实体,该类型具有包括实体的一个或多个区别性属性以及用于所述一个或多个区别性属性中的至少一个的值的预定概要;在用户接口中向用户显示实体简档;检测导致已修改实体简档的对用户接口中的实体简档的用户修改;响应于该用户修改针对在已修改实体简档中指定的实体的提及而自动地执行基于实体的搜索,从而检索一个或多个搜索结果;以及向用户显示一个或多个搜索结果。
在一个方面中,一种系统包括:存储器,其存储用于具有预定类型的实体的实体简档;搜搜引擎,其被配置成执行基于实体简档在文档的源中定位实体的可能提及的基于实体的搜索;显示器,其被配置成向用户显示实体简档和包含实体的可能提及的一个或多个文档;以及处理器,其被配置成检测将实体简档修改成已修改实体简档的用户输入,基于已修改实体简档向搜索引擎提出搜索请求,并在显示器中显示该搜索请求的结果。
实现可以具有以下特征中的一个或多个。处理器可以自动地检测用户输入,并且响应于用户输入而自动地提出搜索请求并显示结果。处理器可以从用户接收人工请求以基于已修改实体简档而提出搜索请求。搜索引擎可以被配置成根据搜索结果提到实体的置信度水平而将包括在搜索请求的结果中的搜索结果排列。搜索引擎可以被配置成根据搜索结果提供用于实体的新信息项的置信度水平而将包括在搜索请求的结果中的搜索结果排列。实体简档可以包括:一个或多个超链接、一个或多个显式字段和/或纯文本。实体可以包括人、公司、组织或化合物。用户输入可以包括数据从一个或多个文档到实体简档中的拖放。该拖放可以:用于已修改实体简档的引用,其中该引用参考包含数据的一个或多个文档;创建用于已修改实体简档的维基参考标签,其中维基参考标签参考包含数据的一个或多个文档;和/或在已修改实体简档中创建与从一个或多个文档选择的文本条目相对应的文本条目。一个或多个文档可以包括实体的提及的突出和/或关于实体的新信息项的突出。用户输入可以包括实体简档内的信息的用户选择,从而提供对信息的用户兴趣的推断指示。显示可以包括文本编辑工具、超文本标记语言(HTML)编辑工具和/或维基编辑工具中的一个或多个。实体简档可以包括:半结构化文档、关于实体的非结构化数据、关于实体的结构化数据、具有预定义数据模型的数据、没有预定义数据模型的数据、分字段数据、语义标记数据、具有在实体简档内并未正式定义的隐含结构的数据和/或包括文本文档和HTML文档中的一个或多个的可编辑文档。
附图说明
如附图中图示的那样,根据本文中描述的设备、系统以及方法的特定实施例的以下描述,所述设备、系统以及方法的前述及其它目的、特征和优点将是显而易见的。图不一定按比例,代之以着重于图示出本文中描述的设备、系统以及方法的原理。
图1示出了用于以实体为中心的信息检索和聚合的联网环境。
图2图示出将数据从二进制表示反序列化成结构化数据。
图3示出了将信息组织到实体简档中。
图4示出了用于以实体为中心的信息检索和聚合的接口。
图5示出了用于以实体为中心的搜索结果的相关性和置信度的交换(trading)的接口控制元素。
图6示出了供在基于实体的搜索中使用的书签工具。
图7示出了用于提供用于以实体为中心的信息检索和聚合的接口的方法。
图8示出了用于以实体为中心的信息检索和聚合的方法。
具体实施方式
现在将参考附图来描述详细实施例。然而,前述可以用许多不同的形式来体现并且不应被解释为限于在本文中阐述的图示实施例。
本文中提到的所有文档被特此通过引用整体地结合。应将单数的对项目的参考理解成包括复数的项目,并且反之亦然,除非另外显式地声明或者从文本清楚。语法连接词意图表达连结的子句、句子、单词等的任何和所有分隔和连接组合,除非另外声明或者从上下文清楚。因此,应将术语“或”一般地理解成意味着“和/或”等。
本文中的值的范围的详述不意图是限制性的,而是单独地涉及落在该范围内的任何和所有值,除非在本文中另外指出,并且此类范围内的每个单独值被结合到本说明书中,如同其在本文中被单独地叙述一样。单词“大约”、“近似”等当伴随数值时要被解释为指示如由本领域普通技术人员将领会的为了预期目的而令人满意地操作的偏差。值和/或数值的范围在本文中仅被提供作为示例,并且不构成对所描述的实施例的范围的限制。在本文中提供的任何和所有示例或示例性语言(“例如”、“诸如”等)的使用仅意图更好地阐明实施例明并且不对实施例的范围造成限制。不应将本说明书中的语言解释为将任何未要求保护的元素指示为对实施例的实施而言必不可少的。
在以下描述中,应理解诸如“第一”、“第二”、“顶部”、“底部”、“上”、“下”等的术语是方便性的词语并且不应被解释为限制性术语。
图1示出了用于以实体为中心的信息检索和聚合的联网环境。一般地,环境100可以包括以通信关系将多个参与设备互连的数据网络102。参与设备可以例如包括任何数目的客户端设备104、服务器106、内容源108及其它资源110。
数据网络102可以是适合于在环境100中的参与者之间传送数据和信息的任何(一个或多个)网络或(一个或多个)互联网络。这可以包括诸如因特网之类的公共网络、私有网络、诸如公共交换电话网或使用第三代(例如,3G或IMT-2000)、第四代(例如,LTE(E-UTRA)或高级WiMax(IEEE 802.16m))和/或其它技术的蜂窝网络之类的电信网络,以及可能用来在环境100中的参与者之间载送数据的多种企业区域网或局域网及其它交换机、路由器、集线器、网关等中的任何。
数据网络102的每个参与者可以包括适当的网络接口,其包括例如网络接口卡,该术语在本文中被宽泛地用来包括适合于建立和维持有线和/或无线通信的任何硬件(连同用以控制相同操作的软件、固件等)。网络接口卡可以包括而不限于有线以太网接口卡(“NIC”)、无线802.11联网卡、无线802.11 USB设备或用于有线或无线局域联网的其它硬件。网络接口可以同样或替代地包括蜂窝网络硬件、广域无线网硬件或用于可能被用来连接到网络并载送数据的集中式、自组织、端到端或其它无线电通信的任何其它硬件。在另一方面中,网络接口可以包括用以直接地连接到诸如台式计算机之类的本地计算设备的串行或USB端口,所述本地计算设备进而提供到数据网络102的更一般的网络连通性。
客户端设备104可以包括环境100内的由用户操作用于实施如在本文中设想的以实体为中心的信息检索和聚合技术的任何设备。具体地,客户端设备104可以包括用于发起和进行搜索、聚集信息、草拟实体简档、执行其它研究任务等以及管理、监视在本文中设想的系统和方法中包括的工具、平台以及设备或者以其他方式与所述工具、平台以及设备相交互的任何设备。举例来说,客户端设备104可以包括一个或多个台式计算机、膝上型计算机、网络计算机、平板计算机、移动设备、便携式数字助理、消息传送设备、蜂窝电话、智能电话、便携式媒体或娱乐设备,或者如本文中设想的可以参与环境100的任何其它计算设备。如上面讨论的那样,客户端设备104可以包括可能被用来与联网环境100相交互的任何形式的移动设备,诸如任何无线、电池供电的设备。还将领会的是客户端设备104中的一个可以在相关功能(例如,搜索、存储实体简档等)被另一实体(诸如服务器106、内容源108或其它资源110中的一个)执行时协调所述相关功能。
每个客户端设备104一般地可以提供用户接口,诸如本文中描述的任何用户接口。用户接口可以由在从例如服务器106和内容源108接收关于实体的数据的客户端设备104中的一个上的本地执行应用来维持。在其它实施例中,诸如在服务器106或其它资源110中的一个包括web服务器的情况下,所述web服务器通过可以在客户端设备104中的一个上执行的web浏览器或类似客户端内显示的一个或多个web页面等来提供信息,可以远程地提供并在客户端设备104中的一个上呈现用户接口。用户接口一般地可以创建用于客户端设备104中的一个的显示设备上的用户交互的适当视觉呈现,并且提供接收任何适当形式的用户输入,包括例如来自键盘、鼠标、触控板、触摸屏、手势或(一个或多个)其它用户输入设备的输入。
服务器106可以包括数据储存器、网络接口以及处理器和/或其它处理电路。在以下描述中,其中描述了服务器106的功能或配置,这意图包括服务器106的处理器的(例如,通过编程的)相应功能或配置。一般地,服务器106(或其处理器)可以执行与本文中讨论的以实体为中心的信息检索和聚合技术相关的多种处理任务。例如,服务器106可以管理从客户端设备104中的一个或多个接收到的信息,并且提供相关支持功能,诸如数据的搜索和管理。服务器106可以同样或替代地包括对由用户在客户端设备104中的一个或多个处执行的动作做出反应的后端算法。该后端算法可以同样或替代地位于环境100中的别处。
服务器106还可以包括促进由客户端设备104对服务器106的能力的基于web的访问的web服务器或类似前端。服务器106可以同样或替代地与内容源108及其它资源110通信以便获得用于通过客户端设备104上的用户接口而提供给用户的信息。在用户指定诸如搜索类型、语言过滤器、相关性准则(例如,用于确定搜索结果与实体的相关性)、置信度准则(例如,用于确定结果是否涉及特定实体)等的搜索准则或者例如通过对在客户端设备104上包括的实体简档上执行的动作而另外指定搜索准则的情况下,此信息可以被服务器106(和任何关联算法)用来访问其它资源,诸如内容源108或其它资源110,以检索相关或新信息并重新排列搜索结果。在此背景下可以有用地执行附加处理,诸如向用户推荐新的搜索策略或者向用户推荐潜在地新的信息用于添加到实体简档。
服务器106还可以维持内容的数据库112连同用于使用户在客户端设备104处使用本文中提供的任何技术(例如,自动地通过对实体简档执行的动作)来执行数据库内容的搜索和检索的接口。因此,在一个方面中,服务器106(或包括服务器106的任何系统)可以包括实体信息的数据库112,并且服务器106可以充当提供搜索引擎的服务器,所述搜索引擎用于定位数据库112中的特定属性并提供支持服务(诸如被定位的文档的检索)。
在另一方面中,服务器106可以通过周期性地搜索数据网络102上的远程位置处的内容并为任何得到的内容编索引以用于由客户端104的后续搜索来支持搜索活动。这可以包括存储特定文档的位置或地址信息以及以任何适当方式来解析文档以标识单词、图像、媒体、元数据等,以及特征矢量或其它衍生数据的创建以帮助类似类型比较、相异比较或其它分析。在一个方面中,可以根据任何期望标准来人工地管理数据库112。服务器106可以提供或者以其他方式支持诸如本文中描述的任何接口之类的接口,其可以在客户端104处被提供给用户。
服务器106可以同样或替代地被配置成诸如通过提供用于管理对内容的源的订阅的接口来跟踪经组织的内容等。这可以包括用于搜索现有订阅、定位或指定新的源、订阅内容的源等的工具。在一个方面中,服务器106可以管理订阅并根据来自用户的输入而自动地将新内容从这些订阅引导至客户端设备104。因此,虽然设想客户端设备104可以通过网络接口来自主地订阅内容的源并直接地从此类源接收新内容,但还设想可以通过诸如服务器106之类的远程资源来维持此特征。
内容源108可以包括能够被本文中描述的技术利用例如用以更新或细化由用户创建的实体简档的以任何结构化、半结构化或非结构化格式的数据或信息的任何源。例如,内容源108可以包括而不限于web页面(例如,公共或私人页面)、搜索引擎或搜索服务、到各种搜索服务的接口、到远程数据源的应用程序接口(API)、本地或远程数据库(例如,私人数据库、企业数据库、政府数据库、机构数据库、教育数据库等)、库、其它在线资源、社交网络、计算机程序和应用、其它实体简档等。内容源108可以包括各种类型的信息和数据,其包括而不限于文本信息(例如,出版或未出版的信息,诸如书、刊物、期刊、杂志、报纸、论文、报告、法律文档、报告者、字典、百科全书、博客、维基等)、图形信息(例如,图表、曲线图、表格等)、图像或其它视觉数据(例如,照片、图画、油画、平面图、透视图、模型、草图、图解、计算机辅助设计等)、音频数据、数值数据、地理数据、科学数据(例如,化学组成、科学配方等)、数学数据等。
其它资源110可以包括可以在如本文中描述的设备、系统以及方法中有用地采用的任何源。例如,其它资源110可以包括而不限于其它数据网络、人类行动者(例如,程序员、研究员、注释者、编辑等)、传感器(例如,音频或视觉传感器)、文本挖掘工具、web爬行器、知识库加速(KBA)工具或其它内容监视工具等。其它资源110可以同样或替代地包括可以在如本文中设想的联网应用中有用地采用的任何其它软件或硬件资源。例如,其它资源110可以包括用来授权用于内容订阅、内容购买或其它的支付的支付处理服务器或平台。作为另一示例,其它资源110可以包括可以例如用来共享实体简档或由用户进行的其它研究或者作为实体信息的附加源的社交联网平台。在另一方面中,其它资源110可以包括用于身份的第三方验证、内容的加密或解密等的证书服务器或其它安全资源。在另一方面中,其它资源110可以包括与客户端设备104中的一个位于同一地点(例如,在与所述客户端设备104中的一个相同的局域网上或者通过串行或USB电缆直接地耦合到所述客户端设备104中的一个)的台式计算机等。在此情况下,其它资源110可以为客户端设备104提供补充功能。其它资源110还包括诸如扫描仪、相机、打印机等的补充资源。
环境100可以包括一个或多个web服务器114,其向和从环境100中的任何其它参与者提供基于web的访问。虽然被描绘为单独的网络实体,但将很容易领会的是web服务器114可以与本文中描述的其它设备中的一个逻辑上或物理上相关联,并且可以例如以允许通过数据网络102的例如来自客户端设备104的用户交互的方式而包括或提供用于对服务器106(或被耦合到其的数据库112)中的一个、内容源108中的一个或其它资源110中的任何的web访问的用户接口。
将理解的是环境100中的参与者可以包括用以执行如本文中描述的各种功能的任何硬件或软件。例如,客户端设备104和服务器106中的一个或多个可以包括存储器和处理器。
上面描述的联网环境100的各种组件可以被布置和配置成以多种方式支持本文中描述的技术。例如,在一个方面中,客户端设备104通过数据网络102连接到服务器106,所述服务器106执行与以实体为中心的信息检索和聚合相关的多种处理任务。例如,服务器106可以主控运行以实体为中心的信息检索和聚合程序的web站点,其中用户构建被用作用于搜索、检索和排列与实体相关的信息的查询的实体简档。以此方式,在用户在客户端设备104上显示的接口上构建实体简档时,服务器106可以使用内容源108、其它资源110或数据库112来更新针对与实体简档相关的新且相关的信息的搜索。如下面更详细地讨论的那样,服务器106(或环境100中的另一参与者)可以包括一个或多个算法,其定义搜索并允许服务器106对已对以实体为中心的信息检索和聚合程序采取的动作(诸如对实体简档做出的修正或信息的选择)做出反应。
图2图示出将数据从二进制表示反序列化成结构化数据。一般地,“数据”可以指代在计算机系统中存储或体现的任何可解释内容。“非结构化数据”可以指代不具有预定义数据模型或者并未以预定义方式组织的计算机可读介质。“结构化数据”可以指代具有指定允许数据在没有人类干预或其它辅助的情况下被计算机解释的例如数据类型、关系、枚举等的数据模型的数据。“半结构化数据”可以指代包含被混合在一起的结构化和非结构化数据两者的数据。
图2包括各种数据表示(即第一数据表示202、第二数据表示204、第三数据表示206、第四数据表示208以及第五数据表示226)以及各种工具(即,第一工具210、第二工具212、第三工具214以及第四工具224)。
第一数据表示202可以包括以原始数据216的形式的非结构化数据,诸如被布置成尚未被处理或解释以汇编信息的结构化表示的字节或数的阵列的位序列。原始数据216可以适合于存储在诸如文件、盘或可寻址存储器之类的物理介质中。第一数据表示202因此可以包括以原始物理形式的在本文中设想的任何其它数据类型。
原始数据216可以被读取成结构,诸如可显示符号(例如,Unicode字符)、可枚举列表或集合,或者诸如列表和符号的串之间的映射的复合结构。结构的示例性形式是枚举或“enum”,其可以为变量提供可能值的预定且固定的列表。例如,如果特定变量被定义成从包含三个颜色红色、绿色以及蓝色的enum获取其值,则将数据片解释为表示此变量的计算机程序可以将数据变换成这三个颜色中的一个的表示。
如图中所示,第一工具210可以将原始数据216反序列化为过程中的第一步骤以向原始数据216提供结构。将理解的是如在此上下文中使用的术语“工具”意图指代可能被显式地或隐式地用来以描述的方式处理数据的任何适当的过程、可执行代码等。这可以例如包括由用户进行的显函数调用、操作系统或内核层级过程、协议栈过程或这些的任何组合。一般地,将原始数据表示(或否则非结构化数据表示)转换成相同信息的结构化表示的过程常常被称为反序列化、解组或加载(其中反向过程有时被分别地称为序列化、编组或卸载)。可以通过使用在原始数据串与表示相同信息的结构化数据对象之间转换的一个或多个工具(例如,第一工具216)来启用反序列化。反序列化可以自动地(即在没有人类干预的情况下)发生以检查原始数据。一般地,所有原始数据216未被结构化直到自动算法等将数据的部分反序列化成结构化信息为止。
反序列化的示例包括通过通信介质(诸如导线)或作为二进制数据的无线电信号发送的数据的反序列化。一般地在传输(连同适合于通过介质的传输的任何其它编码)之前将此数据进行序列化,并且接收机将数据反序列化以便恢复消息的结构化部分。另一示例是被存储在盘上的数据,其一般地在保存之前被序列化成某二进制形式。该数据然后被反序列化成例如ASCII代码或某其它更加结构化的形式。
第一工具210的输出可以包括第二数据表示204。第二数据表示204可以包括以非结构化或半结构化数据的形式的经序列化的原始数据。如图中所示,这可以包括文本串218等。第一工具210的输出可以替代地包括更加结构化的数据,诸如第三数据表示206或第四数据表示208中示出的数据,但是出于例证的目的,单独地图示出这些改变程度和结构类型。
如上面讨论的那样,第二数据表示204中的文本串218可以是由Unicode字符等的序列组成的非结构化数据形式。第二数据表示204可以同样或替代地包括其它非结构化数据,诸如音频或视频媒体、数字采样的传感器数据、数值数据等。非结构化数据在语言文本或音频信号(诸如博客帖子、书面报告、电子邮件、视频记录以及音频记录)方面常常是丰富的。非结构化数据可以更一般地包括缺少“概要”(即,结构化数据表示的描述)或用以解释数据的其它描述或预定数据模型的任何数据。由人类书写用于其它人类阅读的文本是非结构化数据的常见示例。音频和视频记录一般地也是非结构化的。常常地,人类可以使用其智力来解释非结构化数据和提供其意义的评定。在计算机实现方法(诸如本文中所讨论的那些)中,自动化系统尝试通过应用启发法和算法来解释数据并推断人类可能从数据导出的结构而再生此评定。例如,自动算法可以尝试在文本文件中标记与人的名称、电话号码等相对应的子串。
从原始数据216转换的文本串218或其它数据可以包括如在本文中所讨论的关于实体的信息。例如,如图中所示,文本串218可以包括诸如“1961年8月4日出生的BarackObama是第44任美国总统,并且是入主白宫的第一个非洲裔美国人”之类的信息。在本示例中,Barack Obama是实体(具有名称,“Barack Obama”是实体的名称或标识符),并且可以将文本串218中的其它信息视为如本文中所讨论的属性值,其全部可以用于构建实体简档。
第二工具212一般地可以与第一工具210组合或者与之分离。第二工具212可以被配置成向第二数据表示204中的例如文本串218的数据提供结构。具体地,第二工具210可以被配置成诸如通过文本串218搜索实体标识符、实体提及、实体属性、属性值等来识别第二数据表示204内的结构。第二工具212的输出可以包括第三数据表示206。第三数据表示206可以包括半结构化或结构化数据。
如图中所示,第三数据表示206可以包括半结构化文本220等,其中第二工具212已识别文本串218内的感兴趣的信息并应用结构,其中可以从上下文推断该结构。具体地,如由第三数据表示206中的粗体下划线文本所示,第二工具212已识别实体的名称“BarackObama”、出生日期“1961年8月4日”、职业“美国总统”和种族“非洲裔美国人”。此信息可以被分字段(fielded)、加标签或者否则以许多方式赋予键入信息及其它元数据。此信息可以同样或替代地被第三工具214进一步处理以将不同类型的信息置于可以存储信息的层级、数据库等中,例如作为属性-值对等等。
将注意的是第四数据表示208是完全结构化的。即,每个数据具有指定例如数据为其提供值的属性、数据的类型等的数据模型。该类型还可以变化,并且可以指定数据的格式(即,整数、浮点、文本、日期等)或者更多抽象类型信息,诸如电话号码、邮政编码等,其隐含特定字母数字格式并向其值附加意义。
结构化数据可以例如包括“被加标签的数据”,其包括非结构化分量和描述非结构化分量的子串的关联的结构化分量。由于非结构化数据可以包括字节或字符的串,因此可以使用串中的数组索引位置来标识其部分。结构化数据分量可以因此提供与非结构化数据的一个或多个子串相关联的元数据。例如,常见类型的“标签器”标识标签器的算法识别为实体(例如,人、组织等)的提及的自然语言文本中的子串。针对由此类加标签算法选择的字符或字节的每个跨度,标签器软件可以生成从预定义的实体类型的固定列表标识实体类型的元数据。结构化标签可以标识子串和实体类型。非结构化数据的此类基于偏移的标记有时被称为平衡(standoff)标签。可以针对同一片非结构化数据生成多个平衡标签。例如,一个标签器可能标识人的提及,并且另一标签器可能分析相同文本以将子串标识为对地理位置的引用。在一个方面中,第二工具212可以包括任何前述标签器或加标签算法。
还可以将前述加标签技术应用于音频、视频以及半结构化数据。例如,超文本标记语言(HTML)文档除了非结构化分量之外还可以提供格式化和分段。用于此类半结构化文档的平衡标签可以首先标识文档对象模型(DOM)的区段或其它结构元素并且进一步指定包含在该区段内的非结构化数据内的平衡标签。
第三工具214可以被配置成使用第三数据表示206中包括的数据,例如用以向数据提供进一步的结构、用以将数据结合到文档(例如,知识库或实体简档)中或者用以创建“分字段数据”。分字段数据可以包括被分离成不同分量的结构化数据。通常,每个不同分量具有指示机器如何处理和解释该字段的原始数据表示的概要或数据类型。
第三工具214可以按数据类型将数据分离。特定类型的数据可以具有相同的概要,其中可以使用该概要来定义用“类型”意味着什么。可以用许多方式来指定概要,包括而不限于在Thrift接口定义语言中指定的接口、可扩展标记语言(HTML)概要、以逗号分隔值(CSV)模式格式化的文本文件上的列名等。举例来说,如果软件程序读取数据并解释该原始数据以构造存储器中的或存留到存储系统的数据结构,则所述软件程序可以表示概要。还可以用许多方式(包括文件名扩展)将概要与数据相关联。当数据被从其概要分离或被修改从而不再允许使用概要的解释时,数据变得较不结构化,并且因此变得半结构化或非结构化。
第三工具214的输出可以包括第四数据表示208,其可以包括以分字段数据222的形式的结构化数据。
第三工具214可以分析第三数据表示206以选择数据来填充第四数据表示208中包括的不同数据字段。例如,如图中所示,“名称”、“DOB”(即,出生日期)、“职业”和“种族”的数据字段已被填充,而“出生地”字段尚未被填充。因此,“出生地”字段包括缺失数据,其可以被搜索工具(例如,在本文中讨论的工具中的一个)用作用于具有填写此数据字段的目标的搜索的准则。
将理解的是如在本文中设想的实体简档可以包括完全结构化数据以及非结构化数据或这些的任何组合,其被共同地称为“半结构化数据”。此半结构化数据可以记录源内容的其结构可以被确定的部分以及源内容的其结构不能被确定的部分,诸如不能用显式结构来解析和加标签的自然语言段落。因此,如本文中使用的术语半结构化意图包括结构化和非结构化数据的任何组合和数量。可以使用允许存储、恢复以及编辑包含实体简档的半结构化数据的文件的文档标识符将包含具有半结构化数据的实体简档的进行中的文档存留在诸如文本文档、超文本文档、字处理文档等的文件中。
除了如上面描述的显式地标识内容内的结构之外,可以使用技术来导出以更抽象的形式表征内容的元数据。因此,例如,第五数据表示226可以是自动地由标签器过程212的半结构化输出206构造的特征矢量或特征集合。特征矢量的目的是以容易地与其它数据片比较的形式自动地捕捉非结构化或半结构化数据片的方面。通过比较两个特征集合,软件程序可以量化由特征集合所表示的两个数据片之间的相似性和差异。通过启用全自动比较,特征矢量形成许多自然语言处理和信息发现算法的核心部分。
特征矢量通过将半结构化数据组织成适合于比较的字段来启用定量比较。此类字段的常见类型是串计数矢量,其记录各种串在文本中出现的次数。可以将来自第三数据表示206的各种短语等记录在数据的特定类型230的映射227中,诸如实体“提及”、“日期”与其它实体(“CO_PER”)、“称号”、“国家”等的关系。针对数据的每个此类类型230,映射227可以包括特定串228和串计数234。出于例证的目的,映射227可以是包含来自针对Barack Obama的维基百科文章的几个句子的文本的。实际上,文章或其它信息源可以包含更多的单词和短语,并且第五数据表示226中的特征矢量或映射227的图示示出了针对可能出现在更冗长的源中的单词的示例计数。例如,单词“古巴”可能在关于Barack Obama的全文中出现两次。
特征矢量可以包含若干类型的信息,诸如(一个或多个)实体名称的提及、在该提及附近出现的日期、共同出现的人、称号或描述、动词、国或国家、在本文中出现的语言以及更多。此类自动组合常常包括过分简化,诸如将“非洲裔美国人”标记为“称号”而不是种族或描述。此类过分简化发生在自动地对数据施加结构时。在特征矢量中可能出现的另一类型的信息是概率矢量232,其提供用于单值属性的一组可能值的可能性。例如,性别和实体类型是给定实体具有一个值的属性。推断用于此类属性的值是有挑战性的算法任务,并且自动系统常常生成可能值中的一个或多个而不是单个分类的概率。
完全结构化表示208可以要求人类干预以从标签器输出提取诸如第三数据表示206,即第三工具214可以结合人类输入来分辨模糊等。相比之下,将标签器输出转换成特征矢量的第四工具优选地是全自动化的。如同许多全自动化算法,对特征矢量而言包含错误是常见的,所述错误诸如将名词错误地标识为动词。
可以针对任何种类的数据来构造特征矢量。文本的特征矢量通常捕捉单词和短语及从文档中的单词和短语导出的概念。还可以针对音频、视频、图像、无线电信号、温度分布、弹道运动轨迹以及可以被记录用于由自动算法处理的任何其它形式的数据构造特征矢量。示例提供了用文本来例证这些概念,并且由本领域那些技术人员将理解的是可以将这些概念类似地应用于其它形式的数据。
搜索引擎是在本领域中常见的工具。搜索引擎使得用户能够输入信息并响应于其输入而接收信息作为输出。输入常常被称为查询或请求。输出常常被称为“结果的列表”、“结果的集合”等。可以将搜索引擎说成为用户“检索”信息,并且同样地其是信息检索工具。搜索引擎常常根据相关性算法将结果排序。输出对输入进行响应的方式可以取决于搜索引擎内的算法。输入和输出中的结构的形式和程度也可以取决于特定搜索引擎并且可以在本领域中相当大地变化,从输入文本以发现图像变化到输入结构化标识符以发现文本或音乐,以及更多。原则上,可以使用任何种类的信息来搜索任何其它种类的信息,因为仅有的约束可以是搜索引擎内部的算法(并且这些可以是通用计算机程序)。搜索引擎内部的算法可以判定要显示哪些结果和按什么顺序显示结果。通常,搜索引擎可以访问比任何用户能够消化的数据多得多的数据,因此搜索引擎的排序功能使能用户在找到有用的信息方面的成功。搜索结果的排序也常常被称为“排列”。
推荐引擎或推荐器引擎是搜索引擎的宽泛子类,其可以通过使能更集中在不是搜索结果本身的用户活动上的不同种类的用户体验而不同于其它搜索引擎。例如,许多搜索引擎接受显式用户输入,诸如关键字搜索框或搜索准则的下拉列表,并且在这些搜索工具中,搜索结果的列表常常是用户体验的主导视觉分量。谷歌的搜索引擎结果页面(SERP)是本领域中的事实标准,并且其例证了此类以搜索结果为中心的体验。
推荐引擎将用户体验的焦点转移到某其它活动,诸如购物和产品的购买。可以在此其它活动旁边呈现搜索结果。虽然内部算法可以是相当类似的,但推荐引擎通过其来获得所述推荐引擎的输入的机制与传统的搜索准则输入方法相比可以更加间接。例如,可以使用用户已经聚集并考虑购买的产品的购物车作为用于检索搜索结果的输入查询。此类搜索结果常常被称为“推荐”,因为用户的意图可能不是显式地请求搜索引擎的输出。
可以在两个方面看待本文中设想的实现,即可以将其视为在用户观看或编辑进行中的文档的同时呈现推荐的推荐引擎,并且还可以将其视为对于其而言进行中的文档是输入查询的搜索引擎。一般地,本文中设想的实现可以不要求用户完全意识到进行中的文档是输入查询,并且本文中描述的系统可以允许用户通过在进行中的文档中放置特殊标记来更直接地操作搜索引擎。例如,如果用户具体地识到实体的强类型属性,诸如实体的名称或相关实体,则推荐引擎可以通过提供新的或改进的推荐来对简档的那些改进做出反应。
图3示出了将信息组织到实体简档中。一般地,以实体为中心的知识发现可以依赖于可以从多个文档搜索、聚合以及存储关于实体的信息,并且图3图示出许多此类文档之间的关系。在以下描述中,存在从主题转到实体转到副主题的信息的层级。如本文中所使用的那样,术语主题指代感兴趣的任何主题,并且术语“实体”指代具有将其与其它实体区别开的强类型属性的特定类型的主题。如主题一样,副主题并不暗示任何特定结构(虽然其可以具有结构),但是其被显式地预测关于实体的本质。某些属性比其它更是有区别的。例如,人的身高和性别是比那个人在过去两周中阅读的书的名称更强的区别者。
本文中设想的工具和技术集中在以实体为中心的信息发现上。实体可以是具有诸如名称(例如,“约翰史密斯”或“氧”)和类型(例如,分别是人或化学元素)之类的标识符的任何现实世界的东西或物品。实体因此可以是在世界上具有具体存在的一类对象的成员,诸如人、地点、组织、公司、建筑、化合物、基因、计算机恶意软件、商业产品、硬件、书、音乐专辑等等。一般地,与主题相反,可以在信息检索(IR)系统中通过区别性属性(诸如出生日期、地理位置等)以及与其它实体的强类型关系(例如,一个人的母亲是另一特定人)来部分地区别实体。为了清楚起见,不是实体的主题的示例包括东方宗教(虽然宗教的神是一个类型的实体)、比利时政治(虽然比利时国家是实体)、相扑摔跤(即使特定的世界级相扑摔跤选手或特定相扑比赛是实体)、冬季园艺(虽然植物品种是实体且特定植物也是实体)、计算机安全(虽然特定计算机服务器或特定软件程序是实体)和烘焙巧克力甜点(虽然特定的糕点厨师或饭店是实体)。
一般地,实体是存在于现实世界中的有形伪像,并且因此实体的基于计算机的表示可以仅是在物理世界中存在的真实实体的描述。作为现实世界的东西,实体有时参与事件。当被给定名称时,事件可以是一个类型的实体,并且可以由时间属性来表征。
实体还可以包括特定数字伪像,诸如电子邮件消息、视频记录、计算机系统中的用户帐户等。此类数字实体可能缺少物理实施例,但仍是实体,因为其具有良好定义的类型并且通过强类型属性而与同类的其它实体区别开,仅举几个例子,所述强类型属性诸如电子邮件的日期/时间和接收者,或者视频的位置和时间和相机定向,或者与用户帐户相关联的电子邮件地址和电话号码。
实体还可以包括电子设备,工具、产品以及器具,诸如特定计算机、相机品牌、僵尸网络、恶意软件的特定版本、相关恶意软件的家族等。此类实体可以具有抽象或多个物理实施例,但是仍是实体,因为其具有良好定义的类型并且通过强类型属性而通过强类型属性而与该同类的其它实体区别开,仅举几个例子,所述强类型属性诸如计算机的MAC地址或IP地址、相机品牌的零件号码、僵尸网络的所有者及命令和控制节点、恶意软件的MD5散列或者恶意软件的家族的属性和散列的集合。
常常可以用文档来表示实体,在本文中将其称为“实体简档”或者简单地将其称为“简档”。此简档可以包括但不限于具有关于现实世界实体的各种属性、值、关系以及描述的数据概要。一般地,可以将简档视为关于实体的文档。有时将简档的集合称为“知识库”。简档可以同样或替代地同时描述多个实体。描述多个实体的简档可以集中在实体中的一个或另一个上或者各种实体之间的交互上。一般地,简档是描述一个或多个实体的文档。
举例来说,人的简档是知识库中的常见类型的记录。例如,维基百科具有关于活着的人和已故的人的许多文章。并且,LinkedIn、Facebook、Twitter等提供了关于人的各形式的简档;此类社交联网站点提供通常由通过简档描述的人或公司组织和控制的特定种类的简档。在其它系统中,诸如如同SalesForce.Com的联系管理器应用,用户可以维持其它实体(通常是人和组织)的简档。
描述电子文档类型实体(诸如照片或电影)的简档是简档类型的另一示例。例如,在评定奥利匹克运动员的照片时,作者可能描述在拍摄该照片的背景。
作为半结构化文档,简档可以包含结构化和非结构化信息两者。如许多在线知识库(诸如Wikipedia、LinkedIn、MusicBrainz等)中所示,可以在简档中突出地显示的“信息框”(或类似物)(其包括关于实体的基本信息)中呈现系统化的实体属性。可以用对源文档的引用(其通常在知识库外部)来具体化简档的部分。简档还可以包括以描述实体的或者从被简档描述的实体记录的自然语言文本或音频或视频的形式的非结构化信息。
不需要将简档存储在知识库中。存储在知识库中的简档常常链接到知识库中的其它简档。无论是否存储在知识库中,简档都可以链接到多个知识库中的其它简档。简档可以链接到描述相关实体的简档或者链接到描述与主题简档的实体相同的实体的其它简档。此类链接可以指示被引用的信息源或与其它实体的关系。但是简档可能更一般地被存储在文本文档、HTML文档或易失性或非易失性储存器中的可以被用作正在研究实体的用户的活动的进行中的文档的任何其它文档、文件或其它持久性对象中。此简档可以包括可以用来共享、拷贝、检索或者以其他方式处理持久性简档的文档标识符。
以此方式存储在进行中的文档中的简档可以促进递归的前瞻,其中基于对进行中的文档的改变来更新呈现给用户的结果,并且用户可以从结果获得内容并将新内容放入进行中的文档中以进一步细化简档。细化简档可以包括添加新信息、记录将已在简档中的信息具体化的引用、注意关于实体的矛盾信息、填写先前遗漏的信息或者以其他方式懂得实体和关于实体的信息。这些查询可以是高度结构化的并且可以围绕着进行中的文档的显式或隐式结构以及包含在半结构化的进行中的文档的非结构化部分中的信息而被执行。还应注意的是存储在此进行中的文档中的简档涉及是用户的查询的目标的特定实体或主题,并且查询目标贯穿本文中设想的迭代细化不改变。虽然系统最初可能不知道简档是针对一般主题还是特定实体,但此目标主题或实体在会话期间不改变。如果用户希望创建用于不同目标实体或主题的简档,则这通过创建新的进行中的文档而被实现。
如本文中所使用的那样,单词“活动”还可以指代进行中的文档,因为该文档的用户体验是其是活动的并随着用户(和用户的合作者)关于改进和组织文档中的信息进行工作而改变。
如上面提及的那样,实体可以具有称为“实体属性”或者简单地称为“属性”的特定性质。贯穿本公开更详细地讨论了这些属性。
虽然实体可以是主题,但并非所有主题都是实体。当且仅当其具有类型且通过特定属性、值、关系等而与相同类型的其它实例区别开时,主题才是实体。常常用自然语言文本或半结构化文本的串(诸如关键字查询、示例性段落或散文描述)来表达主题。主题的半结构化描述可以使用诸如与、或以及非之类的布尔操作符或者诸如Perl兼容的正则表达式(PCRE)之类的正则表达式或者其它模式描述语言或查询表达语法来限制或扩展或指定与主题相关的信息。相关性的概念帮助理解主题的意义。例如,两个人可能具有对主题的意义的不同主观解释,并且这在两个不同的人查看相对于主题的半结构化数据片的方式方面变得明显。一个人可能判断非结构化数据片是高度主题相关的或者“切题的”而另一个人可能将其认作“离题的”。因此,主题一般地具有更加主观且无组织的属性,其中实体的良好定义的属性常常消除此类主观差异。
第一文档302可以是用来创建实体简档的任何源文档,诸如第二文档304。如本文中使用的那样,术语“文档”应被宽泛地解释成包括可以被存储在计算机上并针对与实体相关的信息(包括而不限于文本文件、电子数据表、展示文件、多媒体等)被搜索的任何文件或其它持久性数据仓库。如本文中所讨论的那样,文档可以是非结构化的、半结构化的或结构化的。文档一般地可以描述或包含与实体相关的信息。一般地,文档可以包含用于定位或提到文档的文档标识符,诸如文件名、标题、资源地址或者在网络或文件系统中的路径。文档还可以包括标识被提到的实体的一个或多个实体标识符。
第一文档302一般地可以包括涉及由主题标识符310所标识的主题的数据。例如,第一文档302可以包括专注于主题并包括关于主题的信息的一个或多个段落312。段落312一般地可以包括文档的任何子分量。在专注于主题时,段落312可以包括多种文本参考,诸如实体标识符314、实体提及316以及引用318。
实体标识符314可以包括用于提到特定实体的任何机制,所述特定实体例如由是包括在第二文档304中的实体简档308的焦点的实体标识符320所标识的实体。实体标识符314可以包括可以被解释成明白地指定特定实体的数据元素,诸如区别性属性列表和到拥有此类区别性属性列表的数据库中的记录的指针。例如,URL可以标识实体。实体标识符314还可以是人类可读标识符,诸如标识特定实体的名称、称号或文本描述。
实体提及316或者仅“提及”可以包括提到实体(例如由是包括在第二文档304中的实体简档308的焦点的实体标识符320所标识的实体)的非结构化文档的子串或结构化文档中的字段。然而,围绕实体提及316的上下文可能或者可能不足以明白地标识特定实体。围绕实体提及316的上下文可以包括实体提及316子串附近的自然语言散文和可以帮助将由实体提及316所提到的实体消除歧义的文档316的其它更加结构化元素的较大跨度。使用上下文窗口的自动算法常常使用句子边界检测算法来选择围绕实体提及316的范围,例如三个至五个句子。围绕提及的此类段落承载人类将类似地用来学习被提及的实体的区别性属性的信息。
如果文档多次提到实体,则可以将那些提及的序列连接以形成称为“共指链”或“coref链”的一组提及。链中的围绕每个提及的上下文窗口可以被一起用来提供更加区别性的信息以用于人类读者或自动算法将作者意图引用那个实体消除歧义。一般地,文档内共指链接算法考虑来自单个文档的哪些提及提到了同一实体,而跨文档共指分辨算法确定来自不同文档的提及是否正在提到同一实体。
实体提及316不需要显式地包含预期实体的名称。替代地,作者可以使用实体的描述。例如,在段落“三个新闻工作者下飞机,并且然后他们被询问”中,子串“三个新闻工作者”是被称为“名词性词组”提及的类型的实体提及,因为其仅使用名词短语来提到实体,而子串“他们”是代名词提及,即代词。
引用318可以包括从一个文档到另一文档的引用。例如,第一文档302中所示的引用318可以引用第三文档306,而第二文档304中的引用322引用第一文档302。可以使用从被引用文档获得或拷贝的数据附近或上的超链接来实现引用318,或者引用322可以是诸如人类可读引用,诸如对书、报纸、刊物或其它内容源的文本引用。在知识库的背景下,引用318通常是到在知识库外部的页面的链接。这为文本或其它数据提供了与引用318相关联的证据。聚集具体化或证实实体简档中的信息的引用有价值的文档对于进行中的文档的作者而言是常见任务。
第二文档304可以包括实体简档308,其例如使用从第一文档302和第三文档306获得的数据。第二文档可以是包含描述实体标识符320所标识的实体的半结构化数据的进行中的文档。第二文档304可以包括可以用来保存、检索、共享或者以其他方式处理或存留文档的文档标识符305。
一般地,第二文档304可以包括许多属性324、328和副主题340,用来描述实体。例如,第二文档304可以包括具有许多值326的第一属性324和例如对第一属性324的信息的源的引用322。更一般地,第二文档304中的属性可以包括实体的一个或多个性质、特点、特性、细节、特征、关系等,并且各种概要或大众分类法可以捕捉实体的表示中的此类属性324。
在一个方面中,第二属性328可以包括包含第二实体的第二实体标识符321的关系连同实体之间的关系的类型330。实体关系可以例如包括个体或者公司的子公司或母公司的社交图。这些关系可以是非类型化的,或者其可以具有特定类型330,诸如“配偶”或“父亲”或“商业伙伴”。在某些背景下关系可以替代地涉及副主题。例如,总统Barack Obama与美国的外交策略有关系,其是一般主题,并且在总统的背景下也是副主题。总统还与他的女儿有关系,其中的每个都是实体。与跟其女儿的关系(其为良好结构化的实体关系)相反,与美国的外交策略的主题的关系是复杂的并且可以用更复杂的半结构化数据来描述。某些属性324可以随时间而改变,而其它可以是永久性的,例如只有当在用于属性324的值的在先记录中标识到错误时才改变。
实体属性324可以被良好定义,意味着其包括指定特定东西的属性值326。举例来说,对于人(实体“类型”)而言,属性可以包括名、姓、出生日期、出生地、社会保障号、护照号、电子邮件地址、电话号码、当前地址、雇主、母亲、父亲及其它亲戚的实体标识符、身高、体重、婚姻状况、配偶的实体标识符以及许多其它结构化或半结构化字段。值326可以包括关于这些属性324的信息。例如,一个人的性别属性可以具有值男性或女性,并且身高属性可以具有以米或英寸为单位测量的值。其它类型的实体的属性的其它示例可以包括例如公司的雇员的数目和总部、化合物的原子质量和熔点等。
属性324的值326因此可以指定特定东西(例如,家庭地址、名称、职业、性别、出生日期等),包括特定类型(例如,号码、日期、时间、文本、文件名、路径、图像、音频等)和/或包括到另一属性324或实体标识符321的指针。每个值326可以是定义属性324的信息或数据片。例如,如果实体是公司,则属性324可以包括总部和雇员的数目,其中用于这些属性324的值326分别地是公司总部的城市和州及雇员的实际数目。如果实体是诸如氯化钠之类的化合物,则属性324可以包括化合物的化学式和常见名称,其中用于这些属性324的值326分别地是NaCl和盐。
副主题340可以包括如在本文中设想的任何半结构化数据,其类似于任何其它主题,除了每个副主题340被预测关于特定实体。因此每个副主题340可以捕捉关于实体的想法或信息片。这些副主题340一般地意图捕捉用户可能收集关于实体的信息的不精确方式,并且为此其允许累积来自与实体具有特定关系的多种源的半结构化数据。
所命名的实体提供另一有用示例。“所命名的实体”可以包括通过具有名称和实体类型而被区别开的主题的特殊子类。诸如人之类的一个类型的所命名的实体的单独实例可以具有将其与相同类型的其它个体区别开的强类型属性324。例如,一般地,人具有不同的家庭成员和不同的家乡、出生日期、社会保障号等。在这些属性324的值326具有特定数据类型和特定意义的意义上,这些属性324是“强类型的”。例如,出生日期具有已知意义——某个人出生的日子——和作为日期的特定数据格式。类似地,邮政编码具有通过到本地邮政区域的预定映射而有特定意义的作为五位数或九位数表示的特定数值格式。
当研究实体时,聚集实体的区别性属性以便将提到正在讨论中的实体的数据的语料库中的哪些提及消除歧义常常是有帮助的。实体类型可以包括由实体的各种观察者定义的实体的非本质性质。任何给定观察者可以将给定实体描述为若干不同实体类型的实例。例如,某些观察者可以将“领导者”包括为一个类型的实体,并且这些观察者可能将BarackObama描述为是人类型实体和领导者类型实体两者。实体类型的分类可能是相当深奥且复杂的。例如,武器制造商可以单独地描绘每个种类的手枪。同时,另一分类可能简单地将所有枪称作一个实体类型。因此,实体类型可以是帮助将实体相互区别开的有用描述。
实体的其它属性可以是固有的,诸如其在特定时间的质量。列出或记录实体的属性的原因常常是将实体与可能与所述实体共享某些方面、副主题或属性的其它实体区别开。实体类型可以在区别实体中扮演特定角色,因为观察者常常将区别性属性的概要与实体类型相关联。例如,仅举几个例子,手枪类型实体的区别性属性可以包括其使用的子弹的口径、其制造商、其型号并且可能包括序列号。相反地,公司类型实体的区别性性质可以包括其名称、其总部位置、其在哪里组成公司、其高级主管的姓名等。
在一个方面中,第二文档304是进行中的文档。即,在文档正在被改变的时间段期间,可以将文档视为在变化中或者在进行中。举例来说,记笔记是在进行中的文档中记录观察结果的活动。在一个方面中,可以在等待新的信息到达或者变得可用于可以用该新信息来更新或细化文档的编辑者的同时认为第二文档304在变化中或进行中。在如本文中设想的实体简档中,第二文档304中的改变可以更新针对关于通过实体简档描述的实体的信息的搜索。用户可能聚集关于感兴趣实体的区别性属性并将其记录在进行中的文档中。
第三文档306可以是与第一文档302共指的文档,即其中第三文档306中的实体标识符314指代与第一文档302中的实体标识符314指代的实体相同的实体。检测到两个或更多提及提到同一东西的过程被称为“共指分辨”或简称为“coref”。对实体的提及的分辨是“实体coref”。对实体之间的关系的提及的分辨是“关系coref”等。
共指分辨不要求简档或知识库。通过传递性,提到同一实体的所有提及可以是共指的,其中它们形成等价类。分辨提及是否与实体简档共指常常比分辨来自其它类型的文档的提及是否共指更容易,因为实体简档趋向于显式地提供区别实体的丰富信息。此信息可以用来将提到简档中的实体的来自源文档的该提及消除歧义。将提及连接到简档称为“实体链接”。
优选实施例包括利用特定实体类型的已知属性的以实体为中心的系统和方法。使用此信息,可以构造适当的实体简档,并且可以在简档内隐式地或显式地标识属性以帮助区别实体并找到附加的相关信息。通过将整个实体简档接受为查询,以实体为中心的搜索引擎可以允许用户表达他们对哪些实体感兴趣和他们当前知道关于实体的什么两者。查询的这两个方面促进从非结构化或半结构化数据的目标集合之中标识最相关且潜在地最有区别的搜索结果。
可以使用可以提供如下中的一个或多个的许多技术来组织或细化查询结果:聚集提到目标实体的提及;将看起来承载冗余或等价上下文的实体的提及组在一起;将搜索结果重新排序或评分(例如,在一组共指提及内以偏向于新的或令人惊奇的上下文)。
另一方面,搜索关于实体的信息引入不同的挑战。特别地,搜索引擎的用户通常可以以高置信度说出结果是否提到其感兴趣的实体。正确与错误之间的边界一般地是相当尖锐的,并且因此用户在用以实体为中心的搜索引擎进行工作中的体验与一般概念/主题的不清楚领域的情况相比可能对假阳性更敏感。进一步地,在大型数据集中将对每个实体的所有提及集中在一起的算法任务通常花费相当多的计算能力并显示出错误条件的多样化范围,包括:在全集中未能检测到感兴趣的提及;未能将对同一实体的提及的群组组合;未能将对不同实体的提及的群组分离;未能检测到上下文窗口承载关于目标实体的新信息;未能检测到上下文窗口未承载关于目标实体的新信息;未能发现关键事实、事件、属性、关系、活动、与特定时间的相关性的模式等。本文中讨论的算法可以解决前述错误条件中的一个或多个。在一个方面中,可以有用地采用特征矢量来分析文档和包含在其中的数据。
特征矢量可以由关于主题的数据构成,诸如整体文本文档或段落。特征矢量还可以由提到实体的共指链中的提及周围的上下文窗口构成。围绕实体的一个或多个提及构造的特征矢量与由整体文档或段落构造的特征矢量的不同之处在于前者具有锚定短语(提及)而后者没有。这些锚定短语是在共指链中提到的名称提及、名词提及以及代名词提及。当使用自动算法来指定用于包括在共指链中的提及时,其可能例如由于未能包括提及或者由于将并非对与指定的其它短语相同的实体的提及的短语结合到链中而产生错误。单个文档通常包含对多个实体的提及,并且因此可以从那一个文档构造锚定在实体提及上的多个特征矢量。
具体地围绕着实体的提及构造的特征矢量被称为提及特征集合或“MFC”。由没有锚定(anchoring)提及的段落构成的特征矢量被称为主题特征集合或“TFC”。由实体的简档(其是集中在特定实体的文档)构成的特征矢量被称为简档特征集合或“PFC”。
给定用于两个或更多数据片的特征矢量,可以计算多个种类的比较。比较的两个重要类型是:(1)量化两个特征矢量之间的相同程度的相似性;以及(2)量化两个特征矢量之间的差异的相异性比较。特征集合的各种组件之间的比较很容易构造。例如,针对串计数矢量,常见的比较是矢量的预先,其将两个矢量归一化成具有相同的单位长度并计算两个单位矢量之间的点积。由于计数是正的,所以得到的值范围在0与1之间,1指示两个矢量具有完全相同的单词,该单词具有相同的计数值,并且0指示没有重叠。多种其它比较函数在本领域中是常见的。例如,计算在两个特征矢量中出现至少一次的串的数目。
可以将特征矢量的特定分量单独地相互比较。例如,可以将两个MFC的提及部分与余弦相比较,并且还可以与提及部分分开地比较CO_PER部分。可以在加权和中将得到的值加权。例如,如果提及比较上的权值是8且CO_PER比较上的权值是2,并且用于两个分量的相似性分别地是0.6和0.3,则加权和是5.4。
当比较两个TFC时,相似程度指示段落是否描述相似的主题。当比较MFC或PFC时,相似程度可以指示提及和/或简档是否正在描述同一实体,即其是否是共指的。着重强调前面的句子中的单词“可以”,因为并非特征矢量的所有分量都对测量共指的可能性有用。给定已被划分成一组共指集合的一组提及,可以应用标准机器学习技术(诸如逻辑回归或随机梯度下降)来学习围绕每个提及构建的特征矢量的各种分量的相似性比较上的权值的矢量。此类过程考虑通过分区而提供的共指和非共指示例之间的观察到的相似性值,并且计算最佳地预测那两个可能状态的权值。当此类模型训练过程正确地工作时,对应于区别性属性的特征矢量的部分将接收到较高权值,并且承载并不区别参考实体的其它上下文信息的部分将趋向于获得较低权值。
此类模型训练在自然语言处理领域中和交叉文档共指分辨(也称为实体消歧)中是常见的。当将此类模型应用于MFC时,常常将其称为实体提及消歧。当使用此类模型来将MFC和/或PFC与PFC相比较时,常常将其称为实体链指或维基化,因为其将数据链接到实体简档的参考知识库。模型输出是描述人类将同意两个项目是相同实体的可能性的分数或概率。此类模型常常被称为成对模型,引起其成对地操作。
给定成对模型,可以通过将特征矢量集合成其中相邻特征矢量更加相似的嵌套集合来构造分级模型。此类嵌套集合可以形成树。针对层级中的每个集合,可以通过将来自该子集中的特征集合的信息聚合而构造概要特征矢量。这些概要矢量可以形成树形图的内部顶点,其中原始输入特征集合是叶层级顶点。
成对模型中的常见问题是单词矢量趋向于是相当稀疏的,使得提到同一实体的MFC常常可以几乎没有特征重叠。在没有重叠的情况下,成对模型无法检测到两个MFC是共指的。由于共指提及形成等价类,所以适用传递性的逻辑性质,即A等于B且B等于C,则A等于C。传递性可以解决稀疏性问题,因为即使A和C没有重叠,其也可能两者与B的不同部分重叠,使得B将其联系在一起。通过将相似特征矢量集中在一起,分级模型可以是揭示连接具有很少直接重叠的特征矢量的传递链的高效方式。
相异性测量与相似性测量相比有更多细微差别的,因为村子用于使两个特征矢量不同的更多性质上的不同方式,包括:(1)两个MFC可以提到不同的实体,(2)两个MFC可以提到同一实体并在围绕两个提及链的上下文中承载不同的属性信息,(3)两个MFC可以提到同一实体并承载具有相同信息的不同上下文单词,或者(4)两个MFC可以提到同一实体且具有本质上相同的上下文单词。这对应于(1)不共指,(2)共指且有用的不同信息,(3)共指且在语义上等价,以及(4)共指且在语法上等价、即接近复制或完全复制。(1)与(2)之间的边界是明显的,并且在(2)、(3)以及(4)之间存在分级。相异性的度量尝试量化分级。在一个方面中,如在本文中设想的以实体为中心的知识发现包括用以学习帮助用户发现关于在进行中的文档中描述的身体的新信息的相异性模型的自动化能力。
图4示出了用于以实体为中心的信息检索和聚合的接口400。接口400一般地可以是用于呈现用户友好的直观视觉显示的客户端设备的用户接口(诸如本文中所讨论的任何客户端设备)和用于使用本文中描述的技术来构建实体简档的交互式环境。可以在诸如台式计算机监视器、平板计算机或智能电话触摸屏或与本文中描述的任何客户端设备相关联的任何其它物理显示设备等屏幕上显示接口400。
可以将接口400布置成第一窗口402、第二窗口404以及第三窗口406。虽然可以围绕着本文中设想的各种搜索、检索以及简档修正功能有用地组织这三个窗口402、404、406,但本领域的技术人员将领会在不脱离本公开的精神和范围的情况下更多或更少的窗口是可能的。例如,三窗口实施例在第二窗口404中显示抽象化搜索结果,并且在第三窗口406中显示搜索结果中的特定的一个的更详细的视图。然而,平台可以适应于直接地从第二窗口404中的摘录结果接收用户输入,特别是用于第一窗口402中的进行中的文档的相关内容的选择,因此使得第三窗口406是不必要的。作为另一示例,可以将第三窗口406划分成以不同方式再现特定文档的多个窗口,例如作为多媒体、纯文本等。如下面更详细地解释的,第一窗口402、第二窗口404以及第三窗口406可以是被相互在功能上耦合的交互式窗口,使得一个窗口中的动作可以根据本文中设想的简档创建策略而触发在另一窗口中或者任何两个窗口之间的响应性动作。
第一窗口402可以包括存储为进行中的文档并在用户接口400中显示的目标实体的简档408(在本文中也称为“实体简档”)。目标实体可以是如本文中描述的任何实体,例如,人、地点、公司等。可以用一个或多个区别性属性412的一个或多个值414将目标实体与相同通过类型的其它实体唯一地区别开,全部如上所述。例如,简档408最初可以仅包含用于目标实体的名称或类似实体标识符,并且然后进行中的文档的作者可以通过结合关于实体的更多属性/值、副主题及其它描述性信息来改进此目标实体的描述。实体简档408可以采取超文本标记语言(HTML)文档、可扩展标记语言(XML)概要、纯文本文档、富文本文档、维基文档等的形式。
将领会的是进行中的文档的使用相比于针对基于实体的搜索的本领域中已知的其它技术而言提供显著的优点。例如,虽然关键字提供不同术语之间的布尔关系和属性值(关键字本身)的良好控制,但其一般地并不以与进行中的文档相同的方式维持实体描述,其也未提供对实体描述的结构、层级以及内容的方便的用户控制或用以结合副主题或非结构化数据的任何方便方式。即,关键字可以提供隐式布尔值概要和允许控制各种搜索特征的语法,但是关键字搜索一般地未被图示化或不可图示化以促进用于实体的各种类型和关系的数据的捕捉。相反地,文件夹技术(其中文档和数据被人工地分类分量级结构)可以对实体提及之间的分级关系提供良好的控制,但是这些技术并不容易支持对正在建立的关系类型或分配给各种实体属性的特定值的显式用户控制。本文中设想的进行中的文档提供用于使未经训练的用户以在允许后台实体搜索任务的显著自动化的同时持续实体描述的方式逐渐地细化实体的描述的直观且容易访问的方式。
第一窗口402可以包括许多工具416,诸如用于修正实体简档408的工具。一把而言,如在本文中设想的用户接口工具可以提供本领域中已知的任何适当的用户接口组件。可以将工具实现为例如文本框、单选按钮、复选框、下拉列表、图标或在图形用户接口内显示的其它可操作特征以及其它用户控件,诸如按键、手势解释、鼠标点击和移动等。可以使用任何此类工具或控件来实现本文中描述的各种接口工具。
例如,工具416可以包括而不限于文本编辑工具、HTML编辑工具、模板工具(例如,称号、题目、副标题、核心、编号等)、引用工具、文件/数据插入工具(例如用于插入媒体、模板、表格、文本、图库、参考文档、特殊字符等)等。工具416可以同样或替代地包括用于为用户提供调试指令和通知、设置特征(例如,用于查看的页面、高级设置等)、搜索框等的帮助特征。进一步地,工具416可以同样或替代地包括标签等以执行各种功能,诸如编辑实体建档的408的各种部分、做笔记、检索修正历史或查看历史等。工具416可以同样或替代地包括本领域中已知的任何其它特征。
第二窗口404可以与第一窗口402同时地可见,并且可以显示多个搜索结果418。可以使用用以遍历数据网络或或其它数据源的算法420基于第一窗口402中的实体简档408来对搜索结果418进行定位并检索目标实体。算法420可以根据搜索结果418是否提到目标实体410而将搜索结果418排列,并且可以使用任何适当准则来进一步分类、国女或排列,所述适当准则诸如特定结果是否提供了用于目标实体410的新信息项。可以用包括在特定搜索结果418中的相关信息的预览来显示搜索结果418,诸如在围绕文本的窗口内突出或另外强调关键字或其它相关文本,其中关键字由用户指定或者由算法420确定。在本领域中已知多种以实体为中心的搜索技术,并且在2014年5月12日提交的美国临时申请号61/996,575和2014年8月28日提交的美国临时申请号62/070,549(其全部内容被通过引用结合到本文中)中以非限制性示例的方式进行描述。
算法420可以使用实体简档408作为用于对搜索结果418进行检索、排列以及显示的查询。实现算法420的一个可能方法是构造用于简档408的特征矢量,诸如上述PFC。
一般地,通过来自用户的直接文本输入或通过如下所述地从其它文档提取信息,对实体简档408的修改允许由算法420进行已更新搜索并在第二窗口404中呈现新的搜索结果418。举例来说,可以将对简档408的修改表示为对从简档408导出的PFC的修改,其可以被用作用于新搜索的基础。在一个实施例中,当检测到对进行中的文档的改变时可以自动地更新搜索结果。在另一实施例中,接口400尅提供用于用户根据当前实体简档408来人工地触发刷新搜索结果418的新搜索的工具或控件。因此可以响应于从简档408去除信息、向简档408添加信息、改变简档408中的信息、突出简档408中的信息(或另外与之相交互)、突出搜索结果418中的一个中的信息(或另外与之相交互)等。在本文中,可以提供多种工具以用于用户提供兴趣或重点的指示,诸如突出、粗体、彩色编码、下划线、斜体等。因此,在一方面,第二窗口404可以对通过根据用户兴趣的推断指示而更新第二窗口404中的搜索结果418来指示用户兴趣的用户动作或交互(诸如用户从第一窗口402选择信息)进行响应。
在一个方面中,算法420可以结合应用用户的动作和交互来改进用于比较特征集合的新模型权值的主动式机器学习。
在另一方面中,第二窗口404可以包括搜索工具426以促进控制算法420和返回的搜索结果418的数量和质量。例如,这可以包括用于选择内容资源、过滤搜索结果、选择搜索算法或搜索引擎、对目标搜索函数加权等的工具。虽然搜索结果418可以包括文档或被认为相关的来自文档的摘录,但搜索结果418可以同样或替代地响应于实体简档而包括其它数据或元数据。例如,在使用如上描述的特征矢量的实现中,每个搜索结果418可以表示从文档中的提及共指链构建的特征集合,或者每个搜索结果418可以表示来自其它实体简档的简档特征集合。在一个方面中,搜索工具426可以包括用于选择要显示的搜索结果418的类型的工具。
第三窗口406可以与第一窗口402和第二窗口404同时地可见,并且可以显示搜索结果418中的一个的内容,即用户选择搜索结果418(在图中被示为第一搜索结果418,其中粗体框432围绕搜索结果418从而指示其被选择)。一般地,第一窗口402、第二窗口404以及第三窗口406可以在相互之间被操作耦合以便例如更新实体简档408、提供经更新的搜索结果418、显示已更新内容等。例如,可以将第一窗口402操作耦合到第三窗口(或者可选地第二窗口404)以从第三窗口406接收所选数据424的用户选择并将所选数据置于第一窗口402中,从而提供简档408的改变,并且第二窗口404可以对简档408的改变进行响应以更新搜索结果418,并且第三窗口可对第二窗口中的搜索结果418中的所选的一个的选择进行响应以在第三窗口406中显示搜索结果428中的所选的一个的内容。以此方式,用户可以借助于基于实体的搜索算法420来逐渐地并迭代地细化实体简档。
第三窗口406可以包括所选搜索结果428中的目标实体410的提及的突出或其它视觉强调。第三窗口406可以同样或替代地包括所选搜索结果428中的新信息项的突出。
在一个方面中,第一窗口402被操作耦合到第三窗口406以从第三窗口406向第一窗口406中接收数据的用户选择424,从而提供实体简档408中的改变。所选数据可以包括源文档中的文本、超链接、数据或任何其它类型的数据,并且可以使用例如拖放、拷贝粘贴或用于将数据转移到第一窗口中的任何其它适当用户接口工具来选择和移动数据。数据的此选择和移动还可以携带可以在第一窗口中包括在简档中的注释等。因此,例如,可以在被插入简档的文本中自动地包括到源文档的超链接,或者可以创建注脚等,其包括到源文档的主动或被动链接或指针。
第二窗口404可以通过根据修正实体简档来更新搜索结果418而对实体简档408中的改变进行响应。这可以是响应于实体建党408的人工编辑或者如上描述的拖放修正等。第三窗口406可以类似地对第二窗口404中的经更新的搜索结果418中的一个的选择进行响应以在第三窗口406中显示搜索结果418中的所选的一个的内容。
第三窗口406可以例如通过在搜索结果428内再现全文本、嵌入式媒体、富文本、超文本等来更详细地显示搜索结果428中的用户选择的一个。在用户尚未选择搜索结果418中的一个的情况下,第三窗口406可以默认为搜素结果148中的第一或最高排列中的一个的显示,或者可以不显示任何东西。接口400的工具可以包括支持拖放功能或其它交互式功能以促进使用容易性的选择工具436。例如,第三窗口806内的用户选择数据424的选择可以允许如一般地用箭头440指示的用户所选数据424从第三窗口406到第一窗口402的拖放。此拖放动作可以自动地创建用于添加到实体简档408的参考包含用户选择数据424的搜索结果418的信息的引用432。该拖放动作可以同样或替代地创建维基参考标签或对源文档的其它计算机可读或人类可读参考。在另一方面中,拖放动作可以自动地或者通过具体地链接到实体简档408中的在该处用户放置用户所选数据424的位置来标识由内容的用户选择424证实的实体简档408中的副主题或实体属性。拖放动作可以同样或替代地在实体简档408中创建与来自第三窗口406的内容的用户选择424或其它参考、注释等相对应的文本条目。
在另一方面中,接口400可以同样或替代地仅使用两个窗口(具体地第一窗口402和第二窗口404)来提供上述交互式功能。在这方面,作为将来自第三窗口的全文档显示的用户所选数据424结合,用户可以直接地从在第二窗口404中显示的搜索结果418选择数据。此动作可以类似地创建标识搜索结果418中的一个所表示的源文档的引用432。例如,在使用两个窗口的实现中,用户所选择的文本可以是通常在搜索结果的总表中的自动摘要文本或者此类自动摘要文本的用户选择子串。自动摘要文本也常常称为摘录文本。
当用户将来自结果418的信息结合到简档408中时,该结果对用户而言可能不再有用。哟农户可以从列表去除搜索结果418(例如使用搜索工具426)或者刷新第二窗口404中的搜索结果418的列表。算法420可以(如果被适当配置的话)去除或反馈此结果,因为其不包含关于在实体简档408中描述的实体的新信息。如果结果不是关于实体的,则用户可以例如使用搜索工具426将搜索结果418标记为错误或不相关的。如果搜索结果418是关于目标实体的但未提供新信息,则用户可以将搜索结果418标记为冗余或“不是新的”。当搜索结果418或搜索结果418中的数据是关于简档408中的信息(例如,属性412和值414、副主题415等)是冗余的时,则用户可以将该结果418或用户选择数据424拖放到副主题415中以记录副主题等价性。下面进一步描述副主题和副主题等价性。
当用户开始对新的实体简档工作时,其通常仅从实体的名称或者可能实体的另一属性开始。随着用户聚集更多信息,其可以重复地扩展实体简档(诸如图4中的简档408)以包含更多信息。因此,该简档一般地可以随着用户聚集并组织关于实体的信息而经历各种成熟或细化阶段。为了明了起见,我们在这里提出简档的三个阶段:
(1)存根(stub)简档具有足以标识用户可能意图提到的候选但不足以强有力地标识哪个的信息,
(2)概要简档包含另一个人可以将其用来容易地对作者正在研究哪个实体消除歧义的足够区别性属性,然而大多数源简档包含尚未在简档中的附加信息,以及
(3)深度简档具有关于关于实体的足够不同观点和副主题,使得大多数源文档落入在简档中表达的副主题中的一个。副主题是出现在实体内的特定类型的主题。副主题涉及特定实体并关于该实体的存在被作为条件或断言。例如,如果一个人是民间音乐家且是凯尔特人球迷,则那个人的声明的那两个方面是不同的副主题。大多数副主题的描绘是主观的且潜在地不那么服从作为例如实体共指的自动化分类和管理。那是说实体属性是一个类型的副主题,并且是强类型的。
在简档发展中的不同阶段,搜索引擎可以采用不同的策略以便帮助用户创建深度简档。在一个方面中,的那个简档是存根时,搜索引擎可以提供提到具有与在简档中可用的属性共同的某些东西的不同实体的多种不同提及。例如,如果仅提供了名称,则搜索引擎可能呈现出关于具有相同或类似名称的多个不同实体的结果。
在一个方面中,当文章是概要时,搜索引擎可以呈现出非常有可能是共指的且相互不同的结果,从而提供多种结果。多样性是信息检索中的标准概念,并且参考特定参考文档所提供新信息的量。系统将多样性与实体共指性组合以呈现出关于实体的主题的结果,同时还跨实体的不同方面是多样化的。
在一个方面中,随着进行中的文档从概要成熟为深度文档,简档的结构本身代替结果,因为用户动作已经将结果消耗成简档。来自信息检索的多样性的标准概念应相应地演进:为了实现结果的多样性,搜索引擎必须呈现出不仅相互不同而且与在简档中已表达的副主题不同的项目。通过将在进行中的文档中体现的演进简档视为新的查询,改变了信息检索目标的性质。
此改变还使得能够实现新形式的主动式机器学习。在一个方面中,被用户拉入进行中的文档中的结果可以针对成对实体共指性模型提供用于学习权值的训练示例。这种方法允许针对具有简档的每个实体或者针对没有简档的许多实体学习成对共指性模型,当然要求用户的关于正在使用的成对实体共指性模型的性质或存在的特定知识。在另一方面中,可以使用进行中的文档的半结构化分量(诸如区段、副主题以及引用)作为用于针对特定简档训练的模型的分类器目标。可以将此类分类器应用于很有可能共指的MFC,并且其可以预测用户是否将特定结果视为关于简档的现有部分是冗余的,或者可能将其视为填充知识空隙的新信息并因此添加到简档是有用的。由于此结构随着用户建立进行中的文档而浮现,所以相关性的此概念主动地随着简档而演进。
在这里描述现在经由飞仙自行示例来提供用于上述用户接口的特定使用情况。想象作为用户您对实体总统Barack Obama感兴趣。您开始用文档标识符(诸如http://diffeo.Com/kb/Barack_Obama)来创建文档并将名称“Barack”放入文档中。此名称是简档文章中的第一副主题。实体的名称是具有概要的副主题,因此其是属性。在实体的名称的情况下,概要简单地是串,并且其使用是用于一件东西的名称的熟悉意义。实体类型是人,并且这可以可选地也被添加到进行中简档的文本。在基于MediaWiki的工具(维基百科)中,实体的名称进入“称号”字段并变成URL的一部分。
在这里,由进心中文档提供给推荐引擎的仅有信息是该名称,因此推荐引擎可能不具有足以将用户的预想实体与也具有该名称的其它实体完全消除歧义的信息。例如,如果用户以属性名称=“罗伯特史密斯”开始文档,则系统可能可访问提到具有该名称的许多不同人的文档。此类一组实体被称为“易混淆的”,因为其共同地共享一个或多个属性。给定从此类简档可用的稀少信息,当系统推荐源文档以供用户查看时,其将推荐排列以在前几个结果中呈现出多个不同的可能实体。在实体层级的这种多样性使得用户能够快速地发现他们想要研究的特定实体的提及。例如,如果系统想要呈现按照实体的流行性排列电极结果,则排在前面的许多许多结果可能全部提到同一实体,这对于对具有相同名称的不那么有名的人感兴趣的用户而言不那么有用。通过呈现在前几个结果中提及的实体的多样化选择,推荐引擎加速了用户构建出初始简档的任务。此初始阶段帮助用户移动超过“存根”文章阶段并进入“概要”文章阶段。
例如,系统可能推荐提及来自底特律的拳击手Barack Obama的第一文档和提及来自芝加哥的社区组织者Barack Obama的第二文档和提及美国参议员Barack Obama的第三文档和提及总统Barack Obama的的第四文档。在四者的此列表中,的一个是不同实体,并且后续的桑碰巧是处于生命的不同阶段的同一实体。作为用户,您可以将拳击手的提及标记为“错误”,因为您领会作为提到来自与您想要研究的实体不同的实体的提及。系统与用于其正在编写的简档408的文档标识符434相关联地存储此用户输入。系统可以在未来使用此信息来进行更好的推荐,例如通过不显示与提及拳击手的文档类似的文档。
继续本示例,用户可以从文档获得关于来自芝加哥的社团组织者的文本并将该文本添加到简档。系统自动地在简档中构造引用,其记录用于用户从其中获得文本的源文档的文档标识符。由于简档具有某些描述性文本,系统可以根据该简档来构建更丰富的特征矢量并将其用来生成更好的推荐。
系统可以在第一窗口中提供文本编辑器或类似功能,其使得用户能够编辑和改变进行中的文档中的自由文本。使得能够实现自由文本输入的常见工具是Microsoft Word、Microsoft PowerPoint、Notepad、emacs、Google Docs、Office Live、MediaWiki的VisualEditor以及许多其它文本编辑器。文本编辑器中的标准特征是能够创建子结构,诸如区段、具有隐藏字幕的图像、多个列、注脚、粗体、字体改变等。
一旦用户通过向进行中的文档中键入更多文本或者从搜索结果获得文本或在其中创建更多结构来改进该进行中的文档,则推荐引擎具有可用于生成推荐的更多信息。用简档中的更多副主题,系统更有可能能够分辨易混淆实体之间的共指性模糊。当系统检测到简档具有足以显式地标识实体的信息时,其将目标函数切换成使结果聚焦于发现关于该实体的更多提及而不是关于不同易混淆实体的多样化结果。在此概要文章阶段中,作为示出关于许多相关实体的多样化结果的替代,系统集中在如置信度分数表征的共指性正确性。
推荐引擎何时和如何改变推荐的显示的设计可以大大地影响系统的用户体验。例如,如果推荐引擎每当用户将简档改变单个字符时将弄乱或突然改变结果,则显示可能令人困难且难以使用。因此,系统的一个方面允许用户判定何时接收已更新结果。以此方式,用户可以显式地点击简档上的“保存”以存储器最近编辑(或者类似地显式地执行用以存储器编辑的动作)。替换地,可以将系统配置成在每次小的改变时自动地保存简档。推荐改变可以被自动地耦合到简档何时被保存,使得其每当用户改变简档时改变,或者其可以与简档何时被保存无关。
在实现中,简档可以处于“编辑”模式或“读取”模式。搜索结果在两个模式下都可以出现,并且系统可以被配置成当用户从一个模式切换至另一个时更新推荐。当处于“读取”模式时,简档文本及其它内容可以是不可改变的。当处于“编辑”模式时,简档文本及其它内容可以改变。在两个模式下,可以认为文章是处于“进行中”,因为用户可以在其选择时参与改变简档。
当系统检测到简档已改变时,其可以准备新的推荐且在用户选择看到该推荐时不向用户显示该新推荐。系统可以向用户指示新的结果可用,或者可以简单地向用户提供文件编制,使得系统常常具有用户可以通过触发对推荐的更新来查看的新结果。系统可以提供用于刷新推荐的按钮。在一个方面中,系统直观地向用户指示新推荐可用。该新推荐可以对简档中的改变或者可用于系统的数据源的改变进行响应。例如,如果用户正在编辑关于Barack Obama的简档,并且同时用户正在查看推荐的同时,Barack Obama发表产生新内容的演说,则系统可以向用户提供此已更新推荐内容。
系统具有新的推荐要提供给用户的视觉指示可以采取许多形式:显示给用户的显式文本消息、“新”项目的计数、闪烁以引起用户的注意的彩色信标、略该改变先前的列表而不以令人迷惑的方式突然地重组织显示的新结果的部分显示等。在一个方面中,系统通过直观地指示简档的哪些部分与新结果相关联来向用户提供新的推荐。此视觉指示可以采取在简档中或者在关联内容附近的在简档旁边的突出的形式。
编写文章时的一般惯例是将文档组织成区段和小节和段落和将相关信息在逻辑上分组的其它描绘。此信息中的某些可以被图示化为结构化属性,而其它部分可能被较少结构化。我们将用户在简档中创建的各种分组和区段称为“副主题”。每个副主题本身在上面定义的一般意义上是主题,并且其还具体地涉及简档文档所描述的实体。随着作者在文档中建立此类结构,系统使用此结构来改进在第二窗口426中提出的推荐。
例如,用户可能在关于Barack Obama的文章中创建三个区段:一个关于他的作为社区组织者的工作,第二是关于他的作为US参议员的工作,并且第三个关于他的作为总统的工作。这些区段进而可以具有小节及其它结构,其使得系统力量能够标识并向用户推荐感兴趣的源内容。当用户选择特定区段或段落中的文本时,系统可以使用该动作用关于该特定副主题的更多信息进行响应。例如,当用户正在编写关于作为总统的Obama的区段时,系统可能避免关于他作为参议员的角色的文档,并且替代地推荐关于他作为总统的时间的文档。
使用在简档中标识的Fenix,系统可以寻找尚未在简档中的新信息。当用户例如通过点击“找到新素材”按钮或将滑块朝着滑块的“新素材”末端拨动而指示了对找到关于实体的新的或“新型信息时,然后系统可以推荐与简档中的内容不同的内容。例如,系统可能推荐Obama在哈弗大学期间作为法学学生的时间的文档。这填充用户的进行中的文档中的知识空隙。
当系统发现看起来覆盖与已结合到文档中的信息相同的信息的另一文档时,系统可以将此结果排列较低或者将其从列表排除,因为其是等价的。用于副主题的源材料的等价性的此概念可以采取多个形式。例如,文档可以是处于合成层级的另一文档的副本,或者其可以以不同的表达方式提供相同信息,其中这些中的每个是一个类型的副主题等价性。
随着简档在深度和结构方面增加,系统可以再一次改变被用于搜索的目标函数,并且开始将想关心支持为对于用户而言比置信度更加重要。置信度分数表征推荐是关于目标实体的可能性。相关性分数表征推荐对用户的当前问题有用的可能性,印证文档中的现有副主题或发现要添加到文档的新副主题。
随着用户逐渐地发现有用信息并改进文章,其远离作为存根而演进成作为关于实体的副主题的越来越完整的概要。用户可能从多个源获得信息。除在由系统在第二窗口中提供的推荐中找到信息之外,用户可能使用在本系统外部的任何适当搜索工具来找到数据,并且通过凭记忆键入或者剪切并粘贴或者线简档中聚集知识的其它手段来将此补充数据插入到简档。
图5示出了用于相关性和置信度的显式用户控制的工具。相关性意味着一片信息对关于特定进行中报告而工作的用户的有用性。什么东西相关的定义随着简档而演进。通过将简档视为查询,可以显式地向提供各种搜索工具和算法的自动化系统表达演进相关性。用于评定内容的另一度量是置信度,其指代人类将统一特定实体叙述与简档所描述的实体共指的统计可能性。相关性和置信度是以实体为中心的搜索结果的不同方面,并且用户可能希望根据其特定目标且根据特定实体简档的成熟性而集中在一个或另一个。模型可以针对相对于特定简档的特定结果而向相关性和置信度中的每个分配单独分数,并且用于这些值及其它度量的综合分数可以随着实体简档发展通过上面描述的各种成熟阶段随时间推移而演进。
在一个方面中,可以提供用户控件500以用于对如上描述的相关性与置信度之间的相互作用的显式控制。此用户控件可以例如被实现为上述搜索工具426中的一个或者本文中描述的任何其它用户接口工具。在一个方面中,用户控件500可以提供用于与相关性和置信度相交互的两个用户输入。例如,用户控件500可以包括二维滑块502,其中第一轴线504控制用于相关性分数的阈值且第二轴线506控制用于置信度分数的阈值。通过在二维滑块502内选择特定位置508,用户可以控制这些阈值。
因此,二维滑块502可以充当阈值确定工具。通过选择二维滑块502中的位置,用户可以使由搜索算法返回的搜索结果局限于具有在所选阈值之上的相关性和置信度分数的结果。第一轴线504可以对应于相关性,使得将位置508向上移动将结果过滤成具有在相应阈值之上的相关性分数的项目。如果相关性和置信度分数在从零至一范围内,且位置508被设置成在到顶部(用于相关性)或者向右侧(用于置信度)超过半程,则具有小于0.5的分数的候选结果将被滤出。在另一方面中,作为过滤结果的替代,二维滑块可以提供用于通过使用来自滑块的值对相关性和置信度加权而将相关性和置信度组合成单个值并基于组合数而将结果重新分类的权值。
类似地,可以提供可视化以图示出共同性和差异的点。例如,在一个方面中,可以使用突出或其它视觉显示来向用户图示出在进行中简档的当前状态与推荐引擎所推荐的源文档之间的共同性和差异的点。
图6示出了供在基于实体的搜索中使用的书签工具。一般地,用户接口600可以提供用于聚集内容的附加机制,诸如用于对内容加书签的文件夹树。书签工具可以在web浏览器中作为当用户在网络(诸如因特网或内部网络)上浏览二面时可见的扩展而操作。
一般地,用户接口600可以包括web浏览器窗口602,其显示来自因特网或内部网络的web页面。该web页面可以是用于出售在用户接口内显示为内容604的各种产品的零售店。可以提供书签插件606,其中用户可以从web页面选择图像、文本或其它数据并将该内容拖放到书签插件606内的文件夹608中。可以同样或替代地由系统提供除拖放之外的其它动作以使得用户能够将所选内容604与一个或多个文件夹608相关联,例如通过点击按钮、复选框等。在以此方式加书签之后,用户所选内容604的概要表示610出现在插件606中。这使得用户能够选择用于各种动作的概要表示610,包括点击图标612以引导浏览器窗口602回到包含书签内容的页面。插件还可以示出来自推荐引擎的推荐614,其分析被用户加书签的文档并建议类似且可以对用户有帮助的其它文档。某些推荐可以是对要查看的文档的参考,或者其它推荐可以提供其它信息。可以通过分析与文件夹树中的所选项目相关的一批文档并找到那些文档的共同性质(诸如跨文本的共有的长串)来生成推荐616中的一个。在找到此类共同性质之后,推荐引擎向用户呈现推荐616。
如同大多数文件系统中的目录树,插件中的文件夹可以包含其它文件夹,因此创建分级嵌套结构,其允许用户将其书签组织成适合于他们的需要和思维过程的逻辑结构。我们将文件夹的此层级称为文件夹树。可以将树中的任何给定文件夹视为子树的“根”。根文件夹包含在其下面的零个或更多文件夹的树。用户将提出的所谓高层级文件夹视为工具中的单独的树的根。每个文件夹具有标识文件夹的名串。在高层级下面的文件夹具有父文件夹。共享公共父文件夹的文件夹被给定将其与其兄弟文件夹区别卡的唯一名称。用户可以编辑文件夹的名称并可以在树中到处移动文件夹以组织、统筹并管理文件夹树。
本浏览器书签插件中的文件夹不是本文中描述的意义上的进行中的文档。相反地,文件夹或子文件夹仅是用户已选择的文档标识符的集合。这些文档标识符指向用户可以经由进行中报告中的引用而参考的源文档。来自这些源文档的信息可以帮助开发或改进进行中的文档。文件夹的名称一般地是短串,并且通常具有最大宽度。该名称简单地是串且通常在串内不具有子结构。虽然用户可以在文件系统中修改该名称,但文件夹名并不意图是随时间推移而被修改的需要注意装置。
因此文件夹树结构并不是如在本文中设想的进行中的文档,至少是因为其并未使得能够实现自由文本输入或其它形式的自由文本note taking或类似用户修改。同时,应领会的是虽然如本文中描述的存储在进行中的文档中的实体简档基本上不同于诸如文件夹树之类的现有技术的其它搜索技术,但这些其它现有技术可以被有用地集成到用户接口中以实现如在本文中设想的基于实体的搜索。
图7示出了用于提供用于以实体为中心的信息检索和聚合的接口的方法。
如在步骤702中所示,方法700可以包括在显示中提供第一窗口,其接受包含关于一个或多个实体的信息的简档的用户输入,所述信息包括用于一个或多个实体的一个或多个区别性属性的一个或多个值。这可以例如是本文中描述的窗口、显示以及简档中的任何一个。简档可以例如包括类型和与类型相关联的一个或多个区别性属性以及包括用于区别性属性中的至少一个的值的关于实体的信息。
可以将简档存储在可编辑文档中,该可编辑文档诸如文本文档、HTML文档或可以持续、接收用户编辑并如上所述用文档标识符来标识的任何其它文档。简档可以包括各种类型的数据,其包括而不限于关于实体的非结构化数据、关于实体的结构化数据、具有预定义数据模型的数据、没有预定义数据模型的数据、分字段数据、语义标记数据、具有在简档内并未正式地定义的隐含结构的数据或任何其它类型的数据。简档可以例如包括超链接、显式字段、纯文本或其它类型的数据。实体可以是人、公司、组织或者适合于创建实体简档的任何其它类型的实体。类似地,实体可以涉及其它主题,诸如化合物、动物、地理区域等。
第一窗口可以使用多种文档处理平台或用户接口工具中的任何一个来促进用户对进行中的文档的修改。例如,第一窗口可以包括:文本编辑工具、超文本标记语言(HTML)编辑工具以及维基编辑工具。
如步骤704中所示,方法700可以包括确定用于实体的类型。用于实体的类型可以具有包括实体的一个或多个区别性属性的预定概要。确定用于实体的类型可以包括提供用于区别性属性中的至少一个的值。举例来说,区别性属性中的一个可以包括用于实体的名称。
在实现中,确定用于实体的类型是完全自动化的过程。确定用于实体的类型可以同样或替代地包括使用人类输入(即,用户输入),其中人类输入可以显式地标识用于实体的类型(或者尝试标识用于实体的类型)或者可以不这样。例如,实现可以不要求用户标识实体类型,而是替代地系统解释用户输入以标识用于实体的类型。举例来说,用户不需要将Barack Obama标识为人,而是相反地系统可以解释信息(例如,名称“Barack Obama”、职业、性别等)而确定Barack Obama是人。
在实现中,文档编辑器的用户可以向随之承载实体键入信息的文档的一个或多个类别分配简档。例如,在一方面,用户可以将文档分配给特定类别(例如,“人”类别)。通过将文档关联到类别,用户还可以促使用于向文章添加属性的窗体工具加载用于该实体类型的属性概要。举例来说,语义MediaWiki是提供用于实体属性和相同类型的实体的类别的此类模板系统的工具。
如步骤706中所示,方法700可以包括在显示中提供与第一窗口同时地可见的第二窗口。第二窗口可以示出来自标识文档的一个或多个源的多个搜索结果。文档可以每个包含具有提到实体的预定可能性的提及。第二窗口可以按照使用任何适当的算法排列的顺序来显示搜索结果,所述算法诸如根据一个或多个预定准则将搜索结果中的至少一个相对于其它搜索结果优先排列的算法。可以将多种预定准则用于搜索,诸如本文中所讨论的任何准则。以非限制性示例的方式,预定准则可以包括搜索结果提到实体的可能性、搜索结果提供用于实体的新信息项的可能性或者搜索结果提到实体的可能性与搜索结果提供用于实体的新信息项的可能性的组合。该准则可以同样或替代地包括前述内容的任何组合,诸如搜索结果提到实体的可能性、搜索结果与实体的相关性以及搜索结果提供用于实体的新信息项的可能性。
搜索策略可以随时间推移而改变,例如使得本方法可以使用根据简档的状态(诸如随着简档从存根发展成深度简档的各种点)而改变的排列函数基于一个或多个预定准则将搜索结果排列。第二窗口一般地可以对从第一窗口进行的信息的用户选择进行响应以根据信息中的用户兴趣的推断指示来更新第二窗口中的搜索结果。
如在步骤708中所示,方法700可以包括接收用以显示经更新的搜索结果的用户请求并响应性地在显示器中呈现经更新的搜索结果。
如在步骤710中所示,方法700可以包括将搜索结果中的一个的内容显示为显示器中的项目。如上所述,为了促进基于新搜索结果进行的进行中的文档的实时编辑,第一窗口可以通过向第一窗口添加项目、从而提供简档中的改变而对项目的用户选择进行响应,其中第二窗口通过提供经更新的搜索结果对简档中的改变进行响应。“简档中的改变”可以是任何改变,诸如文本编辑、拷贝和粘贴或者其它用户发起的对简档中的改变。因此,虽然用户可以通过从搜索结果的窗口拖放内容来发起改变(如在本文中所解释的),但存在可以同样或替代地更新简档并如本文中设想的那样充当用于经更新的搜索结果的基础的许多其它用户动作。
提供经更新的搜索结果可以包括在显示器中呈现经更新的搜索结果。在另一方面中,提供经更新的搜索结果包括响应于用以保存改变的用户动作而呈现经更新的搜索结果。换言之,在实现中,可以只有当用户保存简档中的改变时才向用户提供或呈现经更新的搜索结果。在另一方面中,提供经更新的搜索结果可以包括响应于请求经更新的搜索结果的用户动作而呈现经更新的搜索结果,或者在显示器中呈现经更新的搜索结果的可用性的指示。
更新搜索结果可以包括更新可用搜索结果,即在位于系统中的搜索结果被更新且被基于更新而呈现给用户的情况下。经更新的搜索结果可以包括用于用户选择的一个或多个附加项目。在一方面,在第二窗口中显示经更新的搜索结果。数据的用户选择可以例如包括项目到第一窗口中的拖放。在此过程中,拖放可以创建参考包含用户选择的搜索结果中的一个的引用。拖放可以同样或替代地创建用于简档中的改变的维基参考标签,该维基参考标签参考包含用户选择的搜索结果中的一个,或者拖放可以在简档中创建与项目中的所选文本条目相对应的文本条目。
显示项目可以包括用项目中的实体的提及的突出来显示项目,或者用项目中的关于实体的新信息的突出来显示项目。在另一方面中,显示项目可以包括在第三窗口中显示项目,该第三窗口被配置成显示来自第二窗口的搜索结果中的所选的一个。第三窗口可以与第一窗口和第二窗口同时地可见。
本方法还可以包括在显示器中提供经更新的搜索结果的指示。在一个方面中,经更新的搜索结果的指示包括第二窗口中的经更新的搜索结果的呈现。经更新的搜索结果的呈现可以同样或替代地包括向用户呈现经更新的搜索结果可用的通知。本领域的技术人员将领会其它指示同样或替代地是可能的,例如突出或其它视觉显示或指示或其它警告(例如,音频警告、消息传送警告等)。
如在步骤712中所示,窗口可以被相互操作耦合而合作以支持如本文中描述的基于实体的搜索。
图8示出了用于以实体为中心的信息检索和聚合的方法。虽然上面描述的方法有用地采用多窗口方法来组织结果和接收用户输入,但用以将实体简档构建为进行中的文档的根本方法并被要求信息的此特定布置。因此可以如在以下方法中以示例的方式描述的那样将该方法有用地广义化。
如在步骤802中所示,方法800可以从存储实体简档开始。可以将该实体简档存储在由文档标识符标识且包含半结构化数据的可编辑文档中,所述半结构化数据包括具有预定义数据模型的第一数据和没有预定义数据模型的第二数据。编辑简档可以例如用具有一个或多个区别性属性的类型和用于所述一个或多个区别性属性中的至少一个的值来描述实体。
如在步骤804中所示,方法800可以包括在用户接口(诸如本文中描述的任何用户接口)中向用户显示实体简档。用户接口可以例如包括如下中的一个或多个:用于可编辑文档的文本编辑工具、用于可编辑文档的超文本标记语言(HTML)编辑工具或用于可编辑文档的维基编辑工具。
如在步骤806中所示,方法800可以包括检测导致已修改实体简档的对用户接口中的实体简档的用户修改。这可以通过用以检测对可编辑文档的改变或者暗示对可编辑文档的改变的用户交互(例如,经由鼠标或键盘)中的任一者或两者的任何适当软件工具来实现。在一个方面中,用户修改可以包括数据到在用户接口中显示的可编辑文档的拖放。该拖放可以创建参考数据的源的用于数据的引用或者以其他方式将数据格式化以便包括在简档中。例如,拖放可以创建参考数据的源的用于数据的维基参考标签或者与内容源中的所选文本条目相对应的实体简档中的文本条目。在一个方面中,用户修改可以包括提供用户对信息的兴趣的推断指示的实体简档中的信息的用户选择。
如在步骤808中所示,方法800可以包括响应于该用户修改针对在已修改实体简档中指定的实体的提及而自动地执行基于实体的搜索,从而检索一个或多个搜索结果。此基于实体的搜索可以使用本文中描述的任何算法和搜索策略,包括随着简档从存根发展成深度简档而改变的策略。
如在步骤810中所示,方法800可以包括将搜索结果中的一个排列。如上所述,可以基于一个或多个准则或其组合而采用各种排列技术。因此,例如,该排列可以是根据搜索结果提到实体的置信度水平或者搜索结果提供用于实体的新信息项的置信度水平。更一般地,可以使用任何适当准则或准则的组合。应注意的是猪猪呢可以根据适应于实体简档的成熟性水平的搜索策略而改变,或者准则可以根据显式用户输入(诸如用于相关性和置信度的阈值的用户选择)而改变。
如在步骤812中所示,方法800可以包括向用户显示一个或多个搜索结果。这可以包括补充的格式化或组织,诸如包括突出一个或多个搜索结果宏的实体的提及或突出一个或多个搜索结果中的新信息项。
可以用硬件、软件或适合于特定应用的这些的任何组合来实现上述系统、设备、方法、过程等。硬件可以包括通用计算机和/或专用计算设备。这包括在一个或多个微处理器、微控制器、嵌入式微控制器、可编程数字信号处理器或其它可编程设备或处理电路以及内部和/或外部存储器中实现。这可以同样或替代地包括一个或多个专用集成电路、可编程门阵列、可编程阵列逻辑组件或可被配置成处理电子信号的任何其它设备。将进一步领会的是上面描述的过程或设备的实现可以包括使用结构化编程语言(诸如C)、面向对象编程语言(诸如C++)或可以被存储、编译或解释以在上述设备中的一个上运行的任何其它高级或低级编程语言(包括汇编语言、硬件描述语言以及数据库编程语言和技术)以及处理器的异构组合、处理器架构或不同硬件和软件的组合创建的计算机可执行代码。在另一方面中,可以在执行方法的步骤的系统中体现方法,并且可以用许多方式将其跨设备分布。同时,可以将处理跨设备(诸如上面描述的各种系统)分布,或者可以将所有功能集成到专用的独立设备或其它硬件中。在另一方面中,用于执行与上述过程相关联的步骤的手段可以包括上面描述的任何硬件和/或软件。所有此类置换和组合意图落在本公开的范围内。
本文中公开的实施例可以包括计算机程序产品,其包括当在一个或多个计算设备上执行时执行其任何和/或所有步骤的计算机可执行代码或计算机可用代码。该代码可以被以非临时方式存储在计算机存储器中,其可以是程序从其开始执行的存储器(诸如与处理器相关联的随机存取储器)或者存储设备,诸如盘驱动、闪存或任何其它光学、电磁、磁性、红外或其它设备或设备组合。在另一方面中,可以用承载计算机可执行代码和/或其任何输入或输出的任何适当传输或传播介质中体现上面描述的任何系统和方法。
将领会的是上面描述的设备、系统以及方法是以示例而非限制的方式阐述的。在没有相反的明确指示的情况下,可以在不脱离本公开的范围的情况下对公开的步骤进行修改、补充、省略和/或重排列。许多变更、添加、省略及其它修改对于本领域的技术人员而言将是显而易见的。另外,以上描述和附图中的方法步骤的顺序或呈现并不意图要求执行所叙述步骤的此顺序,除非显式地要求特定顺序或者以其他方式从上下文显而易见。
根据以下权利要求的可专利性,本文中描述的实现的方法步骤意图包括促使此类方法步骤被执行的任何适当方法,除非显式地提供了不同的意义或者以其他方式从上下文显而易见。因此例如执行X的步骤包括用于促使另一方(诸如远程用户、远程处理资源(例如,服务器或云计算机)或机器执行X的步骤的任何适当方法。类似地,执行步骤X、Y和Z可以包括引导或控制此类其它个体或资源的任何组合执行步骤X、Y和Z以获得此类步骤的益处的任何方法。根据以下权利要求的可专利性,本文中描述的实现的方法步骤意图包括促使一个或多个其它参与方或实体执行步骤的任何适当方法,除非显式地提供了不同的意义或者以其他方式从上下文显而易见。此类各方或实体不需要在任何另一方或实体的指导或控制下,并且不需要位于特定管辖区域内。
应进一步领会的是上述方法是以示例的方式提供的。在没有相反的明确指示的情况下,可以在不脱离本公开的范围的情况下对公开的步骤进行修改、补充、省略和/或重排列。
将领会的是上述方法和系统是以示例而非限制的方式阐述的。许多变更、添加、省略及其它修改对于本领域的技术人员而言将是显而易见的。另外,以上描述和附图中的方法步骤的顺序或呈现并不意图要求执行所叙述步骤的此顺序,除非显式地要求特定顺序或者以其他方式从上下文显而易见。因此,虽然已示出并描述了特定实施例,但对于本领域的技术人员而言将显而易见的是在不脱离本公开的精神和范围的情况下可以进行形式和细节方面的各种改变和修改,并且其意图构成如将在法律允许的最宽泛意义上解释的以下权利要求定义的本发明的一部分。

Claims (22)

1.一种非临时计算机可读介质,包括计算机可执行代码,所述计算机可执行代码在一个或多个计算设备上执行时执行如下步骤:
在显示器中提供第一窗口,其接受包含关于实体的信息的简档的用户输入,所述信息包括用于实体的一个或多个区别性属性的一个或多个值;
在显示器中提供与第一窗口同时地可见的第二窗口,第二窗口示出了来自一个或多个源的多个搜索结果,所述多个搜索结果用提到实体的预定可能性来标识每个包含提及的文档,其中第二窗口按照使用根据一个或多个预定准则相对于所述多个搜索结果中的其它搜索结果优先地排列搜索结果中的至少一个的算法排列的顺序来显示搜索结果;以及
在显示器中将搜索结果中的一个的内容显示为项目,其中第一窗口通过将项目添加到第一窗口而对项目的用户选择进行响应,从而提供简档中的改变,并且进一步地,其中第二窗口通过提供经更新的搜索结果而对简档中的改变进行响应。
2.根据 权利要求1所述 的非临时计算机可读介质,其中提供经更新的搜索结果包括在显示器中呈现经更新的搜索结果。
3.根据 权利要求1所述 的非临时计算机可读介质,其中提供经更新的搜索结果包括响应于用以保存改变的用户动作而呈现经更新的搜索结果。
4.根据 权利要求1所述 的非临时计算机可读介质,其中提供经更新的搜索结果包括响应于请求经更新的搜索结果的用户动作而呈现经更新的搜索结果。
5.根据 权利要求1所述 的非临时计算机可读介质,其中提供经更新的搜索结果包括在显示器中呈现经更新的搜索结果的可用性的指示。
6.根据 权利要求1所述 的非临时计算机可读介质,其中区别性属性中的一个是实体的名称。
7.根据 权利要求1所述 的非临时计算机可读介质,进一步包括执行确定实体的类型的步骤的代码,所述类型具有针对所述类型组织包括一个或多个区别性属性的多个属性的预定概要。
8.根据 权利要求1所述 的非临时计算机可读介质,进一步包括执行在显示器中提供经更新的搜索结果的指示的步骤的代码。
9.根据 权利要求8所述 的非临时计算机可读介质,其中经更新的搜索结果的指示包括经更新的搜索结果在第二窗口中的呈现以及给用户的经更新的搜索结果可用的通知的呈现中的至少一个。
10.根据 权利要求1所述 的非临时计算机可读介质,进一步包括执行接收用以显示经更新的搜索结果的用户请求并响应性地在显示器中呈现经更新的搜索结果的步骤的代码。
11.根据 权利要求1所述 的非临时计算机可读介质,其中所述一个或多个预定准则包括搜索结果提到实体的可能性、搜索结果与实体的相关性以及搜索结果提供针对实体的新信息项的可能性中的至少一个。
12.根据 权利要求11所述 的非临时计算机可读介质,进一步包括使用根据简档的状态而变化的排列函数基于所述一个或多个预定准则来排列搜索结果。
13.根据 权利要求1所述 的非临时计算机可读介质,其中简档包括超链接、显式字段以及纯文本中的一个或多个。
14.根据 权利要求1所述 的非临时计算机可读介质,其中实体选自由如下组成的组:人、公司、组织以及化学组成。
15.根据 权利要求1所述 的非临时计算机可读介质,其中数据的用户选择包括项目到第一窗口的拖放,并且其中所述拖放创建如下中的至少一个:针对简档中的改变的引用,所述引用参考搜索结果中的与用户选择相关联的一个;针对简档中的改变的维基参考标签,维基参考标签参考搜索结果中的包含用户选择的一个;以及简档中的与项目中的所选文本条目相对应的文本条目。
16.根据 权利要求1所述 的非临时计算机可读介质,进一步包括利用突出项目中的实体的提及中的一个或多个和关于项目中的实体的新信息来显示项目。
17.根据 权利要求1所述 的非临时计算机可读介质,其中第二窗口对来自第一窗口的信息的用户选择进行响应以根据信息中的用户兴趣的推断指示来更新第二窗口中的搜索结果。
18.根据 权利要求1所述 的非临时计算机可读介质,其中第一窗口包括文本编辑工具、超文本标记语言(HTML)编辑工具以及维基编辑工具中的一个或多个。
19.根据 权利要求1所述 的非临时计算机可读介质,其中简档包括半结构化文档。
20.根据 权利要求1所述 的非临时计算机可读介质,其中简档包括选自由如下组成的组的数据:关于实体的非结构化数据、关于实体的结构化数据、具有预定义数据模型的数据、没有预定义数据模型的数据、分字段数据、语义上加标签的数据以及具有未在简档内正式地定义的隐含结构的数据。
21.根据 权利要求1所述 的非临时计算机可读介质,其中简档包括可编辑文档,其包括文本文档和HTML文档中的一个或多个。
22.根据 权利要求1所述 的非临时计算机可读介质,进一步包括在被配置成显示来自第二窗口的搜索结果中的所选的一个的第三窗口中显示项目。
CN201580037649.3A 2014-05-12 2015-05-12 以实体为中心的知识发现 Active CN106716402B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461996575P 2014-05-12 2014-05-12
US61/996575 2014-05-12
US201462070549P 2014-08-28 2014-08-28
US62/070549 2014-08-28
PCT/US2015/030400 WO2015175548A1 (en) 2014-05-12 2015-05-12 Entity-centric knowledge discovery

Publications (2)

Publication Number Publication Date
CN106716402A CN106716402A (zh) 2017-05-24
CN106716402B true CN106716402B (zh) 2020-08-11

Family

ID=54368027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580037649.3A Active CN106716402B (zh) 2014-05-12 2015-05-12 以实体为中心的知识发现

Country Status (4)

Country Link
US (3) US9275132B2 (zh)
EP (1) EP3143526A4 (zh)
CN (1) CN106716402B (zh)
WO (1) WO2015175548A1 (zh)

Families Citing this family (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150026153A1 (en) 2013-07-17 2015-01-22 Thoughtspot, Inc. Search engine for information retrieval system
US9275132B2 (en) 2014-05-12 2016-03-01 Diffeo, Inc. Entity-centric knowledge discovery
US20210216516A1 (en) * 2014-05-28 2021-07-15 GraphSQL Inc. Management of a secondary vertex index for a graph
US9880997B2 (en) * 2014-07-23 2018-01-30 Accenture Global Services Limited Inferring type classifications from natural language text
US10628483B1 (en) * 2014-08-07 2020-04-21 Amazon Technologies, Inc. Entity resolution with ranking
CN104615680B (zh) 2015-01-21 2016-11-02 广州神马移动信息科技有限公司 网页质量模型的建立方法及装置
US10607152B2 (en) * 2015-05-26 2020-03-31 Textio, Inc. Using machine learning to predict outcomes for documents
WO2016203501A1 (en) * 2015-06-17 2016-12-22 TISCALI S.p.A. A method to rank documents by a computer, using additive ensembles of regression trees and cache optimisation, and search engine using such a method
US10164946B2 (en) * 2015-06-24 2018-12-25 International Business Machines Corporation Mention identification for untrusted content
CN105138649B (zh) * 2015-08-26 2018-11-30 小米科技有限责任公司 数据的搜索方法、装置及终端
US10445305B2 (en) * 2015-08-28 2019-10-15 Microsoft Technology Licensing, Llc Prioritizing keywords
US10496662B2 (en) * 2015-08-28 2019-12-03 Microsoft Technology Licensing, Llc Generating relevance scores for keywords
US10474997B2 (en) * 2015-08-28 2019-11-12 Microsoft Technology Licensing, Llc Generating popularity scores for keywords
US11675824B2 (en) * 2015-10-05 2023-06-13 Yahoo Assets Llc Method and system for entity extraction and disambiguation
US11183307B2 (en) * 2015-11-05 2021-11-23 Koninklijke Philips N.V. Crowd-sourced text annotation system for use by information extraction applications
CN107122371A (zh) * 2016-02-25 2017-09-01 伊姆西公司 用于数据处理的方法和装置
WO2017160872A1 (en) * 2016-03-14 2017-09-21 PreSeries Tech, SL Machine learning applications for dynamic, quantitative assessment of human resources
CN105912625B (zh) * 2016-04-07 2019-05-14 北京大学 一种面向链接数据的实体分类方法和系统
US10719889B2 (en) * 2016-04-21 2020-07-21 Microsoft Technology Licensing, Llc Secondary profiles with confidence scores
US10740374B2 (en) * 2016-06-30 2020-08-11 International Business Machines Corporation Log-aided automatic query expansion based on model mapping
US10467300B1 (en) * 2016-07-21 2019-11-05 Google Llc Topical resource recommendations for a displayed resource
US20180060438A1 (en) * 2016-08-25 2018-03-01 Linkedin Corporation Prioritizing locations for people search
US20180060433A1 (en) * 2016-08-25 2018-03-01 Linkedin Corporation Prioritizing keywords for people search
US20180060432A1 (en) * 2016-08-25 2018-03-01 Linkedln Corporation Prioritizing people search results
US10558657B1 (en) * 2016-09-19 2020-02-11 Amazon Technologies, Inc. Document content analysis based on topic modeling
US10255283B1 (en) 2016-09-19 2019-04-09 Amazon Technologies, Inc. Document content analysis based on topic modeling
US11562008B2 (en) 2016-10-25 2023-01-24 Micro Focus Llc Detection of entities in unstructured data
US20190207946A1 (en) * 2016-12-20 2019-07-04 Google Inc. Conditional provision of access by interactive assistant modules
US10496844B2 (en) 2017-02-23 2019-12-03 Salesforce.Com, Inc. Representing access permissions to documents
US20180247271A1 (en) * 2017-02-28 2018-08-30 Linkedln Corporation Value of content relevance through search engine optimization
FR3064379B1 (fr) * 2017-03-21 2021-12-03 Orange Procede et dispositif de gestion du stockage de documents numeriques
US11263275B1 (en) * 2017-04-03 2022-03-01 Massachusetts Mutual Life Insurance Company Systems, devices, and methods for parallelized data structure processing
US11188819B2 (en) 2017-05-10 2021-11-30 International Business Machines Corporation Entity model establishment
US11436417B2 (en) 2017-05-15 2022-09-06 Google Llc Providing access to user-controlled resources by automated assistants
US10127227B1 (en) 2017-05-15 2018-11-13 Google Llc Providing access to user-controlled resources by automated assistants
CN107302565A (zh) * 2017-05-26 2017-10-27 苏州思创源博电子科技有限公司 一种计算机数据智能无线传输方法
US11106741B2 (en) 2017-06-06 2021-08-31 Salesforce.Com, Inc. Knowledge operating system
US11080615B2 (en) * 2017-06-15 2021-08-03 International Business Machines Corporation Generating chains of entity mentions
US10896222B1 (en) * 2017-06-28 2021-01-19 Amazon Technologies, Inc. Subject-specific data set for named entity resolution
US10884980B2 (en) * 2017-07-26 2021-01-05 International Business Machines Corporation Cognitive file and object management for distributed storage environments
US10817515B2 (en) 2017-07-26 2020-10-27 International Business Machines Corporation Cognitive data filtering for storage environments
US10891338B1 (en) * 2017-07-31 2021-01-12 Palantir Technologies Inc. Systems and methods for providing information
CN107222583A (zh) * 2017-08-08 2017-09-29 江苏优闼数据科技有限公司 一种融合结构化数据和非结构化数据的数据传输方法
US10678997B2 (en) * 2017-10-05 2020-06-09 Microsoft Technology Licensing, Llc Machine learned models for contextual editing of social networking profiles
EP3673383A4 (en) 2017-10-10 2021-01-20 Thoughtspot Inc. AUTOMATIC DATABASE ANALYSIS
US11308128B2 (en) 2017-12-11 2022-04-19 International Business Machines Corporation Refining classification results based on glossary relationships
US11645277B2 (en) * 2017-12-11 2023-05-09 Google Llc Generating and/or utilizing a machine learning model in response to a search request
US11093842B2 (en) * 2018-02-13 2021-08-17 International Business Machines Corporation Combining chemical structure data with unstructured data for predictive analytics in a cognitive system
US11157564B2 (en) 2018-03-02 2021-10-26 Thoughtspot, Inc. Natural language question answering systems
EP3550444B1 (en) 2018-04-02 2023-12-27 Thoughtspot Inc. Query generation based on a logical data model
US20190325045A1 (en) * 2018-04-20 2019-10-24 Hewlett-Packard Development Company, L.P. Schema data structure
JP7503000B2 (ja) 2018-06-25 2024-06-19 セールスフォース インコーポレイテッド エンティティー間の関係の調査するためのシステム及び方法
US11455418B2 (en) 2018-08-07 2022-09-27 Google Llc Assembling and evaluating automated assistant responses for privacy concerns
US11144337B2 (en) * 2018-11-06 2021-10-12 International Business Machines Corporation Implementing interface for rapid ground truth binning
US11580147B2 (en) 2018-11-13 2023-02-14 Thoughtspot, Inc. Conversational database analysis
US11544239B2 (en) 2018-11-13 2023-01-03 Thoughtspot, Inc. Low-latency database analysis using external data sources
US11023486B2 (en) 2018-11-13 2021-06-01 Thoughtspot, Inc. Low-latency predictive database analysis
US11416477B2 (en) 2018-11-14 2022-08-16 Thoughtspot, Inc. Systems and methods for database analysis
CN109815343B (zh) * 2019-01-28 2021-01-22 北京百度网讯科技有限公司 获得知识图谱中的数据模型的方法、装置、设备和介质
US11334548B2 (en) 2019-01-31 2022-05-17 Thoughtspot, Inc. Index sharding
US11226972B2 (en) 2019-02-19 2022-01-18 International Business Machines Corporation Ranking collections of document passages associated with an entity name by relevance to a query
US11132358B2 (en) 2019-02-19 2021-09-28 International Business Machines Corporation Candidate name generation
US10936819B2 (en) * 2019-02-19 2021-03-02 International Business Machines Corporation Query-directed discovery and alignment of collections of document passages for improving named entity disambiguation precision
US11870805B2 (en) 2019-04-08 2024-01-09 California Manufacturing Technology Consulting Systems and methods that perform filtering, linking, and rendering
US11928114B2 (en) 2019-04-23 2024-03-12 Thoughtspot, Inc. Query generation based on a logical data model with one-to-one joins
CN111949798B (zh) * 2019-05-15 2024-02-02 北京百度网讯科技有限公司 图谱的构建方法、装置、计算机设备和存储介质
US11487942B1 (en) * 2019-06-11 2022-11-01 Amazon Technologies, Inc. Service architecture for entity and relationship detection in unstructured text
US11442932B2 (en) 2019-07-16 2022-09-13 Thoughtspot, Inc. Mapping natural language to queries using a query grammar
US11354326B2 (en) 2019-07-29 2022-06-07 Thoughtspot, Inc. Object indexing
US10970319B2 (en) 2019-07-29 2021-04-06 Thoughtspot, Inc. Phrase indexing
US11586620B2 (en) 2019-07-29 2023-02-21 Thoughtspot, Inc. Object scriptability
US11200227B1 (en) 2019-07-31 2021-12-14 Thoughtspot, Inc. Lossless switching between search grammars
US11409744B2 (en) 2019-08-01 2022-08-09 Thoughtspot, Inc. Query generation based on merger of subqueries
US11544477B2 (en) * 2019-08-29 2023-01-03 International Business Machines Corporation System for identifying duplicate parties using entity resolution
US11556845B2 (en) * 2019-08-29 2023-01-17 International Business Machines Corporation System for identifying duplicate parties using entity resolution
US12001441B2 (en) * 2019-09-04 2024-06-04 American Express Travel Related Services Company, Inc. Systems and methods for generating graphical relationship maps
JP6840204B1 (ja) * 2019-09-17 2021-03-10 株式会社日立製作所 業務支援システム及び方法
CN110852106B (zh) * 2019-11-06 2024-05-03 腾讯科技(深圳)有限公司 基于人工智能的命名实体处理方法、装置及电子设备
US11556579B1 (en) 2019-12-13 2023-01-17 Amazon Technologies, Inc. Service architecture for ontology linking of unstructured text
US11544272B2 (en) 2020-04-09 2023-01-03 Thoughtspot, Inc. Phrase translation for a low-latency database analysis system
US20210342541A1 (en) * 2020-05-01 2021-11-04 Salesforce.Com, Inc. Stable identification of entity mentions
CN111898152B (zh) * 2020-05-07 2021-10-22 北京五八信息技术有限公司 一种页面展示方法、电子设备及存储介质
US11379495B2 (en) 2020-05-20 2022-07-05 Thoughtspot, Inc. Search guidance
CN111753840A (zh) * 2020-06-18 2020-10-09 北京同城必应科技有限公司 一种同城物流配送名片下单技术
US11461540B2 (en) * 2020-06-18 2022-10-04 International Business Machines Corporation Cross-document propagation of entity metadata
CN111814477B (zh) * 2020-07-06 2022-06-21 重庆邮电大学 一种基于争议焦点实体的争议焦点发现方法、装置及终端
US20220108366A1 (en) * 2020-10-06 2022-04-07 Paypal, Inc. Dynamic content enrichment
CN112215000B (zh) * 2020-10-21 2022-08-23 重庆邮电大学 一种基于实体替换的文本分类方法
US11443101B2 (en) * 2020-11-03 2022-09-13 International Business Machine Corporation Flexible pseudo-parsing of dense semi-structured text
US20220164679A1 (en) * 2020-11-20 2022-05-26 Salesforce.Com, Inc. Multi-hop search for entity relationships
US11544340B2 (en) 2020-12-15 2023-01-03 Docusign, Inc. Content item selection in a digital transaction management platform
CN112818656B (zh) * 2021-01-26 2023-10-27 北京百度网讯科技有限公司 数据差异对比方法、装置、设备、介质和计算机程序产品
US20220284452A1 (en) * 2021-03-05 2022-09-08 HG Insights, Inc. Entity functional area and product use identification
US11580111B2 (en) 2021-04-06 2023-02-14 Thoughtspot, Inc. Distributed pseudo-random subset generation
US11822771B2 (en) * 2021-06-30 2023-11-21 Microsoft Technology Licensing, Llc Structuring communication and content for detected activity areas
US12045243B2 (en) * 2021-12-04 2024-07-23 International Business Machines Corporation Ranking entity search results based on information density
US12038899B1 (en) * 2023-06-23 2024-07-16 Hitachi, Ltd. Data annotation method and system for unstructured data integrating with data catalog

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1965314A (zh) * 2004-04-19 2007-05-16 雅虎公司 用于在即时消息环境中进行内嵌搜索的技术
CN101470747A (zh) * 2007-12-28 2009-07-01 英业达股份有限公司 辞典查询记录的分类显示系统及其方法
US8577911B1 (en) * 2010-03-23 2013-11-05 Google Inc. Presenting search term refinements

Family Cites Families (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5673369A (en) 1995-03-02 1997-09-30 International Business Machines Corporation Authoring knowledge-based systems using interactive directed graphs
US5659732A (en) 1995-05-17 1997-08-19 Infoseek Corporation Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents
US5748954A (en) 1995-06-05 1998-05-05 Carnegie Mellon University Method for searching a queued and ranked constructed catalog of files stored on a network
US5764906A (en) 1995-11-07 1998-06-09 Netword Llc Universal electronic resource denotation, request and delivery system
US5873107A (en) * 1996-03-29 1999-02-16 Apple Computer, Inc. System for automatically retrieving information relevant to text being authored
US5836771A (en) 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US5924090A (en) 1997-05-01 1999-07-13 Northern Light Technology Llc Method and apparatus for searching a database of records
US6112203A (en) 1998-04-09 2000-08-29 Altavista Company Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis
US6138113A (en) 1998-08-10 2000-10-24 Altavista Company Method for identifying near duplicate pages in a hyperlinked database
US6115709A (en) 1998-09-18 2000-09-05 Tacit Knowledge Systems, Inc. Method and system for constructing a knowledge profile of a user having unrestricted and restricted access portions according to respective levels of confidence of content of the portions
US7117199B2 (en) 2000-02-22 2006-10-03 Metacarta, Inc. Spatially coding and displaying information
US20020087532A1 (en) 2000-12-29 2002-07-04 Steven Barritz Cooperative, interactive, heuristic system for the creation and ongoing modification of categorization systems
US20030126136A1 (en) 2001-06-22 2003-07-03 Nosa Omoigui System and method for knowledge retrieval, management, delivery and presentation
JP2004534324A (ja) 2001-07-04 2004-11-11 コギズム・インターメディア・アーゲー 索引付きの拡張可能な対話的文書検索システム
US7225183B2 (en) 2002-01-28 2007-05-29 Ipxl, Inc. Ontology-based information management system and method
US7730063B2 (en) 2002-12-10 2010-06-01 Asset Trust, Inc. Personalized medicine service
US6901411B2 (en) * 2002-02-11 2005-05-31 Microsoft Corporation Statistical bigram correlation model for image retrieval
US8015143B2 (en) 2002-05-22 2011-09-06 Estes Timothy W Knowledge discovery agent system and method
AU2003258037B2 (en) 2002-08-05 2009-11-26 Nokia Corporation Desktop client interaction with a geographic text search system
US7401057B2 (en) 2002-12-10 2008-07-15 Asset Trust, Inc. Entity centric computer system
AU2004220880B2 (en) 2003-03-18 2010-09-23 Nokia Corporation Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval
US20050210008A1 (en) 2004-03-18 2005-09-22 Bao Tran Systems and methods for analyzing documents over a network
ATE502685T1 (de) * 2004-03-22 2011-04-15 Nintendo Co Ltd Spielvorrichtung, spielprogramm, speichermedium, in dem das spielprogramm gespeichert ist, und spielsteuerungsverfahren
JP2007532419A (ja) 2004-04-09 2007-11-15 エイベリィ デニスン コーポレイション インサートファスナ付きケーブルタイ
WO2005111868A2 (en) 2004-05-03 2005-11-24 Microsoft Corporation System and method for dynamically generating a selectable search extension
CA2566280A1 (en) 2004-05-19 2005-12-01 Metacarta, Inc. Systems and methods of geographical text indexing
WO2006031741A2 (en) 2004-09-10 2006-03-23 Topixa, Inc. User creating and rating of attachments for conducting a search directed by a hierarchy-free set of topics, and a user interface therefor
US20070266020A1 (en) 2004-09-30 2007-11-15 British Telecommunications Information Retrieval
CA2500573A1 (en) 2005-03-14 2006-09-14 Oculus Info Inc. Advances in nspace - system and method for information analysis
CA2613782A1 (en) 2005-06-28 2007-01-04 Metacarta, Inc. User interface for geographic search
US7672833B2 (en) 2005-09-22 2010-03-02 Fair Isaac Corporation Method and apparatus for automatic entity disambiguation
JP2009526327A (ja) 2006-02-10 2009-07-16 メタカータ・インコーポレーテッド メディアオブジェクトについての空間サムネイルおよびコンパニオンマップのためのシステムおよび方法
US8122019B2 (en) * 2006-02-17 2012-02-21 Google Inc. Sharing user distributed search results
US7698332B2 (en) * 2006-03-13 2010-04-13 Microsoft Corporation Projecting queries and images into a similarity space
US8965409B2 (en) * 2006-03-17 2015-02-24 Fatdoor, Inc. User-generated community publication in an online neighborhood social network
US8015183B2 (en) 2006-06-12 2011-09-06 Nokia Corporation System and methods for providing statstically interesting geographical information based on queries to a geographic search engine
US9721157B2 (en) 2006-08-04 2017-08-01 Nokia Technologies Oy Systems and methods for obtaining and using information from map images
US9286404B2 (en) 2006-06-28 2016-03-15 Nokia Technologies Oy Methods of systems using geographic meta-metadata in information retrieval and document displays
US20080065685A1 (en) 2006-08-04 2008-03-13 Metacarta, Inc. Systems and methods for presenting results of geographic text searches
US20080059452A1 (en) 2006-08-04 2008-03-06 Metacarta, Inc. Systems and methods for obtaining and using information from map images
WO2008055234A2 (en) 2006-10-31 2008-05-08 Metacarta, Inc. Systems and methods for predictive models using geographic text search
US20080104103A1 (en) * 2006-11-01 2008-05-01 Thom Adams System and method for managing information using entity-centric objects
US20080222105A1 (en) 2007-03-09 2008-09-11 Joseph Matheny Entity recommendation system using restricted information tagged to selected entities
US20080301120A1 (en) * 2007-06-04 2008-12-04 Precipia Systems Inc. Method, apparatus and computer program for managing the processing of extracted data
US8019760B2 (en) * 2007-07-09 2011-09-13 Vivisimo, Inc. Clustering system and method
US7941429B2 (en) * 2007-07-10 2011-05-10 Yahoo! Inc. Interface for visually searching and navigating objects
CA2702937C (en) * 2007-10-17 2014-10-07 Neil S. Roseman Nlp-based content recommender
US8594996B2 (en) * 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US8700574B2 (en) 2008-03-21 2014-04-15 Omnitracs, Llc Pourover journaling
AU2009238519C1 (en) * 2008-04-20 2015-08-20 Tigerlogic Corporation Systems and methods of identifying chunks from multiple syndicated content providers
US8472705B2 (en) * 2008-05-23 2013-06-25 Yahoo! Inc. System, method, and apparatus for selecting one or more representative images
US8150170B2 (en) * 2008-05-30 2012-04-03 Microsoft Corporation Statistical approach to large-scale image annotation
CA2726037A1 (en) * 2008-06-06 2009-12-10 Thomson Licensing System and method for similarity search of images
US7962500B2 (en) * 2008-10-24 2011-06-14 Yahoo! Inc. Digital image retrieval by aggregating search results based on visual annotations
US8429173B1 (en) * 2009-04-20 2013-04-23 Google Inc. Method, system, and computer readable medium for identifying result images based on an image query
US8533223B2 (en) 2009-05-12 2013-09-10 Comcast Interactive Media, LLC. Disambiguation and tagging of entities
JP5514486B2 (ja) * 2009-08-03 2014-06-04 株式会社日立製作所 Webページの関連性抽出方法、装置、及びプログラム
US20110119262A1 (en) * 2009-11-13 2011-05-19 Dexter Jeffrey M Method and System for Grouping Chunks Extracted from A Document, Highlighting the Location of A Document Chunk Within A Document, and Ranking Hyperlinks Within A Document
US9684683B2 (en) 2010-02-09 2017-06-20 Siemens Aktiengesellschaft Semantic search tool for document tagging, indexing and search
US9710556B2 (en) * 2010-03-01 2017-07-18 Vcvc Iii Llc Content recommendation based on collections of entities
US11386510B2 (en) * 2010-08-05 2022-07-12 Thomson Reuters Enterprise Centre Gmbh Method and system for integrating web-based systems with local document processing applications
US9367530B2 (en) 2011-01-21 2016-06-14 Jive Software Distributed document co-authoring and processing
US8838582B2 (en) 2011-02-08 2014-09-16 Apple Inc. Faceted search results
US8635197B2 (en) * 2011-02-28 2014-01-21 International Business Machines Corporation Systems and methods for efficient development of a rule-based system using crowd-sourcing
US9064339B2 (en) * 2011-06-28 2015-06-23 Salesforce.Com, Inc. Computer implemented systems and methods for providing a mobile social enterprise interface
US9715547B2 (en) * 2011-07-15 2017-07-25 Commonsku Inc. Method and system for providing newsfeed updates
US9432805B2 (en) * 2011-09-28 2016-08-30 Qualcomm Incorporated Discovering and automatically sizing a place of relevance
US8918346B2 (en) * 2011-11-28 2014-12-23 Eaton Corporation System and method employing a minimum distance and a load feature database to identify electric load types of different electric loads
US20130138669A1 (en) * 2011-11-28 2013-05-30 Bin Lu System and method employing a hierarchical load feature database to identify electric load types of different electric loads
US8751505B2 (en) 2012-03-11 2014-06-10 International Business Machines Corporation Indexing and searching entity-relationship data
US9081814B1 (en) 2012-06-01 2015-07-14 Google Inc. Using an entity database to answer entity-triggering questions
WO2013192584A1 (en) * 2012-06-22 2013-12-27 Google Inc. Automatically reexecuting a query
US9619528B2 (en) * 2012-11-02 2017-04-11 Swiftype, Inc. Automatically creating a custom search engine for a web site based on social input
US9047278B1 (en) * 2012-11-09 2015-06-02 Google Inc. Identifying and ranking attributes of entities
US20140173426A1 (en) * 2012-12-19 2014-06-19 Microsoft Corporation Seamlessly incorporating online content into documents
US9275132B2 (en) 2014-05-12 2016-03-01 Diffeo, Inc. Entity-centric knowledge discovery
US10162882B2 (en) 2014-07-14 2018-12-25 Nternational Business Machines Corporation Automatically linking text to concepts in a knowledge base
US20180189708A1 (en) 2016-12-30 2018-07-05 Dropbox, Inc. Goals service with data model
US11106741B2 (en) 2017-06-06 2021-08-31 Salesforce.Com, Inc. Knowledge operating system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1965314A (zh) * 2004-04-19 2007-05-16 雅虎公司 用于在即时消息环境中进行内嵌搜索的技术
CN101470747A (zh) * 2007-12-28 2009-07-01 英业达股份有限公司 辞典查询记录的分类显示系统及其方法
US8577911B1 (en) * 2010-03-23 2013-11-05 Google Inc. Presenting search term refinements

Also Published As

Publication number Publication date
US20150324454A1 (en) 2015-11-12
US11409777B2 (en) 2022-08-09
US9275132B2 (en) 2016-03-01
CN106716402A (zh) 2017-05-24
US20200320111A1 (en) 2020-10-08
US10474708B2 (en) 2019-11-12
EP3143526A1 (en) 2017-03-22
EP3143526A4 (en) 2017-10-04
WO2015175548A1 (en) 2015-11-19
US20160378855A1 (en) 2016-12-29

Similar Documents

Publication Publication Date Title
US11409777B2 (en) Entity-centric knowledge discovery
US11790009B2 (en) Knowledge operating system
Salatino et al. The computer science ontology: A comprehensive automatically-generated taxonomy of research areas
JP7503000B2 (ja) エンティティー間の関係の調査するためのシステム及び方法
US8874542B2 (en) Displaying browse sequence with search results
US8358308B2 (en) Using visual techniques to manipulate data
Moussa et al. A survey on opinion summarization techniques for social media
US20160086085A1 (en) Methods and devices for customizing knowledge representation systems
US20210342541A1 (en) Stable identification of entity mentions
Stuart Practical ontologies for information professionals
Shigarov Table understanding: Problem overview
Chansanam et al. Culture knowledge graph construction techniques
Fabo et al. Mapping the Bentham Corpus: concept-based navigation
Musabeyezu Comparative study of annotation tools and techniques
Tessore et al. Distant Supervised Construction and Evaluation of a Novel Dataset of Emotion-Tagged Social Media Comments in Spanish
Qassimi et al. Towards an emergent semantic of web resources using collaborative tagging
US12105684B2 (en) Methods and devices for customizing knowledge representation systems
CN112585596B (zh) 用于调查实体之间的关系的系统和方法
US20240111944A1 (en) System and Method for Annotation-Based Document Management
Tohalino et al. Using citation networks to evaluate the impact of text length on keyword extraction
Alperovich Sociopath: automatic local events extractor
Alperovich Sociopath: automatická extrakce informací o kulturních událostech
Ben Chaabene et al. Semantic annotation for the “on demand graphical representation” of variable data in Web documents
Krumpholz et al. Your personal, virtual librarian
Empowered D 2.3-Evaluation and Performance Report

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200714

Address after: California, USA

Applicant after: salesforce.com, Inc.

Address before: Massachusetts, USA

Applicant before: DIFFEO Inc.

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: California, USA

Patentee after: Shuo Power Co.

Address before: California, USA

Patentee before: salesforce.com, Inc.