Nothing Special   »   [go: up one dir, main page]

CN109871428A - 用于确定文本相关度的方法、装置、设备和介质 - Google Patents

用于确定文本相关度的方法、装置、设备和介质 Download PDF

Info

Publication number
CN109871428A
CN109871428A CN201910093336.XA CN201910093336A CN109871428A CN 109871428 A CN109871428 A CN 109871428A CN 201910093336 A CN201910093336 A CN 201910093336A CN 109871428 A CN109871428 A CN 109871428A
Authority
CN
China
Prior art keywords
text
knowledge
group
correlation
knowledge element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910093336.XA
Other languages
English (en)
Other versions
CN109871428B (zh
Inventor
徐也
冯知凡
方舟
张扬
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910093336.XA priority Critical patent/CN109871428B/zh
Publication of CN109871428A publication Critical patent/CN109871428A/zh
Priority to US16/689,862 priority patent/US11520812B2/en
Priority to JP2019210903A priority patent/JP6975377B2/ja
Priority to EP19210678.9A priority patent/EP3690672A1/en
Priority to KR1020190163710A priority patent/KR102564144B1/ko
Application granted granted Critical
Publication of CN109871428B publication Critical patent/CN109871428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

根据本公开的实施例,提供了用于确定文本相关度的方法、装置、设备和介质。确定文本相关度的方法包括从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素。知识库包括由知识元素构成的知识表示。该方法还包括确定第一组知识元素与第二组知识元素之间的知识元素相关度,并且至少基于知识元素相关度,确定第二文本与第一文本的文本相关度。以此方式,可以通过知识库中知识元素级别的相关度来提高文本相关度的确定。

Description

用于确定文本相关度的方法、装置、设备和介质
技术领域
本公开的实施例主要涉及计算机领域,并且更具体地,涉及用于确定文本相关度的方法、装置、设备和计算机可读存储介质。
背景技术
文本的相关度也称为文本的匹配程度。在很多应用中都需要确定不同文本之间的相关度。一个典型的场景是搜索应用。通常,在执行搜索时,要确定各个文档中的文本与搜索查询中的文本相关度,并且可以基于相关度的高低来确定在返回的查询结果中各个文档的排序情况,即实现相关度排序。文本相关度的确定基于对文本的理解,不仅由两个文本的语义相似度相关,而且还与文本之间的匹配程度相关。虽然已经进行了大量研究,但当前很多实现文本相关度确定的方法在准确度方面仍然有待提高。
发明内容
根据本公开的示例实施例,提供了一种用于确定文本相关度的方案。
在本公开的第一方面中,提供了一种确定文本相关度的方法。该方法包括从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素,知识库包括由知识元素构成的知识表示;确定第一组知识元素与第二组知识元素之间的知识元素相关度;以及至少基于知元素相关度,确定第二文本与第一文本的文本相关度。
在本公开的第二方面中,提供了一种用于确定文本相关度的装置。该装置包括知识元素关联模块,被配置为从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素,知识库包括由知识元素构成的知识表示;元素相关度确定模块,被配置为确定第一组知识元素与第二组知识元素之间的知识元素相关度;以及文本相关度确定模块,被配置为至少基于知识元素相关度,确定第二文本与第一文本的文本相关度。
在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了在常规方案中确定文本相似度的示例环境的示意图;
图2示出了根据本公开的多个实施例的确定文本相似度的示例环境的示意图;
图3示出了根据本公开的一些实施例的基于学习网络的文本相关度确定的系统的示意框图;
图4示出了根据本公开的一些实施例的图3的系统中的表示确定模块的示例的框图;
图5示出了根据本公开的一些实施例的图3的系统中的特征提取模块的示例的框图;
图6示出了根据本公开的一些实施例的确定文本相关度的方法的流程图;
图7示出了根据本公开的实施例的用于确定文本相关度的装置的示意框图;以及
图8示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如本文中所使用的,术语“文档”指的是任何格式的包含文本的计算机可读文件,也称为电子文档。文档的示例包括超文本标记语言(HTML)文件(也称为网页)、word文档、演示文档、便携式文档格式(PDF)文档、电子表格文档、纯文本文档,等等。
如以上提及的,在许多应用中需要确定文本之间的相关度。图1示出了在常规方案中确定文本相似度的示例环境100的示意图。在环境100中,计算设备110被配置为确定两个文本之间的相关度,文档库120被配置为存储多个文档,每个文档具有相应的文本。文本102“华仔的老婆是谁?”作为用户输入的搜索查询102被提供给计算设备110。计算设备110然后从文档库120中检索与文本102相关(或匹配)的文本。例如,计算设备110从文档库120中获得文档130,并提取文档130的一部分,例如语句“朱丽倩的老公是刘德华”作为文本132。然后,计算设备110确定文本132与102的相关度,作为输出104。在搜索查询的应用中,所确定的相关度可以影响文档130是否能够作为针对搜索查询的搜索结果被呈现给用户,和/或文档130在搜索结果中的排序。
在很多相关度确定技术中,主要考虑文本之间字符或词级别的共现情况,即在两个文本中相同字符或词出现的情况。然而,这种显式字符或词级别的信息可能难以捕捉文本的深层含义,从而导致对相关度确定的准确性难以令人满意。在考虑文档排序的应用中,虽然提出了利用用户的跳转关系与网页的质量来对网页类文档进行排序(典型的方案是被称为“PageRank”模型),但这种方案没有准确衡量网页与搜索查询之间的相关度。随着深度学习算法的不断发展,也提出了通过将文本相关度计算的问题建模成分类或排序问题,通过人工构造不同方面的特征或者利用算法来学习深度特征,然后基于特征来确定相关度或匹配程度。然而,人工构造特征会耗费大量人力,且难以实现对查询文本的深层理解,而在词语级别上的特征学习也面临着解决精确文本理解和匹配问题。
根据本公开的实施例,提出了一种改进的文本相关度确定方案。在该方案中,引入了知识库用于提高相关度确定的准确度。具体地,通过实体关联手段将两个文本关联到知识库中的相应实体,然后基于两个文本对应的实体之间的实体相关度来确定文本之间的文本相关度。以此方式,可以通过知识库中知识元素级别的相关度来提高文本相关度的确定。
以下将参照附图来具体描述本公开的实施例。图2示出了根据本公开的实施例的确定文本相似度的示例环境200的示意图。与图1所示的环境100相比,环境200中的计算设备210在确定文本102“华仔的老婆是谁?”与文本132“朱丽倩的老公是刘德华”的文本相关度时,还参考预定义的知识库240,以确定文本102和132之间实体级别的相关度。应当理解,虽然在图2的示例中给出了文本102和132的具体内容,但这仅是为了解释说明的目的。在其他实施例中,计算设备210可以确定任何两个文本之间的文本相关度。
为便于理解,首先简单介绍知识库240。在文本中所使用的“知识库”(KB)也被称为“知识图谱”或“知识图”,这些术语在本文中可互换地使用。知识库是大量知识的集合。知识库可以包括多个知识元素,这些知识元素中的两个或多个知识元素构成知识表示。知识的示例例如为“刘德华的老婆是朱丽倩”、“刘德华的职业是歌手”、“刘德华的生日是1961年9月27日”等事实或现象。
在知识库中,知识元素包括实体,实体之间的关系,以及实体之间的属性。在此所述的“实体”指的是真实世界中存在的各种对象和概念,诸如人物、地理位置、组织、品牌、职业、日期等等。在以上知识的示例中,“实体”包括人物“刘德华”和“朱丽倩”,职业“歌手”,日期“1961.9.27”。在此所述的“关系”指代两个实体之间的关联,例如刘德华与朱丽倩之间的关系为夫妻。在此所述的“属性”指代实体本身的性质。以人物为例,其属性可以包括职业、生日、代表作、年龄、身高、体重、性别等。实体的属性有时也可以被认为是实体的一种名词性关系,因此知识库描述了各个实体的一个或多个关系。
为了方便计算机的处理和理解,知识库中的知识可以以三元组(triple)的形式来表示,三元组例如为(第一实体,关系/属性,第二实体)。例如,知识“刘德华的老婆是朱丽倩”可以用三元组表示为(Liu Dehua,Wife,Zhu Liqian)。在本文中,关系或属性(诸如,Wife)也被称为“谓词”,具有相应关系或属性的两个实体可以作为“主语”或“宾语”。如果将一个实体看作是一个结点,将实体间的关系和属性等看作是一条边,那么包含了大量三元组的知识库就形成了庞大的知识图。通过将实体、关系/属性等知识元素进行关联,可以从知识库中容易地获取相应知识。
图2的知识库240可以是任何已有或将要开发的知识库,其示例包括但不限于Freebase、DBpedia、YAGO、开放信息提取(Open Information Extraction,Open IE)、不停语言学习(Never-Ending Language Learning,NELL)等等。在图2中还示出了知识库240中的与实体“刘德华”相关的知识部分240,其中示出了实体“刘德华”201与其他实体的关系/属性。例如,实体“刘德华”201的属性“代表作”202指向电影实体“旺角卡门”203的关系是代表作,这指示了知识“刘德华的代表作是旺角卡门”;实体“刘德华”201与人物实体“朱丽倩”205的关系是“夫妻”204,这指示了知识“刘德华和朱丽倩是夫妻关系”;实体“刘德华”201的“职业”属性206和“生日”属性208分别指向实体“歌手”207和实体“1961.9.27”209,分别指示了知识“刘德华的职业是歌手”,“刘德华的生日是1961年9月27日”。应当理解,图2中示出的知识部分240及其布置方式仅仅是一个具体示例。在其他示例中,与实体“刘德华”相关的知识也可以被不同的布置,并且知识库240可以包含更多的、更少的或者不同的知识和/或以其他方式被布置和呈现的指示。
在知识库中,为了便于区别,不同的知识元素可以被指派相应的标识(ID),这样的标识能够唯一地标识出对应的知识元素。此外,每个知识元素可以具有一个或多个指称(也可以叫名称),用于指示对应的知识元素。在图2的示例知识部分242中,描绘了每个实体、关系和属性的单个指称,但一个或多个元素可以具有其他指称。对于具有多个指称的知识元素,这些指称可以是同义词、同一对象的不同称呼,等等。例如,对于实体“刘德华”,除了指称“刘德华”之外,还有该歌手的其他名称,诸如昵称“华仔”、英文名“Andy Lau”等都可以作为该实体的指称。在一些情况下,不同知识元素也可能具有同一指称,例如,与歌手李娜对应的实体和与网球选手李娜对应的实体均具有指称“李娜”。
应当理解,知识库240可以被存储在任何存储系统、存储设备、数据库中。虽然被示出为与文档库120分离,但知识库240也可以被存储在与文档库120相同的数据库中。知识库240中的知识可以被不断扩充、删减、修改和/或更新。
根据本公开的实施例,计算设备210被配置为确定文本102与文本132之间的文本相关度214。文本相关度214的确定结果例如可以被提供给其他设备使用或存储、呈现给用户等等。计算设备210也可以在本地存储所确定的文本相关度214。文本102和132可以是任何来源的文本,分别由一个或多个字符、词语等组成。在图2的示例中,文本102被包括在用户的搜索查询中,文本132是文档130的一部分或全部。在这样的示例中,文档130作为搜索查询的候选文档,并且计算设备210被配置为确定文档130中的文本132是否与搜索查询中的文本102相关或匹配。所确定的文本相关度大小可以用于确定文档130是否可以作为搜索查询的搜索结果被返回给用户,并且还可以确定文档130在全部搜索结果中的排序。例如,如果文本132与搜索查询中的文本102相关度较高,那么相应文档130在搜索结果中的排序可以更靠前。通过知识库的引入,可以更好理解查询用户的需求,从而返回更匹配的结果。
在一些实例中,文本102包括整个搜索查询,文本132可以包括文档130中的一个段落、一句话或者以其他粒度划分后的文档片段。文档130可以是文档库120中的任一文档,计算设备210可以针对文档130中的各个片段均执行与文本102的文本相关度确定,并且针对文档库120的一个或多个文档均执行文本相关度确定。
除了搜索应用中确定文本相关度之外,计算设备210还可以确定来自任何两个文档的文本102与文本132之间的文本相关度。例如,在文档馈送应用中,例如,在新闻、热点推送或者基于用户兴趣的推荐等应用中,可以确定任何候选两个文档中的文本之间的相关度。在这些应用中,文本102和132均来自文档,例如可以是文档中的一部分(一句话或一个段落等)。所确定的文本相关度或者(两个文档的总体文本相关度)可以被用于确定在文档馈送时对应的两个文档的排序。例如,如果为了使内容馈送多样化,可以将文本相关度较高的文档之间的距离加大,从而使得用户能够获得更多不同的文档。备选地,根据需要,也可以将文本相关度较高的文档集中呈现。
无论文本102和132的来源如何,在确定这两个文本的相关度时,根据本公开的实施例,计算设备210从知识库240中确定与文本102(为便于描述,本文中有时也称为“第一文本”)相关联的知识元素(为便于描述,本文中有时也称为“第一组知识元素”)。类似地,对于文本132,计算设备210也从知识库240中确定与文本132(为便于描述,本文中有时也称为“第二文本”)相关联的知识元素(为便于描述,本文中有时也称为“第二组知识元素”)。如以上描述的,知识库中的知识元素可以包括实体、实体之间的关系和/或属性等。取决于文本102和132中具体包含的内容,第一组和/或第二组知识元素可以包括一个或多个实体、实体之间的关系和/或实体的属性等。
确定文本中出现的知识元素的过程也被称为知识元素或实体关联、链接或标注,目标在于标识文本中描述的某个对象是否实际对应于知识库中的相应知识元素。计算设备210可以采用各种关联/链接/标注技术来确定知识库240中的知识元素与文本102和132之间的关联,本公开的实施例的范围在此方面不受限制。在图2的示例中,计算设备210在执行实体关联后,可以确定文本102出现的“华仔”和“老婆”可以被关联到知识库240中的实体“刘德华”201和关系“夫妻”204。此外,还可以确定文本132出现的“朱丽倩”、“老公”、“刘德华”可以被关联到知识库240中的实体“朱丽倩”205、关系“夫妻”204和实体“刘德华”。
计算设备210被配置为确定文本102相关联的第一组知识元素与文本132相关联的第二组知识元素之间的知识元素相关度,并且至少基于相似度来确定文本132与文本102的文本相关度。由于知识库中的知识元素已经被合理组织、实现了知识元素的歧义消除、知识元素的关系/属性提取等,利用知识库的辅助可以更准确地确定文本相关度。由此,如果知识元素相似度更高或者具有更强相关度,可以指示这两个文本的相关度也更高。
在一些实施例中,知识元素之间的知识元素相关度可以通过以预定规则提取的自定义特征来确定,和/或可以基于通过机器学习的方法提取的深度学习特征来确定。在一些实施例中,为了确保应用的稳定性,例如在要确定相关度的文本中不包含知识库中任何知识元素的情况下仍然运行,还可以基于文本102和132本身来确定文本相关度。在这方面,也可以考虑通过预定规则提取文本102和132的自定义特征,和/或通过机器学习的方法确定文本102和132的深度学习特征。
自定义特征指的是按照简单规则确定的、用于指示知识元素和/或文本的某个方面的特性。相对于深度学习特征而言,自定义特征也可以被称为浅层特征。针对知识元素,在一些实施例中,可以确定文本102相关联的第一组知识元素与文本132相关联的第二组知识元素之间的相似度。该相似度指示第一组知识元素与第二组知识元素中包含知识库240中的相同知识元素(例如实体、关系和/或属性)和/或使用同一知识元素的指称的比例。在一个实施例中,计算设备210可以确定第一组知识元素和第二组知识元素中在知识库中具有相同标识的知识元素的数目。与知识元素的指称不同,知识元素的标识在知识库中唯一标识知识元素,因此通过相同标识来确定相同知识元素,可以避免由于不同知识元素具有相同指称而导致相关度确定的准确度降低。
计算设备210然后可以基于具有相同标识的知识元素的数目来确定两组知识元素之间的相似度,以用于确定知识元素相关度。两组知识元素之间的相似度可以由相同标识的知识元素的数目来指示,可以由以下指示:具有相同标识的知识元素的数目与第一组知识元素中的总元素数目的比例、或者与第二组知识元素中的总元素数目的比例、或者与两组中的总元素数目之和的比例。以下示出了基于相同标识的知识元素的数目与第一组知识元素中的元素数目之间的比例确定的知识元素之间的相似度的一个示例:
其中id_qi表示第一组知识元素中第i个知识元素的标识(ID),并且第一组知识元素包括n个知识元素;id_dj表示第二组知识元素中第j个知识元素的标识,并且第二组知识元素包括m个知识元素;并且公式(1)指示,针对第一组知识元素中的任一个,确定在第二组知识元素中是否存在具有相同标识的知识元素。然后将第一组知识元素中具有相同标识的元素的数目与第一组中的总元素数目n的比例用于指示知识元素的相似度,以用于确定知识元素相关度。可以理解,还可以以其他方式确定两组知识元素之间在标识级别上的相似度。
以上利用知识元素的唯一标识来确定第一组和第二组知识元素是否指向知识库240中的相同元素。备选地或附加地,计算设备210可以确定第一组知识元素与第二组知识元素中在指称方面的相似度,以用于确定知识元素相关度。具体地,计算设备210标识文本102中用于关联到第一组知识元素的第一组文本项以及文本132中用于关联到第二组知识元素的第二组文本项,并且确定这两组文本项之间的文本相似度。这些文本项是用于从文本102和132中链接到知识库240中的知识元素的文本片段。每个文本项可以包括一个或多个字、词等。例如,在图2的示例中是文本102中的文本项“华仔”、“老婆”,文本132中的文本项“朱丽倩”、“老公”和“刘德华”,这些文本项分别又是相应知识元素(例如实体、关系或属性)的指称。计算设备210可以基于文本相似度级别来确定两组知识元素的相关度。
在确定文本相似度时,计算设备210可以确定第一组文本项的第一组文本向量表示,确定第二组文本项的第二组文本向量表示,然后确定第一组文本向量表示中的每一个向量表示与第二组文本向量表示中各个向量表示之间的距离。文本项的“向量表示”也可以被称为文本项的向量编码或嵌入(embedding)。每个文本项的向量表示可以由一定维度的多个数值组成。不同文本项的向量表示的维度可以相同,但其中包含的数值不同。文本项的向量表示之间的距离、差异或相似度还可以指示不同文本项之间的语义相似度。通过将文本项映射为向量表示来执行处理,可以有效规避语言之间的差异性,降低了应用局限性。由于此处涉及的文本项指的是知识库240中的某些知识元素的指称,在一些实施例中,可以预先定义知识库240中各个知识元素的一个或多个指称对应的向量表示。计算设备210可以基于指称与向量表示之间的预定映射关系来确定第一组和第二组文本项的向量表示。
在一些实施例中,可以以第一组文本向量表示为基础,确定该组每个文本向量表示与第二组中各个文本向量表示之间的距离的最大值、平均值或中值,然后从针对第一组中所有文本向量表示确定的最大或平均距离中再计算平均值或取最大值或中值,以作为两组文本向量表示之间的相似度的指示。以下公式(2)示出确定两组文本向量表示之间的文本相似度的一个示例:
其中mention_qi指示第一组文本项中第i个文本项(也对应于第一组知识元素中第i个知识元素的指称)的向量表示,mention_dj指示第二组文本项中第j个文本项(也对应于第二组知识元素中第j个知识元素的指称)的向量表示。公式(2)指示,针对第一组文本项的向量表示中的任一个,确定与第二组文本项的各个向量表示之间的差异,然后选择最大差异值。针对第一组文本项中的所有文本项的向量表示,统计所选择的相应最大差异值之和,并且在第一组文本项的数目上取平均。将取平均得到的值作为两组文本项之间的文本相似度,以用于确定知识元素相关度。
以上讨论了基于知识元素的相同标识和/或知识元素对应的文本项的文本相似度来确定知识元素相关度。这些方面的特征均可以通过统计、简单计算等方式来获得,因此可以成为知识元素的自定义特征。在另一些实施例中,如以上提及的,计算设备210还可以备选地或附加地以机器学习的方式来确定深度学习特征。对于文本102和132本身,也可以类似地确定自定义特征和深度学习特征。机器学习手段的引入将涉及对模型的训练和使用。为了全面说明这些示例方面,将参照图3进行描述,其示出了根据本公开的一些实施例的基于学习网络的文本相关度确定的系统300的示意框图。
如本文所使用的,术语“学习网络”指的是这样的一个模型,该模型能够从训练数据中学习到相应的输入与输出之间的映射关系,从而在训练完成后基于训练得到的参数集对给定的输入进行处理以生成对应的输出。“学习网络”有时也可以被称为“神经网络”、“学习模型”、“网络”或“模型”。这些术语在本文中可互换地使用。
图3所示的系统300可以被实现在图2的计算设备210中。为了便于描述,参照图2来描述图3的示例架构。系统300包括学习网络部分302,并且还包括学习网络302之前的处理部分。具体地,对于文本102和132,分词模块310-1和310-2(可统称为分词模块310)分别被配置为对文本102和132进行分词,得到分词结果312和314,其中由空格表示文本项之间被划分。可以利用各种当前已有的或者将来待开发的分词技术来执行文本的分词。在一些实施例中,针对诸如英文等具有字符分隔符号的语言,也可以不使用分词模块310。在另一些实施例中,也可以将文本102和/或文本132中每个词或每个字符作为下一层的输入,而不需要特别的分词技术。本公开的范围在此方面不受限制。
系统300还包括知识元素关联模块320-1和320-2(可统称为知识元素管理模块320),分别被配置为对文本102和132进行与知识库240中的知识元素关联,得到关联结果322和324,分别指示文本102关联到知识库240中的第一组知识元素,即实体201和关系204,以及文本132关联到知识库240中的第二组知识元素,实体205、关系204和实体201。
系统300包括自定义特征确定模块330,可以用于由知识元素管理模块320确定的第一组知识元素与第二组知识元素之间的浅层自定义特征,包括由标识级别上的相似度和指称方面的文本相似度,用于表征第一组知识元素与第二组知识元素之间的知识元素相关度。这两方面的相似度例如可以作为自定义特征332被提供到后续的相关度确定模块360,用于确定文本102与文本132之间的文本相关度214。
除了提取知识元素相关的自定义特征之外,自定义特征确定模块330还可以确定文本102和132的自定义特征,以作为浅层文本相关度。在一些实施例中,自定义特征确定模块330可以确定文本102与文本132中出现的相同或相似词的数目或频率。相似词可以是同义词、同一内容的不同表达方式(例如缩写、不同语言的表示等)。通常,如果在文本132中出现越多文本102中的词,说明文本132与文本102的相关度越高。在一些实施例中,可以统计文本102和132中出现的相同/相似词的数目,然后确定该数目与文本102中的词的总数目的比例,与文本132中的词的总数目的比例等,作为相同/相似词出现的频率。在一些实施例中,自定义特征确定模块330还可以确定文本102和/或文本132自身的统计信息,包括但不限于文本102和/或文本132中的字符数目、词数目、来源置信度等,文本102的分类与文本132的分类之间的相似度等等。这些统计信息和/或相同/相似词的数目和/或频率可以作为自定义特征332被提供到后续的相关度确定模块360。
在提取知识元素和/或文本的深度学习特征之前,通常将知识元素和/或文本映射到向量表示。系统300包括表示确定模块340-2和340-4,分别用于确定文本102相关联的第一组知识元素(即关联结果322)对应的第一组合向量表示342-1和文本132相关联的第二组知识元素(即关联结果324)对应的第二组合向量表示342-4。系统300包括表示确定模块340-1和340-3,分别用于确定文本102的第一文本向量表示342-1和文本132的第二文本向量表示342-3,特别是基于文本132的分词结果312和314来确定第一文本向量表示342-1和第二文本向量表示342-3。为便于描述,表示确定模块340-1、340-2、340-3和340-4可以统称为表示确定模块340。
通常,在确定向量表示时,表示确定模块340基于预定映射关系来确定向量表示。图4示出了表示确定模块340的一个示例。表示确定模块340包括热编码模块410和向量化模块420。热编码模块410被配置为将输入的各个文本项(例如,分词结果312、314中分词后的文本项,或者关联结果322、324中各个知识元素的指称对应文本项)映射到热编码,或独热编码(one-hot code)。独热编码的维度与数据库或语料库中不同文本项的数目相关,其中与相应文本项对应的元素被标记为1,其他元素被标记为零。
向量化模块420进一步缩小热编码模块410输出的各个文本项的独热编码。具体地,向量化模块420可以被构造为预定的向量化模型,其指示输入的知识元素(针对表示确定模块340-2和340-4)或文本项(针对表示确定模块340-1和340-3)与向量表示之间的预定映射关系,以将各个知识元素和/或文本项对应的独热编码映射到预定向量表示中。向量化模块420可以确定各个知识元素或文本项对应的向量表示,然后将各个知识元素在相应文本102或132中出现的顺序进行组合(例如,进行级联)。例如,针对表示确定模块340-2而言,可以将知识元素“华仔”和“老婆”对应的向量表示进行组合,以获得第一组合向量表示。针对表示确定模块340-4,可以类似地确定第二组合向量表示。针对表示确定模块340-1,可以将分词后的分词结果312中各个文本项对应的向量表示按照文本项在对应文本中的顺序进行组合(例如级联),以确定第一文本向量表示。类似地,针对表示确定模块340-1,可以确定第二文本向量表示。
在一些实施例中,用于确定知识元素的向量表示的表示确定模块(例如模块340-2或340-4),特别是其中的向量化模块420所使用的预定映射关系(有时也称为“第一预定映射关系”)可以不同于用于确定文本的相邻表示的表示确定模块(例如模块340-1或340-3)中的向量化模块420所使用的预定映射关系(有时也称为“第二预定映射关系”)。
在一些实施例中,第一预定映射关系在知识元素级别上实现向量化,实现从知识元素到向量表示之间的映射,以使得知识库240中具有同一标识的知识元素被映射到同一向量表示,而不管该知识元素的指称(例如文本中的对应文本项)如何。在一些实施例中,第一预定映射关系可以基于知识库240中的知识元素的主谓宾(SPO)信息来确定。具体地,可以利用TransE模型来建模第一预定映射关系,该模型的建模方法在于使得知识元素的SPO关系成立,例如可以被表示为S+P=O。TransE模型的输入为某个知识元素的主语(S)的向量表示和谓语(P)的向量表示,输出是宾语(O)的向量表示。模型训练目标在于使S和P的向量表示仅可能等于O的向量表示。通过对模型继续训练,可以确定第一映射关系,该映射关系可以将每个知识元素映射到相应的向量表示。
在一些实施例中,第二预定映射关系也可以基于知识库240中的知识元素的SPO信息来确定。由于第二预定映射关系要实现从文本项到向量表示之间的映射,可以例如诸如连续词袋(continuous bag-of-word,cbow)模型来确定。cbow模型的输入是中心文本项的上下文文本项的独热编码,输出是该中心文本项的独热编码。上下文文本项的划定由预定词窗来限定。在一些实施例中,由于考虑SPO信息,因此与中心文本项具有SPO关系的上下文文本项与中心文本项之间的距离较短,例如最多一个文本项距离。因此,预定词窗可以被设置为1。通过利用知识元素的SPO信息,可以实现具有同样关系的知识元素的向量表示更接近的目的。
应当理解,以上仅给出了向量表示确定的一些示例实施例。在其他实施例中,还可以以其他方式确定用于知识元素和文本项的向量表示。在一些实施例中,可以利用相同映射关系来确定知识元素和文本项的向量表示。本公开的实施例在此方面不受限制。
通过表示确定模块340,与文本102对应的文本向量表示342-1、组合向量表示342-2被分别提供到特征提取模块350-1、350-2,并且与文本132对应的文本向量表示342-3以及组合向量表示342-2和342-4被分别提供到特征提取模块350-3、350-4。为便于描述,特征提取模块350-1、350-2、350-3和350-4可以被统称为特征提取模块350。四个特征提取模块350分别从相应特征表示中提取特征352-1、352-2、352-3和352-4(统称为特征352)。这些特征是经训练后的特征提取模块350基于训练得到的参数,对向量表示进行处理后确定的特征表示,这些特征表示有助于关注相应知识元素和/或文本项中有助于确定文本相关度的特征信息。
特征提取模块350的一个示例在图5中被示出。特征提取模块350可以包括第一网络部分510,其包括一个或多个递归神经网络(RNN)层512。RNN层的使用有助于捕捉文本中的语序。例如,“谢霆锋的儿子是谁”,“谢霆锋是谁的儿子”这两个文本中包含的文本项相同,但表达的意思完全不同,这需要RNN来帮助分辨语序带来的文本含义变化。特征提取模块350还可以包括第二网络部分520,用于对第一网络部分510提取的中间表示514继续处理,以输出特征528。第二网络部分520可以包括一个或多个深度卷积(DNN)层,以便增强整体的特征表示能力。图5中示出了第二网络部分520中的三个DNN层522、524和526。每个网络层可以包含相应的一组处理单元(也称为神经元),用于基于特征函数和相关参数来处理输入,并将输出提供到下一网络层。
应当理解,特征提取模块350可以以任何方式配置以实现文本特征提取的目的。图5仅示出了特征提取模块350的一个具体示例。在其他实施例中,特征提取模块350可以以不同方式布置,例如,第一部分510和第二部分520的位置可以互换,可以包括更多的RNN层、DNN层、其他网络层,或者可以不包括一个或多个RNN层、DNN层等。
在一些实施例中,用于对文本本身进行特征提取(即用于对分词结果312和314的向量表示进行特征提取)的特征提取模块350-1和350-3的参数集可以共享,即使用相同网络配置以及参数集的取值。在一些实施例中,用于对知识元素进行特征提取(即用于对分词结果322和324的向量表示进行特征提取)的特征提取模块350-2和350-4的参数集可以共享,即使用相同网络配置以及参数集的取值。在一些实施例中,考虑到知识元素与文本项的表达、用词等方面的不同,特征提取模块350-1、350-3与特征提取模块350-2、350-4的参数集不共享,即参数集的取值被各自训练。此时,这些特征提取模块的网络配置(例如,网络层的类似、数目、连接方式等)可以相同或可以不同。当然,在一些实现中,可以将四个特征提取模块350训练为具有相同参数集的取值。
继续参考图3,由各个特征提取模块350确定的特征352被提供给相关度确定模块360。相关度确定模块360与各个特征提取模块350一起构成学习网络302。由自定义特征确定模块330确定的与知识元素和/或文本本身相关度的浅层特征332也可以一起与特征352用于确定文本102与132之间的文本相关度。来自自定义特征确定模块330可以与特征352进行拼接/级联,作为相关度确定模块360的输入。在一些实施例中,相关度确定模块360可以基于诸如softmax函数来处理输入(即级联后的特征),以确定文本102与132之间的文本相关度104。在一些实施例中,相关度确定模块360输出的文本相关度104可以指示文本132与文本102匹配或相关的程度,和/或可以指示这两个文本有多不匹配/不相关。基于知识元素获得的特征/相似度等可以表征文本102与132在知识元素级别上的相关度。知识元素相关度越高,可以指示文本相似度越高。
在一些实施例中,针对文本相关度的任务,需要对学习网络302进行训练,以确定其中各个模块的参数集的取值。训练过程的目的是使得学习网络的参数集从初始值不断进行优化,从而达到一定的收敛条件(也即学习目标)。对学习网络302的训练可以由计算设备210来实现,或者可以由计算设备210之外的其他设备训练好学习网路302以供计算设备210使用。
在训练过程中,正样本和负样本可以利用知识库240或其他知识库中的知识来生成,其中正样本可以是针对知识库240中知识的查询以及正确知识的文本表示,负样本可以相应的查询以及错误或无关指示的文本表示。在训练过程中,对于需要参数集共享的特征提取模块350,可以同步进行参数更新。
应当理解,图3示出了对文本本身和知识元素均执行自定义特征计算和深度学习特征提取的示例。在一些实施例中,图3的一个或多个模块可以省略,例如可以不对文本102和/或132计算自定义特征或提取深度特征,则可以省略相应的处理模块。
图6示出了根据本公开的一些实施例的确定文本相关度的方法600的流程图。方法600可以由图2的计算设备210来实现。为便于讨论,将参照图2来描述方法600。应当理解,虽然以特定顺序示出,方法600中的一些步骤可以以与所示出的不同顺序或者以并行方式执行。本公开的实施例在此方面不受限制。
在610,计算设备210从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素。知识库包括由知识元素构成的知识表示。在620,计算设备210确定第一组知识元素与第二组知识元素之间的知识元素相关度。在630,计算设备210至少基于知识元素相关度,确定第二文本与第一文本的文本相关度。
在一些实施例中,第一文本包括搜索查询,第二文本包括候选文档的至少一部分,并且相关度用于确定候选文档在针对搜索查询的查询结果中的排序。
在一些实施例中,第一组知识元素或第二组知识元素包括以下至少一项:知识库中的实体、实体之间的关系和实体的属性。
在一些实施例中,确定知识元素相关度包括:确定第一组知识元素和第二组知识元素中在知识库中具有相同标识的知识元素的数目,知识元素的标识在知识库中唯一标识知识元素;以及基于具有相同标识的知识元素的数目来确定知识元素相关度。
在一些实施例中,确定知识元素相关度包括:确定第一文本中用于关联到第一组知识元素的第一组文本项与第二文本中用于关联到第二组知识元素的第二组文本项之间的文本相似度;以及基于文本相似度来确定知识元素相关度。
在一些实施例中,确定知识元素相关度还包括:确定第一组知识元素对应的第一组合向量表示和第二组知识元素对应的第二组合向量表示;提取第一组合向量表示的第一特征和第二组合向量表示的第二特征;以及还基于第一特征和第二特征来确定知识元素相关度。
在一些实施例中,确定第一组合向量表示和第二组合向量表示包括:基于知识元素与向量表示之间的第一预定映射关系,确定第一组知识元素的第一组向量表示和第二组知识元素的第二组向量表示,第一组知识元素和第二组知识元素中具有知识库中的同一标识的知识元素被映射到同一向量表示;通过将第一组向量表示按第一组知识元素在第一文本中出现的顺序进行组合,来确定第一组合向量表示;以及通过将第二组向量表示按第二组知识元素在第二文本中出现的顺序进行组合,来确定第二组合向量表示。
在一些实施例中,第一预定映射关系基于知识库中的知识元素的主谓宾(SPO)信息来确定。
在一些实施例中,确定文本相关度还包括:基于文本项与向量表示之间的第二预定映射关系,确定与第一文本对应的第一文本向量表示和与第二文本对应的第二文本向量表示;提取第一文本向量表示的第三特征和第二文本向量表示的第四特征;以及还基于第三特征和第四特征来确定文本相关度。
在一些实施例中,第二预定映射关系基于文本项在知识库中相关联的知识元素的主谓宾(SPO)信息来确定。
图7示出了根据本公开实施例的用于确定文本相关度的装置700的示意性框图。装置700可以被包括在图2的计算设备210中或者被实现为计算设备210。如图7所示,装置700包括知识元素关联模块710,被配置为从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素,知识库包括由知识元素构成的知识表示。装置700还包括元素相关度确定模块720,被配置为确定第一组知识元素与第二组知识元素之间的知识元素相关度。装置700进一步包括文本相关度确定模块730,被配置为至少基于知识元素相关度,确定第二文本与第一文本的文本相关度。
在一些实施例中,第一文本包括搜索查询,第二文本包括候选文档的至少一部分,并且相关度用于确定候选文档在针对搜索查询的查询结果中的排序。
在一些实施例中,第一组知识元素或第二组知识元素包括以下至少一项:知识库中的实体、实体之间的关系和实体的属性。
在一些实施例中,元素相关度确定模块720包括:相同标识模块,被配置为确定第一组知识元素和第二组知识元素中在知识库中具有相同标识的知识元素的数目,知识元素的标识在知识库中唯一标识知识元素;以及基于标识的相关度确定模块,被配置为基于具有相同标识的知识元素的数目来确定知识元素相关度。
在一些实施例中,元素相关度确定模块720包括:文本相似度确定模块,被配置为确定第一文本中用于关联到第一组知识元素的第一组文本项与第二文本中用于关联到第二组知识元素的第二组文本项之间的文本相似度;以及基于相似度的相关度确定模块,被配置为基于文本相似度来确定知识元素相关度。
在一些实施例中,元素相关度确定模块720还包括:第一表示确定模块,被配置为确定第一组知识元素对应的第一组合向量表示和第二组知识元素对应的第二组合向量表示;第一特征提取模块,被配置为提取第一组合向量表示的第一特征和第二组合向量表示的第二特征;以及基于特征的相关度确定模块,被配置为还基于第一特征和第二特征来确定知识元素相关度。
在一些实施例中,表示确定模块包括:个体表示确定模块,被配置为基于知识元素与向量表示之间的第一预定映射关系,确定第一组知识元素的第一组向量表示和第二组知识元素的第二组向量表示,第一组知识元素和第二组知识元素中具有知识库中的同一标识的知识元素被映射到同一向量表示;第一组合模块,被配置为通过将第一组向量表示按第一组知识元素在第一文本中出现的顺序进行组合,来确定第一组合向量表示;以及第二组合模块,被配置为通过将第二组向量表示按第二组知识元素在第二文本中出现的顺序进行组合,来确定第二组合向量表示。
在一些实施例中,第一预定映射关系基于知识库中的知识元素的主谓宾(SPO)信息来确定。
在一些实施例中,文本相关度确定模块730还包括:第二表示确定模块,被配置为基于文本项与向量表示之间的第二预定映射关系,确定与第一文本对应的第一文本向量表示和与第二文本对应的第二文本向量表示;第二特征提取模块,被配置为提取第一文本向量表示的第三特征和第二文本向量表示的第四特征;以及基于特征的相关度确定模块,被配置为还基于第三特征和第四特征来确定文本相关度。
图8示出了可以用来实施本公开的实施例的示例设备800的示意性框图。设备800可以用于实现图2的计算设备210。如图所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如方法600。例如,在一些实施例中,方法600可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM803并由计算单元801执行时,可以执行上文描述的方法600的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法600。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (21)

1.一种确定文本相关度的方法,包括:
从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素,所述知识库包括由知识元素构成的知识表示;
确定所述第一组知识元素与所述第二组知识元素之间的知识元素相关度;以及
至少基于所述知识元素相关度,确定所述第二文本与所述第一文本的文本相关度。
2.根据权利要求1所述的方法,其中所述第一文本包括搜索查询,所述第二文本包括候选文档的至少一部分,并且所述相关度用于确定所述候选文档在针对所述搜索查询的查询结果中的排序。
3.根据权利要求1所述的方法,其中所述第一组知识元素或所述第二组知识元素包括以下至少一项:所述知识库中的实体、所述实体之间的关系和所述实体的属性。
4.根据权利要求1所述的方法,其中确定所述知识元素相关度包括:
确定所述第一组知识元素和第二组知识元素中在所述知识库中具有相同标识的知识元素的数目,知识元素的标识在所述知识库中唯一标识所述知识元素;以及
基于具有相同标识的所述知识元素的数目来确定所述知识元素相关度。
5.根据权利要求1所述的方法,其中确定所述知识元素相关度包括:
确定所述第一文本中用于关联到所述第一组知识元素的第一组文本项与所述第二文本中用于关联到所述第二组知识元素的第二组文本项之间的文本相似度;以及
基于所述文本相似度来确定所述知识元素相关度。
6.根据权利要求1所述的方法,其中确定所述知识元素相关度还包括:
确定所述第一组知识元素对应的第一组合向量表示和所述第二组知识元素对应的第二组合向量表示;
提取所述第一组合向量表示的第一特征和所述第二组合向量表示的第二特征;以及
还基于所述第一特征和所述第二特征来确定所述知识元素相关度。
7.根据权利要求1所述的方法,其中确定所述第一组合向量表示和所述第二组合向量表示包括:
基于知识元素与向量表示之间的第一预定映射关系,确定所述第一组知识元素的第一组向量表示和所述第二组知识元素的第二组向量表示,所述第一组知识元素和所述第二组知识元素中具有所述知识库中的同一标识的知识元素被映射到同一向量表示;
通过将所述第一组向量表示按所述第一组知识元素在所述第一文本中出现的顺序进行组合,来确定所述第一组合向量表示;以及
通过将所述第二组向量表示按所述第二组知识元素在所述第二文本中出现的顺序进行组合,来确定所述第二组合向量表示。
8.根据权利要求7所述的方法,其中所述第一预定映射关系基于所述知识库中的知识元素的主谓宾(SPO)信息来确定。
9.根据权利要求1所述的方法,其中确定所述文本相关度还包括:
基于文本项与向量表示之间的第二预定映射关系,确定与所述第一文本对应的第一文本向量表示和与所述第二文本对应的第二文本向量表示;
提取所述第一文本向量表示的第三特征和所述第二文本向量表示的第四特征;以及
还基于所述第三特征和所述第四特征来确定所述文本相关度。
10.根据权利要求9所述的方法,其中所述第二预定映射关系基于文本项在所述知识库中相关联的知识元素的主谓宾(SPO)信息来确定。
11.一种用于确定文本相关度的装置,包括:
知识元素关联模块,被配置为从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素,所述知识库包括由知识元素构成的知识表示;
元素相关度确定模块,被配置为确定所述第一组知识元素与所述第二组知识元素之间的知识元素相关度;以及
文本相关度确定模块,被配置为至少基于所述知识元素相关度,确定所述第二文本与所述第一文本的文本相关度。
12.根据权利要求11所述的装置,其中所述第一文本包括搜索查询,所述第二文本包括候选文档的至少一部分,并且所述相关度用于确定所述候选文档在针对所述搜索查询的查询结果中的排序。
13.根据权利要求11所述的装置,其中所述第一组知识元素或所述第二组知识元素包括以下至少一项:所述知识库中的实体、所述实体之间的关系和所述实体的属性。
14.根据权利要求11所述的装置,其中所述元素相关度确定模块包括:
相同标识模块,被配置为确定所述第一组知识元素和第二组知识元素中在所述知识库中具有相同标识的知识元素的数目,知识元素的标识在所述知识库中唯一标识所述知识元素;以及
基于标识的相关度确定模块,被配置为基于具有相同标识的所述知识元素的数目来确定所述知识元素相关度。
15.根据权利要求11所述的装置,其中所述元素相关度确定模块包括:
文本相似度确定模块,被配置为确定所述第一文本中用于关联到所述第一组知识元素的第一组文本项与所述第二文本中用于关联到所述第二组知识元素的第二组文本项之间的文本相似度;以及
基于相似度的相关度确定模块,被配置为基于所述文本相似度来确定所述知识元素相关度。
16.根据权利要求11所述的装置,其中所述元素相关度确定模块还包括:
第一表示确定模块,被配置为确定所述第一组知识元素对应的第一组合向量表示和所述第二组知识元素对应的第二组合向量表示;
第一特征提取模块,被配置为提取所述第一组合向量表示的第一特征和所述第二组合向量表示的第二特征;以及
基于特征的相关度确定模块,被配置为还基于所述第一特征和所述第二特征来确定所述知识元素相关度。
17.根据权利要求6所述的装置,其中所述表示确定模块包括:
个体表示确定模块,被配置为基于知识元素与向量表示之间的第一预定映射关系,确定所述第一组知识元素的第一组向量表示和所述第二组知识元素的第二组向量表示,所述第一组知识元素和所述第二组知识元素中具有所述知识库中的同一标识的知识元素被映射到同一向量表示;
第一组合模块,被配置为通过将所述第一组向量表示按所述第一组知识元素在所述第一文本中出现的顺序进行组合,来确定所述第一组合向量表示;以及
第二组合模块,被配置为通过将所述第二组向量表示按所述第二组知识元素在所述第二文本中出现的顺序进行组合,来确定所述第二组合向量表示。
18.根据权利要求17所述的装置,其中所述第一预定映射关系基于所述知识库中的知识元素的主谓宾(SPO)信息来确定。
19.根据权利要求11所述的装置,其中所述文本相关度确定模块还包括:
第二表示确定模块,被配置为基于文本项与向量表示之间的第二预定映射关系,确定与所述第一文本对应的第一文本向量表示和与所述第二文本对应的第二文本向量表示;
第二特征提取模块,被配置为提取所述第一文本向量表示的第三特征和所述第二文本向量表示的第四特征;以及
基于特征的相关度确定模块,被配置为还基于所述第三特征和所述第四特征来确定所述文本相关度。
20.一种电子设备,所述设备包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一项所述的方法。
21.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-10中任一项所述的方法。
CN201910093336.XA 2019-01-30 2019-01-30 用于确定文本相关度的方法、装置、设备和介质 Active CN109871428B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910093336.XA CN109871428B (zh) 2019-01-30 2019-01-30 用于确定文本相关度的方法、装置、设备和介质
US16/689,862 US11520812B2 (en) 2019-01-30 2019-11-20 Method, apparatus, device and medium for determining text relevance
JP2019210903A JP6975377B2 (ja) 2019-01-30 2019-11-21 テキスト相関度を確定するためのコンピュータ実施方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
EP19210678.9A EP3690672A1 (en) 2019-01-30 2019-11-21 Method, appartus, device and medium for determining text relevance
KR1020190163710A KR102564144B1 (ko) 2019-01-30 2019-12-10 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910093336.XA CN109871428B (zh) 2019-01-30 2019-01-30 用于确定文本相关度的方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN109871428A true CN109871428A (zh) 2019-06-11
CN109871428B CN109871428B (zh) 2022-02-18

Family

ID=66918312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910093336.XA Active CN109871428B (zh) 2019-01-30 2019-01-30 用于确定文本相关度的方法、装置、设备和介质

Country Status (5)

Country Link
US (1) US11520812B2 (zh)
EP (1) EP3690672A1 (zh)
JP (1) JP6975377B2 (zh)
KR (1) KR102564144B1 (zh)
CN (1) CN109871428B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738059A (zh) * 2019-10-21 2020-01-31 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及系统
CN111159485A (zh) * 2019-12-30 2020-05-15 科大讯飞(苏州)科技有限公司 尾实体链接方法、装置、服务器及存储介质
CN111428514A (zh) * 2020-06-12 2020-07-17 北京百度网讯科技有限公司 语义匹配方法、装置、设备以及存储介质
CN111753055A (zh) * 2020-06-28 2020-10-09 中国银行股份有限公司 一种客户问答自动提示方法及装置
CN112507684A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 用于检测原创文本的方法、装置、电子设备及存储介质
CN112613315A (zh) * 2020-12-29 2021-04-06 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质
CN112769625A (zh) * 2021-01-29 2021-05-07 广州技象科技有限公司 一种配置数据的分组配置方法及装置

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580127B1 (en) 2018-12-21 2023-02-14 Wells Fargo Bank, N.A. User interfaces for database visualizations
US11687570B2 (en) * 2020-02-03 2023-06-27 Samsung Electronics Co., Ltd. System and method for efficient multi-relational entity understanding and retrieval
DE102020109953A1 (de) * 2020-04-09 2021-10-14 Contexon GmbH Verfahren und Computersystem zur Bestimmung der Relevanz eines Textes
CN112216359B (zh) * 2020-09-29 2024-03-26 百度国际科技(深圳)有限公司 医疗数据校验方法、装置及电子设备
WO2022149400A1 (ja) * 2021-01-08 2022-07-14 ソニーグループ株式会社 情報処理装置および情報処理方法
CN112860866B (zh) * 2021-02-09 2023-09-19 北京百度网讯科技有限公司 语义检索方法、装置、设备以及存储介质
CN112906368B (zh) * 2021-02-19 2022-09-02 北京百度网讯科技有限公司 行业文本增量方法、相关装置及计算机程序产品
CN113554053B (zh) * 2021-05-20 2023-06-20 重庆康洲大数据有限公司 一种比较中药处方相似性的方法
US20230140791A1 (en) * 2021-10-29 2023-05-04 International Business Machines Corporation Programming task supporting material generation
US11768837B1 (en) 2021-12-28 2023-09-26 Wells Fargo Bank, N.A. Semantic entity search using vector space
US12072918B1 (en) 2021-12-28 2024-08-27 Wells Fargo Bank, N.A. Machine learning using knowledge graphs
US11880379B1 (en) 2022-04-28 2024-01-23 Wells Fargo Bank, N.A. Identity resolution in knowledge graph databases
CN115861715B (zh) * 2023-02-15 2023-05-09 创意信息技术股份有限公司 基于知识表示增强的图像目标关系识别算法
CN116028597B (zh) * 2023-03-27 2023-07-21 南京燧坤智能科技有限公司 对象检索方法、装置、非易失性存储介质及计算机设备
CN116721730B (zh) * 2023-06-15 2024-03-08 医途(杭州)科技有限公司 一种基于数字疗法的患者全程管理系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101796511A (zh) * 2007-08-31 2010-08-04 微软公司 标识间接引语中的语义关系
CN102439595A (zh) * 2009-03-13 2012-05-02 发明机器公司 基于文本文档和用户问题的语义标记的问答系统和方法
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
US20150088910A1 (en) * 2013-09-25 2015-03-26 Accenture Global Services Limited Automatic prioritization of natural language text information
US9201927B1 (en) * 2009-01-07 2015-12-01 Guangsheng Zhang System and methods for quantitative assessment of information in natural language contents and for determining relevance using association data
CN105279264A (zh) * 2015-10-26 2016-01-27 深圳市智搜信息技术有限公司 一种文档的语义相关度计算方法
CN105701083A (zh) * 2014-11-28 2016-06-22 国际商业机器公司 文本表示方法和装置
KR20160120583A (ko) * 2015-04-08 2016-10-18 주식회사 노스트 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법
CN108304381A (zh) * 2018-01-25 2018-07-20 北京百度网讯科技有限公司 基于人工智能的实体建边方法、装置、设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766316B2 (en) 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
JP4534666B2 (ja) 2004-08-24 2010-09-01 富士ゼロックス株式会社 テキスト文検索装置及びテキスト文検索プログラム
US8458171B2 (en) * 2009-01-30 2013-06-04 Google Inc. Identifying query aspects
US8965896B2 (en) 2009-12-22 2015-02-24 Nec Corporation Document clustering system, document clustering method, and recording medium
KR101662450B1 (ko) 2015-05-29 2016-10-05 포항공과대학교 산학협력단 다중 소스 하이브리드 질의응답 방법 및 시스템
CN106844368B (zh) 2015-12-03 2020-06-16 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
KR101768852B1 (ko) * 2016-01-26 2017-08-17 경북대학교 산학협력단 트리플 데이터의 생성 방법 및 시스템
US10127274B2 (en) 2016-02-08 2018-11-13 Taiger Spain Sl System and method for querying questions and answers
KR102457821B1 (ko) 2016-03-15 2022-10-24 한국전자통신연구원 자연어 이해 및 질의응답 기반의 의사결정 지원 장치 및 방법
KR101992399B1 (ko) 2016-07-05 2019-06-24 한국전자통신연구원 하이브리드 추론 기반의 자연어 질의응답 시스템 및 그 방법
KR101914853B1 (ko) * 2017-02-08 2018-11-02 경북대학교 산학협력단 논리적 속성이 반영된 지식 그래프 임베딩 방법 및 시스템, 이를 수행하기 위한 기록매체
US10798027B2 (en) * 2017-03-05 2020-10-06 Microsoft Technology Licensing, Llc Personalized communications using semantic memory
JP6775465B2 (ja) 2017-04-21 2020-10-28 日本電信電話株式会社 対話ルール照合装置、対話装置、対話ルール照合方法、対話方法、対話ルール照合プログラム、及び対話プログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101796511A (zh) * 2007-08-31 2010-08-04 微软公司 标识间接引语中的语义关系
US9201927B1 (en) * 2009-01-07 2015-12-01 Guangsheng Zhang System and methods for quantitative assessment of information in natural language contents and for determining relevance using association data
CN102439595A (zh) * 2009-03-13 2012-05-02 发明机器公司 基于文本文档和用户问题的语义标记的问答系统和方法
US20150088910A1 (en) * 2013-09-25 2015-03-26 Accenture Global Services Limited Automatic prioritization of natural language text information
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN105701083A (zh) * 2014-11-28 2016-06-22 国际商业机器公司 文本表示方法和装置
KR20160120583A (ko) * 2015-04-08 2016-10-18 주식회사 노스트 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법
CN105279264A (zh) * 2015-10-26 2016-01-27 深圳市智搜信息技术有限公司 一种文档的语义相关度计算方法
CN108304381A (zh) * 2018-01-25 2018-07-20 北京百度网讯科技有限公司 基于人工智能的实体建边方法、装置、设备及存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738059A (zh) * 2019-10-21 2020-01-31 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及系统
CN111159485A (zh) * 2019-12-30 2020-05-15 科大讯飞(苏州)科技有限公司 尾实体链接方法、装置、服务器及存储介质
CN111159485B (zh) * 2019-12-30 2020-11-13 科大讯飞(苏州)科技有限公司 尾实体链接方法、装置、服务器及存储介质
JP2021197133A (ja) * 2020-06-12 2021-12-27 ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science And Technology Co., Ltd. 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN111428514A (zh) * 2020-06-12 2020-07-17 北京百度网讯科技有限公司 语义匹配方法、装置、设备以及存储介质
JP7108675B2 (ja) 2020-06-12 2022-07-28 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN111753055A (zh) * 2020-06-28 2020-10-09 中国银行股份有限公司 一种客户问答自动提示方法及装置
CN111753055B (zh) * 2020-06-28 2024-01-26 中国银行股份有限公司 一种客户问答自动提示方法及装置
CN112507684A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 用于检测原创文本的方法、装置、电子设备及存储介质
CN112507684B (zh) * 2020-11-30 2023-09-22 北京百度网讯科技有限公司 用于检测原创文本的方法、装置、电子设备及存储介质
CN112613315A (zh) * 2020-12-29 2021-04-06 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质
CN112613315B (zh) * 2020-12-29 2024-06-07 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质
CN112769625A (zh) * 2021-01-29 2021-05-07 广州技象科技有限公司 一种配置数据的分组配置方法及装置

Also Published As

Publication number Publication date
JP2020123318A (ja) 2020-08-13
US20200242140A1 (en) 2020-07-30
KR20200094627A (ko) 2020-08-07
CN109871428B (zh) 2022-02-18
KR102564144B1 (ko) 2023-08-08
JP6975377B2 (ja) 2021-12-01
EP3690672A1 (en) 2020-08-05
US11520812B2 (en) 2022-12-06

Similar Documents

Publication Publication Date Title
CN109871428A (zh) 用于确定文本相关度的方法、装置、设备和介质
US9652799B2 (en) Product recommendation with product review analysis
US10303798B2 (en) Question answering from structured and unstructured data sources
US9846901B2 (en) Product recommendation with ontology-linked product review
CN109933785A (zh) 用于实体关联的方法、装置、设备和介质
JP2015518210A (ja) 製品に関連するデータを体系化する方法、装置及びコンピュータ読み取り可能な媒体
Lin et al. Intelligent question and answer system for building information modeling and artificial intelligence of things based on the bidirectional encoder representations from transformers model
CN115017315A (zh) 一种前沿主题识别方法、系统及计算机设备
Mohammadi et al. Context-specific recommendation system for predicting similar pubmed articles
JP2022035314A (ja) 情報処理装置及びプログラム
Hlava The Taxobook: Applications, implementation, and integration in search: Part 3 of a 3-part series
CN116244497A (zh) 一种基于异质数据嵌入的跨域论文推荐方法
Zan et al. S 2 ql: Retrieval augmented zero-shot question answering over knowledge graph
Munarko et al. CASBERT: BERT-based retrieval for compositely annotated biosimulation model entities
Park et al. Extracting search intentions from web search logs
Naharuddin et al. Systematic Literature Review: Automated Text Summarization for Indonesian Language
Gniewkowski et al. Assessment of document similarity visualisation methods
JP7530931B2 (ja) ランキング決定システム、ランキング決定方法、及びプログラム
CN115206533B (zh) 基于知识图谱健康管理方法、装置及电子设备
Hou Mathematical formula information retrieval system
Yao et al. Beyond top-k: knowledge reasoning for multi-answer temporal questions based on revalidation framework
Zhang et al. Accurate Recommendation Approach of Psychological Consultation Information Based on User Portrait and TAG_SVD_CF
Sims End-to-End Modular Biomedical Enquiry Responder (EMBER) & Evaluation Framework
CN116521880A (zh) 基于证素分解的证型分类方法、装置、设备及介质
Swathi Natural Language Processing-Based Querying Heterogeneous Data Sources Using Integrated Ontology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant