CN106021374A

CN106021374A - 查询结果的底层召回方法和装置

Info

Publication number: CN106021374A
Application number: CN201610309835.4A
Authority: CN
Inventors: 桂佳; 程军; 方高林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-05-11
Filing date: 2016-05-11
Publication date: 2016-10-12
Also published as: US20170329782A1; US10366093B2

Abstract

本发明实施例公开了一种查询结果的底层召回方法和装置。查询结果的底层召回方法包括：根据搜索用户输入的目标查询式，从资源库中获取与目标查询式关联的查询资源；获取各查询资源的比对评分特征，其中，比对评分特征包括基础相关特征；将各查询资源的比对评分特征输入至预先训练的排序模型中，获取所述排序模型输出的，与各查询资源对应的相关性评分值，其中，排序模型为Gbrank模型；根据相关性评分值，对各查询资源进行排序，并根据排序结果选取设定数目的目标资源作为与目标查询式的底层召回结果。本发明的技术方案通过采用Gbrank排序模型，优化了传统查询结果的底层召回方法，提升了召回的目标资源与目标查询式的相关性。

Description

查询结果的底层召回方法和装置

技术领域

本发明实施例涉及信息处理技术，尤其涉及一种查询结果的底层召回方法和装置。

背景技术

商业搜索引擎(如百度、谷歌、好搜等产品)的在线检索系统后端一般分为精准排序模块和资源召回模块两个逻辑子模块。资源召回模块负责从网络爬虫爬取并整合建库的资源集合(如网页搜索的资源集合是网页集，图片搜索的资源集合是图片集等)中召回与查询式相关的资源子集，精准排序模块负责将资源召回模块召回的资源子集按照与查询式的相关度从高到低进行排序直接决定最终展现给用户检索效果。资源召回模块召回结果决定了精准排序模块排序的资源集合，对精准排序模块的效果产生间接影响。资源召回模块召回资源相关度高对精准排序模块的效果能产生正向的影响。

传统的排序策略一般为桶排序等简单排序方法，通常基于少数(典型的，3-5维)简单的基础相关性特征(如文本相关性等)进行排序，策略较为粗劣。现有技术的缺点在于：首先，传统的排序方法参与召回的基础相关性特征较少，在长查询式上召回效果表现较差；其次，桶排序模型需要人工分析不同基础相关性特征及资源相关性之间的关联度对比，且每次增加基础相关性特征都需要重复进行各基础相关性特征间的对比，增减基础相关性特征不够方便，可扩展性差；再次，桶排序模型按照基础相关性特征与资源相关性的关联度决定桶的顺序，且采用的的基础相关性特征越多，排在后面的基础相关性特征对资源排序的影响度越小，甚至一旦排在前面的基础相关性特征对资源相关度的判断逆序，排在后面的基础相关性特征无法进行纠正，无法发挥出各基础相关性特征对资源的区分作用。

发明内容

有鉴于此，本发明实施例提供一种查询结果的底层召回方法和装置，以优选现有的目标资源的底层召回技术，提高底层召回结果与用户输入的目标查询式之间的相关度。

在第一方面，本发明实施例提供了一种查询结果的底层召回方法，包括：

根据搜索用户输入的目标查询式，从资源库中获取与所述目标查询式关联的查询资源；

获取各所述查询资源的比对评分特征，其中，所述比对评分特征包括基础相关特征；

将各所述查询资源的所述比对评分特征输入至预先训练的排序模型中，获取所述排序模型输出的，与各所述查询资源对应的相关性评分值，其中，所述排序模型为梯度上升排序(Gradient Boosting Rank，Gbrank)模型；

根据所述相关性评分值，对各所述查询资源进行排序，并根据排序结果选取设定数目的目标资源作为与所述目标查询式对应的底层召回结果。

在第二方面，本发明实施例还提供了一种查询结果的底层召回装置，包括：

查询资源获取模块，用于根据搜索用户输入的目标查询式，从资源库中获取与所述目标查询式关联的查询资源；

比对评分特征获取模块，用于获取各所述查询资源的比对评分特征，其中，所述比对评分特征包括基础相关特征；

相关性评分值输出模块，用于将各所述查询资源的所述比对评分特征输入至预先训练的排序模型中，获取所述排序模型输出的，与各所述查询资源对应的相关性评分值，其中，所述排序模型为Gbrank模型；

底层召回结果生成模块，用于根据所述相关性评分值，对各所述查询资源进行排序，并根据排序结果选取设定数目的目标资源作为与所述目标查询式对应的底层召回结果。

本发明实施例在获取底层召回结果过程中，采用Gbrank模型进行资源排序，使用机器学习的方法，从训练数据中学习特征与相关性打分之间的关系，相比较于桶排序模型需要人工分析不同特征及相关性之间的关联度的问题，节省了大量的人力和时间，更加方便快捷。而且传统的桶排序模型每次增加比对评分特征都需要重复进行各比对评分特征之间的对比，而Gbrank模型可以完全自动化进行，仅需要在训练数据中加入新增比对评分特征并重新训练模型即可。由于桶排序模型使用的比对评分特征是存在优先级的，采用多个比对评分特征时，比对评分特征的优先级越低，对排序结果的影响度越小，无法发挥出各比对评分特征对资源的区分作用。而Gbrank模型综合考虑各个特征对资源的区分度，能避免以上桶排序模型的缺陷。并且一旦排在前面的特征对相关度的判断逆序，其他特征无法进行纠正。优化了现有的查询结果的底层召回技术，方便的进行调整和优化，灵活度更高，并可以大大提高目标查询资源与用户输入的目标查询式之间的相关度。

附图说明

图1是本发明第一实施例的一种查询结果的底层召回方法的流程图；

图2是本发明第二实施例的一种查询结果的底层召回方法的流程图；

图3是本发明第三实施例的一种查询结果的底层召回方法的流程图；

图4是本发明第四实施例的一种查询结果的底层召回方法的流程图；

图5是本发明第一实施例的一种查询结果的底层召回装置的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

第一实施例

图1为本发明第一实施例提供的一种查询结果的底层召回方法的流程图，本实施例的方法可以由查询结果的底层召回装置来执行，该装置可通过硬件和/或软件的方式实现，并一般可集成于用于召回与用户输入的目标查询式相关的目标查询资源的服务器中。本文提供的技术方案可以通过个性化特征制定应用于所有垂类和通用的搜索引擎系统。

本实施例的方法具体包括：

110、根据搜索用户输入的目标查询式，从资源库中获取与所述目标查询式关联的查询资源。

在本实施例中，搜索用户输入的目标查询式信息携带有搜索类型，其中，所述搜索类型可以是用户通过搜索类型的选项进行选择，也可以是，目标查询式本身携带有搜索类型，示例性地，搜索类型包括网页、图片、新闻、贴吧等。例如，目标查询式为“北京迪特线路图”，目标查询式本身携带有搜索类型“图”。相应的，与所述目标查询式关联的查询资源具体可以是网页集、图片集或者视频集等与查询式关联的资源子集。

120、获取各所述查询资源的比对评分特征，其中，所述比对评分特征包括基础相关特征。

如前所述，本实施例的技术方案通过使用Gbrank模型对查询资源进行评分、并根据评分结果进行排序以获取底层召回结果，而Gbrank模型在应用时需要输入待评分查询资源的一个或多个特征，通过模型计算最终生成一个评分值。

相应的，在本实施例中，所述比对评分特征具体是指查询资源需要输入至所述Gbrank模型以完成最终评分的特征。

所述基础相关特征具体是指可以用来直接衡量查询资源与目标查询式之间相关性的特征，典型的，所述基础相关特征可以包括：目标查询式与所述查询资源对应的网页的匹配度特征。

优选的，为了进一步提高最终提高相关性度量值的准确性，所述比对评分特征还可以包括：质量控制特征，和/或者点击特征。

具体地，所述质量控制特性可以包括：资源分级特征，以及资源面积分档特征。示例性的，当所述查询资源为图片时，资源分级特征可以包括与所述查询资源对应的图片对应的站点分级特征，进一步地，站点分级特征具体可以是基于站点的点击率、更新率、可靠性评估等确定的一个站点等级评分(例如，80分或者90分等)或者等级值(例如，A级或者B级等)。资源面积分档特征可以是根据图片的属性获取的图片的分辨率、大小和/或像素值等。

示例性地，所述点击特征包括：精准点击特征以及泛点击特征。

具体的，精准点击特征可以是通过对用户行为监测获得的数据进行分析，获取用户行为数据中所有用户在输入当前目标查询式时，所对应的点击各目标资源的数据。例如，精准点击特征具体可以是，对应于当前目标查询式的当前目标资源的用户点击数据总和，占当前目标查询式的所有目标资源的用户展现数据总和的比例。比如，记录所有搜索过范冰冰的用户最终点击的图片及对应的点击总量，然后统计图片的展现总量，进而计算每一个图片的点击总量占展现总量对应的点击总量的比例。例如，可以采用威尔逊空间法获取精准点击特征。其中，展现总量可以从搜索引擎的日志中获取。

泛点击特征可以是将目标查询式切分生成分词集，进而通过对用户行为监测获得的数据进行分析，获取用户行为数据中所有用户在输入当前目标查询式所对应的各分词，所对应的点击各目标资源的数据。例如，泛点击特征具体可以是，对应于当前目标查询式的当前分词的当前目标资源的用户点击数据总和，占对应于当前目标查询式的所有分词的所有目标资源的用户点击数据总和的比例。比如，当前目标查询式为“范冰冰武媚娘传奇剧照”，分别从离线的泛点击词典中检索四个分词对应的点击/展现次数，分别计算基于分词权重的加权和，然后通过基于加权和的点击/展现计算泛点击的点击率，如可以使用威尔逊空间法计算泛点击的点击率。具体地，离线词典的构建方式具体可以为，将精准点击的查询式进行分词，基于分词权重将各资源的点击/展现数分到各个分词单位上，构成<term,obj,clc,pv>的四元组，即<分词，查询资源，分词上点击，分词上展现>的四元组，然后将分词和查询资源为关键字，将关键字相同的进行合并相加。泛点击特征尤其适用于低频查询式的点击行为较少的情况，能够把高频查询式点击特征打散到分词对应的点击特征上，进而映射到低频查询式上。

优选地，获取泛点击特征时，可以预先对目标查询式进行预处理，只保留影响目标查询式与查询资源相关性的重要的分词作为当前分词，例如，可以去除查询式中的虚词后，获取目标查询式中的剩余的其他分词作为当前分词。

可以理解是，在实际应用中，基础相关特征与底层排序的大环境相关，因此，可以根据实际需求增加基础相关特征，在此并不做限定。例如，所述基础相关特征还可以包括：基于基本词数匹配度，和/或基于需求匹配度等。具体地，基本词数匹配度可以是命中域的分词基本词个数占域总基本词个数。

130、将各所述查询资源的所述比对评分特征输入至预先训练的排序模型中，获取所述排序模型输出的，与各所述查询资源对应的相关性评分值，其中，所述排序模型为Gbrank模型。

在本操作中，将一般搜索模型的底层简单的排序模型(如桶排序、svm排序等)升级为较复杂的基于机器学习方法的Gbrank排序模型，通过Gbrank模型选择比对评分特征，通过机器学习的方法，从训练数据中学习比对评分特征与相关性打分之间的关系，采用多维度的比对评分特征(如基础相关性特征、质量控制特征、点击特征等)进行模型训练。在需要增加新的特征时，进而在训练数据中加入新增比对评分特征并重新训练模型即可。

其中，比对评分特征的训练数据可以采用人工标注的方式，首先从搜索引擎的搜索记录中随机抽取一些查询式，将这些查询式提交给目标搜索引擎，然后选取各个或间隔抽取搜索引擎返回结果的前K个，最后由专业人员对这些资源按照和查询式的相关度进行标注。其中，K为正整数。例如，从搜索日志中随机选取一部分查询式，让受过专业训练的数据评估员给出查询式与目标资源的相关性判断。常见的是四档的评分：差，较差，较好，好，以此作为训练数据。

对应搜索引擎来说也可以从日志中挖掘，搜索引擎中都有大量的日志记录用户的行为，可通过用户点击记录来获取训练数据。对应查询返回的搜索结果，用户会点击其中的某些网页，假设用户优先点击的是和查询更相关的网页。一般地，用户习惯于从上至下的浏览搜索结果，如果用户跳过了排在后面的网页，那么排在后面的文档就比排在前面的文档更相关。

140、根据所述相关性评分值，对各所述查询资源进行排序，并根据排序结果选取设定数目的目标资源作为与所述目标查询式对应的底层召回结果。

考虑到与目标查询式相关联的查询资源较多，因此可根据排序结果选取设定数目的目标资源，作为与所述目标查询式对应的底层召回结果。其中，设定数目可以根据实际情况进行设置，在此不做限定。具体地，根据排序结果选取设定数目的目标资源作为与所述目标查询式对应的底层召回结果可以是，根据排序结果，选取与目标查询式的相关性评分值高于某个阈值的设定数目的目标资源，与所述目标查询式对应的底层召回结果。即选择相关度较高的设定数目的目标资源作为与所述目标查询式对应的底层召回结果。

举例而言，用户输入了一个查询式“生日卡片”，搜索引擎基于该查询式会有召回一定的搜索结果，例如：“网站1-网站5”，之后需要将“生日卡片”以及“网站1-网站5”分别输入至Gbrank模型中<生日卡片，网站1>、<生日卡片，网站2>.....，Gbrank模型会输出各网站与该“生日卡片”的相关度评分，并基于相似度评分结果对网站1-网站5进行排序。

本发明实施例在获取底层召回结果过程中，采用Gbrank模型进行排序，使用机器学习的方法，从训练数据中学习特征与相关性打分之间的关系，相比较于桶排序模型则需要人工分析不同特征及相关性之间的关联度，节省了大量的人力和时间，更加方便快捷。而且传统的桶排序模型每次增加比对评分特征都需要重复进行各比对评分特征之间间的对比，而Gbrank模型可以完全自动化进行，仅需要在训练数据中加入新增比对评分特征并重新训练模型即可。由于桶排序模型使用的比对评分特征是存在优先级的，采用多个比对评分特征时，比对评分特征的优先级越低，对排序结果的影响度越小，无法发挥出各比对评分特征对资源的区分作用。而Gbrank模型综合考虑各个特征对资源的区分度，能避免以上桶排序模型的缺陷。并且一旦排在前面的特征对相关度的判断逆序，其他特征无法进行纠正。优化了现有的查询结果的底层召回技术，方便的进行调整和优化，灵活度更高，并可以大大提高目标查询资源与用户输入的目标查询式之间的相关度。

第二实施例

图2是本发明第二实施例的一种查询结果的底层召回方法的流程图。本实施例以上述各实施例为基础进行优化，在本实施例中，将基础相关特征具体优化为：所述目标查询式与所述查询资源对应的网页的匹配度特征。

相应的，将获取各所述查询资源的基础相关特征具体优化为：根据设定查询式分层规则，将所述目标查询式分解为至少两个层级的分词集；依次获取一个查询资源作为当前操作资源，获取所述当前操作资源对应的目标网页资源的第一数量的单域及第二数量的混合域；分别计算各层级的分词集与各单域文本以及各混合域文本的目标匹配度，并将计算得到的所述目标匹配度作为与所述当前操作资源对应的基础相关特征；返回执行获取一个查询资源作为当前操作资源的操作，直至完成对全部查询资源的处理。

具体的，本实施例的方法包括：

121、根据设定查询式分层规则，将所述目标查询式分解为至少两个层级的分词集。

本实施例中，设定查询式分层规则可以是采用现有的分词器，根据现有分词器的分词规则进行分词，进而根据基本的语意将分词划分层级。示例性地，可以根据目标查询式分词后，各分词在目标查询式中的重要性，将目标查询式分解为核心分层和调权分层，其中，核心分层的分词集包括必须命中的分词，即参与相关性计算打分的分词，调权分层中的分词的重要性仅次于核心分层中的分词的重要性，进一步地，还可以分解出目标查询式中的停用分层，包括目标查询式中不影响语意的词。需要说明的是，使用的分词器不同这里对词的划分也就不同。一般地，分解目标查询式需要对输入目标查询式进行关键词切分、去停用词等操作，具体地可根据单字分词或根据基本的语意来进行分词。

在本实施例中，设定查询式分层规则还可以对查询式进行预处理，根据语意、语境进行分词，进而根据各分词的词性，将目标查询式分解为至少两个层级的分词集。例如，在目标查询式所对应的分词中，可以将名词性分词划分为核心分层，将动词性分词划分为调权分层，将助词性分词划分为停用分层等。

122、依次获取一个查询资源作为当前操作资源，获取所述当前操作资源对应的目标网页资源的第一数量的单域及第二数量的混合域。

其中，获取所述当前操作资源对应的目标网页资源的第一数量的单域及第二数量的混合域，具体可以是，根据设定网页资源解析规则，对所述目标网页资源进行结构化解析，生成第一数量的单域及第二数量的混合域。例如，可以根据网页内容将当前操作资源对应的目标网页资源解析为包括标题域、副标题域、正文域等。需要说明的是，由于网页内容不同，结构也不尽相同，所以“第一数量”、“第二数量”可以根据实际需求进行设置，在此不做限定。

在本操作中，具体的还可以从倒排索引中获取所述当前操作资源对应的目标网页资源的单域，进而结合查询式的分词本身的文本属性(如分词长度、分层等)计算基础相关性特征。

123、分别计算各层级的分词集与各单域文本以及各混合域文本的目标匹配度，并将计算得到的所述目标匹配度作为与所述当前操作资源对应的基础相关特征。

在本实施例的一个优选的实施方式中，所述目标匹配度可以包括：基于长度的匹配度，和/或基于权重的匹配度。具体地，基于长度的匹配度可以是，根据命中域的分层长度占域总长度占比算一次匹配度；基于权重的匹配度可以是，根据命中域的分词权重之和占域总权重的占比算一次匹配度占比算一次匹配度。

示例性地，若基础相关性特征增加使用目标网页资源结构化解析后区分的六个单域及一个混合域，查询式根据分词的重要性分解出的核心分层、调权分层及停用分层等分词集，以及与单域文本/混合域文本/查询式文本的基于长度的匹配度，和基于权重的匹配度。则基础相关性特征共计3*7*2＝42维。相比较于传统的底层找回方法，增加了更多地参与召回的基础相关性特征，使得对应于长查询式的查询结果更加精确。

124、判断是否完成对全部查询资源的处理；若是，执行130；否则，返回执行122。

本实施例所提供的技术方案，通过将目标查询式分解为至少两个层级的分词集，分别计算各层级的分词集与各单域文本以及各混合域文本的目标匹配度，作为与所述当前操作资源对应的基础相关特征。相比较于传统的底层召回方法只使用3到5维的基础相关性特征，本技术方案所采用的基础相关性特征，能够使得底层召回的查询结果更加精确，且采用机器学习的方法，灵活度更高。

第三实施例

图3是本发明第三实施例的一种查询结果的底层召回方法的流程图。本实施例以上述各实施例为基础进行优化，在本实施例中，将所述将各所述查询资源的所述比对评分特征输入至预先训练的排序模型中，获取所述排序模型输出的，与各所述查询资源对应的相关性评分值优化为：依次获取所述第三数量的所述查询资源作为并行处理资源，并根据建立的所述子线程，并行获取各所述并行处理资源的比对评分特征，以及获取与各所述并行处理查询资源对应的相关性评分值；其中，获取一个目标并行处理资源的比对评分特征以及获取所述目标并行处理资源对应的相关性评分值的操作在同一线程中顺序执行。

具体的，本实施例的方法包括：

131、建立第三数量的子线程。

一般地，在程序启动的时候会创建至少一个线程，首先创建线程成为主线程，通常子线程为了完成某个任务，并行于主线程的其他线程。考虑到通常会存在与目标查询式相关的大量的查询资源，为了节省时间提高效率，可以采用并行处理的办法，建立与第三数量的子线程。其中，第三数量可以为人以正整数，具体的数值可根据实际需求进行选择，在此不做限定。在本实施例中，可以根据与查询式对应的查询资源的数量和/或预设的处理时间进行设定。

132、依次获取所述第三数量的所述查询资源作为并行处理资源，并根据建立的所述子线程，并行获取各所述并行处理资源的比对评分特征，以及根据比对评分特征获取与各所述并行处理查询资源对应的相关性评分值；其中，获取一个目标并行处理资源的比对评分特征以及根据比对评分特征获取所述目标并行处理资源对应的相关性评分值的操作在同一线程中顺序执行。

在本操作中，依次获取所述第三数量的所述查询资源作为并行处理资源，即能够同时处理多个查询资源，并建立多个子线程，根据建立的所述子线程，由于每个子线程的处理过程是独立的，获取一个目标并行处理资源的比对评分特征以及获取所述目标并行处理资源对应的相关性评分值的操作在同一线程中顺序执行，多个查询资源之间互相不影响、不等待。因此，能够并行获取各所述并行处理资源的比对评分特征，以及获取所述排序模型输出的与各所述并行处理查询资源对应的相关性评分值。优选地。所述排序模型为Gbrank模型。

本实施例所提供的技术方案，依次获取所述第三数量的查询资源作为并行处理资源，并根据建立的子线程，并行获取各所述并行处理资源的比对评分特征，以及获取与各并行处理查询资源对应的相关性评分值，进而根据所述相关性评分值，对各查询资源进行排序，并根据排序结果选取设定数目的目标资源作为与目标查询式对应的底层召回结果。由于Gbrank模型在比对评分时仅与待计算目标查询资源的比对评分特征相关，因此可以采用多线程并行计算各所述查询资源对应的相关性评分值，最后再对各所述查询资源进行排序，节省大量的运行时间，在保证精准率的同时，提高查询结果的底层召回的效率，优化召回性能。

第四实施例

图4是本发明第三实施例的一种查询结果的底层召回方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，将所述根据搜索用户输入的目标查询式，从资源库中获取与所述目标查询式关联的查询资源优化为：确定所述目标查询式的类型；如果所述目标查询式为短查询式，则获取与所述目标查询式对应的标准比对特征；根据所述标准比对特征，从资源库中获取与所述目标查询式关联的查询资源。

具体的，本实施例的方法包括：

111、根据搜索用户输入的目标查询式，确定所述目标查询式的类型。

在本实施例中，用户输入的目标查询式可以包括长查询式和短查询式两种类型，其中，“长”、“短”可以根据预设的查询式判断规则进行判断，例如，可以根据查询式的字符长度，或者查询式中的分词数量等进行判断。

112、判断所述目标查询式为短查询式，若是，执行113；否则，执行120。

截断方法为：选择最准确的一维基础相关性特征，取特征值最大的topN个查询资源，此处N可设置得较大，比如10万级别

113、获取与所述目标查询式对应的标准比对特征。

具体地，标准比对特征可以选择与所述目标查询式对应的最准确的至少一维基础相关性特征。例如，根据聚义提取出的文本相关性特征等。

114、根据所述标准比对特征，从资源库中获取与所述目标查询式关联的查询资源。

针对短目标查询式，由于根据所述标准比对特征获取的全部查询资源数量较多，可以将从资源库中获取的与所述目标查询式关联的查询资源进行提前截断，取标准比对特征值最大的前N个查询资源，为了保证召回资源的准确性，此处N可设置得较大，比如10万级别。

本实施例所提供的技术方案不仅能够解决的是长目标查询式所对应的精准资源召回不足的问题，并且考虑到短目标查询式的待排序的目标查询资源的数量远大于长目标查询式对应的目标查询资源，同时短尾目标查询式比较少出现基础相关性计算不准确的问题，本技术方案在确定目标查询式为短查询式时，获取与所述目标查询式对应的标准比对特征，根据所述标准比对特征，从资源库中获取与所述目标查询式关联的查询资源，即对短查询式可以利用某个计算最准确的基础相关性特征进行提前截断，在保证精准率的同时，进一步提高查询结果的底层召回的效率，优化召回性能。

检索系统一般会有多个排序模块，通常底层的排序简单，上层的排序复杂。在上述各实施例的基础上，在根据所述相关性评分值，对各所述查询资源进行排序，并根据排序结果选取设定数目的目标资源作为与所述目标查询式对应的底层召回结果之后，优选是还包括：将所述底层召回结果发送至上层精准排序模型，以使进行上层精准排序模型根据所述底层召回结果对所述目标资源进行排序，并将所述目标资源的排序结果反馈给用户；其中，上层精准排序模型为Gbrank模型。采用本技术方案，采用Gbrank模型实现目标资源的底层召回，保证了底层召回结果的精准率，进而采用上层精准排序模型对底层召回结果对应的目标资源的进行排序。由于底层召回结果的高精准度为上层精准排序的精准度奠定了良好的基础，极大地提高了目标资源与用户输入的查询式之间的相关性。

进一步地，为了大幅降低中央处理器的消耗，同时保持底层召回结果的精准性，减少响应时间。优选地，底层召回的排序模型的树的棵树小于上层精准排序模型的树的棵树。可以理解的是，“底层”、“上层”是针对数据处理的顺序而言的，用于区分不同应用场景排序模型所执行的操作，使排序模型的表述更加清楚，并非对排序模型的限定。

第五实施例

图5是本发明第五实施例的一种查询结果的底层召回装置的结构图。如图5所示，所述装置包括查询资源获取模块510、比对评分特征获取模块520、相关性评分值输出模块530和底层召回结果生成模块540。

其中，查询资源获取模块510，用于根据搜索用户输入的目标查询式，从资源库中获取与所述目标查询式关联的查询资源；

比对评分特征获取模块520，用于获取各所述查询资源的比对评分特征，其中，所述比对评分特征包括基础相关特征；

相关性评分值输出模块530，用于将各所述查询资源的所述比对评分特征输入至预先训练的排序模型中，获取所述排序模型输出的，与各所述查询资源对应的相关性评分值，其中，所述排序模型为Gbrank模型；

底层召回结果生成模块540，用于根据所述相关性评分值，对各所述查询资源进行排序，并根据排序结果选取设定数目的目标资源作为与所述目标查询式对应的底层召回结果。

在上述实施例的基础上，具体地，所述比对评分特征还可以包括：质量控制特征，和/或者点击特征。

在上述各实施例的基础上，，所述质量控制特性可以包括：资源分级特征，以及资源面积分档特征。

在上述各实施例的基础上，所述点击特征具体可以包括：精准点击特征以及泛点击特征。

在上述各实施例的基础上，所述基础相关特征包括：所述目标查询式与所述查询资源对应的网页的匹配度特征。比对评分特征获取模块具体用于：用于根据设定查询式分层规则，将所述目标查询式分解为至少两个层级的分词集；用于依次获取一个查询资源作为当前操作资源，获取所述当前操作资源对应的目标网页资源的第一数量的单域及第二数量的混合域；分别计算各层级的分词集与各单域文本以及各混合域文本的目标匹配度，并将计算得到的所述目标匹配度作为与所述当前操作资源对应的基础相关特征；返回执行获取一个查询资源作为当前操作资源的操作，直至完成对全部查询资源的处理。

在上述各实施例的基础上，所述目标匹配度可以包括：基于长度的匹配度，和/或基于权重的匹配度。

在上述各实施例的基础上，所述基础相关特征还可以包括：基于基本词数量匹配度，和/或需求匹配度。

在上述各实施例的基础上，所述相关性评分值输出模块具体可以用于：依次获取所述第三数量的所述查询资源作为并行处理资源，并根据建立的所述子线程，并行获取各所述并行处理资源的比对评分特征，以及根据比对评分特征获取与各所述并行处理查询资源对应的相关性评分值；其中，获取一个目标并行处理资源的比对评分特征以及根据比对评分特征获取所述目标并行处理资源对应的相关性评分值的操作在同一线程中顺序执行。

在上述各实施例的基础上，所述查询资源获取模块具体用于：确定所述目标查询式的类型；如果所述目标查询式为短查询式，则获取与所述目标查询式对应的标准比对特征；根据所述标准比对特征，从资源库中获取与所述目标查询式关联的查询资源。

本发明实施例所提供的查询结果的底层召回装置可用于执行本发明实施例提供的查询结果的底层召回方法，具备相应的功能模块，实现相同的有益效果。

显然，本领域技术人员应该明白，上述的本发明的各模块或各步骤可以通过如上所述的服务器来实施。可选地，本发明实施例可以用计算机装置可执行的程序来实现，从而可以将它们存储在存储装置中由处理器来执行，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等；或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种查询结果的底层召回方法，其特征在于，包括：

将各所述查询资源的所述比对评分特征输入至预先训练的排序模型中，获取所述排序模型输出的，与各所述查询资源对应的相关性评分值，其中，所述排序模型为Gbrank模型；

2.根据权利要求1所述的方法，其特征在于，所述比对评分特征还包括：质量控制特征，和/或者点击特征。

3.根据权利要求2所述的方法，其特征在于，所述质量控制特性包括：资源分级特征，以及资源面积分档特征。

4.根据权利要求2所述的方法，其特征在于，所述点击特征包括：精准点击特征，以及泛点击特征。

5.根据权利要求1-4任一所述的方法，其特征在于，所述基础相关特征包括：所述目标查询式与所述查询资源对应的网页的匹配度特征；

获取各所述查询资源的基础相关特征包括：

根据设定查询式分层规则，将所述目标查询式分解为至少两个层级的分词集；

依次获取一个查询资源作为当前操作资源，获取所述当前操作资源对应的目标网页资源的第一数量的单域及第二数量的混合域；

分别计算各层级的分词集与各单域文本以及各混合域文本的目标匹配度，并将计算得到的所述目标匹配度作为与所述当前操作资源对应的基础相关特征；

返回执行获取一个查询资源作为当前操作资源的操作，直至完成对全部查询资源的处理。

6.根据权利要求5所述的方法，其特征在于，所述目标匹配度包括：基于长度的匹配度，和/或基于权重的匹配度。

7.根据权利要求5所述的方法，其特征在于，所述基础相关特征还包括：基于基本词数量匹配度，和/或基于需求匹配度。

8.根据权利要求5所述的方法，其特征在于，所述将各所述查询资源的所述比对评分特征输入至预先训练的排序模型中，获取所述排序模型输出的，与各所述查询资源对应的相关性评分值，具体包括：

建立第三数量的子线程；

依次获取所述第三数量的所述查询资源作为并行处理资源，并根据建立的所述子线程，并行获取各所述并行处理资源的比对评分特征，以及根据比对评分特征获取与各所述并行处理查询资源对应的相关性评分值；

其中，获取一个目标并行处理资源的比对评分特征，以及根据比对评分特征获取所述目标并行处理资源对应的相关性评分值的操作在同一线程中顺序执行。

9.根据权利要求1所述的方法，其特征在于，所述根据搜索用户输入的目标查询式，从资源库中获取与所述目标查询式关联的查询资源具体包括：

确定所述目标查询式的类型；

如果所述目标查询式为短查询式，则获取与所述目标查询式对应的标准比对特征；

根据所述标准比对特征，从资源库中获取与所述目标查询式关联的查询资源。

10.一种查询结果的底层召回装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述比对评分特征还包括：质量控制特征，和/或者点击特征。

12.根据权利要求11所述的装置，其特征在于，所述质量控制特性包括：资源分级特征，以及资源面积分档特征。

13.根据权利要求11所述的装置，其特征在于，所述点击特征包括：精准点击特征以及泛点击特征。

14.根据权利要求10-13任一所述的装置，其特征在于，所述基础相关特征包括：所述目标查询式与所述查询资源对应的网页的匹配度特征；

比对评分特征获取模块具体用于：

用于根据设定查询式分层规则，将所述目标查询式分解为至少两个层级的分词集；

用于依次获取一个查询资源作为当前操作资源，获取所述当前操作资源对应的目标网页资源的第一数量的单域及第二数量的混合域；

15.根据权利要求14所述的装置，其特征在于，所述目标匹配度包括：基于长度的匹配度，和/或基于权重的匹配度。

16.根据权利要求14所述的方法，其特征在于，所述基础相关特征还包括：基于基本词数量匹配度，和/或需求匹配度。

17.根据权利要求14所述的装置，其特征在于，所述相关性评分值输出模块具体用于：

建立第三数量的子线程；

其中，获取一个目标并行处理资源的比对评分特征以及根据比对评分特征获取所述目标并行处理资源对应的相关性评分值的操作在同一线程中顺序执行。

18.根据权利要求10所述的装置，其特征在于，所述查询资源获取模块具体用于：

确定所述目标查询式的类型；