Nothing Special   »   [go: up one dir, main page]

CN107256267A - 查询方法和装置 - Google Patents

查询方法和装置 Download PDF

Info

Publication number
CN107256267A
CN107256267A CN201710465229.6A CN201710465229A CN107256267A CN 107256267 A CN107256267 A CN 107256267A CN 201710465229 A CN201710465229 A CN 201710465229A CN 107256267 A CN107256267 A CN 107256267A
Authority
CN
China
Prior art keywords
sentence
fragment
query statement
target
inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710465229.6A
Other languages
English (en)
Other versions
CN107256267B (zh
Inventor
陈立玮
周晓
于佃海
赵世奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710465229.6A priority Critical patent/CN107256267B/zh
Publication of CN107256267A publication Critical patent/CN107256267A/zh
Priority to US15/933,685 priority patent/US10795939B2/en
Application granted granted Critical
Publication of CN107256267B publication Critical patent/CN107256267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了查询方法和装置。该方法的一具体实施方式包括:从历史查询语句集合中获取目标历史查询语句;基于查询日志,对所述目标历史查询语句进行扩展,生成与所述目标历史查询语句相关联的扩展语句片段;将所述扩展语句片段作为与所述目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库;响应于接收到查询语句,基于所述预设模型的语句片段特征库生成查询语句对应的查询结果。本申请实施例将扩展语句片段作为与目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库,能够生成更准确的查找结果。

Description

查询方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及查询方法和装置。
背景技术
随着信息技术的发展,越来越多的用户使用互联网进行信息查询。用户使用互联网进行查询时,往往很难在一次查询后得到预期的查询结果。也即由查询引擎得到的信息通常有准确度较低的问题。
发明内容
本申请的目的在于提出一种改进的查询方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请实施例提供了一种查询方法,该方法包括:从历史查询语句集合中获取目标历史查询语句;基于查询日志,对目标历史查询语句进行扩展,生成与目标历史查询语句相关联的扩展语句片段;将扩展语句片段作为与目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库,其中,预设模型包括领域识别模型和/或意图槽位识别模型,领域识别模型用以表征查询语句和查询语句的语义所属的预设领域的对应关系,意图槽位识别模型用以表征查询语句和查询语句所指示的查询目的、对查询目的的限定关键词的对应关系;响应于接收到查询语句,基于预设模型的语句片段特征库生成查询语句对应的查询结果。
在一些实施例中,基于查询日志,对目标历史查询语句进行扩展,得到扩展语句片段,包括:利用多种预设分词方式,对目标历史查询语句进行分词,生成多个语句片段;从多个语句片段中,确定按照用户选择概率由最高到低的顺序的选取预设数量的语句片段作为扩展语句片段,或者选取用户选择概率高于概率阈值的语句片段作为扩展语句片段,其中,用户选择概率是由每组语句片段中的每个语句片段在查询日志所记录的查询结果的历史点击次数确定的。
在一些实施例中,基于查询日志,对目标历史查询语句进行扩展,得到扩展语句片段,包括:利用多种预设分词方式,对目标历史查询语句进行分词,生成多个语句片段;对于多个语句片段中的语句片段,确定作为查询语句的该语句片段所对应的历史用户选择网页的标题;对标题进行分词,生成标题的至少两个语句片段;确定标题的每个语句片段的权重值,并将权重值高于预设权重阈值的语句片段作为扩展语句片段。
在一些实施例中,基于查询日志,对目标历史查询语句进行扩展,得到扩展语句片段,包括:响应于确定目标历史查询语句中的第一目标片段和目标历史查询语句所对应的历史用户选择网页的标题中的第二目标片段在句中单侧的语境一致的概率大于第一预设阈值,或者两侧的语境一致的概率大于第二预设阈值,则确定第一目标片段和第二目标片段是同义片段,并将第二目标片段确定为扩展语句片段,其中,历史用户选择网页被选择的记录记录于查询日志中。
在一些实施例中,基于查询日志,对目标历史查询语句进行扩展,得到扩展语句片段,包括:响应于确定在指定历史时间段内,第一目标片段位于目标历史查询语句中并且第二目标片段位于目标历史查询语句所对应的多个历史用户选择网页的标题中的概率大于预设阈值,则确定第一目标片段和第二目标片段是同义片段,并将第二目标片段确定为扩展语句片段,其中,历史用户选择网页被选择的记录记录于查询日志中。
在一些实施例中,基于查询日志,对目标历史查询语句进行扩展,得到扩展语句片段,包括:基于深度神经网络,确定目标历史查询语句中的第一目标片段和目标历史查询语句所对应的历史用户选择网页的标题中的第二目标片段的语义相似度,其中,历史用户选择网页被选择的记录记录于查询日志中;响应于确定语义相似度在预设相似度阈值以上,则确定第一目标片段和第二目标片段是同义片段,并将第二目标片段确定为扩展语句片段。
在一些实施例中,在确定第一目标片段和第二目标片段是同义片段之后,基于查询日志,对目标历史查询语句进行扩展,得到扩展语句片段,还包括:向客户端推送包括第一目标片段和第二目标片段的同义片段待确认信息;响应于接收到客户端返回同义片段确认信息,确定第一目标片段和第二目标片段是确认同义片段。
在一些实施例中,该方法还包括:响应于确定目标历史查询语句包括待确定语句片段和预设查询目的片段集合中的查询目的片段,确定查询日志中是否存在目标历史查询语句;响应于确定查询日志中存在目标历史查询语句,对语句片段特征库中的待确定语句片段添加用于指示修饰功能的指定标签。
在一些实施例中,基于预设模型的语句片段特征库生成查询语句对应的查询结果,包括:响应于预设模型包括领域识别模型和意图槽位识别模型,根据多个领域识别模型中的每个领域识别模型的语句片段特征库,从多个领域识别模型中,确定与查询语句相匹配的至少一个领域识别模型及至少一个领域识别模型对应的预设领域;对于每一个预设领域,将查询语句输入该预设领域对应的意图槽位识别模型,基于查询语句与意图槽位模型的语句片段特征库中语句片段特征的匹配,得到查询语句所指示的查询目的和对查询目的的限定关键词;在信息库中查找与查询目的和限定关键词匹配的信息,将查找到的信息作为查询结果。
第二方面,本申请提供了一种查询装置,该装置包括:获取单元,配置用于从历史查询语句集合中获取目标历史查询语句;扩展单元,配置用于基于查询日志,对目标历史查询语句进行扩展,生成与目标历史查询语句相关联的扩展语句片段;添加单元,配置用于将扩展语句片段作为与目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库,其中,预设模型包括领域识别模型和/或意图槽位识别模型,领域识别模型用以表征查询语句和查询语句的语义所属的预设领域的对应关系,意图槽位识别模型用以表征查询语句和查询语句所指示的查询目的、对查询目的的限定关键词的对应关系;生成单元,配置用于响应于接收到查询语句,基于预设模型的语句片段特征库生成查询语句对应的查询结果。
在一些实施例中,扩展单元,包括:分词模块,配置用于利用多种预设分词方式,对目标历史查询语句进行分词,生成多个语句片段;确定模块,配置用于从多个语句片段中,确定按照用户选择概率由最高到低的顺序的选取预设数量的语句片段作为扩展语句片段,或者选取用户选择概率高于概率阈值的语句片段作为扩展语句片段,其中,用户选择概率是由每组语句片段中的每个语句片段在查询日志所记录的查询结果的历史点击次数确定的。
在一些实施例中,扩展单元,包括:生成模块,配置用于利用多种预设分词方式,对目标历史查询语句进行分词,生成多个语句片段;语句片段生成模块,配置用于对于多个语句片段中的语句片段,确定作为查询语句的该语句片段所对应的历史用户选择网页的标题;对标题进行分词,生成标题的至少两个语句片段;确定标题的每个语句片段的权重值,并将权重值高于预设权重阈值的语句片段作为扩展语句片段。
在一些实施例中,扩展单元,包括:确定同义模块,配置用于响应于确定目标历史查询语句中的第一目标片段和目标历史查询语句所对应的历史用户选择网页的标题中的第二目标片段在句中单侧的语境一致的概率大于第一预设阈值,或者两侧的语境一致的概率大于第二预设阈值,则确定第一目标片段和第二目标片段是同义片段,并将第二目标片段确定为扩展语句片段,其中,历史用户选择网页被选择的记录记录于查询日志中。
在一些实施例中,扩展单元,还包括:推送模块,配置用于向客户端推送包括第一目标片段和第二目标片段的同义片段待确认信息;同义确认模块,配置用于响应于接收到客户端返回同义片段确认信息,确定第一目标片段和第二目标片段是确认同义片段。
本申请实施例提供的查询方法和装置,首先通过从历史查询语句集合中获取目标历史查询语句;之后基于查询日志,对目标历史查询语句进行扩展,生成与目标历史查询语句相关联的扩展语句片段;然后将扩展语句片段作为与目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库,其中,预设模型包括领域识别模型和/或意图槽位识别模型,领域识别模型用以表征查询语句和查询语句的语义所属的预设领域的对应关系,意图槽位识别模型用以表征查询语句和查询语句所指示的查询目的、对查询目的的限定关键词的对应关系;最后响应于接收到查询语句,基于预设模型的语句片段特征库生成查询语句对应的查询结果。通过将扩展语句片段作为与目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库,能够生成更准确的查找结果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的查询方法的一个实施例的流程图;
图3是根据本申请的查询方法的一个应用场景的示意图;
图4是根据本申请的查询方法的又一个实施例的流程图;
图5是根据本申请的查询方法的又一个实施例的流程图;
图6是根据本申请的查询方法的又一个实施例的流程图;
图7是根据本申请的查询方法的又一个实施例的流程图;
图8是根据本申请的查询方法的又一个实施例的流程图;
图9是根据本申请的查询方法的又一个实施例的流程图;
图10是根据本申请的查询装置的一个实施例的结构示意图;
图11是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的查询方法或查询装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如查询类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持查询的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts GroupAudio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的查询界面提供支持的后台网页服务器。后台网页服务器可以对接收到的查询请求等数据进行分析等处理,并将处理结果(例如查询结果)反馈给终端设备。
需要说明的是,本申请实施例所提供的查询方法一般由服务器105执行,相应地,查询装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的查询方法的一个实施例的流程200。该查询方法,包括以下步骤:
步骤201,从历史查询语句集合中获取目标历史查询语句。
在本实施例中,查询方法运行于其上的电子设备(例如图1所示的服务器)可以从指定的历史查询语句集合中,获取目标历史查询语句。这里的历史查询语句集合是用户在过去所查询的一些查询语句的集合。该集合可以是指定的历史时间段内所查询的多个(也可以是一个)查询语句组成的集合,也可以是人为指定的一些查询语句所生成的集合。目标历史查询语句为人为设定的或者按照预设规则获取的(比如获取时间最新的查询语句或者获取三个月内最先查询的查询语句)在过去用户所查询的语句。
这里的查询可以是利用网络查询引擎进行的查询,也可以是在指定的查询平台上进行的查询。而如果查询指的是后者,进行查询的用户则为使用查询平台进行查询的产品端用户。
步骤202,基于查询日志,对目标历史查询语句进行扩展,生成与目标历史查询语句相关联的扩展语句片段。
在本实施例中,上述电子设备在获取到目标历史查询语句之后,可以基于查询日志,对获取到目标历史查询语句进行扩展,生成扩展语句片段。生成的扩展语句片段与目标历史查询语句相关联。查询日志为用户进行查询所生成的包括查询记录的日志。为了获得更加丰富的数据,查询日志所记录的用户可以是使用网络查询引擎进行查询的用户。当然,这里的用户也可以是指定查询平台的用户。扩展指根据目标历史查询语句,进行语句片段的增加,以得到更多的相关联语句片段。语句片段指可以参与组成语句的字、词、词组或短语等,字符长度比较灵活。扩展语句片段为对目标历史查询语句进行扩展,得到的与目标历史查询语句相关联的一个或多个语句片段。
与目标历史查询语句相关联的词语片段与目标历史查询语句可以是多种关系。比如,包含、语义相近或语义相反等等。
步骤203,将扩展语句片段作为与目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库。
在本实施例中,上述电子设备将得到的扩展语句片段作为与目标历史查询语句相关联的语句片段特征,将该语句片段特征添加到语句片段特征库中。预设模型包括领域识别模型和/或意图槽位识别模型,领域识别模型用以表征查询语句和查询语句的语义所属的预设领域的对应关系,意图槽位识别模型用以表征查询语句和查询语句所指示的查询目的、对查询目的的限定关键词的对应关系。在意图槽位识别模型中输入查询语句,可以输出查询目的、对查询目的的限定关键词。
举例来说,查询语句为“推荐恐怖的影片”,输入领域识别模型,模型输出查询语句的领域为“电影”。如果将该查询语句输入意图槽位识别模型,输出查询目的为“寻找电影”,限定关键词为“恐怖”。
查询语句的语义指查询语句的语言含义。预设领域指预先设置的信息所属的广泛的类别。查询目的(也即意图),为用户进行查询的直接目的,也就是用户想通过查询得到什么,体现了查询语句要进行怎样的操作,以及该操作所要得到的核心内容。限定关键词(也即槽位)为对查询目的的修饰和限定的词语或语句片段,可以在查询目的的基础上,进一步细化表现用户的需求。
语句片段特征库是预设模型所采用的数据库,数据库中存放着大量的语句片段特征。语句片段特征可以是各种各样的语句片段,比如字、词、词组和短语等等,用以对查询语句进行对照和识别,以了解查询语句的语义。向预设模型中输入查询语句,将查询语句匹配到语义最接近的语句片段特征,进而得到预设模型的输出。
构建上述领域识别模型可以预先组成该模型的语句片段特征库,并建立语句片段特征库中的语句片段特征与领域识别模型的输出的对应关系表。之后可以将该对应关系表作为领域识别模型。意图槽位识别模型也可以预先组成该模型的语句片段特征库,并建立语句片段特征与模型的输出的对应关系表。之后将该对应关系表作为意图槽位识别模型。
可以使用如下方式构建领域识别模型:首先将语句片段作为训练样本,获取大量语句片段,并且对语句片段标注查询领域,将标注后的语句片段存入语句片段特征库。利用语句片段特征库中的语句片段特征对词袋模型(Bag of words)或卷积神经网络(Convolutional Neural Network,CNN)等现有的用于文本相似度分析的模型进行训练,得到领域识别模型。
可以使用如下方式构建意图槽位识别模型:将语句片段作为训练样本,获取大量语句片段,并对语句片段标注查询目的和对查询目的的限定关键词,将标注后的语句片段存入语句片段特征库。之后利用语句片段特征库中的语句片段特征对循环神经网络(Recurrent Neural Networks,RNN)、深度神经网络(Deep Neural Network,DNN)等现有的分析模型进行训练,得到意图槽位识别模型。
在本实施例的一些可选的实现方式中,意图槽位识别模型除了可以得到限定关键词以外,还可以得到限定关键词所属的具体类别。比如“恐怖”的具体类别为电影类型。具体类别与领域和查询目的相关联。
预设模型可以包括领域识别模型和意图槽位识别模型中的任意一者或两者。所以,将语句片段特征可以添加到上述两种模型中的一者或者两者中。预设模型可以是二分类模型,也即通过模型的语句片段特征库,判断一个查询语句是否属于该模型的类别。也可以是多分类模型。
在对目标历史查询语句进行扩展后,得到新的语句片段特征,可以对原有的语句片段特征库进行补充。使原有的预设模型不能识别的查询语句能够得到识别,或者识别得更加准确。
步骤204,响应于接收到查询语句,基于预设模型的语句片段特征库生成查询语句对应的查询结果。
在本实施例中,上述电子设备在接收到查询语句后,可以基于预设模型的已经更新的语句片段特征库,生成查询语句对应的查询结果。具体地,可以在语句片段特征库中查找查询语句对应的语句片段特征,进而输出领域,以及与该领域相关的查询目的和限定关键词。或者只输出领域或者只输出查询目的和限定关键词。根据输出,在信息库中查找与输出相匹配的信息,将查找到的信息作为查询结果。
继续参见图3,图3是根据本实施例的查询方法的应用场景的一个示意图。在图3的应用场景中,服务器从历史查询语句集合中,获取一条目标历史查询语句“推荐恐怖的影片”302;之后,服务器可以后基于查询日志,对“推荐恐怖的影片”进行扩展,生成扩展语句片段“影片”303;然后,上述服务器将“影片”作为与“推荐恐怖的影片”相关联的语句片段特征添加到领域识别模型的语句片段特征库和意图槽位识别模型的语句片段特征库;最后,用户306进行查询,上述服务器获得查询语句304,并利用更新后的领域识别模型的语句片段特征库和意图槽位识别模型的语句片段特征库,生成查询结果305,并推送给用户306。
本申请的上述实施例提供的方法通过将扩展语句片段作为与目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库,能够生成更准确的查找结果。
进一步参考图4,其示出了查询方法的又一个实施例的流程400。该查询方法的流程400,包括以下步骤:
步骤401,从历史查询语句集合中获取目标历史查询语句。
在本实施例中,服务器可以从指定的历史查询语句集合中,获取目标历史查询语句。这里的历史查询语句集合是用户在过去所查询的一些查询语句的集合。该集合可以是指定的历史时间段内所查询的多个(也可以是一个)查询语句组成的集合,也可以是人为指定的一些查询语句所组成的集合。目标历史查询语句为人为设定的或者按照预设规则获取的,在过去用户所查询的语句。
步骤402,利用多种预设分词方式,对目标历史查询语句进行分词,生成多个语句片段。
在本实施例中,上述服务器利用预设的多种分词方式,对目标历史查询语句进行分词。分词后生成多组语句片段。每一组语句片段中包括多个语句片段。这里的分词为对语句进行拆开和分解。每种分词方式都可以生成若干个语句片段。由多种分词方式,可以得到多个不同的语句片段。得到的多个语句片段的粒度可以是不同的。比如,查询语句为“淮北这两天要上映的动画片儿”,可以分词得到“淮北”和“这两天要上映的动画片儿”。也可以分词得到“淮北”、“这两天要上映的”和“动画片儿”等等。预设的多种分词方式可以包括正向最大匹配法,逆向最大匹配法和双向最大匹配法等等。
步骤403,从多个语句片段中,确定按照用户选择概率由最高到低的顺序的选取预设数量的语句片段作为扩展语句片段,或者选取用户选择概率高于概率阈值的语句片段作为扩展语句片段。
在本实施例中,上述服务器在多个语句片段中,确定用户选择概率较高的。具体的,可以按照用户选择概率由高到低的顺序,选取预设数量的语句片段作为扩展语句片段。预设数量可以是一个或者多个。此外,也可以预先设定概率阈值,将上述多个语句片段中用户选择概率大于概率阈值的语句片段作为扩展语句片段。用户选择概率是由每组语句片段中的每个语句片段在查询日志所记录的查询结果的历史点击次数确定的,指用户在对该语句片段所对应的查询结果进行点击选择的概率。历史点击次数为用户在过去以一个语句片段作为查询语句进行查询时,对得到的查询结果进行点击选择的次数。曾经以该语句片段作为查询语句,所得到的查询结果可以是多个网页的网址,也即统一资源定位符(UniformResoure Locator,URL)。对查询结果中的任意一个网址进行的点击都可以进行点击次数累计。
在查询日志记录可以记录有以每个语句片段为查询语句进行查询后,用户对查询结果进行点击的次数。用户对查询结果的点击次数可以体现用户对查询结果的满意度。如果用户面对查询结果,进行了多次点击或者没有进行点击,都表示查询结果不是用户的理想查询结果,用户的满意度较低。所以,可以预设一个点击次数值,若对一个语句片段的点击次数与该预设的点击次数值越接近,则确定该语句片段的用户选择概率高。也可以设定点击次数与用户选择概率的对应关系,从而根据对应关系由点击次数确定用户选择概率。上述服务器确定各组语句片段的用户选择概率,并将选择概率最高的一组语句片段确定为扩展语句片段。
步骤404,将扩展语句片段作为与目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库。
在本实施例中,上述服务器将得到的扩展语句片段作为与目标历史查询语句相关联的语句片段特征,将该语句片段特征添加到语句片段特征库中。预设模型包括领域识别模型和/或意图槽位识别模型,领域识别模型用以表征查询语句和查询语句的语义所属的预设领域的对应关系,意图槽位识别模型用以表征查询语句和查询语句所指示的查询目的、对查询目的的限定关键词的对应关系。在意图槽位识别模型中输入查询语句,可以输出查询目的、对查询目的的限定关键词。
语句片段特征库是预设模型所采用的数据库,数据库中存放着大量的语句片段特征。语句片段特征可以是各种各样的语句片段,比如字、词、词组和短语等等,用以对查询语句进行对照和识别,以了解查询语句的语义。向预设模型中输入查询语句,将查询语句匹配到语义最接近的语句片段特征,进而得到预设模型的输出。
查询语句的语义指查询语句的语言含义。预设领域指预先设置的信息所属的广泛的类别。查询目的(也即意图),为用户进行查询的直接目的,也就是用户想通过查询得到什么,体现了查询语句要进行怎样的操作,以及该操作所要得到的核心内容。限定关键词(也即槽位)为对查询目的的修饰和限定的词语或语句片段,可以在查询目的的基础上,进一步细化表现用户的需求。
举例来说,查询语句为“推荐恐怖的电影”,其领域为“电影”,查询目的为“寻找电影”,限定关键词为“恐怖”。而如果语句片段特征库中,不存在“电影”这个语句片段特征,则领域识别模型则无法识别查询语句的领域。如果将该查询语句作为目标历史查询语句,则可以经过分词和确定用户选择概率,得到“电影”这个语句片段特征。后续再有查找电影的查询语句,领域识别模型就可以识别得到“电影”领域。
步骤405,响应于接收到查询语句,基于预设模型的语句片段特征库生成查询语句对应的查询结果。
在本实施例中,上述服务器在接收到查询语句后,可以基于预设模型的已经更新的语句片段特征库,生成查询语句对应的查询结果。具体地,可以在语句片段特征库中查找查询语句对应的语句片段特征,进而输出领域,以及与该领域相关的查询目的和限定关键词。或者只输出领域或者只输出查询目的和限定关键词。根据输出,在信息库中查找与输出相匹配的信息,将查找到的信息作为查询结果。
本实施例利用了查询日志中用户进行点击的数据,在丰富语句片段特征库的同时,使语句片段特征库中的特征更能够满足用户的需求。
进一步参考图5,其示出了查询方法的又一个实施例的流程500。该查询方法的流程500,包括以下步骤:
步骤501,从历史查询语句集合中获取目标历史查询语句。
在本实施例中,服务器可以从指定的历史查询语句集合中,获取目标历史查询语句。这里的历史查询语句集合是用户在过去所查询的一些查询语句的集合。该集合可以是指定的历史时间段内所查询的多个(也可以是一个)查询语句组成的集合,也可以是人为指定的一些查询语句所组成的集合。目标历史查询语句为人为设定的或者按照预设规则获取的,在过去用户所查询的语句。
步骤502,利用多种预设分词方式,对目标历史查询语句进行分词,生成多个语句片段。
在本实施例中,上述服务器利用预设的多种分词方式,对目标历史查询语句进行分词。分词后生成多组语句片段。每一组语句片段中包括多个语句片段。这里的分词为对语句进行拆开和分解。每种分词方式都可以生成若干个语句片段。由多种分词方式,可以得到多个不同的语句片段。预设的多种分词方式可以包括正向最大匹配法,逆向最大匹配法和双向最大匹配法等等。
举例来说,
步骤503,对于多个语句片段中的语句片段,确定作为查询语句的该语句片段所对应的历史用户选择网页的标题;对标题进行分词,生成标题的至少两个语句片段;确定标题的每个语句片段的权重值,并将权重值高于预设权重阈值的语句片段作为扩展语句片段。
在本实施例中,将步骤503分解成如下的3个子步骤,即步骤5031、步骤5032和步骤5033。
步骤5031,对于多个语句片段中的语句片段,确定作为查询语句的该语句片段所对应的历史用户选择网页的标题。
在本实施例中,上述服务器对于多个语句片段中的语句片段,确定过去在该语句片段作为查询语句后,用户在查询结果中所选择的网页的标题。历史用户选择网页为在过去用户对某个语句片段进行查询后,从查询结果中选取的URL对应的网页。
在这里,执行操作的对象可以是多个语句片段中的一个或者多个语句片段。从多个语句片段中确定语句片段可以有多种方式,比如,从多个语句片段中,确定按照用户选择概率由最高到低的顺序的选取预设数量的语句片段,或者选取用户选择概率高于概率阈值的语句片段。还可以按照获得语句片段的时间顺序,或者进行随机选取等等。
步骤5032,对标题进行分词,生成标题的至少两个语句片段。
在本实施例中,上述服务器可以使用预设的某种分词方式,对得到的网页的标题进行分词。对一个标题进行分词,生成的语句片段至少是两个,所以得到标题对应的至少两个语句片段。
步骤5033,确定标题的每个语句片段的权重值,并将权重值高于预设权重阈值的语句片段作为扩展语句片段。
在本实施例中,上述服务器确定标题的至少两个语句片段中的每个语句片段的权重值。将各个语句片段的权重值与预设权重阈值进行比较,并将权重值高于预设权重阈值的语句片段作为扩展语句片段。语句片段的权重值可以采用多种方式设置(比如使用TF-IDF,term frequency–inverse document frequency)。
步骤504,将扩展语句片段作为与目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库。
在本实施例中,上述服务器将得到的扩展语句片段作为与目标历史查询语句相关联的语句片段特征,将该语句片段特征添加到语句片段特征库中。预设模型包括领域识别模型和/或意图槽位识别模型,领域识别模型用以表征查询语句和查询语句的语义所属的预设领域的对应关系,意图槽位识别模型用以表征查询语句和查询语句所指示的查询目的、对查询目的的限定关键词的对应关系。在意图槽位识别模型中输入查询语句,可以输出查询目的、对查询目的的限定关键词。
语句片段特征库是预设模型所采用的数据库,数据库中存放着大量的语句片段特征。语句片段特征可以是各种各样的语句片段,比如字、词、词组和短语等等,用以对查询语句进行对照和识别,以了解查询语句的语义。向预设模型中输入查询语句,将查询语句匹配到语义最接近的语句片段特征,进而得到预设模型的输出。
查询语句的语义指查询语句的语言含义。预设领域指预先设置的信息所属的广泛的类别。查询目的(也即意图),为用户进行查询的直接目的,也就是用户想通过查询得到什么,体现了查询语句要进行怎样的操作,以及该操作所要得到的核心内容。限定关键词(也即槽位)为对查询目的的修饰和限定的词语或语句片段,可以在查询目的的基础上,进一步细化表现用户的需求。比如,查询语句为“推荐恐怖的影片”,其领域为“电影”,查询目的为“寻找电影”,限定关键词为“恐怖”。
步骤505,响应于接收到查询语句,基于预设模型的语句片段特征库生成查询语句对应的查询结果。
在本实施例中,上述服务器在接收到查询语句后,可以基于预设模型的已经更新的语句片段特征库,生成查询语句对应的查询结果。具体地,可以在语句片段特征库中查找查询语句对应的语句片段特征,进而输出领域,以及与该领域相关的查询目的和限定关键词。或者只输出领域或者只输出查询目的和限定关键词。根据输出,在信息库中查找与输出相匹配的信息,将查找到的信息作为查询结果。
本实施例利用了历史用户选择网页的标题,扩充语句片段特征库中的特征,使预设模型的输出更加准确。
进一步参考图6,其示出了查询方法的又一个实施例的流程600。该查询方法的流程600,包括以下步骤:
步骤601,从历史查询语句集合中获取目标历史查询语句。
在本实施例中,服务器可以从指定的历史查询语句集合中,获取目标历史查询语句。这里的历史查询语句集合是用户在过去所查询的一些查询语句的集合。该集合可以是指定的历史时间段内所查询的多个(也可以是一个)查询语句组成的集合,也可以是人为指定的一些查询语句所组成的集合。目标历史查询语句为人为设定的或者按照预设规则获取的,在过去用户所查询的语句。
步骤602,响应于确定目标历史查询语句中的第一目标片段和目标历史查询语句所对应的多个历史用户选择网页的标题中共有的第二目标片段在句中单侧的语境一致的概率大于第一预设阈值,或者两侧的语境一致的概率大于第二预设阈值,则确定第一目标片段和第二目标片段是同义片段,并将第二目标片段确定为扩展语句片段。
在本实施例中,在目标历史查询语句中存在第一目标片段,同时在目标历史查询语句对应的多个历史用户选择网页的标题中,存在多个标题所共有的第二目标片段。历史用户选择网页被用户选择的记录记录在查询日志中。上述服务器可以对查询日志中,用户输入的某个查询语句和多个标题进行比对,如果存在两个语句片段,语境相似程度非常高,则做出响应:将这两个语句片段确定为同义片段。在这里,第一目标片段是目标历史查询语句中的语句片段,第二目标片段是用户选择的网页的标题中的语句片段。
具体地,一个语句片段在一个语句中,在语句中间位置时该语句片段则具有两侧的语境(句首侧和句尾侧)。将查询语句和各个标题进行比对,可以将单侧语境一致的数量与比对总数量的比值作为单侧语境一致的概率。相应的,可以将两侧语境一致的数量与比对总数量的比值作为两侧语境一致的概率。第一预设阈值和第二预设阈值都是对语境一致的概率预先设定的阈值。可以将得到的单侧语境一致的概率和两侧语境一致的概率与这两个阈值分别进行比较,以确定所得到概率的高低。如果概率较高,则可以确定为同义片段。
上述服务器在确定第一目标片段和第二目标片段为同义片段的情况下,将第二目标片段作为扩展语句片段。
在本实施例的一些可选的实现方式中,将查询语句作为扩展语句片段。这样,可以将同义的两个语句片段都加入到语句片段特征库中,以使语句片段特征库中的资源更加丰富。
步骤603,将扩展语句片段作为与目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库。
在本实施例中,上述服务器将得到的扩展语句片段作为与目标历史查询语句相关联的语句片段特征,将该语句片段特征添加到语句片段特征库中。预设模型包括领域识别模型和/或意图槽位识别模型,领域识别模型用以表征查询语句和查询语句的语义所属的预设领域的对应关系,意图槽位识别模型用以表征查询语句和查询语句所指示的查询目的、对查询目的的限定关键词的对应关系。在意图槽位识别模型中输入查询语句,可以输出查询目的、对查询目的的限定关键词。
语句片段特征库是预设模型所采用的数据库,数据库中存放着大量的语句片段特征。语句片段特征可以是各种各样的语句片段,比如字、词、词组和短语等等,用以对查询语句进行对照和识别,以了解查询语句的语义。向预设模型中输入查询语句,将查询语句匹配到语义最接近的语句片段特征,进而得到预设模型的输出。
查询语句的语义指查询语句的语言含义。预设领域指预先设置的信息所属的广泛的类别。查询目的(也即意图),为用户进行查询的直接目的,也就是用户想通过查询得到什么,体现了查询语句要进行怎样的操作,以及该操作所要得到的核心内容。限定关键词(也即槽位)为对查询目的的修饰和限定的词语或语句片段,可以在查询目的的基础上,进一步细化表现用户的需求。比如,查询语句为“推荐恐怖的影片”,其领域为“电影”,查询目的为“寻找电影”,限定关键词为“恐怖”。
步骤604,响应于接收到查询语句,基于预设模型的语句片段特征库生成查询语句对应的查询结果。
在本实施例中,上述服务器在接收到查询语句后,可以基于预设模型的已经更新的语句片段特征库,生成查询语句对应的查询结果。具体地,可以在语句片段特征库中查找查询语句对应的语句片段特征,进而输出领域,以及与该领域相关的查询目的和限定关键词。或者只输出领域或者只输出查询目的和限定关键词。根据输出,在信息库中查找与输出相匹配的信息,将查找到的信息作为查询结果。
本实施例根据语境判断两个语句片段是否为同义片段,能够进一步丰富语句片段特征库,使预设模型的输出更加准确。
进一步参考图7,其示出了查询方法的又一个实施例的流程700。该查询方法的流程700,包括以下步骤:
步骤701,从历史查询语句集合中获取目标历史查询语句。
在本实施例中,服务器可以从指定的历史查询语句集合中,获取目标历史查询语句。这里的历史查询语句集合是用户在过去所查询的一些查询语句的集合。该集合可以是指定的历史时间段内所查询的多个(也可以是一个)查询语句组成的集合,也可以是人为指定的一些查询语句所组成的集合。目标历史查询语句为人为设定的或者按照预设规则获取的,在过去用户所查询的语句。
步骤702,响应于确定在指定历史时间段内,第一目标片段位于目标历史查询语句中并且第二目标片段位于目标历史查询语句所对应的多个历史用户选择网页的标题中的概率大于预设阈值,则确定第一目标片段和第二目标片段是同义片段,并将第二目标片段确定为扩展语句片段。
在本实施例中,上述服务器响应于确定在指定历史时间段内,第一目标片段位于目标历史查询语句中,并且第二目标片段位于目标历史查询语句所对应的多个历史用户选择网页的标题中。概率指第一目标片段和第二目标片段分别出现在目标历史查询语句和用户选择网页的标题中的次数,与所统计的以目标历史查询语句进行查询的查询总次数的比值。历史用户选择网页被选择的记录记录于查询日志中。
若得到的概率大于预设阈值,即存在两个语句片段,高频率地出现在目标历史查询语句和其对应的多个网页的标题中。这样则可以确定第一目标片段和第二目标片段是同义片段。
上述服务器在确定第一目标片段和第二目标片段为同义片段的情况下,将第二目标片段作为扩展语句片段。
在本实施例的一些可选的实现方式中,将查询语句作为扩展语句片段。这样,可以将同义的两个语句片段都加入到语句片段特征库中,以使语句片段特征库中的资源更加丰富。
步骤703,将扩展语句片段作为与目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库。
在本实施例中,上述服务器将得到的扩展语句片段作为与目标历史查询语句相关联的语句片段特征,将该语句片段特征添加到语句片段特征库中。预设模型包括领域识别模型和/或意图槽位识别模型,领域识别模型用以表征查询语句和查询语句的语义所属的预设领域的对应关系,意图槽位识别模型用以表征查询语句和查询语句所指示的查询目的、对查询目的限定关键词的的对应关系。在意图槽位识别模型中输入查询语句,可以输出查询目的、对查询目的的限定关键词。
语句片段特征库是预设模型所采用的数据库,数据库中存放着大量的语句片段特征。语句片段特征可以是各种各样的语句片段,比如字、词、词组和短语等等,用以对查询语句进行对照和识别,以了解查询语句的语义。向预设模型中输入查询语句,将查询语句匹配到语义最接近的语句片段特征,进而得到预设模型的输出。
查询语句的语义指查询语句的语言含义。预设领域指预先设置的信息所属的广泛的类别。查询目的(也即意图),为用户进行查询的直接目的,也就是用户想通过查询得到什么,体现了查询语句要进行怎样的操作,以及该操作所要得到的核心内容。限定关键词(也即槽位)为对查询目的的修饰和限定的词语或语句片段,可以在查询目的的基础上,进一步细化表现用户的需求。比如,查询语句为“推荐恐怖的影片”,其领域为“电影”,查询目的为“寻找电影”,限定关键词为“恐怖”。
步骤704,响应于接收到查询语句,基于预设模型的语句片段特征库生成查询语句对应的查询结果。
在本实施例中,上述服务器在接收到查询语句后,可以基于预设模型的已经更新的语句片段特征库,生成查询语句对应的查询结果。具体地,可以在语句片段特征库中查找查询语句对应的语句片段特征,进而输出领域,以及与该领域相关的查询目的和限定关键词。或者只输出领域或者只输出查询目的和限定关键词。根据输出,在信息库中查找与输出相匹配的信息,将查找到的信息作为查询结果。
能够进一步丰富语句片段特征库,使预设模型的输出更加准确。
进一步参考图8,其示出了查询方法的又一个实施例的流程800。该查询方法的流程800,包括以下步骤:
步骤801,从历史查询语句集合中获取目标历史查询语句。
在本实施例中,服务器可以从指定的历史查询语句集合中,获取目标历史查询语句。这里的历史查询语句集合是用户在过去所查询的一些查询语句的集合。该集合可以是指定的历史时间段内所查询的多个(也可以是一个)查询语句组成的集合,也可以是人为指定的一些查询语句所组成的集合。目标历史查询语句为人为设定的或者按照预设规则获取的,在过去用户所查询的语句。
步骤802,基于深度神经网络,确定目标历史查询语句中的第一目标片段和目标历史查询语句所对应的历史用户选择网页的标题中的第二目标片段的语义相似度。
在本实施例中,服务器利用深度神经网络,确定第一目标片段和第二目标片段的语义相似度。深度神经网络可以用于表征两个语句片段和这两个语句片段之间的语义相似度的对应关系。第一目标片段是目标历史查询语句中的语句片段,第二目标片段是用户选择网页的标题中的语句片段。历史用户选择网页被选择的记录记录于查询日志中。
步骤803,响应于确定语义相似度在预设相似度阈值以上,则确定第一目标片段和第二目标片段是同义片段,并将第二目标片段确定为扩展语句片段。
在本实施例中,可以预先设定相似度阈值,若确定得到的语义相似度大于或等于预设相似度阈值,则确定第一目标片段和第二目标片段为同义片段。上述服务器在确定第一目标片段和第二目标片段为同义片段的情况下,将第二目标片段作为扩展语句片段。
在本实施例的一些可选的实现方式中,将查询语句作为扩展语句片段。这样,可以将同义的两个语句片段都加入到语句片段特征库中,以使语句片段特征库中的资源更加丰富。
步骤804,将扩展语句片段作为与目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库。
在本实施例中,上述服务器将得到的扩展语句片段作为与目标历史查询语句相关联的语句片段特征,将该语句片段特征添加到语句片段特征库中。预设模型包括领域识别模型和/或意图槽位识别模型,领域识别模型用以表征查询语句和查询语句的语义所属的预设领域的对应关系,意图槽位识别模型用以表征查询语句和查询语句所指示的查询目的、对查询目的限定关键词的的对应关系。在意图槽位识别模型中输入查询语句,可以输出查询目的、对查询目的的限定关键词。
语句片段特征库是预设模型所采用的数据库,数据库中存放着大量的语句片段特征。语句片段特征可以是各种各样的语句片段,比如字、词、词组和短语等等,用以对查询语句进行对照和识别,以了解查询语句的语义。向预设模型中输入查询语句,将查询语句匹配到语义最接近的语句片段特征,进而得到预设模型的输出。
查询语句的语义指查询语句的语言含义。预设领域指预先设置的信息所属的广泛的类别。查询目的(也即意图),为用户进行查询的直接目的,也就是用户想通过查询得到什么,体现了查询语句要进行怎样的操作,以及该操作所要得到的核心内容。限定关键词(也即槽位)为对查询目的的修饰和限定的词语或语句片段,可以在查询目的的基础上,进一步细化表现用户的需求。比如,查询语句为“推荐恐怖的影片”,其领域为“电影”,查询目的为“寻找电影”,限定关键词为“恐怖”。
步骤805,响应于预设模型包括领域识别模型和意图槽位识别模型,根据多个领域识别模型中的每个领域识别模型的语句片段特征库,从多个领域识别模型中,确定与查询语句相匹配的至少一个领域识别模型及至少一个领域识别模型对应的预设领域。
在本实施例中,上述服务器在预设模型包括领域识别模型和意图槽位识别模型的情况下,根据多个领域识别模型中的每个领域识别模型的语句片段特征库,从多个领域识别模型中,确定与查询语句相匹配的至少一个领域识别模型,并确定与这至少一个领域识别模型对应的预设领域。一个查询语句可能有多个领域与之相匹配。
在本实施例的一些可选的实现方式中,领域识别模型在输出查询语句所指示的领域的同时,还输出该领域的置信度。若置信度较低,可以向客户端发送待确认信息,以使用户对输出的领域判断正确与否,或者进行标注。之后上述服务器可以根据客户端返回的确定正确信息或者确定错误信息,来确定领域是否正确。通过用户的反馈,可以提高确定领域的准确性。
步骤806,对于每一个预设领域,将查询语句输入该预设领域对应的意图槽位识别模型,基于查询语句与意图槽位模型的语句片段特征库中语句片段特征的匹配,得到查询语句所指示的查询目的和对查询目的的限定关键词。
在本实施例中,对于所确定的至少一个领域中的每一个预设领域,上述服务器将查询语句输入该预设领域对应的意图槽位识别模型。每个预设领域(或者预设领域模型)都有与之对应的意图槽位识别模型。可以在确定预设领域的情况下,根据预设领域确定查询目的和限定关键词。将查询语句与意图槽位识别模型的语句片段特征库中的语句片段进行匹配。若查找到匹配的语句片段特征,则输出该语句片段特征对应的限定关键词。
在本实施例的一些可选的实现方式中,意图槽位识别模型在输出查询语句所指示的查询目的和对查询目的的限定关键词的同时,还输出查询目的和限定关键词的置信度。若置信度较低,可以向客户端发送待确认信息,以使用户对输出的查询目的和限定关键词判断正确与否,或者进行标注。之后上述服务器可以根据客户端返回的确定正确信息或者确定错误信息,来确定查询目的和限定关键词是否正确。通过用户的反馈,也可以提高确定查询目的和限定关键词的准确性。
步骤807,在信息库中查找与查询目的和限定关键词匹配的信息,将查找到的信息作为查询结果。
在本实施例中,上述服务器在信息库中查找与查询目的、限定关键词相匹配的信息。之后将查找到的信息作为查询结果。
本实施例能够进一步丰富语句片段特征库,使预设模型的输出更加准确。
进一步参考图9,其示出了查询方法的又一个实施例的流程900。该查询方法的流程900,包括以下步骤:
步骤901,从历史查询语句集合中获取目标历史查询语句。
在本实施例中,服务器可以从指定的历史查询语句集合中,获取目标历史查询语句。这里的历史查询语句集合是用户在过去所查询的一些查询语句的集合。该集合可以是指定的历史时间段内所查询的多个(也可以是一个)查询语句组成的集合,也可以是人为指定的一些查询语句所组成的集合。目标历史查询语句为人为设定的或者按照预设规则获取的,在过去用户所查询的语句。
步骤902,响应于确定目标历史查询语句包括待确定语句片段和预设查询目的片段集合中的查询目的片段,确定查询日志中是否存在目标历史查询语句。
在本实施例中,上述服务器确定目标历史查询语句包括待确定语句片段和查询目的片段,则做出响应:在查询日志中查找目标历史查询语句,以确定查询日志中是否存在目标历史查询语句。这里的查询目的片段是指示查询目的的语句片段,包含于预设的查询目的片段集合中。
步骤903,响应于确定查询日志中存在目标历史查询语句,对语句片段特征库中的待确定语句片段添加用于指示修饰功能的指定标签。
在本实施例中,上述服务器响应于确定查询日志中存在目标历史查询语句,则对语句片段特征库中该待确定语句片段添加指定标签。该指定标签用于指示该待确定语句片段为修饰性的语句片段。也即在目标历史查询语句中,待确定语句片段是用以修饰查询目的片段的语句片段。添加指定标签后,语句片段特征库中有更加丰富的语句片段特征。而更新了语句片段特征库的预设模型能够更准确地进行输出。
步骤904,响应于确定目标历史查询语句中的第一目标片段和目标历史查询语句所对应的多个历史用户选择网页的标题中共有的第二目标片段在句中单侧的语境一致的概率大于第一预设阈值,或者两侧的语境一致的概率大于第二预设阈值,则确定第一目标片段和第二目标片段是同义片段。
在本实施例中,在目标历史查询语句中存在第一目标片段,同时在目标历史查询语句对应的多个历史用户选择网页的标题中,存在多个标题所共有的第二目标片段。历史用户选择网页被用户选择的记录记录在查询日志中。在语句片段特征库得到更新的情况下,上述服务器可以对查询日志中,用户输入的某个查询语句和多个标题进行比对,如果存在两个语句片段,语境相似程度非常高,则做出响应:将这两个语句片段确定为同义片段。在这里,第一目标片段是目标历史查询语句中的语句片段,第二目标片段是用户选择的网页的标题中的语句片段。
步骤905,向客户端推送包括第一目标片段和第二目标片段的同义片段待确认信息。
在本实施例中,上述服务器为了进一步确定第一目标片段和第二目标片段是否是同义词,则向客户端推送包括这两个语句片段的同义片段待确认信息,以使用户判断这两个语句片段是否同义。同义片段待确认信息为用于让用户判断两个语句片段是否同义的信息。
步骤906,响应于接收到客户端返回同义片段确认信息,确定第一目标片段和第二目标片段是确认同义片段。
在本实施例中,上述服务器若接收到客户端根据待确认信息返回的同义片段确认信息,则进一步确定第一目标片段和第二目标片段是同义的。同义片段确认信息用于指示用户判断待确认信息中的第一目标片段和第二目标片段为同义片段。将第一目标片段和第二目标片段确定为确认同义片段。确认同义片段为用户确认过为同义的(两个)语句片段。
步骤907,将第二目标片段确定为扩展语句片段。
在本实施例中,上述服务器在确定第一目标片段和第二目标片段为确认同义片段的情况下,将第二目标片段作为扩展语句片段。
在本实施例的一些可选的实现方式中,将查询语句作为扩展语句片段。这样,可以将同义的两个语句片段都加入到语句片段特征库中,以使语句片段特征库中的资源更加丰富。
步骤908,将扩展语句片段作为与目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库。
在本实施例中,上述服务器将得到的扩展语句片段作为与目标历史查询语句相关联的语句片段特征,将该语句片段特征添加到语句片段特征库中。预设模型包括领域识别模型和/或意图槽位识别模型,领域识别模型用以表征查询语句和查询语句的语义所属的预设领域的对应关系,意图槽位识别模型用以表征查询语句和查询语句所指示的查询目的、对查询目的的限定关键词的对应关系。在意图槽位识别模型中输入查询语句,可以输出查询目的、对查询目的的限定关键词。
语句片段特征库是预设模型所采用的数据库,数据库中存放着大量的语句片段特征。语句片段特征可以是各种各样的语句片段,比如字、词、词组和短语等等,用以对查询语句进行对照和识别,以了解查询语句的语义。向预设模型中输入查询语句,将查询语句匹配到语义最接近的语句片段特征,进而得到预设模型的输出。
查询语句的语义指查询语句的语言含义。预设领域指预先设置的信息所属的广泛的类别。查询目的(也即意图),为用户进行查询的直接目的,也就是用户想通过查询得到什么,体现了查询语句要进行怎样的操作,以及该操作所要得到的核心内容。限定关键词(也即槽位)为对查询目的的修饰和限定的词语或语句片段,可以在查询目的的基础上,进一步细化表现用户的需求。比如,查询语句为“推荐恐怖的影片”,其领域为“电影”,查询目的为“寻找电影”,限定关键词为“恐怖”。
步骤909,响应于接收到查询语句,基于预设模型的语句片段特征库生成查询语句对应的查询结果。
在本实施例中,上述服务器在接收到查询语句后,可以基于预设模型的进一步更新的语句片段特征库,生成查询语句对应的查询结果。具体地,可以在语句片段特征库中查找查询语句对应的语句片段特征,进而输出领域,以及与该领域相关的查询目的和限定关键词。或者只输出领域或者只输出查询目的和限定关键词。根据输出,在信息库中查找与输出相匹配的信息,将查找到的信息作为查询结果。
本实施例通过添加标签,能够准确、快速地确定修饰片段。并且,通过向用户推送同义片段待确认信息,得到用户对语句片段是否同义的判断,能够确定语句片段是否同义,增强对查询语句的识别能力,增加模型输出的准确性。
进一步参考图10,作为对上述各图所示方法的实现,本申请提供了一种查询确定装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图10所示,本实施例的查询装置1000包括:获取单元1001、扩展单元1002、添加单元1003和生成单元1004。获取单元1001,配置用于从历史查询语句集合中获取目标历史查询语句;扩展单元1002,配置用于基于查询日志,对目标历史查询语句进行扩展,生成与目标历史查询语句相关联的扩展语句片段;添加单元1003,配置用于将扩展语句片段作为与目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库,其中,预设模型包括领域识别模型和/或意图槽位识别模型,领域识别模型用以表征查询语句和查询语句的语义所属的预设领域的对应关系,意图槽位识别模型用以表征查询语句和查询语句所指示的查询目的、对查询目的的限定关键词的对应关系;生成单元1004,配置用于响应于接收到查询语句,基于预设模型的语句片段特征库生成查询语句对应的查询结果。
在本实施例中,获取单元1001可以从指定的历史查询语句集合中,获取目标历史查询语句。这里的历史查询语句集合是用户在过去所查询的一些查询语句的集合。该集合可以是指定的历史时间段内所查询的多个(也可以是一个)查询语句组成的集合,也可以是人为指定的一些查询语句所组成的集合。目标历史查询语句为人为设定的或者按照预设规则获取的,在过去用户所查询的语句。
在本实施例中,扩展单元1002在获取到目标历史查询语句之后,可以基于查询日志,对获取到目标历史查询语句进行扩展,生成扩展语句片段。生成的扩展语句片段与目标历史查询语句相关联。查询日志为用户进行查询所生成的包括查询记录的日志。为了获得更加丰富的数据,查询日志所记录的用户可以是使用网络查询引擎进行查询的用户。当然,这里的用户也可以是指定查询平台的用户。扩展指根据目标历史查询语句,进行语句片段的增加,以得到更多的相关联语句片段。语句片段指可以参与组成语句的字、词、词组或短语等,字符长度比较灵活。得到的扩展语句片段可以是一个或多个。
在本实施例中,添加单元1003将得到的扩展语句片段作为与目标历史查询语句相关联的语句片段特征,将该语句片段特征添加到语句片段特征库中。预设模型包括领域识别模型和/或意图槽位识别模型,领域识别模型用以表征查询语句和查询语句的语义所属的预设领域的对应关系,意图槽位识别模型用以表征查询语句和查询语句所指示的查询目的、对查询目的的限定关键词的对应关系。在意图槽位识别模型中输入查询语句,可以输出查询目的、对查询目的的限定关键词。
在本实施例中,生成单元1004在接收到查询语句后,可以基于预设模型的已经更新的语句片段特征库,生成查询语句对应的查询结果。具体地,可以在语句片段特征库中查找查询语句对应的语句片段特征,进而输出领域,以及与该领域相关的查询目的和限定关键词。或者只输出领域或者只输出查询目的和限定关键词。根据输出,在信息库中查找与输出相匹配的信息,将查找到的信息作为查询结果。
在本实施例的一些可选的实现方式中,扩展单元,包括:分词模块(未示出),配置用于利用多种预设分词方式,对目标历史查询语句进行分词,生成多个语句片段;确定模块(未示出),配置用于从多个语句片段中,确定按照用户选择概率由最高到低的顺序的选取预设数量的语句片段作为扩展语句片段,或者选取用户选择概率高于概率阈值的语句片段作为扩展语句片段,其中,用户选择概率是由每组语句片段中的每个语句片段在查询日志所记录的查询结果的历史点击次数确定的。
在本实施例的一些可选的实现方式中,扩展单元,包括:生成模块(未示出),配置用于利用多种预设分词方式,对目标历史查询语句进行分词,生成多个语句片段;语句片段生成模块(未示出),配置用于对于多个语句片段中的语句片段,确定作为查询语句的该语句片段所对应的历史用户选择网页的标题;对标题进行分词,生成标题的至少两个语句片段;确定标题的每个语句片段的权重值,并将权重值高于预设权重阈值的语句片段作为扩展语句片段。
在本实施例的一些可选的实现方式中,扩展单元,包括:确定同义模块(未示出),配置用于响应于确定目标历史查询语句中的第一目标片段和目标历史查询语句所对应的历史用户选择网页的标题中的第二目标片段在句中单侧的语境一致的概率大于第一预设阈值,或者两侧的语境一致的概率大于第二预设阈值,则确定第一目标片段和第二目标片段是同义片段,其中,历史用户选择网页被选择的记录记录于查询日志中;确定扩展语句片段模块(未示出),配置用于将第二目标片段确定为扩展语句片段。
在本实施例的一些可选的实现方式中,扩展单元进一步配置用于:响应于确定在指定历史时间段内,第一目标片段位于目标历史查询语句中并且第二目标片段位于目标历史查询语句所对应的多个历史用户选择网页的标题中的概率大于预设阈值,则确定第一目标片段和第二目标片段是同义片段,其中,历史用户选择网页被选择的记录记录于查询日志中;将第二目标片段确定为扩展语句片段。
在本实施例的一些可选的实现方式中,扩展单元包括:相似度确定模块(未示出),配置用于基于深度神经网络,确定目标历史查询语句中的第一目标片段和目标历史查询语句所对应的历史用户选择网页的标题中的第二目标片段的语义相似度,其中,历史用户选择网页被选择的记录记录于查询日志中;同义片段确定模块(未示出),配置用于响应于确定语义相似度在预设相似度阈值以上,则确定第一目标片段和第二目标片段是同义片段;语句片段扩展模块(未示出),配置用于将第二目标片段确定为扩展语句片段。
在本实施例的一些可选的实现方式中,扩展单元,还包括:推送模块(未示出),配置用于向客户端推送包括第一目标片段和第二目标片段的同义片段待确认信息;同义确认模块(未示出),配置用于响应于接收到客户端返回同义片段确认信息,确定第一目标片段和第二目标片段是确认同义片段。
在本实施例的一些可选的实现方式中,该装置进一步配置用于:响应于确定目标历史查询语句包括待确定语句片段和预设查询目的片段集合中的查询目的片段,确定查询日志中是否存在目标历史查询语句;响应于确定查询日志中存在目标历史查询语句,对语句片段特征库中的待确定语句片段添加用于指示修饰功能的指定标签。
在本实施例的一些可选的实现方式中,生成单元进一步配置用于:响应于预设模型包括领域识别模型和意图槽位识别模型,根据多个领域识别模型中的每个领域识别模型的语句片段特征库,从多个领域识别模型中,确定与查询语句相匹配的至少一个领域识别模型及至少一个领域识别模型对应的预设领域;对于每一个预设领域,将查询语句输入该预设领域对应的意图槽位识别模型,基于查询语句与意图槽位模型的语句片段特征库中语句片段特征的匹配,得到查询语句所指示的查询目的和对查询目的的限定关键词;在信息库中查找与查询目的和限定关键词匹配的信息,将查找到的信息作为查询结果。
下面参考图11,其示出了适于用来实现本申请实施例的电子设备的计算机系统1100的结构示意图。图11示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。如图11所示,计算机系统1100包括中央处理单元(CPU)1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中,还存储有系统1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、扩展单元、添加单元和生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,接收单元还可以被描述为“获取目标历史查询语句的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:从历史查询语句集合中获取目标历史查询语句;基于查询日志,对目标历史查询语句进行扩展,生成与目标历史查询语句相关联的扩展语句片段;将扩展语句片段作为与目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库,其中,预设模型包括领域识别模型和/或意图槽位识别模型,领域识别模型用以表征查询语句和查询语句的语义所属的预设领域的对应关系,意图槽位识别模型用以表征查询语句和查询语句所指示的查询目的、对查询目的的限定关键词的对应关系;响应于接收到查询语句,基于预设模型的语句片段特征库生成查询语句对应的查询结果。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种查询方法,其特征在于,所述方法包括:
从历史查询语句集合中获取目标历史查询语句;
基于查询日志,对所述目标历史查询语句进行扩展,生成与所述目标历史查询语句相关联的扩展语句片段;
将所述扩展语句片段作为与所述目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库,其中,所述预设模型包括领域识别模型和/或意图槽位识别模型,所述领域识别模型用以表征查询语句和查询语句的语义所属的预设领域的对应关系,所述意图槽位识别模型用以表征查询语句和查询语句所指示的查询目的、对查询目的的限定关键词的对应关系;
响应于接收到查询语句,基于所述预设模型的语句片段特征库生成查询语句对应的查询结果。
2.根据权利要求1所述的查询方法,其特征在于,所述基于查询日志,对所述目标历史查询语句进行扩展,得到扩展语句片段,包括:
利用多种预设分词方式,对所述目标历史查询语句进行分词,生成多个语句片段;
从所述多个语句片段中,确定按照用户选择概率由最高到低的顺序的选取预设数量的语句片段作为扩展语句片段,或者选取用户选择概率高于概率阈值的语句片段作为扩展语句片段,其中,用户选择概率是由每组语句片段中的每个语句片段在查询日志所记录的查询结果的历史点击次数确定的。
3.根据权利要求1所述的查询方法,其特征在于,所述基于查询日志,对所述目标历史查询语句进行扩展,得到扩展语句片段,包括:
利用多种预设分词方式,对所述目标历史查询语句进行分词,生成多个语句片段;
对于所述多个语句片段中的语句片段,确定作为查询语句的该语句片段所对应的历史用户选择网页的标题;对所述标题进行分词,生成所述标题的至少两个语句片段;确定所述标题的每个语句片段的权重值,并将权重值高于预设权重阈值的语句片段作为扩展语句片段。
4.根据权利要求1所述的查询方法,其特征在于,所述基于查询日志,对所述目标历史查询语句进行扩展,得到扩展语句片段,包括:
响应于确定所述目标历史查询语句中的第一目标片段和所述目标历史查询语句所对应的历史用户选择网页的标题中的第二目标片段在句中单侧的语境一致的概率大于第一预设阈值,或者两侧的语境一致的概率大于第二预设阈值,则确定第一目标片段和第二目标片段是同义片段,并将第二目标片段确定为扩展语句片段,其中,所述历史用户选择网页被选择的记录记录于查询日志中。
5.根据权利要求1所述的查询方法,其特征在于,所述基于查询日志,对所述目标历史查询语句进行扩展,得到扩展语句片段,包括:
响应于确定在指定历史时间段内,所述第一目标片段位于目标历史查询语句中并且第二目标片段位于所述目标历史查询语句所对应的多个历史用户选择网页的标题中的概率大于预设阈值,则确定第一目标片段和第二目标片段是同义片段,并将第二目标片段确定为扩展语句片段,其中,所述历史用户选择网页被选择的记录记录于查询日志中。
6.根据权利要求1所述的查询方法,其特征在于,所述基于查询日志,对所述目标历史查询语句进行扩展,得到扩展语句片段,包括:
基于深度神经网络,确定所述目标历史查询语句中的第一目标片段和所述目标历史查询语句所对应的历史用户选择网页的标题中的第二目标片段的语义相似度,其中,所述历史用户选择网页被选择的记录记录于查询日志中;
响应于确定语义相似度在预设相似度阈值以上,则确定第一目标片段和第二目标片段是同义片段,并将第二目标片段确定为扩展语句片段。
7.根据权利要求4-6之一所述的查询方法,其特征在于,在确定第一目标片段和第二目标片段是同义片段之后,所述基于查询日志,对所述目标历史查询语句进行扩展,得到扩展语句片段,还包括:
向客户端推送包括第一目标片段和第二目标片段的同义片段待确认信息;
响应于接收到所述客户端返回同义片段确认信息,确定所述第一目标片段和第二目标片段是确认同义片段。
8.根据权利要求1所述的查询方法,其特征在于,所述方法还包括:
响应于确定所述目标历史查询语句包括待确定语句片段和预设查询目的片段集合中的查询目的片段,确定查询日志中是否存在所述目标历史查询语句;
响应于确定查询日志中存在所述目标历史查询语句,对语句片段特征库中的待确定语句片段添加用于指示修饰功能的指定标签。
9.根据权利要求1所述的查询方法,其特征在于,所述基于所述预设模型的语句片段特征库生成查询语句对应的查询结果,包括:
响应于所述预设模型包括领域识别模型和意图槽位识别模型,根据多个领域识别模型中的每个领域识别模型的语句片段特征库,从多个领域识别模型中,确定与查询语句相匹配的至少一个领域识别模型及所述至少一个领域识别模型对应的预设领域;
对于每一个预设领域,将查询语句输入该预设领域对应的意图槽位识别模型,基于查询语句与意图槽位模型的语句片段特征库中语句片段特征的匹配,得到查询语句所指示的查询目的和对查询目的的限定关键词;
在信息库中查找与所述查询目的和所述限定关键词匹配的信息,将查找到的信息作为查询结果。
10.一种查询装置,其特征在于,所述装置包括:
获取单元,配置用于从历史查询语句集合中获取目标历史查询语句;
扩展单元,配置用于基于查询日志,对所述目标历史查询语句进行扩展,生成与所述目标历史查询语句相关联的扩展语句片段;
添加单元,配置用于将所述扩展语句片段作为与所述目标历史查询语句相关联的语句片段特征添加到预设模型的语句片段特征库,其中,所述预设模型包括领域识别模型和/或意图槽位识别模型,所述领域识别模型用以表征查询语句和查询语句的语义所属的预设领域的对应关系,所述意图槽位识别模型用以表征查询语句和查询语句所指示的查询目的、对查询目的的限定关键词的对应关系;
生成单元,配置用于响应于接收到查询语句,基于所述预设模型的语句片段特征库生成查询语句对应的查询结果。
11.根据权利要求10所述的查询装置,其特征在于,所述扩展单元,包括:
分词模块,配置用于利用多种预设分词方式,对所述目标历史查询语句进行分词,生成多个语句片段;
确定模块,配置用于从所述多个语句片段中,确定按照用户选择概率由最高到低的顺序的选取预设数量的语句片段作为扩展语句片段,或者选取用户选择概率高于概率阈值的语句片段作为扩展语句片段,其中,用户选择概率是由每组语句片段中的每个语句片段在查询日志所记录的查询结果的历史点击次数确定的。
12.根据权利要求10所述的查询装置,其特征在于,所述扩展单元,包括:
生成模块,配置用于利用多种预设分词方式,对所述目标历史查询语句进行分词,生成多个语句片段;
语句片段生成模块,配置用于对于所述多个语句片段中的语句片段,确定作为查询语句的该语句片段所对应的历史用户选择网页的标题;对所述标题进行分词,生成所述标题的至少两个语句片段;确定所述标题的每个语句片段的权重值,并将权重值高于预设权重阈值的语句片段作为扩展语句片段。
13.根据权利要求10所述的查询装置,其特征在于,所述扩展单元,包括:
确定同义模块,配置用于响应于确定所述目标历史查询语句中的第一目标片段和所述目标历史查询语句所对应的历史用户选择网页的标题中的第二目标片段在句中单侧的语境一致的概率大于第一预设阈值,或者两侧的语境一致的概率大于第二预设阈值,则确定第一目标片段和第二目标片段是同义片段,并将第二目标片段确定为扩展语句片段,其中,所述历史用户选择网页被选择的记录记录于查询日志中。
14.根据权利要求13所述的查询装置,其特征在于,所述扩展单元,还包括:
推送模块,配置用于向客户端推送包括第一目标片段和第二目标片段的同义片段待确认信息;
同义确认模块,配置用于响应于接收到所述客户端返回同义片段确认信息,确定所述第一目标片段和第二目标片段是确认同义片段。
15.一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。
CN201710465229.6A 2017-06-19 2017-06-19 查询方法和装置 Active CN107256267B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710465229.6A CN107256267B (zh) 2017-06-19 2017-06-19 查询方法和装置
US15/933,685 US10795939B2 (en) 2017-06-19 2018-03-23 Query method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710465229.6A CN107256267B (zh) 2017-06-19 2017-06-19 查询方法和装置

Publications (2)

Publication Number Publication Date
CN107256267A true CN107256267A (zh) 2017-10-17
CN107256267B CN107256267B (zh) 2020-07-24

Family

ID=60023248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710465229.6A Active CN107256267B (zh) 2017-06-19 2017-06-19 查询方法和装置

Country Status (2)

Country Link
US (1) US10795939B2 (zh)
CN (1) CN107256267B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832476A (zh) * 2017-12-01 2018-03-23 北京百度网讯科技有限公司 一种搜索序列的理解方法、装置、设备和存储介质
CN109002500A (zh) * 2018-06-29 2018-12-14 北京百度网讯科技有限公司 对话生成方法、装置、设备及计算机可读介质
CN109241519A (zh) * 2018-06-28 2019-01-18 平安科技(深圳)有限公司 质量评价模型获取方法及装置、计算机设备与存储介质
CN109684361A (zh) * 2018-12-14 2019-04-26 武汉达梦数据库有限公司 一种规则分析方法以及相应的用于规则分析的装置
CN109815195A (zh) * 2018-12-28 2019-05-28 北京百度网讯科技有限公司 查询方法、终端和存储介质
CN109947924A (zh) * 2019-03-21 2019-06-28 百度在线网络技术(北京)有限公司 对话系统训练数据构建方法、装置、电子设备及存储介质
CN109948017A (zh) * 2018-04-26 2019-06-28 华为技术有限公司 一种信息处理方法及装置
CN109960760A (zh) * 2019-03-26 2019-07-02 北京字节跳动网络技术有限公司 特征描述信息的获取方法、装置及其相关设备
CN110019725A (zh) * 2017-12-22 2019-07-16 科沃斯商用机器人有限公司 人机交互方法、系统及其电子设备
CN110069698A (zh) * 2017-11-01 2019-07-30 北京京东尚科信息技术有限公司 信息推送方法和装置
CN110147426A (zh) * 2017-12-01 2019-08-20 北京搜狗科技发展有限公司 一种查询文本的分类标签确定方法及相关装置
CN110188250A (zh) * 2019-06-03 2019-08-30 政采云有限公司 一种查询语句的生成方法及装置
CN110209764A (zh) * 2018-09-10 2019-09-06 腾讯科技(北京)有限公司 语料标注集的生成方法及装置、电子设备、存储介质
CN110442696A (zh) * 2019-08-05 2019-11-12 北京百度网讯科技有限公司 查询处理方法及装置
CN110866092A (zh) * 2019-11-25 2020-03-06 三角兽(北京)科技有限公司 信息搜索方法、装置、电子设备和存储介质
CN111309990A (zh) * 2018-12-12 2020-06-19 北京嘀嘀无限科技发展有限公司 一种语句应答方法及装置
CN112035727A (zh) * 2019-06-03 2020-12-04 阿里巴巴集团控股有限公司 信息获取方法、装置、设备、系统及可读存储介质
WO2021012483A1 (zh) * 2019-07-23 2021-01-28 平安科技(深圳)有限公司 信息识别方法、装置、计算机设备和存储介质
CN112328748A (zh) * 2020-11-11 2021-02-05 上海昌投网络科技有限公司 一种用于保险配置意图识别的方法
CN114911821A (zh) * 2022-04-20 2022-08-16 平安国际智慧城市科技股份有限公司 一种结构化查询语句的生成方法、装置、设备及存储介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362798B (zh) * 2019-06-17 2023-12-19 平安科技(深圳)有限公司 裁决信息检索分析方法、装置、计算机设备和存储介质
CN110825949B (zh) * 2019-09-19 2024-09-13 平安科技(深圳)有限公司 基于卷积神经网络的信息检索方法、及其相关设备
CN111339250B (zh) * 2020-02-20 2023-08-18 北京百度网讯科技有限公司 新类别标签的挖掘方法及电子设备、计算机可读介质
CN111737428B (zh) * 2020-06-11 2024-03-19 广联达科技股份有限公司 一种目标材料匹配方法、装置、设备及可读存储介质
CN113742480A (zh) * 2020-06-18 2021-12-03 北京汇钧科技有限公司 客服应答方法和装置
CN112151027B (zh) * 2020-08-21 2024-05-03 深圳追一科技有限公司 基于数字人的特定人询问方法、装置和存储介质
CN112349150B (zh) * 2020-11-19 2022-05-20 飞友科技有限公司 一种机场航班保障时间节点的视频采集方法和系统
CN112925900B (zh) * 2021-02-26 2023-10-03 北京百度网讯科技有限公司 搜索信息处理方法、装置、设备及存储介质
CN113204613B (zh) * 2021-04-26 2022-05-03 北京百度网讯科技有限公司 地址生成方法、装置、设备和存储介质
CN113407579B (zh) * 2021-07-15 2024-01-19 北京百度网讯科技有限公司 群组查询方法、装置、电子设备及可读存储介质
CN115840845A (zh) * 2021-09-18 2023-03-24 华为技术有限公司 一种网页检索方法及相关设备
CN116244410B (zh) * 2023-02-16 2023-10-20 北京三维天地科技股份有限公司 一种基于知识图谱和自然语言的指标数据分析方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096717A (zh) * 2011-02-15 2011-06-15 百度在线网络技术(北京)有限公司 搜索方法及搜索引擎
CN102779193A (zh) * 2012-07-16 2012-11-14 哈尔滨工业大学 自适应个性化信息检索系统及方法
CN103106220A (zh) * 2011-11-15 2013-05-15 阿里巴巴集团控股有限公司 一种搜索方法、搜索装置及一种搜索引擎系统
CN103186574A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN103207881A (zh) * 2012-01-17 2013-07-17 阿里巴巴集团控股有限公司 查询方法和装置
CN105095187A (zh) * 2015-08-07 2015-11-25 广州神马移动信息科技有限公司 一种搜索意图识别方法及装置
CN106599278A (zh) * 2016-12-23 2017-04-26 北京奇虎科技有限公司 应用搜索意图的识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176974B (zh) * 2011-12-20 2016-01-13 国际商业机器公司 优化数据库中访问路径的方法和装置
CN103365885B (zh) * 2012-03-30 2016-12-14 国际商业机器公司 用于数据库查询优化的方法和系统
JP6603606B2 (ja) * 2016-03-29 2019-11-06 ルネサスエレクトロニクス株式会社 半導体装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096717A (zh) * 2011-02-15 2011-06-15 百度在线网络技术(北京)有限公司 搜索方法及搜索引擎
CN103106220A (zh) * 2011-11-15 2013-05-15 阿里巴巴集团控股有限公司 一种搜索方法、搜索装置及一种搜索引擎系统
CN103186574A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN103207881A (zh) * 2012-01-17 2013-07-17 阿里巴巴集团控股有限公司 查询方法和装置
CN102779193A (zh) * 2012-07-16 2012-11-14 哈尔滨工业大学 自适应个性化信息检索系统及方法
CN105095187A (zh) * 2015-08-07 2015-11-25 广州神马移动信息科技有限公司 一种搜索意图识别方法及装置
CN106599278A (zh) * 2016-12-23 2017-04-26 北京奇虎科技有限公司 应用搜索意图的识别方法及装置

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069698A (zh) * 2017-11-01 2019-07-30 北京京东尚科信息技术有限公司 信息推送方法和装置
CN110069698B (zh) * 2017-11-01 2021-09-03 北京京东尚科信息技术有限公司 信息推送方法和装置
CN107832476B (zh) * 2017-12-01 2020-06-05 北京百度网讯科技有限公司 一种搜索序列的理解方法、装置、设备和存储介质
CN107832476A (zh) * 2017-12-01 2018-03-23 北京百度网讯科技有限公司 一种搜索序列的理解方法、装置、设备和存储介质
CN110147426B (zh) * 2017-12-01 2021-08-13 北京搜狗科技发展有限公司 一种查询文本的分类标签确定方法及相关装置
CN110147426A (zh) * 2017-12-01 2019-08-20 北京搜狗科技发展有限公司 一种查询文本的分类标签确定方法及相关装置
CN110019725A (zh) * 2017-12-22 2019-07-16 科沃斯商用机器人有限公司 人机交互方法、系统及其电子设备
CN109948017B (zh) * 2018-04-26 2021-03-30 华为技术有限公司 一种信息处理方法及装置
CN109948017A (zh) * 2018-04-26 2019-06-28 华为技术有限公司 一种信息处理方法及装置
CN113536093A (zh) * 2018-04-26 2021-10-22 华为技术有限公司 一种信息处理方法及装置
CN109241519A (zh) * 2018-06-28 2019-01-18 平安科技(深圳)有限公司 质量评价模型获取方法及装置、计算机设备与存储介质
CN109002500B (zh) * 2018-06-29 2024-08-27 北京百度网讯科技有限公司 对话生成方法、装置、设备及计算机可读介质
CN109002500A (zh) * 2018-06-29 2018-12-14 北京百度网讯科技有限公司 对话生成方法、装置、设备及计算机可读介质
CN110209764A (zh) * 2018-09-10 2019-09-06 腾讯科技(北京)有限公司 语料标注集的生成方法及装置、电子设备、存储介质
CN111309990B (zh) * 2018-12-12 2024-01-23 北京嘀嘀无限科技发展有限公司 一种语句应答方法及装置
CN111309990A (zh) * 2018-12-12 2020-06-19 北京嘀嘀无限科技发展有限公司 一种语句应答方法及装置
CN109684361A (zh) * 2018-12-14 2019-04-26 武汉达梦数据库有限公司 一种规则分析方法以及相应的用于规则分析的装置
CN109684361B (zh) * 2018-12-14 2020-10-16 武汉达梦数据库有限公司 一种规则分析方法以及相应的用于规则分析的装置
CN109815195A (zh) * 2018-12-28 2019-05-28 北京百度网讯科技有限公司 查询方法、终端和存储介质
CN109815195B (zh) * 2018-12-28 2021-04-20 北京百度网讯科技有限公司 查询方法、终端和存储介质
CN109947924A (zh) * 2019-03-21 2019-06-28 百度在线网络技术(北京)有限公司 对话系统训练数据构建方法、装置、电子设备及存储介质
CN109960760A (zh) * 2019-03-26 2019-07-02 北京字节跳动网络技术有限公司 特征描述信息的获取方法、装置及其相关设备
CN112035727A (zh) * 2019-06-03 2020-12-04 阿里巴巴集团控股有限公司 信息获取方法、装置、设备、系统及可读存储介质
CN110188250A (zh) * 2019-06-03 2019-08-30 政采云有限公司 一种查询语句的生成方法及装置
WO2021012483A1 (zh) * 2019-07-23 2021-01-28 平安科技(深圳)有限公司 信息识别方法、装置、计算机设备和存储介质
CN110442696B (zh) * 2019-08-05 2022-07-08 北京百度网讯科技有限公司 查询处理方法及装置
CN110442696A (zh) * 2019-08-05 2019-11-12 北京百度网讯科技有限公司 查询处理方法及装置
CN110866092A (zh) * 2019-11-25 2020-03-06 三角兽(北京)科技有限公司 信息搜索方法、装置、电子设备和存储介质
CN112328748A (zh) * 2020-11-11 2021-02-05 上海昌投网络科技有限公司 一种用于保险配置意图识别的方法
CN114911821A (zh) * 2022-04-20 2022-08-16 平安国际智慧城市科技股份有限公司 一种结构化查询语句的生成方法、装置、设备及存储介质
CN114911821B (zh) * 2022-04-20 2024-05-24 平安国际智慧城市科技股份有限公司 一种结构化查询语句的生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US10795939B2 (en) 2020-10-06
CN107256267B (zh) 2020-07-24
US20180365257A1 (en) 2018-12-20

Similar Documents

Publication Publication Date Title
CN107256267A (zh) 查询方法和装置
CN109408622B (zh) 语句处理方法及其装置、设备和存储介质
US9449271B2 (en) Classifying resources using a deep network
US8190556B2 (en) Intellegent data search engine
CN103339623B (zh) 涉及因特网搜索的方法和设备
US8560513B2 (en) Searching for information based on generic attributes of the query
CN110597962B (zh) 搜索结果展示方法、装置、介质及电子设备
CN107220386A (zh) 信息推送方法和装置
CN108153901A (zh) 基于知识图谱的信息推送方法和装置
CN107832414A (zh) 用于推送信息的方法和装置
CN107491534A (zh) 信息处理方法和装置
CN110825956A (zh) 一种信息流推荐方法、装置、计算机设备及存储介质
US11580299B2 (en) Corpus cleaning method and corpus entry system
CN107577763A (zh) 检索方法和装置
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN107943895A (zh) 信息推送方法和装置
CN107526718A (zh) 用于生成文本的方法和装置
CN110069698A (zh) 信息推送方法和装置
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
CN110147494A (zh) 信息搜索方法、装置,存储介质及电子设备
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN109190123A (zh) 用于输出信息的方法和装置
CN112100491A (zh) 基于用户数据的信息推荐方法、装置、设备及存储介质
JP2023554210A (ja) インテリジェント推奨用のソートモデルトレーニング方法及び装置、インテリジェント推奨方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant