Nothing Special   »   [go: up one dir, main page]

CN113407813A - 确定候选信息的方法、确定查询结果的方法、装置、设备 - Google Patents

确定候选信息的方法、确定查询结果的方法、装置、设备 Download PDF

Info

Publication number
CN113407813A
CN113407813A CN202110722521.8A CN202110722521A CN113407813A CN 113407813 A CN113407813 A CN 113407813A CN 202110722521 A CN202110722521 A CN 202110722521A CN 113407813 A CN113407813 A CN 113407813A
Authority
CN
China
Prior art keywords
determining
word
weight
target
dialog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110722521.8A
Other languages
English (en)
Other versions
CN113407813B (zh
Inventor
刘子航
王锴睿
白亚楠
李鹏飞
欧阳宇
王丛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110722521.8A priority Critical patent/CN113407813B/zh
Publication of CN113407813A publication Critical patent/CN113407813A/zh
Application granted granted Critical
Publication of CN113407813B publication Critical patent/CN113407813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种确定候选信息的方法、确定查询结果的方法、装置、设备和存储介质,应用于人工智能领域,具体应用于自然语言处理技术领域和深度学习技术领域,可应用于智慧医疗场景和搜索场景。确定候选信息的方法的具体实现方案为:针对多个历史对话段中的每个历史对话段,提取每个历史对话段的特征信息;基于特征信息,采用预定评估模型确定每个历史对话段的质量评估值;以及确定多个历史对话段中质量评估值大于预定评估值阈值的历史对话段,获得候选信息。

Description

确定候选信息的方法、确定查询结果的方法、装置、设备
技术领域
本公开涉及人工智能技术领域,具体涉及自然语言处理技术领域和深度学习技术领域,可应用于智慧医疗场景和搜索场景。具体地涉及一种确定候选信息的方法、确定查询结果的方法、装置、设备和存储介质。
背景技术
在搜索场景下,查询检索的内容趋向于通用化。通常,由于用户提供的查询语句不全面导致无法提供针对性的查询结果。对于通过查询线上咨询的对话段来获取知识的场景,通常还由于对话段的质量参差不齐导致无法提供有参考价值的查询结果。
发明内容
提供了一种提高候选信息质量,便于提高查询结果准确性的确定候选信息的方法、确定查询结果的方法、装置、设备和存储介质。
根据本公开的一个方面,提供了一种确定候选信息的方法,包括:针对多个历史对话段中的每个历史对话段,提取每个历史对话段的特征信息;基于特征信息,采用预定评估模型确定每个历史对话段的质量评估值;以及确定多个历史对话段中质量评估值大于预定评估值阈值的历史对话段,获得候选信息。
根据本公开的另一个方面,提供了一种确定查询结果的方法,包括:基于查询语句,获得针对查询语句的查询表达式;基于查询表达式,从候选信息中获得多个对话段;以及确定多个对话段中的目标对话段,作为针对查询语句的查询结果,其中,候选信息是采用前述的确定候选信息的方法确定的。
根据本公开的另一方面,提供了一种确定候选信息的装置,包括:特征信息提取模块,用于针对多个历史对话段中的每个历史对话段,提取每个历史对话段的特征信息;第一评估值确定模块,用于基于特征信息,采用预定评估模型确定每个历史对话段的质量评估值;候选信息获得模块,用于确定多个历史对话段中质量评估值大于预定评估值阈值的历史对话段,获得候选信息。
根据本公开的另一方面,提供了一种确定查询结果的装置,包括:表达式获得模块,用于基于查询结果,获得针对查询语句的查询表达式;对话段获得模块,用于基于查询表达式,从候选信息中获得多个对话段。查询结果确定模块,用于确定多个对话段中的目标对话段,作为针对查询语句的查询结果,其中,候选信息是采用前述的确定候选信息的装置确定的。
根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的确定候选信息的方法和/或确定查询结果的方法。
根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的确定候选信息的方法和/或确定查询结果的方法。
根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的确定候选信息的方法和/或确定查询结果的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的确定候选信息的方法、确定查询结果的方法和装置的应用场景示意图;
图2是根据本公开实施例的确定候选信息的方法的流程示意图;
图3是根据本公开实施例的确定查询结果的方法的流程示意图;
图4是根据本公开实施例的确定针对候选信息的第一关键词的原理示意图;
图5是根据本公开实施例的确定第一关键词的权重的原理示意图;
图6是根据本公开实施例的确定针对查询语句的第二关键词的原理示意图;
图7是根据本公开实施例的确定多个对话段中的目标对话段的原理示意图;
图8是根据本公开实施例的对多个目标对话段进行排序的原理示意图;
图9是根据本公开实施例的确定候选信息的装置的结构框图;
图10是根据本公开实施例的确定查询结果的装置的结构框图;以及
图11是用来实施本公开实施例的确定候选信息的方法和/或确定查询结果的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供了一种确定候选信息的方法,包括特征信息提取阶段、评估值确定阶段和候选信息获得阶段。在特征信息提取阶段中,针对多个历史对话段中的每个历史对话段,提取每个历史对话段的特征信息。在评估值确定阶段中,基于特征信息,采用预定评估模型确定每个历史对话段的质量评估值。在候选信息获得阶段中,确定多个历史对话段中质量评估值大于预定评估值阈值的历史对话段,获得候选信息。
以下将结合图1对本公开提供的方法和装置的应用场景进行描述。
图1是根据本公开实施例的确定候选信息的方法、确定查询结果的方法和装置的应用场景示意图。
如图1所示,该实施例的应用场景100可以包括用户110、终端设备120和服务器130。终端设备120可以通过网络与服务器130通信连接,网络可以包括有线或无线通信链路。
终端设备120可以为具有显示功能、且能够提供人机交互界面的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。用户110例如可以通过与终端设备120的交互,通过终端设备120查询信息。其中,查询的信息例如可以医疗领域的信息、教育领域的信息等各领域的信息,例如该查询的信息可以为根据症状查询得到的疾病信息、根据物品名称查询得到的物品的属性等。
示例性地,在用户110通过终端设备120输入查询语句140时,该终端设备120例如可以将该查询语句140发送给服务器130。由服务器根据查询语句查询知识库,获得查询结果150,并将该查询结果反馈给终端设备120。终端设备120则可以将该查询结果150展示给用户110。本公开对此不做限定。
该服务器130例如可以是提供各种服务的服务器,例如对用户利用终端设备所访问的网站或客户端应用提供支持的后台管理服务器。该服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
在一实施例中,如图1所示,该应用场景100还可以包括数据库160,该数据库中维护有全量的知识库,该知识库例如可以包括有线上咨询的对话段。服务器130可以通过网络访问该数据库160,以根据查询语句140从该数据库160中查询得到查询结果150。
在一实施例中,服务器130例如还可以对数据库中维护的全量知识库中的对话段进行筛选,以筛选得到质量较高的对话段,并将筛选出来的对话段存储至除数据库160外的其他存储空间,生成候选信息库170。如此,可以根据查询语句140查询该候选信息库170,以获得查询结果150。并因此提高查询得到的查询结果150的参考价值。
其中,数据库160例如可以为独立于服务器130的数据库,也可以为服务器130中集成的数据存储模块,本公开对此不做限定。
需要说明的是,本公开所提供的确定候选信息的方法和/或确定查询结果的方法可以由服务器130执行,或者,由与服务器130通信连接的其他服务器执行。相应地,本公开所提供的确定候选信息的方法和/或确定查询结果的装置可以设置于服务器130中,或者可以设置于与服务器130通信连接的其他服务器中。确定候选信息的方法和确定查询结果的方法可以由同一服务器执行,也可以由不同服务器执行,本公开对此不做限定。
应该理解,图1中的终端设备、服务器和数据库的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目和类型的终端设备、服务器和数据库。
以下将以对视频进行标注为例,结合图2~图8对本公开提供的确定标注信息的方法、确定查询结果的方法和查询信息的整体原理进行详细描述。
图2是根据本公开实施例的确定候选信息的方法的流程示意图。
如图2所示,该实施例的确定候选信息的方法200可以包括操作S210~操作S230。
在操作S210,针对多个历史对话段中的每个历史对话段,提取每个历史对话段的特征信息。
根据本公开的实施例,历史对话段可以是用户在线咨询产生的对话段。其中,在线咨询的信息可以是物品的属性、症状对应的疾病名称、物品的使用方法等。在一实施例中,历史对话段可以为在线问诊产生的对话段。可以理解的是,上述历史对话段仅作为示例以利于理解本公开,本公开对此不做限定。
根据本公开的实施例,可以确定每个历史对话段中每个语句的通顺度,并将该通顺度作为特征信息。可以识别历史对话段中的实体词及实体词之间的关联关系,并将该实体词和实体词之间的关联关系作为特征信息。
示例性地,在线咨询场景下,历史对话段中包括由两个对象输入的语句。该实施例在提取特征信息时,可以以每个历史对话段中针对第一对象的第一语句作为第一意图识别模型的输入,获得第一语句的第一意图类型。同时以每个历史对话段中针对第二对象的第二语句作为第一意图识别模型的输入,获得第二语句的第二意图类型。其中,第一意图识别模型和第二意图识别模型可以基于多分类模型构成,以根据输出得到意图类型。在得到第一语句和第二语句的意图类型后,可以对多个第一语句的意图类型进行统计,并根据多个第二语句的意图类型进行统计,根据统计结果可以确定历史对话段的丰富性。统计得到的意图类型的种类多,则丰富性高。
例如,在在线问诊场景下,第一对象可以为用户,第二对象可以为医生。第一意图类型可以包括有原因、诊断、药物治疗、饮食推荐、致谢等多个类型。基于该第一意图类型,可以便于澄清用户的病情情况等。第二意图类型可以包括有检查建议、用药建议、日常建议、病情诊断、病情收集、问候、无实意等多个类型。基于该第二意图类型,可以统计意图类型的种类个数、意图类型的先后顺序等。根据对第一意图类型和第二意图类型统计得到的结果,可以确定医生提供信息的信息量、专业度、可信度和医患问答满足度等。例如,若第一意图类型包括饮食推荐,第二意图类型包括日常建议,则可以确定医生的答复满足了用户的一项需求,最后根据医生满足需求的个数与用户的需求个数之间的比值确定医患问答满足度。该实施例可以将该些用户的病情情况、信息量、专业度、可信度和医患问答满足度等作为特征信息。
例如,还可以依据预先设定的咨询流程及该流程中应包括的意图环节。在得到第一意图类型和第二意图类型后,还可以确定意图类型中是否包括预先设定的各意图环节的意图类型,从而确定对话是否完整,得到对话完整度。还可以对第一语句进行彼此之间的比对,对第二语句进行彼此之间的比对,从而确定是否存在重复对话等。将对话完整度和/或重复对话的个数也作为特征信息。
根据本公开的实施例,还可以将第一语句和第二语句输入预定分类模型中,经由该预定分类模型获得第一语句与第二语句之间的满足类别。例如,可以将为问句的第一语句和与该第一语句相邻且在该第一语句之后的为陈述句的第二语句拼接后作为预定分类模型的输入。由预定分类模型确定陈述句是否能够作为问句的答复语句,若可以,则确定该满足类别为满足,否则该满足类别为不满足。该实施例可以通过对对话段中所有语句进行分析后,确定满足类别的比例,从而确定医患问答满足度。或者可以根据满足类别的个数,来确定医生回答信息量。将该医患问答满足度和医生回答信息量作为特征信息。
例如,第一意图识别模型、第二意图识别模型和预定分类模型可以为基于优化的分布式梯度增强库(eXtreme Grandient Boosting,XGBoost)构建。该第一意图识别模型、第二意图识别模型和预定分类模型中的至少之一例如可以设置有语义理解模型和逻辑回归模型,以实现对语义的理解和对语句的分类。其中,语义理解模型例如可以包括循环神经网络模型、可以理解的是,本公开对该第一意图识别模型、第二意图识别模型和预定分类模型的类型不做限定。
在操作S220,基于特征信息,采用预定评估模型确定每个历史对话段的质量评估值。
在操作S230,确定多个历史对话段中质量评估值大于预定评估值阈值的历史对话段,获得候选信息。
根据本公开的实施例,可以将每个历史对话段的特征信息输入预定评估模型,由该预定评估模型输出得到该每个历史对话段的质量评估值。其中,预定评估模型可以为后向传播(Back Propagation,BP)神经网络模型等。该预定评估模型例如可以是基于前述的XGBoost构建的。
在一实施例中,前述第一意图识别模型、第二意图识别模型、预定分类模型和预定评估模型例如可以集成于整个评估模块中,通过将历史对话段作为该整个评估模块的输入,由该整个评估模型输出质量评估值。
根据本公开的实施例,设定最大的质量评估值为1,预定评估值阈值例如可以为不小于0.5的任意值。或者,根据实际需求,该预定评估值阈值可以为任意值,本公开对此不做限定。
通过上述实施例的方法,本公开可以从历史对话段中筛选出质量评估较高的对话段作为候选信息,可以提高候选信息的质量。如此在查询信息时,便于向用户提供优质、参考价值高、与查询语句匹配度更高的查询结果。
基于以上图2描述的确定候选信息的方法,本公开还提供了一种确定查询结果的方法,以从候选信息中获得满足需求的查询结果。以下将结合图3对该确定查询结果的方法进行详细描述。
图3是根据本公开实施例的确定查询结果的方法的流程示意图。
如图3所示,该实施例的确定查询结果的方法300可以包括操作S310~操作S330。
在操作S310,基于查询语句,获得针对查询语句的查询表达式。
根据本公开的实施例,可以对查询语句进行分词处理得到多个词。通过从该多个词中剔除停用词,并将剩余的词代入查询表达式模板中可以得到查询表达式。例如可以将剩余的词以“和”或“或”的形式拼接,得到查询表达式。其中,停用词例如可以包括介词、语气词、助词等。该实施例可以维护有停用词表,通过将多个词中属于该停用词表的词剔除,实现对停用词的剔除。
可以理解的是,可以采用相关技术中的方法来根据查询语句得到查询表达式,本公开对此不做限定。
在操作S320,基于查询表达式,从候选信息中获得多个对话段。
根据本公开的实施例,在得到查询表达式后,可以以该查询表达式作为查询条件,从前述确定的候选信息中查询对话段,得到满足该查询条件的对话段。该基于查询表达式查询信息的方法与相关技术类似,在此不再详述。该操作S320与相关技术的区别在于,候选信息是通过前述的确定候选信息的方法从多个历史对话段中筛选得到的。
在操作S330,确定多个对话段中的目标对话段,作为针对查询语句的查询结果。
根据本公开的实施例,在从候选信息中获得多个对话段后,可以将该多个对话段作为查询结果,并依次排列后反馈给终端设备,供终端设备进行展示。
根据本公开的实施例,在得到多个对话段后,例如还可以确定每个对话段与查询信息的相关性,以从该多个对话段中选择与查询信息相关或相关度高的对话段,以此作为目标对话段。其中,可以根据对话段与查询信息之间的相关度是否高于相关度阈值来确定对话段是否为目标对话段。其中,可以采用余弦相似度、BM25算法等来确定相关度,本公开对此不做限定。
示例性地,可以将对话段和查询语句输入语义理解模型提取语义特征,随后将语义特征输入逻辑回归模型分类模型中,由该分类模型输出是否相关的分类结果。该逻辑回归模型例如可以为二分类模型,分类结果可以包括相关和不相关。
通过上述实施例的方法,本公开可以在查询信息时,从质量评估较高的候选信息中筛选查询结果,相较于相关技术中从所有历史对话段中查询信息的技术方案,可以提高筛选得到的查询结果与查询语句的匹配度、提高查询结果的参考价值高等。
图4是根据本公开实施例的确定针对候选信息的第一关键词的原理示意图。
根据本公开的实施例,为了便于从候选信息中挑选与查询语句匹配的目标对话段,可以在确定候选信息时,为候选信息添加关键词,基于该关键词确定是否与查询语句匹配。例如,可以采用TF-IDF模型等来提取作为候选信息的每个历史对话段的关键词。
根据本公开的实施例,可以采用主题词确定模型来确定候选信息的主题词,并将该主题词作为针对候选信息的第一关键词。或者,可以采用第一实体识别模型,确定候选信息中的实体词,并将该实体词作为第一关键词。或者,本公开可以预先维护有同义词库,该实施例在得到主题词或实体词后,还可以从该同义词库中获取主题词或实体词的同义词,并将该同义词作为第一关键词。其中,主题词确定模型例如可以为隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型等,第一实体识别模型可以为双向长短期记忆网络模型与条件随机场模型构建得到的模型、或者可以为膨胀卷积网络(Dilated CNN,DICNN)模型与条件随机场模型构建得到的模型,或者可以为其他任意的模型。可以理解的是,可以采用前述多种方法的任意组合来得到第一关键词。
根据本公开的实施例,在通过前述方法得到第一实体词、主题词和/或同义词后,还可以将该些词作为初始词。随后将该初始词划分为预定粒度的词,将切分得到的词作为第一关键词。通过采用细粒度的词作为第一关键词,可以在基于该第一关键词确定与查询语句是否匹配时,提高确定的匹配结果的准确性,并因此进一步提高确定的查询结果的准确性,提高用户体验。
根据本公开的实施例,如图4所示,该实施例400可以采用主题词确定模型420来得到候选信息410中目标语句411的主题词441,采用第一实体识别模型430确定候选信息410中除目标语句411外其他语句412中的第一实体词442。这是由于在对话段中的起始位置通常包括有主诉内容,即用户用来咨询信息时描述的个人需求信息,该主诉内容例如可以为用户描述的个人病情信息,或者可以为用户描述的物品的简单特征等。该主诉内容通常较短,应使用适于对短文本进行处理的主体词确定模型来处理。而除该主诉内容外的其他内容通常包括多轮对话,文本内容较长,可以使用实体识别模型来识别实体词。通过该方式,可以提高确定的关键词的准确性。
示例性地,在得到主题词441和第一实体词442后,可以仅基于第一实体词442查询同义词,即确定同义词库450中该第一实体词442的同义词443。将该同义词443、主题词441和第一实体词442作为初始词。这是由于主诉内容通常更能反映用户的需求,若基于主题词查询同义词,可能会使得用户需求变得模糊不清。在得到初始词后,即可对该初始词中的每个词进行细粒度的划分,得到多个第一关键词460。
图5是根据本公开实施例的确定第一关键词的权重的原理示意图。
根据本公开的实施例,在确定了第一关键词后,例如还可以为第一关键词分配权重,以便于在基于第一关键词确定对话段是否与查询语句匹配时,提高匹配结果的准确性。这是由于在关键词为不同属性的词时,对相关结果的影响程度不同。
如图5所示,该实施例500在确定第一关键词的权重时,可以先确定划分得到第一关键词520的初始词510的属性类型530。随后将该初始词510作为目标初始词,基于属性类型530确定针对该目标初始词的权重(即初始词权重540)。随后,根据该第一关键词520的字符个数521与目标初始词的字符个数511之间的比值550及初始词权重540,来确定第一关键词520的权重。
示例性地,可以根据实际需求预先设定有多个属性类型。该实施例可以在采用前述方法得到初始词的同时,经由模型输出得到该初始词的属性类型。可以建立有属性类型与权重之间的映射关系。在得到第一关键词的属性类型后,可以根据该映射关系确定针对第一关键词的权重。
例如,可以采用由双向循环神经网络模型和条件随机场模型构建的主题词确定模型。该模型的输入为目标语句,输出为主题词及各主题词的属性类型。在医疗领域的在线问诊场景中,该主题词的属性类型例如可以包括:症状、并发症、意图、背景、病情程度等。例如可以将主题词根据属性类型归类为多个档,针对不同档主题词的权重不同。例如,可以将属性类型为症状、疾病和意图等的主题词归类为第三档,将属性类型为并列疾病和并列症状等的主题词归类为第二档,将属性类型为背景等的主题词归类为第一档,该三个档的权重依次降低。以目标语句“怀孕六个月小腿抽筋怎么回事”、“连续四天失眠睡不着怎么办”和“麦金利木瓜葛根片的危害”为例,确定的主题词及主题词所归档次如下表所示。
目标语句 第三档 第二档 第一档
怀孕六个月小腿抽筋怎么回事 怀孕,小腿抽筋 六个月
连续四天失眠睡不着怎么办 失眠,睡不着 连续四天
麦金利木瓜葛根片的危害 麦金利木瓜葛根片,危害
例如,可以采用命名实体识别模型作为第一实体识别模型。该模型的输入为其他语句,输出为该其他语句包括的实体词及实体词的属性类型。在医疗领域的在线问诊场景中,该实体词的属性类型例如可以包括疾病名称、症状类型、药品、检查名称、治疗名称等。由于第一实体词的同义词的属性类型与第一实体词通常相同,可以将该第一实体词的权重赋予其同义词。
根据本公开的实施例,对于目标初始词为第一实体词和同义词的情况,可以将基于属性类型确定的权重作为第一子权重。随后根据该目标初始词所属的语句与其他语句之间的满足类别来对第一子权重进行调整。具体地,可以根据满足类别确定针对目标初始词的第二子权重。根据该第一子权重和第二子权重,确定针对目标初始词的初始权重。其中,可以在该目标初始词所属的语句与其他语句之间的满足类别为满足时,第二子权重较大,否则第二子权重较小。其中,满足包括满足其他语句和被其他语句满足。这是由于满足类别为满足的语句中的词能够向用户提供更高的参考价值,通过为该词赋予较高的权重,可以使得最终确定的查询结果为更为精准、能够向用户提供帮助的信息。
例如,在根据满足类别确定第二子权重时,可以先判定初始词所属语句的语句类型,例如为陈述句还是疑问句。若为陈述句,则赋予最低的第二子权重。若为疑问句,但未得到满足,则赋予次低的第二子权重。若为疑问句,且得到了满足,则赋予最高的第二子权重。这是由于查询语句通常为疑问句,为疑问句且被满足的语句中的词分配较高的权重,可以提高查询结果能够满足用户需求的可能。
例如,在得到第一子权重和第二子权重后,可以将该两个子权重的乘积作为初始权重。或者可以将该两个子权重的和作为初始权重。只要初始权重与第一子权重正相关,且与第二子权重正相关即可,本公开对此不做限定。
根据本公开的实施例,在得到针对第一关键词的权重后,可以将前述字数个数之间的比值与该权重的乘积作为第一关键词的权重。或者,可以将该乘积与预定值的和作为第一关键词的权重。本公开对此不作限定,只要该第一关键词的权重与字数个数之间的比值正相关即可。
根据本公开的实施例,可以将前述字数个数之间的比值与权重的乘积作为初始权重。随后基于目标初始词的来源570,对初始权重560进行调整,得到第一关键词的权重(即关键词权重580)。其中,目标初始词的来源是指目标初始词为前述的主题词、第一实体词或同义词。
例如可以对主题词划分得到的第一关键词的权重进行升权操作,或对第一实体词或同义词的权重进行降权操作。这是由于主诉内容与查询语句的结构更为相似,通过对主题词得到的关键词进行升权操作,或对从正文部分得到的实体词及其衍生得到的同义词中的关键词进行降权操作,可以使得主诉内容中的关键词在与查询语句匹配时发挥更大的作用,从而进一步提高确定的查询结果的准确型。
例如可以对主题词划分得到的第一关键词的权重进行归一化处理,从而避免同一个关键词由于所属的主诉内容长短不一,导致的权重不可比的情况。通过该归一化处理,可以使得目标语句的主题词包括的所有第一关键词的权重之和为预定值,不同目标语句中各目标语句包括的主题词中所有第一关键词的权重之和相等。
例如,可以在对初始权重560进行调整之前,先对第一关键词进行去重操作。在从同一候选信息中得到的两个相同的第一关键词的权重不同时,可以选择较高权重的词,将较低权重的词去除。在去重时,例如还可以针对不同来源的第一关键词分别进行去重,例如对主题词划分得到的第一关键词进行去重,并对第一实体词及其同义词划分得到的第一关键词进行去重,而非将所有第一关键词混合后去重,以便于后续根据不同来源对第一关键词的权重进行调整。
根据本公开的实施例,还可以将表达候选信息中目标语句的第三意图类型的词作为第一关键词。其中,第三意图类型可以采用第三意图识别模型来确定。具体可以将候选信息中的目标语句作为该第三意图识别模型的输入,输出得到第三意图识别类型。其中,该第三意图识别模型与前文描述的第一意图识别模型、第二意图识别模型类似,在此不再详述。
本公开实施例通过确定针对候选信息的关键词,并确定关键词的权重,可以在后续从候选信息中获得对话段后,基于该关键词和权重从对话段中筛选出与查询语句相关的查询结果。
图6是根据本公开实施例的确定针对查询语句的第二关键词的原理示意图。
根据本公开的实施例,在从基于查询表达式获得的多个对话段中筛选目标对话段时,例如可以先确定针对查询语句的多个第二关键词及该多个第二关键词中每个第二关键词的权重。随后针对多个对话段中的每个对话段,确定每个对话段的第三关键词及第三关键词的权重。该第三关键词即为通过前述方法得到的第一关键词,第三关键词的权重即为通过前述方法确定的第一关键词的权重。最后基于多个第二关键词和第三关键词,确定多个对话段中与查询语句相关的对话段为目标对话段。
示例性地,可以确定多个第二关键词中属于第三关键词的词,随后确定该词在第二关键词中的权重和在第三关键词中的权重之间的乘积,作为权重乘积。最后将基于所有属于第三关键词的词得到的权重乘积相加,作为查询语句与对话段之间的相关度。最后,从多个对话段中选择与查询语句的相关度较高的预定数量个对话段,作为目标对话段。或者,从多个对话段中选择与查询语句的相关度高于相关度阈值的对话段,作为目标对话段。
如图6所示,该实施例600在确定第二关键词及其权重时,可以对查询语句610进行分词处理,获得多个第一词及所述多个第一词611各自的权重。其中,例如可以采用基于词典和统计的方法来对查询语句进行分词,并确定分词得到的各词的权重。该基于字典和统计的方法可以包括基于树形结构分词的方法,或者基于预定字典进行分词,随后采用tf-idf算法来确定各词的权重。可以理解的是,本公开对该分词处理采用的方法不做限定,可以根据实际需求采用任意的分词方法。将该分词得到的第一词作为第一关键词。
根据本公开的实施例,如图6所示,在得到第一词611后,例如还可以从同义词库620中查询该第一词611的同义词,将该同义词作为第二词621,并将第一词611和第二词621作为第二关键词。同时,可以根据第一词611的权重来确定第二词621的权重。例如可以将第一词611的权重作为其同义词的权重。通过该方式,可以对查询语句进行扩充,例如,第一词包括“头疼”,通过查询得到其同义词“头痛”。通过该扩充,可以提高最终确定的查询结果的准确性和数量。
根据本公开的实施例,在确定第二关键词时,如图6所示,还可以采用第四意图识别模型630确定查询语句610的第四意图类型,将表达第四意图类型的第三词作为第二关键词690的一部分,并向该第三词赋予第一预定权重。该第一预定权重例如可以为较高的值,例如可以大于前述各第一词的权重。这是由于意图能够更准确地反应用户需求。则在确定对话段与查询语句之间的相关性时,还可以将该第三词与对话段中表示主诉内容意图类型的第一关键词进行比较,根据该比较结果来确定相关性。其中,第四意图识别模型630与前文描述的第一意图识别模型、第二意图识别模型类似,在此不再赘述。
根据本公开的实施例,本公开例如还可以维护有意图词库650,该意图词库650例如可以为知识图谱的形式,或者可以维护有各意图词之间的关联关系。在得到第三词640后,该实施例还可以基于该第三词640查询意图词库650,从意图词库中查询得到与第三词相关联的第四词660,并基于第三词640的权重,获得第四词660的权重。例如可以将第三词640的权重赋值给与其相关联的第四词660的权重。将该第四词660作为第二关键词690的一部分。以此可以进一步保证该第二关键词可以充分表达用户的意图。
根据本公开的实施例,在确定第二关键词时,可以从查询语句中包括的实体词中筛选出第二关键词,这是由于实体词一般能够更为准确地表征查询语句。因此可以便于提高确定的相关性的效率和准确性。
例如,如图6所示,可以采用第二实体识别模型670确定查询语句610中包括的第二实体词680。随后确定多个第一词611和第二词621中属于第二实体词680的词,将该词作为第二关键词690的一部分。具体即为将第二实体词与第一词的交集,以及第二实体词与第二词的交集作为第二关键词的一部分。
根据本公开的实施例,还可以将第一词和第二词中属于第二实体词680的词作为目标词,根据权重对该目标词进行筛选,筛选到权重较高的目标词作为第二关键词690的一部分。如此,可以使得筛选到的词更能代表查询语句,进一步提高确定相关性的效率和准确性。具体地,可以确定目标词中权重大于权重阈值的词为第二关键词。该权重阈值可以根据实际需求进行设定,本公开对此不做限定。
示例性地,该权重阈值例如可以根据查询语句动态调整,以针对不同长度的查询语句,筛选出更为恰当数量的第二关键词。例如,该权重阈值可以与查询语句分词得到的多个第一词611的数量相关联。
示例性地,该权重阈值可以表示为:权重阈值=常量N/第一词个数*0.1。其中,常量N的取值可以根据实际需求进行设定,例如可以为3,本公开对此不做限定。
根据本公开的实施例,在用户输入查询语句时,还可以向用户展示多个推荐标签,以便于用户输入更为准确、合规的查询语句。该推荐标签可以根据用户已经输入的字符实时确定。例如,若用户输入的字符包括“头疼”,则向用户推荐的标签可以包括“原因”、“犯困”、“治疗”等。则在用户选择了该推荐标签时,还可以将该推荐标签指示的第五词作为第二关键词,并向该第五词赋予第二预定权重,即确定第五词的权重为第二预定权重。该第二预定权重可以取较大的值,该第二预定权重可以与前述的第一预定权重相等或不等,本公开对该第二预定权重和推荐标签的信息不做限定。通过将该用户选择的推荐标签表示的词作为关键词,可以提高第二关键词表达用户需求的能力,并因此便于提高确定相关性的准确性。
根据本公开的实施例,在确定了查询语句包括的多个第二关键词后,例如还可以根据该多个第二关键词及该多个第二关键词各自的权重来确定查询表达式。
示例性地,可以从多个第二关键词中挑选出权重较高的若干个词作为查询关键词,并将该查询关键词以“和”的形式拼接,得到查询表达式。
示例性地,还可以根据该多个第二关键词的权重,确定多个第二关键词中的必选词和非必选词。例如可以选择权重较高的预定数量个必选词,剩余的词为非必选词。随后,基于该必选词和非必选词,采用表达式模板获得查询表达式。例如可以以“和”的形式拼接必选词,以“或”的形式拼接非必选词,从而得到查询表达式。通过该方式,可以提高查询表达式的完整性和准确性,提高查询得到的多个对话段的准确性和多样性。
图7是根据本公开实施例的确定多个对话段中的目标对话段的原理示意图。
根据本公开的实施例,在得到每个对话段的第三关键词及其权重,及查询语句的第二关键词及其权重后,即可基于该些信息确定每个对话段与查询语句之间的相关性。
示例性地,可以先确定第二关键词与第三关键词的交集。将该交集中的词个数占第二关键词与第三关键词的并集中词的个数的比例作为相关性。或者,可以将交集中的每个词在第三关键词中的权重与在第二关键词中的权重的乘积的和,作为表征相关性的值。或者,可以将交集中的词作为目标关键词,将多个第二关键词中目标关键词的权重之和作为第一值,将第三关键词中目标关键词的权重之和作为第二值,将该第一值与第二值之间的比值作为每个对话段与查询语句之间的相关性。
根据本公开的实施例,在确定相关性时,例如还可以考虑对话段与查询语句之间的语义相似度,以此提高确定的相关性的准确性。该实施例中,可以将前述根据第三关键词及其权重和第二关键词及其权重确定的相关性的值作为第一子相似度。将对话段与查询语句之间的语义相似度作为第二子相似度。最后基于该第一子相似度与第二子相似度来确定相关性。
示例性地,可以仅考虑对话段中目标语句与查询语句之间的语义相似度。这是由于对话段中目标语句与查询语句的结构更为相似,因此确定的语义相似度更为准确。其中,该目标语句例如可以为主诉内容。该实施例例如可以采用语义相似度算法来确定语义相似度。语义相似度算法例如可以包括基于深度网络的语义模型(Deep Structured SemanticModel,DSSM)、CNN-DSSM模型或LSTM-DSSM模型等,本公开对此不做限定。
根据本公开的实施例,在确定相关性时,除了前述基于关键词及权重确定相关性外,还可以进一步融合查询语句的意图与目标语句的意图之间的相似度。以此突显出意图匹配的重要性,提高筛选得到的查询结果能够满足用户需求的可能性。该实施例中,可以将前述根据第三关键词及其权重和第二关键词及其权重确定的相关性的值作为第一子相似度。将查询语句的意图与每个对话段中目标语句的意图之间的相似度,作为第三子相似度。最后基于该第一子相似度与第三子相似度来确定相关性。
示例性地,可以从第二关键词中挑选出表示意图类型的词,从第三关键词中挑选出表示意图类型的词。将该挑选出来的两个词的编辑距离、余弦相似度等作为查询语句的意图与每个对话段中目标语句的意图之间的相似度。
根据本公开的实施例,在确定相关性时,除了前述基于关键词及权重确定相关性外,还可以考虑对话段与查询语句之间的语义相似度,并融合查询语句的意图与目标语句的意图之间的相似度。
如图7所示,该实施例700可以在确定了针对查询语句710的第二关键词711及其权重,以及针对每个对话段720的第三关键词721及其权重后,可以基于第二关键词711及其权重和第三关键词721及其权重,确定得到第一子相似度730。同时,可以采用语义相似度算法740来确定查询语句710与对话段720中目标语句之间的语义相似度,作为第二子相似度750。确定针对查询语句710的第二关键词中表示意图类型的词,作为第一意图词712,确定针对每个对话段720的第三关键词中表示意图类型的词,作为第二意图词722。随后确定该第一意图词712与第二意图词722之间的相似度,作为第三子相似度760。最后基于该第一子相似度730、第二子相似度750和第三子相似度760,确定每个对话段是否与查询语句相关。
示例性地,可以将三个子相似度的和作为查询语句与每个对话段之间的相关度。若该相关度高于相关度阈值,则可以确定该每个对话段720与查询语句710相关,将该每个对话段720作为目标对话段。可以理解的是,例如还可以将三个子相似度的平均值作为相关度,或者将三个子相似度的算术平方根作为相关度等,本公开对此不做限定。
示例性地,如图7所示,还可以将第一子相似度730、第二子相似度750和第三子相似度760作为预定逻辑回归模型770的输入,经由该预定逻辑回归模型770处理后获得分类结果780,作为针对该每个对话段720的分类结果。该分类结果780例如为二分类结果,为相关或不相关。如此,可以将分类结果为相关的对话段作为目标对话段。
图8是根据本公开实施例的对多个目标对话段进行排序的原理示意图。
根据本公开的实施例,在得到了多个目标对话段的情况下,例如还可以对该多个目标对话段进行排序,以此提高用户查找到满足需求的对话段的效率,提高用户体验。
示例性地,可以根据前述确定的相关性自高至低,对该多个目标对话段进行排序。
示例性地,若相关性为二分类结果时,该实施例可以先采用排序模型确定多个目标对话段中每个对话段的相关性评估值。随后基于相关性评估值,对多个目标对话段进行排序。
其中,排序模型例如可以为逻辑回归模型,输入为对话段和查询语句,输出为相关性评估值。
如图8所示,该实施例800中排序模型例如还可以为考虑两两样本间的偏序关系的模型。设定多个目标对话段为n个,n为大于等于2的值。该实施例可以先将第一对话段801~第n对话段803两两组合,得到多个对话段对。例如,第一对话段801和第二对话段802可以组合得到对话段对811,第二对话段802和第n对话段803可以组合得到对话段对812,第一对话段801和第n对话段803可以组合得到对话段对813。该实施例可以分别基于每个对话段对,采用排序模型820得到该对话段对中两个对话段的偏序关系,例如可以得到两个对话段彼此相对的相关性评估值。最后,根据n个对话段中两两之间的偏序关系对n个对话段进行排序,得到排序结果830。其中,排序模型820例如可以为RankSVM、GBRank等,本公开对此不做限定。
示例性地,在确定相关性评估值后,例如还可以针对每个对话段,基于查询语句中属于目标类别的词与每个对话段中属于目标类别的词之间的匹配关系,确定每个对话段的相关性评估值的权重。随后基于每个对话段的相关性评估值的权重,确定每个对话段的加权评估值。最后基于加权评估值,对多个目标对话段进行排列。其中,目标类别例如可以包括描述用户属性信息的词、疾病名称、症状名等。若具有匹配的目标类别的词,则确定相关性评估值的权重为第三预定权重。或者,若匹配的目标类别的词越多,则确定的相关性评估值的权重越高。该匹配的词的个数与相关性评估值的权重彼此正相关,例如可以为指数关系,或者可以为正比关系等,本公开对此不做限定。
基于上述确定候选信息的方法,本公开还提供了一种确定候选信息的装置。以下将结合图9对该确定候选信息的装置进行详细描述。
图9是根据本公开实施例的确定候选信息的装置的结构框图。
如图9所示,该实施例的确定候选信息的装置900可以包括特征信息提取模块910、第一评估值确定模块920和候选信息获得模块930。
特征信息提取模块910用于针对多个历史对话段中的每个历史对话段,提取每个历史对话段的特征信息。在一实施例中,特征信息提取模块910可以用于执行前文描述的操作S210,在此不再赘述。
第一评估值确定模块920用于基于特征信息,采用预定评估模型确定每个历史对话段的质量评估值。在一实施例中,第一评估值确定模块920可以用于执行前文描述的操作S220,在此不再赘述。
候选信息获得模块930用于确定多个历史对话段中质量评估值大于预定评估值阈值的历史对话段,获得候选信息。在一实施例中,候选信息获得模块930可以用于执行前文描述的操作S240,在此不再赘述。
根据本公开的实施例,上述特征信息提取模块910可以包括第一意图确定子模块、第二意图确定子模块、满足类别获得子模块和特征获得子模块。第一意图确定子模块用于以每个历史对话段中针对第一对象的第一语句作为第一意图识别模型的输入,获得第一语句的第一意图类型。第二意图确定子模块用于以每个历史对话段中针对第二对象的第二语句作为第一意图识别模型的输入,获得第二语句的第二意图类型。满足类别获得子模块用于将第一语句和第二语句输入预定分类模型,获得第一语句与第二语句之间的满足类别。特征获得子模块用于基于第一意图类型、第二意图类型和满足类别,确定每个历史对话段的特征信息。
根据本公开的实施例,上述特征信息提取模块910还可以包括关键词确定模块,用于确定针对候选信息的第一关键词。该关键词确定模块包括初始词获得子模块和关键词获得子模块。其中,初始词获得子模块用于通过以下方式中的至少之一获得初始词:采用主题词确定模型,确定候选信息中目标语句的主题词;采用第一实体识别模型,确定候选信息中除目标语句外其他语句中的第一实体词;确定同义词库中所述第一实体词的同义词。关键词获得子模块用于将初始词中的每个词划分为预定粒度的词,获得第一关键词。
根据本公开的实施例,上述特征信息提取模块910还可以包括权重确定模块,用于在关键词确定模块确定针对候选信息的第一关键词之后,确定第一关键词的权重。该权重确定模块包括第一确定子模块、第二确定子模块和权重调整子模块。第一确定子模块用于基于划分得到第一关键词的目标初始词的属性类型,确定针对目标初始词的权重。第二确定子模块用于基于第一关键词的字符个数与目标初始词的字符个数之间的比值及针对目标初始词的权重,确定第一关键词的初始权重。权重调整子模块用于基于目标初始词的来源,对初始权重进行调整,得到第一关键词的权重。
根据本公开的实施例,上述权重调整子模块用于在目标初始词的来源为主题词的情况下,对始权重进行归一化处理,以使得目标语句的主题词包括的所有第一关键词的权重之和为预定值。
根据本公开的实施例,上述权重调整子模块用于在目标初始词的来源为第一实体词或同义词的情况下,对初始权重进行降权处理。
根据本公开的实施例,上述第一确定子模块可以包括第一子权重确定单元、第二子权重确定单元和初始权重确定单元。第一子权重确定单元用于基于目标初始词的属性类型,确定针对目标初始词的第一子权重。第二子权重确定单元用于基于目标初始词所属的语句与其他语句之间的满足类别,确定针对目标初始词的第二子权重。初始权重确定单元用于基于第一子权重与第二子权重,确定针对目标初始词的初始权重。
根据本公开的实施例,上述关键词确定模块还可以包括第三意图确定子模块,用于采用第三意图识别模型确定候选信息中目标语句的第三意图类型,确定表达第三意图类型的词为第一关键词。
基于上述确定查询结果的方法,本公开还提供了一种确定查询结果的装置。以下将结合图10对该确定查询结果的装置进行详细描述。
图10是根据本公开实施例的确定查询结果的装置的结构框图。
如图10所示,该实施例的确定查询结果的装置1000可以包括表达式获得模块1010、对话段获得模块1020和查询结果确定模块1030。
表达式获得模块1010用于基于查询语句,获得针对查询语句的查询表达式。在一实施例中,表达式获得模块1010可以用于执行前文描述的操作S310,在此不再赘述。
对话段获得模块1020用于基于查询表达式,从候选信息中获得多个对话段。其中,候选信息是采用前文描述的确定候选信息的装置所确定的。在一实施例中,对话段获得模块1020可以用于执行前文描述的操作S320,在此不再赘述。
查询结果确定模块1030用于确定多个对话段中的目标对话段,作为针对查询语句的查询结果。在一实施例中,查询结果确定模块1030可以用于执行前文描述的操作S330,在此不再赘述。
根据本公开的实施例,上述查询结果确定模块1030可以用于确定多个对话段各自与查询语句之间的相关性,以基于相关性确定所述目标对话段。该查询结果确定模块1030可以包括:第三确定子模块、第四确定子模块和相关性确定子模块。第三确定子模块确定针对查询语句的多个第二关键词及多个第二关键词中每个第二关键词的权重。第四确定子模块用于针对多个对话段中的每个对话段,确定每个对话段的第三关键词及第三关键词的权重。相关性确定子模块用于基于多个第二关键词和第三关键词,确定每个对话段与查询语句之间的相关性。
根据本公开的实施例,该相关性确定子模块可以包括:第一子相似度确定单元、第二子相似度确定单元、第三子相似度确定单元和相关确定单元。第一子相似度确定单元用于基于多个第二关键词中每个第二关键词的权重和第三关键词的权重,确定查询语句与每个对话段之间的第一子相似度。第二子相似度确定单元用于确定查询语句与每个对话段中目标语句之间的语义相似度,作为第二子相似度。第三子相似度确定单元用于确定查询语句的意图与每个对话段中目标语句的意图之间的相似度,作为第三子相似度。相关确定单元用于基于第一子相似度、第二子相似度和第三子相似度,确定每个对话段是否与查询语句相关。
根据本公开的实施例,上述第一在相似度确定单元包括目标确定子单元、第一值确定子单元、第二值确定子单元和相似度确定子单元。目标确定子单元用于确定多个第二关键词与第三关键词之间的交集,得到目标关键词。第一值确定子单元用于确定多个第二关键词中目标关键词的权重之和,得到第一值。第二值确定子单元用于确定第三关键词中目标关键词的权重之和,得到第二值。相似度确定子单元用于确定第一值与第二值的比值,作为第一子相似度。
根据本公开的实施例,上述相关确定单元用于以第一子相似度、第二子相似度和第三子相似度作为预定逻辑回归模型的输入,获得针对每个对话段的分类结果。其中,分类结果包括相关或不相关。
根据本公开的实施例,目标对话段为多个,上述确定查询结果的装置1000还可以包括第二评估值确定模块和排序模块。第二评估值确定模块用于采用排序模型确定多个目标对话段中每个对话段的相关性评估值。排序模块用于基于相关性评估值,对多个目标对话段进行排序。
根据本公开的实施例,上述排序模块可以包括权重确定子模块、加权评估确定子模块和排序子模块。权重确定子模块用于针对每个对话段,基于查询语句中属于目标类别的词与每个对话段中属于目标类别的词之间的匹配关系,确定每个对话段的相关性评估值的权重。加权评估确定子模块用于基于每个对话段的相关性评估值的权重,确定每个对话段的加权评估值。排序子模块用于基于加权评估值,对多个目标对话段进行排列。
根据本公开的实施例,上述表达式获得模块1010具体用于根据每个第二关键词的权重和多个第二关键词,确定针对查询语句的查询表达式。
根据本公开的实施例,上述表达式获得模块1010可以包括词确定子模块和表达式确定子模块。词确定子模块用于根据每个第二关键词的权重,确定多个第二关键词中的必选词和非必选词。表达式确定子模块用于基于必选词和所述非必选词,采用表达式模板获得查询表达式。
根据本公开的实施例,上述第三确定子模块可以包括第一词获得单元、第二词获得单元和第三词获得单元。第一词获得单元用于对查询语句进行分词处理,获得多个第一词及多个第一词各自的权重。第二词获得单元用于基于预定同义词库中多个第一词的同义词及多个第一词各自的权重,获得第二词及第二词的权重。第三词获得单元用于采用第四意图识别模型确定查询语句的第四意图类型,获得表达第四意图类型的第三词,并确定第三词的权重为第一预定权重。
根据本公开的实施例,上述第三确定子模块还可以包括实体词确定单元、目标词确定单元和关键词确定单元。实体词确定单元用于采用第二实体识别模型确定所述查询语句中包括的第二实体词。目标词确定单元用于确定所述多个第一词和所述第二词中属于所述第二实体词的词,作为目标词。关键词确定单元用于确定所述目标词中权重大于权重阈值的词为所述第二关键词。其中,权重阈值与多个第一词的数量相关联。
根据本公开的实施例,上述第三确定子模块还可以包括第四词获得单元,用于基于意图词库中与第三词相关联的词及第三词的权重,获得第四词和第四词的权重。
根据本公开的实施例,上述第三确定子模块还可以包括第五词确定单元和权重确定单元。第五词确定单元用于响应于对展示的推荐标签的选择,确定被选中的标签所表示的第五词为针对查询语句的第二关键词。权重确定单元用于确定第五词的权重为第二预定权重。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如确定候选信息的方法和/或确定查询结果的方法。例如,在一些实施例中,确定候选信息的方法和/或确定查询结果的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时,可以执行上文描述的确定候选信息的方法和/或确定查询结果的方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行确定候选信息的方法和/或确定查询结果的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中,服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(″Virtual Private Server″,或简称″VPS″)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (26)

1.一种确定候选信息的方法,包括:
针对多个历史对话段中的每个历史对话段,提取所述每个历史对话段的特征信息;
基于所述特征信息,采用预定评估模型确定所述每个历史对话段的质量评估值;以及
确定所述多个历史对话段中所述质量评估值大于预定评估值阈值的历史对话段,获得所述候选信息。
2.根据权利要求1所述的方法,其中,提取所述每个历史对话段的特征信息包括:
以所述每个历史对话段中针对第一对象的第一语句作为第一意图识别模型的输入,获得所述第一语句的第一意图类型;
以所述每个历史对话段中针对第二对象的第二语句作为第一意图识别模型的输入,获得所述第二语句的第二意图类型;
将所述第一语句和所述第二语句输入预定分类模型,获得所述第一语句与所述第二语句之间的满足类别;以及
基于所述第一意图类型、所述第二意图类型和所述满足类别,确定所述每个历史对话段的特征信息。
3.根据权利要求1所述的方法,还包括在获得所述候选信息之后通过以下方式确定针对所述候选信息的第一关键词:
通过以下方式中的至少之一获得初始词:
采用主题词确定模型,确定所述候选信息中目标语句的主题词;
采用第一实体识别模型,确定所述候选信息中除所述目标语句外其他语句中的第一实体词;
确定同义词库中所述第一实体词的同义词;
将所述初始词中的每个词划分为预定粒度的词,获得所述第一关键词。
4.根据权利要求3所述的方法,还包括在确定针对所述候选信息的第一关键词之后,通过以下方式确定所述第一关键词的权重:
基于划分得到所述第一关键词的目标初始词的属性类型,确定针对所述目标初始词的权重;
基于所述第一关键词的字符个数与所述目标初始词的字符个数之间的比值及针对所述目标初始词的权重,确定所述第一关键词的初始权重;以及
基于所述目标初始词的来源,对所述初始权重进行调整,得到所述第一关键词的权重。
5.根据权利要求4所述的方法,其中,在所述目标初始词的来源为所述主题词的情况下,对所述初始权重进行调整包括:
对所述始权重进行归一化处理,以使得所述候选信息中目标语句的主题词包括的所有第一关键词的权重之和为预定值。
6.根据权利要求4所述的方法,其中,在所述目标初始词的来源为所述第一实体词或所述同义词的情况下,对所述初始权重进行调整包括:
对所述初始权重进行降权处理。
7.根据权利要求6所述的方法,其中,在所述目标初始词为所述第一实体词的情况下,确定针对所述目标初始词的权重包括:
基于所述目标初始词的属性类型,确定针对所述目标初始词的第一子权重;
基于所述目标初始词所属的语句与所述其他语句之间的满足类别,确定针对所述目标初始词的第二子权重;以及
基于所述第一子权重与所述第二子权重,确定针对所述目标初始词的初始权重。
8.根据权利要求3~7中任一项所述的方法,其中,确定针对所述候选信息的第一关键词还包括:
采用第三意图识别模型确定所述候选信息中目标语句的第三意图类型,确定表达所述第三意图类型的词为所述第一关键词。
9.一种确定查询结果的方法,包括:
基于查询语句,获得针对所述查询语句的查询表达式;
基于所述查询表达式,从候选信息中获得多个对话段;以及
确定所述多个对话段中的目标对话段,作为针对所述查询语句的查询结果,
其中,所述候选信息是采用权利要求1~8中任一项所述的方法确定的。
10.根据权利要求9所述的方法,其中,确定所述多个对话段中的目标对话段包括通过以下方式确定所述多个对话段各自与所述查询语句之间的相关性,以基于所述相关性确定所述目标对话段:
确定针对查询语句的多个第二关键词及所述多个第二关键词中每个第二关键词的权重;
针对所述多个对话段中的每个对话段,确定所述每个对话段的第三关键词及所述第三关键词的权重;以及
基于所述多个第二关键词和所述第三关键词,确定所述每个对话段与所述查询语句之间的相关性。
11.根据权利要求10所述的方法,其中,确定所述每个对话段与所述查询语句之间的相关性包括:
基于所述多个第二关键词中每个第二关键词的权重和所述第三关键词的权重,确定所述查询语句与所述每个对话段之间的第一子相似度;
确定所述查询语句与所述每个对话段中目标语句之间的语义相似度,作为第二子相似度;
确定所述查询语句的意图与所述每个对话段中目标语句的意图之间的相似度,作为第三子相似度;以及
基于所述第一子相似度、所述第二子相似度和所述第三子相似度,确定所述每个对话段是否与所述查询语句相关。
12.根据权利要求11所述的方法,其中,确定所述查询语句与所述每个对话段之间的第一子相似度包括:
确定所述多个第二关键词与所述第三关键词之间的交集,得到目标关键词;
确定所述多个第二关键词中所述目标关键词的权重之和,得到第一值;
确定所述第三关键词中所述目标关键词的权重之和,得到第二值;以及
确定所述第一值与所述第二值之间的比值,作为所述第一子相似度。
13.根据权利要求11所述的方法,其中,确定所述每个对话段是否与所述查询语句相关包括:
以所述第一子相似度、所述第二子相似度和所述第三子相似度作为预定逻辑回归模型的输入,获得针对所述每个对话段的分类结果,
其中,所述分类结果包括相关或不相关。
14.根据权利要求9所述的方法,其中,所述目标对话段为多个;所述方法还包括:
采用排序模型确定多个目标对话段中每个对话段的相关性评估值;以及
基于所述相关性评估值,对所述多个目标对话段进行排序。
15.根据权利要求14所述的方法,其中,对所述多个目标对话段进行排序包括:
针对所述每个对话段,基于所述查询语句中属于目标类别的词与所述每个对话段中属于所述目标类别的词之间的匹配关系,确定所述每个对话段的相关性评估值的权重;
基于所述每个对话段的相关性评估值的权重,确定所述每个对话段的加权评估值;以及
基于所述加权评估值,对所述多个目标对话段进行排序。
16.根据权利要求10所述的方法,其中,获得针对所述查询语句的查询表达式包括:
根据所述每个第二关键词的权重和所述多个第二关键词,确定针对所述查询语句的查询表达式。
17.根据权利要求16所述的方法,其中,确定针对所述查询语句的查询表达式包括:
根据所述每个第二关键词的权重,确定所述多个第二关键词中的必选词和非必选词;以及
基于所述必选词和所述非必选词,采用表达式模板获得所述查询表达式。
18.根据权利要求10所述的方法,其中,确定针对查询语句的多个第二关键词及所述多个第二关键词中每个第二关键词的权重包括:
对所述查询语句进行分词处理,获得多个第一词及所述多个第一词各自的权重;
基于预定同义词库中所述多个第一词的同义词及所述多个第一词各自的权重,获得第二词及所述第二词的权重;以及
采用第四意图识别模型确定所述查询语句的第四意图类型,获得表达所述第四意图类型的第三词,并确定所述第三词的权重为第一预定权重。
19.根据权利要求18所述的方法,其中,确定针对查询语句的多个第二关键词及所述多个第二关键词中每个第二关键词的权重还包括:
采用第二实体识别模型确定所述查询语句中包括的第二实体词;
确定所述多个第一词和所述第二词中属于所述第二实体词的词,作为目标词;以及
确定所述目标词中权重大于权重阈值的词为所述第二关键词,
其中,所述权重阈值与所述多个第一词的数量相关联。
20.根据权利要求18所述的方法,其中,确定针对查询语句的多个第二关键词及所述多个第二关键词中每个第二关键词的权重还包括:
基于意图词库中与所述第三词相关联的词及所述第三词的权重,获得第四词和所述第四词的权重。
21.根据权利要求18所述的方法,其中,确定针对查询语句的多个第二关键词及所述多个第二关键词中每个第二关键词的权重还包括:
响应于对展示的推荐标签的选择,确定被选中的标签所表示的第五词为针对查询语句的第二关键词;以及
确定所述第五词的权重为第二预定权重。
22.一种确定候选信息的装置,包括:
特征信息提取模块,用于针对多个历史对话段中的每个历史对话段,提取所述每个历史对话段的特征信息;
第一评估值确定模块,用于基于所述特征信息,采用预定评估模型确定所述每个历史对话段的质量评估值;以及
候选信息获得模块,用于确定所述多个历史对话段中所述质量评估值大于预定评估值阈值的历史对话段,获得所述候选信息。
23.一种确定查询结果的装置,包括:
表达式获得模块,用于基于查询语句,获得针对所述查询语句的查询表达式;
对话段获得模块,用于基于所述查询表达式,从候选信息中获得多个对话段;以及
查询结果确定模块,用于确定所述多个对话段中的目标对话段,作为针对所述查询语句的查询结果,
其中,所述候选信息是采用权利要求22所述的装置确定的。
24.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~21中任一项所述的方法。
25.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~21中任一项所述的方法。
26.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1~21中任一项所述的方法。
CN202110722521.8A 2021-06-28 2021-06-28 确定候选信息的方法、确定查询结果的方法、装置、设备 Active CN113407813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110722521.8A CN113407813B (zh) 2021-06-28 2021-06-28 确定候选信息的方法、确定查询结果的方法、装置、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110722521.8A CN113407813B (zh) 2021-06-28 2021-06-28 确定候选信息的方法、确定查询结果的方法、装置、设备

Publications (2)

Publication Number Publication Date
CN113407813A true CN113407813A (zh) 2021-09-17
CN113407813B CN113407813B (zh) 2024-01-26

Family

ID=77679897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110722521.8A Active CN113407813B (zh) 2021-06-28 2021-06-28 确定候选信息的方法、确定查询结果的方法、装置、设备

Country Status (1)

Country Link
CN (1) CN113407813B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293731A (ja) * 2005-04-12 2006-10-26 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20060277165A1 (en) * 2005-06-03 2006-12-07 Fuji Xerox Co., Ltd. Question answering system, data search method, and computer program
CN105786875A (zh) * 2014-12-23 2016-07-20 北京奇虎科技有限公司 提供问答对数据搜索结果的方法和装置
CN105786851A (zh) * 2014-12-23 2016-07-20 北京奇虎科技有限公司 问答知识库的构建方法、提供搜索的方法及装置
CN106033466A (zh) * 2015-03-20 2016-10-19 华为技术有限公司 数据库查询的方法和设备
CN107220380A (zh) * 2017-06-27 2017-09-29 北京百度网讯科技有限公司 基于人工智能的问答推荐方法、装置和计算机设备
CN108090127A (zh) * 2017-11-15 2018-05-29 北京百度网讯科技有限公司 建立问答文本评价模型与评价问答文本的方法、装置
US20190260694A1 (en) * 2018-02-16 2019-08-22 Mz Ip Holdings, Llc System and method for chat community question answering

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293731A (ja) * 2005-04-12 2006-10-26 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20060277165A1 (en) * 2005-06-03 2006-12-07 Fuji Xerox Co., Ltd. Question answering system, data search method, and computer program
CN105786875A (zh) * 2014-12-23 2016-07-20 北京奇虎科技有限公司 提供问答对数据搜索结果的方法和装置
CN105786851A (zh) * 2014-12-23 2016-07-20 北京奇虎科技有限公司 问答知识库的构建方法、提供搜索的方法及装置
CN106033466A (zh) * 2015-03-20 2016-10-19 华为技术有限公司 数据库查询的方法和设备
CN107220380A (zh) * 2017-06-27 2017-09-29 北京百度网讯科技有限公司 基于人工智能的问答推荐方法、装置和计算机设备
CN108090127A (zh) * 2017-11-15 2018-05-29 北京百度网讯科技有限公司 建立问答文本评价模型与评价问答文本的方法、装置
US20190260694A1 (en) * 2018-02-16 2019-08-22 Mz Ip Holdings, Llc System and method for chat community question answering

Also Published As

Publication number Publication date
CN113407813B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
US11537820B2 (en) Method and system for generating and correcting classification models
US9558264B2 (en) Identifying and displaying relationships between candidate answers
US9767144B2 (en) Search system with query refinement
US9183285B1 (en) Data clustering system and methods
US20180181544A1 (en) Systems for Automatically Extracting Job Skills from an Electronic Document
CN113345577B (zh) 诊疗辅助信息的生成方法、模型训练方法、装置、设备以及存储介质
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN113407677B (zh) 评估咨询对话质量的方法、装置、设备和存储介质
CN112100396A (zh) 一种数据处理方法和装置
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
US20220198358A1 (en) Method for generating user interest profile, electronic device and storage medium
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
CN113792230B (zh) 服务链接方法、装置、电子设备和存储介质
WO2019192122A1 (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN115719640A (zh) 中医主次症状识别系统、装置、电子设备及其存储介质
CN113407813B (zh) 确定候选信息的方法、确定查询结果的方法、装置、设备
CN112818221B (zh) 实体的热度确定方法、装置、电子设备及存储介质
CN114664421A (zh) 一种医患匹配方法、装置、电子设备、介质及产品
CN113326438A (zh) 信息查询方法、装置、电子设备以及存储介质
CN113360769A (zh) 信息查询方法、装置、电子设备以及存储介质
CN116127053B (zh) 实体词消歧、知识图谱生成和知识推荐方法以及装置
CN113656393B (zh) 数据处理方法、装置、电子设备以及存储介质
CN114925185B (zh) 交互方法、模型的训练方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant