CN110147494A - 信息搜索方法、装置,存储介质及电子设备 - Google Patents
信息搜索方法、装置,存储介质及电子设备 Download PDFInfo
- Publication number
- CN110147494A CN110147494A CN201910335136.0A CN201910335136A CN110147494A CN 110147494 A CN110147494 A CN 110147494A CN 201910335136 A CN201910335136 A CN 201910335136A CN 110147494 A CN110147494 A CN 110147494A
- Authority
- CN
- China
- Prior art keywords
- phrase
- search
- correlation
- degree
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种信息搜索方法、装置,存储介质及电子设备,该方法包括:确定搜索字符串包含的词组序列;将所述词组序列中的每一词组作为目标词组,并针对每一所述目标词组执行以下操作:将所述目标词组作为关键词,确定对应所述关键词的搜索实体;根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度;确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度;根据所述历史相关度以及所述上下文信息相关度对每一所述搜索实体进行排序,并根据排序结果显示所述搜索字符串的信息搜索结果。用于采用解决相关技术中的实体链接技术进行对搜索词进行实体匹配时,出现匹配到的实体的准确率低的技术问题。
Description
技术领域
本公开涉及信息处理技术领域,具体地,涉及一种信息搜索方法、装置,存储介质及电子设备。
背景技术
相关技术中,为了在通过关键词(query)搜索目标实体(entity)时匹配合适的实体,采用一种实体链接(entity linking)技术,该技术通过识别关键词的提及(mention),利用离线已挖掘的实体-提及(mention-entity)数据得到候选实体集合,再结合语言模型(language model)或语义模型(semantic model)对候选结果进行排序,得到最终的实体链接结果。
但是,该实体链接技术较依赖于NER(Named Entity Recognition)识别模型,而NER识别模型的识别准确率依赖于标注训练数据,且NER识别模型主要用于识别人名、地名和机构名,对于复杂或新出现的实体名称的识别准确率较低,进而导致出现对相关的搜索词匹配到的实体的准确率低的情况。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本公开的目的是提供一种信息搜索方法、装置,存储介质及电子设备,用于采用解决相关技术中的实体链接技术进行对搜索词进行实体匹配时,出现匹配到的实体的准确率低的技术问题。
为了解决上述技术问题,本公开实施例的第一方面,提供一种信息搜索方法,所述方法包括:
确定搜索字符串包含的词组序列;
将所述词组序列中的每一词组作为目标词组,并针对每一所述目标词组执行以下操作:
将所述目标词组作为关键词,确定对应所述关键词的搜索实体;
根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度;
确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度;
根据所述历史相关度以及所述上下文信息相关度对每一所述搜索实体进行排序,并根据排序结果显示所述搜索字符串的信息搜索结果。
可选地,所述确定搜索字符串包含的词组序列,包括:
对所述搜索字符串进行分词,得到多个词组;
将所述多个词组进行组合,得到词组组合,所述词组序列包括所述多个词组以及所述词组组合。
可选地,所述方法还包括:
根据所述历史搜索数据中的搜索点击日志,实体类型信息以及实体提及信息确定历史搜索的关键词与搜索实体之间的相关度;
保存历史搜索的关键词与搜索实体之间的所述相关度;
所述根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度,包括:
查找所述历史搜索数据中与所述目标词组对应的历史搜索的目标关键词;
将所述历史搜索的目标关键词与搜索实体之间的所述相关度作为所述历史相关度。
可选地,所述确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度,包括:
获取所述词组序列中除所述目标词组以外的其他词组的上下文信息,所述上下文信息包括:关键词信息,命名实体识别NER信息,词性信息,当前搜索位置信息;
根据所述上下文信息计算与所述搜索实体之间的上下文信息相关度。
可选地,所述根据所述历史相关度以及所述上下文信息相关度对所述搜索实体进行排序,包括:
根据如下贝叶斯公式确定概率最大的搜索实体:
其中,P(e|s)表示所述目标词组s与所述搜索实体e的所述历史相关度,P(q-s|e)表示所述词组序列q中除所述目标词组s以外的其他词组与所述搜索实体e的所述上下文信息相关度,E为对应每一所述目标词组的搜索实体组成的实体集合;
将所述概率最大的搜索实体作为信息搜索结果排序的首位。
本公开实施例的第二方面,提供一种信息搜索装置,包括:
确定模块,用于确定搜索字符串包含的词组序列;
相关度确定模块,用于将所述词组序列中的每一词组作为目标词组,并针对每一所述目标词组执行以下操作:
将所述目标词组作为关键词,确定对应所述关键词的搜索实体;
根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度;
确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度;
排序模块,用于根据所述历史相关度以及所述上下文信息相关度对每一所述搜索实体进行排序;
显示模块,用于根据排序结果显示所述搜索字符串的信息搜索结果。
可选地,所述确定模块包括:
分词子模块,用于对所述搜索字符串进行分词,得到多个词组;
组合子模块,用于将所述多个词组进行组合,得到词组组合,所述词组序列包括所述多个词组以及所述词组组合。
可选地,还包括:
离线处理模块,用于根据历史数据中的搜索点击日志,实体类型信息以及实体提及信息确定历史搜索的关键词与搜索实体之间的相关度;
存储模块,用于保存历史搜索的关键词与搜索实体之间的所述相关度;
所述相关度确定模块包括:
查找子模块,用于查找历史数据中与所述目标词组对应的历史搜索的目标关键词;
历史相关度确定子模块,用于将所述历史搜索的目标关键词与搜索实体之间的所述相关度作为所述历史相关度。
可选地,所述相关度确定模块包括:
获取子模块,用于获取所述词组序列中除所述目标词组以外的其他词组的上下文信息,所述上下文信息包括:关键词信息,命名实体识别NER信息,词性信息,当前搜索位置信息;
历史相关度确定子模块,用于根据所述上下文信息计算与所述搜索实体之间的上下文信息相关度。
可选地,所述排序模块用于:
根据如下贝叶斯公式确定概率最大的搜索实体:
其中,P(e|s)表示所述目标词组s与所述搜索实体e的所述历史相关度,P(q-s|e)表示所述词组序列q中除所述目标词组s以外的其他词组与所述搜索实体e的所述上下文信息相关度,E为对应每一所述目标词组的搜索实体组成的实体集合;
将所述概率最大的搜索实体作为信息搜索结果排序的首位。
本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述方法的步骤。
本公开实施例的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面中任一项所述方法的步骤。
通过上述技术方案,确定搜索字符串包含的词组序列之后,针对每一实体,综合考虑该实体与搜索字符串中对应的关键词之间的历史相关度,以及该搜索字符串中除该关键词以外的其他词与该实体的上下文相关度,并根据此两种相关度对所有实体进行排序,显示结果,使得对于实体的匹配不依赖于NER识别模型,且具有较好的灵活性和可扩展性,对于复杂或新出现的实体名称能够提高相应的实体匹配准确率,进而提高整体对于相关搜索词匹配到实体的准确率。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种信息搜索方法的流程图。
图2是根据一示例性实施例示出的一种信息搜索方法包括的步骤中确定搜索字符串包含的词组序列的流程图。
图3是根据一示例性实施例示出的一种信息搜索方法的另一流程图。
图4是根据一示例性实施例示出的一种信息搜索方法包括的步骤中确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度的流程图。
图5是根据一示例性实施例示出的一种信息搜索方法包括的步骤中根据所述历史相关度以及所述上下文信息相关度对所述搜索实体进行排序的流程图。
图6是根据一示例性实施例示出的一种信息搜索装置的框图。
图7是根据一示例性实施例示出的一种信息搜索装置中确定模块的框图。
图8是根据一示例性实施例示出的一种信息搜索装置的另一框图。
图9是根据一示例性实施例示出的一种信息搜索装置中相关度确定模块的框图。
图10是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1是根据一示例性实施例示出的一种信息搜索方法的流程图,如图1所示,该方法包括:
S11,确定搜索字符串包含的词组序列。
S12,将所述词组序列中的每一词组作为目标词组,并针对每一所述目标词组执行以下操作:
将所述目标词组作为关键词,确定对应所述关键词的搜索实体;
根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度;
确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度。
S13,根据所述历史相关度以及所述上下文信息相关度对每一所述搜索实体进行排序,并根据排序结果显示所述搜索字符串的信息搜索结果。
可选地,如图2所示,在步骤S11中,确定搜索字符串包含的词组序列,包括:
S111,对所述搜索字符串进行分词,得到多个词组。
S112,将所述多个词组进行组合,得到词组组合,所述词组序列包括所述多个词组以及所述词组组合。
具体来讲,在步骤S111中,可以根据词组的实际使用情况对搜索字符串进行分词,例如可以参照词组在电视新闻、杂志、报纸等信息中的使用情况,按照搜索字符串中的最小词组长度进行划分,使得得到的词组均为可以使用的长度最小的词组。
举例来讲,对于搜索字符串“中山公园龙之梦酒店”,进行分词得到的词组为:“中山”、“公园”、“龙之梦”、“酒店”,其每个词组的长度为最小,不可再进行拆分,或再进行拆分会导致其表达的意思与原搜索字符串出现较大偏差,例如对于上述搜索字符串,分词得到的“酒店”不可再拆分为“酒”和“店”。
在步骤S112中,将所述多个词组进行组合,得到词组组合,所述词组序列包括所述多个词组以及所述词组组合,即在该词组序列中,既包含了在步骤S111中划分得到的词组,又包含了步骤S111划分得到的词组进行组合后得到的词组组合,为了获得词组组合,可以对词组进行穷举组合,也可以根据实际情况进行组合,例如可以参照词组组合在电视新闻、杂志、报纸等信息中的使用情况对词组进行组合得到词组组合。
沿用上述例子,在一种可能的实施方式中,对上述词组进行组合得到词组组合可以包括:“中山公园”、“公园龙之梦”、“龙之梦酒店”,进而得到的词组序列包括:“中山”、“公园”、“龙之梦”、“酒店”、“中山公园”、“公园龙之梦”、“龙之梦酒店”。
当然,在其它的实施方式中,也可以采用其它方式确定搜索字符串包含的词组序列,例如双向最大匹配法(Bi-directction Matching method)等,本公开对其不作具体限制。
确定搜索字符串包含的词组序列之后,执行步骤S12,在步骤S12中,对于词组序列中的任一词组,将该词组作为目标词组,确定目标词组对应的搜索实体,然后计算该目标词组与该搜索实体的历史相关度,以及该词组序列中除该目标词组以外的其它词组与该搜索实体的上下信息相关度,之后重复上述步骤,以得到词组序列中每个词组与对应搜索实体的历史相关度和上下信息相关度。需要说明的是,历史相关度基于相关的历史记录例如历史搜索数据获得,用于表征目标词组与搜索实体的相关性,上下信息相关度可以基于词组的上下文信息获得,用于表征其它词组与上下文信息的相关度。
得到上述历史相关度和上下文信息相关度之后,执行步骤S13,根据所述历史相关度以及所述上下文信息相关度对每一所述搜索实体进行排序,并根据排序结果显示所述搜索字符串的信息搜索结果。例如可以基于历史相关度和上下文信息相关度计算用于表征搜索实体与搜索字符串相关度大小的参数,然后根据参数的大小对搜索实体进行排序,将得到的对应该参数值最大的一个或多个搜索实体进行显示。
通过上述技术方案,确定搜索字符串包含的词组序列之后,针对每一实体,综合考虑该实体与搜索字符串中对应的关键词之间的历史相关度,以及该搜索字符串中除该关键词以外的其他词与该实体的上下文相关度,并根据此两种相关度对所有实体进行排序,显示结果,使得对于实体的匹配不依赖于NER识别模型,且具有较好的灵活性和可扩展性,对于复杂或新出现的实体名称能够提高相应的实体匹配准确率,进而提高整体对于相关搜索词匹配到实体的准确率。
图3是根据一示例性实施例示出的一种信息搜索方法的另一流程图,如图3所示,该方法包括:
S21,根据所述历史搜索数据中的搜索点击日志,实体类型信息以及实体提及信息确定历史搜索的关键词与搜索实体之间的相关度。
S22,保存历史搜索的关键词与搜索实体之间的所述相关度。
S23,确定搜索字符串包含的词组序列。
S24,将所述词组序列中的每一词组作为目标词组,并针对每一所述目标词组执行以下操作:
将所述目标词组作为关键词,确定对应所述关键词的搜索实体;
查找所述历史搜索数据中与所述目标词组对应的历史搜索的目标关键词;
将所述历史搜索的目标关键词与搜索实体之间的所述相关度作为所述历史相关度;
确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度。
S25,根据所述历史相关度以及所述上下文信息相关度对每一所述搜索实体进行排序,并根据排序结果显示所述搜索字符串的信息搜索结果。
在步骤S21中,根据所述历史搜索数据中的搜索点击日志,实体类型信息以及实体提及信息确定历史搜索的关键词与搜索实体之间的相关度,该步骤可以在离线模式下进行,减小对网络的依赖。具体来讲,可以根据搜索点击日志计算得到点击相关度,根据实体提及信息计算得到文本提及相关度,综合点击相关度和文本提及相关度进行线性加权,得到历史搜索的关键词与搜索实体之间的相关度,也即步骤S24中的历史相关度,在加权计算过程中,根据不同的实体类型信息,选取不同的用于加权的权重参数。计算公式如下:
Score(s,e)=α*clickScore(s,e)+(1-α)*mentionRelScore(s,e)
其中,Score(s,e)表示步骤S21中关键词与搜索实体之间的相关度,也即步骤S24中的历史相关度,s为关键词,e为搜索实体,clickScore(s,e)为根据搜索点击日志计算得到的点击相关度,mentionRelScore(s,e)为根据实体提及信息计算得到的文本提及相关度,α为权重参数,α的取值范围为[0,1]。
在一种可能的实施方式中,clickScore(s,e)可以通过如下公式得到:
其中,as=1表示关键词有点击,c表示当前设定的用于计算的语义环境,例如当前的语义环境是用于搜索,s为关键词,e为搜索实体,μc为平滑参数,n为点击次数,P(as=1|c,s)表示关键词的点击率,为与搜索实体e相关的所有关键词的点击次数,P(e|c)为搜索实体e相对于所有实体的点击次数比,为所有关键词的点击次数。
在一种可能的实施方式中,mentionRelScore(s,e)可以通过如下公式得到:
其中,s为关键词,e为搜索实体,m为实体提及信息,cosince_sim表示基于词集别的IDF(逆文本频率指数,Inverse Document Frequency)的余弦相似度,word_jaccard表示基于字级别的杰卡德距离(Jaccard Distance),s∈mentionList of e表示关键词s存在于与搜索实体e对应的提及表中,表示关键词s不存在于与搜索实体e对应的提及表中。
在步骤S22中,保存历史搜索的关键词与搜索实体之间的所述相关度,以使得在执行步骤S24时,通过查找所述历史搜索数据中与所述目标词组对应的历史搜索的目标关键词;将所述历史搜索的目标关键词与搜索实体之间的所述相关度作为所述历史相关度;进而得到历史相关度用于后续计算,步骤S24可以在离线模式下进行相关查找,减少对互联网的依赖。
可选地,为了得到上下文信息相关度,本公开中,如图4所示,确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度,包括:
S121,获取所述词组序列中除所述目标词组以外的其他词组的上下文信息,所述上下文信息包括:关键词信息,命名实体识别NER信息,词性信息,当前搜索位置信息;
S122,根据所述上下文信息计算与所述搜索实体之间的上下文信息相关度。
在步骤S121中,获取词组序列中除目标词组以外的其他词组的上下文信息,上下文信息包括:关键词信息,命名实体识别NER信息,词性信息,当前搜索位置信息;具体来讲,关键词信息可以包括实体类型分数、实体质量分数和实体图谱分数中的至少一者,其中,实体类型分数用于表征搜索实体类型的重要程度,实体质量分数用于衡量搜索实体的质量度,例如搜索实体为某一商铺时,可以通过用户的评价星级、用户点击访问量或用户的购买下单量确定实体质量分数,实体图谱分数为根据搜索实体于相关图谱例如实体关系图中的各种关系计算得到的分数,类似于网页的PageRank分数;命名实体识别NER信息可以包括搜索字符串的NER属性和搜索字符串的词性属性中的至少一者,其中,搜索字符串的NER属性,表示搜索字符串对应词组序列中词组的命名实体识别的类型结果,例如人名、地名、地标等,搜索字符串的词性属性表示搜索字符串对应的词组序列中的词组的词性,例如动词、名词、形容词、副词等;词性信息可以包括搜索字符串与搜索实体的文本相似度、搜索字符串与搜索实体的语义相似度、搜索字符串与搜索实体的类目一致性分数和搜索字符串与搜索实体的属性相关分数中的至少一者,其中,搜索字符串与搜索实体的文本相似度表示搜索字符串对应词组序列中的词组与搜索实体在文本维度上的相似度,例如余弦相似度,搜索字符串与搜索实体的语义相似度可以为基于主题模型、word2vec或其他语义模型的语义相似度,搜索字符串与搜索实体的类目一致性分数为表示搜索字符串对应词组序列中的词组所属类目与搜索实体所属类目的一致性的分数,搜索字符串与搜索实体的属性相关分数为表示搜索字符串对应词组序列中的词组的属性与搜索实体的属性的相关程度的分数;当前搜索位置信息可以包括Location所在城市与Entity所属城市一致性分数、GPS-Entity距离分数和Entity的本异地分数的至少一者,其中,Location所在城市为搜索动作发生的位置所在城市,Entity所属城市为搜索实体所属城市,Location所在城市与Entity所属城市一致性分数用于表示搜索动作发生的位置所在城市与搜索实体所属城市的一致性,GPS-Entity距离分数用于表示搜索动作发生的位置与搜索实体的距离,Entity的本异地分数用于表示通过搜索字符串召回搜索实体动作发生的位置是本地搜索还是异地搜索。采用上述具体的上下文信息可以使得对于上下文信息相关度的计算更加快速和准确,例如在应用于O2O(Online To Offline)场景下进行搜索时。
在步骤S122中,可以通过训练得到如下所述的逻辑回归分类公式,用于计算上下文信息相关度:
其中,q-s为词组序列中除目标词组以外的其他词组,Score(q-s,e)中的e为搜索实体,Score(q-s,e)用于表征词组序列中除目标词组以外的其他词组与搜索实体之间的上下文信息相关度的分数,中的e为自然常数,xi为上述上下文信息,wi为对应于xi的权重。
通过事先训练确定该逻辑回归分类公式中的wi,然后根据得到的上下文信息带入该逻辑回归分类公式中,即可得到用于表征相应的上下文信息相关度的分数,以用于后续步骤。
可选地,本公开中,如图5所示,根据所述历史相关度以及所述上下文信息相关度对所述搜索实体进行排序,包括:
S131,根据如下贝叶斯公式确定概率最大的搜索实体:
其中,P(e|s)表示所述目标词组s与所述搜索实体e的所述历史相关度,P(q-s|e)表示所述词组序列q中除所述目标词组s以外的其他词组与所述搜索实体e的所述上下文信息相关度,E为对应每一所述目标词组的搜索实体组成的实体集合。
S132,将所述概率最大的搜索实体作为信息搜索结果排序的首位。
在步骤S131中,利用上述贝叶斯公式进行相关计算以确定概率最大的搜索实体,该贝叶斯公式中,P(e|s)可以利用上述Score(s,e),可以利用上述Score(q-s,e),即找到使得P(e|q)取最大值的搜索实体e,P(e|q)取最大值时,表示对应的搜索实体与对应的搜索字符串的相关度最大,进而在步骤S132中,将该搜索实体作为信息搜索结果排序的首位。当然,也可以利用上述公式确定P(e|q)该相关度第二大和该相关度第三大的搜索实体,并依次进行显示。
需要说明的是,在上述方法对应的流程图中,虽然示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图6是根据一示例性实施例示出的一种信息搜索装置的框图,如图6所示,该装置100包括:
确定模块110,用于确定搜索字符串包含的词组序列;
相关度确定模块120,用于将所述词组序列中的每一词组作为目标词组,并针对每一所述目标词组执行以下操作:
将所述目标词组作为关键词,确定对应所述关键词的搜索实体;
根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度;
确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度;
排序模块130,用于根据所述历史相关度以及所述上下文信息相关度对每一所述搜索实体进行排序;
显示模块140,用于根据排序结果显示所述搜索字符串的信息搜索结果。
可选地,如图7所示,该确定模块110包括:
分词子模块111,用于对所述搜索字符串进行分词,得到多个词组;
组合子模块112,用于将所述多个词组进行组合,得到词组组合,所述词组序列包括所述多个词组以及所述词组组合。
可选地,如图8所示,该装置100除包括确定模块110、相关度确定模块120、排序模块130和显示模块140之外,还包括:
离线处理模块150,用于根据历史数据中的搜索点击日志,实体类型信息以及实体提及信息确定历史搜索的关键词与搜索实体之间的相关度;
存储模块160,用于保存历史搜索的关键词与搜索实体之间的所述相关度;
该相关度确定模块120包括:
查找子模块121,用于查找历史数据中与所述目标词组对应的历史搜索的目标关键词;
历史相关度确定子模块122,用于将所述历史搜索的目标关键词与搜索实体之间的所述相关度作为所述历史相关度。
可选地,如图9所示,所述相关度确定模块120包括:
获取子模块123,用于获取所述词组序列中除所述目标词组以外的其他词组的上下文信息,所述上下文信息包括:关键词信息,命名实体识别NER信息,词性信息,当前搜索位置信息;
历史相关度确定子模块124,用于根据所述上下文信息计算与所述搜索实体之间的上下文信息相关度。
可选地,所述排序模块130用于:
根据如下贝叶斯公式确定概率最大的搜索实体:
其中,P(e|s)表示所述目标词组s与所述搜索实体e的所述历史相关度,P(q-s|e)表示所述词组序列q中除所述目标词组s以外的其他词组与所述搜索实体e的所述上下文信息相关度,E为对应每一所述目标词组的搜索实体组成的实体集合;
将所述概率最大的搜索实体作为信息搜索结果排序的首位。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,各个模块的划分方式也不仅限于上述方式,此处将不做详细阐述说明。
图10是根据一示例性实施例示出的一种电子设备700的框图。如图10所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的信息搜索方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的信息搜索方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的信息搜索方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的信息搜索方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (12)
1.一种信息搜索方法,其特征在于,所述方法包括:
确定搜索字符串包含的词组序列;
将所述词组序列中的每一词组作为目标词组,并针对每一所述目标词组执行以下操作:
将所述目标词组作为关键词,确定对应所述关键词的搜索实体;
根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度;
确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度;
根据所述历史相关度以及所述上下文信息相关度对每一所述搜索实体进行排序,并根据排序结果显示所述搜索字符串的信息搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述确定搜索字符串包含的词组序列,包括:
对所述搜索字符串进行分词,得到多个词组;
将所述多个词组进行组合,得到词组组合,所述词组序列包括所述多个词组以及所述词组组合。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述历史搜索数据中的搜索点击日志,实体类型信息以及实体提及信息确定历史搜索的关键词与搜索实体之间的相关度;
保存历史搜索的关键词与搜索实体之间的所述相关度;
所述根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度,包括:
查找所述历史搜索数据中与所述目标词组对应的历史搜索的目标关键词;
将所述历史搜索的目标关键词与搜索实体之间的所述相关度作为所述历史相关度。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度,包括:
获取所述词组序列中除所述目标词组以外的其他词组的上下文信息,所述上下文信息包括:关键词信息,命名实体识别NER信息,词性信息,当前搜索位置信息;
根据所述上下文信息计算与所述搜索实体之间的上下文信息相关度。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所述历史相关度以及所述上下文信息相关度对所述搜索实体进行排序,包括:
根据如下贝叶斯公式确定概率最大的搜索实体:
其中,P(e|s)表示所述目标词组s与所述搜索实体e的所述历史相关度,P(q-s|e)表示所述词组序列q中除所述目标词组s以外的其他词组与所述搜索实体e的所述上下文信息相关度,E为对应每一所述目标词组的搜索实体组成的实体集合;
将所述概率最大的搜索实体作为信息搜索结果排序的首位。
6.一种信息搜索装置,其特征在于,包括:
确定模块,用于确定搜索字符串包含的词组序列;
相关度确定模块,用于将所述词组序列中的每一词组作为目标词组,并针对每一所述目标词组执行以下操作:
将所述目标词组作为关键词,确定对应所述关键词的搜索实体;
根据历史搜索数据确定所述目标词组与所述搜索实体的历史相关度;
确定所述词组序列中除所述目标词组以外的其他词组与所述搜索实体之间的上下文信息相关度;
排序模块,用于根据所述历史相关度以及所述上下文信息相关度对每一所述搜索实体进行排序;
显示模块,用于根据排序结果显示所述搜索字符串的信息搜索结果。
7.根据权利要求6所述的装置,其特征在于,所述确定模块包括:
分词子模块,用于对所述搜索字符串进行分词,得到多个词组;
组合子模块,用于将所述多个词组进行组合,得到词组组合,所述词组序列包括所述多个词组以及所述词组组合。
8.根据权利要求6所述的装置,其特征在于,还包括:
离线处理模块,用于根据历史数据中的搜索点击日志,实体类型信息以及实体提及信息确定历史搜索的关键词与搜索实体之间的相关度;
存储模块,用于保存历史搜索的关键词与搜索实体之间的所述相关度;
所述相关度确定模块包括:
查找子模块,用于查找历史数据中与所述目标词组对应的历史搜索的目标关键词;
历史相关度确定子模块,用于将所述历史搜索的目标关键词与搜索实体之间的所述相关度作为所述历史相关度。
9.根据权利要求6至8中任一项所述的装置,其特征在于,所述相关度确定模块包括:
获取子模块,用于获取所述词组序列中除所述目标词组以外的其他词组的上下文信息,所述上下文信息包括:关键词信息,命名实体识别NER信息,词性信息,当前搜索位置信息;
历史相关度确定子模块,用于根据所述上下文信息计算与所述搜索实体之间的上下文信息相关度。
10.根据权利要求6至8中任一项所述的装置,其特征在于,所述排序模块用于:
根据如下贝叶斯公式确定概率最大的搜索实体:
其中,P(e|s)表示所述目标词组s与所述搜索实体e的所述历史相关度,P(q-s|e)表示所述词组序列q中除所述目标词组s以外的其他词组与所述搜索实体e的所述上下文信息相关度,E为对应每一所述目标词组的搜索实体组成的实体集合;
将所述概率最大的搜索实体作为信息搜索结果排序的首位。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
12.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910335136.0A CN110147494B (zh) | 2019-04-24 | 2019-04-24 | 信息搜索方法、装置,存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910335136.0A CN110147494B (zh) | 2019-04-24 | 2019-04-24 | 信息搜索方法、装置,存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110147494A true CN110147494A (zh) | 2019-08-20 |
CN110147494B CN110147494B (zh) | 2020-05-08 |
Family
ID=67594415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910335136.0A Active CN110147494B (zh) | 2019-04-24 | 2019-04-24 | 信息搜索方法、装置,存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147494B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111198971A (zh) * | 2020-01-15 | 2020-05-26 | 北京百度网讯科技有限公司 | 搜索方法、搜索装置和电子设备 |
CN111291214A (zh) * | 2020-01-15 | 2020-06-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种检索文本的识别方法、装置及存储介质 |
CN111737571A (zh) * | 2020-06-11 | 2020-10-02 | 北京字节跳动网络技术有限公司 | 搜索方法、装置和电子设备 |
CN112307198A (zh) * | 2020-11-24 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种单文本的摘要确定方法和相关装置 |
CN112364235A (zh) * | 2020-11-19 | 2021-02-12 | 北京字节跳动网络技术有限公司 | 搜索处理方法、模型训练方法、装置、介质及设备 |
CN118761038B (zh) * | 2024-09-05 | 2024-11-15 | 大连数晨科技有限公司 | 一种多源异构数据关系的挖掘方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090234814A1 (en) * | 2006-12-12 | 2009-09-17 | Marco Boerries | Configuring a search engine results page with environment-specific information |
CN102279869A (zh) * | 2010-06-09 | 2011-12-14 | 微软公司 | 对实体间的关系进行导航 |
US20140214898A1 (en) * | 2013-01-30 | 2014-07-31 | Quixey, Inc. | Performing application search based on entities |
WO2014139120A1 (en) * | 2013-03-14 | 2014-09-18 | Microsoft Corporation | Search intent preview, disambiguation, and refinement |
CN105009116A (zh) * | 2012-12-31 | 2015-10-28 | 谷歌公司 | 使用内容识别作为用于搜索的上下文 |
CN105022776A (zh) * | 2014-04-30 | 2015-11-04 | 雅虎公司 | 与模块化搜索对象框架相关联的增强搜索结果 |
US20170097932A1 (en) * | 2015-10-06 | 2017-04-06 | Google Inc. | Media consumption context for personalized instant query suggest |
CN107943919A (zh) * | 2017-11-21 | 2018-04-20 | 华中科技大学 | 一种面向会话式实体搜索的查询扩展方法 |
-
2019
- 2019-04-24 CN CN201910335136.0A patent/CN110147494B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090234814A1 (en) * | 2006-12-12 | 2009-09-17 | Marco Boerries | Configuring a search engine results page with environment-specific information |
CN102279869A (zh) * | 2010-06-09 | 2011-12-14 | 微软公司 | 对实体间的关系进行导航 |
CN105009116A (zh) * | 2012-12-31 | 2015-10-28 | 谷歌公司 | 使用内容识别作为用于搜索的上下文 |
US20140214898A1 (en) * | 2013-01-30 | 2014-07-31 | Quixey, Inc. | Performing application search based on entities |
WO2014139120A1 (en) * | 2013-03-14 | 2014-09-18 | Microsoft Corporation | Search intent preview, disambiguation, and refinement |
CN105022776A (zh) * | 2014-04-30 | 2015-11-04 | 雅虎公司 | 与模块化搜索对象框架相关联的增强搜索结果 |
US20170097932A1 (en) * | 2015-10-06 | 2017-04-06 | Google Inc. | Media consumption context for personalized instant query suggest |
CN107943919A (zh) * | 2017-11-21 | 2018-04-20 | 华中科技大学 | 一种面向会话式实体搜索的查询扩展方法 |
Non-Patent Citations (1)
Title |
---|
武川等: "基于上下文特征的短文本实体链接研究", 《情报科学》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111198971A (zh) * | 2020-01-15 | 2020-05-26 | 北京百度网讯科技有限公司 | 搜索方法、搜索装置和电子设备 |
CN111291214A (zh) * | 2020-01-15 | 2020-06-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种检索文本的识别方法、装置及存储介质 |
CN111291214B (zh) * | 2020-01-15 | 2023-09-12 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种检索文本的识别方法、装置及存储介质 |
CN111737571A (zh) * | 2020-06-11 | 2020-10-02 | 北京字节跳动网络技术有限公司 | 搜索方法、装置和电子设备 |
CN111737571B (zh) * | 2020-06-11 | 2024-01-30 | 北京字节跳动网络技术有限公司 | 搜索方法、装置和电子设备 |
CN112364235A (zh) * | 2020-11-19 | 2021-02-12 | 北京字节跳动网络技术有限公司 | 搜索处理方法、模型训练方法、装置、介质及设备 |
WO2022105775A1 (zh) * | 2020-11-19 | 2022-05-27 | 北京字节跳动网络技术有限公司 | 搜索处理方法、模型训练方法、装置、介质及设备 |
CN112307198A (zh) * | 2020-11-24 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种单文本的摘要确定方法和相关装置 |
CN112307198B (zh) * | 2020-11-24 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 一种单文本的摘要确定方法和相关装置 |
CN118761038B (zh) * | 2024-09-05 | 2024-11-15 | 大连数晨科技有限公司 | 一种多源异构数据关系的挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110147494B (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
CN107862027B (zh) | 检索意图识别方法、装置、电子设备及可读存储介质 | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
US7783486B2 (en) | Response generator for mimicking human-computer natural language conversation | |
US7853582B2 (en) | Method and system for providing information services related to multimodal inputs | |
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
CN110147494A (zh) | 信息搜索方法、装置,存储介质及电子设备 | |
CN107256267A (zh) | 查询方法和装置 | |
CN110704743A (zh) | 一种基于知识图谱的语义搜索方法及装置 | |
US9639633B2 (en) | Providing information services related to multimodal inputs | |
CN109388743B (zh) | 语言模型的确定方法和装置 | |
CN112000776B (zh) | 基于语音语义的话题匹配方法、装置、设备及存储介质 | |
CN112434533B (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN113704507B (zh) | 数据处理方法、计算机设备以及可读存储介质 | |
CN102637179B (zh) | 词项加权函数确定及基于该函数进行搜索的方法及装置 | |
US20170091189A1 (en) | Location-sensitive ranking for search and related techniques | |
CN112650842A (zh) | 基于人机交互的客服机器人意图识别方法及相关设备 | |
CN117494815A (zh) | 面向档案的可信大语言模型训练、推理方法和装置 | |
CN116662495A (zh) | 问答处理方法、训练问答处理模型的方法及装置 | |
CN113505196B (zh) | 基于词性的文本检索方法、装置、电子设备及存储介质 | |
CN110362656A (zh) | 一种语义要素提取方法及装置 | |
US10585960B2 (en) | Predicting locations for web pages and related techniques | |
CN116186220A (zh) | 信息检索方法、问答处理方法、信息检索装置及系统 | |
CN118227831B (zh) | 跨模态视频检索方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |