CN108304444A - 信息查询方法及装置 - Google Patents
信息查询方法及装置 Download PDFInfo
- Publication number
- CN108304444A CN108304444A CN201711242486.XA CN201711242486A CN108304444A CN 108304444 A CN108304444 A CN 108304444A CN 201711242486 A CN201711242486 A CN 201711242486A CN 108304444 A CN108304444 A CN 108304444A
- Authority
- CN
- China
- Prior art keywords
- query word
- query
- word
- target
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种信息查询方法及装置,属于网络技术领域。所述方法包括:接收查询词;从多个历史查询词中获取所述查询词的目标查询词,所述目标查询词与所述查询词用于描述同一事件或相关事件;输出信息查询结果,信息查询结果为根据所述查询词和所述目标查询词进行查询得到。本发明通过从多个历史查询词中获取目标查询词,将该目标查询词作为扩展查询词,由于该扩展查询词与该查询词对应于同一事件或相关事件,使得获取的扩展查询词能够符合用户的真实意图,提高了扩展准确率。
Description
技术领域
本发明涉及网络技术领域,尤其涉及一种信息查询方法及装置。
背景技术
随着互联网的快速发展,网络上所传播的信息越来越多,如何从网络上的大量信息中查询到自己所需要的信息成为了用户越来越关心的问题。
目前,信息查询方法可以包括:当用户需要查看网络上的信息时,可以在搜索引擎提供的查询入口中输入查询词(query),并将该查询词提交给搜索引擎。该查询词可以是一个词,如“词语A”,也可以是多个词组成的短串,如“词语A词语B词语C”。搜索引擎可以根据该查询词,获取与该查询词的字面相似度较大(相同的字或词较多)的词作为该查询词的扩展查询词,然后,获取该查询词和该扩展查询词的信息查询结果后返回给用户。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
上述技术仅仅按照字面相似度对用户输入的查询词进行扩展,得到的扩展查询词可能并不符合用户的真实意图,扩展准确率低。
发明内容
本发明实施例提供了一种信息查询方法及装置,可以解决现有技术扩展准确率低的问题。所述技术方案如下:
一方面,提供了一种信息查询方法,所述方法包括:
接收查询词;
从多个历史查询词中获取所述查询词的目标查询词,所述目标查询词与所述查询词用于描述同一事件或相关事件;
输出信息查询结果,所述信息查询结果为根据所述查询词和所述目标查询词进行查询得到。
一方面,提供了一种信息查询方法,所述方法包括:
通过搜索框获取查询词;
将所述查询词输入至搜索引擎,通过所述搜索引擎基于多个历史查询词进行查询词扩展,得到所述查询词的目标查询词,所述目标查询词与所述查询词用于描述同一事件或相关事件;
输出信息查询结果,所述信息查询结果为根据所述查询词和所述目标查询词进行查询得到。
一方面,提供了一种信息查询装置,所述装置包括:
接收模块,用于接收查询词;
获取模块,用于从多个历史查询词中获取所述查询词的目标查询词,所述目标查询词对应的关键词包括所述查询词,所述目标查询词与所述查询词用于描述同一事件或相关事件;
输出模块,用于输出信息查询结果,所述信息查询结果为根据所述查询词和所述目标查询词进行查询得到。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现上述信息查询方法所执行的操作。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述信息查询方法所执行的操作。
本发明实施例提供的技术方案带来的有益效果是:
针对待查询的查询词,通过从多个历史查询词中获取目标查询词,将该目标查询词作为扩展查询词,由于该扩展查询词与该查询词对应于同一事件或相关事件,使得获取的扩展查询词能够符合用户的真实意图,提高了扩展准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种信息查询方法的实施环境示意图;
图2是本发明实施例提供的一种获取多个历史查询词的流程图;
图3是本发明实施例提供的一种获取候选查询词集合的流程图;
图4是本发明实施例提供的一种类簇以及对应的查询词的示意图;
图5是本发明实施例提供的一种信息查询方法的流程图。
图6是本发明实施例提供的一种信息查询方法的流程图。
图7是本发明实施例提供的一种信息查询装置的结构示意图;
图8是本发明实施例提供的一种信息查询装置的结构示意图;
图9是本发明实施例提供的一种信息查询装置的结构示意图;
图10是本发明实施例提供的一种服务器的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种信息查询方法的实施环境示意图,参见图1,该实施环境可以包括:多个终端101、用于为该多个终端提供服务的服务器102。其中,多个终端101通过无线或者有线网络和服务器102连接,该多个终端101可以为能够访问服务器102的电子设备,该电子设备可以为电脑、智能手机、平板电脑或者其他电子设备。服务器102可以为一个或者多个网站服务器,该服务器102可以作为信息的载体,该服务器102可以根据其用户通过终端对信息进行的查询操作,向用户提供相应信息。另外,该服务器102还可以配置至少一个数据库,如,信息数数据库、用户数据库等等。信息数数据库用于存储已发布的信息,用户数据库用于存储该服务器102所服务的用户的用户名、密码以及用户关系链等个人数据。本发明实施例所涉及的信息可以是指文章、图片以及视频等任一种信息,这类信息可以具有地址链接,从而使得用户通过终端对该地址链接进行点击操作时,能够实现对信息的查看。
本发明实施例中所涉及的公众号,实际上是指在社交应用平台或是信息分享平台上注册的一种区别于普通用户账号的账号,该账号可以为其他账号所订阅,平台可以将该账号所发布的信息(例如公众号文章)推送至订阅该账号的其他账号,使得形成了一个一对多的类似广播的消息机制,且,这种账号还可以具有账号内查询历史信息、账号内咨询以及一些其他信息服务功能。需要说明的是,该公众号可以由任何团体和个人经平台验证通过后注册,本发明实施例对此不做限定。
为了能够对用户所使用的查询词进行更加准确的扩展,本发明实施例可以结合大量用户在实际查询中所使用的查询词以及相关的信息查询结果,来获取多个可用于扩展的历史查询词,参见图2,图2是本发明实施例提供的一种获取多个历史查询词的流程图,下面以图2所示的过程为例对上述获取历史查询词的过程进行具体描述:
201、服务器从查询日志中获取多个指定查询词。
其中,指定查询词是指时新性满足预设条件的查询词,例如,该预设条件可以是时新性大于指定阈值。查询日志可用于记录多个用户的历史查询词、记录每个历史查询词的查询时间(如用户提交查询词的时间)以及每个历史查询词的信息查询结果的点击信息,该点击信息包括信息查询结果中被点击过的网页链接、网页内容以及该网页内容的标题等至少一项。本发明实施例对查询日志中记录的信息不做具体限定。
例如,上述查询日志的生成方式可以如下:用户在终端上输入某个查询词后,由终端向服务器提交该查询词,服务器可以根据该查询词进行信息查询,并将该查询词的信息查询结果返回给终端并由终端进行显示,终端可以根据用户的选择来显示相应信息查询结果的网页内容。在上述过程中,服务器可以采用将用户提交的查询词、查询时间以及用户对信息查询结果的点击信息等记录至查询日志。
在一种可能实现方式中,该多个指定查询词的获取过程可以包括步骤201A和步骤201B:
201A、服务器计算查询日志中每个历史查询词的时新性,该时新性用于指示查询词在当前时间点的热门程度。
在一种可能实现方式中,服务器可以统计预设时间段内每个历史查询词被查询的次数,根据每个历史查询词被查询的次数与所有历史查询词被查询的总次数计算时新性,其中,该预设时间段可以是与当前时间点相隔预设时间间隔的时间段。当然,上述仅是时新性计算的一个简单示例,服务器还可以通过其他方式计算时新性,本发明实施例对此不做限定。
201B、将时新性大于指定阈值的历史查询词获取为该多个指定查询词。
通过从查询日志中筛选出时新性较大的历史查询词作为指定查询词,使得服务器在将该指定查询词用于进行信息查询词时,可以保证信息查询结果的时新性。
需要说明的是,除了获取该多个指定查询词,服务器还可以从查询日志中获取该多个指定查询词的信息查询结果中被点击过的网页内容,以用于后续步骤b中对该多个指定查询词进行文本扩展。
202、服务器采用多个指定查询词的信息查询结果中被点击过的网页内容,对该多个指定查询词进行文本扩展。
服务器对指定查询词进行文本扩展,可以是指在指定查询词的基础上扩展出一些与该指定查询词具有相关性的字、词或短句。
在一种可能实现方式中,对于任一个待扩展的指定查询词,服务器可以从基于该指定查询词进行搜索时被点击过的网页内容的标题和/或正文中提取至少一个关键词,来对指定查询词进行扩展,这种扩展可以看做是对指定查询词的相关事件的描述,以便能够基于这样的描述来聚类同一事件或相关事件的查询词。
由于指定查询词的信息查询结果中被点击的网页内容一般是符合用户查询意图的信息查询结果,因此,上述通过被点击过的网页内容,对指定查询词进行文本扩展的过程,可以提高扩展的准确性。
203、服务器根据该多个指定查询词的文本扩展结果,基于多个指定查询词的文本和语义对该多个指定查询词进行聚类。
在一种可能实现方式中,该多个指定查询词的聚类过程可以包括步骤203A和步骤203B:
203A、服务器基于词袋模型(bag of words)和文本向量(doc2vec)模型,根据该多个指定查询词的文本扩展结果,获取该多个指定历史查询词的文本向量和语义向量。
其中,bag of words模型用于文本分类中,将文本表示成文本向量。该模型的基本思想是假定对于一个文本,忽略其词序和语法、句法,仅仅将其看做是一些词汇的集合,而文本中的每个词汇都是独立的。doc2vec模型用于将文本表示成语义向量,该文本的语义向量是一个表示该文本主题信息的向量。该模型的基本思想是考虑词与词之间的相互关系,利用词的上下文关系对该词进行预测,越相似的词在向量空间中越相近。
203B、基于该多个指定历史查询词的文本向量和语义向量,对该多个指定查询词进行聚类。
在一种可能实现方式中,服务器可以利用距离向量计算公式,根据各个指定查询词的文本向量和语义向量,计算两两之间的相似度,将相似度大于预设阈值的指定查询词组成一个类簇。
204、服务器从该多个指定查询词的聚类结果中获取多个第一类簇。
在一种可能实现方式中,该多个第一类簇的获取过程包括步骤204A和步骤204B:
204A、服务器计算该多个指定查询词聚类得到的每个类簇中查询词的数量和质量,查询词的质量基于查询词与类簇中心的相似度确定。
其中,服务器可以利用K-Means算法(硬聚类算法)确定每个类簇的类簇中心,以及计算查询词与类簇中心的相似度。K-Means算法的工作过程如下:首先从n个数据对象任意选择k个对象作为初始类簇中心;而对于剩下的其它对象,则根据它们与这些类簇中心的相似度(距离),分别将它们分配给与其最相似的(类簇中心所代表的)类簇;然后再计算每个类簇的类簇中心(该类簇中所有对象的均值);不断重复上述过程直到标准测度函数开始收敛为止,一般都采用均方差作为标准测度函数。
204B、将查询词的数量大于指定数量且质量大于第一预设阈值的类簇获取为该多个第一类簇。
通过将查询词数量多质量大的类簇获取为第一类簇,保证了第一类簇中的查询词均对应于同一事件或相关事件,进而从第一类簇中获取用于对用户所使用的查询词进行扩展的历史查询词,可以提高历史查询词选取的准确性。
205、服务器从多个第一类簇的每个第一类簇中选取一个指定查询词作为该每个第一类簇的历史查询词,从该被点击过的网页内容中获取该每个第一类簇的多个关键词。
在一种可能实现方式中,服务器在筛选出多个第一类簇后,针对每个第一类簇,服务器可以从该第一类簇中,采用预设规则,选取一个指定查询词作为该第一类簇的历史查询词来代表该第一类簇。
例如,该预设规则可以是选取一个数量最多的指定查询词。这种直接从类簇中选取一个指定查询词作为该类簇的历史查询词的方式,使得每个第一类簇的历史查询词都是用户真实搜索过的历史查询词。而由于指定查询词是时新性比较高的历史查询词,因而,可以保证每个第一类簇的历史查询词的时新性都比较高。
在该步骤205中,在获取每个第一类簇的历史查询词的同时,服务器还可以获取该每个第一类簇的多个关键词,例如,服务器可以从每个第一类簇中指定查询词的信息查询结果中被点击过的网页内容中,提取该每个第一类簇的多个关键词。对于任一个第一类簇,该第一类簇的多个关键词可以用于描述该第一类簇,该关键词与该第一类簇的历史查询词对应同一事件或相关事件。基于关键词这一性质,服务器可以将该关键词用于从多个历史查询词中,确定可用于对用户所使用的查询词进行扩展的查询词。
该多个历史查询词的质量比较高,是用户真正搜索过的查询词。在实际应用中,服务器可以采用预设时长,对该多个历史查询词进行周期性更新,例如,该预设时长为3小时,则该多个历史查询词每3个小时更新一次,每次新增200个左右的历史查询词。
为了能够对用户所使用的查询词进行更加全面的扩展,本发明实施例可以基于多个网页内容,来获取可用于扩展的候选查询词集合,参见图3,图3是本发明实施例提供的一种获取候选查询词集合的流程图,下面以图3所示的过程为例对上述获取候选查询词集合的过程进行具体描述:
301、服务器基于用户生产内容,获取第一查询词集合,该用户生产内容的覆盖面大于第一阈值。
其中,该用户生产内容(user generated content,UGC)是指用户自己生产的内容,如公众号文章。这类内容的覆盖面比较广,既能覆盖真实世界发生的事件,比如“XX地震”,也能覆盖网络上的虚拟事件,比如“公益小朋友绘画作品拍卖”。
在一种可能实现方式中,该第一查询词集合的获取过程包括以下步骤a至c:
a、根据待处理的多个用户生产内容的文本向量,对该多个用户生产内容进行聚类,得到多个第二类簇。
在一种可能实现方式中,服务器可以基于bag of words模型获取各个用户生产内容的文本向量,再利用各个用户生成内容的文本向量,计算两两之间的相似度,将相似度大于预设阈值的用户生成内容组成一个类簇。
b、对于该多个第二类簇中的每个第二类簇,从该第二类簇内的网页内容中提取该第二类簇的多个关键词。
在一种可能实现方式中,服务器可以将网页内容中出现次数大于预设次数的词获取为关键词。
c、将该第二类簇的多个关键词组成该第二类簇对应的查询词。
本发明实施例中,服务器可以将第二类簇的多个关键词作为独立的词,组成该第二类簇对应的查询词。
进一步地,为了提高组合的准确性,服务器也可以根据该第二类簇的多个关键词在该第二类簇内的网页内容中出现的顺序,调整该第二类簇的多个关键词的顺序,得到该第二类簇对应的查询词,以作为事件的描述
在一种可能实现方式中,当出现新增网页内容时,服务器可以根据该新增网页内容与已有类簇的相似度,来确定是否针对该新增网页内容生成新类簇。具体地,针对步骤a中已生成的多个第二类簇,对于任一个新增网页内容,服务器可以计算该新增网页内容和该多个第二类簇的相似度,得到多个相似度,该相似度可以是余弦相似度。例如,服务器可以先基于bag of words模型,获取该新增网页内容和该第二类簇中网页内容的文本向量,进而利用距离向量计算公式,计算两者的相似度。
进一步地,当该多个相似度中的最大相似度大于预定义阈值时,服务器将该新文章分配给该最大相似度对应的类簇。通过在新增网页内容与已有类簇相似度较大的情况下,直接将新增网页内容分配给该已有类簇,可以减少类簇的生成次数,而且也实现了对已有类簇的更新。
另外,当该多个相似度中的最大相似度小于或等于该预定义阈值时,服务器生成一个新类簇,并将该新增网页内容分配给该新类簇。通过在新增网页内容与已有类簇相似度较小的情况下,将针对该新增网页内容生成新的类簇,从而实现类簇数量的动态更新。
在一种可能实现方式中,如果一个已有类簇很久没有更新,则服务器可以对该已有类簇以时间衰减的方式进行退场。以已有的多个第二类簇为例,当该多个第二类簇中任一个第二类簇在第一预设时长内没有新增网页内容时,则服务器可以等待第二预设时长后删除该第二类簇。
通过上述查询词的获取过程可知,每个类簇对应的查询词实际上是一个事件描述,下面结合图4进行更直观的说明,参见图4,图4是本发明实施例提供的一种类簇以及对应的查询词的示意图,图4的左侧图展示了基于公众号文章,可以聚类出“大熊猫出国”的类簇,基于该类簇,通过关键词提取生成图4右侧图所示的“大熊猫出国外交”的事件描述3。图4的右侧图给出了该事件描述3前后一些相关的事件描述,如事件描述1、事件描述2、事件描述4,这些相关的事件描述基于其他类簇生成,这些事件描述完整展现“大熊猫出国”事件的发展脉络。在查询词扩展时,当用户搜索“大熊猫”“熊猫外交”“大熊猫返华”等事件相关的查询词时,服务器可以扩展出图4右侧的事件描述,但是当用户搜索“留学”“保护”等和事件不太相关的查询词时,则不会触发扩展图4右侧的事件描述。
在实际应用中,服务器可以采用预设时长,对该第一查询词集合进行周期性更新,例如,该预设时长为12小时,则该第一查询词集合每12个小时更新一次,每次新增200至300个左右的查询词。
302、服务器基于专业生产内容,获取第二查询词集合,该专业生产内容的时效性大于第二阈值。
其中,该专业生产内容(professionally-generated content,PGC)是专业平台生产的内容,如新闻文章。这类内容的时效性强,时效性是指内容仅在一定时间段内对决策具有价值的属性。对于新闻文章,今天看了是新闻,明天看了就是旧闻,也即是新闻文章具有时效性,可以用于进行扩充更具有时效性的查询词。
该第二查询词集合的获取过程与步骤202中第一查询词集合的获取过程同理,在此不再赘述。在实际应用中,服务器可以采用预设时长,对该第二查询词集合进行周期性更新,第二查询词集合的更新时长可以与第一查询词集合相同,也可以不同,例如,该预设时长为0.5小时,则该第二查询词集合每半个小时更新一次,每次新增200个左右的查询词。通过基于时效性强的新闻文章等专业生成内容获取用于进行信息查询的查询词,可以将信息查询的时效性提高到半个小时。
303、服务器对第一查询词集合和第二查询词集合进行去重处理,得到候选查询词集合。
考虑到第一查询词集合和第二查询词集合中的查询词可能存在重复,因此,服务器可以对这两个集合中的查询词进行去重处理,将剩下的查询词组成该候选查询词集合。通过上述步骤202至步骤204可知,该候选查询词集合是服务器根据多个网页内容(包括用户生成内容和专业生成内容)挖掘得到,该候选查询词可用于对用户所使用的查询词进行扩展。
需要说明的是,本发明实施例是以服务器将第一查询词集合和第二查询词集合组合得到候选查询词集合为例进行说明,实际上,服务器也可以将第一查询词集合和第二查询词集合中的任一集合获取为该候选查询词集合。
本发明实施例提供的方法,通过基于查询日志、用户生成内容和专业生成内容等不同数据源,获取可用于对查询词进行扩展查询的多个历史查询词和候选查询词集合,使得在需要进行信息查询时,服务器可以根据待查询的查询词,从该多个历史查询词和候选词集合中获取相关的查询词来执行进行信息查询的步骤。
需要说明的是,服务器可以仅通过图2对应的实施例获取多个历史查询词后,在需要进行信息查询时,从该多个历史查询词中选取查询词对用户所使用的查询词进行扩展。服务器也可以在通过图2对应的实施例获取多个历史查询词的基础上,通过图3对应的实施例获取候选查询词集合,在需要进行信息查询时,从该多个历史查询词和该候选查询词集合中选取查询词对用户所使用的查询词进行扩展。本发明实施例对此不做限定。
上述图2和图3对应的实施例是服务器获取多个历史查询词和/或候选查询词集合的过程。当需要进行信息查询时,服务器可以根据待查询的查询词,从该多个历史查询词和/或候选查询词集合中选取一些查询词作为扩展查询词,进而执行进行信息查询的步骤,其中,扩展查询词时,可以通过终端来显示搜索框,并通过搜索框获取用户所输入的查询词;在获取到查询词后,终端将该查询词输入至搜索引擎,通过搜索引擎基于多个历史查询词进行查询词扩展,得到该查询词的目标查询词,该目标查询词与该查询词用于描述同一事件或相关事件;输出信息查询结果,该信息查询结果为根据该查询词和该目标查询词进行查询得到。当然,上述搜索引擎还可以基于候选查询词集合进行查询词扩展。具体过程参见图5对应的实施例。图5是本发明实施例提供的一种信息查询方法的流程图。该方法由服务器执行,参见图5,该方法包括:
501、服务器接收查询词。
其中,该查询词是指用户向服务器提交的查询词,例如,服务器接收到的信息查询请求中携带的查询词。该服务器可以是上述搜索引擎所对应的信息服务器,用以提供查询词扩展以及信息查询功能。
在一种可能实现方式中,服务器接收查询词的过程包括:服务器接收终端发送的信息查询请求,从该信息查询请求中获取查询词。其中,该信息查询请求可以由终端发送给服务器,例如,用户可以在终端上输入查询词,并触发对该查询词的信息查询请求,如对查询按钮进行点击操作,使得终端可以将用户输入的查询词携带在信息查询请求中发送给服务器。
可选地,服务器在接收查询词后,还可以对该查询词进行干预过程,该干预过程是指服务器判断该查询词是否为敏感词,如果不是敏感词,则执行后续步骤,如果为敏感词,则直接根据该查询词进行信息查询。例如,服务器可以维护一个敏感词数据库,通过将该查询词与敏感词数据库中的敏感词进行比较,如果该查询词与任一个敏感词相同,则认为该查询词为敏感词。
502、服务器从多个历史查询词中获取该查询词的目标查询词,该目标查询词与该查询词用于描述同一事件或相关事件。
其中,该多个历史查询词可以是图2对应的实施例中的步骤201获取到的多个历史查询词。
通过图2对应的实施例可知,服务器是通过聚类的方式获取的该多个历史查询词,每个历史查询词对应于一个类簇,该类簇中的所有查询词对应于同一事件或相关事件。每个历史查询词对应的关键词用于描述其所属类簇,同样也对应于同一事件或相关事件。因此,服务器可以利用该多个历史查询词对用户所使用的查询词进行扩展,为了保证扩展的有效性,即扩展的查询词与用户所使用的查询词用于查询同一事件,属于同一查询意图,服务器可以获取该查询词相关的目标查询词。
在一种可能实现方式中,服务器从多个历史查询词中获取目标查询词的过程包括:根据该查询词遍历该多个历史查询词对应的多个关键词,每个历史查询词对应于描述该同一事件或相关事件的多个关键词;当任一个历史查询词对应的多个关键词中包括该查询词时,将该历史查询词作为该目标查询词。通过采用关键词完全包括查询词的方式,从多个历史查询词中获取目标查询词,由于每个历史查询词对应于同一事件或相关事件,使得获取的目标查询词与该查询词属于同一查询意图,根据目标查询词获取的信息查询结果能够符合用户的真实意图,提高了扩展准确率。
503、当该目标查询词的数量等于预设数量时,服务器根据该查询词和该目标查询词进行信息查询,输出信息查询结果。
服务器输出信息查询结果可以是指服务器将信息查询结果发送至终端,并由终端进行显示,该信息查询结果为根据查询词和扩展得到的目标查询词进行查询得到。
可以理解的是,在实际应用中,服务器可以提供预设数量的扩展槽位,对于每个待查询的查询词,服务器都可以获取预设数量的扩展查询词。相应地,当上述步骤502中获取的目标查询词的数量等于该预设数量时,服务器可以直接根据该查询词和该目标查询词进行信息查询,也即,本公开实施例提供的方法可以包括步骤501、步骤502和步骤503。
在该步骤503中,服务器根据该查询词和该目标查询词进行信息查询的过程可以包括:服务器从数据库中查询与该查询词和该目标查询词相关的发布信息作为信息查询结果,并向提交该查询词的终端返回该信息查询结果,使得终端可以显示该查询词的信息查询结果供用户查看。其中,该数据库用于存储各个用户发布到网络上的信息,包括用户生成内容(如公众号文章)和专业生成内容(如新闻文章)。
需要说明的是,该步骤503仅是服务器根据该查询词和该目标查询词进行信息查询的一种可能实现方式,该可能实现方式下,当目标查询词的数量等于预设数量时,服务器才执行信息查询的步骤。实际上,服务器可以无需考虑目标查询词的数量与预设数量之间的大小关系,而在从多个历史查询词中获取目标查询词后,直接执行根据该查询词和该目标查询词进行信息查询的步骤。
通过查询词和目标查询词来获取信息查询结果,而不是只通过查询词获取信息查询结果,通过使用更准确的查询词来进行查询,也能够在保证返回信息查询结果的准确率的同时提高召回率,即为用户提供更多的信息查询结果。另外,目标查询词与该查询词属于同一查询意图,根据目标查询词获取的信息查询结果能够符合用户的真实意图,提高了扩展准确率。
上述步骤503是当目标查询词的数量刚好能够填充所有的扩展槽位时,服务器直接根据查询词和目标查询词进行信息查询的过程。
504、当该目标查询词的数量小于预设数量时,服务器根据该查询词和预先建立的倒排索引表,从候选查询词集合中获取目标候选查询词,该候选查询词集合包括通过聚类得到的多个第二类簇的查询词,该目标候选查询词与该查询词的相似度大于第二预设阈值。
其中,该候选查询词可以是图3对应的实施例中的步骤302至步骤304获取到的候选查询词集合。
本发明实施例中,服务器提供有预设数量的扩展槽位,如果服务器用于进行信息查询的查询词数量小于这个预设数量,则服务器获取的信息查询结果可能不够准确,因此,当步骤502中获取的目标查询词的数量小于该预设数量时,服务器还需要获取更多的扩展查询词后,再执行进行信息查询的步骤,具体过程包括步骤504和步骤505,此情况下,本公开实施例提供的方法可以包括步骤501、步骤502、步骤504和步骤505。
需要说明的是,该步骤504仅是服务器获取目标候选查询词的一种可能实现方式,该方式下,当目标查询词的数量小于预设数量时,服务器才执行获取目标候选查询词的步骤。实际上,服务器可以无需考虑目标查询词的数量与预设数量之间的大小关系,而在从多个历史查询词中获取目标查询词后,直接执行获取该目标候选查询词的步骤。
在一种可能实现方式中,服务器根据该查询词和预先建立的倒排索引表,从候选查询词集合中获取目标候选查询词可以包括以下步骤a-c:
a、根据该查询词和该倒排索引表,从候选查询词集合中获取该查询词索引到的多个候选查询词。
该步骤a是服务器从候选查询词集合中以倒排索引的方式获取该查询词相关的一些候选查询词。其中,该倒排索引表可以是以多个查询词为关键词建立索引,索引内容为与查询词相关的多个候选查询词,相应地,服务器可以将该倒排索引表中该查询词的索引内容获取为该查询词相关的多个候选查询词。
b、计算该查询词与该多个候选查询词的相关性。
在一种可能实现方式中,服务器可以利用相关性模型,计算该查询词与该多个候选查询词的相关性。其中,该相关性模型可以是一个二分类模型。服务器可以利用梯度提升决策树(Gradient Boosting Decision Tree,GBDT)对该相关性模型进行训练。具体地,服务器可以基于多个查询词样本特征以及各个样本特征对应的相关性,利用GBDT进行模型训练,得到该相关性模型。其中,查询词样本特征可以包括表1中的特征,表1中,query和event可以代表两个查询词。相应地,“query和event共同term的长度”是指两个查询词中共同词的长度;“query和event共同term的长度/query长度”是指两个查询词中共同词的长度与其中一个查询词的长度的比值;“query和event共同term的长度/event长度”是指两个查询词中共同词的长度与另一个查询词的长度的比值;“query和event的bm25相关性”和“event和query的bm25相关性”是指根据最佳匹配算法(best match 25,简称为bm25)算法计算得到的相关性得分;“query中term最大的idf值”是指查询词中各个词的最大的逆向文件频率(inverse document frequency,简称为idf)值中的最大idf值;“query中term最大的idf值/term个数”是指查询词中各个词的idf值中的最大idf值与该查询词中词的数量的比值;“query和event共同term的idf和”是指两个查询词中共同词的idf值之和;“query和event共同term的idf和/query中term的idf和”是指两个查询词中共同词的idf值之和与其中一个查询词中各个词的idf值之和;“query和event共同term的词权重和”是指两个查询中共同词的权重之和;“query和event共同term的词权重和/event中词权重和”是指两个查询中共同词的权重之和与其中一个查询词中各个词的权重之和。
在模型应用中,服务器可以通过该相关性模型和表1中的特征,计算该查询词与候选查询词的相关性,其中,表1中的query是指该查询词,event是指候选查询词。对于该查询词与任一个候选查询词,服务器可以将该查询词与该任一个候选查询词的特征输入该相关性模型,将该相关性模型的输出获取为该查询词与该任一个候选查询词的相关性。
表1
通过相关性模型计算查询词和候选查询词的相关性,而该相关性是由查询词和候选查询词的特征确定,这样能够在获取查询词的目标候选查询词的同时,也考虑查询词和目标候选查询词的特征,从而保证目标候选查询词获取的准确率。
c、将与该查询词的相关性大于第二预设阈值的候选查询词获取为该目标候选查询词。
考虑到该查询词相关的候选查询词可能会非常多,如果服务器把所有的候选查询词都用来进行信息查询,则会影响服务器的查询性能。所以,服务器需要对候选查询词进行筛选。
需要说明的是,该步骤c仅是服务器对候选查询词进行筛选的一种可能实现方式,实际上,服务器也可以对多个候选查询词,按照与查询词的相关性从高到低进行排序,将排序靠前的目标数量的候选查询词获取为该目标候选查询词。
505、服务器根据该查询词、该目标查询词和该目标候选查询词,进行信息查询,输出信息查询结果。
服务器输出信息查询结果可以是指服务器将信息查询结果发送至终端,并由终端进行显示,该信息查询结果为根据查询词以及扩展得到的目标查询词和目标候选查询词进行查询得到。
本发明实施例中,服务器在获取目标查询词和目标候选查询词后,可以直接根据用户所使用的该查询词、该目标查询词和该目标候选查询词进行信息查询。当然,服务器也可以对这些查询词进行相应处理后,再执行进行信息查询的步骤。在一种可能实现方式中,服务器根据该查询词、该目标查询词和该目标候选查询词,进行信息查询可以包括以下步骤:
a、对该目标查询词和该目标候选查询词进行去重处理,得到该查询词的扩展查询词;
在该步骤a中,服务器对该目标查询词和该目标候选查询词进行去重处理的过程包括:计算该目标查询词与该目标候选查询词的字面相似度;当任一个目标查询词与任一个目标候选查询词的字面相似度大于目标阈值时,删除该任一个目标候选查询词。其中,字面相似度是以字为单位计算两者之间的编辑距离,通过距离阈值来判断两者之间的字面相似度。通过按照字面相似度对目标查询词和目标候选查询词进行去重,提供了一种获取扩展查询词的有效方式。
b、按照预设排序规则,对该查询词的扩展查询词进行排序,获取排序靠前的目标数量的扩展查询词,该目标数量为该查询词的扩展查询词的数量与该预设数量之间的差值,该预设排序规则为目标查询词排在目标候选查询词的前面且生成时间越晚的目标候选查询词排序越靠前。
针对目标查询词和目标候选查询词,由于目标查询词是用户真正查询过的查询词,相比于目标候选查询词,该目标查询词的质量较高,因此服务器可以将该目标查询词排在目标候选查询词的前面。
c、根据该查询词和该目标数量的扩展查询词,进行信息查询。
服务器在进行信息查询时,会按照该查询词和该扩展查询词的顺序逐个选取查询词进行信息查询,如从数据库中查询与该查询词和该目标数量的扩展查询词相关的发布信息作为信息查询结果,并按照查询时的该顺序返回多个信息查询结果给终端,如查询词的信息查询结果排在扩展查询词的信息查询结果之前,使得用户可以更快速地寻找到自己想要的信息查询结果。
上述步骤504和步骤505是当目标查询词的数量不能填充所有的扩展槽位时,服务器获取目标候选词后进行信息查询的过程。通过倒排召回的方式,从候选查询词集合中获取查询词相关的候选查询词,再利用相关性模型分别计算查询词和每个候选查询词的相关性,排除相关性比较低的候选查询词,得到目标候选查询词,将目标候选查询词按照字面相似度和目标查询词做个排重,根据目标候选查询词的生成时间对满足相关性模型的目标候选查询词调整扩展顺序,最后扩展的查询词和原查询词一起进行下发检索,可以提高查询的准确性以及召回率。
506、当该目标查询词的数量大于预设数量时,服务器根据该目标查询词的生成时间或权重,获取该预设数量的目标查询词。
本发明实施例中,服务器可以提供有预设数量的扩展槽位,如果服务器用于进行信息查询的查询词数量超过这个预设数量,服务器可能无法较好的完成信息查询过程,因此,当步骤502中获取的目标查询词的数量大于该预设数量时,服务器可以筛选出预设数量的目标查询词,再执行进行信息查询的步骤,具体过程参见下述步骤506和步骤507,此情况下,本公开实施例提供的方法可以包括步骤501、步骤502、步骤506和步骤507。
在该步骤506中,针对目标查询词的生成时间,由于该目标查询词是从多个历史查询词中选取的查询词,因此,该目标查询词也是历史查询词,针对步骤205中生成第一类簇的历史查询词的过程,服务器可以将从第一类簇中选取该目标查询词,作为第一类簇的历史查询词的时间作为该目标查询词的生成时间。
针对目标查询词的权重,服务器可以在步骤205中生成第一类簇的历史查询词的同时,计算每个历史查询词的权重,例如,服务器可以根据该目标查询词对应的第一类簇中各个查询词与类簇中心的相似度,确定该目标查询词的权重,相似度越大,权重越大。其中,查询词与类簇中心的相似度可以通过K-Means算法计算,关于K-Means算法在步骤204中已有介绍,不再赘述。
需要说明的是,本发明实施例是以服务器根据生成时间或权重获取预设数量的目标查询词为例进行说明。另外,服务器可以无需考虑目标查询词的数量与预设数量之间的大小关系,而是直接保留所有目标查询词,进而根据该查询词和所有目标查询词进行信息查询。
507、服务器根据该查询词和该预设数量的目标查询词,进行信息查询,输出信息查询结果。
服务器输出信息查询结果可以是指服务器将信息查询结果发送至终端,并由终端进行显示,该信息查询结果为根据查询词和扩展得到的目标查询词进行查询得到。
该步骤507与步骤503同理,不再赘述。
上述步骤506和步骤507是当目标查询词的数量多于所有的扩展槽位时,服务器对目标查询词进行筛选后进行信息查询的过程。
本发明实施例提供的方法,针对待查询的查询词,通过采从多个历史查询词中获取目标查询词,将该目标查询词作为扩展查询词,由于该扩展查询词与该查询词对应于同一事件或相关事件,使得获取的扩展查询词能够符合用户的真实意图,提高了扩展准确率。
另外,当目标查询词的数量较少时,服务器还可以获取更多的候选查询词,根据该查询词、该目标查询词以及该候选查询词一起进行信息查询得到更贴合用户真实意图的信息查询结果,提高了召回率。
为了便于更直观的理解本发明实施例提供的信息查询方法,下面将结合图7提供的一种信息查询方法的整体架构示意图,对图2、图3和图5所示实施例提供的技术方案进行解释说明。下面以用户生产内容为公众号文章,专业生成内容为新闻文章,多个历史查询词为热词事件描述,第一候选查询词集合为公众号事件描述,第二候选查询词集合为新闻事件描述为例,举出本发明的一个实际应用场景。在该实际应用场景中,本发明的技术方案可以包括热点事件检测和在线事件扩展两部分,前者是通过不同的数据源(查询日志,公众号文章,新闻文章)挖掘热点突发事件,得到事件描述,后者是在用户搜索时,扩展出查询词相关的事件描述,扩大召回,指导排序。
如图6所示,在事件检测时,服务器可以基于查询日志获取多个热词事件描述,该方法每3个小时更新一次,每次新增200个左右话题,该过程对应图2所示实施例中的步骤201中步骤205;
服务器还可以基于公众号文章,获取公众号事件描述,该方法每12个小时更新一次,每次大概能产生300~400的话题。该过程对应图3所示实施例中的步骤301;
另外,服务器还可以基于新闻文章,获取新闻事件描述,该方法基于新闻数据源以一种近实时的方式去挖掘突发热点事件,将整体的时效性提升到半个小时内,每次新增200个左右的话题,该过程对应图3所示实施例中的步骤302;
获取公众号事件描述和新闻事件描述后,服务器还可以对这两种事件描述进行去重,得到事件词典,该过程对应图3所示实施例中的步骤303。
在线事件扩展时,服务器可以获取用户输入的查询词,并对其进行干预过程,该过程对应图5所示实施例中的步骤501;
进而,服务器可以通过关键词召回的方式,从热词事件描述中获取查询词相关的热词事件描述,该过程对应图5所示实施例中的步骤502,进而根据该查询词和热词事件描述进行信息查询;
在获取目标事件描述后,如果热词事件描述没有达到最大扩展数,服务器可以通过倒排召回的方式,从事件词典中获取查询词相关的候选事件描述,再通过查询词和事件的相关性模型来对查询词进行事件扩展,例如,利用相关性模型分别计算查询词和每个候选事件描述的相关性,排除相关性比较低的候选事件描述,将候选事件描述按照字面相似度和热词事件做个在线去重,根据事件的检测时间对满足相关性模型的事件调整扩展顺序。最后扩展的事件描述和查询词一起进行下发检索。该过程对应图5所示实施例中的步骤504和步骤505。
经过详细的评测,在检测扩展查询词方面,检测到的扩展查询词对应的事件总体覆盖率可以达到88.9%,能够覆盖大部分真实世界中发生的事件。在信息查询方面,扩展的准确率是98.6%,召回率是80.68%。
图7是本发明实施例提供的一种信息查询装置的结构示意图。参照图7,该装置包括:接收模块701、获取模块702和输出模块703。
接收模块701,用于接收查询词;
获取模块702,用于从多个历史查询词中获取该查询词的目标查询词,该目标查询词与该查询词用于描述同一事件或相关事件;
输出模块703,用于输出信息查询结果,该信息查询结果为根据该查询词和该目标查询词进行查询得到。
在一种可能实现方式中,该获取模块702用于根据该查询词遍历该多个历史查询词对应的多个关键词,每个历史查询词对应于描述同一事件或相关事件的多个关键词;当任一个历史查询词对应的多个关键词中包括该查询词时,将该历史查询词作为该目标查询词。
在一种可能实现方式中,该获取模块702还用于采用多个指定查询词的信息查询结果中被点击过的网页内容,对该多个指定查询词进行文本扩展;根据该多个指定查询词的文本扩展结果,基于多个指定查询词的文本和语义对该多个指定查询词进行聚类;从多个第一类簇的每个第一类簇中选取一个指定查询词作为该每个第一类簇的历史查询词,从该被点击过的网页内容中获取该每个第一类簇的多个关键词。
在一种可能实现方式中,该获取模块702用于基于词袋模型和文本向量模型,根据该多个指定查询词的文本扩展结果,获取该多个指定历史查询词的文本向量和语义向量;基于该多个指定历史查询词的文本向量和语义向量,对该多个指定查询词进行聚类。
在一种可能实现方式中,该获取模块702还用于计算查询日志中每个历史查询词的时新性,该时新性用于指示查询词在当前时间点的热门程度,该查询日志用于记录多个用户的历史查询词;将时新性大于指定阈值的历史查询词获取为该多个指定查询词。
在一种可能实现方式中,该获取模块702还用于计算该多个指定查询词聚类得到的每个类簇中查询词的数量和质量,查询词的质量基于查询词与类簇中心的相似度确定;将查询词的数量大于指定数量且质量大于第一预设阈值的类簇获取为该多个第一类簇。
在一种可能实现方式中,该输出模块703用于当该目标查询词的数量等于预设数量时,输出信息查询结果。
在一种可能实现方式中,该获取模块702还用于当该目标查询词的数量小于预设数量时,根据该查询词和预先建立的倒排索引表,从候选查询词集合中获取目标候选查询词,该候选查询词集合包括通过聚类得到的多个第二类簇的查询词,该目标候选查询词与该查询词的相似度大于第二预设阈值;
该输出模块703还用于输出信息查询结果,该信息查询结果为根据该查询词、该目标查询词和该目标候选查询词进行查询得到。
在一种可能实现方式中,该获取模块702用于根据该查询词和该倒排索引表,从候选查询词集合中获取该查询词索引到的多个候选查询词;计算该查询词与该多个候选查询词的相关性;将与该查询词的相关性大于第二预设阈值的候选查询词获取为该目标候选查询词。
在一种可能实现方式中,该获取模块702还用于根据待处理的多个网页内容的文本向量,对该多个网页内容进行聚类,得到多个第二类簇;对于该多个第二类簇中的每个第二类簇,从该第二类簇内的网页内容中提取该第二类簇的多个关键词;将该第二类簇的多个关键词组成该第二类簇对应的查询词。
在一种可能实现方式中,该获取模块702用于根据该第二类簇的多个关键词在该第二类簇内的网页内容中出现的顺序,调整该第二类簇的多个关键词的顺序,得到该第二类簇对应的查询词。
在一种可能实现方式中,参见图8,该装置还包括:
计算模块704,用于对于任一个新增网页内容,计算该新增网页内容和该多个第二类簇的相似度,得到多个相似度;
分配模块705,用于当该多个相似度中的最大相似度大于预定义阈值时,将该新文章分配给该最大相似度对应的类簇;
生成模块706,用于当该多个相似度中的最大相似度小于或等于该预定义阈值时,生成一个新类簇,并将该新增网页内容分配给该新类簇。
在一种可能实现方式中,参见图9,该装置还包括:
删除模块707,用于当该多个第二类簇中任一个第二类簇在第一预设时长内没有新增网页内容时,则等待第二预设时长后删除该第二类簇。
在一种可能实现方式中,该多个网页内容包括用户生产内容和专业生产内容,该用户生产内容的覆盖面大于第一阈值,该专业生产内容的时效性大于第二阈值。
在一种可能实现方式中,该输出模块703用于对该目标查询词和该目标候选查询词进行去重处理,得到该查询词的扩展查询词;按照预设排序规则,对该查询词的扩展查询词进行排序,获取排序靠前的目标数量的扩展查询词,该目标数量为该查询词的扩展查询词的数量与该预设数量之间的差值,该预设排序规则为目标查询词排在目标候选查询词的前面且生成时间越晚的目标候选查询词排序越靠前;输出信息查询结果,该信息查询结果为根据该查询词和该目标数量的扩展查询词进行查询得到。
在一种可能实现方式中,该输出模块703用于计算该目标查询词与该目标候选查询词的字面相似度;当任一个目标查询词与任一个目标候选查询词的字面相似度大于目标阈值时,删除该任一个目标候选查询词。
在一种可能实现方式中,该获取模块702,还用于当该目标查询词的数量大于预设数量时,根据该目标查询词的生成时间或权重,获取该预设数量的目标查询词;
该输出模块703还用于输出信息查询结果,该信息查询结果为根据该查询词、该目标查询词和该目标候选查询词进行查询得到。
本发明实施例中,针对待查询的查询词,通过从多个历史查询词中获取目标查询词,将该目标查询词作为扩展查询词。由于该扩展查询词与该查询词对应于同一事件或相关事件,使得获取的扩展查询词能够符合用户的真实意图,提高了扩展准确率。
需要说明的是:上述实施例提供的信息查询装置在信息查询时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的信息查询装置与信息查询方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图10是本发明实施例提供的一种服务器1000的框图。参照图10,装置1000包括处理组件1022,其进一步包括一个或多个处理器,以及由存储器1032所代表的存储器资源,用于存储可由处理组件1022的执行的指令,例如应用程序。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1022被配置为执行指令,以执行上述信息查询方法。
装置1000还可以包括一个电源组件1026被配置为执行装置1000的电源管理,一个有线或无线网络接口1050被配置为将装置1000连接到网络,和一个输入输出(I/O)接口1058。装置1000可以操作基于存储在存储器1032的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条指令、至少一段程序、代码集或指令集的存储器,上述至少一条指令、至少一段程序、代码集或指令集可由处理器加载并执行以完成上述图2、图3或图5对应的实施例中的信息查询方法。例如,计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random-Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (15)
1.一种信息查询方法,其特征在于,所述方法包括:
接收查询词;
从多个历史查询词中获取所述查询词的目标查询词,所述目标查询词与所述查询词用于描述同一事件或相关事件;
输出信息查询结果,所述信息查询结果为根据所述查询词和所述目标查询词进行查询得到。
2.根据权利要求1所述的方法,其特征在于,所述从多个历史查询词中获取所述查询词的目标查询词包括:
根据所述查询词遍历所述多个历史查询词对应的多个关键词,每个历史查询词对应于描述同一事件或相关事件的多个关键词;
当任一个历史查询词对应的多个关键词中包括所述查询词时,将所述历史查询词作为所述目标查询词。
3.根据权利要求1所述的方法,其特征在于,所述多个历史查询词的获取过程包括:
采用多个指定查询词的信息查询结果中被点击过的网页内容,对所述多个指定查询词进行文本扩展;
根据所述多个指定查询词的文本扩展结果,基于多个指定查询词的文本和语义对所述多个指定查询词进行聚类;
从多个第一类簇的每个第一类簇中选取一个指定查询词作为所述每个第一类簇的历史查询词,从所述被点击过的网页内容中获取所述每个第一类簇的多个关键词。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个指定查询词的文本扩展结果,基于多个指定查询词的文本和语义对所述多个指定查询词进行聚类,包括:
基于词袋模型和文本向量模型,根据所述多个指定查询词的文本扩展结果,获取所述多个指定历史查询词的文本向量和语义向量;
基于所述多个指定历史查询词的文本向量和语义向量,对所述多个指定查询词进行聚类。
5.根据权利要求3所述的方法,其特征在于,所述多个指定查询词的获取过程包括:
计算查询日志中每个历史查询词的时新性,所述时新性用于指示查询词在当前时间点的热门程度,所述查询日志用于记录多个用户的历史查询词;
将时新性大于指定阈值的历史查询词获取为所述多个指定查询词。
6.根据权利要求3所述的方法,其特征在于,所述多个第一类簇的获取过程包括:
计算所述多个指定查询词聚类得到的每个类簇中查询词的数量和质量,查询词的质量基于查询词与类簇中心的相似度确定;
将查询词的数量大于指定数量且质量大于第一预设阈值的类簇获取为所述多个第一类簇。
7.根据权利要求1所述的方法,其特征在于,所述从多个历史查询词中获取所述查询词的目标查询词之后,所述方法还包括:
当所述目标查询词的数量小于预设数量时,根据所述查询词和预先建立的倒排索引表,从候选查询词集合中获取目标候选查询词,所述候选查询词集合包括通过聚类得到的多个第二类簇的查询词,所述目标候选查询词与所述查询词的相似度大于第二预设阈值;
执行输出信息查询结果的步骤,所述信息查询结果为根据所述查询词、所述目标查询词和所述目标候选查询词进行查询得到。
8.根据权利要求7所述的方法,其特征在于,所述根据所述查询词和预先建立的倒排索引表,从候选查询词集合中获取目标候选查询词,包括:
根据所述查询词和所述倒排索引表,从候选查询词集合中获取所述查询词索引到的多个候选查询词;
计算所述查询词与所述多个候选查询词的相关性;
将与所述查询词的相关性大于第二预设阈值的候选查询词获取为所述目标候选查询词。
9.根据权利要求8所述的方法,其特征在于,所述候选查询词集合的获取过程包括:
根据待处理的多个网页内容的文本向量,对所述多个网页内容进行聚类,得到多个第二类簇;
对于所述多个第二类簇中的每个第二类簇,从所述第二类簇内的网页内容中提取所述第二类簇的多个关键词;
将所述第二类簇的多个关键词组成所述第二类簇对应的查询词。
10.根据权利要求9所述的方法,其特征在于,所述将所述第二类簇的多个关键词组成所述第二类簇对应的查询词,包括:
根据所述第二类簇的多个关键词在所述第二类簇内的网页内容中出现的顺序,调整所述第二类簇的多个关键词的顺序,得到所述第二类簇对应的查询词。
11.根据权利要求9所述的方法,其特征在于,所述对所述多个网页内容进行聚类,得到多个第二类簇之后,所述方法还包括:
对于任一个新增网页内容,计算所述新增网页内容和所述多个第二类簇的相似度,得到多个相似度;
当所述多个相似度中的最大相似度大于预定义阈值时,将所述新文章分配给所述最大相似度对应的类簇;
当所述多个相似度中的最大相似度小于或等于所述预定义阈值时,生成一个新类簇,并将所述新增网页内容分配给所述新类簇。
12.根据权利要求9至11任一项所述的方法,其特征在于,所述多个网页内容包括用户生产内容和专业生产内容,所述用户生产内容的覆盖面大于第一阈值,所述专业生产内容的时效性大于第二阈值。
13.一种信息查询方法,其特征在于,所述方法包括:
通过搜索框获取查询词;
将所述查询词输入至搜索引擎,通过所述搜索引擎基于多个历史查询词进行查询词扩展,得到所述查询词的目标查询词,所述目标查询词与所述查询词用于描述同一事件或相关事件;
输出信息查询结果,所述信息查询结果为根据所述查询词和所述目标查询词进行查询得到。
14.一种信息查询装置,其特征在于,所述装置包括:
接收模块,用于接收查询词;
获取模块,用于从多个历史查询词中获取所述查询词的目标查询词,所述目标查询词与所述查询词用于描述同一事件或相关事件;
输出模块,用于输出信息查询结果,所述信息查询结果为根据所述查询词和所述目标查询词进行查询得到。
15.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1至13任一项所述的信息查询方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711242486.XA CN108304444B (zh) | 2017-11-30 | 2017-11-30 | 信息查询方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711242486.XA CN108304444B (zh) | 2017-11-30 | 2017-11-30 | 信息查询方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304444A true CN108304444A (zh) | 2018-07-20 |
CN108304444B CN108304444B (zh) | 2021-12-14 |
Family
ID=62870304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711242486.XA Active CN108304444B (zh) | 2017-11-30 | 2017-11-30 | 信息查询方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304444B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932326A (zh) * | 2018-06-29 | 2018-12-04 | 北京百度网讯科技有限公司 | 一种实例扩展方法、装置、设备和介质 |
CN109614603A (zh) * | 2018-12-12 | 2019-04-12 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN109783690A (zh) * | 2019-02-18 | 2019-05-21 | 北京奇艺世纪科技有限公司 | 一种视频查询方法及装置 |
CN110442696A (zh) * | 2019-08-05 | 2019-11-12 | 北京百度网讯科技有限公司 | 查询处理方法及装置 |
CN111061835A (zh) * | 2019-12-17 | 2020-04-24 | 医渡云(北京)技术有限公司 | 查询方法及装置、电子设备和计算机可读存储介质 |
CN111400340A (zh) * | 2020-03-12 | 2020-07-10 | 杭州城市大数据运营有限公司 | 一种自然语言处理方法、装置、计算机设备和存储介质 |
CN112035750A (zh) * | 2020-09-17 | 2020-12-04 | 上海二三四五网络科技有限公司 | 一种用户标签扩展的控制方法及装置 |
WO2021012483A1 (zh) * | 2019-07-23 | 2021-01-28 | 平安科技(深圳)有限公司 | 信息识别方法、装置、计算机设备和存储介质 |
CN112685540A (zh) * | 2021-01-07 | 2021-04-20 | 深圳市欢太科技有限公司 | 搜索方法、装置、存储介质以及终端 |
CN113010752A (zh) * | 2021-03-09 | 2021-06-22 | 北京百度网讯科技有限公司 | 召回内容的确定方法、装置、设备以及存储介质 |
CN113360537A (zh) * | 2021-06-04 | 2021-09-07 | 北京百度网讯科技有限公司 | 信息查询方法、装置、电子设备和介质 |
CN113569058A (zh) * | 2021-08-05 | 2021-10-29 | 武汉美之修行信息科技有限公司 | 一种信息查询方法、装置及计算机可读存储介质 |
CN113722593A (zh) * | 2021-08-31 | 2021-11-30 | 北京百度网讯科技有限公司 | 事件数据处理方法、装置、电子设备和介质 |
CN114330305A (zh) * | 2020-09-29 | 2022-04-12 | 北京搜狗科技发展有限公司 | 一种词条召回方法、装置和用于召回词条的装置 |
CN117725303A (zh) * | 2023-09-21 | 2024-03-19 | 书行科技(北京)有限公司 | 内容查询方法、装置和计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295319A (zh) * | 2008-06-24 | 2008-10-29 | 北京搜狗科技发展有限公司 | 一种扩展查询的方法、装置及搜索引擎系统 |
CN104035966A (zh) * | 2014-05-16 | 2014-09-10 | 百度在线网络技术(北京)有限公司 | 一种提供扩展搜索项的方法与装置 |
CN105912630A (zh) * | 2016-04-07 | 2016-08-31 | 北京搜狗科技发展有限公司 | 一种信息扩展方法及装置 |
CN106547864A (zh) * | 2016-10-24 | 2017-03-29 | 湖南科技大学 | 一种基于查询扩展的个性化信息检索方法 |
-
2017
- 2017-11-30 CN CN201711242486.XA patent/CN108304444B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295319A (zh) * | 2008-06-24 | 2008-10-29 | 北京搜狗科技发展有限公司 | 一种扩展查询的方法、装置及搜索引擎系统 |
CN104035966A (zh) * | 2014-05-16 | 2014-09-10 | 百度在线网络技术(北京)有限公司 | 一种提供扩展搜索项的方法与装置 |
CN105912630A (zh) * | 2016-04-07 | 2016-08-31 | 北京搜狗科技发展有限公司 | 一种信息扩展方法及装置 |
CN106547864A (zh) * | 2016-10-24 | 2017-03-29 | 湖南科技大学 | 一种基于查询扩展的个性化信息检索方法 |
Non-Patent Citations (2)
Title |
---|
JESSIE OOI: "A survey of query expansion, query suggestion and query refinement techniques", 《IEEE》 * |
伍璇: "基于多语义关系的个性化查询扩展方法", 《模式识别与人工智能》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932326A (zh) * | 2018-06-29 | 2018-12-04 | 北京百度网讯科技有限公司 | 一种实例扩展方法、装置、设备和介质 |
CN108932326B (zh) * | 2018-06-29 | 2021-02-19 | 北京百度网讯科技有限公司 | 一种实例扩展方法、装置、设备和介质 |
CN109614603A (zh) * | 2018-12-12 | 2019-04-12 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN109783690A (zh) * | 2019-02-18 | 2019-05-21 | 北京奇艺世纪科技有限公司 | 一种视频查询方法及装置 |
WO2021012483A1 (zh) * | 2019-07-23 | 2021-01-28 | 平安科技(深圳)有限公司 | 信息识别方法、装置、计算机设备和存储介质 |
CN110442696B (zh) * | 2019-08-05 | 2022-07-08 | 北京百度网讯科技有限公司 | 查询处理方法及装置 |
CN110442696A (zh) * | 2019-08-05 | 2019-11-12 | 北京百度网讯科技有限公司 | 查询处理方法及装置 |
CN111061835A (zh) * | 2019-12-17 | 2020-04-24 | 医渡云(北京)技术有限公司 | 查询方法及装置、电子设备和计算机可读存储介质 |
CN111061835B (zh) * | 2019-12-17 | 2023-09-22 | 医渡云(北京)技术有限公司 | 查询方法及装置、电子设备和计算机可读存储介质 |
CN111400340A (zh) * | 2020-03-12 | 2020-07-10 | 杭州城市大数据运营有限公司 | 一种自然语言处理方法、装置、计算机设备和存储介质 |
CN111400340B (zh) * | 2020-03-12 | 2024-01-09 | 杭州城市大数据运营有限公司 | 一种自然语言处理方法、装置、计算机设备和存储介质 |
CN112035750A (zh) * | 2020-09-17 | 2020-12-04 | 上海二三四五网络科技有限公司 | 一种用户标签扩展的控制方法及装置 |
CN114330305A (zh) * | 2020-09-29 | 2022-04-12 | 北京搜狗科技发展有限公司 | 一种词条召回方法、装置和用于召回词条的装置 |
CN112685540A (zh) * | 2021-01-07 | 2021-04-20 | 深圳市欢太科技有限公司 | 搜索方法、装置、存储介质以及终端 |
CN113010752A (zh) * | 2021-03-09 | 2021-06-22 | 北京百度网讯科技有限公司 | 召回内容的确定方法、装置、设备以及存储介质 |
CN113010752B (zh) * | 2021-03-09 | 2023-10-27 | 北京百度网讯科技有限公司 | 召回内容的确定方法、装置、设备以及存储介质 |
CN113360537A (zh) * | 2021-06-04 | 2021-09-07 | 北京百度网讯科技有限公司 | 信息查询方法、装置、电子设备和介质 |
CN113360537B (zh) * | 2021-06-04 | 2024-01-12 | 北京百度网讯科技有限公司 | 信息查询方法、装置、电子设备和介质 |
CN113569058A (zh) * | 2021-08-05 | 2021-10-29 | 武汉美之修行信息科技有限公司 | 一种信息查询方法、装置及计算机可读存储介质 |
CN113722593A (zh) * | 2021-08-31 | 2021-11-30 | 北京百度网讯科技有限公司 | 事件数据处理方法、装置、电子设备和介质 |
CN113722593B (zh) * | 2021-08-31 | 2024-01-16 | 北京百度网讯科技有限公司 | 事件数据处理方法、装置、电子设备和介质 |
CN117725303A (zh) * | 2023-09-21 | 2024-03-19 | 书行科技(北京)有限公司 | 内容查询方法、装置和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108304444B (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304444A (zh) | 信息查询方法及装置 | |
US8751511B2 (en) | Ranking of search results based on microblog data | |
US8725732B1 (en) | Classifying text into hierarchical categories | |
KR100462292B1 (ko) | 중요도 정보를 반영한 검색 결과 리스트 제공 방법 및 그시스템 | |
JP5513624B2 (ja) | クエリの一般属性に基づく情報の検索 | |
TWI652584B (zh) | 文本資訊的匹配、業務對象的推送方法和裝置 | |
CN107180093B (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
CN110795627B (zh) | 信息推荐方法及装置、电子设备 | |
JP2017157192A (ja) | キーワードに基づいて画像とコンテンツアイテムをマッチングする方法 | |
JP2002041546A (ja) | 階層的統計分析のシステム及び方法 | |
US10275472B2 (en) | Method for categorizing images to be associated with content items based on keywords of search queries | |
CN115757689A (zh) | 一种信息查询系统、方法及设备 | |
US20040015485A1 (en) | Method and apparatus for improved internet searching | |
US9846740B2 (en) | Associative search systems and methods | |
EP2786275A1 (en) | Method and apparatus for information searching | |
JP2017157193A (ja) | 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法 | |
CN110543484A (zh) | 提示词的推荐方法及装置、存储介质和处理器 | |
JP5221664B2 (ja) | 情報マップ管理システムおよび情報マップ管理方法 | |
CN105653546A (zh) | 一种目标主题的检索方法和系统 | |
CN107025261B (zh) | 主题网络语料库 | |
Choudhary et al. | Role of ranking algorithms for information retrieval | |
KR100557874B1 (ko) | 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체 | |
US20140207768A1 (en) | Search engine optimization using a find operation | |
EP1288794A1 (en) | Methods of ordering and of retrieving information from a corpus of documents and database system for the same | |
CN116628039A (zh) | 资源数据检索方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |