CN116186198A - 信息检索方法、装置、计算机设备及存储介质 - Google Patents
信息检索方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN116186198A CN116186198A CN202211708607.6A CN202211708607A CN116186198A CN 116186198 A CN116186198 A CN 116186198A CN 202211708607 A CN202211708607 A CN 202211708607A CN 116186198 A CN116186198 A CN 116186198A
- Authority
- CN
- China
- Prior art keywords
- information
- ranking
- answer information
- user
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3341—Query execution using boolean model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请属于信息检索领域,涉及一种信息检索方法、装置、计算机设备及存储介质,方法包括:获取输入的至少一个检索关键词;根据所述至少一个检索关键词在数据源中进行信息检索,得到多条答案信息;获取排序因子,所述排序因子包括默认排序因子和用户输入的主动排序因子;基于所述排序因子,计算各答案信息的排序权重;根据所述各答案信息的排序权重对所述各答案信息进行排序,得到答案信息队列,并将所述答案信息队列发送至检索终端。本申请提高了信息检索中的信息获取效率。
Description
技术领域
本申请涉及信息检索技术领域,尤其涉及一种信息检索方法、装置、计算机设备及存储介质。
背景技术
在互联网相关的各种应用中,信息检索是一种非常常见的应用场景。信息检索需要搭建数据库或者设置依赖的数据源,并借助于检索工具从数据库或者数据源中检索与用户输入相关的信息。然而,当前的信息检索技术对检索结果的排序往往采用检索工具固有的排序方式,无法挖掘用户更深层次的需求,导致用户难以获取到想要的信息,使得信息检索中信息获取效率较低。
发明内容
本申请实施例的目的在于提出一种信息检索方法、装置、计算机设备及存储介质,以解决信息检索中信息获取效率较低的问题。
为了解决上述技术问题,本申请实施例提供一种信息检索方法,采用了如下所述的技术方案:
获取输入的至少一个检索关键词;
根据所述至少一个检索关键词在数据源中进行信息检索,得到多条答案信息;
获取排序因子,其中,所述排序因子包括默认排序因子和用户输入的主动排序因子;
基于所述排序因子,计算各答案信息的排序权重;
根据所述各答案信息的排序权重对所述各答案信息进行排序,得到答案信息队列,并将所述答案信息队列发送至检索终端。
为了解决上述技术问题,本申请实施例还提供一种信息检索装置,采用了如下所述的技术方案:
关键词获取模块,用于获取输入的至少一个检索关键词;
信息检索模块,用于根据所述至少一个检索关键词在数据源中进行信息检索,得到多条答案信息;
因子获取模块,用于获取排序因子,其中,所述排序因子包括默认排序因子和用户输入的主动排序因子;
排序计算模块,用于基于所述排序因子,计算各答案信息的排序权重;
答案排序模块,用于根据所述各答案信息的排序权重对所述各答案信息进行排序,得到答案信息队列,并将所述答案信息队列发送至检索终端。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
获取输入的至少一个检索关键词;
根据所述至少一个检索关键词在数据源中进行信息检索,得到多条答案信息;
获取排序因子,其中,所述排序因子包括默认排序因子和用户输入的主动排序因子;
基于所述排序因子,计算各答案信息的排序权重;
根据所述各答案信息的排序权重对所述各答案信息进行排序,得到答案信息队列,并将所述答案信息队列发送至检索终端。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
获取输入的至少一个检索关键词;
根据所述至少一个检索关键词在数据源中进行信息检索,得到多条答案信息;
获取排序因子,其中,所述排序因子包括默认排序因子和用户输入的主动排序因子;
基于所述排序因子,计算各答案信息的排序权重;
根据所述各答案信息的排序权重对所述各答案信息进行排序,得到答案信息队列,并将所述答案信息队列发送至检索终端。
与现有技术相比,本申请实施例主要有以下有益效果:获取输入的至少一个检索关键词,在数据源中查询与检索关键词相关的信息得到多条答案信息;获取排序因子,包括默认排序因子和用户输入的主动排序因子,排序因子可以反应用户通常或当前的倾向性与偏好;根据排序因子计算各答案信息的排序权重,排序权重用于对各答案信息进行排序,从而将答案信息的排序按照适配用户的目的进行优化,得到更符合用户的答案信息队列,用户可以从答案信息队列中快速获取到更符合个人需求或习惯的答案信息,提高了信息检索中用户的信息获取效率。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的信息检索方法的一个实施例的流程图;
图3是根据本申请的信息检索装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。用户还可以通过终端设备输入查询语句,以向服务器发送检索请求进行信息检索。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Mov i ng P i cture ExpertsGroup Aud i o Layer I I I,动态影像专家压缩标准音频层面3)、MP4(Mov i ng P icture ExpertsGroup Aud i o Layer I V,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的信息检索方法一般由服务器执行,相应地,信息检索装置一般设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的信息检索方法的一个实施例的流程图。所述的信息检索方法,包括以下步骤:
步骤S201,获取输入的至少一个检索关键词。
在本实施例中,信息检索方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G连接、W i F i连接、蓝牙连接、W i MAX连接、Z i gbee连接、UWB(u l t ra w i deband)连接、以及其他现在已知或将来开发的无线连接方式。
具体地,获取用户输入的检索关键词,检索关键词的数量至少为一个,服务器中的检索系统需要查找与检索关键词相关的信息。
进一步的,上述步骤S201可以包括:获取用户输入的查询语句;对查询语句进行分词操作得到多个分词;计算各分词的词频-逆文本频率指数;根据各分词的词频-逆文本频率指数在各分词中确定至少一个检索关键词。
具体地,获取用户在终端输入的查询语句,查询语句可以是文本的形式,对查询语句进行分词操作得到多个分词,然后计算各分词的词频-逆文本频率指数。词频-逆文本频率指数即各分词的TF-I DF(term frequency–i nver se document frequency)值,TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(TermFrequency),是指某一个给定的词在文件中出现的频率。I DF是逆文本频率指数(I nverse DocumentFrequency),可以由总文件数目除以包含某词语之文件的数目,再求对数得到。TF-I DF是一种统计指标,用以评估分词对文本的重要程度。
根据词频-逆文本频率指数对各分词进行降序排序得到指数队列,从指数队列中选取排名靠前的至少一个词频-逆文本频率指数,并将其对应的分词作为检索关键词。在一个实施例中,再获取预设的指数阈值,在排名靠前的至少一个词频-逆文本频率指数中,选取大于等于指数阈值的词频-逆文本频率指数,将其所对应的分词作为检索关键词。
在一个实施例中,查询语句较为简单,可以识别查询语句中的实体(例如命名实体),将识别到的实体作为检索关键词。
本实施例中,获取查询语句,对查询语句进行分词操作得到多个分词,计算各分词的词频-逆文本频率指数,词频-逆文本频率指数反应了分词对查询语句的重要程度,可以根据词频-逆文本频率指数在各分词中选取重要的分词作为检索关键词。
步骤S202,根据至少一个检索关键词在数据源中进行信息检索,得到多条答案信息。
具体地,数据源中包含了大量数据,可以作为搜索的信息源头,数据源可以是预先构建好的数据库。在数据源中查询与检索关键词相关的信息,得到多条答案信息。
在一个实施例中,数据源可以是E l ast i csearch,它是位于E l ast i cStack核心的分布式搜索和分析引擎,能够提供分布式全文搜索,提供近乎实时的搜索和分析。
进一步的,上述步骤S202可以包括:通过预设的检索模型计算至少一个检索关键词与数据源中各候选答案的适配评估值,其中,检索模型包括布尔模型、词频-逆文本频率指数模型以及向量空间模型;根据得到的适配评估值对各候选答案进行筛选,得到多条答案信息。
具体地,本申请可以基于E l ast i csearch进行信息检索,E l ast i csearch中存储了大量的文档,在检索中这些文档被视为候选答案,需要从中选取答案信息。E last i csear ch的底层可以基于Lucene实现,Lucene是一个开源的全文检索引擎工具包。El ast i csearch底层基于这些包,并对其进行了扩展,提供了比Lucene更为丰富的查询语言,可以非常方便地通过E l ast i csear ch的HTTP接口与底层Lucene交互。
Lucene中设置了多种检索模型,包括布尔模型(Boo l ean mode l)、词频-逆文本频率指数(TF-I DF)模型以及向量空间模型(vectorspace mode l),Lucene使用这些检索模型实现文档分析和查询,找到与查询内容最相似的答案信息。在布尔模型中,文档被表示为关键词的集合,布尔模型根据输入的检索关键词构建查询式,查询式是检索关键词的布尔组合,用与、或、非等将检索关键词连接起来,并可以添加优先次序,布尔模型基于查询式进行检索,判断候选答案是否包含检索关键词。
在布尔查询中,只要候选答案与检索关键词匹配,Lucene就会为查询计算评分,然后合并每个检索关键词的评分结果,可以使用实用评分函数(pr act i ca l scor i ngfunct i on)计算评分,该评分记为适配评估值,表示检索关键词与候选答案之间的适配程度。实用评分函数是用来评估文档(即候选答案)相对于查询的相关性的一种函数,它为检索结果提供排序,使得相关性较高的文档排在更靠前的位置。实用评分函数通常由两部分组成:基本评分和修饰评分;基本评分是基于文档中检索关键词出现的次数和顺序计算的;修饰评分则基于一些其他因素,如文档长度、文档标题中检索关键词出现的次数、文档位置等。
词频-逆文本频率指数模型可以通过词频-逆文本频率指数评估检索关键词在候选答案中的重要性,重要性越高,表示关键词与候选答案的适配程度越高,适配评估值越大。
向量空间模型计算检索关键词的词向量与候选答案的答案向量之间的距离,该距离越近,表示检索关键词与候选答案的适配程度越高,适配评估值越大。
Lucene可以使用上述模型中的至少一种进行检索,并计算检索关键词与各候选答案的适配评估值。根据得到的适配评估值对各候选答案进行筛选得到多条答案信息,例如选取适配评估值最大的若干个候选答案作为答案信息,或者将适配评估值大于等于预设的评估值阈值的候选答案作为答案信息。
需要理解的是,适配评估值较高的答案信息是与用户查询更相关的答案,并不包含用户自身层面的信息。
本实施例中,通过预设的检索模型计算检索关键词与数据源中各候选答案的适配评估值,检索模型包括布尔模型、词频-逆文本频率指数模型以及向量空间模型,可以根据检索关键词进行充分的检索;适配评估值表示候选答案与检索关键词之间的相关程度,根据适配评估值可以选取出与检索关键词具有较强相关性的候选答案,确保了得到的答案信息的准确性。
步骤S203,获取排序因子,其中,排序因子包括默认排序因子和用户输入的主动排序因子。
具体地,得到的答案信息与检索关键词具有较强相关性,当检索关键词相同时,默认的答案信息的排序是固定不变的。本申请旨在从用户维度获取更多信息,从而动态调整答案信息的排序。
检索系统可以获取排序因子,排序因子是影响答案信息排序的因子,它包括默认排序因子和用户输入的主动排序因子。用户可以根据自身需求输入主动排序因子,它带有用户在本次检索时主动提出的倾向性与偏好,例如用户可以输入在本次检索中更偏向什么样的答案信息,或者答案信息与什么信息更相关。也可以预先根据用户相关的数据进行用户分析,得出表示用户倾向性与偏好的默认排序因子。
通常,会优先检测本次检索是否存在主动排序因子,如果有主动排序因子则获取主动排序因子,否则获取默认排序因子。
步骤S204,基于排序因子,计算各答案信息的排序权重。
具体地,根据排序因子计算各答案信息的排序权重,排序权重可以是数值,可以表示答案信息在本次检索中的信息价值或重要程度,排序权重越大,答案信息在本次减速中信息价值越高,也越重要。
通常,与排序因子相关的答案信息的排序权重大于与排序因子无关的答案信息的排序权重;答案信息与排序因子相关性越强,答案信息的排序权重越大,例如,排序因子的数量可以多于一个,答案信息与越多的排序因子相关,则答案信息的排序权重越大。排序权重可以直接基于答案信息与排序因子的相关性确定,或者,根据答案信息与排序因子的相关性对答案信息原有的适配评估值进行调整,得到排序权重。
步骤S205,根据各答案信息的排序权重对各答案信息进行排序,得到答案信息队列,并将答案信息队列发送至检索终端。
具体地,根据各答案信息的排序权重对各答案信息进行排序,可以理解,按照排序权重由大到小的顺序对各答案信息进行排序得到答案信息队列,然后将答案信息队列作为最终的检索结果发送至检索终端,检索终端是发起检索的用户所使用的终端,从而将答案呈现给用户。
本实施例中,获取输入的至少一个检索关键词,在数据源中查询与检索关键词相关的信息得到多条答案信息;获取排序因子,包括默认排序因子和用户输入的主动排序因子,排序因子可以反应用户通常或当前的倾向性与偏好;根据排序因子计算各答案信息的排序权重,排序权重用于对各答案信息进行排序,从而将答案信息的排序按照适配用户的目的进行优化,得到更符合用户的答案信息队列,用户可以从答案信息队列中快速获取到更符合个人需求或习惯的答案信息,提高了信息检索中用户的信息获取效率。
进一步的,上述步骤S203之前,还可以包括:通过预先设置的用户埋点获取用户的多条行为数据;对各条行为数据进行预处理得到多条标准行为数据;对各条标准行为数据进行聚类,得到多个聚类簇;基于各聚类簇确定关联于用户的默认排序因子。
具体地,本申请中的服务器可以作为后台支持特定软件系统的运行,该软件系统可以是任意类型的软件系统,例如可以是办公软件系统,且该软件系统提供搜索功能。用户可以通过终端访问软件系统的客户端。可以预先在软件系统中进行埋点,从而对用户在软件系统中的操作进行记录,得到多条行为数据。
对各条行为数据进行预处理,调整行为数据的格式,实现对行为数据的标准化处理,得到多条标准行为数据。对各条标准行为数据进行聚类操作,得到多个聚类簇。聚类簇包含用户常见的一种行为,从聚类簇中进行关键信息提取,可以得到关联于用户的默认排序因子。例如,软件系统为一个线上办公系统,用户A在线上办公系统中的身份标签是主管,用户A经常点击员工的工作量统计值,便会得到表示用户A点击员工工作量统计值的聚类簇,进而提取出“工作量统计值”作为用户A的默认排序因子,当用户A进行任务分配,查询员工列表时,排序因子“工作量统计值”就可以影响员工排序。
本实施例中,通过用户埋点获取用户大量的行为数据,对行为数据进行预处理得到多条标准行为数据,对各条标准行为数据进行聚类,得到多个聚类簇,通过聚类簇可以实现用户分析,从而得到代表用户以往倾向性与偏好的默认排序因子。
进一步的,当排序因子为用户输入的主动排序因子时,上述步骤S203可以包括:获取用户输入的检索关联信息,其中,检索关联信息包括关联对象标识、关联范围信息和用户场景行为信息;将关联对象标识确定为主动排序因子;以及,从关联范围信息和用户场景行为信息中提取主动排序因子。
具体地,用户还可以主动输入排序因子,这样的排序因子即为主动排序因子。用户可以在输入检索关键词或者查询语句时一并输入检索关联信息,检索关联信息是用户期望答案信息所能关联到的信息。
检索关联信息可以包括关联对象标识、关联范围信息和用户场景行为信息;其中,关联对象标识可以是某些特定对象的标识,例如,用户访问某个项目时进行任务搜索,希望将满足搜索条件(查询语句或者检索关键词)且关联当前项目的任务排在前面,该项目的项目名称或者项目标识可以作为关联对象标识;用户访问任务展示页面并进行任务搜索时,希望将满足搜索条件且指派给自己的任务排在前面,可以将自己的名字或者用户标识作为关联对象标识;用户A新建任务,搜索员工列表并希望某些员工可以出现在员工列表的前边,这些员工的名称或者标识可以作为关联对象标识。关联对象标识可以直接作为主动排序因子。
关联范围信息是用户划定一定范围内的信息,并希望答案信息根据关联范围信息进行排列。例如,用户对文档中的某个词语进行检索时,可以选取文档中的一段文本,例如一个段落或者该词语的上下文作为关联范围信息,使得答案信息可以结合选取文本的语境进行排列。
用户也可以不直接输入上边陈述的关联对象标识和关联范围信息,而是在软件系统中设置用户场景行为分析模式,在该模式下,会自动采集用户场景行为相关的信息,包括用户本次访问软件系统时访问到的信息,用户进行的操作等。
搜索系统会从关联范围信息和用户场景行为信息中自动提取关键信息作为主动排序因子。例如,对于关联范围信息,从关联范围信息中提取若干个关键词作为主动排序因子;在用户场景行为信息中,检测到用户A将任务分配给员工B,用户A继续分配任务的过程中如果搜索员工列表,可以将员工B作为主动排序因子。
本实施例中,获取用户输入的检索关联信息,检索关联信息用于生成主动排序因子,检索关联信息包括关联对象标识、关联范围信息和用户场景行为信息,丰富了主动排序因子的获取与生成方式。
进一步的,上述步骤S204可以包括:确定排序因子与各答案信息的关联度;根据得到的关联度确定各答案信息的增益权重;分别根据各答案信息的适配评估值与增益权重进行计算,得到各答案信息的排序权重。
具体地,在得到排序因子后,确定排序因子与各答案信息的关联度,关联度数值越大,代表关联性越强,根据关联度确定答案信息的增益权重。在前文中,提到了答案信息具有适配评估值,它表示答案信息与检索关键词之间的关联程度,增益权重用于放大适配评估值,可以将增益权重与适配评估值的乘积作为答案信息的排序权重。
通常,增益权重是一个大于等于1的数字。如果答案信息与排序因子之间的关联度为0,则答案信息的增益权重为1,答案信息的重要性没有发生变化。
如果答案信息中直接包含有一个排序因子,答案信息与排序因子相关联,答案信息的增益权重选取为大于1的数值,例如设定为2;如果答案信息中存在语义与排序因子相近的信息,则答案信息与排序因子相关联,根据语义相似程度将增益权重设置为(1,2)之间的数值。如果答案信息与多个排序因子相关联,则每个相关联的排序因子都可以给答案信息带来增益权重,它们的增益权重可以进行叠加。
可以理解,上述数字仅仅用于对本申请进行解释说明,而并非进行特定的限制。
本实施例中,确定排序因子与各答案信息的关联度,根据关联度确定各答案信息的增益权重,增益权重用于放大答案信息的适配评估值,与适配评估值进行计算可以得到答案信息的排序权重,从而对答案信息实现准确的重排序。
进一步的,默认排序因子基于固定时间内用户的行为数据生成,当排序因子为默认排序因子时,上述根据得到的关联度确定各答案信息的增益权重的步骤可以包括:根据默认排序因子与各答案信息的关联度,确定各答案信息的初始增益权重;获取默认排序因子的生成时间;基于生成时间确定各初始增益权重的衰减度;根据衰减度对各初始增益权重进行衰减,得到各答案信息的增益权重。
具体地,默认排序因子基于用户的行为数据生成,用户的行为数据是在固定时间内生成的,固定时间即用户行为的发生时间。可以理解,该时间距离当前越近,默认排序因子越能反应用户当前的倾向性与偏好。
对于默认排序因子,根据默认排序因子与各答案信息的关联度,确定各答案信息的初始增益权重,初始增益权重并未考虑默认排序因子的生成时间,它仅基于默认排序因子与答案信息的关联度生成,承接上文的例子,当答案信息中包含一个默认排序因子时,得到其初始增益权重2。
然后获取与答案信息相关联的各默认排序因子的生成时间,基于生成时间确定各初始增益权重的衰减度,衰减度用于减小初始增益权重,且生成时间距离当前时间越久,衰减度越大,代表默认排序因子的作用越小;生成时间距离当前时间越近,衰减度越小,代表默认排序因子的作用越大。根据衰减度对各初始增益权重进行衰减,得到各答案信息的增益权重,在一个实施例中,衰减度是一个(0,1)内的数字,根据衰减度对初始增益权重进行对应程度的减小,可以得到增益权重,例如,初始增益权重为2,衰减度为0.85,则将初始增益权重减小至原来的0.85,得到1.7的增益权重。
本实施例中,对于默认排序因子,根据默认排序因子与各答案信息的关联度,确定各答案信息的初始增益权重;默认排序因子根据用户过去的行为生成,获取默认排序因子的生成时间,基于生成时间确定各初始增益权重的衰减度,根据衰减度对各初始增益权重进行衰减,生成时间越久,衰减程度越大,使得增益权重具有时间特性,确保了增益权重的合理性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-On l y Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种信息检索装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的信息检索装置300包括:关键词获取模块301、信息检索模块302、因子获取模块303、排序计算模块304以及答案排序模块305,其中:
关键词获取模块301,用于获取输入的至少一个检索关键词。
信息检索模块302,用于根据至少一个检索关键词在数据源中进行信息检索,得到多条答案信息。
因子获取模块303,用于获取排序因子,其中,排序因子包括默认排序因子和用户输入的主动排序因子。
排序计算模块304,用于基于排序因子,计算各答案信息的排序权重。
答案排序模块305,用于根据各答案信息的排序权重对各答案信息进行排序,得到答案信息队列,并将答案信息队列发送至检索终端。
本实施例中,获取输入的至少一个检索关键词,在数据源中查询与检索关键词相关的信息得到多条答案信息;获取排序因子,包括默认排序因子和用户输入的主动排序因子,排序因子可以反应用户通常或当前的倾向性与偏好;根据排序因子计算各答案信息的排序权重,排序权重用于对各答案信息进行排序,从而将答案信息的排序按照适配用户的目的进行优化,得到更符合用户的答案信息队列,用户可以从答案信息队列中快速获取到更符合个人需求或习惯的答案信息,提高了信息检索中用户的信息获取效率。
在本实施例的一些可选的实现方式中,关键词获取模块301可以包括:语句获取子模块、分词操作子模块、指数计算子模块以及关键词确定子模块,其中:
语句获取子模块,用于获取用户输入的查询语句。
分词操作子模块,用于对查询语句进行分词操作得到多个分词。
指数计算子模块,用于计算各分词的词频-逆文本频率指数。
关键词确定子模块,用于根据各分词的词频-逆文本频率指数在各分词中确定至少一个检索关键词。
本实施例中,获取查询语句,对查询语句进行分词操作得到多个分词,计算各分词的词频-逆文本频率指数,词频-逆文本频率指数反应了分词对查询语句的重要程度,可以根据词频-逆文本频率指数在各分词中选取重要的分词作为检索关键词。
在本实施例的一些可选的实现方式中,信息检索模块302可以包括:评估值计算子模块以及答案筛选子模块,其中:
评估值计算子模块,用于通过预设的检索模型计算至少一个检索关键词与数据源中各候选答案的适配评估值,其中,检索模型包括布尔模型、词频-逆文本频率指数模型以及向量空间模型。
答案筛选子模块,用于根据得到的适配评估值对各候选答案进行筛选,得到多条答案信息。
本实施例中,通过预设的检索模型计算检索关键词与数据源中各候选答案的适配评估值,检索模型包括布尔模型、词频-逆文本频率指数模型以及向量空间模型,可以根据检索关键词进行充分的检索;适配评估值表示候选答案与检索关键词之间的相关程度,根据适配评估值可以选取出与检索关键词具有较强相关性的候选答案,确保了得到的答案信息的准确性。
在本实施例的一些可选的实现方式中,信息检索装置300还可以包括:数据获取模块、预处理模块、数据聚类模块以及因子确定模块,其中:
数据获取模块,用于通过预先设置的用户埋点获取用户的多条行为数据。
预处理模块,用于对各条行为数据进行预处理得到多条标准行为数据。
数据聚类模块,用于对各条标准行为数据进行聚类,得到多个聚类簇。
因子确定模块,用于基于各聚类簇确定关联于用户的默认排序因子。
本实施例中,通过用户埋点获取用户大量的行为数据,对行为数据进行预处理得到多条标准行为数据,对各条标准行为数据进行聚类,得到多个聚类簇,通过聚类簇可以实现用户分析,从而得到代表用户以往倾向性与偏好的默认排序因子。
在本实施例的一些可选的实现方式中,当排序因子为用户输入的主动排序因子时,因子获取模块303可以包括:关联获取子模块、标识确定子模块以及因子提取子模块,其中:
关联获取子模块,用于获取用户输入的检索关联信息,其中,检索关联信息包括关联对象标识、关联范围信息和用户场景行为信息。
标识确定子模块,用于将关联对象标识确定为主动排序因子。
因子提取子模块,用于从关联范围信息和用户场景行为信息中提取主动排序因子。
本实施例中,获取用户输入的检索关联信息,检索关联信息用于生成主动排序因子,检索关联信息包括关联对象标识、关联范围信息和用户场景行为信息,丰富了主动排序因子的获取与生成方式。
在本实施例的一些可选的实现方式中,排序计算模块304可以包括:关联度确定子模块、增益确定子模块以及排序计算子模块,其中:
关联度确定子模块,用于确定排序因子与各答案信息的关联度。
增益确定子模块,用于根据得到的关联度确定各答案信息的增益权重。
排序计算子模块,用于分别根据各答案信息的适配评估值与增益权重进行计算,得到各答案信息的排序权重。
本实施例中,确定排序因子与各答案信息的关联度,根据关联度确定各答案信息的增益权重,增益权重用于放大答案信息的适配评估值,与适配评估值进行计算可以得到答案信息的排序权重,从而对答案信息实现准确的重排序。
在本实施例的一些可选的实现方式中,默认排序因子基于固定时间内用户的行为数据生成,当排序因子为默认排序因子时,增益确定子模块可以包括:初始确定单元、时间获取单元、衰减获取单元以及增益计算单元,其中:
初始确定单元,用于根据默认排序因子与各答案信息的关联度,确定各答案信息的初始增益权重。
时间获取单元,用于获取默认排序因子的生成时间。
衰减获取单元,用于基于生成时间确定各初始增益权重的衰减度。
增益计算单元,用于根据衰减度对各初始增益权重进行衰减,得到各答案信息的增益权重。
本实施例中,对于默认排序因子,根据默认排序因子与各答案信息的关联度,确定各答案信息的初始增益权重;默认排序因子根据用户过去的行为生成,获取默认排序因子的生成时间,基于生成时间确定各初始增益权重的衰减度,根据衰减度对各初始增益权重进行衰减,生成时间越久,衰减程度越大,使得增益权重具有时间特性,确保了增益权重的合理性。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(App l i cat i onSpec i f i c I ntegratedC i rcu i t,AS I C)、可编程门阵列(F i e l d-Programmab l e Gate Ar ray,FPGA)、数字处理器(D i g i ta l S i gna l Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如信息检索方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(CentralProcessing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述信息检索方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本实施例中提供的计算机设备可以执行上述信息检索方法。此处信息检索方法可以是上述各个实施例的信息检索方法。
本实施例中,获取输入的至少一个检索关键词,在数据源中查询与检索关键词相关的信息得到多条答案信息;获取排序因子,包括默认排序因子和用户输入的主动排序因子,排序因子可以反应用户通常或当前的倾向性与偏好;根据排序因子计算各答案信息的排序权重,排序权重用于对各答案信息进行排序,从而将答案信息的排序按照适配用户的目的进行优化,得到更符合用户的答案信息队列,用户可以从答案信息队列中快速获取到更符合个人需求或习惯的答案信息,提高了信息检索中用户的信息获取效率。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的信息检索方法的步骤。
本实施例中,获取输入的至少一个检索关键词,在数据源中查询与检索关键词相关的信息得到多条答案信息;获取排序因子,包括默认排序因子和用户输入的主动排序因子,排序因子可以反应用户通常或当前的倾向性与偏好;根据排序因子计算各答案信息的排序权重,排序权重用于对各答案信息进行排序,从而将答案信息的排序按照适配用户的目的进行优化,得到更符合用户的答案信息队列,用户可以从答案信息队列中快速获取到更符合个人需求或习惯的答案信息,提高了信息检索中用户的信息获取效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法,其中,所述存储介质可以是非易失性存储介质,也可以是易失性存储介质。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种信息检索方法,其特征在于,包括下述步骤:
获取输入的至少一个检索关键词;
根据所述至少一个检索关键词在数据源中进行信息检索,得到多条答案信息;
获取排序因子,其中,所述排序因子包括默认排序因子和用户输入的主动排序因子;
基于所述排序因子,计算各答案信息的排序权重;
根据所述各答案信息的排序权重对所述各答案信息进行排序,得到答案信息队列,并将所述答案信息队列发送至检索终端。
2.根据权利要求1所述的信息检索方法,其特征在于,所述获取输入的至少一个检索关键词的步骤包括:
获取用户输入的查询语句;
对所述查询语句进行分词操作得到多个分词;
计算各分词的词频-逆文本频率指数;
根据所述各分词的词频-逆文本频率指数在所述各分词中确定至少一个检索关键词。
3.根据权利要求1所述的信息检索方法,其特征在于,所述根据所述至少一个检索关键词在数据源中进行信息检索,得到多条答案信息的步骤包括:
通过预设的检索模型计算所述至少一个检索关键词与数据源中各候选答案的适配评估值,其中,所述检索模型包括布尔模型、词频-逆文本频率指数模型以及向量空间模型;
根据得到的适配评估值对所述各候选答案进行筛选,得到多条答案信息。
4.根据权利要求1所述的信息检索方法,其特征在于,在所述获取排序因子的步骤之前,还包括:
通过预先设置的用户埋点获取用户的多条行为数据;
对各条行为数据进行预处理得到多条标准行为数据;
对各条标准行为数据进行聚类,得到多个聚类簇;
基于各聚类簇确定关联于所述用户的默认排序因子。
5.根据权利要求1所述的信息检索方法,其特征在于,当所述排序因子为用户输入的主动排序因子时,所述获取排序因子的步骤包括:
获取所述用户输入的检索关联信息,其中,所述检索关联信息包括关联对象标识、关联范围信息和用户场景行为信息;
将所述关联对象标识确定为主动排序因子;以及
从所述关联范围信息和所述用户场景行为信息中提取主动排序因子。
6.根据权利要求3所述的信息检索方法,其特征在于,所述基于所述排序因子,计算各答案信息的排序权重的步骤包括:
确定所述排序因子与各答案信息的关联度;
根据得到的关联度确定所述各答案信息的增益权重;
分别根据所述各答案信息的适配评估值与增益权重进行计算,得到所述各答案信息的排序权重。
7.根据权利要求6所述的信息检索方法,其特征在于,所述默认排序因子基于固定时间内用户的行为数据生成,当所述排序因子为所述默认排序因子时,所述根据得到的关联度确定所述各答案信息的增益权重的步骤包括:
根据所述默认排序因子与各答案信息的关联度,确定所述各答案信息的初始增益权重;
获取所述默认排序因子的生成时间;
基于所述生成时间确定各初始增益权重的衰减度;
根据所述衰减度对所述各初始增益权重进行衰减,得到所述各答案信息的增益权重。
8.一种信息检索装置,其特征在于,包括:
关键词获取模块,用于获取输入的至少一个检索关键词;
信息检索模块,用于根据所述至少一个检索关键词在数据源中进行信息检索,得到多条答案信息;
因子获取模块,用于获取排序因子,其中,所述排序因子包括默认排序因子和用户输入的主动排序因子;
排序计算模块,用于基于所述排序因子,计算各答案信息的排序权重;
答案排序模块,用于根据所述各答案信息的排序权重对所述各答案信息进行排序,得到答案信息队列,并将所述答案信息队列发送至检索终端。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的信息检索方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的信息检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211708607.6A CN116186198A (zh) | 2022-12-29 | 2022-12-29 | 信息检索方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211708607.6A CN116186198A (zh) | 2022-12-29 | 2022-12-29 | 信息检索方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116186198A true CN116186198A (zh) | 2023-05-30 |
Family
ID=86433569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211708607.6A Pending CN116186198A (zh) | 2022-12-29 | 2022-12-29 | 信息检索方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116186198A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578693A (zh) * | 2023-07-14 | 2023-08-11 | 深圳须弥云图空间科技有限公司 | 一种文本检索方法及装置 |
-
2022
- 2022-12-29 CN CN202211708607.6A patent/CN116186198A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578693A (zh) * | 2023-07-14 | 2023-08-11 | 深圳须弥云图空间科技有限公司 | 一种文本检索方法及装置 |
CN116578693B (zh) * | 2023-07-14 | 2024-02-20 | 深圳须弥云图空间科技有限公司 | 一种文本检索方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220398267A1 (en) | Content discovery systems and methods | |
US7860878B2 (en) | Prioritizing media assets for publication | |
CN110888990B (zh) | 文本推荐方法、装置、设备及介质 | |
US20100262610A1 (en) | Identifying Subject Matter Experts | |
US9767198B2 (en) | Method and system for presenting content summary of search results | |
US20090094210A1 (en) | Intelligently sorted search results | |
CN103136228A (zh) | 一种图片搜索方法以及图片搜索装置 | |
US20140379719A1 (en) | System and method for tagging and searching documents | |
EP4113329A1 (en) | Method, apparatus and device used to search for content, and computer-readable storage medium | |
US20220121668A1 (en) | Method for recommending document, electronic device and storage medium | |
CN114116997A (zh) | 知识问答方法、装置、电子设备及存储介质 | |
CN111666383A (zh) | 信息处理方法、装置、电子设备及计算机可读存储介质 | |
CN112818230B (zh) | 内容推荐方法、装置、电子设备和存储介质 | |
US20120239657A1 (en) | Category classification processing device and method | |
CN110245357B (zh) | 主实体识别方法和装置 | |
US8838616B2 (en) | Server device for creating list of general words to be excluded from search result | |
CN116186198A (zh) | 信息检索方法、装置、计算机设备及存储介质 | |
CN112926297B (zh) | 处理信息的方法、装置、设备和存储介质 | |
CN105824951A (zh) | 检索方法和装置 | |
CN111737607A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN111723201A (zh) | 一种用于文本数据聚类的方法和装置 | |
US8195458B2 (en) | Open class noun classification | |
CN111539208B (zh) | 语句处理方法和装置、以及电子设备和可读存储介质 | |
CN112016017A (zh) | 确定特征数据的方法和装置 | |
CN116610782B (zh) | 文本检索方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |