CN116521816A - 一种数据处理方法、检索方法、装置、设备以及存储介质 - Google Patents
一种数据处理方法、检索方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN116521816A CN116521816A CN202310465990.5A CN202310465990A CN116521816A CN 116521816 A CN116521816 A CN 116521816A CN 202310465990 A CN202310465990 A CN 202310465990A CN 116521816 A CN116521816 A CN 116521816A
- Authority
- CN
- China
- Prior art keywords
- index table
- content
- indexed
- field
- specified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000010276 construction Methods 0.000 claims abstract description 40
- 230000004044 response Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000013479 data entry Methods 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 14
- 230000002441 reversible effect Effects 0.000 claims description 12
- 238000013500 data storage Methods 0.000 claims description 9
- 208000000044 Amnesia Diseases 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 208000026139 Memory disease Diseases 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006984 memory degeneration Effects 0.000 description 7
- 208000023060 memory loss Diseases 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种数据处理方法、检索方法、装置、设备以及存储介质,涉及数据处理技术领域,尤其涉及数据库、信息流和知识图谱技术领域。具体实现方案为:响应于接收到针对正排索引表对应的倒排索引表的构建指令,确定指定字段在正排索引表中的目标字段值;基于正排索引表,确定目标字段值对应的待索引内容;以目标字段值作为索引键,且待索引内容作为该索引键的键值,按照预定构建方式,构建倒排索引表;其中,所述预定构建方式包括:若所述待索引内容所包括的字段值的数量未超过预定数量阈值,以数组结构存储所述待索引内容,否则,以指定树结构存储所述待索引内容。可见,通过本方案,可以兼顾降低缓存失效次数以及保证数据查询速度。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及数据库、信息流和知识图谱技术领域。具体涉及一种数据处理方法、检索方法、装置、设备以及存储介质。
背景技术
索引是数据库中的重要数据结构,用于提高数据的访问速度,因此,索引性能的提升对于数据库尤为重要。
相关技术中,通常采用前缀树作为索引的数据结构。
发明内容
本公开提供了一种数据处理方法、检索方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种数据处理方法,包括:
响应于接收到针对正排索引表对应的倒排索引表的构建指令,确定指定字段在所述正排索引表中的目标字段值;其中,所述指定字段为所述正排索引表中的除索引字段以外的字段;
基于所述正排索引表,确定所述目标字段值对应的待索引内容;其中,所述待索引内容包括:所述正排索引表中的指定数据条目所包含的索引字段的字段值,所述指定数据条目为所述指定字段具有所述目标字段值的数据条目;
以所述目标字段值作为索引键,且所述待索引内容作为所述索引键的键值,按照预定构建方式,构建倒排索引表;
其中,所述预定构建方式包括:若所述待索引内容所包括的字段值的数量未超过预定数量阈值,以数组结构存储所述待索引内容,否则,以指定树结构存储所述待索引内容。
根据本公开的另一方面,提供了一种检索方法,包括:
响应于接收到检索请求,确定所述检索请求所指示的检索词;
从指定索引表中,确定与所述检索词相匹配的目标索引键的键值;其中,所述指定索引表为基于上述任一项所述的数据处理方法所构建的倒排索引表;
从所述指定索引表所对应的正排索引表中,获取所包含索引字段的字段值与所述键值中的字段值相匹配的数据条目,作为初始检索结果;
基于所述初始检索结果,确定所述检索请求对应的检索结果。
根据本公开的另一方面,提供了一种数据处理装置,包括:
第一响应模块,用于响应于接收到针对正排索引表对应的倒排索引表的构建指令,确定指定字段在所述正排索引表中的目标字段值;其中,所述指定字段为所述正排索引表中的除索引字段以外的字段;
第一确定模块,用于基于所述正排索引表,确定所述目标字段值对应的待索引内容;其中,所述待索引内容包括:所述正排索引表中的指定数据条目所包含的索引字段的字段值,所述指定数据条目为所述指定字段具有所述目标字段值的数据条目;
构建模块,用于以所述目标字段值作为索引键,且所述待索引内容作为所述索引键的键值,按照预定构建方式,构建倒排索引表;
其中,所述预定构建方式包括:若所述待索引内容所包括的字段值的数量未超过预定数量阈值,以数组结构存储所述待索引内容,否则,以指定树结构存储所述待索引内容。
根据本公开的另一方面,提供了一种检索装置,包括:
第二响应模块,用于响应于接收到检索请求,确定所述检索请求所指示的检索词;
第二确定模块,用于从指定索引表中,确定与所述检索词相匹配的目标索引键的键值;其中,所述指定索引表为基于上述任一项所述的数据处理方法所构建的倒排索引表;
获取模块,用于从所述指定索引表所对应的正排索引表中,获取所包含索引字段的字段值与所述键值中的字段值相匹配的数据条目,作为初始检索结果;
第三确定模块,用于基于所述初始检索结果,确定所述检索请求对应的检索结果。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的数据处理方法,或者,检索方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一项所述的数据处理方法,或者,检索方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一项所述的数据处理方法,或者,检索方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开一种数据处理方法的流程图;
图2是根据本公开的一种索引表的数据结构的示意图;
图3是根据本公开数据处理方法的另一流程图;
图4是根据本公开数据处理方法的又一流程图;
图5是根据本公开一种检索方法的流程图;
图6是根据本公开一种数据处理装置的结构示意图;
图7是根据本公开一种检索装置的结构示意图;
图8是用来实现本公开实施例的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面,首先对本公开实施例所提供的一种数据处理方法进行介绍。
需要说明的,在具体应用中,本公开实施例所提供的数据处理方法可以应用于各类电子设备,例如,个人电脑、服务器、以及其他具有数据处理能力的设备。另外,可以理解的是,本公开实施例提供的数据处理方法可以通过软件、硬件或软硬件结合的方式实现。
其中,本公开实施例所提供的一种数据处理方法,可以包括如下步骤:
响应于接收到针对正排索引表对应的倒排索引表的构建指令,确定指定字段在所述正排索引表中的目标字段值;其中,所述指定字段为所述正排索引表中的除索引字段以外的字段;
基于所述正排索引表,确定所述目标字段值对应的待索引内容;其中,所述待索引内容包括:所述正排索引表中的指定数据条目所包含的索引字段的字段值,所述指定数据条目为所述指定字段具有所述目标字段值的数据条目;
以所述目标字段值作为索引键,且所述待索引内容作为所述索引键的键值,按照预定构建方式,构建倒排索引表;
其中,所述预定构建方式包括:若所述待索引内容所包括的字段值的数量未超过预定数量阈值,以数组结构存储所述待索引内容,否则,以指定树结构存储所述待索引内容。
本公开提供的方案中,响应于接收到针对正排索引表对应的倒排索引表的构建指令,首先确定正排索引表中的目标字段值,接着,确定该正排索引表中该目标字段值对应的待索引内容,并根据待索引内容所包括的字段值的数量,确定该待索引内容的存储结构,从而以目标字段值为索引键,以待索引内容作为该索引键的键值,并按照所确定的存储结构存储待索引内容,得到倒排索引表。由于数组结构具有连续存储的空间,当待索引内容所包括的字段值的数量未超过预定数量阈值,以数组结构存储该待索引内容,可以提高数据存储的连续性,从而降低缓存失效的次数;当待索引内容所包括的字段值的数量超过预定数量阈值,以指定树结构存储该待索引内容,可以保证数据的查询速度。可见,通过本方案,可以兼顾降低缓存失效次数和保证数据查询速度。
下面结合附图,对本公开实施例所提供的数据处理方法进行介绍。
如图1所示,本公开实施例所提供的数据处理方法,可以包括如下步骤:
S101,响应于接收到针对正排索引表对应的倒排索引表的构建指令,确定指定字段在该正排索引表中的目标字段值;其中,该指定字段为该正排索引表中的除索引字段以外的字段;
本实施例中,正排索引表中可以包括多个数据条目,每一数据条目为该正排索引表中的一行数据,每行数据中可以包括一索引字段和多个信息字段的字段值,指定字段可以为该多个信息字段中的任一字段。
其中,指定字段的确定方式可以存在多种,本公开对于指定字段的确定过程并不做限定。可选地,在实际应用中,可以由工作人员预先设定针对该正排索引表进行倒排索引表构建时,所需利用的指定字段,该指定字段可以携带在该构建指令中,使得响应于接收到针对正排索引表对应的倒排索引表的构建指令,可以先从构建指令中解析得到指定字段,然后再从该正排索引表中,确定该指定字段在该正排索引表中的目标字段值。示例性的,若正排索引表为广告详情表,索引字段为广告id,信息字段包括买词签名、广告出价、广告主id,等等,且若该指定字段为买词签名,该买词签名对应的字段值包括签名A、签名B和签名C,则在接收到构建指令时,可以确定签名A、签名B或签名C为目标字段值;其中,所谓的买词签名是可以是广告的关键字。
另外,需要说明的是,针对正排索引表对应的倒排索引表的构建指令可以定时触发,或者,当电子设备检测到所存储的正排索引表中发生变更时触发该构建指令,这都是合理的,本公开实施例对该构建指令的触发时机并不限定。
S102,基于该正排索引表,确定该目标字段值对应的待索引内容;其中,该待索引内容包括:该正排索引表中的指定数据条目所包含的索引字段的字段值,该指定数据条目为该指定字段具有该目标字段值的数据条目;
本实施例中,待索引内容为待进行构建的倒排索引表中的索引内容,其可以包括索引字段的一个或多个字段值。可以理解的是,由于正排索引表中的索引字段的字段值都是唯一的,而信息字段中的字段值可以重复,因此,同一信息字段的字段值可以对应有多个索引字段的字段值,因此,目标字段值对应的待索引内容中的字段值可以有一个或多个。示例性的,若目标字段值为签名A,且数据条目A和数据条目B中的指定字段的字段值都为该签名A,则该数据条目A和数据条目B为指定数据条目,该数据条目A和数据条目B中的索引字段的字段值可以构成待索引内容。
S103,以该目标字段值作为索引键,且该待索引内容作为该索引键的键值,按照预定构建方式,构建倒排索引表;
其中,该预定构建方式包括:若该待索引内容所包括的字段值的数量未超过预定数量阈值,以数组结构存储该待索引内容,否则,以指定树结构存储该待索引内容。
本实施例中,在通过步骤S101和S102确定出目标字段值和待索引内容后,以该目标字段值为索引键,以待索引内容为该索引键的键值,即可构建倒排索引表。示例性的,在实际应用中,可以由工作人员根据经验设定预定数量阈值,使得可以按照预定构建方式构建倒排索引表,即根据目标字段值对应的待索引内容所包括的字段值的数量,确定该目标字段值对应的待索引内容的存储结构,从而对待索引内容进行存储,得到倒排索引表。
可以理解的是,由于数组结构具有连续存储的空间,因此若待索引内容所包括的字段值的数量未超过预定数量阈值,以数组结构存储该待索引内容,可以提高数据存储的连续性,从而降低缓存失效的次数,并且,针对数据量较小的情况而言,以数组结构存储进行存储,也能够从一定程度上保证针对待索引内容的查询速度;另外,考虑到针对数据量较大的情况而言查询速度需优先被保障,因此,若待索引内容所包括的字段值的数量超过预定数量阈值,以指定树结构存储该待索引内容,即在字段值数量较多时采用树结构进行存储,可以保障数据的查询速度。示例性的,该指定树结构可以是BTree或其变体,例如B+Tree、B-Tree,或者该指定树结构还可以是前缀树,等等。本方案相对于仅仅利用树结构来进行待索引内容的存储而言,可以兼顾降低缓存失效次数以及保证数据查询速度。
可选地,在一种实现方式中,该指定树结构为指定前缀树,该指定前缀树为树节点采用数组结构进行数据存储的前缀树。
本实现方式中,该指定树结构可以为指定前缀树,由于树的高度越高,缓存失效的次数越多,而前缀树的树高只与索引键的键长有关,而与索引键的数量无关,树高更为可控,因此其在缓存失效方面的表现优于BTree或其变体,因此,可以采用指定前缀树结构进行数据存储,即将待索引内容以数组结构存储到指定前缀树的树节点中。可以理解的是,由于数组结构具有连续存储的空间,因此若指定前缀树的树节点采用数组结构进行数据存储,可以进一步提高数据存储的连续性,从而可以在兼顾缓存失效以及查询速度的基础上,进一步降低缓存失效的次数。
另外,需要说明的是,采用数组结构以及指定树结构相结合的形式,存储目标字段值对应的待索引内容的方式可以称之为artRC(adaptive radix tree of RowContainer,行存储的自适应前缀树)。图2展示了采用了artRC的索引表的数据结构示意图,其中,K为索引键,V为键值,也可以称之为倒排链。根据该键值的长度,即待索引内容所包括的字段值的数量,确定用于存储该待索引内容的数据结构为数组结构或者指定树结构。另外,数组结构以及树结构的叶子节点的连续存储采用了RC形式的存储结构。其中,RC形式的存储结构包含三个关键的字段:data(数组),用于存储连续的数据;valids bitset(有效位集),用于标志data对应位置是否存储数据,1表示是,0表示否;cursor(数组游标),用于表示当前使用位置,这个变量只增不减。
本公开提供的方案中,响应于接收到针对正排索引表对应的倒排索引表的构建指令,首先确定正排索引表中的目标字段值,接着,确定该正排索引表中该目标字段值对应的待索引内容,并根据待索引内容所包括的字段值的数量,确定该待索引内容的存储结构,从而以目标字段值为索引键,以待索引内容作为该索引键的键值,并按照所确定的存储结构存储待索引内容,得到倒排索引表。由于数组结构具有连续存储的空间,当待索引内容所包括的字段值的数量未超过预定数量阈值,以数组结构存储该待索引内容,可以提高数据存储的连续性,从而降低缓存失效的次数;当待索引内容所包括的字段值的数量超过预定数量阈值,以指定树结构存储该待索引内容,可以保证数据的查询速度。可见,通过本方案,可以兼顾降低缓存失效次数和保证数据查询速度。
可选地,在本公开的另一实施例中,数组结构的类型为多个,不同类型的数组结构中所存储的最大元素数量不同;
示例性的,该数据结构的类型可以包括RC1、RC7、RC16,等等。不同类型的数组结构中所存储的最大元素数量不同,例如,RC1中所存储的最大元素数量为1,RC7中所存储的最大元素数量为7。
相应地,在本实施例中,以数组结构存储该待索引内容的方式,可以包括步骤A1-A2:
A1,确定多个类型的数组结构中的、符合预定选取条件的目标类型的数组结构;其中,该预定选取条件为在存储该待索引内容后,存储空间的损耗小于预定容量阈值;
可以理解的是,由于待索引内容所包括的字段值可以具有不同的数据大小,即存储该待索引内容需要的存储空间大小不同,因此,在存储该待索引内容时,可以根据该待索引内容的数据大小确定目标类型的数组结构,使得在利用该目标类型的数组结构存储该待索引内容后,存储空间的损耗小于预定容量阈值。需要说明的是,该存储空间的损耗大小即该存储空间存储该待索引内容后,存储空间中未被占用的空间量,即该存储空间的空闲量。
示例性的,该预定容量阈值可以是待索引内容存储时的内存损耗不超过8byte、16byte,等等。在实际应用中,该预定容量阈值可以由相关技术人员根据需求自行设定,本公开实施例对此并不限定。
A2,以该目标类型的数组结构,存储该待索引内容。
可以理解的是,由于目标类型的数组结构为使得在存储该待索引内容后,存储空间的损耗小于预定容量阈值的数组结构,因此,以该目标类型的数组结构存储该待索引内容,可以为待存储的待索引内容选择合适的数组结构,以最大化的利用数组结构的存储空间,从而降低内存损耗。
可选地,在一种实现方式中,以该目标类型的数组结构,存储该待索引内容,可以包括步骤A21-A23:
A21,检测预先设置的内存池中,是否存在用于存储该目标类型的数组结构的内存块;
A22,若存在,利用该内存池中的该内存块,以该目标类型的数组结构,存储该待索引内容;
A23,若不存在,从系统内存中,申请该内存块,利用所申请得到的内存块,以该目标类型的数组结构,存储该待索引内容。
本实现方式中,可以预先设置内存池,该内存池中可以存储有预先申请的内存块。在以该目标类型的数组结构,存储该待索引内容时,可以先检测预先设置的内存池中,是否存在用于存储该目标类型的数组结构的内存块,从而若存在,可以直接从该内存池中取出该内存块,利用该内存块以该目标类型的数组结构,存储待索引内容;若不存在,则可以从系统内存中,申请该用于存储该目标类型的数组结构的内存块,并利用所申请得到的内存块,以该目标类型的数组结构,存储该待索引内容。另外,该内存块中的所存储的数据内容释放后,该内存池还可以回收该内存块,使得该内存块可以重复利用,从而可以降低不断申请或销毁内存块所带来的系统性能损耗。
可见,通过本方案,可以降低存储待索引内容的内存损耗。
可选地,在本公开的另一实施例中,在图1所示实施例的基础上,如图3所示,上述步骤S103中以该目标字段值作为索引键,且该待索引内容作为该索引键的键值,按照预定构建方式,构建倒排索引表之后,该方法还包括:
S104,响应于针对该正排索引表的数据条目的指定更新操作,对该倒排索引表中的、与该更新操作对应的索引键的键值进行更新;
其中,该指定更新操作包括删除或增加操作,该更新操作对应的索引键为该更新操作所指示的数据条目中的该指定字段的字段值。
示例性的,在实际应用中,可以周期性的读取数据日志,以对正排索引表中的数据内容进行更新。可以理解的是,由于倒排索引表基于正排索引表所构建,且倒排索引表中的待索引内容为正排索引表中的指定数据条目所包含的索引字段的字段值,因此,当正排索引表的数据条目发生指定更新操作时,即发生删除或增加操作时,倒排索引表中的数据内容需要与该正排索引表中的数据内容进行同步,此时,可以对该倒排索引表中与该更新操作对应的索引键的键值进行更新。示例性的,若正排索引表中删除了指定字段的字段值为签名A、索引字段的字段值为索引A的数据条目,则可以对该正排索引表对应的倒排索引表中的、索引键为签名A的键值进行更新,即删除索引键为签名A的键值中的索引A。
考虑到存在对该倒排索引表中的、与该更新操作对应的索引键的键值进行更新的处理,那么,相应地,在本实施例中,在图3所示实施例的基础上,如图4所示,所述方法还包括:
S401,检测该倒排索引表中的、目标键值对应的存储空间的损耗,是否大于预定容量阈值;其中,该目标键值为以数组结构存储的键值,该目标键值对应的存储空间的损耗为该目标键值所存储于的数组结构的存储空间的损耗;
可以理解的是,在正排索引表更新后,其对应的倒排索引表也会随之更新,此时,由于待索引内容所包括的字段值的数量会发生变化,因此,还可以在倒排索引表更新后,检测该倒排索引表中以数组结构存储的键值对应的存储空间的损耗,是否大于预定容量阈值。需要说明的是,该预定容量阈值的大小以及设置方式可以与上述步骤A1中的内容相同,这里不再赘述。
S402,若是,确定指定类型的数组结构,并将该目标键值当前所存储于的数组结构,变更为该指定类型的数组结构;
其中,该指定类型的数组结构在存储该目标键值后,存储空间的损耗小于预定容量阈值。
可以理解的是,在倒排索引表更新后,若检测该倒排索引表中的、目标键值对应的存储空间的损耗大于预定容量阈值,则可以对该目标键值当前所存储于的数组结构进行更新,即重新确定指定类型的数组结构,并将该目标键值当前所存储于的数组结构,变更为该指定类型的数组结构,以使得更新后的指定类型的数组结构存储目标键值后,存储空间的损耗小于预定容量阈值,从而降低内存损耗。
另外,可以理解的是,由于指定更新操作包括删除或增加的操作,当正排索引表中的数据条目发生指定更新操作时,倒排索引表中的键值的数量可能会发生变化,此时可以根据该更新后的键值的数量,对树结构进行优化,即对树结构进行升级或降级,包括对该树结构进行插入树节点或合并树节点的操作。其中,树结构的升级或降级的方式可以与现有技术中的树结构的升级或降低的方式相同,本公开实施例对此并不限定。
可见,通过本方案,可以在倒排索引表更新时对目标键值所存储于的数据结构的类型进行更新,以使得更新后的数组结构存储目标键值后,存储空间的损耗小于预定容量阈值,从而降低内存损耗。
在通过上述实施例所提供的方案构建倒排索引表后,如图5所示,本公开实施例还提供了一种检索方法,包括如下步骤:
S501,响应于接收到检索请求,确定该检索请求所指示的检索词;
本实施例中,响应于接收到检索请求,可以先确定该检索请求所指示的检索词,以利用该检索词进行数据检索。示例性的,在实际应用中,用户可以在前端界面中输入检索词进行检索,此时,前端界面会向相应的后端处理器发送检索请求,该检索请求中可以携带有检索词,使得后端处理器接收到该检索请求后,可以将该检索请求中携带的检索词确定为该检索请求所指示的检索词;或者,该检索请求中不携带检索词,后端处理器接收到该检索请求后,从前端界面中获取该检索请求所对应的检索词,这都是合理的。
S502,从指定索引表中,确定与该检索词相匹配的目标索引键的键值;其中,该指定索引表为基于上述任一项的数据处理方法所构建的倒排索引表;
本实施例中,在确定出检索词后,可以从利用上述实施例的方法所构建的倒排索引表中,确定与该检索词相匹配的目标索引键的键值,即该指定索引表中,该检索词作为目标索引键所对应的键值。
示例性的,若检索词为A,指定索引表中索引键为A的键值包括A_id和B_id,则与该检索词相匹配的目标索引键的键值为A_id和B_id。
S503,从该指定索引表所对应的正排索引表中,获取所包含索引字段的字段值与该键值中的字段值相匹配的数据条目,作为初始检索结果;
本实施例中,由于该键值为正排索引表中的索引字段的字段值,而正排索引表中存储有包含索引字段和多个信息字段的数据条目,因此,在通过步骤S502确定出与该检索词相匹配的目标索引键的键值后,可以从该指定索引表所对应的正排索引表中,获取所包含索引字段的字段值为该键值中的字段值的数据条目,作为初始检索结果。
示例性的,若与该检索词相匹配的目标索引键的键值为A_id和B_id,则该指定索引表对应的正排索引表中,索引字段的字段值为A_id和B_id的数据条目,即为初始检索结果。
S504,基于该初始检索结果,确定该检索请求对应的检索结果。
示例性的,在实际应用中,该检索请求中还可以携带有检索条件,例如地域范围、时间范围等条件,使得在获取初始检索结果后,可以根据该检索条件对该初始检索结果进行筛选,得到该检索请求对应的检索结果;或者,根据该初始检索结果的热度值由高到低排序,选取前预设数量个检索结果作为该检索请求对应的检索结果,这都是合理的。
可见,通过本方案,可以快速查找包含特定检索词的数据,提高查询速度。
为了更好的理解本公开实施例的内容,下面结合一个具体的示例进行阐述。
在内存数据库服务中,通常有一个更新线程和一组检索线程。其中,更新线程用于周期性读取数据日志,然后更新表以及索引;检索线程用于处理用户的检索请求,转化为对索引以及表的查询操作。下面,结合广告业务中的倒排索引表的构建流程对该更新线程和检索线程的作用进行介绍,其中,倒排索引表的构建流程如下:
(1)根据数据日志新建广告详情表(对应于上文中的正排索引表),其中,该广告详情表中的索引字段为“广告id”,其他字段为该广告详情表中的信息字段,广告详情表如表1所示:
表1
广告id | 买词签名 | 广告出价 | 广告主id | 计划id | … |
30001 | 666111 | 100 | 10001 | 20001 | |
30002 | 666112 | 200 | 10001 | 20001 | |
30003 | 666111 | 150 | 10002 | 20002 | |
30004 | 666111 | 120 | 10003 | 20003 | |
… |
(2)从该广告详情表中确定“买词签名”为指定字段,构建该广告详情表对应的倒排索引表,该倒排索引表如表2所示:
表2
其中,“买词签名”作为该倒排索引表中的索引键,广告详情表中该“买词签名”的字段值对应的索引字段的字段值,为该索引键对应的待索引内容,即“广告集”内容。
该“广告集”中的各个字段值采用连续存储的索引数据结构实现,即在“广告集”中的字段值的数量未超过预定数量阈值时,以数组结构存储该“广告集”内容,在“广告集”中的字段值的数量超过预定数量阈值时,以树节点采用数组结构进行数据存储的前缀树存储该“广告集”内容。
其中,该数组结构包括RC1、RC7、RC16、RC80、RC256这5中类型,不同类型的数组结构中所存储的最大元素数量不同。可以理解的是,RC(RowContainer,行容器)形式的存储结构,包含三个关键的字段:data(数组),用于存储连续的数据;valids bitset(有效位集),用于标志data对应位置是否存储数据,1表示是,0表示否;cursor(数组游标),用于表示当前使用位置,这个变量只增不减。
在采用数组结构存储“广告集”内容时,可以先确定符合预定选取条件的目标类型的数组结构,即存储该“广告集”内容后,可以使得内存损耗不超过8byte/条的目标类型的数组结构,从而以该目标类型的数组结构存储“广告集”内容。
另外,在实际应用中,使用RC1类型的数组结构的数量达到亿级,因此可以采用内存池的方式,在使用RC1类型的数组结构前,可以先检测内存池中是否存在用于存储RC1类型的数组结构的内存块。若存在,利用该内存池中的内存块,以RC1的数组结构存储待索引内容;若不存在,从系统内存中申请该用于存储RC1类型的数组结构的内存块,且该内存块中的所存储的数据释放后,该内存池还可以回收该内存块,使得该内存块可以重复利用。从而后续需要利用该内存块时,可以直接从内存池中获取,降低了不断申请或销毁内存块所带来的系统性能损耗。
其中,更新线程的作用如下:
在周期性读取数据日志后,根据最新的数据日志对广告详情表中的内容进行更新操作,此时,响应于广告详情表中的更新操作,可以对倒排索引表中与该更新操作对应的索引键的键值进行更新。由于更新操作包括删除或增加的操作,此时倒排索引表中的“广告集”内容可能会发生变化,根据该更新后的“广告集”内容,可以对树结构进行优化,包括对树结构进行升级或降级,其中,树结构的升级或降级可以与现有技术中的树结构的升级或降低的方式相同,本示例对此并不限定。并且,还可以根据“广告集”内容中的字段值的数量重新确定该数组结构的类型,以确定该数组结构的类型是否需要更新,从而控制存储该“广告集”内容的数组结构的内存损耗不超过8byte/条。
其中,检索线程的作用如下:
用户发送检索请求后,检索线程根据该检索请求中所携带的检索词,返回符合要求的广告集合。具体实现流程如下:
(1)响应于接收到检索请求,确定检索请求所指示的检索词,例如,该检索词可以为一组“买词签名”的字段值;
(2)从倒排索引表中,获取与检索词相匹配的索引键的键值,得到该“买词签名”的字段值对应的“广告集”内容;
(3)从该倒排索引表对应的广告的详情表中,查找该“广告集”内容作为索引字段的字段值所对应的数据条目,作为初始检索结果;
(4)过滤不符合该检索请求的检索条件的初始检索结果,得到该检索请求对应的检索结果;其中,该检索条件可以是地域、投放时间等条件。
本方案中,当待索引内容所包括的字段值的数量未超过预定数量阈值,以数组结构存储该待索引内容,可以提高数据存储的连续性,从而降低缓存失效的次数;当待索引内容所包括的字段值的数量超过预定数量阈值,以指定树结构存储该待索引内容,可以保证数据的查询速度,从而可以兼顾降低缓存失效次数和保证查询速度。另外,通过利用使得内存损耗不超过8byte/条的目标类型的数组结构,存储待索引内容,可以降低内存损耗;通过利用内存池存储不同类型的数组结构的内存块,在需要利用不同类型的数组结构的内存块时,可以先从内存池中获取,并且内存块中所存储的数据内容释放后,该内存池还可以回收该内存块,使得该内存块可以重复利用。从而可以降低不断申请或销毁内存块所带来的系统性能损耗。
基于上述数据处理方法的实施例,本公开实施例还提供了一种数据处理装置,如图6所示,所述装置包括:
第一响应模块610,用于响应于接收到针对正排索引表对应的倒排索引表的构建指令,确定指定字段在所述正排索引表中的目标字段值;其中,所述指定字段为所述正排索引表中的除索引字段以外的字段;
第一确定模块620,用于基于所述正排索引表,确定所述目标字段值对应的待索引内容;其中,所述待索引内容包括:所述正排索引表中的指定数据条目所包含的索引字段的字段值,所述指定数据条目为所述指定字段具有所述目标字段值的数据条目;
构建模块630,用于以所述目标字段值作为索引键,且所述待索引内容作为所述索引键的键值,按照预定构建方式,构建倒排索引表;
其中,所述预定构建方式包括:若所述待索引内容所包括的字段值的数量未超过预定数量阈值,以数组结构存储所述待索引内容,否则,以指定树结构存储所述待索引内容。
可选地,所述指定树结构为指定前缀树,所述指定前缀树为树节点采用数组结构进行数据存储的前缀树。
可选地,所述数组结构的类型为多个,不同类型的数组结构中所存储的最大元素数量不同;
所述以数组结构存储所述待索引内容的方式包括:
确定多个类型的数组结构中的、符合预定选取条件的目标类型的数组结构;其中,所述预定选取条件为在存储所述待索引内容后,存储空间的损耗小于预定容量阈值;
以所述目标类型的数组结构,存储所述待索引内容。
可选地,所述以所述目标类型的数组结构,存储所述待索引内容,包括:
检测预先设置的内存池中,是否存在用于存储所述目标类型的数组结构的内存块;
若存在,利用所述内存池中的所述内存块,以所述目标类型的数组结构,存储所述待索引内容;
若不存在,从系统内存中,申请所述内存块,利用所申请得到的内存块,以所述目标类型的数组结构,存储所述待索引内容。
可选地,所述以所述目标字段值作为索引键,且所述待索引内容作为所述索引键的键值,按照预定构建方式,构建倒排索引表之后,所述方法还包括:
响应于针对所述正排索引表的数据条目的指定更新操作,对所述倒排索引表中的、与所述更新操作对应的索引键的键值进行更新;
其中,所述指定更新操作包括删除或增加操作,所述更新操作对应的索引键为所述更新操作所指示的数据条目中的所述指定字段的字段值。
可选地,所述方法还包括:
检测所述倒排索引表中的、目标键值对应的存储空间的损耗,是否大于预定容量阈值;其中,所述目标键值为以数组结构存储的键值,所述目标键值对应的存储空间的损耗为所述目标键值所存储于的数组结构的存储空间的损耗;
若是,确定指定类型的数组结构,并将所述目标键值当前所存储于的数组结构,变更为所述指定类型的数组结构;
其中,所述指定类型的数组结构在存储所述目标键值后,存储空间的损耗小于预定容量阈值。
基于上述检索方法的实施例,本公开实施例还提供了一种检索装置,如图7所示,所述装置包括:
第二响应模块710,用于响应于接收到检索请求,确定所述检索请求所指示的检索词;
第二确定模块720,用于从指定索引表中,确定与所述检索词相匹配的目标索引键的键值;其中,所述指定索引表为基于上述任一项所述的数据处理方法所构建的倒排索引表;
获取模块730,用于从所述指定索引表所对应的正排索引表中,获取所包含索引字段的字段值与所述键值中的字段值相匹配的数据条目,作为初始检索结果;
第三确定模块740,用于基于所述初始检索结果,确定所述检索请求对应的检索结果。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
本公开所提供的一种电子设备,可以包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的数据处理方法,或者检索方法的步骤。
本公开所提供的一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一数据处理方法的步骤,或者上述检索方法的步骤。
在本公开提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一数据处理方法的步骤,或者上述检索方法的步骤。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如数据处理方法,或者,检索方法。例如,在一些实施例中,数据处理方法,或者,检索方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的数据处理方法,或者,检索方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法,或者,检索方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (12)
1.一种数据处理方法,包括:
响应于接收到针对正排索引表对应的倒排索引表的构建指令,确定指定字段在所述正排索引表中的目标字段值;其中,所述指定字段为所述正排索引表中的除索引字段以外的字段;
基于所述正排索引表,确定所述目标字段值对应的待索引内容;其中,所述待索引内容包括:所述正排索引表中的指定数据条目所包含的索引字段的字段值,所述指定数据条目为所述指定字段具有所述目标字段值的数据条目;
以所述目标字段值作为索引键,且所述待索引内容作为所述索引键的键值,按照预定构建方式,构建倒排索引表;
其中,所述预定构建方式包括:若所述待索引内容所包括的字段值的数量未超过预定数量阈值,以数组结构存储所述待索引内容,否则,以指定树结构存储所述待索引内容。
2.根据权利要求1所述的方法,其中,所述指定树结构为指定前缀树,所述指定前缀树为树节点采用数组结构进行数据存储的前缀树。
3.根据权利要求1或2所述的方法,其中,所述数组结构的类型为多个,不同类型的数组结构中所存储的最大元素数量不同;
所述以数组结构存储所述待索引内容的方式包括:
确定多个类型的数组结构中的、符合预定选取条件的目标类型的数组结构;其中,所述预定选取条件为在存储所述待索引内容后,存储空间的损耗小于预定容量阈值;
以所述目标类型的数组结构,存储所述待索引内容。
4.根据权利要求3所述的方法,其中,所述以所述目标类型的数组结构,存储所述待索引内容,包括:
检测预先设置的内存池中,是否存在用于存储所述目标类型的数组结构的内存块;
若存在,利用所述内存池中的所述内存块,以所述目标类型的数组结构,存储所述待索引内容;
若不存在,从系统内存中,申请所述内存块,利用所申请得到的内存块,以所述目标类型的数组结构,存储所述待索引内容。
5.根据权利要求3所述的方法,其中,所述以所述目标字段值作为索引键,且所述待索引内容作为所述索引键的键值,按照预定构建方式,构建倒排索引表之后,所述方法还包括:
响应于针对所述正排索引表的数据条目的指定更新操作,对所述倒排索引表中的、与所述更新操作对应的索引键的键值进行更新;
其中,所述指定更新操作包括删除或增加操作,所述更新操作对应的索引键为所述更新操作所指示的数据条目中的所述指定字段的字段值。
6.根据权利要求5所述的方法,所述方法还包括:
检测所述倒排索引表中的、目标键值对应的存储空间的损耗,是否大于预定容量阈值;其中,所述目标键值为以数组结构存储的键值,所述目标键值对应的存储空间的损耗为所述目标键值所存储于的数组结构的存储空间的损耗;
若是,确定指定类型的数组结构,并将所述目标键值当前所存储于的数组结构,变更为所述指定类型的数组结构;
其中,所述指定类型的数组结构在存储所述目标键值后,存储空间的损耗小于预定容量阈值。
7.一种检索方法,包括:
响应于接收到检索请求,确定所述检索请求所指示的检索词;
从指定索引表中,确定与所述检索词相匹配的目标索引键的键值;其中,所述指定索引表为基于权利要求1-6任一项所述的方法所构建的倒排索引表;
从所述指定索引表所对应的正排索引表中,获取所包含索引字段的字段值与所述键值中的字段值相匹配的数据条目,作为初始检索结果;
基于所述初始检索结果,确定所述检索请求对应的检索结果。
8.一种数据处理装置,包括:
第一响应模块,用于响应于接收到针对正排索引表对应的倒排索引表的构建指令,确定指定字段在所述正排索引表中的目标字段值;其中,所述指定字段为所述正排索引表中的除索引字段以外的字段;
第一确定模块,用于基于所述正排索引表,确定所述目标字段值对应的待索引内容;其中,所述待索引内容包括:所述正排索引表中的指定数据条目所包含的索引字段的字段值,所述指定数据条目为所述指定字段具有所述目标字段值的数据条目;
构建模块,用于以所述目标字段值作为索引键,且所述待索引内容作为所述索引键的键值,按照预定构建方式,构建倒排索引表;
其中,所述预定构建方式包括:若所述待索引内容所包括的字段值的数量未超过预定数量阈值,以数组结构存储所述待索引内容,否则,以指定树结构存储所述待索引内容。
9.一种检索装置,包括:
第二响应模块,用于响应于接收到检索请求,确定所述检索请求所指示的检索词;
第二确定模块,用于从指定索引表中,确定与所述检索词相匹配的目标索引键的键值;其中,所述指定索引表为基于权利要求1-6任一项所述的方法所构建的倒排索引表;
获取模块,用于从所述指定索引表所对应的正排索引表中,获取所包含索引字段的字段值与所述键值中的字段值相匹配的数据条目,作为初始检索结果;
第三确定模块,用于基于所述初始检索结果,确定所述检索请求对应的检索结果。
10.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
11.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
12.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310465990.5A CN116521816A (zh) | 2023-04-26 | 2023-04-26 | 一种数据处理方法、检索方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310465990.5A CN116521816A (zh) | 2023-04-26 | 2023-04-26 | 一种数据处理方法、检索方法、装置、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116521816A true CN116521816A (zh) | 2023-08-01 |
Family
ID=87402426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310465990.5A Pending CN116521816A (zh) | 2023-04-26 | 2023-04-26 | 一种数据处理方法、检索方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116521816A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117519839A (zh) * | 2024-01-05 | 2024-02-06 | 恒生电子股份有限公司 | 数据加载方法及装置 |
CN118585528A (zh) * | 2024-08-06 | 2024-09-03 | 杭州古珀医疗科技有限公司 | 基于动态配置标签倒排索引的数据查询方法和装置 |
-
2023
- 2023-04-26 CN CN202310465990.5A patent/CN116521816A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117519839A (zh) * | 2024-01-05 | 2024-02-06 | 恒生电子股份有限公司 | 数据加载方法及装置 |
CN117519839B (zh) * | 2024-01-05 | 2024-04-16 | 恒生电子股份有限公司 | 数据加载方法及装置 |
CN118585528A (zh) * | 2024-08-06 | 2024-09-03 | 杭州古珀医疗科技有限公司 | 基于动态配置标签倒排索引的数据查询方法和装置 |
CN118585528B (zh) * | 2024-08-06 | 2024-10-25 | 杭州古珀医疗科技有限公司 | 基于动态配置标签倒排索引的数据查询方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116521816A (zh) | 一种数据处理方法、检索方法、装置、设备以及存储介质 | |
CN113568940B (zh) | 数据查询的方法、装置、设备以及存储介质 | |
CN105302807B (zh) | 一种获取信息类别的方法和装置 | |
CN110704194A (zh) | 管理内存数据及在内存中维护数据的方法和系统 | |
CN113961510B (zh) | 一种文件处理方法、装置、设备及存储介质 | |
CN107609192A (zh) | 一种搜索引擎的补充搜索方法和装置 | |
CN113886434A (zh) | 基于数据库集群的查询和存储方法、装置以及设备 | |
CN112818230B (zh) | 内容推荐方法、装置、电子设备和存储介质 | |
CN111756832B (zh) | 推送信息的方法、装置、电子设备及计算机可读存储介质 | |
CN114817651B (zh) | 数据存储方法、数据查询方法、装置和设备 | |
CN113364877A (zh) | 数据处理方法、装置、电子设备和介质 | |
CN112989170A (zh) | 应用于信息搜索的关键词匹配方法、信息搜索方法及装置 | |
CN111488736A (zh) | 自学习分词方法、装置、计算机设备和存储介质 | |
CN103530345A (zh) | 短文本特征扩展及拟合特征库构建方法、装置 | |
CN112887426B (zh) | 信息流的推送方法、装置、电子设备以及存储介质 | |
CN112800315B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN115525659A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN114443910A (zh) | 数据存储方法、搜索方法、装置和电子设备 | |
CN115687342A (zh) | 使用高速缓存层用于在数据库中键值存储 | |
CN113377402A (zh) | 多版本并发存储方法和装置 | |
CN112528156A (zh) | 建立排序模型的方法、查询自动补全的方法及对应装置 | |
CN112631517A (zh) | 数据存储方法、装置、电子设备和存储介质 | |
CN113449155B (zh) | 用于特征表示处理的方法、装置、设备和介质 | |
CN113032402B (zh) | 存储数据和获取数据的方法、装置、设备和存储介质 | |
CN113360821B (zh) | 更新网站质量特征的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |