CN103390038A - 一种基于HBase的构建和检索增量索引的方法 - Google Patents
一种基于HBase的构建和检索增量索引的方法 Download PDFInfo
- Publication number
- CN103390038A CN103390038A CN2013102989767A CN201310298976A CN103390038A CN 103390038 A CN103390038 A CN 103390038A CN 2013102989767 A CN2013102989767 A CN 2013102989767A CN 201310298976 A CN201310298976 A CN 201310298976A CN 103390038 A CN103390038 A CN 103390038A
- Authority
- CN
- China
- Prior art keywords
- index
- text
- retrieval
- major key
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于HBase的构建和检索增量索引的方法,包括以下步骤:基于HBase的列存储机制设计索引的存储结构,使用三个数据表分别保存原始文本、索引信息和统计信息;设计面向Web的待索引文本获取接口,提供基于HTTP协议的文本索引服务;对持续增加的文本构建增量索引,当新的待索引文本产生并到达时,索引系统不重新将全部数据构建索引,将新增文本的索引追加存储到已有索引中,在存储索引时,先将所有文本内容以及索引信息其放入缓冲区,当缓冲区的数据量达到阈值时批量写入数据;提供多种格式结果的检索服务接口,用户通过面向Web的接口使用检索服务,检索系统将按照用户提交的搜索请求进行检索并按用户的要求对检索结果进行格式化。
Description
技术领域
本发明涉及一种在HBase(一个分布式的、面向列的开源数据库,支持百万列上亿行数据的存储)基础上对持续增加的文本,构建增量索引和对增量索引检索结果格式化的方法,主要解决目前对持续增加的文本内容构建索引效率低,以及索引与检索系统难以与其他信息系统协作的问题。
背景技术
随着互联网技术的发展,信息系统的中存储的文本数量日益庞大,为了从中查找所需信息,必须构建索引。当需要索引的数据量极大时,单个计算机提供的存储容量无法满足索引的存储需求。并且,随着数据的规模持续增长,按照传统方法对全部数据重新构建索引所花费的时间会难以忍受。另外,用户对于检索结果的呈现格式也有更多要求,单一的结果格式无法满足用户的使用需求。因此,如何有效的对不断增长的数据构建增量索引,满足用户在检索格式化方面的需求,成为了亟待解决的难题。
针对如何有效地构建数据索引以及存储和检索,以下3篇专利文献提供了不同的技术方案:
1.对计算机网络中的资源内容构建索引的方法和设备(200810084087.X);
2.一种分布式实时搜索引擎(201110137785.3);
3.一种基于MapReduce编程架构的索引生成方法和装置(201110446325.9)。
文献1通过判断资源是否链接有用户定义的索引代码来判断使用何种索引构建的方法,由于用户或者内容所有者比其他人更好的理解自身的文档内容,所以该方法可以有助于提高索引的质量,进而提高搜索的质量。
文献2包括一种基于Master/Slave的集群式系统的功能性架构,含有中心控制节点、索引数据存储节点和对外服务节点。也包括一种树形层次的索引结构,含有索引、索引分片、段、文档和域的多层结构。通过系统内存中的更新时索引、合并时索引和磁盘索引的配合,实现实时的索引与检索能力。
文献3包括利用HBase集群、Hadoop集群和Solr集群功能协作,使用MapReduce编程模型对数据记录进行分解、合并处理,得到倒排索引文件。该方法可以并行的处理数据,提高了构建海量数据索引的效率。
以上文献所述方法主要存在以下问题:文献1没有考虑数据持续增加时如何构建索引,不适合对持续增加的数据增量构建索引。文献2没有提供检索结果的多种格式化输出,所以不适合其他信息系统协作索引和检索持续增加的新数据。文献3在存储时没有重新设计索引的存储格式,而是依然使用原有单机索引系统的文件存储方式。
发明内容
本发明的目的在于解决现有方法不能快速有效的对持续增加的数据构建索引并检索的问题,根据HBase的列存储机制和索引的格式特点,提出一种基于HBase的构建和检索增量索引的方法。
为了达到以上目的,本发明是采取如下技术方案予以实现的:
一种基于HBase的构建和检索增量索引的方法,其特征在于,包括下述步骤:
(1)利用HBase来设计增量索引的存储结构
利用HBase的数据列动态可扩展的特点,将词元作为关键字主键,将文本主键作索引存储表的列字段名称,利用HBase的分布式存储的特点,实现对大规模文本和索引信息的存储,索引系统同时为多个不同的数据源分别提供索引服务;为了有效的存储索引信息,共设计三个表:
a、表Ttext存储索引数据的原始信息,字段包括文本主键,文本内容与来源等信息;
b、表Tindex存储数据的索引信息,字段包括关键字主键,含有关键字的数据内容所对应的全部文本主键索引列,且表Tindex中的文本主键索引列随着持续增加的索引数据而动态的增加;
c、表Tstatistic存储统计信息,包括总文本数量,总关键字数量;
(2)提供面向Web的待索引文本获取接口;
(3)对持续增加的文本构建增量索引
当新增文本产生并到达时,索引系统将新增文本的索引追加存储到已有索引中,不重新对全部数据构建索引,具体方法为:
a、根据表Tstatistic中的总文本数量,对新的待索引文本生成新文本主键,然后采用缓冲机制,将新文本主键和数据内容存入缓冲区,使用缓冲区将原始文本追加到表Ttext;
b、将待索引文本分词得到词元,英文以单词为词元分词,中文以字、词作为词元分词,记录词元在内容中出现的数量、位置信息;最后,在表Tindex中以词元作为关键字主键进行查询,根据查询结果,增加新的索引信息,有两种情况:①如果表Tindex中已存在该关键字主键,则在已有的文本主键索引列基础上,将新文本主键追加为该关键字主键的索引列;②如果表Tindex中不存在该关键字主键,则在表Tindex中新增该关键字主键,并将新文本主键作为新的索引列,采用缓冲机制,将新的索引信息存入缓冲区,使用缓冲区将索引信息存入表Tindex,根据文本主键的数量和关键字主键的数量,将表Tstatistic中的总文本数量、总关键字数量等信息更新;
(4)提供多种格式检索结果的服务接口。
上述方法中,所述的提供面向Web的待索引文本获取接口包括:该接口的入口参数采用HTTP协议的POST请求规范,要求用户提供两类信息,第一类是配置信息,包括服务地址、端口号码、服务口令、索引库名称等信息用于身份验证和索引系统的配置;第二类是待索引信息,包括待索引文本的标题、来源地址、正文内容等用于构建索引;该接口收到用户的索引请求后,根据请求的内容,交由索引系统实现增量索引。
所述的基于缓冲机制存储增量索引的方法为:全部被索引的文本内容,以及全部通过索引系统构建的索引信息,在存储时不直接写入HBase,而是先将其放入缓冲区,缓冲区队列中的每个元素是新增的索引信息,索引信息存放的顺序严格按照信息生成的时间顺序;当新增文本的索引构建完成后,检查缓冲区的数据量是否大于等于预定义的阈值,有两种情况:
a、如果缓冲区的数据量小于阈值,则暂时不进行存储;
b、如果缓冲区的数据量大于等于阈值,则将缓冲区中的文本主键与文本内容批量存储到表Ttext,关键字主键和索引列数据批量存储到表Tindex,完成索引信息写入HBase;从缓冲区取出索引信息的过程严格按照其队列顺序,按先进先出的方式从最早缓存的数据开始取出,将取出的数据写入到HBase的对应表中。
所述的提供多种格式检索结果的服务接口具体包括:
通过面向Web的接口提交搜索请求,接口参数采用HTTP协议的GET请求规范,用户需要提交检索关键字和检索结果格式要求,其中检索结果格式包括:XML格式,HTML格式,JSON格式,CSV格式,将搜索词作为关键字主键,在表Tindex中查询与关键字主键相同的记录,根据查询结果,有以下两种情况:
a、如果不存在记录,则检索结果数量为0,检索结果列表为空;
b、如果存在记录,则取出记录的全部文本主键索引列,检索结果数量为全部文本主键索引列的列数量,根据文本主键从表Ttext取得对应的文本内容,检索结果列表为全部文本主键对应的文本内容列表;然后根据用户要求的数据格式,将检索结果的数量与检索结果的列表进行格式化,如果用户不指定格式,则将按照默认的HTML格式对检索结果进行格式化,生成最终检索结果返回给用户。
与现有技术相比,本发明方法的优点是:
1、利用HBase的列存储机制和索引格式的特点,提出用HBase保存索引的方法,将索引由传统的文件存储替换为HBase,解决了索引存储的容量问题并提高了检索速度。
2、对持续增加的新数据进行增量索引,无需重新批量处理全部数据,提高了索引的速度。
3、使用缓冲区批量保存新增索引信息,提高了存储数据的效率。
4、通过Web,基于HTTP协议提供索引和检索服务接口,且检索结果支持多种输出格式,提高了索引与检索系统的可用性,使其他信息系统可以通过接口与系统进行协作。
采用本发明方法,可以同时为多个信息系统的数据分别提供独立的增量索引服务,并且可以按照用户的需求提供多种格式的检索服务。
附图说明
图1是本发明方法的整体流程示意图。
图2是图1中HBase数据库存储结构示意图。
图3是图1中索引系统的流程图。
图4是图1中检索系统的流程图。
具体实施方式
以下结合附图,对本发明基于HBase的构建和检索增量索引方法的具体内容做细致描述。
如图1所示,本发明利用HBase存储索引,由索引系统和检索系统组成。
A、利用HBase存储索引
在设计索引的存储结构时,利用HBase的数据列动态可扩展的特点,将词元作为关键字主键,将文本主键作索引存储表的列字段名称。随着被索引文本数量的增加,列字段数量也相应动态增加;利用HBase的分布式存储的特点,实现对大规模文本和索引信息的存储,索引系统可以同时为多个不同的数据源分别提供索引服务;利用HBase的键值访问方式特点,实现索引信息的快速查询,随着被索引文本数量的增加,检索速度不会有明显下降。
存储索引的格式如图2所示,共三个表,(a)原始文本存储表Ttext,字段包括文本主键、文本内容和来源等信息;(b)索引信息存储表Tindex,字段包括关键字主键、含有关键字的文本内容所对应的全部文本主键索引列;(c)统计信息存储表Tstatistic,包括总文本数量和总关键字数量等;
B、索引系统
在索引系统中,通过面向Web的待索引文本接口获取新增文本,对新增文本构建增量索引,并将新索引信息存入缓冲区,采用缓冲机制将增量索引写入到HBase中。具体过程如图3所示:
1)索引系统提供了面向Web的待索引文本获取接口,在用户提交索引参数时,需要提交的索引参数包括两类信息,第一类是配置信息,包括服务地址、端口号码、服务口令、索引库名称等信息用于身份验证和索引系统的配置;第二类是待索引信息,包括待索引文本的标题、来源地址、正文内容等用于构建索引。通过该接口,即可获得新增的待索引数据内容Cdoc;
2)在表Tstatistic中查询总文本数量,根据总文本数量,生成新文本主键Kdoc,然后采用缓冲机制,将新文本主键Kdoc和文本内容Cdoc存入缓冲区,在步骤6)中可以将缓冲区的数据追加到表Ttext中。其中,缓冲区是一个先进先出的有序队列,队列中的每个元素是新增的索引信息,索引信息存放的顺序严格按照信息生成的时间顺序;
3)将Cdoc进行分词得到词元,英文以单词为词元,中文按照字和词典分词,以字、词作为词元。同时,记录词元在待索引文本内容中出现的数量、位置等信息。对每个词元,以词元作为关键字主键Kword,在表Tindex中查询是否存在该关键字主键Kword,根据查询结果,判断如何操作。如果表Tindex中已存在该关键字主键Kword,则在Kword已有的文本主键索引列基础上,将Kdoc追加为Kword的索引列;
4)如果表Tindex中不存在Kword,则在表Tindex中新增Kword,并将Kdoc作为新的索引列。然后采用缓冲机制,新增的索引信息存入缓冲区,在步骤6)中可以将缓冲区的数据追加到表Tindex中;
5)根据步骤2)和步骤3)中生成的文本主键的数量和关键字主键的数量,将表Tstatistic中的总文本数量,总关键字数量等信息更新;
6)检查缓冲区的当前存储的数据量,根据数据量的大小和预定义的阈值进行操作。如果缓冲区数据量小于阈值,则执行步骤7)。如果缓冲区的数据量大于阈值,则从缓冲区中取出所有缓冲数据,取出过程严格按照其队列顺序,按先进先出的方式从最早缓存的数据开始取出,将取出的数据写入到HBase的对应表中;
7)向用户发送消息,通知用户对所发送的待索引内容Cdoc已经完成增量索引的构建。
C、检索系统
如图1所示,检索系统通过面向Web的接口提供检索服务,用户使用HTTP协议提交检索请求,包括关键字与格式要求,检索系统按关键词检索后,将检索结果格式化返回给用户。
检索系统的具体流程如图4所示:
1)用户通过面向Web的接口提交搜索请求,接口参数采用HTTP协议的GET请求规范。用户需要提交检索关键字和检索结果格式要求,其中检索结果格式包括XML格式,HTML格式,JSON格式,CSV格式;
2)检索系统在表Tindex中按照关键字主键进行查询,根据查询结果进行操作。如果查询结果中不存在该关键字主键对应的记录,则生成的检索结果数量为0,检索结果列表为空,执行步骤4);
3)如果查询结果中存在记录,则将该关键字主键对应的所有文本主键索引列都提取出来,根据这些索引列构造检索结果。其中检索结果数量为全部文本主键索引列的列数量。对每一个文本主键,从表Ttext中可以取得对应的文本内容,检索结果列表为全部文本主键对应的数据内容列表;
4)得到检索结果后,如果用户指定了格式,则按照用户指定的格式对检索结果进行格式化;如果用户不指定格式,则将按照默认的HTML格式对检索结果进行格式化。最后将检索结果数量与检索结果列表进行格式化,生成最终检索结果返回给用户。
综合上述结合附图的说明,本发明的技术方案的主要步骤如下:
(1)利用Hbase来设计增量索引的存储结构,共设计三个数据表:(a)原始文本存储表Ttext,字段包括文本主键、文本内容和来源等信息,按照步骤(3)向表Ttext添加数据;(b)索引信息存储表Tindex,字段包括关键字主键、含有关键字的文本内容所对应的全部文本主键索引列,表Tindex的文本主键索引列按照步骤(3)增加;(c)统计信息存储表Tstatistic,包括总文本数量和总关键字数量等,按照步骤(3)更新表Tstatistic;
(2)提供面向Web的待索引文本获取接口,提供基于HTTP协议的文本索引服务,该接口的入口参数采用HTTP协议的POST请求规范,要求用户提供配置信息与待索引信息,该接口收到用户的新增文本索引请求后由索引系统实现增量索引;
(3)对持续增加的文本构建增量索引,当新的待索引文本产生并到达时,索引系统不重新将全部数据构建索引,将新增文本的索引追加存储到已有索引中。首先根据表Tstatistic中的总文本数量,对新的待索引文本生成新文本主键,采用缓冲机制,将新文本主键和数据内容存入缓冲区;然后,将待索引文本分词得到词元:英文以单词为词元分词,中文以字、词作为词元分词;记录词元在文本内容中出现的数量、位置等信息;最后,在表Tindex中以词元作为关键字主键进行查询,根据查询结果,增加新的索引信息,有两种情况:(a)如果表Tindex中已存在该关键字主键,则在已有的文本主键索引列基础上,将新文本主键追加为该关键字主键的索引列;(b)如果表Tindex中不存在该关键字主键,则在表Tindex中新增该关键字主键,并将新文本主键作为新的索引列;采用缓冲机制,将新的索引信息存入缓冲区。根据文本主键的数量和关键字主键的数量,将表Tstatistic中的总文本数量、总关键字数量等信息更新。
全部被索引的文本内容,以及全部通过索引系统构建的索引信息,在存储时不直接写入HBase,而是先将其放入缓冲区,缓冲区队列中的每个元素是新增的索引信息,索引信息存放的顺序严格按照信息生成的时间顺序;当新增文本的索引构建完成后,检查缓冲区的数据量是否大于等于预定义的阈值,有两种情况:
a、如果缓冲区的数据量小于阈值,则暂时不进行存储;
b、如果缓冲区的数据量大于等于阈值,则将缓冲区中的文本主键与文本内容批量存储到表Ttext,关键字主键和索引列数据批量存储到表Tindex,完成索引信息写入HBase;从缓冲区取出索引信息的过程严格按照其队列顺序,按先进先出的方式从最早缓存的数据开始取出,将取出的数据写入到HBase的对应表中。
(4)提供多种格式结果的检索服务接口,接口参数采用HTTP协议的GET请求规范,用户需要提交检索关键字和检索结果格式要求,其中检索结果格式包括:XML格式,HTML格式,JSON格式,CSV格式,通过面向Web的接口提交搜索请求,将搜索词作为关键字主键,在表Tindex中查询与关键字主键相同的记录,根据查询结果,有以下两种情况:(a)如果不存在记录,则检索结果数量为0,检索结果列表为空;(b)如果存在记录,则取出记录的全部文本主键索引列,检索结果数量为全部文本主键索引列的列数量,根据文本主键从表Ttext取得对应的文本内容,检索结果列表为全部文本主键对应的文本内容列表;然后根据用户要求的数据格式,将检索结果的数量与检索结果的列表进行格式化,生成最终检索结果返回给用户,如果用户不指定格式,则将按照默认的HTML格式对检索结果进行格式化,生成最终检索结果返回给用户。
Claims (4)
1.一种基于HBase的构建和检索增量索引的方法,其特征在于,包括下述步骤:
(1)利用HBase来设计增量索引的存储结构
利用HBase的数据列动态可扩展的特点,将词元作为关键字主键,将文本主键作索引存储表的列字段名称,利用HBase的分布式存储的特点,实现对大规模文本和索引信息的存储,索引系统同时为多个不同的数据源分别提供索引服务;为了有效的存储索引信息,共设计三个表:
a、表Ttext存储索引数据的原始信息,字段包括文本主键,文本内容与来源等信息;
b、表Tindex存储数据的索引信息,字段包括关键字主键,含有关键字的数据内容所对应的全部文本主键索引列,且表Tindex中的文本主键索引列随着持续增加的索引数据而动态的增加;
c、表Tstatistic存储统计信息,包括总文本数量,总关键字数量;
(2)提供面向Web的待索引文本获取接口;
(3)对持续增加的文本构建增量索引
当新增文本产生并到达时,索引系统将新增文本的索引追加存储到已有索引中,不重新对全部数据构建索引,具体方法为:
a、根据表Tstatistic中的总文本数量,对新的待索引文本生成新文本主键,然后采用缓冲机制,将新文本主键和数据内容存入缓冲区,使用缓冲区将原始文本追加到表Ttext;
b、将待索引文本分词得到词元,英文以单词为词元分词,中文以字、词作为词元分词,记录词元在内容中出现的数量、位置信息;最后,在表Tindex中以词元作为关键字主键进行查询,根据查询结果,增加新的索引信息,有两种情况:①如果表Tindex中已存在该关键字主键,则在已有的文本主键索引列基础上,将新文本主键追加为该关键字主键的索引列;②如果表Tindex中不存在该关键字主键,则在表Tindex中新增该关键字主键,并将新文本主键作为新的索引列,采用缓冲机制,将新的索引信息存入缓冲区,使用缓冲区将索引信息存入表Tindex,根据文本主键的数量和关键字主键的数量,将表Tstatistic中的总文本数量、总关键字数量等信息更新;
(4)提供多种格式检索结果的服务接口。
2.如权利要求1所述的基于HBase的构建和检索增量索引的方法,其特征在于,所述的提供面向Web的待索引文本获取接口包括:该接口的入口参数采用HTTP协议的POST请求规范,要求用户提供两类信息,第一类是配置信息,包括服务地址、端口号码、服务口令、索引库名称等信息用于身份验证和索引系统的配置;第二类是待索引信息,包括待索引文本的标题、来源地址、正文内容等用于构建索引;该接口收到用户的索引请求后,根据请求的内容,交由索引系统实现增量索引。
3.如权利要求1所述的基于HBase的构建和检索增量索引的方法,其特征在于,所述的基于缓冲机制存储增量索引的方法为:全部被索引的文本内容,以及全部通过索引系统构建的索引信息,在存储时不直接写入HBase,而是先将其放入缓冲区,缓冲区队列中的每个元素是新增的索引信息,索引信息存放的顺序严格按照信息生成的时间顺序;当新增文本的索引构建完成后,检查缓冲区的数据量是否大于等于预定义的阈值,有两种情况:
a、如果缓冲区的数据量小于阈值,则暂时不进行存储;
b、如果缓冲区的数据量大于等于阈值,则将缓冲区中的文本主键与文本内容批量存储到表Ttext,关键字主键和索引列数据批量存储到表Tindex,完成索引信息写入HBase;从缓冲区取出索引信息的过程严格按照其队列顺序,按先进先出的方式从最早缓存的数据开始取出,将取出的数据写入到HBase的对应表中。
4.如权利要求1所述的基于HBase的构建和检索增量索引的方法,其特征在于,所述的提供多种格式检索结果的服务接口具体包括:
通过面向Web的接口提交搜索请求,接口参数采用HTTP协议的GET请求规范,用户需要提交检索关键字和检索结果格式要求,其中检索结果格式包括:XML格式,HTML格式,JSON格式,CSV格式,将搜索词作为关键字主键,在表Tindex中查询与关键字主键相同的记录,根据查询结果,有以下两种情况:
a、如果不存在记录,则检索结果数量为0,检索结果列表为空;
b、如果存在记录,则取出记录的全部文本主键索引列,检索结果数量为全部文本主键索引列的列数量,根据文本主键从表Ttext取得对应的文本内容,检索结果列表为全部文本主键对应的文本内容列表;然后根据用户要求的数据格式,将检索结果的数量与检索结果的列表进行格式化,如果用户不指定格式,则将按照默认的HTML格式对检索结果进行格式化,生成最终检索结果返回给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310298976.7A CN103390038B (zh) | 2013-07-16 | 2013-07-16 | 一种基于HBase的构建和检索增量索引的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310298976.7A CN103390038B (zh) | 2013-07-16 | 2013-07-16 | 一种基于HBase的构建和检索增量索引的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103390038A true CN103390038A (zh) | 2013-11-13 |
CN103390038B CN103390038B (zh) | 2016-03-30 |
Family
ID=49534310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310298976.7A Active CN103390038B (zh) | 2013-07-16 | 2013-07-16 | 一种基于HBase的构建和检索增量索引的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103390038B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778219A (zh) * | 2014-01-20 | 2014-05-07 | 西安交通大学 | 一种基于HBase的更新增量索引的方法 |
CN103838830A (zh) * | 2014-02-18 | 2014-06-04 | 广东亿迅科技有限公司 | 一种HBase数据库的数据管理方法及系统 |
CN104182540A (zh) * | 2014-09-03 | 2014-12-03 | 北京国双科技有限公司 | 数据仓库中的索引统计信息处理方法及装置 |
CN104216962A (zh) * | 2014-08-22 | 2014-12-17 | 南京邮电大学 | 一种基于HBase的海量网管数据索引设计方法 |
CN104537003A (zh) * | 2014-12-16 | 2015-04-22 | 北京中交兴路车联网科技有限公司 | 一种Hbase数据库的通用高性能数据写入方法 |
CN104572903A (zh) * | 2014-12-26 | 2015-04-29 | 北京中交兴路车联网科技有限公司 | 一种Hbase数据库的控制数据入库的方法 |
CN104809170A (zh) * | 2015-04-08 | 2015-07-29 | 南京邮电大学 | 一种云环境下面向树型数据的存储方法 |
CN105138669A (zh) * | 2015-09-07 | 2015-12-09 | 天脉聚源(北京)传媒科技有限公司 | 一种合并增量索引与总索引的方法及装置 |
CN106156018A (zh) * | 2015-03-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 数据索引方法及装置 |
CN106909671A (zh) * | 2017-02-28 | 2017-06-30 | 湖南蚁坊软件股份有限公司 | 一种NoSQL数据库条件查询的方法及系统 |
CN107395412A (zh) * | 2017-07-18 | 2017-11-24 | 浪潮天元通信信息系统有限公司 | 告警信息查询的方法和装置 |
CN108427675A (zh) * | 2017-02-13 | 2018-08-21 | 阿里巴巴集团控股有限公司 | 构建索引的方法及设备 |
CN108460072A (zh) * | 2017-12-26 | 2018-08-28 | 北京国电通网络技术有限公司 | 配用电数据检索方法和系统 |
CN110134851A (zh) * | 2019-05-05 | 2019-08-16 | 北京科技大学 | 一种基于领域内网的搜索引擎系统及构建方法 |
CN110245043A (zh) * | 2018-03-07 | 2019-09-17 | 深圳市小赢信息技术有限责任公司 | 一种分布式系统间调用关系的跟踪系统 |
CN111625543A (zh) * | 2020-05-27 | 2020-09-04 | 贵州易鲸捷信息技术有限公司 | 一种基于HBase表实现全局单调递增的序列的方法 |
CN112579726A (zh) * | 2019-09-29 | 2021-03-30 | 伊姆西Ip控股有限责任公司 | 管理索引表的方法、设备和计算机程序产品 |
CN112748866A (zh) * | 2019-10-31 | 2021-05-04 | 北京沃东天骏信息技术有限公司 | 一种增量索引数据的处理方法和装置 |
CN114398378A (zh) * | 2022-03-25 | 2022-04-26 | 北京奥星贝斯科技有限公司 | 确定索引代价的方法和装置 |
CN115617707A (zh) * | 2022-12-07 | 2023-01-17 | 摩尔线程智能科技(北京)有限责任公司 | 用于管理存储空间的装置及方法、计算设备、芯片 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020281A (zh) * | 2012-12-27 | 2013-04-03 | 中国科学院计算机网络信息中心 | 一种基于空间数据数值索引的数据存储与检索方法 |
US20130103658A1 (en) * | 2011-10-19 | 2013-04-25 | Vmware, Inc. | Time series data mapping into a key-value database |
-
2013
- 2013-07-16 CN CN201310298976.7A patent/CN103390038B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130103658A1 (en) * | 2011-10-19 | 2013-04-25 | Vmware, Inc. | Time series data mapping into a key-value database |
CN103020281A (zh) * | 2012-12-27 | 2013-04-03 | 中国科学院计算机网络信息中心 | 一种基于空间数据数值索引的数据存储与检索方法 |
Non-Patent Citations (1)
Title |
---|
范建永等: "《基于HBase的矢量空间数据分布式存储研究》", 《地理与地理信息科学》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778219B (zh) * | 2014-01-20 | 2015-03-04 | 西安交通大学 | 一种基于HBase的更新增量索引的方法 |
CN103778219A (zh) * | 2014-01-20 | 2014-05-07 | 西安交通大学 | 一种基于HBase的更新增量索引的方法 |
CN103838830A (zh) * | 2014-02-18 | 2014-06-04 | 广东亿迅科技有限公司 | 一种HBase数据库的数据管理方法及系统 |
CN103838830B (zh) * | 2014-02-18 | 2017-03-29 | 广东亿迅科技有限公司 | 一种HBase数据库的数据管理方法及系统 |
CN104216962A (zh) * | 2014-08-22 | 2014-12-17 | 南京邮电大学 | 一种基于HBase的海量网管数据索引设计方法 |
CN104182540B (zh) * | 2014-09-03 | 2017-10-27 | 北京国双科技有限公司 | 数据仓库中的索引统计信息处理方法及装置 |
CN104182540A (zh) * | 2014-09-03 | 2014-12-03 | 北京国双科技有限公司 | 数据仓库中的索引统计信息处理方法及装置 |
CN104537003A (zh) * | 2014-12-16 | 2015-04-22 | 北京中交兴路车联网科技有限公司 | 一种Hbase数据库的通用高性能数据写入方法 |
CN104537003B (zh) * | 2014-12-16 | 2018-01-09 | 北京中交兴路车联网科技有限公司 | 一种Hbase数据库的通用高性能数据写入方法 |
CN104572903A (zh) * | 2014-12-26 | 2015-04-29 | 北京中交兴路车联网科技有限公司 | 一种Hbase数据库的控制数据入库的方法 |
CN104572903B (zh) * | 2014-12-26 | 2019-02-01 | 北京中交兴路车联网科技有限公司 | 一种Hbase数据库的控制数据入库的方法 |
CN106156018A (zh) * | 2015-03-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 数据索引方法及装置 |
CN104809170A (zh) * | 2015-04-08 | 2015-07-29 | 南京邮电大学 | 一种云环境下面向树型数据的存储方法 |
CN104809170B (zh) * | 2015-04-08 | 2018-06-01 | 南京邮电大学 | 一种云环境下面向树型数据的存储方法 |
CN105138669A (zh) * | 2015-09-07 | 2015-12-09 | 天脉聚源(北京)传媒科技有限公司 | 一种合并增量索引与总索引的方法及装置 |
CN108427675A (zh) * | 2017-02-13 | 2018-08-21 | 阿里巴巴集团控股有限公司 | 构建索引的方法及设备 |
CN106909671A (zh) * | 2017-02-28 | 2017-06-30 | 湖南蚁坊软件股份有限公司 | 一种NoSQL数据库条件查询的方法及系统 |
CN107395412A (zh) * | 2017-07-18 | 2017-11-24 | 浪潮天元通信信息系统有限公司 | 告警信息查询的方法和装置 |
CN108460072A (zh) * | 2017-12-26 | 2018-08-28 | 北京国电通网络技术有限公司 | 配用电数据检索方法和系统 |
CN110245043B (zh) * | 2018-03-07 | 2023-03-24 | 深圳市小赢信息技术有限责任公司 | 一种分布式系统间调用关系的跟踪系统 |
CN110245043A (zh) * | 2018-03-07 | 2019-09-17 | 深圳市小赢信息技术有限责任公司 | 一种分布式系统间调用关系的跟踪系统 |
CN110134851A (zh) * | 2019-05-05 | 2019-08-16 | 北京科技大学 | 一种基于领域内网的搜索引擎系统及构建方法 |
CN112579726A (zh) * | 2019-09-29 | 2021-03-30 | 伊姆西Ip控股有限责任公司 | 管理索引表的方法、设备和计算机程序产品 |
CN112748866A (zh) * | 2019-10-31 | 2021-05-04 | 北京沃东天骏信息技术有限公司 | 一种增量索引数据的处理方法和装置 |
CN112748866B (zh) * | 2019-10-31 | 2024-08-16 | 北京沃东天骏信息技术有限公司 | 一种增量索引数据的处理方法和装置 |
CN111625543A (zh) * | 2020-05-27 | 2020-09-04 | 贵州易鲸捷信息技术有限公司 | 一种基于HBase表实现全局单调递增的序列的方法 |
CN111625543B (zh) * | 2020-05-27 | 2023-08-25 | 贵州易鲸捷信息技术有限公司 | 一种基于HBase表实现全局单调递增的序列的方法 |
CN114398378A (zh) * | 2022-03-25 | 2022-04-26 | 北京奥星贝斯科技有限公司 | 确定索引代价的方法和装置 |
CN115617707A (zh) * | 2022-12-07 | 2023-01-17 | 摩尔线程智能科技(北京)有限责任公司 | 用于管理存储空间的装置及方法、计算设备、芯片 |
Also Published As
Publication number | Publication date |
---|---|
CN103390038B (zh) | 2016-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103390038B (zh) | 一种基于HBase的构建和检索增量索引的方法 | |
Das et al. | Big data analytics: A framework for unstructured data analysis | |
CN102436513B (zh) | 分布式检索方法和系统 | |
CN104252536B (zh) | 一种基于hbase的上网日志数据查询方法及装置 | |
Poorthuis et al. | Making big data small: strategies to expand urban and geographical research using social media | |
CN104133858B (zh) | 基于列存储的智能双引擎分析系统及方法 | |
CN103268336A (zh) | 一种快数据和大数据结合的数据处理方法及其系统 | |
US20230177078A1 (en) | Conversational Database Analysis | |
CN107038207A (zh) | 一种数据查询方法、数据处理方法及装置 | |
CN106951552A (zh) | 一种基于Hadoop的用户行为数据处理方法 | |
CN104850640A (zh) | 一种基于HBase的电网设备状态监测数据存储和查询方法及系统 | |
CN106294695A (zh) | 一种面向实时大数据搜索引擎的实现方法 | |
CN103491187A (zh) | 一种基于云计算的大数据统一分析处理方法 | |
CN103678491A (zh) | 一种基于Hadoop中小文件优化和倒排索引的方法 | |
CN107506464A (zh) | 一种基于ES实现HBase二级索引的方法 | |
CN104063376A (zh) | 多维度分组运算方法及系统 | |
US10924551B2 (en) | IRC-Infoid data standardization for use in a plurality of mobile applications | |
CN113609374A (zh) | 基于内容推送的数据处理方法、装置、设备及存储介质 | |
CN104391908B (zh) | 一种图上基于局部敏感哈希的多关键字索引方法 | |
CN105069151A (zh) | HBase二级索引构建装置和方法 | |
Gupta et al. | Faster as well as early measurements from big data predictive analytics model | |
CN109783441A (zh) | 基于Bloom Filter的海量数据查询方法 | |
CN105069101A (zh) | 分布式索引构建及检索方法 | |
CN105550351B (zh) | 旅客行程数据即席查询系统及方法 | |
CN103200269A (zh) | 互联网信息统计方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |