CN113297136B

CN113297136B - 一种面向lsm树的键值存储方法和存储系统

Info

Publication number: CN113297136B
Application number: CN202110573140.8A
Authority: CN
Inventors: 王宏超; 叶保留; 唐斌; 陆桑璐
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2023-11-03
Anticipated expiration: 2041-05-25
Also published as: WO2022246953A1; CN113297136A

Abstract

本发明提供了一种面向LSM树的键值存储方法和存储系统。所述方法包括：将磁盘层次进行细粒度划分，设置compaction策略为：在compaction任务中，所有上层子层次均参与任务，而下层仅有一个子层次参与任务，以降低下层参与数据与总参与数据的占比；在执行compaction任务时对compaction任务进行划分，使得参与compaction任务的文件数量减少，提高compaction的并行度。本发明还通过并行读取算法减少对读性能的影响，并通过对LSM树的写放大进行建模，提供了选取使写放大最小化的参数的方法。

Description

一种面向LSM树的键值存储方法和存储系统

技术领域

本发明涉及计算机存储技术，具体涉及一种面向LSM树的键值存储方法和存储系统。

背景技术

键值存储(Key-Value Store)将数据存储为<键-值>集合，其中键作为值的唯一标识符。它不支持像关系型数据库那样复杂的关系模式，而是通过简单的Put(k,v)、Get(k)、Update(k,v)、Delete(k)等接口处理数据。由于其高性能、高可扩展性等优势，在如今的网络应用和分布式系统中扮演着重要的角色，被广泛应用于图形数据库、任务队列、流处理引擎、应用程序数据缓存、事件跟踪系统等领域。

LSM树(Log-Structured Merge tree)是一种被广泛应用于键值存储系统的存储引擎。它在内存维护一块缓存，当用户写入一条键值对，数据写入缓存，并在缓存中排序，这时写操作就执行完毕了。当缓存超过提前设定的大小，就将缓存中的数据一次性写入磁盘。这实际上是将大量的随机写转换为少量的顺序写。由于硬盘的顺序写性能远高于随机写性能，LSM树的写速度很高，因此适合于写操作较多的工作负载。为了避免系统崩溃时内存数据丢失，在数据写入缓存前，需要先写入一个位于磁盘的WAL(Write Ahead Log)中。而由于这个操作是以追加写的方式进行的，并不会对系统写性能造成明显影响。

磁盘中的数据存储到多个层次中(L₁,L₂,…,L_n)，其中L_n表示最底层，L_i表示第i(1≤i≤n)层。每层的数据根据键值对中的键有序保存，被分散存储到多个SSTable(SortedString Table)中，每个SSTable有序存储一定键范围的数据。相邻两层中，下一层所能容纳的数据量与上一层所能容纳的数据量的比值称为增长因子T，一般取10。以第一层最多能存储10MB数据为例，第二层最多可以存储100MB数据，以次类推，仅需要7层，总共就能容纳超过10TB数据。由内存导入的数据被写入第一层，而为了维持层次的稳定性，防止某一层数据过多，后台有一个compaction进程，不断对磁盘中的数据进行重新组织，将某一层的部分数据写入下一层。

具体来说，当某一层的数据量超过其所能容纳的最大值后，compaction进程选取该层的一个SSTable文件，然后选取该层的下一层中，所有与之有键范围重叠的SSTable文件，将这些文件进行归并排序，生成新的文件并写入下一层，而旧的选中文件被删除。

以L₁的一次compaction为例，假设在本层选中的SSTable文件所包含的键值对中，键的范围为[2,8]，那么在L₂中，如果一个SSTable文件所包含的键的范围与[2,8]有重叠，该文件需要被选取作为compaction任务的输入。这样做是为了保证将数据写入L₂后，仍能保证L₂数据的有序性。而由于不同层次所能容纳的数据是指数增长的，为了将某一层的一个SSTable文件写入下一层，往往需要下一层的多个文件参与，而该层的一次compaction会使下层存储的数据增多，可能导致下一层发生compaction。这样多层积累下来，会使得磁盘中的数据被频繁重写。实际的磁盘写入数据量与用户请求的写入数据量的比值被称为写放大。以采用LSM树结构的键值存储系统LevelDB为例，实验结果表明，当用户请求写入50GB数据，写放大接近20，也就是说，实际的磁盘写入量将近1TB。过高的写放大，严重影响了LSM树的写性能。而LSM树经常运行在采用SSD的计算机中，频繁的硬盘读写，会降低SSD的寿命。综上，对于LSM树结构，写放大是一个很严重的问题。另一方面，当内存buffer以及磁盘L₁数据量均超过阈值时，内存数据无法刷盘，必须等待L₁完成一次compaction为本层腾出一定空间之后才能服务新的写请求，导致写停顿，也就是阶段性的写延迟大幅增加。

发明内容

针对背景技术中的问题，本发明的一个目的是提出一种面向LSM树的键值存储方法，通过减少在compaction任务中下层与上层参与数据量的比值来降低写放大，并采用建模方式刻画系统的写放大，优化系统参数，同时采用并行读取算法减少对读性能的影响。

本发明的另一目的在于提供一种采用上述键值存储方法的键值存储系统和设备。

为了实现上述目的，本发明采用如下的技术方案：

根据本发明的第一方面，提供一种面向LSM树的键值存储方法，包括以下步骤：

将LSM树的一个层次划分为多个子层次，第i层的第j个子层次标记为L_i.j，子层次中的SSTable文件按照键的范围从左到右递增排列；

每层维护一个compaction指针，用于选择compaction任务的第一个输入文件；

当第i层L_i的总数据量超过额定大小时，在该层触发一次compaction，将L_i层的部分数据写入L_i+1层，实现对磁盘数据的重新组织，其中在执行compaction任务时，L_i层的所有子层次均参与任务，而L_i+1层仅有一个子层次参与任务。

其中，对于L_i层的一次compaction任务，其步骤包括：

依据L_i层的compaction指针，在L_i的第一个子层次L_i.1选取所包含的最小键大于等于该指针且最接近该指针的SSTable文件作为任务初始输入文件，加入compaction任务的输入文件集，将该文件的最小键作为任务左边界，将该文件的最大键作为任务右边界；

对于L_i层的其他子层次L_i.2～依次选取部分或全部在左右边界之内的文件并加入输入文件集，其中S_i表示L_i层中划分的子层次数目；

依据输入文件集中文件的最小键和最大键扩展当前任务边界，以使任务包含更多完全位于边界内的文件；

在L_i+1层中选择当前数据量最少的子层次L_i+1,j，依据任务边界从L_i+1,j中选择位于边界内或与边界有重叠的文件加入候选文件集，通过候选文件集中的文件对compaction任务进行分割，仅将任务分割后仍需参与任务的文件加入输入文件集；

对于输入文件集，将位于L_i层且在任务边界内的数据及位于L_i+1层的数据进行多路归并排序，生成新文件并写入L_i+1,j；

对于输入文件集，将位于L_i层且在任务边界外的数据进行多路归并排序，将生成的新文件中小于任务左边界的数据写入L_i层，新文件中大于任务右边界的数据写入L_i层的compaction缓存，并在日志中记录缓存文件的最小键、最大键，以及输入文件集中与该缓存文件有重叠的文件，将输入文件集中未被记录到日志中的文件删除；

将L_i层的compaction指针替换为本次compaction任务的右边界。

其中，对任务进行分割的具体方法如下：

对于候选文件集中的每个文件，通过在内存中的元数据获取其所包含的最小键k_min和最大键k_max；

根据k_min与k_max对输入文件集中的文件进行查询，如果对于输入文件集中的每个文件，[k_min,k_max]与该文件不重叠，或者在该文件中小于k_min的最大键和大于k_max的最小键之间不存在其他键值对，则将该候选文件移出候选文件集，并根据k_min和k_max将输入文件集中的文件切割为两部分，一部分所包含的键小于k_min，另一部分所包含的键大于k_max，否则，将该候选文件移出候选文件集并加入输入文件集。

在本发明第一方面的一些实施例中，所述L_i层在L_D+2～L_n层之间，其中n为LSM树的层次数目，D为设定的层次分界线参数，1≤D≤n；所述方法还包括：

对于L₁～L_D，采取tiered compaction算法，一次性将本层的全部数据进行排序，将新生成的文件写入下一层，在下一层形成一个新的子层次，在此期间，没有下层数据参与排序；

对于L_D+1，将本层全部数据与下层的一个子层次的数据进行排序，将新生成的数据写入下层选中的子层次中。

在此分层方式下，写入操作包括：

获取用于键值对而维护的一个全局版本号，递增，并编码到键中；

将数据以追加写的方式写入WAL；

将数据写入内存buffer，返回；

查找操作包括：

查询内存buffer和缓存，如果存在，返回数据，否则进行下一步；

从L₁到L_n层，对磁盘中的每个层次L_b依次查找，其中1≤b≤n，维护一个线程池，线程池中线程的数量为max(S₁,S₂,…,S_n)，对于L_b，向线程池提交S_b个读取任务，线程thread_j对L_b,j进行二分查找，1<j<S_b；

汇总S_v个线程的读取结果，如果有任意个线程读取到数据，选择版本号最大的数据返回，读取结束，如果没有线程读取到数据，继续读取L_b+1；

若所有层次都读取完毕，仍未读取到数据，返回数据不存在。

范围查询操作包括：

利用Seek(k)接口寻找大于等于k的最小键所对应的键值对：向线程池提交多个查询任务，每个线程负责查询一个子层次或内存buffer，每个线程通过二分法查找大于等于k的最小键，如果每个线程都没有读到数据，返回数据不存在；否则，对于读取到数据的线程，从读到的数据开始构造迭代器，并将读取到的数据根据版本号排序，取出版本最新的数据返回；

利用Next()接口找到系统中大于当前找到的键的最小键所对应的键值对：如果Seek(k)找到了数据，当用户提交一个Next()请求，上次返回结果的迭代器运行一次Next()，再次将每个迭代器当前指向的数据进行比较，返回最新数据，在此期间，旧版本的数据被忽略。

在本发明第一方面的一些实施例中，所述方法还包括：对写放大进行建模，通过最小化写放大来选取最优的参数，其步骤包括：

令LSM树的层数为n，每层的子层次数目为S_b，每层的增长因子为T_b，1≤b≤n,采用不同compaction算法的层次的分界线为D，计算每个层次的写放大：

对于写WAL，其写放大为1；

对于内存buffer刷盘，其写放大为buf/Unique^-1(buf)，其中buf为buffer所能容纳的最大键值对数目，Unique^-1(k)为Unique(p)的反函数，Unique(p)＝∑_k∈K(1-(1-f_X(k))^p)，N为工作负载中独立的键的总数，K为键空间[0,N-1]中的整数集合，f_X(k)表示在一次写请求中键k出现的概率；

当1≤b≤D时，对于L_b，其写放大为其中Interval_b＝Interval_b-1*S_b，Interval₀＝Unique^-1(buf)，Size₁＝buf*S₁，/> Size_b+1＝Size_(b+1).j*S_b+1；

对于L_D+1，其写放大为其中IntervalD+1＝IntervalD*SD+1，Size_D+2＝Size_D+1*T_D+2，Size_(D+2).j＝Size_D+2/S_D+2；

当D+2≤b<n时，对于L_b，其写放大为其中Interval_b＝Interval_b-1+DInterval_b，DInterval_b通过解方程/> 得到，Sizeb+1＝Sizeb*Tb+1，Size(b+1).j＝Sizeb+1/Sb+1；

每个磁盘层次的写放大，与写WAL的写放大、内存buffer刷盘的写放大一起，构成整个LSM树的写放大；

固定LSM树总子层次个数，迭代求解不同参数下的写放大，获取使写放大最小的S_b、T_b以及D。

根据本发明的第二方面，提供一种面向LSM树的键值存储系统，包括：

第一存储部，其存储包含n个层次的LSM树的前D个层次，并采取使写放大最小化的tiered compaction算法执行compaction任务，其中D表示设定的层次分界线参数；

第二存储部，其存储所述LSM树的第D+1层，并采取包含如下步骤的compaction方法执行compaction任务：

选取该层所有子层次的所有文件加入输入文件集；

在L_D+2层中选择当前数据量最少的子层次L_D+2,j，依据L_D+1数据所包含的范围从L_D+2,j中选择所有重叠文件加入输入文件集；

将输入文件集中的数据进行多路归并排序，将新生成的文件放入下层选中的子层次中；

第三存储部，其存储所述LSM树的L_D+2～L_n层，并采取包括如下步骤的compaction方法执行compaction任务：

将LSM树的一个层次L_i划分为多个子层次，第i层的第j个子层次标记为L_i.j，子层次中的SSTable文件按照键的范围从左到右递增排列；

其中第三存储部对于一次compaction任务所执行的步骤和本发明第一方面所述的面向LSM树的键值存储方法中对于L_i层的一次compaction任务所包括的步骤相同。

根据本发明的第三方面，提供一种键值对存储设备，所述设备包括：

一个或多个处理器；

存储器；以及

一个或多个计算机程序，所述一个或多个计算机程序存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，当所述一个或多个计算机程序被所述一个或多个处理器执行时，致使所述一个或多个处理器执行包括如本发明第一方面所述的面向LSM树的键值存储方法的步骤。

本发明能够取得以下有益效果：

1、将LSM树的每个层次细粒度划分，在compaction时，上层有多个子层次参与，由于每个子层次包含的数据范围相同，每个子层次选中的数据量相近。而下层只有一个子层次参与。而且在下层选取数据时，通过将compaction任务切分，尽量减少下层参与compaction的文件数量，从而降低了下层参与compaction的数据量与上层参与compaction的数据量的比值，也就是说，为了将一定数量的数据导入下一层，下层需要参与排序的数据量减少，从而减少了写放大。

2、通过对不同的层次采取不同的compaction算法，在较上层，采取可以使写放大最小化的tiered compaction算法，加快将数据导入下层的效率，减少写停顿现象的发生。

3、通过多线程并行读取，减少了对读性能的影响。并通过对写放大进行建模，给出了选取最优参数的方法，在固定读性能的情况下，最大化系统写性能。

附图说明

图1是根据本发明实施例的LSM树示意图；

图2是根据本发明实施例的compaction算法示意图；

图3是根据本发明实施例的compaction任务分割示意图；

图4是根据本发明实施例的并行读取算法示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

图1是根据本发明实施例的LSM树示意图。如图所示，内存中有一个buffer，接收用户的写请求，WAL是为了避免程序崩溃时buffer数据丢失而设置的磁盘预写式日志。磁盘中的数据分为三个层次(L₁,L₂,L₃)。每层又分为三个子层次。每个子层次中包含多个SSTable文件。子层次中的数据是有序的，而不同的子层次之间的数据并无关系。这相当于放松了原始LSM树的排序性，原始LSM树的每一个层次内的数据是严格有序的，而本发明的LSM树的每个层次的数据通过切分的方式，分为了多个较小的有序分组。

图2是根据本发明实施例的compaction算法的一次运行过程示意图。图中的每个方块代表一个SSTable文件。为方便描述，假设一个文件最多可以容纳两条键值对(实际中每个文件所能纳的键值对数目远高于2)，方块中的数字表示该文件所包含的键值对中的键，而其对应的值未显示。数字右上角的标记表示该键对应的值的版本新旧关系，以键5为例，5″所对应的值要比5′所对应的值新，而5′所对应的值要比5所对应的值新。具体实现时，可以通过维护一个全局版本号(例如，一个64位整数)来记录键值对的写入顺序。用一个数字代表当前最新版本号，每写入一个新的键值对，将当前版本号编码到键值对中，并将全局版本号+1。例如，当前系统版本号是1，插入一个键值对，把1赋给这个键值对，存储为<key1,1,value1>。然后系统版本号变为2。接着，再插入一个键值对，把2赋给这个键值对，存储为<key2,2,value2>。然后系统版本号变为3。这样，当读取多个键值对时，通过判断键值对的版本号，可以知道数据的新旧关系。

当L₂的数据量超过其所能容纳的最大值，一次compaction任务被触发。首先从L_2.1选取输入文件。由于本层的compaction指针为6，选取所包含的最小键大于等于6且最接近6的文件，也就是SSTable(6′,12′)作为初始文件并加入输入文件集。记录该文件所包含的最小键6为该compaction任务的左边界，该文件所包含的最大键12为该compaction任务的右边界。然后，从L_2.2到L_2.3，根据左右边界从每个子层次选取在这个边界内，或与该边界有重叠的文件加入输入文件集，这里总共选取了SSTable(5″,8)，SSTable(12,13′)，SSTable(5′,7′)，SSTable(10′,14″)4个文件。至此，L₂文件选取完毕。

对于L₃，为了简化显示，图中没有列出L_3.1和L_3.3的文件所包含的键。由于L_3.2包含的数据量最少，选择该子层次参与compaction。同样根据左右边界，在该子层次选取文件SSTable(5,6)，SSTable(7,9)，SSTavle(10,11)加入输入文件集。选取数据量最少的子层次参与compaction，可以使得在compaction任务结束后，每个子层次的数据量最接近，但使得每个子层次的数据新旧关系无法保证。而为了保持层次间的数据版本关系(对于同一个键，上层的值比下层新)，需要将L₂某一范围内的全部数据写入下一层。因此，需要根据compaction的边界，将L₂中选中文件进行切割，边界范围外的数据需要重新写回本层。否则可能导致L₃中的数据比L₂新。

边界外的数据最终要写回本层，这会增加写放大，因此根据在每个子层次中选中文件的最小键和最大键对边界进行扩展。如果扩展后，可以减少切割的文件数量，则在不引入新文件的前提下更新边界。也就是说，边界仅根据初始文件进行扩展，保证不增加额外文件。否则可能出现将边界不断扩展，最终所有文件都加入输入文件的情况，这使得compaction任务体积过大，影响系统稳定性。如图所示，一开始的边界为[6,12]，而扩展后的边界为[5,12]，这样不必对SSTable(5″,8)，SSTable(5′,7′)两个文件进行切割。

当文件选取完毕后，将这些文件分为两个部分：1，从L₂选中的文件中处于边界内的部分和从L₃选中的所有文件；2，从L₂选中的文件中处于边界外的部分。对第一部分的数据，采用多路归并排序，生成4个新文件SSTable(5″,6′)，SSTable(7′,8)，SSTable(9,10′)，SSTable(11,12)并放入L_3.2。而对第二部分的数据进行层内compaction，即采取多路归并排序，生成新文件SSTable(13′,14″)并放回L_2.3。最后，将compaction指针替换成任务的右边界12，删除输入文件集中的文件。

为了进一步减少文件写回L₂造成的写放大，为每一层设置一块compaction缓存，存储层内compaction生成的文件。具体来说，层内compaction在L₂可能生成两部分文件，第一部分文件位于左边界之左，第二部分文件位于右边界之右。第一部分文件写入磁盘，第二部分文件将存入compaction缓存而不写入磁盘。Compaction任务的输入文件采用循环选取策略，也就是说，当本层进行下次compaction时，本次compaction任务的右边界将作为下次compaction任务的左边界。这样，缓存文件可以直接从内存读取，减少了一次磁盘文件读写。由于经过了边界扩展操作，而且compaction任务有着明确的边界，在不考虑L₁的compaction时，不会生成位于左边界之左的文件，因此缓存文件占用的内存空间很少。缓存只会被使用一次，如果L₁触发的compaction任务包含了缓存中的文件，该文件被移出缓存，此时缓存仍然减少了一次磁盘文件读写。

当计算机崩溃，可能导致compaction缓存的丢失。为了避免数据丢失，在磁盘日志中，将compaction缓存文件所属的子层次，该缓存文件的最小键、最大键、该缓存文件的来源SSTable文件同compaction的其他元数据(如compaction生成的新文件、compaction指针以及compaction任务统计信息等)一同记录，在任务的最后一步，不删除与缓存有关的输入文件。这样，当计算机崩溃后，可以利用这些数据，由输入文件恢复出compaction缓存中的数据。

图3显示了如何通过将compaction任务分割，减少下层参与任务的数据量。图中展示的是L₂的一次compaction任务。当结束L₂文件的选取后，首先根据compaction边界，在L_3.1中选取SSTable(1,2)，SSTable(3,6)，SSTable(7,10)作为候选文件。然后，对于这三个候选文件，分别根据文件的最小键和最大键，对当前输入文件集中的每个子层次的文件进行查询，判断该候选文件是否可以不参与本次compaction。如果对于输入文件集中的每个文件f_i，符合下面两个条件之一，那么该候选文件不加入本次任务：1，该候选文件的最小键和最大键位于f_i的范围之外；2，该候选文件的最小键和最大键位于f_i的范围之内，但可以通过将f_i分割为两部分，使得这两部分与候选文件均不重叠。

图中，对于候选文件SSTable(3,6)，其所确定的键范围[3,6]与输入文件集中的文件SSTable(7″,9)所确定的键范围[7,9]以及SSTable(1′,2″)所确定的键范围[1,2]无重叠。而当前候选文件虽然与文件SSTable(2′,7′)所确定的键范围[2,7]有重叠，但如果将SSTable(2′,7′)分割为SSTable(2′)和SSTable(7′)，这两个文件与[3,6]均无范围重叠。于是，候选文件SSTable(3,6)不参与本次compaction。本次compaction划分为两个子任务，一个任务负责将[1,2]范围内的数据进行排序，另一任务负责将[7,10]范围内的数据进行排序，这两个子任务可以并行执行。这样，一方面减少了L₃中参与任务的文件数量，减少了写放大，另一方面增加了compaction的并行性，提高了compaction的速度。

图4显示了本发明中LSM树的读取算法。由于将每个层次进一步划分，增加了要读取的子层次数，使得读性能受到影响。为了提升读性能，本发明采取并行读取算法。本发明维护一个线程池，线程池中的线程个数与该LSM树的最大子层次数目相同。当一个读请求到达，如果没有在内存中找到对应的数据，需要对磁盘数据进行查询。首先查询L₁，线程thread_j负责查询L_1.j。当每个子层次查询完毕，汇总每个线程的结果。如果有任意线程查到结果，则通过版本号比较对应的数据，得到最新的结果并返回。如果所有的线程都没有查询到结果，那么开始对L₂进行查询。以此类推，直到查询到相应的结果并返回，或者对每个层次都进行了查找但仍未找到对应的数据，此时返回数据不存在。

由于每个层次的子层次数目S_i，每个层次的增长因子T_i和采取tiered compaction算法的层次与图2描述的细粒度compaction算法的层次的分界线D的设置对系统性能有很大影响。因此可以通过建立模型刻画系统在不同参数下的写放大。通过最小化写放大，获取使系统写性能最优的参数。

假设工作负载的键空间K的范围为[0,N-1]，其中N为工作负载中独立的键的总数。设键服从某种分布X，如均匀分布，齐夫分布等。键k在一次写请求中出现的概率为f_X(k)。例如，当键服从均匀分布，f_X(k)＝1/N，当键服从齐夫分布，其中s体现了数据倾斜程度，h将每个键映射为键空间K的一个整数。对于p次请求，出现的独立键的数目为Unique(p)＝∑_k∈K(1-(1-f_X(k))^p)。Unique(p)的反函数为Unique^-1(k)。由于Unique(p)为单调函数，通过将其定义域扩展到实数域，可以求解Unique^-1(k)。设一个文件的大小为u，则将k个文件u₁,u₂,…,u_k进行compaction后生成的新文件的总大小为

通过刻画每一层的写放大对写开销进行建模。数据写入内存buffer前要写WAL，因此写放大为WA_buf＝1。

设系统buffer所能容纳的键值对的数目为buf。将内存中的buffer视为L₀，即Size₀＝buf。当buffer达到容量阈值，将buffer中的数据批量写入L₁。由于buffer中不包括重复的键值对，因此buffer从空到满需要的写请求次数为Unique^-1(buf)，这也是将该层数据全部写入下一层的间隔Interval₀。而写入磁盘的数据量是buf，因此，内存写磁盘的写放大为WA_0→1＝buf/Unique^-1(buf)。L₁的一个子层次L_1.j的大小为Size_1.j＝buf，L₁的总大小为Size₁＝buf*S₁。

对于磁盘compaction造成的写放大，依据一定间隔内，向下层写入的数据量来计算。

对于L_i(1≤i≤D)，采用tiered compaction算法，当本层的子层次数目达到S_i时触发compaction。本层每增加一个子层次，所需要的时间为L_i-1发生两次compaction的间隔。因此，本层发生compaction的间隔为Interval_i＝Interval_i-1*S_i。在该间隔内，向L_i+1写入的数据量为因此，L_i的写放大为WA_i→i+1＝Write_i+1/Interval_i。而L_i+1的一个子层次的大小Size_(i+1).j＝Write_i+1，L_i+1的总大小Size_i+1＝Size_(i+1).j*S_i+1。

对于L_D+1，当本层的子层次数目达到S_D+1时触发compaction。本层每增加一个子层次，所需要的间隔为L_D发生两次compaction的间隔。因此，本层发生compaction的间隔为Interval_D+1＝Interval_D*S_D+1。在该间隔内，向L_D+2写入的数据量为其中，Size_D+2＝Size_D+1*T_D+2，第j个子层次的大小Size_(D+2).j＝Size_D+2/S_D+2。因此，L_D+1的写放大为WA_D+1→D+2＝Write_D+2/Interval_D+1。

对于L_i(D+2≤i<n)，因为每个子层次所包含的数据范围相同，每次compaction任务在L_i的每个子层次选取的数据范围大体相同，所以可以通过该层的第一个子层次L_i.1进行分析。令DInterval_i为在L_i.1中两次compact同一个键的间隔，d为L_i.1的一个键与刚刚compact到下一层的键LastKey的单向距离，其中0≤d≤N-1。对于一个固定的d，如果该层有一个键k₁与LastKey的距离为d，自从该键被compact后，该子层次已经有了DInterval_i*d/(N*S_i)个新请求。如果这些新请求中存在键k₁，那么L_i.1中存在键k₁。这个概率是假设对任意k∈K，P(LastKey＝k)＝1/N，考虑所有的k，可得在L_i.1中，存在与LastKey的距离为d的键的概率/> 考虑所有的d，可得/>由此求出本层的DInterval_i。本层的间隔Interval_i＝Interval_i-1+DInterval_i，而在此间隔内，写入下层的数据量其中Size_i+1＝Size_i*T_i+1，第j个子层次的大小Size_(i+1).j＝Size_i+1/S_i+1。因此，本层的写放大为WA_i→i+1＝Write_i+1/Interval_i。

将所有的WA相加，得到LSM树的总WA。读性能受LSM树子层次总个数的影响，一般来说，子层次数目越多，读操作的IO越多。将LSM树总的子层次数目固定，即为定值，通过迭代获取不同参数下的总WA，记录WA最小时的S_i，T_i以及D。

根据本发明实施例的参数优化算法如下：

根据本发明的另一实施例，提供一种面向LSM树的键值存储系统，包括：

选取该层所有子层次的所有文件加入输入文件集；

其中第三存储部对于一次compaction任务所执行的步骤和前述方法实施例中对于L_i层的一次compaction任务所包括的步骤相同。此处不再赘述。

该键值对存储系统维护一个全局版本号(例如，一个64位整数)，每写入一个新的键值对，将当前版本号编码到键值对中，并将全局版本号+1。例如，当前系统版本号是1，插入一个键值对，把1赋给这个键值对，存储为<key1,1,value1>。然后系统版本号变为2。接着，再插入一个键值对，把2赋给这个键值对，存储为<key2,2,value2>。然后系统版本号变为3。这样，当读取多个键值对时，通过判断键值对的版本号，可以知道数据的新旧关系。

在如上所述的分层方式下，键值存储系统的写入操作包括：

获取键值对的全局版本号，递增，并编码到键中；

将数据以追加写的方式写入WAL；

将数据写入内存buffer，返回；

键值存储系统的查找操作包括：

汇总S_b个线程的读取结果，如果有任意个线程读取到数据，选择版本号最大的数据返回，读取结束，如果没有线程读取到数据，继续读取L_b+1；

范围查询操作包括：

还可以通过建立模型刻画系统在不同参数下的写放大。通过最小化写放大，获取使系统写性能最优的参数。具体的模型建立步骤同前述方法实施例中，此处不再赘述。

根据本发明的另一实施例，还提供一种键值对存储设备，所述设备包括：

一个或多个处理器；

存储器；以及

一个或多个计算机程序，所述一个或多个计算机程序存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，当所述一个或多个计算机程序被所述一个或多个处理器执行时，致使所述一个或多个处理器执行包括如前方法实施例中所述的面向LSM树的键值存储方法的步骤。

本领域内的技术人员应明白，本发明实施例中的实施例可提供为方法、系统、或计算机程序产品。因此，本发明实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例中是参照根据本发明实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例中实施例进行各种改动和变型而不脱离本发明实施例中实施例的精神和范围。这样，倘若本发明实施例中实施例的这些修改和变型属于本发明实施例中权利要求及其等同技术的范围之内，则本发明实施例中也意图包含这些改动和变型在内。

Claims

1.一种面向LSM树的键值存储方法，其特征在于，所述方法包括：

当第i层L_i的总数据量超过额定大小时，在该层触发一次compaction，将L_i层的部分数据写入L_i+1层，实现对磁盘数据的重新组织，其中在执行compaction任务时，L_i层的所有子层次均参与任务，而L_i+1层仅有一个子层次参与任务；

对于L_i层的一次compaction任务，其步骤包括：

对于L_i层的其他子层次依次选取部分或全部在左右边界之内的文件并加入输入文件集，其中S_i表示L_i层中划分的子层次数目；

在L_i+1层中选择当前数据量最少的子层次L_i+1，j，依据任务边界从L_i+1，j中选择位于边界内或与边界有重叠的文件加入候选文件集，通过候选文件集中的文件对compaction任务进行分割，仅将任务分割后仍需参与任务的文件加入输入文件集；

对于输入文件集，将位于L_i层且在任务边界内的数据及位于L_i+1，j层的数据进行多路归并排序，生成新文件并写入L_i+1，j；

将L_i层的compaction指针替换为本次compaction任务的右边界。

2.根据权利要求1所述的面向LSM树的键值存储方法，其特征在于，对任务进行分割的具体步骤包括：

根据k_min与k_max对输入文件集中的文件进行查询，如果对于输入文件集中的每个文件，[k_min，k_max]与该文件不重叠，或者在该文件中小于k_min的最大键和大于k_max的最小键之间不存在其他键值对，则将该候选文件移出候选文件集，并根据k_min和k_max将输入文件集中的文件切割为两部分，一部分所包含的键小于k_min，另一部分所包含的键大于k_max，否则，将该候选文件移出候选文件集并加入输入文件集。

3.根据权利要求1所述的面向LSM树的键值存储方法，其特征在于，所述L_i层在L_D+2～L_n层之间，其中n为LSM树的层次数目，D为设定的层次分界线参数，1≤D≤n；所述方法还包括：

对于L₁～L_D，采取tieredcompaction算法，一次性将本层的全部数据进行排序，将新生成的文件写入下一层，在下一层形成一个新的子层次，在此期间，没有下层数据参与排序；

4.根据权利要求3所述的面向LSM树的键值存储方法，其特征在于，在此分层方式下，写入操作包括：

将数据以追加写的方式写入WAL；

将数据写入内存buffer，返回；

查找操作包括：

查询内存buffer，如果存在，返回数据，否则进行下一步；

从L₁到L_n层，对磁盘中的每个层次L_b依次查找，其中1≤b≤n，维护一个线程池，线程池中线程的数量为max(S₁，S₂，…，S_n)，对于L_b，向线程池提交S_b个读取任务，线程thread_j对L_b，j进行二分查找，1＜j＜S_b；

5.根据权利要求4所述的面向LSM树的键值存储方法，其特征在于，范围查询操作包括：

6.一种面向LSM树的键值存储系统，其特征在于，包括：

第一存储部，其存储包含n个层次的LSM树的前D个层次，并采取使写放大最小化的tieredcompaction算法执行compaction任务，其中D表示设定的层次分界线参数；

选取该层所有子层次的所有文件加入输入文件集；

在L_D+2层中选择当前数据量最少的子层次L_D+2，j，依据L_D+1数据所包含的范围从L_D+2，j中选择所有重叠文件加入输入文件集；

所述第三存储部对于一次compaction任务包括以下步骤：

依据L_i的compaction指针，在L_i的第一个子层次L_i.1选取所包含的最小键大于等于该指针且最接近该指针的SSTable文件作为任务初始输入文件，加入compaction任务的输入文件集，将该文件的最小键作为任务左边界，将该文件的最大键作为任务右边界；

对于本层的其他子层次依次选取部分或全部在左右边界之内的文件并加入输入文件集，其中S_i表示层L_i中划分的子层次数目；

对于输入文件集，将位于L_i且在任务边界内的数据及位于L_i+1，j的数据进行多路归并排序，生成新文件并写入L_i+1，j；

对于输入文件集，将位于L_i且在任务边界外的数据进行多路归并排序，将生成的新文件中小于任务左边界的数据写入L_i，新文件中大于任务右边界的数据写入本层的compaction缓存，并在日志中记录缓存文件的最小键、最大键，以及输入文件集中与该缓存文件有重叠的文件，将输入文件集中未被记录到日志中的文件删除；

将本层的compaction指针替换为本次compaction任务的右边界。

7.一种键值对存储设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器；以及

一个或多个计算机程序，所述一个或多个计算机程序存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，当所述一个或多个计算机程序被所述一个或多个处理器执行时，致使所述一个或多个处理器执行包括如权利要求1-5中任一项所述的面向LSM树的键值存储方法的步骤。