CN107665224A

CN107665224A - 扫描hdfs冷数据的方法、系统和装置

Info

Publication number: CN107665224A
Application number: CN201610620101.8A
Authority: CN
Inventors: 王永光; 王哲涵; 唐尚文; 张瑜标
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-07-29
Filing date: 2016-07-29
Publication date: 2018-02-06
Anticipated expiration: 2036-07-29
Also published as: CN107665224B

Abstract

本发明公开了一种扫描HDFS冷数据的方法、系统和装置，其中，所述方法包括：从元数据节点中导出元数据信息，作为基础数据；对元数据节点中的元数据信息实时流式化，实时增量地获取新的元数据信息，并与所述基础数据合并为实时待扫描元数据信息；按照预定规则扫描所述实时待扫描元数据信息，从而实时得出冷数据。所述系统包括基础数据获取模块、实时数据流式化模块、元数据存储模块和实时计算模块。本发明在获取元数据时，将元数据流式化，实时增量地导出元数据信息，因而减小了元数据导出时对服务器的压力；并且，本发明实时扫描元数据，极大的提高了冷数据发现的及时性。

Description

扫描HDFS冷数据的方法、系统和装置

技术领域

本发明涉及大数据处理技术领域，具体地说，涉及一种扫描HDFS(HadoopDistributed File System，Hadoop分布式文件系统)冷数据的方法、系统和装置。

背景技术

在分布式文件存储系统HDFS中，文件数量巨大。一般而言，冷数据(即不常用的数据)会占到总文件数的70％以上。大量冷数据的存在，造成了存储系统的存储、访问压力。

现有技术中扫描HDFS冷数据系统的原理结构框图。在HDFS元数据服务器架构中，NameNode(A)为提供对外服务的关键节点，也可称为元数据节点，其主要功能之一是管理文件的元数据信息。其中，所述的元数据信息包含了文件(夹)的目录结构和属性信息，还有文件与其所在位置的映射信息等，如文件名、备份数、块数据以及节点数据等信息。为了加快元数据的访问，NameNode(A)一般将文件的元数据存储在内存中，但同时也将这些信息保存到硬盘上，进行持久化存储形成元数据镜像文件。另外，将元数据的修改操作记录在操作日志(EditLog)中，操作日志一般存储在JournalNode(操作日志节点)中。NameNode(S)为NameNode(A)的备用节点，用以保证元数据的安全。NameNode(S)从JournalNode中读取EditLog，根据EditLog对其元数据进行相应的修改，以保证NameNode(S)中元数据与NameNode(A)中的元数据一致。

在现有技术中，为了扫描HDFS冷数据，

发明内容

本发明要解决的技术问题在于，针对现有技术的不足，提供一种扫描HDFS冷数据的方法、系统和装置，解决在导出元数据时元数据服务器压力过大、扫描元数据获取冷数据及时性较差的问题。

为了解决上技术问题，本发明提供了一种扫描HDFS冷数据的方法，其中，包括以下步骤：

从元数据节点中导出元数据信息，作为基础数据；

对元数据节点中的元数据信息实时流式化，实时增量地获取新的元数据信息，并与所述基础数据合并为实时待扫描元数据信息；

按照预定规则扫描所述实时待扫描元数据信息，从而实时得出冷数据。

优选地，所述对元数据信息实时流式化，实时增量地获取新的元数据信息的步骤包括：

通过操作日志节点，实时增量地获取操作日志；

通过回放所述操作日志，还原出与元数据节点中的元数据相同的元数据镜像。

优选地，所述从元数据节点中导出元数据信息的步骤包括：

解析元数据节点中的元数据镜像，获取最新元数据信息，并导出所述最新元数据信息。

其中，作为基础数据的所述元数据信息和新的元数据信息包括最后操作时间信息。

优选地，所述按照预定规则扫描所述实时待扫描元数据信息，从而实时得出冷数据的步骤包括：

根据设定的冷数据时间段信息，扫描所述实时待扫描元数据信息的最后操作时间信息，当所述实时待扫描元数据的最后操作时间信息位于所述设定的冷数据时间段内时，所述实时待扫描元数据为冷数据。

优选地，在实时增量地获取新的元数据信息后，还包括：

将所述新的元数据信息发送到消息队列，

将所述消息队列中的新的元数据信息增加到所述基础数据中。

本发明还提供了一种扫描HDFS冷数据的系统，其中，包括：

基础数据获取模块，用于从元数据节点中导出元数据信息，作为基础数据；

实时数据流式化模块，用于实时增量地获取新的元数据信息；

元数据存储模块，用于合并存储所述基础数据和实时获取的新的元数据信息，提供实时待扫描元数据信息；和

实时计算模块，用于根据预定规则扫描所述实时待扫描元数据信息，从而实时得出冷数据。

优选地，所述实时数据流式化模块包括：

操作日志获取单元，用于实时增量地从操作日志节点中获取操作日志；和

还原单元，通过回放获取到的所述操作日志，得到与元数据节点中的元数据相同的元数据镜像。

优选地，所述实时计算模块包括：

读取单元，用于读取实时待扫描元数据信息；

对比单元，用于比较所述实时待扫描元数据信息的最后操作时间信息和预定的冷数据时间段信息；和

判断单元，根据对比结果，在所述实时待扫描元数据信息的最后操作时间信息位于所述预定的冷数据时间段内时，将所述实时待扫描元数据确定为冷数据。

优选地，所述实时计算模块还包括：

参数配置单元，用于配置冷数据时间段信息，为所述对比单元提供对比依据。

优选地，所述系统还包括消息平台，所述消息平台包括消息队列；所述实时数据流式化模块将获取的新的元数据信息发送到所述消息平台中的消息队列，由所述消息队列将所述新的元数据信息发送给所述元数据存储模块，或所述元数据存储模块从所述消息队列中读取所述新的元数据信息。

本发明还提供了一种扫描HDFS冷数据的装置，其中，包括第一存储器和第一处理器，所述第一存储器用于存储数据和指令，所述第一处理器根据所述指令配置如下：

解析元数据节点中的元数据镜像，获取最新元数据信息，并导出所述最新元数据信息；

对元数据节点中的元数据信息实时流式化，实时增量地获取新的元数据信息。

优选地，在上述扫描HDFS冷数据的装置中，所述第一处理器在配置为对元数据信息实时流式化，实时增量地获取新的元数据信息时，具体配置包括：

通过操作日志节点，实时增量地获取操作日志；

本发明还提供了另一种扫描HDFS冷数据的装置，包括第二存储器和第二处理器，所述第二存储器用于存储数据和指令，所述第二处理器根据所述指令配置如下：

接收从元数据节点中导出元数据信息，作为基础数据；

接收从对元数据节点中实时流式化的新的元数据信息，并与所述基础数据合并为实时待扫描元数据信息；

优选地，在上述扫描HDFS冷数据的装置中，所述第二处理器在配置为按照预定规则扫描所述实时待扫描元数据信息，从而实时得出冷数据时，具体配置如下：

本发明在获取元数据时，将元数据流式化，实时增量的导出元数据信息，因而减小了元数据导出时对服务器的压力；并且，本发明将元数据信息接入到实时计算系统，极大的提高了冷数据发现的及时性。

附图说明

通过参照以下附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1为现有技术中扫描HDFS冷数据的原理结构框图；

图2为本发明扫描HDFS冷数据一实施例的原理结构框图；

图3为本发明扫描HDFS冷数据方法的简要流程图；

图4为本发明扫描HDFS冷数据系统的结构原理图；

图5为本发明扫描HDFS冷数据系统实施例的结构原理图；

图6为本发明扫描HDFS冷数据装置一的结构原理图；和

图7为本发明扫描HDFS冷数据装置二的结构原理图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。

附图中的流程图、框图图示了本发明实施例的系统、方法、装置的可能的体系框架、功能和操作，流程图和框图上的方框可以代表一个模块、程序段或仅仅是一段代码，所述模块、程序段和代码都是用来实现规定逻辑功能的可执行指令。也应当注意，所述实现规定逻辑功能的可执行指令可以重新组合，从而生成新的模块和程序段。因此附图的方框以及方框顺序只是用来更好的图示实施例的过程和步骤，而不应以此作为对发明本身的限制。

如图2所示，为本发明扫描HDFS冷数据一实施例的原理结构框图；在本实施例中，所述HDFS元数据服务器架构与现有技术相同，包括元数据节点NameNode(A)、备份元数据节点NameNode(S)和操作日志节点JournalNode。元数据节点NameNode(A)将操作日志EditLog存储到操作日志节点JournalNode中，备份元数据节点NameNode(S)从JournalNode中读取EditLog，根据EditLog对其元数据进行相应的修改，以保证NameNode(S)中元数据与NameNode(A)中的元数据一致。通过操作日志节点JournalNode实时增量地获取新的元数据信息，并将所述新的元数据信息发送到消息平台中的消息队列中，从而发送给实时计算系统实时计算出冷数据。

在本发明中，通过操作日志节点JournalNode实时地获取新的元数据信息的过程，称为数据的流式化，即可以连续地、实时地获取新增的元数据信息。

结合图3，图3为本发明扫描HDFS冷数据方法的简要流程图，对本发明提供的扫描HDFS冷数据方法说明如下：

步骤S1，从元数据节点中导出元数据信息，作为基础数据。具体地，解析元数据节点中的元数据镜像，获取最新元数据信息，导出所述最新元数据信息，并将这些元数据存储起来，为实时计算系统提供基础数据。这个过程操作一次即可，即通过本步骤一次性地得到基础数据。

步骤S2,对元数据节点中的元数据信息实时流式化，实时增量地获取新的元数据信息，并与所述基础数据合并为实时待扫描元数据信息。具体地，通过操作日志节点，实时增量地获取操作日志；通过回放所述操作日志，还原出与元数据节点中的元数据相同的元数据镜像。具体地，所述回放是指，逐条读取操作日志，获取操作时间和相应的操作，即新的元数据信息。

在本步骤中，对元数据信息的流式化是实时进行的，即在通过步骤S1一次性得到全部的元数据后，不需要再重复获取全部的元数据信息，只需取得变化的元数据信息。由于操作日志节点JournalNode中存储的操作日志记录了元数据的操作信息，如什么时候做了什么操作。通过实时增量式的获取操作日志，便可以得知哪些元数据发生了变化，再通过回放即可还原出与元数据节点中的元数据相同的元数据镜像，因而，可以实时地获取新的元数据信息。

步骤S3,按照预定规则扫描所述实时待扫描元数据信息，从而实时得出冷数据。其中，作为基础数据的元数据信息和新的元数据信息都包括最后操作时间信息，因而，根据设定的冷数据时间段信息，扫描所述实时待扫描元数据信息的最后操作时间信息，对比所述实时待扫描元数据信息的最后操作时间信息是否位于所述设定的冷数据时间段内，如果位于，则说明该元数据为冷数据。而后将所述冷数据取出。所述步骤3的过程由图2中的实时计算系统完成，通过JN接口(即操作日志节点JournalNode接口)将还原出的新的元数据信息发送给所述实时计算系统。作为一个实施例，如图2所示，可以先将所述新的元数据信息发送到消息平台中的消息队列中，由所述消息平台将所述新的元数据信息发送给所述实时计算系统，或者由所述实时计算系统主动从所述消息平台中的消息队列查询并获取所述新的元数据信息。

根据上述扫描HDFS冷数据的原理和方法，本发明提供了一种扫描HDFS冷数据的系统，其结构原理如图4所示。具体包括：基础数据获取模块1、实时数据流式化模块2、元数据存储模块3和实时计算模块4。其中，所述基础数据获取模块1从元数据节点NameNode(A)中导出元数据信息，作为基础数据；所述实时数据流式化模块2用于实时增量地获取新的元数据信息；所述元数据存储模块3用于合并存储所述基础数据和实时获取的新的元数据信息，提供实时待扫描元数据信息；所述实时计算模块4根据预定规则扫描所述实时待扫描元数据信息，从而实时得出冷数据。

具体地，如图5所示，所述实时数据流式化模块2包括操作日志获取单元21和还原单元22，所述操作日志获取单元21用于实时增量地从操作日志节点中获取操作日志；所述还原单元22通过回放获取到的所述操作日志，得到与元数据节点中的元数据相同的元数据镜像。

所述实时计算模4块包括读取单元41、对比单元42和判断单元43。其中，所述读取单元41用于从元数据存储模块3中读取实时待扫描元数据信息；所述对比单元42用于比较所述实时待扫描元数据信息的最后操作时间信息和预定的冷数据时间段信息；所述判断单元43根据对比结果，在所述实时待扫描元数据信息的最后操作时间信息位于所述预定的冷数据时间段内时，将所述实时待扫描元数据确定为冷数据。为了配置冷数据时间段信息，还可以包括配置单元44，通过该配置单元44，配置所述的冷数据时间段信息，为对比单元在对比时提供依据。

另外，在一个实施例中，还可以包括消息平台，所述消息平台包括消息队列。所述实时数据流式化模块2将获取的新的元数据信息发送到所述消息平台中的消息队列，由所述消息队列将所述新的元数据信息发送给所述元数据存储模块3，或所述元数据存储模块3从所述消息队列中读取所述新的元数据信息。

本发明还提供了一种扫描HDFS冷数据的装置一，如图6所示，包括第一存储器100和第一处理器101，所述第一存储器100用于存储数据和指令，所述第一处理器101根据所述指令配置如下：

对元数据节点中的元数据信息实时流式化，实时增量地获取新的元数据信息。具体地，通过操作日志节点，实时增量地获取操作日志；通过回放所述操作日志，还原出与元数据节点中的元数据相同的元数据镜像。

以上装置一位于HDFS元数据服务器中，用于获取扫描用的元数据信息。

本发明还提供了另一个扫描HDFS冷数据的装置二，如图7所示，包括第二存储器200和第二处理器201，所述第二存储器200用于存储数据和指令，所述第二处理器201根据所述指令配置如下：

接收从元数据节点中导出元数据信息，作为基础数据；

按照预定规则扫描所述实时待扫描元数据信息，从而实时得出冷数据。其中，具体配置如下：

以上装置二对应于图2所示中的实时计算系统，用于完成元数据的扫锚，从而实时得到冷数据。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种扫描HDFS冷数据的方法，其中，包括以下步骤：

从元数据节点中导出元数据信息，作为基础数据；

2.如权利要求1所述的扫描HDFS冷数据的方法，其中，所述对元数据信息实时流式化，实时增量地获取新的元数据信息的步骤包括：

通过操作日志节点，实时增量地获取操作日志；

3.如权利要求1或2所述的扫描HDFS冷数据的方法，其中，所述从元数据节点中导出元数据信息的步骤包括：

4.如权利要求3所述的扫描HDFS冷数据的方法，其中，作为基础数据的所述元数据信息和新的元数据信息包括最后操作时间信息。

5.如权利要求4所述的扫描HDFS冷数据的方法，其中，所述按照预定规则扫描所述实时待扫描元数据信息，从而实时得出冷数据的步骤包括：

6.如权利要求1所述的扫描HDFS冷数据的方法，其中，在实时增量地获取新的元数据信息后，还包括：

将所述新的元数据信息发送到消息队列；

7.一种扫描HDFS冷数据的系统，其中，包括：

8.如权利要求7所述的扫描HDFS冷数据的系统，其中，所述实时数据流式化模块包括：

9.如权利要求7所述的扫描HDFS冷数据的系统，其中，所述实时计算模块包括：

读取单元，用于读取实时待扫描元数据信息；

10.如权利要求9所述的扫描HDFS冷数据的系统，其中，所述实时计算模块还包括：

11.如权利要求7所述的扫描HDFS冷数据的系统，其中，还包括消息平台，所述消息平台包括消息队列；所述实时数据流式化模块将获取的新的元数据信息发送到所述消息平台中的消息队列，由所述消息队列将所述新的元数据信息发送给所述元数据存储模块，或所述元数据存储模块从所述消息队列中读取所述新的元数据信息。

12.一种扫描HDFS冷数据的装置，其中，包括第一存储器和第一处理器，所述第一存储器用于存储数据和指令，所述第一处理器根据所述指令配置如下：

13.如权利要求12所述的扫描HDFS冷数据的装置，其中，所述第一处理器在配置为对元数据信息实时流式化，实时增量地获取新的元数据信息时，具体配置包括：

通过操作日志节点，实时增量地获取操作日志；

14.一种扫描HDFS冷数据的装置，其中，包括第二存储器和第二处理器，所述第二存储器用于存储数据和指令，所述第二处理器根据所述指令配置如下：

接收从元数据节点中导出元数据信息，作为基础数据；

15.如如权利要求14所述的扫描HDFS冷数据的装置，其中，所述第二处理器在配置为按照预定规则扫描所述实时待扫描元数据信息，从而实时得出冷数据时，具体配置如下：