Nothing Special   »   [go: up one dir, main page]

CN104462563A - 一种文件存储方法和系统 - Google Patents

一种文件存储方法和系统 Download PDF

Info

Publication number
CN104462563A
CN104462563A CN201410833341.7A CN201410833341A CN104462563A CN 104462563 A CN104462563 A CN 104462563A CN 201410833341 A CN201410833341 A CN 201410833341A CN 104462563 A CN104462563 A CN 104462563A
Authority
CN
China
Prior art keywords
small documents
write
large files
index
index information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410833341.7A
Other languages
English (en)
Other versions
CN104462563B (zh
Inventor
吕志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Uniview Technologies Co Ltd
Original Assignee
Zhejiang Uniview Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Uniview Technologies Co Ltd filed Critical Zhejiang Uniview Technologies Co Ltd
Priority to CN201410833341.7A priority Critical patent/CN104462563B/zh
Publication of CN104462563A publication Critical patent/CN104462563A/zh
Application granted granted Critical
Publication of CN104462563B publication Critical patent/CN104462563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种文件存储方法,应用于存储设备上,包括:在本地创建用于将所述前端设备写入的小文件进行合并存储的大文件;当接收到前端设备写入的小文件时,将所述小文件的索引信息在本地进行缓存;为所述小文件指定大文件,根据写入顺序将所述小文件以及对应的描述信息写入指定的所述大文件,并在该大文件无法再写入新的数据或者写入超时时,将已缓存的所述小文件的索引信息按照写入顺序批量写入到小文件索引区;其中,所述索引信息包括所述指定的大文件的访问路径以及所述小文件在该大文件中的开始偏移量。通过本发明可以提升小文件的写入性能。

Description

一种文件存储方法和系统
技术领域
本发明涉及视频监控领域,尤其涉及一种文件存储方法和系统。
背景技术
随着卡口监控业务的快速发展,单张图片等小文件的存储成为了业界的一大难题。目前业界对小文件的存储,现有的解决方案主要是通过文件系统或者云存储方案来实现。
然而,通过文件系统对小文件进行存储时,长时间满覆盖后容易出现文件碎片,并且存储的性能低下;而通过云存储方案对小文件进行存储时,例如采用hadoop方案,使用集群设备或者多个副本存储对小文件进行存储,仍然会存在存储性能低下的问题,并且非常浪费存储空间。
发明内容
有鉴于此,本发明提出一种小文件存储方法,应用于存储设备上,所述方法包括:
在本地创建用于将所述前端设备写入的小文件进行合并存储的大文件;
当接收到前端设备写入的小文件时,将所述小文件的索引信息在本地进行缓存;
为所述小文件指定大文件,根据写入顺序将所述小文件以及对应的描述信息写入指定的所述大文件,并在该大文件无法再写入新的数据或者写入超时时,将已缓存的所述小文件的索引信息按照写入顺序批量写入到小文件索引区;
其中,所述索引信息包括所述指定的大文件的访问路径以及所述小文件在该大文件中的开始偏移量。
可选的,所述小文件索引区包括目录子区域;
所述为所述小文件指定大文件包括:
为所述小文件指定大文件;
将所述小文件的目录信息以及指定的所述大文件的目录信息写入所述目录子区域,并在目录子区域中保存所述小文件的目录信息与所述大文件的目录信息的映射关系;其中所述大文件的目录信息中包括所述大文件的目录的访问路径。
可选的,所述根据写入顺序将所述小文件以及对应的描述信息写入指定的所述大文件之前,包括:
将所述前端设备写入的第一个小文件的索引信息以及所述指定的大文件的标识写入所述小文件索引区,以便后续可根据所述第一个小文件的索引信息以及所述指定的大文件的标识对小文件索引区中的数据进行异常恢复。
可选的,所述小文件索引区还包括索引子区域;其中所述索引子区域包括至少一个预设大小的文件分组块;
所述将已缓存的所述小文件的索引信息按照写入顺序批量写入到所述小文件索引区包括:
为所述小文件分配一个文件分组块;
将所述小文件的索引信息按照写入顺序批量写入所述文件分组块,并保存所述小文件与所述指定的大文件的映射关系;
当所述文件分组块无法再写入新的数据时,在所述索引子区域中从所述文件分组块的结束位置开始再次划分出一个新的文件分组块,将所述新的文件分组块分配给所述小文件,并继续将所述小文件的文件信息批量写入所述新的文件分组块,直到所述小文件的索引信息均写入完成。
可选的,所述方法还包括:
在将已缓存的小文件的索引信息按照写入顺序批量写入到小文件索引区的过程中,如果设备发生断电或者重启,在设备重启后,根据所述小文件索引区中存储的所述大文件的标识以及所述第一个小文件的索引信息,查找到对应的大文件,并遍历该大文件,读取该大文件中存储的所述描述信息,根据所述描述信息对所述小文件的索引信息进行恢复后,重新按照写入顺序批量写入所述小文件索引区。
可选的,所述方法还包括:
当所述已缓存的小文件的索引信息成功写入到所述小文件索引区后,释放已缓存的所述小文索引信息。
本发明还提出一种小文件存储系统,应用于存储设备上,所述系统包括:
创建模块,用于在本地创建用于将所述前端设备写入的小文件进行合并存储的大文件;
缓存模块,用于在接收到前端设备写入的小文件时,将所述小文件的索引信息在本地进行缓存;
写入模块,用于为所述小文件指定大文件,根据写入顺序将所述小文件以及对应的描述信息写入指定的所述大文件,并在该大文件无法再写入新的数据或者写入超时时,将已缓存的所述小文件的索引信息按照写入顺序批量写入到小文件索引区;
其中,所述索引信息包括所述指定的大文件的访问路径以及所述小文件在该大文件中的开始偏移量。
可选的,所述小文件索引区包括目录子区域;
所述写入模块具体用于:
为所述小文件指定大文件;
将所述小文件的目录信息以及指定的所述大文件的目录信息写入所述目录子区域,并在目录子区域中保存所述小文件的目录信息与所述大文件的目录信息的映射关系;其中所述大文件的目录信息中包括所述大文件的目录的访问路径。
可选的,所述写入模块进一步用于:
在根据写入顺序将所述小文件以及对应的描述信息写入指定的所述大文件之前,将所述前端设备写入的第一个小文件的索引信息以及所述指定的大文件的标识写入所述小文件索引区,以便后续可根据所述第一个小文件的索引信息以及所述指定的大文件的标识对小文件索引区中的数据进行异常恢复。
可选的,所述小文件索引区还包括索引子区域;其中所述索引子区域包括至少一个预设大小的文件分组块;
所述写入模块进一步用于:
为所述小文件分配一个文件分组块;
将所述小文件的索引信息按照写入顺序批量写入所述文件分组块,并保存所述小文件与所述指定的大文件的映射关系;
当所述文件分组块无法再写入新的数据时,在所述索引子区域中从所述文件分组块的结束位置开始再次划分出一个新的文件分组块,将所述新的文件分组块分配给所述小文件,并继续将所述小文件的文件信息批量写入所述新的文件分组块,直到所述小文件的索引信息均写入完成。
可选的,所述写入模块进一步用于:
在将已缓存的小文件的索引信息按照写入顺序批量写入到小文件索引区的过程中,如果设备发生断电或者重启,在设备重启后,根据所述小文件索引区中存储的所述大文件的标识以及所述第一个小文件的索引信息,查找到对应的大文件,并遍历该大文件,读取该大文件中存储的所述描述信息,根据所述描述信息对所述小文件的索引信息进行恢复后,重新按照写入顺序批量写入所述小文件索引区。
可选的,所述系统还包括:
释放模块,用于在所述已缓存的小文件的索引信息成功写入到所述小文件索引区后,释放已缓存的所述小文件的索引信息。
本发明方案通过在本地创建用于将前端设备写入的小文件进行合并存储的大文件,在接收到前端设备写入的小文件时,将接收到的小文件的索引信息在本地进行缓存,然后根据写入顺序将所述小文件以及对应的描述信息写入所述大文件,并在所述大文件无法再写入新的数据或者写入超时时,将已缓存的小文件的索引信息按照写入顺序批量写入到小文件索引区。由于所述索引信息包括所述指定的大文件的访问路径以及所述小文件在该大文件中的开始偏移量,用户可以根据所述大文件的访问路径以及小文件在该大文件中的开始偏移量直接在大文件上访问小文件,因此可以实现将小文件映射成为大文件进行存储,避免了直接存储小文件而产生文件碎片,并且节约了存储空间;同时由于采用了批量写入索引信息的方案,还可以显著提升小文件的写入性能。
附图说明
图1是本发明示例性的一实施方式中提出的一种文件存储方法的流程图;
图2是本发明示例性的一实施方式中提出的一种小文件存储方案示意图;
图3是本发明示例性的一实施方式中提出的一种小文件索引区的存储结构图;
图4是本发明示例性的一实施方式中提出的一种大文件的存储结构图;
图5是本发明示例性的一实施方式中提出的一种文件存储系统的逻辑结构图。
具体实施方式
本发明旨在将前端设备写入的小文件映射成大文件进行存储,并且拥有大文件的存储性能。
本发明方案通过在本地创建用于将前端设备写入的小文件进行合并存储的大文件,在接收到前端设备写入的小文件时,将接收到的小文件的索引信息在本地进行缓存,然后根据写入顺序将所述小文件以及对应的描述信息写入所述大文件,并在所述大文件无法再写入新的数据或者写入超时时,将已缓存的小文件的索引信息按照写入顺序批量写入到小文件索引区。由于所述索引信息包括所述指定的大文件的访问路径以及所述小文件在该大文件中的开始偏移量,用户可以根据所述大文件的访问路径以及小文件在该大文件中的开始偏移量直接在大文件上访问小文件,因此可以实现将小文件映射成为大文件进行存储,避免了直接存储小文件而产生文件碎片,并且节约了存储空间;同时由于采用了批量写入索引信息的方案,还可以显著提升小文件的写入性能。
为了使本发明的技术方案更加清楚明白,以下结合附图并举实施例对本发明进行详细描述。
本发明示例性的一种实施方式中,提出一种文件存储方法,应用于存储设备上,请参见图1,所述方法包括:
步骤S101、在本地创建用于将所述前端设备写入的小文件进行合并存储的大文件;
步骤S102、当接收到前端设备写入的小文件时,将所述小文件的索引信息在本地进行缓存;
在实现时,所述大文件的可以提前创建,也可以在接收到前端设备写入的小文件时再出发创建。
步骤S103、为所述小文件指定大文件,根据写入顺序将所述小文件以及对应的描述信息写入指定的所述大文件,并在该大文件无法再写入新的数据或者写入超时时,将已缓存的所述小文件的索引信息按照写入顺序批量写入到小文件索引区;其中,所述索引信息包括所述指定的大文件的访问路径以及所述小文件在该大文件中的开始偏移量。
在本实施例中,所述前端设备可以是监控系统中的前端监控设备,例如,在基于卡口监控业务的监控系统中,所述前端设备可以是该监控系统中的前端卡口监控设备(比如卡口摄像机)。
请参见图2,图2为本实施例示出的小文件存储方案示意图。
如图2所示,在整个存储方案中,包括前端用于存储小文件的索引数据的小文件索引区,以及后端的大文件;所述大文件实际为一批小文件的集合,与前端的小文件存在映射关系。其中所述大文件可以存储在独立的块存储设备上,也可以存放在诸如现有实现中的文件系统或者云存储系统上,在本实施例中不加以限制。
在本实施例中,所述小文件索引区,用于描述小文件的索引结构,保证索引更新的性能以及索引本身的可靠性。所述小文件索引区可以被划分出一个目录子区域和一个索引子区域。所述目录子区域用于存放所述小文件的目录信息,所述索引子区域用于存放所述小文件的索引信息。
所述小文件的目录信息,可以包括小文件的目录名称(即用户的目录名称)、创建时间、父层目录以及小文件目录映射到所述大文件中的大文件的目录信息;其中所述大文件的目录信息可以包括所述大文件目录的访问路径等信息;所述小文件的索引信息,可以包括小文件的名称、文件大小、创建时间、父层目录标识、所述小文件映射后的大文件的访问路径、在大文件中的开始偏移量等信息。
通过以上的索引结构,可以实现将前端设备写入的小文件映射为一个大文件在存储设备上进行存储。用户在查看后端存储设备上存储的小文件时,首先可以通过小文件与大文件之间的映射关系,来查找小文件目录映射后的大文件目录的访问路径,然后在该大文件目录下,再根据小文件映射到所述大文件中的大文件的访问路径、以及在大文件中的开始偏移量等信息查找到对应的小文件。其中所述开始偏移量用于描述小文件在映射后的大文件中的位置。
请参见图3,图3为本实施例示出的所述小文件索引区的存储结构图。
如图3所示,在本实施例中所述小文件索引区的存储结构,可以沿用目前较为通用的存储结构,主要包括super(超级块)、Inode(索引节点)、Dir-block(目录块)、File-block(数据块)等四部分。Super用于描述Inode、Dir-block、File-block的开始位置和结束位置等信息。Inode用于描述Dir-block和File-block中的资源占用情况,在实现时,可以采用bitmap来描述Dir-block和File-block中资源的占用情况。Dir-block即为所述小文件的目录子区域,用于存储小文件的目录信息;该子区域中的每一个Dir分别代表一个独立的存储目录。File-block即为所述索引子区域,用于存放所述小文件的索引信息。
请继续参见图3,在本实施例中,为了提高小文件的写入性能,可以通过将File-block划分为若干个文件分组块,并规定Dir-block中存储的每一个小文件的目录信息至少对应一个文件分组块,从而在对小文件的索引信息进行更新时,可以以文件分组块为单位进行批量更新,即将小文件的索引信息写入所述小文件索引区时,可以将同一个文件分组块中的小文件的索引数据批量写入小文件索引区,因此当小文件的数量足够大时,一次索引更新的性能损失可以忽略不计,从而可以使小文件的写入性能达到与大文件的写入性能相当的实现效果。
其中,值得说明的是,所述文件分组块的大小可以由用户结合实际的业务情况进行设备,而所述File-block中文件分组块的数量,则取决于文件分组块的大小以及前端设备写入的小文件的数量。例如,以卡口业务为例,假设前端卡口监控设备每一小时产生的图片(小文件)为100000张,所述文件分组块的大小被设置为存储2000个图片索引,卡口监控设备将每小时产生的图片批量写入后端的存储设备时,那么本次写入所需文件分组块的数量则为50个。
请参见图4,图4为本实施例示出的所述大文件的存储结构图。
如图4所示,一个大文件实际为一批小文件的集合,与小文件存在映射关系,大文件中的每一个小文件(SF-N)包括数据部分(Data)和描述信息(Desc)两部分,所述描述信息在实现时可以包括用户文件名称和文件大小,当小文件索引区中存储的小文件的索引数据发生损坏时,可以根据大文件中存储的所述描述信息对小文件索引区中的小文件的索引数据进行恢复。
以下以卡口业务为示例来详细描述本方案的存储过程。
卡口业务的特点是业务的流量很大,其业务前端的卡口监控设备可以在短时间内产生大量的图片或者图片帧等小文件,在对业务前端产生的小文件进行存储时,通常都是通过设定一个时间周期(比如1小时),将时间周期内采集到的小文件存放到一个独立的存储目录,然后将该存储目录内的小文件批量写入后端的存储设备上。
因此,针对卡口业务的业务特点,后端存储设备可以将前端的卡口监控设备批量写入的小文件在本地进行合并,映射成为一个大文件进行存储。
在实现时,首先可以在存储设备本地创建若干用于将前端的卡口监控设备写入的小文件进行合并存储的大文件;其中每一个大文件对应卡口监控设备本地的一个存储目录;所述大文件的大小可以由用户根据实际的业务情况进行设置;例如,在实现时,为了尽可能的保证将前端设备一次写入的小文件集合映射到同一个大文件中,可以根据大文件对应的存储目录的总大小来设置大文件的大小。
存储设备在接收到前端的卡口监控设备写入的小文件时,首先可以在本地建立一个事务;所述事务可以为内部定义的内存结构,用于描述一次小文件索引批量更新的过程,即通过建立的该事务可以实现将小文件的索引数据批量写入所述小文件索引区。当事务建立完成后,可以将接收到的小文件的索引信息以及所述大文件的名称(标识)缓存到事务中。存储设备在开始将前端卡口监控设备写入的小文件写入大文件时,可以首先从已创建完成的大文件中为所述小文件指定一个大文件,然后将所述小文件的目录信息,以及指定的所述大文件的目录的访问路径等信息写入到如图3所示出的小文件索引结构中的Dir-block中,并在Dir-block中保存所述小文件的目录信息与所述大文件的目录信息的映射关系。此时该大文件的目录即为所述小文件的映射目录,后续可以根据该映射关系,将所述小文件按照所述大文件的目录的访问路径写入到指定的大文件中。
当所述大文件指定完成后,可以首先将事务中缓存的所述前端设备第一个写入的小文件的索引信息以及该大文件的名称写入所述小文件索引区,用于后续的异常恢复。当写入完成后,可以将事务中缓存的所述第一个写入的小文件的文件索引信息以及所述大文件的名称释放。
接下来,可以根据写入顺序将所述前端设备写入的小文件以及对应的描述信息按照图4所示出的存储结构写入所述大文件,其中所述描述信息可以包括小文件的名称、大小等信息;当所述大文件无法再写入新的数据时,比如当前大文件的大小已经达到设定大小,可以触发将事务中已缓存的所述小文件的索引信息按照写入顺序批量写入到如图3所示出的小文件索引区的索引结构中的File-block中,以完成磁盘的更新。
然而以上方案对于一些特殊的应用场景,会造成由于写入持续时间太长而导致的磁盘更新不及时的问题,如果磁盘不及时更新,那么在写入过程中如果发生断电或者重启事件,则不得不对小文件索引区中的数据重新进行恢复。
例如,以卡口监控设备的道路监控场景为例,在深夜时由于道路来往车辆较少,卡口监控设备时间周期内(比如每小时内)采集到的图片数量有限,因此将时间周期内采集到的图片批量写入到后端存储设备时,如果在将大文件写满后再触发将小文件的索引信息写入小文件索引区,则会导致写入持续时间过长,那么在这个写入的时间段内,如果设备发生断电或者重启,则不得不对小文件索引区中的数据重新进行恢复后,才能对磁盘进行更新。
因此,针对以上场景,当根据写入顺序将所述前端设备写入的小文件以及对应的描述信息按照图4所示出的存储结构写入所述大文件时,可以设置一个超时时间,如果本次写入持续时间达到超时时间时,可以立即触发将事务中已缓存的所述小文件的索引信息按照写入顺序批量写入到如图3所示出的小文件索引区的索引结构中的File-block中,从而可以及时的完成磁盘的更新,以减少对小文件索引区中的数据重新进行恢复的次数。
请继续参见图3,在将当前事务中缓存的小文件的索引信息批量写入到所述小文件索引区时,假设本次写入的小文件为目录Dir1中的小文件,首先可以从小文件索引区的File-block中为Dir1分配一个文件分组块FileGrp1,将该文件分组块FileGrp1的位置信息写入Dir-block中所述小文件的目录Dir1中,然后将所述小文件的索引信息按照写入顺序批量写入所述文件分组块FileGrp1中,并保存所述小文件与所述大文件的映射关系,此时所述大文件即为所述小文件映射后的大文件。
当然,如果本次写入的过程中,FileGrp1已达到了设定大小,无法再写入数据时,可以在索引子区域中从所述FileGrp1的结束位置开始再次划分出一个新的文件分组块FileGrp2(图3中未示出),将FileGrp2分配给Dir1,并将FileGrp2的位置信息写入FileGrp1中,以形成一个文件分组块的链表,然后继续将所述小文件的索引信息批量写入所述FileGrp2中,并重复以上过程,直到所述小文件的索引信息写入完成。在本实施例中,在将已缓存的小文件的索引信息按照写入顺序批量写入到小文件索引区的过程中,如果设备发生断电或者重启,在设备重启后,可以根据所述小文件索引区中存储的所述大文件的名称以及所述第一个小文件的索引信息,查找到对应的大文件(在实现时大文件可能有多个,因此通过已记录的大文件名称可以准确查找到对应的大文件),并遍历该大文件,读取该大文件中存储的所述描述信息,然后根据所述描述信息对所述小文件的索引信息进行恢复后,重新按照写入顺序批量写入所述小文件索引区。
如前所述,所述索引信息可以包括小文件的名称、文件大小、创建时间、父层目录标识、所述小文件映射后的大文件的访问路径、在大文件中的开始偏移量等信息。所述描述信息可以包括小文件的名称、大小等信息。
因此,在对所述索引信息进行恢复时,可以从小文件索引区中已经存储的所述第一个小文件的索引信息中直接拷贝创建时间、父层目录标识以及所述小文件映射后的大文件的访问路径等信息,然后根据所述描述信息恢复出用户文件名称和文件大小。最后,在对各小文件在大文件中的开始偏移量进行恢复时,可以根据已经记录的第一个小文件的文件索引信息中的开始偏移量,并结合所述第一个小文件的实际大小进行计算后得到。例如,假设第一个小文件的开始偏移量为0,大小为40,表明大文件中前40个字节为写入的第一个小文件,那么在对第二个小文件的开始偏移量进行恢复时,可以用所述第一个小文件的开始偏移量加上其实际的大小,得到第二个小文件的开始偏移量为40,此时表明大文件中从第40个字节开始为第二个小文件,依次类推,可以按顺序恢复出其它各小文件的开始偏移量。当所述小文件索引区中各小文件的索引信息成功恢复后,由于事务中缓存的索引数据在写入完成后才会释放,因此可以重新按照写入顺序将事务中缓存的索引数据批量写入所述小文件索引区。
通过以上实施例的描述可知,本发明方案通过在本地创建用于将前端设备写入的小文件进行合并存储的大文件,在接收到前端设备写入的小文件时,将接收到的小文件的索引信息在本地进行缓存,然后根据写入顺序将所述小文件以及对应的描述信息写入所述大文件,并在所述大文件无法再写入新的数据或者写入超时时,将已缓存的小文件的索引信息按照写入顺序批量写入到小文件索引区。由于所述索引信息包括所述指定的大文件的访问路径以及所述小文件在该大文件中的开始偏移量,用户可以根据所述大文件的访问路径以及小文件在该大文件中的开始偏移量直接在大文件上访问小文件,因此可以实现将小文件映射成为大文件进行存储,避免了直接存储小文件而产生文件碎片,并且节约了存储空间;同时由于采用了批量写入索引信息的方案,还可以显著提升小文件的写入性能。
同时,由于小文件索引区采用了特殊的索引结构,对索引区中的文件信息划分文件分组块,并规定索引区中存储的每一个小文件的目录信息至少对应一个文件分组块,从而在对小文件的索引信息进行更新时,可以以文件分组块为单位进行批量更新,因此可以显著提升小文件的写入性能,从而可以使小文件的写入性能达到与大文件的写入性能相当的实现效果;而且,对索引区中的文件信息划分文件分组块,还可以实现在删除文件索引时,只需要简单的在前端的索引区中删除几个文件分组块,并在后端删除映射后的大文件目录即可,整体效率较高。
另外,由于小文件在大文件中存储时,保存了小文件的描述信息,因此一旦小文件的索引信息发生异常,可以根据小文件的描述信息进行恢复,有效保证了索引信息的安全。而且由于在大文件中小文件的描述信息和数据在一起保存,如果出现磁盘坏道等情况下,在对小文件进行恢复时,正常的扇区不用依赖有坏道的扇区的数据,可以单独进行恢复。
请参见图5,在一种示例性的实施方式中,本发明还提出一种文件存储系统50,应用于存储设备上,所述系统50包括:
创建模块501,用于在本地创建用于将所述前端设备写入的小文件进行合并存储的大文件;
缓存模块502,用于在接收到前端设备写入的小文件时,将所述小文件的索引信息在本地进行缓存;
写入模块503,用于为所述小文件指定大文件,根据写入顺序将所述小文件以及对应的描述信息写入指定的所述大文件,并在该大文件无法再写入新的数据或者写入超时时,将已缓存的所述小文件的索引信息按照写入顺序批量写入到小文件索引区;
其中,所述索引信息包括所述指定的大文件的访问路径以及所述小文件在该大文件中的开始偏移量。
在本实施例中,所述小文件索引区包括目录子区域;
所述写入模块503具体用于:
为所述小文件指定大文件;
将所述小文件的目录信息以及指定的所述大文件的目录信息写入所述目录子区域,并在目录子区域中保存所述小文件的目录信息与所述大文件的目录信息的映射关系;其中所述大文件的目录信息中包括所述大文件的目录的访问路径。
在本实施例中,所述写入模块503进一步用于:
在根据写入顺序将所述小文件以及对应的描述信息写入指定的所述大文件之前,将所述前端设备写入的第一个小文件的索引信息以及所述指定的大文件的标识写入所述小文件索引区,以便后续可根据所述第一个小文件的索引信息以及所述指定的大文件的标识对小文件索引区中的数据进行异常恢复。
在本实施例中,所述小文件索引区还包括索引子区域;其中所述索引子区域包括至少一个预设大小的文件分组块;
所述写入模块503进一步用于:
为所述小文件分配一个文件分组块;
将所述小文件的索引信息按照写入顺序批量写入所述文件分组块,并保存所述小文件与所述指定的大文件的映射关系;
当所述文件分组块无法再写入新的数据时,在所述索引子区域中从所述文件分组块的结束位置开始再次划分出一个新的文件分组块,将所述新的文件分组块分配给所述小文件,并继续将所述小文件的文件信息批量写入所述新的文件分组块,直到所述小文件的索引信息均写入完成。
在本实施例中,所述写入模块503进一步用于:
在将已缓存的小文件的索引信息按照写入顺序批量写入到小文件索引区的过程中,如果设备发生断电或者重启,在设备重启后,根据所述小文件索引区中存储的所述大文件的标识以及所述第一个小文件的索引信息,查找到对应的大文件,并遍历该大文件,读取该大文件中存储的所述描述信息,根据所述描述信息对所述小文件的索引信息进行恢复后,重新按照写入顺序批量写入所述小文件索引区。
在本实施例中,所述系统50还包括:
释放模块504,用于在所述已缓存的小文件的索引信息成功写入到所述小文件索引区后,释放已缓存的所述小文件的索引信息。
通过以上实施例的描述,本领域技术人员可以理解实施例中装置中的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种小文件存储方法,应用于存储设备上,其特征在于,所述方法包括:
在本地创建用于将所述前端设备写入的小文件进行合并存储的大文件;
当接收到前端设备写入的小文件时,将所述小文件的索引信息在本地进行缓存;
为所述小文件指定大文件,根据写入顺序将所述小文件以及对应的描述信息写入指定的所述大文件,并在该大文件无法再写入新的数据或者写入超时时,将已缓存的所述小文件的索引信息按照写入顺序批量写入到小文件索引区;
其中,所述索引信息包括所述指定的大文件的访问路径以及所述小文件在该大文件中的开始偏移量。
2.如权利要求1所述的方法,其特征在于,所述小文件索引区包括目录子区域;
所述为所述小文件指定大文件包括:
为所述小文件指定大文件;
将所述小文件的目录信息以及指定的所述大文件的目录信息写入所述目录子区域,并在目录子区域中保存所述小文件的目录信息与所述大文件的目录信息的映射关系;其中所述大文件的目录信息中包括所述大文件的目录的访问路径。
3.如权利要求1所述的方法,其特征在于,所述根据写入顺序将所述小文件以及对应的描述信息写入指定的所述大文件之前,包括:
将所述前端设备写入的第一个小文件的索引信息以及所述指定的大文件的标识写入所述小文件索引区,以便后续可根据所述第一个小文件的索引信息以及所述指定的大文件的标识对小文件索引区中的数据进行异常恢复。
4.如权利要求1所述的方法,其特征在于,所述小文件索引区还包括索引子区域;其中所述索引子区域包括至少一个预设大小的文件分组块;
所述将已缓存的所述小文件的索引信息按照写入顺序批量写入到所述小文件索引区包括:
为所述小文件分配一个文件分组块;
将所述小文件的索引信息按照写入顺序批量写入所述文件分组块,并保存所述小文件与所述指定的大文件的映射关系;
当所述文件分组块无法再写入新的数据时,在所述索引子区域中从所述文件分组块的结束位置开始再次划分出一个新的文件分组块,将所述新的文件分组块分配给所述小文件,并继续将所述小文件的文件信息批量写入所述新的文件分组块,直到所述小文件的索引信息均写入完成。
5.如权利要求3所述的方法,其特征在于,所述方法还包括:
在将已缓存的小文件的索引信息按照写入顺序批量写入到小文件索引区的过程中,如果设备发生断电或者重启,在设备重启后,根据所述小文件索引区中存储的所述大文件的标识以及所述第一个小文件的索引信息,查找到对应的大文件,并遍历该大文件,读取该大文件中存储的所述描述信息,根据所述描述信息对所述小文件的索引信息进行恢复后,重新按照写入顺序批量写入所述小文件索引区。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
当所述已缓存的小文件的索引信息成功写入到所述小文件索引区后,释放已缓存的所述小文索引信息。
7.一种小文件存储系统,应用于存储设备上,其特征在于,所述系统包括:
创建模块,用于在本地创建用于将所述前端设备写入的小文件进行合并存储的大文件;
缓存模块,用于在接收到前端设备写入的小文件时,将所述小文件的索引信息在本地进行缓存;
写入模块,用于为所述小文件指定大文件,根据写入顺序将所述小文件以及对应的描述信息写入指定的所述大文件,并在该大文件无法再写入新的数据或者写入超时时,将已缓存的所述小文件的索引信息按照写入顺序批量写入到小文件索引区;
其中,所述索引信息包括所述指定的大文件的访问路径以及所述小文件在该大文件中的开始偏移量。
8.如权利要求7所述的系统,其特征在于,所述小文件索引区包括目录子区域;
所述写入模块具体用于:
为所述小文件指定大文件;
将所述小文件的目录信息以及指定的所述大文件的目录信息写入所述目录子区域,并在目录子区域中保存所述小文件的目录信息与所述大文件的目录信息的映射关系;其中所述大文件的目录信息中包括所述大文件的目录的访问路径。
9.如权利要求7所述的方法,其特征在于,所述写入模块进一步用于:
在根据写入顺序将所述小文件以及对应的描述信息写入指定的所述大文件之前,将所述前端设备写入的第一个小文件的索引信息以及所述指定的大文件的标识写入所述小文件索引区,以便后续可根据所述第一个小文件的索引信息以及所述指定的大文件的标识对小文件索引区中的数据进行异常恢复。
10.如权利要求7所述的系统,其特征在于,所述小文件索引区还包括索引子区域;其中所述索引子区域包括至少一个预设大小的文件分组块;
所述写入模块进一步用于:
为所述小文件分配一个文件分组块;
将所述小文件的索引信息按照写入顺序批量写入所述文件分组块,并保存所述小文件与所述指定的大文件的映射关系;
当所述文件分组块无法再写入新的数据时,在所述索引子区域中从所述文件分组块的结束位置开始再次划分出一个新的文件分组块,将所述新的文件分组块分配给所述小文件,并继续将所述小文件的文件信息批量写入所述新的文件分组块,直到所述小文件的索引信息均写入完成。
11.如权利要求9所述的系统,其特征在于,所述写入模块进一步用于:
在将已缓存的小文件的索引信息按照写入顺序批量写入到小文件索引区的过程中,如果设备发生断电或者重启,在设备重启后,根据所述小文件索引区中存储的所述大文件的标识以及所述第一个小文件的索引信息,查找到对应的大文件,并遍历该大文件,读取该大文件中存储的所述描述信息,根据所述描述信息对所述小文件的索引信息进行恢复后,重新按照写入顺序批量写入所述小文件索引区。
12.如权利要求7所述的系统,其特征在于,所述系统还包括:
释放模块,用于在所述已缓存的小文件的索引信息成功写入到所述小文件索引区后,释放已缓存的所述小文件的索引信息。
CN201410833341.7A 2014-12-26 2014-12-26 一种文件存储方法和系统 Active CN104462563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410833341.7A CN104462563B (zh) 2014-12-26 2014-12-26 一种文件存储方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410833341.7A CN104462563B (zh) 2014-12-26 2014-12-26 一种文件存储方法和系统

Publications (2)

Publication Number Publication Date
CN104462563A true CN104462563A (zh) 2015-03-25
CN104462563B CN104462563B (zh) 2019-04-30

Family

ID=52908598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410833341.7A Active CN104462563B (zh) 2014-12-26 2014-12-26 一种文件存储方法和系统

Country Status (1)

Country Link
CN (1) CN104462563B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715070A (zh) * 2015-04-01 2015-06-17 武汉中科通达高新技术股份有限公司 一种大图像文件及生成和读取方法
CN105868286A (zh) * 2016-03-23 2016-08-17 中国科学院计算技术研究所 基于分布式文件系统小文件合并的并行追加方法及系统
CN106021585A (zh) * 2016-06-02 2016-10-12 同济大学 一种基于时空特性的交通事件视频存取方法及系统
CN106155845A (zh) * 2016-08-02 2016-11-23 四川效率源信息安全技术股份有限公司 一种基于xfs文件系统数据的重组恢复方法
CN106326292A (zh) * 2015-06-29 2017-01-11 杭州海康威视数字技术股份有限公司 数据结构和文件聚合、读取方法及装置
CN106897391A (zh) * 2017-01-24 2017-06-27 北京百悟科技有限公司 文件存储方法及装置
CN107506447A (zh) * 2017-08-25 2017-12-22 郑州云海信息技术有限公司 一种基于本地文件系统的小文件读写方法及系统
CN107509085A (zh) * 2017-08-24 2017-12-22 山东浪潮商用系统有限公司 一种流媒体文件的存储方法及装置
CN107644056A (zh) * 2017-08-04 2018-01-30 武汉烽火众智数字技术有限责任公司 一种文件存储方法、装置及系统
CN107665092A (zh) * 2016-07-28 2018-02-06 华为技术有限公司 一种存储方法及装置
CN108319541A (zh) * 2017-01-16 2018-07-24 上海大唐移动通信设备有限公司 一种日志文件分析方法及装置
CN109101598A (zh) * 2018-07-31 2018-12-28 成都华栖云科技有限公司 一种小图片页面渲染方法
CN109947721A (zh) * 2017-12-01 2019-06-28 北京安天网络安全技术有限公司 一种小文件处理方法和装置
CN109994131A (zh) * 2019-04-10 2019-07-09 广西电网有限责任公司玉林供电局 一种基于索引的工频录波文件压缩存储方法及系统
CN110147203A (zh) * 2019-05-16 2019-08-20 北京金山云网络技术有限公司 一种文件管理方法、装置、电子设备及存储介质
CN110555000A (zh) * 2019-09-05 2019-12-10 重庆紫光华山智安科技有限公司 一种卡口图片元数据并发写入、读取方法
CN110968549A (zh) * 2019-11-18 2020-04-07 Oppo(重庆)智能科技有限公司 文件存储的方法、装置、电子设备及介质
CN111258955A (zh) * 2018-11-30 2020-06-09 北京白山耘科技有限公司 一种文件读取方法和系统、存储介质、计算机设备
CN111966845A (zh) * 2020-08-31 2020-11-20 重庆紫光华山智安科技有限公司 图片管理方法、装置、存储节点及存储介质
CN113110801A (zh) * 2021-04-15 2021-07-13 山东英信计算机技术有限公司 一种加快小文件读取速度的方法、系统、设备和存储介质
CN115080526A (zh) * 2022-08-22 2022-09-20 四川蜀天信息技术有限公司 一种基于ipfs大文件存储的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法
US20140108402A1 (en) * 2004-01-23 2014-04-17 Hand Held Products, Inc. System and Method to Store and Retrieve Indentifier Associated Information Content
CN103856567A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于Hadoop分布式文件系统的小文件存储方法
CN103970869A (zh) * 2014-05-12 2014-08-06 浙江宇视科技有限公司 一种大文件存储方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140108402A1 (en) * 2004-01-23 2014-04-17 Hand Held Products, Inc. System and Method to Store and Retrieve Indentifier Associated Information Content
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法
CN103856567A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于Hadoop分布式文件系统的小文件存储方法
CN103970869A (zh) * 2014-05-12 2014-08-06 浙江宇视科技有限公司 一种大文件存储方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715070A (zh) * 2015-04-01 2015-06-17 武汉中科通达高新技术股份有限公司 一种大图像文件及生成和读取方法
CN106326292A (zh) * 2015-06-29 2017-01-11 杭州海康威视数字技术股份有限公司 数据结构和文件聚合、读取方法及装置
CN106326292B (zh) * 2015-06-29 2020-05-19 杭州海康威视数字技术股份有限公司 数据结构和文件聚合、读取方法及装置
CN105868286B (zh) * 2016-03-23 2019-03-12 中国科学院计算技术研究所 基于分布式文件系统小文件合并的并行追加方法及系统
CN105868286A (zh) * 2016-03-23 2016-08-17 中国科学院计算技术研究所 基于分布式文件系统小文件合并的并行追加方法及系统
CN106021585A (zh) * 2016-06-02 2016-10-12 同济大学 一种基于时空特性的交通事件视频存取方法及系统
CN107665092A (zh) * 2016-07-28 2018-02-06 华为技术有限公司 一种存储方法及装置
CN107665092B (zh) * 2016-07-28 2019-11-12 华为技术有限公司 一种存储方法及装置
CN106155845A (zh) * 2016-08-02 2016-11-23 四川效率源信息安全技术股份有限公司 一种基于xfs文件系统数据的重组恢复方法
CN108319541A (zh) * 2017-01-16 2018-07-24 上海大唐移动通信设备有限公司 一种日志文件分析方法及装置
CN106897391A (zh) * 2017-01-24 2017-06-27 北京百悟科技有限公司 文件存储方法及装置
CN107644056A (zh) * 2017-08-04 2018-01-30 武汉烽火众智数字技术有限责任公司 一种文件存储方法、装置及系统
CN107509085A (zh) * 2017-08-24 2017-12-22 山东浪潮商用系统有限公司 一种流媒体文件的存储方法及装置
CN107509085B (zh) * 2017-08-24 2019-12-24 山东浪潮商用系统有限公司 一种流媒体文件的存储方法及装置
CN107506447A (zh) * 2017-08-25 2017-12-22 郑州云海信息技术有限公司 一种基于本地文件系统的小文件读写方法及系统
CN109947721A (zh) * 2017-12-01 2019-06-28 北京安天网络安全技术有限公司 一种小文件处理方法和装置
CN109947721B (zh) * 2017-12-01 2021-08-17 北京安天网络安全技术有限公司 一种小文件处理方法和装置
CN109101598A (zh) * 2018-07-31 2018-12-28 成都华栖云科技有限公司 一种小图片页面渲染方法
CN111258955A (zh) * 2018-11-30 2020-06-09 北京白山耘科技有限公司 一种文件读取方法和系统、存储介质、计算机设备
CN111258955B (zh) * 2018-11-30 2023-09-19 北京白山耘科技有限公司 一种文件读取方法和系统、存储介质、计算机设备
CN109994131A (zh) * 2019-04-10 2019-07-09 广西电网有限责任公司玉林供电局 一种基于索引的工频录波文件压缩存储方法及系统
CN109994131B (zh) * 2019-04-10 2021-10-22 广西电网有限责任公司玉林供电局 一种基于索引的工频录波文件压缩存储方法及系统
CN110147203A (zh) * 2019-05-16 2019-08-20 北京金山云网络技术有限公司 一种文件管理方法、装置、电子设备及存储介质
CN110555000A (zh) * 2019-09-05 2019-12-10 重庆紫光华山智安科技有限公司 一种卡口图片元数据并发写入、读取方法
CN110968549A (zh) * 2019-11-18 2020-04-07 Oppo(重庆)智能科技有限公司 文件存储的方法、装置、电子设备及介质
CN110968549B (zh) * 2019-11-18 2024-03-29 Oppo(重庆)智能科技有限公司 文件存储的方法、装置、电子设备及介质
CN111966845A (zh) * 2020-08-31 2020-11-20 重庆紫光华山智安科技有限公司 图片管理方法、装置、存储节点及存储介质
CN111966845B (zh) * 2020-08-31 2023-11-17 重庆紫光华山智安科技有限公司 图片管理方法、装置、存储节点及存储介质
CN113110801A (zh) * 2021-04-15 2021-07-13 山东英信计算机技术有限公司 一种加快小文件读取速度的方法、系统、设备和存储介质
CN115080526A (zh) * 2022-08-22 2022-09-20 四川蜀天信息技术有限公司 一种基于ipfs大文件存储的方法

Also Published As

Publication number Publication date
CN104462563B (zh) 2019-04-30

Similar Documents

Publication Publication Date Title
CN104462563A (zh) 一种文件存储方法和系统
US8250033B1 (en) Replication of a data set using differential snapshots
US10496599B1 (en) Cloud data archiving using chunk-object mapping and synthetic full backup
US9336095B2 (en) Computing system and related data management method thereof
CN108319602B (zh) 数据库管理方法及数据库系统
US20190163591A1 (en) Remote Data Replication Method and System
US9304998B2 (en) Main-memory database checkpointing
US10146631B1 (en) Incremental forever backups for exchange
JP6264666B2 (ja) データ格納方法、データストレージ装置、及びストレージデバイス
CN113722275B (zh) 对象存储空间管理方法、装置、服务器及存储介质
CN106951375B (zh) 在存储系统中删除快照卷的方法及装置
CN109391647B (zh) 存储资源回收方法、装置及系统
CN103473277A (zh) 文件系统的快照方法和装置
CN102955720A (zh) 一种提高ext文件系统稳定性的方法
CN103034592B (zh) 数据处理方法和装置
CN102314383A (zh) 数据索引的故障恢复方法和装置
CN105824572A (zh) 一种磁盘存储空间管理方法、装置及存储设备
CN104461773A (zh) 一种虚拟机备份去重的方法
JP5868986B2 (ja) アイテム単位でのリカバリー
KR101674176B1 (ko) 파일 단위 순서 모드 저널링 기법을 이용한 fsync 시스템 호출 처리 장치 및 방법
CN110597762A (zh) 文件处理方法、装置、设备及存储介质
CN103164528B (zh) 一种音视频数据的索引建立方法
US10977143B2 (en) Mirrored write ahead logs for data storage system
CN115617264A (zh) 分布式存储方法及装置
US10701153B1 (en) Cloud data archiving using latest snapshot metadata

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant