CN100458796C - 文件分类方法及文件分类器 - Google Patents
文件分类方法及文件分类器 Download PDFInfo
- Publication number
- CN100458796C CN100458796C CNB2007100994040A CN200710099404A CN100458796C CN 100458796 C CN100458796 C CN 100458796C CN B2007100994040 A CNB2007100994040 A CN B2007100994040A CN 200710099404 A CN200710099404 A CN 200710099404A CN 100458796 C CN100458796 C CN 100458796C
- Authority
- CN
- China
- Prior art keywords
- characteristic
- division
- classification
- file
- sort file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004458 analytical method Methods 0.000 claims description 141
- 238000005070 sampling Methods 0.000 abstract 4
- 230000008569 process Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文件分类方法,该方法首先设置至少一个分类特征,得到所述分类特征取值的所有组合;然后,对待分类文件的位流进行分析,得到所述待分类文件的分类特征取值的组合;最后,根据所述分类特征取值的所有组合,和所述待分类文件的分类特征取值的组合,确定所述待分类文件的类别。本发明还公开了一种文件分类器。应用本发明能够实现灵活、精确的文件分类。
Description
技术领域
本发明涉及文件分类技术,特别涉及文件分类方法及文件分类器。
背景技术
传统的文件分类方法通常是按照文件的扩展名进行文件分类,即:将扩展名作为分类特征,根据待分类文件的扩展名将具有相同扩展名的所有文件归为一类。这种文件分类方法是一种粗分类,而实际应用中通常需要更为精细的分类,因此,采用该文件分类方法所区分出的类别在很多情况下都不能满足实际应用的要求。并且,该方法要求所有待分类文件均具有扩展名,如果某文件没有扩展名,则该方法无法对该文件进行分类。
针对上述传统方法提出的一种改进的方法是:根据实际应用中对分类精细度的要求制定分类层次和与每个分类层次对应的分类特征,通过编程一层一层地实现符合该分类层次要求和分类特征要求的文件分类。
这里,分类特征是指:能够表征某文件某种格式特性的指标,是对文件进行分类时所依据的文件特性,例如,扩展名、声道数、压缩格式等均可以作为分类特征。对于“扩展名”这一分类特征,其取值可以是wave、bmp、mp3等,“声道数”这一分类特征的取值可以是单声道和双声道,“压缩格式”这一分类特征的取值可以是微软的脉冲编码调制(PCM_MS)、微软的自适应音频脉冲编码调制(ADPCM_MS)等。
采用上述方法可以根据实际应用的需要,从待分类文件中分出符合分类特征取值要求的文件。但是,该方法存在分类层次固定、分类特征固定、分类方式不灵活、可扩展性差的缺陷。例如,若已实现将wave文件按声道数进行分类,进一步想再按压缩格式或位宽进行随意分类时,或想在按压缩格式分类后再按声道数进行分类时,就需要专门的开发人员对源代码进行大量的修改才能实现。因为,原有源代码的执行过程是:首先根据文件扩展名这一分类特征区分出扩展名取值为wave的文件,然后根据声道数这一分类特征将符合声道数取值要求的文件区分出来。而当我们想在此之后进一步按压缩格式取值或位宽取值进行随意分类时,就需要增加相应的源代码。并且,该方法也要求待分类文件具有扩展名。
由上述分析可见,现有文件分类方法分类层次固定、分类特征固定,导致其不能按照不同的应用要求进行文件分类,可扩展性差。并且,不能对没有扩展名的文件进行分类,分类精确度不高。
发明内容
有鉴于此,本发明的主要目的在于提供一种文件分类方法,以实现灵活、精确的文件分类。
本发明的另一个主要目的在于提供一种文件分类器,以实现灵活、精确的文件分类。
为达到上述目的,本发明的技术方案具体是这样实现的:
一种文件分类方法,包括以下步骤:
设置至少一个分类特征,得到所述分类特征取值的所有组合;
对待分类文件的位流进行分析,得到所述待分类文件的分类特征取值的组合;
根据所述分类特征取值的所有组合,和所述待分类文件的分类特征取值的组合,确定所述待分类文件的类别。
进一步地,可以设置至少一个分析规则,所述每一个分析规则用于对符合同一个分类特征的待分类文件的位流进行分析;
所述对待分类文件的位流进行分析为:依次调用所述分析规则对待分类文件的位流进行分析。
进一步地,可以设置调用指示,所述调用指示用于确定所调用的分析规则;
在所述依次调用分析规则之前,进一步判断是否已设置所述调用指示,若已设置,则调用与所述调用指示对应的分析规则对待分类文件的位流进行分析;否则,继续执行依次调用分析规则的操作。
在所述依次调用分析规则之前,可以进一步判断设置分析规则所依据的分类特征中,是否存在与所述待分类文件的分类特征相符的分类特征;
如果存在,则调用所述相符的分类特征所对应的分析规则分析待分类文件的位流;否则,继续执行依次调用分析规则的操作。
在得到所述分类特征取值的所有组合之后,可以进一步设置所述分类特征取值的所有组合与类别标识的对应关系;
所述确定所述待分类文件的类别为:根据所述分类特征取值的所有组合与类别标识的对应关系,和所述待分类文件的分类特征取值的组合,确定所述待分类文件的类别标识。
进一步地,可以设置与所述分类特征对应的分类层次;
所述分类特征取值的所有组合中取值的排列顺序、以及所述待分类文件的分类特征取值的组合中取值的排列顺序符合所述分类层次的排列顺序。
进一步地,可以为每个类别设置符合所述分类层次的排列顺序的分类目录;
在确定待分类文件的类别之后,进一步将所述待分类文件存入与所述类别相应的分类目录中。
一种文件分类器,包括:分类设置模块、控制模块和分析模块;
所述分类设置模块,用于设置分类特征;
所述控制模块,用于根据分类特征得到分类特征取值的所有组合,并发送给分析模块;
所述分析模块,用于分析待分类文件的位流,得到所述待分类文件的分类特征取值的组合,并根据所述分类特征取值的所有组合,和所述待分类文件的分类特征取值的组合,确定所述待分类文件的类别,将所述类别返回给控制模块。
所述分析模块中进一步可以包括至少一个分析单元;
所述分析单元,用于对符合同一个分类特征的待分类文件的位流进行分析,若分析成功,则返回待分类文件的类别,否则返回失败标识;
所述控制模块,用于依次调用所述分析单元,直至确定所述待分类文件的类别或得到失败标识。
所述分类设置模块,可以进一步用于设置调用指示,并将所述调用指示发送给控制模块;所述调用指示用于确定所调用的分析规则;
所述控制模块,进一步用于根据所述调用指示,调用与所述调用指示对应的分析单元。
所述文件分类器中可以进一步包括:判断模块;
所述判断模块,用于判断与每个分析单元相应的分类特征中,是否存在与所述待分类文件的分类特征相符的分类特征,如果存在,则通知所述控制模块调用与所述相符的分类特征相应的分析单元;
所述控制模块,进一步用于根据所述判断模块的通知调用与所述相符的分类特征相应的分析单元。
所述文件分类器中可以进一步包括:分类操作模块;
所述控制模块,进一步用于设置所述分类特征取值的所有组合与类别标识的对应关系,并为每个类别标识设置符合所述分类层次排列顺序的分类目录,并用于将所述类别标识与分类目录的对应关系、已确定类别标识的待分类文件发送给所述分类操作模块;
所述分类操作模块,用于根据所述已确定类别标识的待分类文件的类别标识,将所述待分类文件存入与所述类别标识相应的分类目录中。
由上述技术方案可见,本发明所公开的技术方案首先设置至少一个分类特征,得到所述分类特征取值的所有组合;然后,对待分类文件的位流进行分析,得到所述待分类文件的分类特征取值的组合;最后,根据所述分类特征取值的所有组合,和所述待分类文件的分类特征取值的组合,确定所述待分类文件的类别。如此,由于通过分析待分类文件位流能够得到该文件所有分类特征的取值,而本发明对待分类文件的分类是基于分类特征取值的组合来进行的,因此,在分类特征改变时,无需修改源代码,该方法就能自动根据新的分类特征得到相应的分类特征取值的所有组合,并参照该所有组合对待分类文件进行分类,从而实现了灵活、精确的文件分类。
附图说明
图1为本发明文件分类方法的示例性流程图。
图2为本发明实施例一中文件分类方法的流程示意图。
图3为本发明实施例二中文件分类方法的流程示意图。
图4为本发明实施例三中文件分类方法的流程示意图。
图5为本发明文件分类器的组成结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明作进一步详细说明。
本发明的主要思想是:根据分类层次和与各分类层次相应的分类特征,设置符合所述分类层次的分类特征值的所有组合与类别标识的对应关系,并通过分析待分类文件的位流(bit stream)得到待分类文件的各分类特征的值,最后,根据所设置的分类特征值的所有组合与类别标识的对应关系确定待分类文件的类别标识。
由于,通过分析待分类文件位流能够得到该文件所有分类特征的值,而本发明对待分类文件的分类是基于分类特征值的组合所进行的,因此,在分类层次和分类特征改变时,无需修改源代码,该方法就能自动根据新的分类层次和分类特征设置相应的类别标识进行文件分类,从而实现了灵活、精确的文件分类。
图1为本发明文件分类方法的示例性流程图。参见图1,该方法包括以下步骤:
步骤101:设置至少一个分类特征,得到所述分类特征取值的所有组合;
步骤102:对待分类文件的位流进行分析,得到所述待分类文件的分类特征取值的组合;
步骤103:根据所述分类特征取值的所有组合,和所述待分类文件的分类特征取值的组合,确定所述待分类文件的类别。
至此,结束本发明文件分类方法的示例性流程。
图1所示方法中,可以由用户指定分类特征。本发明所述分类特征是指:能够表征某文件某种格式特性的指标,例如,扩展名、编码格式或某一类文件的某种特性等均可以作为本发明所述分类特征。这里,由于文件分类就是判断待分类文件是否符合已有文件格式的某些特性指标,它是基于已有文件格式进行的,而表征某已有文件格式的特性的指标可以按照现有技术中的相关标准来确定,因此,本发明可以列出各种分类特征供用户选择。并且,由于可以根据所有特性指标进行文件分类,使得本发明的文件分类更精确。
图1所示方法中,对待分类文件的位流进行分析的较佳方法可以有以下三种:
第一种方法:
在图1所示方法的基础上,较佳地可以构造至少一个分析规则,所构造的分析规则用于对符合同一个分类特征的待分类文件的位流进行分析,也就是对符合某一个特定的分类特征的待分类文件的位流进行分析。这里,若分析规则对待分类文件的位流分析成功,可以返回待分类文件的类别;若分类失败,可以返回失败标识。
此时,分析待分类文件的位流的方法可以是:依次调用分析规则分析待分类文件的位流。
这上述较佳方案中,所有能够作为分类特征的特性指标均可以作为设置分析规则所依据的分类特征。例如,当以扩展名作为设置分析规则所依据的分类特征时,可以针对每一种扩展名构造相应的分析规则,由各个分析规则对具有相应扩展名取值的文件的位流进行分析。例如,可以针对扩展名为wave、mp3和bmp的文件分别构造相应的分析规则。
第二种方法:
在上述第一种较佳方案的基础上,还可以进一步设置调用指示,该调用指示用于确定是否调用某一个分析规则对待分类文件的位流进行分析,并用于确定所调用的分析规则。
在依次调用分析规则之前,若判定已设置了该调用指示,则可以直接调用与该调用指示对应的分析规则来分析待分类文件的位流,而不是依次调用各个分析规则来分析待分类文件的位流。只有当未设置该调用指示时,才执行依次调用分析规则的操作。
这样,在能够确定待分类文件的某种分类特征取值的情况下,可以减少进行文件分类的时间,提高文件分类的效率。例如,在能够确定某文件是bmp文件时,即能够确定某文件扩展名这一分类特征的取值为bmp时,就可以设置调用指示,直接指示调用bmp分析规则来对待分类文件进行文件分类。
第三种方法:
该方法可以用在上述第一种较佳方案中依次调用分析规则之前,也可以用在上述第二种较佳方案中判定未设置调用规则之后、依次调用分析规则之前。该方法根据构造分析规则时所依据的分类特征,判断是否存在与待分类文件的分类特征相符的分类特征,如果存在,则直接调用该相符的分类特征所对应的分析规则分析待分类文件的位流,而不是依次调用各个分析规则来分析待分类文件的位流。只有当不存在相符的分类特征时,才执行依次调用分析规则的操作。这样也能够减少进行文件分类的时间,提高文件分类的效率。
图1所示步骤101中,在得到分类特征取值的所有组合之后,还可以进一步设置所述分类特征取值的所有组合与类别标识的对应关系;如此,在确定待分类文件的类别时,就可以根据所述分类特征取值的所有组合与类别标识的对应关系,和待分类文件的分类特征取值的组合,确定待分类文件的类别标识,以该类别标识作为待分类文件的类别。
较佳地,在上述步骤101中可以设置与所述分类特征对应的分类层次;此时,步骤101所得到的分类特征取值的所有组合中取值的排列顺序、以及步骤102所确定的待分类文件的分类特征取值的组合中取值的排列顺序应当符合该分类层次的排列顺序。
本发明所提供的文件分类方法中,还可以进一步为每个类别或类别标识设置符合所述分类层次排列顺序的分类目录;在确定待分类文件的类别或类别标识之后,就可以将已确定类别或类别标识的待分类文件存入与其类别或类别标识相应的分类目录中。这样处理,使得对已分类文件的管理和使用变得更加简便。
下面通过三个较佳实施例说明本发明文件分类方法的具体实施方式。
实施例一:
本实施例对上述第一种较佳方法进行介绍,以扩展名作为设置分类规则所依据的分类特征,分别设置了针对扩展名取值为wave、mp3和bmp等文件的分析规则。
图2为本发明实施例一中文件分类方法的流程示意图。参见图2,该方法包括以下步骤:
步骤201:设置分类层次以及与每个分类层次对应的分类特征,得到分类特征取值的所有组合。
本步骤中,设置分类层次以及与每个分类层次对应的分类特征之后,可以得到符合所述分类层次排列顺序的分类特征取值的所有组合。
以wave文件为例,假设用户指定进行三层分类,即分类层次为3;第一层的分类特征为编码格式,第二层的分类特征为声道数,第三层的分类特征为位宽。
由于,编码格式这一分类特征的取值可以是:PCM_MS、ADPCM_MS等;
声道数这一分类特征的取值可以是:单声道和双声道;
位宽这一分类特征的取值可以是:8位、16位等;
因此,根据上述分类特征可以得到如表1所示的符合分类层次排列顺序的分类特征取值的所有组合:
扩展名 | 编码格式 | 声道数 | 位宽 |
WAVE | PCM_MS | 1 | 8 |
WAVE | PCM_MS | 1 | 16 |
WAVE | PCM_MS | 2 | 8 |
WAVE | PCM_MS | 2 | 16 |
WAVE | ADPCM_MS | 1 | 8 |
WAVE | ADPCM_MS | 1 | 16 |
WAVE | ADPCM_MS | 2 | 8 |
WAVE | ADPCM_MS | 2 | 16 |
WAVE | … | … | … |
表1
针对上述符合分类层次排列顺序的分类特征取值的所有组合,可以设置与之一一对应的类别标识。所设置的类别标识可以为任何形式,例如:数字、字母、文字及其组合等。较佳地,可以将类别标识设置为形如:“扩展名_第一层分类特征值_第二层分类特征值_第三层分类特征值”的形式。按照这种较佳方式设置的与表1所示分类特征取值的组合相应的类别标识如下所示:
WAVE_PCM_MS_1_8
WAVE_PCM_MS_1_16
WAVE_PCM_MS_2_8
WAVE_PCM_MS_2_16
WAVE_ADPCM_MS_1_8
WAVE_ADPCM_MS_1_16
WAVE_ADPCM_MS_2_8
WAVE_ADPCM_MS_2_16
……
本实施例中,将所设置的上述类别标识记为FormatID。
步骤202:调用第一个分析规则对待分类文件进行分析。
本步骤中,分析规则将按照与之对应的分类特征的现有相关标准,对待分类文件的位流进行分析。下面以wave文件为例,介绍如何分析待分类文件的位流。
wave文件作为多媒体中使用的声波文件格式之一,它是以RIFF格式为标准的。根据现有RIFF格式的相关标准,可以按照如下步骤分析wave文件位流,得到某待分类文件的分类特征的取值:
第1步:从文件位流中读取前4个字节,如果这四个字节为“RIFF”,则继续下一步,否则返回分析失败标志。
第2步:继续顺序地从文件位流中读取4个字节,这4个字节表明文件长度。
第3步:继续顺序地从文件位流中读取4个字节,如果这四个字节为“WAVE”,则继续下一步,否则返回分析失败标志。
第4步:继续顺序地从文件位流中读取4个字节,将该值记为ckID。
第5步:继续顺序地从文件位流中读取4个字节,将该值记为ckSize。
第6步:如果ckID为fmt标记即0x20746D66,则:
1)顺序地读取2个字节,这两个字节表示FORMAT_TAG,即如上所述“编码格式”这一分类特征,其取值可以为WAVE_PCM_MS、WAVE_ADPCM_MS等;
2)顺序地读取2个字节,这两个字节就是“声道数”这一分类特征的取值。
3)跳过10个字节。
4)顺序地读取2个字节,这两个字节表示每个样本所需的位宽,即“位宽”这一分类特征的取值。
5)分析成功,返回各个分类特征的取值并退出。
如果ckID不为fmt标记,则跳过ckSize个字节,并跳转到步骤4。
在上述分析文件位流的过程中,若在分析成功前遇到文件流结束,也将返回分析失败标志。
针对不同分类特征所设置的分析规则分析待分类文件位流的方法与上述方法大致相同,不同之处仅在于各分析规则在分析文件位流时所遵循的标准不同。例如,bmp分析规则采用bmp文件的相关标准进行位流分析,mp3分析规则采用mp3文件的相关标准进行位流分析。
为了提高文件分类的效率,可以在能够确定步骤201所设置的分类特征的取值时,立即结束对待分类文件位流的分析。
当对待分类文件的位流进行分析,确定编码格式、声道数和位宽这三种分类特征的取值,并根据步骤201所设置的分类特征取值的组合与类别标识的对应关系得到该待分类文件的FormatID时,就可以向调用wave分析规则的程序调用处返回该FormatID。
当对待分类文件的位流进行分析,没有得到编码格式、声道数和位宽这三种分类特征中的至少一个分类特征的取值,或虽然得到这三种分类特征的取值,但根据步骤201所设置的分类特征取值的组合与类别标识的对应关系无法得到该待分类文件的FormatID时,可以向调用wave分析规则的程序调用处返回失败标识。
步骤203:根据被调用分析规则返回的结果判断是否分析成功,若分析成功,则继续执行步骤204,否则,继续执行步骤205。
若在步骤202中被调用分析规则返回的是FormatID,则判定分析成功,继续执行步骤204中的归类操作;若在步骤202中被调用分析规则返回的是失败标识,则判定分析失败,继续执行步骤205。
步骤204:对分析成功的待分类文件进行归类。
本实施例中,可以为每个类别标识设置相应的分类目录,并且,该分类目录以符合所述分类层次的排列顺序为佳,即较佳地可以设置形如:“扩展名/编码格式/声道数”的目录。以步骤201所设置的FormatID为例,按照这种较佳方式设置的FormatID与分类目录的对应关系如下所示:
FormatID 分类目录
WAVE_PCM_MS_1_8 WAVE/PCM_MS/Channel1
WAVE_PCM_MS_1_16 WAVE/PCM_MS/Channel1
WAVE_PCM_MS_2_8 WAVE/PCM_MS/Channel2
WAVE_PCM_MS_2_16 WAVE/PCM_MS/Channel2
WAVE_ADPCM_MS_1_8 WAVE/ADPCM_MS/Channel1
WAVE_ADPCM_MS_1_16 WAVE/ADPCM_MS/Channel1
WAVE_ADPCM_MSS_2_8 WAVE/ADPCM_MS/Channel2
WAVE_ADPCM_MS_2_16 WAVE/ADPCM_MS/Channel2
……
本步骤中,可以根据上述对应关系将已确定类别标识的待分类文件存入与其类别标识相应的分类目录中。这样处理,使得对已分类文件的管理和使用变得更加简便。至此,完成本实施例对某个待分类文件的分类,结束本流程。
步骤205:判断是否存在未被调用的分析规则,若存在,则继续执行步骤206;否则,继续执行步骤207。
本步骤中,如果还存在未被调用的分析规则,则继续执行步骤206中的调用下一个分析规则的操作,否则,继续执行步骤207中与分类失败相关的后续操作。
步骤206:调用下一个分析规则,并返回步骤203。
步骤207:待分类文件分析失败,执行与分类失败相关的后续操作。
本步骤中,可以按照与现有技术相同的方法对分类失败的情况进行处理,例如,可以将分类失败的待分类文件存入一个特定的目录下,并向用户显示相应的提示等,在此不再赘述。
至此,完成本实施例对某个待分类文件的分类,结束本流程。
由上述实施例可见,本实施例首先设置分类层次以及与每个分类层次相应的分类特征,得到分类特征取值的所有组合与类别标识的对应关系,然后,通过依次调用分析规则分析待分类文件的位流,得到待分类文件的分类特征的取值,最后,根据所设置的分类特征取值的所有组合与类别标识的对应关系确定待分类文件的类别标识。如此,由于通过分析待分类文件位流能够得到该文件所有分类特征的值,而本发明对待分类文件的分类是基于分类特征取值的组合所进行的,因此,在分类层次和/或分类特征改变时,无需修改源代码,该方法就能自动根据新的分类层次和分类特征设置相应的类别标识进行文件分类,从而实现了灵活、精确的文件分类。
实施例二:
本实施例对上述第二种较佳方法进行介绍,也以扩展名作为设置分类规则所依据的分类特征,分别设置了针对扩展名取值为wave、mp3和bmp等文件的分析规则,并假设预先知道待分类文件为wave文件。
图3为本发明实施例二中文件分类方法的流程示意图。参见图3,该方法包括以下步骤:
步骤301:设置分类层次以及与每个分类层次对应的分类特征,并设置调用指示,得到分类特征取值的所有组合。
本步骤中,所设置分类层次以及与每个分类层次对应的分类特征,以及所得到的分类特征取值的所有组合均与实施例一步骤201相同,在此不再赘述。与实施例一步骤201不同之处在于:本步骤中设置了调用wave分析规则对待分类文件的位流进行分析的指示。
步骤302:判断是否设置有调用指示,如果是,则继续执行步骤303;否则,按照实施例一步骤202至步骤207所述操作依次调用分析规则对待分类文件的位流进行分析,直至确定待分类文件的类别或分类失败,在此不再赘述。
步骤303:直接调用与调用指示对应的分析规则。
由于本实施例中假设用户预先知道待分类文件为wave文件,则在步骤301中,可以设置调用指示,指示调用与扩展名取值为wave相应的分类规则。本步骤中,将根据该指示直接调用wave分析规则来分析待分类文件。
本步骤与步骤202相同,在得到待分类文件的FormatID时,将返回FormatID;否则,将返回失败标识。
步骤304:根据被调用分析规则返回的结果判断分析是否分析成功,若分析成功,则继续执行步骤305,否则,继续执行步骤306。
若在步骤303中被调用分析规则返回的是FormatID,则判定分析成功,继续执行步骤305中的归类操作;若在步骤303中被调用分析规则返回的是失败标识,则判定分析失败,继续执行步骤306。
步骤305:对分析成功的待分类文件进行归类。
本步骤中,可以参照实施例一步骤204的方式对分析成功的待分类文件进行归类,在此不再赘述。至此,完成本实施例对某个待分类文件的分类,结束本流程。
步骤306:待分类文件分析失败,执行与分类失败相关的后续操作。
本步骤中,可以按照与现有技术相同的方法对分类失败的情况进行处理,例如,可以将分类失败的待分类文件存入一个特定的目录下,并向用户显示相应的提示等,在此不再赘述。
至此,完成本方法对某个待分类文件的分类,结束本流程。
由上述实施例可见,本实施例首先设置分类层次以及与每个分类层次相应的分类特征,并设置调用指示,得到分类特征取值的所有组合与类别标识的对应关系,然后,通过调用与该调用指示相应的分析规则来分析待分类文件的位流,得到待分类文件的分类特征的取值,最后,根据所设置的分类特征取值的所有组合与类别标识的对应关系确定待分类文件的类别标识。如此,不仅能够实现灵活、精确的文件分类,还能提高文件分类的效率,节约文件分类的时间。
实施例三:
本实施例对上述第三种较佳方法进行介绍,也以扩展名作为设置分类规则所依据的分类特征,分别设置了针对扩展名取值为wave、mp3和bmp等文件的分析规则,并假设预先知道待分类文件为wave文件。
图4为本发明实施例三中文件分类方法的流程示意图。参见图4,该方法包括以下步骤:
步骤401:设置分类层次以及与每个分类层次对应的分类特征,得到分类特征取值的所有组合。
本步骤中,所设置分类层次以及与每个分类层次对应的分类特征,以及所得到的分类特征取值的所有组合均与实施例一步骤201相同,在此不再赘述。
步骤402:判断是否设置有调用指示,如果设置有调用指示,则按照实施例二步骤303至306所述的操作直接调用与调用指示对应的分析规则对待分类文件的位流进行分析,直至确定待分类文件的类别或分类失败,在此不再赘述;如果没有设置调用指示,则继续执行步骤403。
步骤403:判断构造分析规则所依据的分类特征中,是否存在与待分类文件的分类特征相符的分类特征,如果存在,则继续执行步骤404;否则按照实施例一步骤202至步骤207所述操作依次调用分析规则对待分类文件的位流进行分析,直至确定待分类文件的类别或分类失败,在此不再赘述。
本步骤中,判断构造分析规则所依据的分类特征中是否存在与待分类文件的分类特征相符的分类特征的方法为:根据构造分析规则所依据的分类特征,对待分类文件的位流进行分析,判断待分类文件的位流是否具备所述分类特征中的某一种分类特征,若具备,则判定待分类文件所具备的该分类特征即为相符的分类特征。
步骤404:直接调用所述相符分类特征所对应的分析规则。
本步骤与步骤步骤202相同,在得到待分类文件的FormatID时,将返回FormatID;否则,将返回失败标识。
步骤405:根据被调用分析规则返回的结果判断分析是否分析成功,若分析成功,则继续执行步骤406,否则,继续执行步骤407。
若在步骤404中被调用分析规则返回的是FormatID,则判定分析成功,继续执行步骤406中的归类操作;若在步骤404中被调用分析规则返回的是失败标识,则判定分析失败,继续执行步骤407。
步骤406:对分析成功的待分类文件进行归类。
本步骤中,可以参照实施例一步骤204的方式对分析成功的待分类文件进行归类,在此不再赘述。至此,完成本实施例对某个待分类文件的分类,结束本流程。
步骤407:待分类文件分析失败,执行与分类失败相关的后续操作。
本步骤中,可以按照与现有技术相同的方法对分类失败的情况进行处理,例如,可以将分类失败的待分类文件存入一个特定的目录下,并向用户显示相应的提示等,在此不再赘述。
至此,完成本实施例对某个待分类文件的分类,结束本流程。
由上述实施例可见,本实施例首先设置分类层次以及与每个分类层次相应的分类特征,得到分类特征取值的所有组合与类别标识的对应关系,然后,通过直接调用与待分类文件的分类特征相符的分析规则来分析待分类文件的位流,得到待分类文件的各分类特征的值,最后,根据所设置的分类特征值的所有组合与类别标识的对应关系确定待分类文件的类别标识。如此,不仅能够实现灵活、精确的文件分类,还能提高文件分类的效率,节约文件分类的时间。
以上对本发明文件分类方法的具体实施方式进行了详细的说明,下面通过一个实施例说明本发明文件分类器的具体实施方式。
图5为本发明文件分类器的组成结构示意图。参见图5,该文件分类器包括:分类设置模块510、控制模块520和分析模块530。
其中,分类设置模块510,用于设置分类特征,并发送给控制模块520;
控制模块520,用于根据分类特征得到分类特征取值的所有组合,并发送给分析模块530;
分析模块530,用于分析待分类文件的位流,得到待分类文件的分类特征取值的组合,并根据分类特征取值的所有组合,和所述待分类文件的分类特征取值的组合,确定待分类文件的类别,将所确定的类别返回给控制模块520。
图5所示文件分类器的分析模块530中可以进一步包括至少一个分析单元,记为分析单元1、分析单元2、……分析单元n。这里,分析单元1~n,用于对符合同一个分类特征的待分类文件的位流进行分析。例如,可以根据扩展名分别设置bmp分析单元、wave分析单元、mp3分析单元等。
若某分析单元分析待分类文件成功,得到相应的类别,则向控制模块520返回待分类文件的类别,否则,向控制模块520返回失败标识;控制模块520在控制分析模块530分析待分类文件的类别时,用于依次调用分析单元1~n,直至确定待分类文件的类别或得到失败标识。
进一步地,图5所示分类设置模块510,可以用于设置调用指示,并将调用指示发送给控制模块520;所述调用指示用于确定所调用的分析规则。此时,控制模块520,进一步可以用于根据所述调用指示,调用与所述调用指示对应的分析单元。这样,在能够确定某分类特征取值的情况下,可以减少进行文件分类的时间,提高文件分类的效率。
为了减少进行文件分类的时间,提高文件分类的效率,也可以在图5所示文件分类器中进一步包括:判断模块540。该判断模块,可以用于判断与每个分析单元相应的分类特征中,是否存在与待分类文件的分类特征相符的分类特征,如果存在,则通知控制模块520调用与该相符的分类特征相应的分析单元。此时,控制模块520,进一步用于根据判断模块540的通知调用与该相符的分类特征相应的分析单元。
在图5所示文件分类器中还可以进一步包括:分类操作模块550。
在包含分类操作模块550的文件分类器中,控制模块520,进一步用于设置所述分类特征取值的所有组合与类别标识的对应关系,并为每个类别标识设置符合所述分类层次的分类目录,并用于将类别标识与分类目录的对应关系、已确定类别标识的待分类文件发送给分类操作模块550;由分类操作模块550根据已确定类别标识的待分类文件的类别标识,将待分类文件存入与其类别标识相应的分类目录中。
该分类操作模块550也可以设置于控制模块520中。
由上述实施例可见,本发明所公开的文件分类器中,首先通过分类设置模块设置分类特征;然后,由控制模块根据分类特征得到分类特征取值的所有组合;最后,由分析模块分析待分类文件的位流,得到待分类文件的分类特征取值的组合,并根据分类特征取值的所有组合,和所述待分类文件的分类特征取值的组合,确定待分类文件的类别,再将所确定的类别返回给控制模块。如此,由于分析模块通过分析待分类文件位流能够得到该文件所有分类特征的值,而本发明对待分类文件的分类是基于分类特征值的组合所进行的,因此,在分类层次和分类特征改变时,无需对本发明的文件分类器作任何改变,该文件分类器就能自动根据新的分类层次和分类特征设置相应的类别标识进行文件分类,从而实现了灵活、精确的文件分类。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1、一种文件分类方法,其特征在于,包括以下步骤:
设置至少一个分类特征,得到所述分类特征取值的所有组合;
对待分类文件的位流进行分析,得到所述待分类文件的分类特征取值的组合;
根据所述分类特征取值的所有组合,和所述待分类文件的分类特征取值的组合,确定所述待分类文件的类别。
2、根据权利要求1所述的方法,其特征在于,进一步设置至少一个分析规则,所述每一个分析规则用于对符合同一个分类特征的待分类文件的位流进行分析;
所述对待分类文件的位流进行分析为:依次调用所述分析规则对待分类文件的位流进行分析。
3、根据权利要求2所述的方法,其特征在于,进一步设置调用指示,所述调用指示用于确定所调用的分析规则;
在所述依次调用分析规则之前,进一步判断是否已设置所述调用指示,若已设置,则调用与所述调用指示对应的分析规则对待分类文件的位流进行分析;否则,继续执行依次调用分析规则的操作。
4、根据权利要求2所述的方法,其特征在于,在所述依次调用分析规则之前,进一步判断设置分析规则所依据的分类特征中,是否存在与所述待分类文件的分类特征相符的分类特征;
如果存在,则调用所述相符的分类特征所对应的分析规则分析待分类文件的位流;否则,继续执行依次调用分析规则的操作。
5、根据权利要求1至4任一项所述的方法,其特征在于,在得到所述分类特征取值的所有组合之后,进一步设置所述分类特征取值的所有组合与类别标识的对应关系;
所述确定所述待分类文件的类别为:根据所述分类特征取值的所有组合与类别标识的对应关系,和所述待分类文件的分类特征取值的组合,确定所述待分类文件的类别标识。
6、根据权利要求1至4任一项所述的方法,其特征在于,进一步设置与所述分类特征对应的分类层次;
所述分类特征取值的所有组合中取值的排列顺序、以及所述待分类文件的分类特征取值的组合中取值的排列顺序符合所述分类层次的排列顺序。
7、根据权利要求6所述的方法,其特征在于,进一步为每个类别设置符合所述分类层次的排列顺序的分类目录;
在确定待分类文件的类别之后,进一步将所述待分类文件存入与所述类别相应的分类目录中。
8、一种文件分类器,其特征在于,包括:分类设置模块、控制模块和分析模块;
所述分类设置模块,用于设置分类特征;
所述控制模块,用于根据分类特征得到分类特征取值的所有组合,并发送给分析模块;
所述分析模块,用于分析待分类文件的位流,得到所述待分类文件的分类特征取值的组合,并根据所述分类特征取值的所有组合,和所述待分类文件的分类特征取值的组合,确定所述待分类文件的类别,将所述类别返回给控制模块。
9、根据权利要求8所述的文件分类器,其特征在于,所述分析模块中进一步包括至少一个分析单元;
所述分析单元,用于对符合同一个分类特征的待分类文件的位流进行分析,若分析成功,则返回待分类文件的类别,否则返回失败标识;
所述控制模块,用于依次调用所述分析单元,直至确定所述待分类文件的类别或得到失败标识。
10、根据权利要求9所述的文件分类器,其特征在于,所述分类设置模块,进一步用于设置调用指示,并将所述调用指示发送给控制模块;所述调用指示用于确定所调用的分析规则;
所述控制模块,进一步用于根据所述调用指示,调用与所述调用指示对应的分析单元。
11、根据权利要求9所述的文件分类器,其特征在于,所述文件分类器中进一步包括:判断模块;
所述判断模块,用于判断与每个分析单元相应的分类特征中,是否存在与所述待分类文件的分类特征相符的分类特征,如果存在,则通知所述控制模块调用与所述相符的分类特征相应的分析单元;
所述控制模块,进一步用于根据所述判断模块的通知调用与所述相符的分类特征相应的分析单元。
12、根据权利要求8至11任一项所述的文件分类器,其特征在于,所述文件分类器中进一步包括:分类操作模块;
所述控制模块,进一步用于设置所述分类特征取值的所有组合与类别标识的对应关系,并为每个类别标识设置符合所述分类层次排列顺序的分类目录,并用于将所述类别标识与分类目录的对应关系、已确定类别标识的待分类文件发送给所述分类操作模块;
所述分类操作模块,用于根据所述已确定类别标识的待分类文件的类别标识,将所述待分类文件存入与所述类别标识相应的分类目录中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007100994040A CN100458796C (zh) | 2007-05-18 | 2007-05-18 | 文件分类方法及文件分类器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007100994040A CN100458796C (zh) | 2007-05-18 | 2007-05-18 | 文件分类方法及文件分类器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101051322A CN101051322A (zh) | 2007-10-10 |
CN100458796C true CN100458796C (zh) | 2009-02-04 |
Family
ID=38782734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2007100994040A Expired - Fee Related CN100458796C (zh) | 2007-05-18 | 2007-05-18 | 文件分类方法及文件分类器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100458796C (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646097B (zh) * | 2011-02-18 | 2019-04-26 | 腾讯科技(深圳)有限公司 | 一种聚类方法及装置 |
CN105446705B (zh) | 2014-06-30 | 2019-06-21 | 国际商业机器公司 | 用于确定配置文件的特性的方法和装置 |
CN105868272A (zh) * | 2016-03-18 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 多媒体文件分类方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1617142A (zh) * | 2003-09-29 | 2005-05-18 | 奥林巴斯株式会社 | 信息管理方法和信息管理装置 |
EP1696340A1 (en) * | 2003-12-15 | 2006-08-30 | Sony Corporation | Information processing apparatus, information processing method, and computer program |
US20060206495A1 (en) * | 2003-04-07 | 2006-09-14 | Johan Sebastiaan Van Gageldonk | Method and apparatus for grouping content items |
-
2007
- 2007-05-18 CN CNB2007100994040A patent/CN100458796C/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060206495A1 (en) * | 2003-04-07 | 2006-09-14 | Johan Sebastiaan Van Gageldonk | Method and apparatus for grouping content items |
CN1617142A (zh) * | 2003-09-29 | 2005-05-18 | 奥林巴斯株式会社 | 信息管理方法和信息管理装置 |
EP1696340A1 (en) * | 2003-12-15 | 2006-08-30 | Sony Corporation | Information processing apparatus, information processing method, and computer program |
Also Published As
Publication number | Publication date |
---|---|
CN101051322A (zh) | 2007-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7451139B2 (en) | Document similarity calculation apparatus, clustering apparatus, and document extraction apparatus | |
US8015198B2 (en) | Method for automatically indexing documents | |
DE69807716T2 (de) | Erkennung von computerviren verteilt über mehreren datenströme | |
CN106489149A (zh) | 一种基于数据挖掘和众包的数据标注方法及系统 | |
CN102411587A (zh) | 一种网页分类方法和装置 | |
MXPA05006991A (es) | Dispositivo, programa y metodo para evaluar una tecnica. | |
KR101505546B1 (ko) | 텍스트 마이닝을 이용한 키워드 도출 방법 | |
CN108256587A (zh) | 一种字符串相似度的确定方法、装置、计算机及存储介质 | |
CN100458796C (zh) | 文件分类方法及文件分类器 | |
CN102073684A (zh) | 搜索日志的挖掘方法和装置以及页面搜索的方法和装置 | |
AU2002331728A1 (en) | A method for automatically indexing documents | |
CN107609097A (zh) | 一种数据整合分类方法 | |
CN101794283A (zh) | 字符串处理方法及系统和匹配器 | |
CN107506407A (zh) | 一种文件分类、调用的方法及装置 | |
Castano et al. | A constructive approach to reuse of conceptual components | |
CN113806321A (zh) | 一种日志处理方法及系统 | |
CN107168788A (zh) | 分布式系统中资源的调度方法以及装置 | |
JP4604097B2 (ja) | 文書分類付与方法、システムまたはコンピュータプログラム | |
CN112232731B (zh) | 一种库存abc分类的方法及设备 | |
CN101520861A (zh) | 数据事件发送方法和装置以及事件处理系统 | |
CN106251093A (zh) | 一种支持验收属性动态配置的工程验收方法 | |
CN106022374A (zh) | 一种对历史流程数据进行分类的方法及装置 | |
JP2002251590A (ja) | 文書分析装置 | |
CN111488327A (zh) | 一种数据标准管理方法和系统 | |
CN112367406B (zh) | 识别web应用系统中帐号行为分析对应帐号关联属性的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090204 Termination date: 20120518 |