CN102591976A

CN102591976A - 基于句子级别的文本特征提取方法和文档拷贝检测系统

Info

Publication number: CN102591976A
Application number: CN2012100009187A
Authority: CN
Inventors: 俞昊旻; 张奇; 黄萱菁
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2012-01-04
Filing date: 2012-01-04
Publication date: 2012-07-18

Abstract

本发明属于拷贝检测技术领域，具体为一种基于句子级别的文本特征提取方法和文档拷贝检测系统。本发明提出的基于句子级别的文本特征提取方法，选取一定数量的具有最低逆向文件频率的常见词汇作为先行词，以抽取改进的Shingle特征，用以表示整个句子；本还提出基于句子级别的文档拷贝检测系统，该系统包括文档读取子系统、断句子系统、特征提取子系统、拷贝检测子系统和序列匹配子系统，可以高速准确地找出文档集合中包含部分拷贝的文档对，并定位互为拷贝的范围。

Description

基于句子级别的文本特征提取方法和文档拷贝检测系统

技术领域

本发明属于拷贝检测技术领域，具体涉及一种基于句子级别的文本特征提取方法和文档拷贝检测系统。

背景技术

随着互联网时代的发展，信息呈现出爆炸式增长的趋势。由于数字文档本身易于被复制的特点，导致网络中出现了大数量的重复的网页和文档。这些重复的信息对基于Web信息的应用来说，造成了严重的负担。因此，对于拷贝检测问题的研究，在近年来逐渐成为了信息检索领域的一个研究热点。

现有的研究工作主要着眼于如何进行文档级别的拷贝检测。文档级别拷贝检测的研究成果在普通的网页的拷贝检测中取得了不错的成果。但目前仍存在一些问题，无法用现有的针对文档级别的方法来解决。

两个较为典型的例子分别为文档中抄袭部分和引用部分的拷贝检测。由于抄袭通常不会是文档级别的抄袭，而是段落级别和句子级别的抄袭，即将他人文章中的部分段落或句子抄入自己的文章中。因此抄袭的检测无法使用文档级别的拷贝检测方法有效地检测出来。而对于文档中的引用也存在相同的问题。在文章或是新闻中出现引用时，引用的通常是几句话或是一个短小的文字段落，因此两个文档之间的相似度不会高，因而也无法使用文档级别的拷贝检测方法有效地检测出来。

除了以上的问题之外，在网页的拷贝检测中还存在一些不能使用文档级别拷贝检测方法解决的问题，如分页新闻以及论坛中帖子（Thread）等的拷贝检测。这些问题的一个共同特点是，两个文档之中只是部分互为拷贝，这些部分拷贝需要基于更细粒度的句子级别拷贝检测的方法才能被有效地检测出来。这类问题的解决方法通常分为两个步骤：首先进行句子级别的拷贝检测，即将文档中互为拷贝的句子对检测出来；然后，通过对互为拷贝的句子进行序列匹配（即将上一步中得到的互为拷贝的句子对，按照文档集中起来，并从中找出互为拷贝的连续的序列），从而将文档间互为拷贝的部分检测并定位出来。如图1所示，文档1中第i₁个句子到第j₁个句子的部分与文档2中第m₁个句子到第n₁个句子的部分互为拷贝，而同时文档1中第i₂个句子到第j₂个句子的部分与文档2中第m₂个句子到第n₂个句子的部分互为拷贝，这样就将句子级别的拷贝检测提高到了段落的级别。

可以看出算法第一步中的句子级别的拷贝检测将直接影响到整个任务的精度和效率。因此有必要对句子级别的拷贝检测进行更详细的研究。同时如何实现一个可以高速准确地找出文档集中包含部分拷贝的文档对，并定位互为拷贝的范围的文档拷贝检测系统也是本发明的研究内容之一。

发明内容

本发明的目的在于提出一种算法精度和效率高的文本特征提取方法，以及相应的文档拷贝检测系统。

本发明提出的文本特征提取方法，是一种改进型的基于句子级别的文本特征提取方法，称为Low-IDF-Sig算法。该算法可以高效地从句子中提取出可以很好地表示整个句子核心内容的Low-IDF-Sig特征。本发明在句子级别的GoldenSet实验集上对本发明的Low-IDF-Sig方法，以及现在已有的文档级别上较有代表性的方法（包括Shingling算法、SpotSig算法以及I-Match算法）进行了综合性的评测。

本发明提出的文档拷贝检测系统，是一种基于倒排索引进行剪枝的可以高速准确地找出文档集中包含部分拷贝的文档对，并定位互为拷贝的范围的文档拷贝检测系统。

接下来将对上述两个方面分别进行说明。

一、Low-IDF-Sig特征提取方法

该算法选取一定数量的具有最低逆向文件频率（inverse document frequency，IDF）的常见词汇作为先行词，以抽取改进的Shingle特征，用以表示整个句子。

一个Low-IDF-Sig特征s_i可以表示为一条紧跟在一个先行词a_i后的具有固定长度c_i的词链，该词链的取词间隔为一个固定值d_j。使用标记a_i(d_i,c_i)表示一个先行词为a_i，词链长度为c_i，取词间隔为d_i的Low-IDF-Sig特征s_i。举例来说，is（2,3）表示的Low-IDF-Sig特征在句子中每次出现is时进行提取，其中提取的间隔为2，词链长度为3，假设is在文中出现的位置为1的话，则位置3,5,7处的词被提取出来作为词链的组成部分，如果在前一先行词的词链范围内出现了其他的先行词的情况下，有可能出现两个特征部分重叠的情况。

Low-IDF-Sig特征提取方法的具体步骤如下：

（1）给定先行词集合A，词链长度c，取词间隔d；

（2）遍历句子中的每个词，若词汇出现在先行词集合中，词汇当前位置为p，则提取p+0*d, p+1*d, p+2*d…p+c*d处的词形成一个特征；

（3）对句子中的每个词重复步骤（2），直到没有更多词汇，从而将句子转换为一个有权特征集合。

一个利用Low-IDF-Sig进行特征抽取的例子如下：

考虑如下的句子：“As we are taking your candidature ahead we would like to highlight that INTEL as an organization believes and practices high standards of ethical behavior from every potential candidate.”

假设我们从逆向文件频率表中获得了前五个具有最低的逆向文件词频的单词{as, to, that, of, from}作为先行词，并以c_i=2作为词链的长度，d_i=1作为取词间隔，则我们可以将上面的句子变为如下的由Low-IDF-Sig特征组成的集合：S = {as:we:are, to:highlight:that, that:intel:as, as:an:organization, of:ethical:behavior, from:every:potential}。可以看出上述集合已经很好地覆盖到了整个句子的核心内容。

Low-IDF-Sig特征作为改进型SpotSig算法，与SpotSig算法主要存在以下几个差别：

（1）Low-IDF-Sig特征在选取先行词时，总是从作为外部资源的一个逆向文件频率表中选取具有最低逆向文件频率的前n个常见词作为Low-IDF-Sig特征的先行词；但为了保证每个句子至少有一个特征，我们简单地选取句子中的第一个词作为一个特殊的先行词；

（2）Low-IDF-Sig特征在构成Shingle时，词链中不仅包括先行词后提取的词，同时也包括先行词本身；

（3）SpotSig算法在选取构成词链的词语时，简单地跳过了所有的停止词，即停止词不会出现在如何一条词链中。SpotSig的理由是停止词本身的语义信息较少，对于文档级别的文本来说可以忽略。但我们在实验中发现，对于文本长度较短的句子而言，停止词的信息量仍对整个句子可以产生较大的影响，因此不应该简单地跳过所有的停止词。在Low-IDF-Sig算法中，本发明在选取构成词链的词语时，只跳过少部分的停止词，这部分的停止词包括部分的冠词与介词。原因是，在实验中发现两个互为拷贝的句子，可能会使用不同的冠词或介词，但仍然表示相同的意义。

本发明通过实验证明Low-IDF-Sig特征提取算法的表现优于其他类似方法。

表1 各特征在GoldenSet上的综合表现

注：特征算法名字后的括号中的内容表示其参数。对于I-Match表示其IDF范围，其他表示先行词数量。

表1中显示了各个特征在GoldenSet上的综合表现。从表中可以看出3-Shingles在F1 Score一项上取得了所有特征中最高的0.960，但对比Low-IDF-Sig(50)的F1 Score来说，优势并不明显。而且在空间占用上，Low-IDF-Sig(50)具有明显的优势，仅为3-Shingles的三分之一。从时间占用上可以看出无论是索引阶段的用时还是相似度计算阶段的用时，Low-IDF-Sig(50)都明显少于3-Shingles。特别是相似度计算阶段的用时仅为3-Shingles的1/11。3-Shingles在这一阶段用时过长的原因在于存在某些特征过于常见，即索引中该特征对应的句子过多，根据本发明第四节中的介绍，假设该特征对应的句子数为n的话，则这n个句子互相需要进行两两比较，则需要n²级别次比较。因此当句子数增长时，这部分的时间可能出现n²级别的增长。因此3-Shingles不适合大规模的部分拷贝检测任务。而I-Match尽管在时间与空间的占用上比Low-IDF-Sig(50)要少，但F1 Score却明显低于Low-IDF-Sig(50)，因此仅仅适合于对算法效率要求相当高，而对精度要求不高的任务中。另外还可以发现Low-IDF-Sig(50)在空间、时间占用以及F1 Score上均要优于SpotSig。同时还可以发现SpotSig在GoldenSet上抽取出的特征总数要多于Low-IDF-Sig(50)，也就是说SpotSig平均用于表示每个句子的特征要多于Low-IDF-Sig(50)，但其F1 Score却低于Low-IDF-Sig(50)。因此，可以发现SpotSig抽取出的特征未能有效地表现句子的核心内容，Low-IDF-Sig要比SpotSig更适合于句子级别的特征抽取任务。最后从表中可以看出，Low-IDF-Sig算法在先行词从50增长到500时，F1 Score只是略微上升，但其空间、时间占用却有明显的上升。

综上所述，在同时考虑到算法的精度、效率以及空间占用的情况下，先行词数量为50、相似度阈值为0.6的Low-IDF-Sig特征可以很好地用于句子级别的文本表示，适用于部分拷贝检测任务。

二、基于句子级别的文档拷贝检测系统

系统组成如图2所示，一个完整的基于句子级别的文档拷贝检测系统由文档读取子系统，断句子系统，特征提取子系统，拷贝检测子系统，序列匹配子系统组成。各个子系统的说明如下。

所述文档读取子系统，以文档集合作为输入，单个的文档为输出，用于读取文档集合中的文档，并将单个的文档输出到后续的断句子系统中。文档读取子系统可根据文档集合的形式替换实现。如当文档集合为XML文档时，使用XML文档读取子系统。系统的后继子系统为断句子系统。

所述断句子系统，以文档读取子系统输出的单个文档为输入，单个的句子为输出，用于读取文档并断句后输出文本表示的句子。具体实现时可以使用多种断句方法，如以标准的标点符号：句号、感叹号等作为断句依据。系统的后继子系统为特征提取子系统。

所述特征提取子系统，以断句子系统输出的单个句子为输入，句子的特征向量表示以及倒排索引为输出，用于将句子文本转换为特征向量表示，并加入倒排索引中。具体实现时可以使用多种特征提取方法，如本文之前提出的Low-IDF-Sig特征提取方法。系统的后继子系统为拷贝检测子系统。

所述拷贝检测子系统，以特征提取子系统输出的句子的特征向量表示以及倒排索引为输入，互为拷贝的句子对集合为输出，用于根据倒排索引找出互为拷贝的句子对。具体实现时可使用不同的相似度算法，并可使用不同的剪枝算法。系统的后继子系统为序列匹配子系统。

所述序列匹配子系统，以拷贝检测子系统输出的互为拷贝的句子对集合为输入，互为拷贝的段落序列集合为输出，用于将句子对集合按照文档组织起来，并找出互为拷贝的序列。

本发明中，组成系统的各个部分的灵活性很强，可以根据需求灵活地替换实现。其中又以特征提取子系统和拷贝检测子系统的灵活性最高。

特征提取子系统可使用的实现包括：3-Shingles实现，I-Match实现，SpotSig实现，Low-IDF-Sig实现。

拷贝检测子系统默认使用常见的Jaccard相似度作为本发明的相似度计算方法。假设两个句子经过前述的转换，变为了两个由Low-IDF-Sig特征组成的集合：A和B。注意到同一个Low-IDF-Sig特征可能在一个句子中出现多次，因此A和B实际上是一个带有权重的集合（multi-set），它们间的相似度定义为：

Figure 2012100009187100002DEST_PATH_IMAGE003

其中，freqA(sj)表示特征sj在带权重集合A中出现的频率。同样，freqB(sj)表示特征sj在带权重集合B中出现的频率。但根据需求可以使用其他向量相似度算法实现，如余弦相似度实现等。

该系统的处理流程如图2所示，首先由文档读取子系统从文档集合中获取一个文档，由断句子系统将文档转换为句子的集合，然后由特征提取子系统将句子转换为特征向量，并加入倒排索引中；当对所有文档都进行过上述处理后，由拷贝检测子系统分析倒排索引和句子向量集合，找出互为拷贝的句子对；最后由序列匹配子系统将句子对按照文档整理，匹配文档中互为拷贝的序列，并产生最后的结果。

附图说明

图1为段落级别互为拷贝的例子。

图2为基于句子级别的文档拷贝检测系统的组成及处理流程。

具体实施方式

假设文档集中有两篇论文，分别为P1和P2。其中P2中的第3段是抄袭P1中第2段的，P1中这一段的范围为S3-S5，P2中则为S6-S8。则文档集合D输入文档读取子系统中后被分为两个单独的文档P1和P2；而两个文档输入断句子系统中后被切分为句子的集合；特征提取子系统将句子从文本表示转换为特征向量的集合并将其加入倒排索引中；拷贝检测子系统利用倒排索引进行拷贝检测，此时发现如下的互为拷贝的句子对(P1S3, P2S6), (P1S4, P2S7), (P1S5, P2S8)；序列匹配子系统将上述拷贝对整理起来后，输出(P1[S3-S5], P2[S6-S8])，即文档集合中的P1中的第3句到第5句和P2中的第6句到第8句互为拷贝。

如上所述，论文P1和P2在文档级别上的相似度并不高，使用文档级别的拷贝检测方法无法将其检测出来。但使用本发明提出的方法和系统可以有效地找出这个文档对中包含的互为拷贝的段落信息。

结论：本发明提出了一种高效的句子级别的文本特征提取算法--Low-IDF-Sig算法，该算法的F1 Score仅比3-Shingles略低1%，但算法的空间占用仅为3-Shingles的29%，同时索引阶段用时仅为3-Shingles的37%，而相似度计算阶段的用时更是仅为3-Shingles的8.6%。因此该算法极适合于句子级别的特征提取。本发明还以此算法为基础提出了一个高效灵活的句子级别的文本拷贝检测系统。

Claims

1.一种基于句子级别的文本特征提取方法，选取一定数量的具有最低逆向文件频率的常见词汇作为先行词，以抽取改进的Shingle特征，用以表示整个句子；设一个Low-IDF-Sig特征s_i表示为一条紧跟在一个先行词a_i后的具有固定长度c_i的词链，该词链的取词间隔为一个固定值d_j；使用标记a_i(d_i,c_i)表示一个先行词为a_i，词链长度为c_i，取词间隔为d_i的Low-IDF-Sig特征s_i；具体步骤如下：

（1）给定先行词集合A，词链长度c，取词间隔d；

2.一种基于句子级别的文档拷贝检测系统，其特征在于由文档读取子系统、断句子系统、特征提取子系统、拷贝检测子系统、序列匹配子系统组成；其中：

所述文档读取子系统，以文档集合作为输入，单个的文档为输出，用于读取文档集合中的文档，并将单个的文档输出到后续的断句子系统中；

所述断句子系统，以文档读取子系统输出的单个文档为输入，单个的句子为输出，用于读取文档并断句后输出文本表示的句子；

所述特征提取子系统，以断句子系统输出的单个句子为输入，句子的特征向量表示以及倒排索引为输出，用于将句子文本转换为特征向量表示，并加入倒排索引中；

所述拷贝检测子系统，以特征提取子系统输出的句子的特征向量表示以及倒排索引为输入，互为拷贝的句子对集合为输出，用于根据倒排索引找出互为拷贝的句子对；

所述序列匹配子系统，以拷贝检测子系统输出的互为拷贝的句子对集合为输入，互为拷贝的段落序列集合为输出，用于将句子对集合按照文档组织起来，并找出互为拷贝的序列；

文档拷贝检测系统处理流程为：首先由文档读取子系统从文档集合中获取一个文档，由断句子系统将文档转换为句子的集合，然后由特征提取子系统将句子转换为特征向量，并加入倒排索引中；当对所有文档都进行过上述处理后，由拷贝检测子系统分析倒排索引和句子向量集合，找出互为拷贝的句子对；最后由序列匹配子系统将句子对按照文档整理，匹配文档中互为拷贝的序列，并产生最后的结果。

3.根据权利要求2所述的基于句子级别的文档拷贝检测系统，其特征在于所述拷贝检测子系统使用如下相似度计算方法：假设两个句子经过转换，变为两个由Low-IDF-Sig特征组成的集合：A和B，它们间的相似度定义为：

Figure 2012100009187100001DEST_PATH_IMAGE002

其中，freqA(sj)表示特征sj在带权重集合A中出现的频率，同样，freqB(sj)表示特征sj在带权重集合B中出现的频率。