CN102122280A

CN102122280A - 一种智能提取内容对象的方法及系统

Info

Publication number: CN102122280A
Application number: CN2009102428304A
Authority: CN
Inventors: 余忠华; 曹学军; 闫国龙; 缪萍; 曾建英
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2009-12-17
Filing date: 2009-12-17
Publication date: 2011-07-13
Anticipated expiration: 2029-12-17
Also published as: CN102122280B

Abstract

本发明提供一种智能提取内容对象的方法，该方法包括：根据文档小样形成文档的内容对象结构；为内容对象结构的每一项建立对应的提取规则；按照提取规则将待提取文档形成为按照内容对象结构表达的内容对象列表。相应地，提供一种智能提取内容对象的系统，包括文档输入单元、结构提取单元、对象列表形成单元、用户设置界面和文档输出单元。本发明依据内容对象在文档中的表现形式，设置一些识别内容对象的规则，然后根据这些规则自动提取文档中的内容对象，从而快速准确地提取任意格式的文档中的内容对象。而且，用户可通过简单的操作灵活地设置内容对象结构和提取规则，从而实现内容对象的个性化提取。

Description

一种智能提取内容对象的方法及系统

技术领域

本发明涉及电子文档数据处理领域，尤其涉及一种智能提取文档中内容对象的方法及系统。

背景技术

随着IT应用的深入普及，各行各业都积累了大量的信息资源，这些信息资源都以电子文档数据的形式保存。科学管理和合理开发这些内部和外部信息资源已经成为企业正确决策、增强竞争力的关键。如何有效地从这些信息资源的电子文档数据内容中获取结构化的内容，也是许多计算机应用开发所需要解决的关键问题。而内容结构化过程中必然涉及内容对象的提取。比如，目前各个出版单位都有很多的是习题集、试卷、教辅等书籍，这些资源里面都含有大量的试题，对于出版单位来说希望能够把这些试题对象入库，然后可以随机抽出一些试题来组成新的试卷或者习题集用于出版新的书籍或者试卷，甚至可以发布到网页，让用户在线答题等等。

但是，目前针对内容对象的提取主要是依靠人工识别、手工录入，效率低下，并且容易出错。

发明内容

为了解决现有技术中的上述问题，本发明提供一种智能提取文档中内容对象的方法，以实现文档中内容对象的智能提取。

为了实现以上目的，本发明提供的智能提取内容对象的方法包括以下步骤：(1)根据文档小样形成文档的待提取内容对象的结构；(2)为所述内容对象结构的每一项建立对应的提取规则；(3)按照提取规则将待提取文档形成为按照所述内容对象结构表达的内容对象列表。

优选地，为了以统一的提取方法处理各类文档，步骤(1)包括以下步骤：根据文档小样生成包含该小样的各部分内容及其关键属性的逻辑树，依据该逻辑树中所包含的各部分内容及其关键属性形成待提取内容对象的结构及其对应的提取规则。在这种情况下，所述步骤(3)包括以下步骤：根据文档生成包含文档内容及其关键属性的逻辑树，遍历该逻辑树，按照提取规则将该逻辑树形成为按照所述内容对象结构表达的内容对象列表。

更优选地，由用户自行设置内容对象结构和提取规则。具体地讲，向用户提供文档小样或根据文档小样生成的逻辑树中所包含的各部分内容及其关键属性，用户根据所提供的信息设置内容对象结构及其提取规则。

相应地，本发明提供一种智能提取内容对象的系统，包括：文档输入单元，输入文档小样或文档，并将文档小样发送给结构提取单元，将文档发送给对象列表形成单元；结构提取单元，根据从文档输入单元接收的文档小样形成文档的待提取内容对象的结构，并为该内容对象结构的每一项建立对应的提取规则，并将内容对象结构和提取规则发送给对象列表形成单元；对象列表形成单元，按照从结构提取单元接收的提取规则将从文档输入单元接收的文档形成为按照从结构提取单元接收的内容对象结构表达的内容对象列表，并将所形成的内容对象列表发送给文档输出单元；文档输出单元，输出从对象列表形成单元接收的内容对象列表。

优选地，该系统还可包括用户设置界面。结构提取单元通过用户设置界面向用户提供文档小样中所包含的各部分内容及其关键属性，用户根据所提供的信息设置内容对象结构及其提取规则。

本发明依据内容对象在文档中的表现形式，设置一些识别内容对象的规则，然后根据这些规则自动提取文档中的内容对象，从而快速准确地提取任意格式的文档中的内容对象。而且，用户可通过简单的操作灵活地设置内容对象结构和提取规则，从而实现内容对象的个性化提取。

附图说明

图1是根据本发明的智能提取内容对象的方法的流程图；

图2是文档小样的一个示例；

图3是对图2的文档小样生成的内容对象列表；

图4是根据本发明的智能提取内容对象的系统的框图。

具体实施方式

以下，将结合实施例和附图对本发明进行详细描述。

图1是根据本发明的智能提取内容对象的方法的流程图，参照图1，该方法包括以下步骤：

步骤S1、分析待提取内容对象的特征，形成文档的待提取内容对象的结构，其中，所形成的内容对象结构本身以及结构中每一项的关键字可以任意设定，形成的内容对象可以是单层结构，即，只有一项，也可以包含多项，甚至内容对象可以嵌套组成任意复杂的内容对象结构；

步骤S2、为内容对象结构的每一项建立对应的提取规则，其中，提取规则的层次结构与内容对象结构的层次结构应该是一致的；

步骤S3、遍历文档，按照提取规则将待提取文档形成为按照所述内容对象结构表达的内容对象列表。

通过这种方法，可通过根据小样获得的内容对象结构和提取规则快速、准确、自动地提取文档中的内容对象。

此外，为了能够以统一的提取方法处理各类文档，可将任意格式的文档或文档小样转换为具有一定规范的逻辑树，然后对该逻辑树应用提取规则，形成内容对象列表。

在这种情况下，步骤S1包括以下步骤：根据文档小样生成包含该小样的各部分内容及其关键属性的逻辑树，比如，XML树、对象树等，并依据该逻辑树中所包含的各部分内容及其关键属性形成待提取内容对象的结构及其对应的提取规则；步骤(3)包括以下步骤：根据文档生成包含文档内容及其关键属性的逻辑树，遍历该逻辑树，按照提取规则将该逻辑树形成为按照所述内容对象结构表达的内容对象列表。

优选地，由用户根据需要自行设置内容对象结构和提取规则。具体地，向用户提供文档小样或根据文档小样生成的逻辑树中所包含的各部分内容及其关键属性，用户根据所提供的信息设置内容对象结构及其提取规则。这样，用户通过简单的操作就可灵活地设置不同的提取规则和内容对象结构，从而使得本发明的内容对象提取方法可适用于任意格式的文档。并且，用户还可对所设置的提取规则和内容对象进行修改，包括添加、删除或更新等，从而提高该方法的适用性。

以下，将以图2所示文档小样为例作进一步的说明。

首先，分析图2所示文档小样中待提取内容对象的特征，以形成内容对象的结构。在本实施例中，可建立如下内容对象结构：

<试题>

<单选题>

<选项/>

</单选题>

<答案/>

<分析/>

</试题>

其中，“试题”是待提取内容对象结构的名称，它是一个大内容对象结构，里面包含一个名称为“单选题”的子内容对象结构，还有“答案”子项目和“分析”子项目，而“单选题”子内容对象结构又包含多个“选项”子项目。这是一个典型的嵌套结构，是一个较为复杂的内容对象结构。

此外，如上所述，内容对象结构的定义不是唯一的，用户可以根据自己的需要灵活确定。比如，如果不需要区分选择题里面的选项，那么内容对象的结构可以简化为如下形式：

<试题>

<题干/>

<答案/>

<分析/>

</试题>

这样就是一个简单的没有嵌套结构的内容对象，“试题”对象只是包含“题干”、“答案”和“分析”三个子项目。

接着，为内容对象结构的每一项建立对应的提取规则，提取规则的层次结构与内容对象结构的层次结构是一致的。分析过程如下：

“试题”结构是以形如1.、2.、……为起始标记的内容结构。其提取规则可以定义为：以“数字+.”起始的内容结构。

“单选题”结构是以形如1.、2.、……为起始标记的内容结构。其提取规则可以定义为：以“数字+.”起始的内容结构。

“选项”的规则就是以A.、B.、C.、D.、为起始的一个内容片段。

“答案”的规则就是以“答案”为起始的一段文字内容。

“分析”的规则就是以“解析”为起始的一段文字内容。

其中“试题”结构中必须包含“单选题”结构、“答案”子项目、“分析”子项目，“单选题”结构必须包含多个“选项”子项目。

根据上述的分析，可以建立的提取规则如下表1所示。

表1提取规则表

内容对象	提取规则
		试题(结构)	以“\d\.”起始，并且包含以下所有结构
单选题(结构)	以“\d\.”起始，并且包含多个“选项”子项目
		选项	以“[ABCD]\.”，到下一个“[ABCD]\.”或段尾结束
答案	以“答案”起始
		分析	以“解析”起始

注：“\d\.”是正则表达式的一部分，表示：数字+.

“[ABCD]\.”是正则表达式的一部分，表示：A或B或C或D+.

最后，遍历文档结构，用提取规则进行匹配，将完全匹配的内容形成内容对象列表。具体过程如下：

1、遍历文档，找到下一个段落，使用“试题”规则匹配，如果不能匹配则说明不是“试题”内容对象，继续找到下一个段落，使用“试题”规则匹配。直到找到能匹配“试题”规则的段落，再进行第2步的识别。

2、使用“单选题”规则匹配，“单选题”是一个结构规则，需要一个嵌套的处理过程，继续使用该段落匹配，如果不能匹配则说明不是“单选题”内容对象，转到第1步继续处理。如果能匹配上，再进行第3步的识别。

3、找到下一段，使用“选项”规则匹配，如果不能成功匹配“选项”则转到第1步，如果能匹配多个选项，则进行第4步的识别。

4、找到下一段，使用“答案”规则匹配，如果不能成功匹配则转到第1步，如果能成功匹配，则进行第5步的识别。

5、找到下一段，使用“分析”规则匹配，如果不能成功匹配则转到第1步，如果能成功匹配，则完成“试题”内容对象的匹配。

匹配成功后，把以上各步骤匹配出来的内容组织到“试题”内容结构中，完成一个内容对象的提取。重复上述过程，直到完成整个文档的遍历，然后把提取的各个内容对象记录到图3所示的内容对象列表中。从图3可看出，该内容对象列表提取出了用户所需的对象内容。

对于其它类型的试卷，比如包括多选题和不定选题，可通过修改上述内容对象结构和提取规则来实现智能提取。通常在不同类型的选择题前面会有一行表示以下选择题为哪种类型的提示信息。这时，就可根据有无这样的提示信息来提取不同类型的选择题。也就是说，用户可根据需要通过简单的操作灵活地设置内容对象结构和提取规则，从而可适用于多种格式的文档中的对象内容提取。

相应地，本发明提供一种智能提取内容对象的系统。如图4所示，该系统包括：文档输入单元40，输入文档小样或文档，并将文档小样发送给结构提取单元42，将文档发送给对象列表形成单元44；结构提取单元42，根据从文档输入单元40接收的文档小样形成文档的待提取内容对象的结构，并为该内容对象结构的每一项建立对应的提取规则，并将内容对象结构和提取规则发送给对象列表形成单元44；对象列表形成单元44，按照从结构提取单元接收的提取规则将从文档输入单元接收的文档形成为按照从结构提取单元接收的内容对象结构表达的内容对象列表，并将所形成的内容对象列表发送给文档输出单元46；文档输出单元46，输出从对象列表形成单元接收的内容对象列表。此外，该系统还可包括用户设置界面48。结构提取单元42通过用户设置界面48向用户提供文档小样中所包含的各部分内容及其关键属性，用户根据所提供的信息设置内容对象结构及其提取规则。结构提取单元42、对象列表形成单元44的操作与上述方法中的形成内容对象结构和提取规则以及形成内容对象列表的步骤相同，因此省略其操作。

从以上描述可看出，本发明根据文档中待提取内容对象的特征形成内容对象结构，为内容对象结构的每一项建立对应的提取规则，然后使用设定的提取规则匹配文档，提取能完全匹配的内容并形成内容对象列表，从而实现文档中内容对象的智能提取，无论是效率还是准确率都明显高于人工录入方式。而且，用户还可根据需要设置或修改内容对象结构和提取规则，从而可实现对文档中的内容对象的个性化提取。此外，通过将文档转换为具有一定规范的逻辑树，然后根据该逻辑树建立内容对象结构和提取规则，从而能够以统一的提取方式提取任意格式文档所转换的逻辑树中的内容对象。

以上参考实施例描述了本发明。但是，本领域的技术人员应该理解，本发明不限于所公开的实施例，在不脱离本发明的基本原理的情况下，任何类似的修改、替换或变形都应包括在本发明的保护范围内。

Claims

1.一种智能提取内容对象的方法，包括以下步骤：

(1)根据文档小样形成文档的待提取内容对象的结构；

(2)为所述内容对象结构的每一项建立对应的提取规则；

(3)按照提取规则将待提取文档形成为按照所述内容对象结构表达的内容对象列表。

2.根据权利要求1所述的方法，其特征在于，所述内容对象可以是单层结构，也可以具有嵌套结构。

3.根据权利要求1所述的方法，其特征在于，所述提取规则的层次结构与内容对象结构的层次结构一致。

4.根据权利要求1所述的方法，其特征在于，所述按照提取规则形成内容对象列表的步骤包括以下步骤：

遍历文档，利用提取规则进行匹配，将完全匹配的内容形成按照所述内容对象结构表达的内容对象列表。

5.根据权利要求1所述的方法，其特征在于，所述步骤(1)包括以下步骤：

根据文档小样生成包含该小样的各部分内容及其关键属性的逻辑树，依据该逻辑树中所包含的各部分内容及其关键属性形成待提取内容对象的结构及其对应的提取规则，

在这种情况下，所述步骤(3)包括以下步骤：

根据文档生成包含文档内容及其关键属性的逻辑树，遍历该逻辑树，按照提取规则将该逻辑树形成为按照所述内容对象结构表达的内容对象列表。

6.根据权利要求1或5所述的方法，其特征在于，向用户提供文档小样或根据文档小样生成的逻辑树中所包含的各部分内容及其关键属性，用户根据所提供的信息设置内容对象结构及其提取规则。

7.一种智能提取内容对象的系统，包括：

文档输入单元，输入文档小样或文档，并将文档小样发送给结构提取单元，将文档发送给对象列表形成单元；

结构提取单元，根据从文档输入单元接收的文档小样形成文档的待提取内容对象的结构，并为该内容对象结构的每一项建立对应的提取规则，并将内容对象结构和提取规则发送给对象列表形成单元；

对象列表形成单元，按照从结构提取单元接收的提取规则将从文档输入单元接收的文档形成为按照从结构提取单元接收的内容对象结构表达的内容对象列表，并将所形成的内容对象列表发送给文档输出单元；

文档输出单元，输出从对象列表形成单元接收的内容对象列表。

8.根据权利要求7所述的系统，其特征在于，所述结构提取单元执行以下操作：

在这种情况下，所述对象列表形成单元执行以下操作：

9.根据权利要求7或8所述的系统，其特征在于，还包括用户设置界面，结构提取单元通过用户设置界面向用户提供文档小样或根据文档小样生成的逻辑树中所包含的各部分内容及其关键属性，用户根据所提供的信息设置内容对象结构及其提取规则。