CN102122280A - 一种智能提取内容对象的方法及系统 - Google Patents
一种智能提取内容对象的方法及系统 Download PDFInfo
- Publication number
- CN102122280A CN102122280A CN2009102428304A CN200910242830A CN102122280A CN 102122280 A CN102122280 A CN 102122280A CN 2009102428304 A CN2009102428304 A CN 2009102428304A CN 200910242830 A CN200910242830 A CN 200910242830A CN 102122280 A CN102122280 A CN 102122280A
- Authority
- CN
- China
- Prior art keywords
- document
- content object
- content
- sample
- extracting rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 70
- 239000002356 single layer Substances 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims 2
- 230000013011 mating Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 16
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000004883 computer application Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种智能提取内容对象的方法,该方法包括:根据文档小样形成文档的内容对象结构;为内容对象结构的每一项建立对应的提取规则;按照提取规则将待提取文档形成为按照内容对象结构表达的内容对象列表。相应地,提供一种智能提取内容对象的系统,包括文档输入单元、结构提取单元、对象列表形成单元、用户设置界面和文档输出单元。本发明依据内容对象在文档中的表现形式,设置一些识别内容对象的规则,然后根据这些规则自动提取文档中的内容对象,从而快速准确地提取任意格式的文档中的内容对象。而且,用户可通过简单的操作灵活地设置内容对象结构和提取规则,从而实现内容对象的个性化提取。
Description
技术领域
本发明涉及电子文档数据处理领域,尤其涉及一种智能提取文档中内容对象的方法及系统。
背景技术
随着IT应用的深入普及,各行各业都积累了大量的信息资源,这些信息资源都以电子文档数据的形式保存。科学管理和合理开发这些内部和外部信息资源已经成为企业正确决策、增强竞争力的关键。如何有效地从这些信息资源的电子文档数据内容中获取结构化的内容,也是许多计算机应用开发所需要解决的关键问题。而内容结构化过程中必然涉及内容对象的提取。比如,目前各个出版单位都有很多的是习题集、试卷、教辅等书籍,这些资源里面都含有大量的试题,对于出版单位来说希望能够把这些试题对象入库,然后可以随机抽出一些试题来组成新的试卷或者习题集用于出版新的书籍或者试卷,甚至可以发布到网页,让用户在线答题等等。
但是,目前针对内容对象的提取主要是依靠人工识别、手工录入,效率低下,并且容易出错。
发明内容
为了解决现有技术中的上述问题,本发明提供一种智能提取文档中内容对象的方法,以实现文档中内容对象的智能提取。
为了实现以上目的,本发明提供的智能提取内容对象的方法包括以下步骤:(1)根据文档小样形成文档的待提取内容对象的结构;(2)为所述内容对象结构的每一项建立对应的提取规则;(3)按照提取规则将待提取文档形成为按照所述内容对象结构表达的内容对象列表。
优选地,为了以统一的提取方法处理各类文档,步骤(1)包括以下步骤:根据文档小样生成包含该小样的各部分内容及其关键属性的逻辑树,依据该逻辑树中所包含的各部分内容及其关键属性形成待提取内容对象的结构及其对应的提取规则。在这种情况下,所述步骤(3)包括以下步骤:根据文档生成包含文档内容及其关键属性的逻辑树,遍历该逻辑树,按照提取规则将该逻辑树形成为按照所述内容对象结构表达的内容对象列表。
更优选地,由用户自行设置内容对象结构和提取规则。具体地讲,向用户提供文档小样或根据文档小样生成的逻辑树中所包含的各部分内容及其关键属性,用户根据所提供的信息设置内容对象结构及其提取规则。
相应地,本发明提供一种智能提取内容对象的系统,包括:文档输入单元,输入文档小样或文档,并将文档小样发送给结构提取单元,将文档发送给对象列表形成单元;结构提取单元,根据从文档输入单元接收的文档小样形成文档的待提取内容对象的结构,并为该内容对象结构的每一项建立对应的提取规则,并将内容对象结构和提取规则发送给对象列表形成单元;对象列表形成单元,按照从结构提取单元接收的提取规则将从文档输入单元接收的文档形成为按照从结构提取单元接收的内容对象结构表达的内容对象列表,并将所形成的内容对象列表发送给文档输出单元;文档输出单元,输出从对象列表形成单元接收的内容对象列表。
优选地,该系统还可包括用户设置界面。结构提取单元通过用户设置界面向用户提供文档小样中所包含的各部分内容及其关键属性,用户根据所提供的信息设置内容对象结构及其提取规则。
本发明依据内容对象在文档中的表现形式,设置一些识别内容对象的规则,然后根据这些规则自动提取文档中的内容对象,从而快速准确地提取任意格式的文档中的内容对象。而且,用户可通过简单的操作灵活地设置内容对象结构和提取规则,从而实现内容对象的个性化提取。
附图说明
图1是根据本发明的智能提取内容对象的方法的流程图;
图2是文档小样的一个示例;
图3是对图2的文档小样生成的内容对象列表;
图4是根据本发明的智能提取内容对象的系统的框图。
具体实施方式
以下,将结合实施例和附图对本发明进行详细描述。
图1是根据本发明的智能提取内容对象的方法的流程图,参照图1,该方法包括以下步骤:
步骤S1、分析待提取内容对象的特征,形成文档的待提取内容对象的结构,其中,所形成的内容对象结构本身以及结构中每一项的关键字可以任意设定,形成的内容对象可以是单层结构,即,只有一项,也可以包含多项,甚至内容对象可以嵌套组成任意复杂的内容对象结构;
步骤S2、为内容对象结构的每一项建立对应的提取规则,其中,提取规则的层次结构与内容对象结构的层次结构应该是一致的;
步骤S3、遍历文档,按照提取规则将待提取文档形成为按照所述内容对象结构表达的内容对象列表。
通过这种方法,可通过根据小样获得的内容对象结构和提取规则快速、准确、自动地提取文档中的内容对象。
此外,为了能够以统一的提取方法处理各类文档,可将任意格式的文档或文档小样转换为具有一定规范的逻辑树,然后对该逻辑树应用提取规则,形成内容对象列表。
在这种情况下,步骤S1包括以下步骤:根据文档小样生成包含该小样的各部分内容及其关键属性的逻辑树,比如,XML树、对象树等,并依据该逻辑树中所包含的各部分内容及其关键属性形成待提取内容对象的结构及其对应的提取规则;步骤(3)包括以下步骤:根据文档生成包含文档内容及其关键属性的逻辑树,遍历该逻辑树,按照提取规则将该逻辑树形成为按照所述内容对象结构表达的内容对象列表。
优选地,由用户根据需要自行设置内容对象结构和提取规则。具体地,向用户提供文档小样或根据文档小样生成的逻辑树中所包含的各部分内容及其关键属性,用户根据所提供的信息设置内容对象结构及其提取规则。这样,用户通过简单的操作就可灵活地设置不同的提取规则和内容对象结构,从而使得本发明的内容对象提取方法可适用于任意格式的文档。并且,用户还可对所设置的提取规则和内容对象进行修改,包括添加、删除或更新等,从而提高该方法的适用性。
以下,将以图2所示文档小样为例作进一步的说明。
首先,分析图2所示文档小样中待提取内容对象的特征,以形成内容对象的结构。在本实施例中,可建立如下内容对象结构:
<试题>
<单选题>
<选项/>
<选项/>
</单选题>
<答案/>
<分析/>
</试题>
其中,“试题”是待提取内容对象结构的名称,它是一个大内容对象结构,里面包含一个名称为“单选题”的子内容对象结构,还有“答案”子项目和“分析”子项目,而“单选题”子内容对象结构又包含多个“选项”子项目。这是一个典型的嵌套结构,是一个较为复杂的内容对象结构。
此外,如上所述,内容对象结构的定义不是唯一的,用户可以根据自己的需要灵活确定。比如,如果不需要区分选择题里面的选项,那么内容对象的结构可以简化为如下形式:
<试题>
<题干/>
<答案/>
<分析/>
</试题>
这样就是一个简单的没有嵌套结构的内容对象,“试题”对象只是包含“题干”、“答案”和“分析”三个子项目。
接着,为内容对象结构的每一项建立对应的提取规则,提取规则的层次结构与内容对象结构的层次结构是一致的。分析过程如下:
“试题”结构是以形如1.、2.、……为起始标记的内容结构。其提取规则可以定义为:以“数字+.”起始的内容结构。
“单选题”结构是以形如1.、2.、……为起始标记的内容结构。其提取规则可以定义为:以“数字+.”起始的内容结构。
“选项”的规则就是以A.、B.、C.、D.、为起始的一个内容片段。
“答案”的规则就是以“答案”为起始的一段文字内容。
“分析”的规则就是以“解析”为起始的一段文字内容。
其中“试题”结构中必须包含“单选题”结构、“答案”子项目、“分析”子项目,“单选题”结构必须包含多个“选项”子项目。
根据上述的分析,可以建立的提取规则如下表1所示。
表1提取规则表
内容对象 | 提取规则 |
试题(结构) | 以“\d\.”起始,并且包含以下所有结构 |
单选题(结构) | 以“\d\.”起始,并且包含多个“选项”子项目 |
选项 | 以“[ABCD]\.”,到下一个“[ABCD]\.”或段尾结束 |
答案 | 以“答案”起始 |
分析 | 以“解析”起始 |
注:“\d\.”是正则表达式的一部分,表示:数字+.
“[ABCD]\.”是正则表达式的一部分,表示:A或B或C或D+.
最后,遍历文档结构,用提取规则进行匹配,将完全匹配的内容形成内容对象列表。具体过程如下:
1、遍历文档,找到下一个段落,使用“试题”规则匹配,如果不能匹配则说明不是“试题”内容对象,继续找到下一个段落,使用“试题”规则匹配。直到找到能匹配“试题”规则的段落,再进行第2步的识别。
2、使用“单选题”规则匹配,“单选题”是一个结构规则,需要一个嵌套的处理过程,继续使用该段落匹配,如果不能匹配则说明不是“单选题”内容对象,转到第1步继续处理。如果能匹配上,再进行第3步的识别。
3、找到下一段,使用“选项”规则匹配,如果不能成功匹配“选项”则转到第1步,如果能匹配多个选项,则进行第4步的识别。
4、找到下一段,使用“答案”规则匹配,如果不能成功匹配则转到第1步,如果能成功匹配,则进行第5步的识别。
5、找到下一段,使用“分析”规则匹配,如果不能成功匹配则转到第1步,如果能成功匹配,则完成“试题”内容对象的匹配。
匹配成功后,把以上各步骤匹配出来的内容组织到“试题”内容结构中,完成一个内容对象的提取。重复上述过程,直到完成整个文档的遍历,然后把提取的各个内容对象记录到图3所示的内容对象列表中。从图3可看出,该内容对象列表提取出了用户所需的对象内容。
对于其它类型的试卷,比如包括多选题和不定选题,可通过修改上述内容对象结构和提取规则来实现智能提取。通常在不同类型的选择题前面会有一行表示以下选择题为哪种类型的提示信息。这时,就可根据有无这样的提示信息来提取不同类型的选择题。也就是说,用户可根据需要通过简单的操作灵活地设置内容对象结构和提取规则,从而可适用于多种格式的文档中的对象内容提取。
相应地,本发明提供一种智能提取内容对象的系统。如图4所示,该系统包括:文档输入单元40,输入文档小样或文档,并将文档小样发送给结构提取单元42,将文档发送给对象列表形成单元44;结构提取单元42,根据从文档输入单元40接收的文档小样形成文档的待提取内容对象的结构,并为该内容对象结构的每一项建立对应的提取规则,并将内容对象结构和提取规则发送给对象列表形成单元44;对象列表形成单元44,按照从结构提取单元接收的提取规则将从文档输入单元接收的文档形成为按照从结构提取单元接收的内容对象结构表达的内容对象列表,并将所形成的内容对象列表发送给文档输出单元46;文档输出单元46,输出从对象列表形成单元接收的内容对象列表。此外,该系统还可包括用户设置界面48。结构提取单元42通过用户设置界面48向用户提供文档小样中所包含的各部分内容及其关键属性,用户根据所提供的信息设置内容对象结构及其提取规则。结构提取单元42、对象列表形成单元44的操作与上述方法中的形成内容对象结构和提取规则以及形成内容对象列表的步骤相同,因此省略其操作。
从以上描述可看出,本发明根据文档中待提取内容对象的特征形成内容对象结构,为内容对象结构的每一项建立对应的提取规则,然后使用设定的提取规则匹配文档,提取能完全匹配的内容并形成内容对象列表,从而实现文档中内容对象的智能提取,无论是效率还是准确率都明显高于人工录入方式。而且,用户还可根据需要设置或修改内容对象结构和提取规则,从而可实现对文档中的内容对象的个性化提取。此外,通过将文档转换为具有一定规范的逻辑树,然后根据该逻辑树建立内容对象结构和提取规则,从而能够以统一的提取方式提取任意格式文档所转换的逻辑树中的内容对象。
以上参考实施例描述了本发明。但是,本领域的技术人员应该理解,本发明不限于所公开的实施例,在不脱离本发明的基本原理的情况下,任何类似的修改、替换或变形都应包括在本发明的保护范围内。
Claims (9)
1.一种智能提取内容对象的方法,包括以下步骤:
(1)根据文档小样形成文档的待提取内容对象的结构;
(2)为所述内容对象结构的每一项建立对应的提取规则;
(3)按照提取规则将待提取文档形成为按照所述内容对象结构表达的内容对象列表。
2.根据权利要求1所述的方法,其特征在于,所述内容对象可以是单层结构,也可以具有嵌套结构。
3.根据权利要求1所述的方法,其特征在于,所述提取规则的层次结构与内容对象结构的层次结构一致。
4.根据权利要求1所述的方法,其特征在于,所述按照提取规则形成内容对象列表的步骤包括以下步骤:
遍历文档,利用提取规则进行匹配,将完全匹配的内容形成按照所述内容对象结构表达的内容对象列表。
5.根据权利要求1所述的方法,其特征在于,所述步骤(1)包括以下步骤:
根据文档小样生成包含该小样的各部分内容及其关键属性的逻辑树,依据该逻辑树中所包含的各部分内容及其关键属性形成待提取内容对象的结构及其对应的提取规则,
在这种情况下,所述步骤(3)包括以下步骤:
根据文档生成包含文档内容及其关键属性的逻辑树,遍历该逻辑树,按照提取规则将该逻辑树形成为按照所述内容对象结构表达的内容对象列表。
6.根据权利要求1或5所述的方法,其特征在于,向用户提供文档小样或根据文档小样生成的逻辑树中所包含的各部分内容及其关键属性,用户根据所提供的信息设置内容对象结构及其提取规则。
7.一种智能提取内容对象的系统,包括:
文档输入单元,输入文档小样或文档,并将文档小样发送给结构提取单元,将文档发送给对象列表形成单元;
结构提取单元,根据从文档输入单元接收的文档小样形成文档的待提取内容对象的结构,并为该内容对象结构的每一项建立对应的提取规则,并将内容对象结构和提取规则发送给对象列表形成单元;
对象列表形成单元,按照从结构提取单元接收的提取规则将从文档输入单元接收的文档形成为按照从结构提取单元接收的内容对象结构表达的内容对象列表,并将所形成的内容对象列表发送给文档输出单元;
文档输出单元,输出从对象列表形成单元接收的内容对象列表。
8.根据权利要求7所述的系统,其特征在于,所述结构提取单元执行以下操作:
根据文档小样生成包含该小样的各部分内容及其关键属性的逻辑树,依据该逻辑树中所包含的各部分内容及其关键属性形成待提取内容对象的结构及其对应的提取规则,
在这种情况下,所述对象列表形成单元执行以下操作:
根据文档生成包含文档内容及其关键属性的逻辑树,遍历该逻辑树,按照提取规则将该逻辑树形成为按照所述内容对象结构表达的内容对象列表。
9.根据权利要求7或8所述的系统,其特征在于,还包括用户设置界面,结构提取单元通过用户设置界面向用户提供文档小样或根据文档小样生成的逻辑树中所包含的各部分内容及其关键属性,用户根据所提供的信息设置内容对象结构及其提取规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200910242830 CN102122280B (zh) | 2009-12-17 | 2009-12-17 | 一种智能提取内容对象的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200910242830 CN102122280B (zh) | 2009-12-17 | 2009-12-17 | 一种智能提取内容对象的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102122280A true CN102122280A (zh) | 2011-07-13 |
CN102122280B CN102122280B (zh) | 2013-06-05 |
Family
ID=44250841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200910242830 Expired - Fee Related CN102122280B (zh) | 2009-12-17 | 2009-12-17 | 一种智能提取内容对象的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102122280B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982027A (zh) * | 2011-09-02 | 2013-03-20 | 北大方正集团有限公司 | 提取文档中内容的方法和装置 |
CN103440294A (zh) * | 2013-08-16 | 2013-12-11 | 哈尔滨工业大学(威海) | 一种基于期望列表的网页内容抽取方法 |
CN104731822A (zh) * | 2013-12-24 | 2015-06-24 | 明博教育科技有限公司 | 一种网络电子资源的存储及获取方法和系统 |
CN105677620A (zh) * | 2014-11-21 | 2016-06-15 | 高德软件有限公司 | 项目管理文档生成方法及装置 |
WO2016119508A1 (zh) * | 2015-01-30 | 2016-08-04 | 深圳市华傲数据技术有限公司 | 基于Spark系统的大规模对象识别方法 |
CN106484663A (zh) * | 2016-10-12 | 2017-03-08 | 天闻数媒科技(湖南)有限公司 | 一种文档内容的提取方法和装置 |
CN106815213A (zh) * | 2016-12-30 | 2017-06-09 | 全民互联科技(天津)有限公司 | 一种合同履行条款自动提取方法及系统 |
CN106845467A (zh) * | 2016-12-14 | 2017-06-13 | 北京航天测控技术有限公司 | 基于光学字符识别技术的航空维修工卡工作内容识别方法 |
CN110956019A (zh) * | 2019-11-27 | 2020-04-03 | 北大方正集团有限公司 | 列表处理系统、方法、装置、计算机可读存储介质 |
CN112001183A (zh) * | 2020-07-26 | 2020-11-27 | 湖南省侍禾教育科技有限公司 | 一种基于段落语义的中小学试题分割提取方法及系统 |
US11070377B1 (en) * | 2019-02-14 | 2021-07-20 | Bank Of America Corporation | Blended virtual machine approach for flexible production delivery of intelligent business workflow rules |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1488110A (zh) * | 2001-11-19 | 2004-04-07 | 松下电器产业株式会社 | 数据处理器和数据处理方法 |
CN1504925A (zh) * | 2002-11-27 | 2004-06-16 | 用于导入和导出分层结构化数据的方法和计算机可读介质 | |
CN1581172A (zh) * | 2003-08-08 | 2005-02-16 | 富士通株式会社 | 多媒体对象检索设备和方法 |
CN1687926A (zh) * | 2005-04-18 | 2005-10-26 | 福州大学 | 一种基于xml的pdf文档信息抽取系统的方法 |
CN101271463A (zh) * | 2007-06-22 | 2008-09-24 | 北大方正集团有限公司 | 版式文件逻辑结构信息的表示方法和系统 |
CN101430714A (zh) * | 2008-12-08 | 2009-05-13 | 北大方正集团有限公司 | 一种基于样式的内容结构化加工方法及系统 |
-
2009
- 2009-12-17 CN CN 200910242830 patent/CN102122280B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1488110A (zh) * | 2001-11-19 | 2004-04-07 | 松下电器产业株式会社 | 数据处理器和数据处理方法 |
CN1504925A (zh) * | 2002-11-27 | 2004-06-16 | 用于导入和导出分层结构化数据的方法和计算机可读介质 | |
CN1581172A (zh) * | 2003-08-08 | 2005-02-16 | 富士通株式会社 | 多媒体对象检索设备和方法 |
CN1687926A (zh) * | 2005-04-18 | 2005-10-26 | 福州大学 | 一种基于xml的pdf文档信息抽取系统的方法 |
CN101271463A (zh) * | 2007-06-22 | 2008-09-24 | 北大方正集团有限公司 | 版式文件逻辑结构信息的表示方法和系统 |
CN101430714A (zh) * | 2008-12-08 | 2009-05-13 | 北大方正集团有限公司 | 一种基于样式的内容结构化加工方法及系统 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982027A (zh) * | 2011-09-02 | 2013-03-20 | 北大方正集团有限公司 | 提取文档中内容的方法和装置 |
CN103440294A (zh) * | 2013-08-16 | 2013-12-11 | 哈尔滨工业大学(威海) | 一种基于期望列表的网页内容抽取方法 |
CN104731822A (zh) * | 2013-12-24 | 2015-06-24 | 明博教育科技有限公司 | 一种网络电子资源的存储及获取方法和系统 |
CN105677620B (zh) * | 2014-11-21 | 2018-06-08 | 高德软件有限公司 | 项目管理文档生成方法及装置 |
CN105677620A (zh) * | 2014-11-21 | 2016-06-15 | 高德软件有限公司 | 项目管理文档生成方法及装置 |
WO2016119508A1 (zh) * | 2015-01-30 | 2016-08-04 | 深圳市华傲数据技术有限公司 | 基于Spark系统的大规模对象识别方法 |
CN106484663B (zh) * | 2016-10-12 | 2019-05-03 | 天闻数媒科技(湖南)有限公司 | 一种文档内容的提取方法和装置 |
CN106484663A (zh) * | 2016-10-12 | 2017-03-08 | 天闻数媒科技(湖南)有限公司 | 一种文档内容的提取方法和装置 |
CN106845467A (zh) * | 2016-12-14 | 2017-06-13 | 北京航天测控技术有限公司 | 基于光学字符识别技术的航空维修工卡工作内容识别方法 |
CN106815213A (zh) * | 2016-12-30 | 2017-06-09 | 全民互联科技(天津)有限公司 | 一种合同履行条款自动提取方法及系统 |
US11070377B1 (en) * | 2019-02-14 | 2021-07-20 | Bank Of America Corporation | Blended virtual machine approach for flexible production delivery of intelligent business workflow rules |
CN110956019A (zh) * | 2019-11-27 | 2020-04-03 | 北大方正集团有限公司 | 列表处理系统、方法、装置、计算机可读存储介质 |
CN110956019B (zh) * | 2019-11-27 | 2021-10-26 | 北大方正集团有限公司 | 列表处理系统、方法、装置、计算机可读存储介质 |
CN112001183A (zh) * | 2020-07-26 | 2020-11-27 | 湖南省侍禾教育科技有限公司 | 一种基于段落语义的中小学试题分割提取方法及系统 |
CN112001183B (zh) * | 2020-07-26 | 2021-11-19 | 湖南省侍禾教育科技有限公司 | 一种基于段落语义的中小学试题分割提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102122280B (zh) | 2013-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102122280A (zh) | 一种智能提取内容对象的方法及系统 | |
US11620301B2 (en) | Extended computerized query language syntax for analyzing multiple tabular data arrangements in data-driven collaborative projects | |
US11042556B2 (en) | Localized link formation to perform implicitly federated queries using extended computerized query language syntax | |
US11042560B2 (en) | Extended computerized query language syntax for analyzing multiple tabular data arrangements in data-driven collaborative projects | |
CN106575166B (zh) | 手写输入字符的处理、数据拆分和合并及编解码处理方法 | |
Szekely et al. | Connecting the smithsonian american art museum to the linked data cloud | |
CN103631882B (zh) | 基于图挖掘技术的语义化业务生成系统和方法 | |
CN106446045A (zh) | 基于对话交互的用户画像的构建方法及系统 | |
CN104063314B (zh) | 一种测试数据自动生成装置及方法 | |
CN108196880A (zh) | 软件项目知识图谱自动构造方法与系统 | |
CN103793372A (zh) | 从电子文档中的表格结构提取语义关系 | |
US9746932B2 (en) | Gesture inferred vocabulary bindings | |
CN102103605A (zh) | 一种智能提取文档结构的方法及系统 | |
US10924551B2 (en) | IRC-Infoid data standardization for use in a plurality of mobile applications | |
CN101430714A (zh) | 一种基于样式的内容结构化加工方法及系统 | |
CN103778200A (zh) | 一种报文信息源抽取方法及其系统 | |
CN108279885A (zh) | 一种对多个模型代码进行软件集成的方法及装置 | |
EP2225676A2 (en) | Method and server for constructing knowledge base | |
CN110489628A (zh) | 数据处理方法、装置及电子设备 | |
CN105573972B (zh) | 报表校验公式的生成方法及装置 | |
CN118093632B (zh) | 基于大语言模型和图结构的图数据库查询方法和装置 | |
CN112582073B (zh) | 医疗信息获取方法、装置、电子设备和介质 | |
CN103810243A (zh) | 创新热点预警识别系统及方法 | |
CN110716913A (zh) | 一种Kafka与Elasticsearch数据库数据的互相迁移方法 | |
Zhang et al. | EVis: a system for extracting and visualizing ontologies from databases with web interfaces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130605 Termination date: 20191217 |