CN110399529A - 一种基于深度学习技术的数据实体抽取方法 - Google Patents
一种基于深度学习技术的数据实体抽取方法 Download PDFInfo
- Publication number
- CN110399529A CN110399529A CN201910665701.XA CN201910665701A CN110399529A CN 110399529 A CN110399529 A CN 110399529A CN 201910665701 A CN201910665701 A CN 201910665701A CN 110399529 A CN110399529 A CN 110399529A
- Authority
- CN
- China
- Prior art keywords
- data
- extraction
- method based
- learning technology
- querying condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/832—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/835—Query processing
- G06F16/8373—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于深度学习技术的数据实体抽取方法,包括以下步骤:生成数据库;编制查询条件,并将查询条件配置到XML文件中;自动解析XML文件并读取查询条件;根据查询条件对数据库中的数据进行筛选并获取符合条件的数据;生成此次抽取任务的数据源;编制抽取命令;自动解析抽取命令,并从数据源中抽取数据;对抽取的数据进行处理并生成消息通知;接收消息通知并将抽取数据进行处理;对处理后的抽取数据进行可视化展示。本发明优化了当前的数据抽取方案,规则可灵活配置或扩展,能在大数据抽取过程中减少数据库服务器的访问压力,降低了程序编码的复杂性及维护成本,抽取效率高,增强了抽取数据可视化效果,人们可直观清楚的了解抽取结果。
Description
技术领域
本发明涉及数据抽取技术领域,尤其涉及一种基于深度学习技术的数据实体抽取方法。
背景技术
对大数据进行智能化管理和有效分析成为一个迫切需求,对大数据进行定量建模以及关联分析,并研究有效的分析挖掘方法,是有效分析大数据的关键,也是提高科学化水平的基础;
但是,数据的规模较大,现有的数据实体抽取方法难以快速的从其中抽取所需数据,且在抽取过程中数据服务器的防蚊压力较大,程序编码较为复杂,维护成本高,并且可视化效果不佳,人们难以直观清楚的了解抽取结果。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于深度学习技术的数据实体抽取方法,优化了当前的数据抽取方案,能在大数据抽取过程中减少数据库服务器的访问压力,降低了程序编码的复杂性及维护成本,抽取效率高,增强了抽取数据可视化效果,人们可直观清楚的了解抽取结果,规则可灵活配置或扩展以适应不同业务系统、不同关系性数据的数据提取。
(二)技术方案
为解决上述问题,本发明提出了一种基于深度学习技术的数据实体抽取方法,包括以下步骤:
S1、获取数据,并生成数据库;
S2、编制查询条件,并将查询条件配置到XML文件中;
S3、自动解析XML文件,并读取查询条件;
S4、根据查询条件对数据库中的数据进行筛选,并获取符合条件的数据;
若数据库中存在符合条件的数据,则进行下一步;若数据库中不存在符合条件的数据,则结束本次抽取操作;
S5、生成此次抽取任务的数据源;
S6、编制抽取命令;
S7、自动解析抽取命令,并从数据源中抽取数据;
S8、对抽取的数据进行处理,并生成消息通知;
S9、接收消息通知,并将抽取数据进行处理;
S10、对处理后的抽取数据进行可视化展示;
S11、结束本次抽取任务。
优选的,在S1中,数据的获取方式包含网上下载、在线填报、文件上传或批量导入。
优选的,在S4中,数据库中不存在符合条件的数据时,还可以对查询条件进行修改并重新编制,继续进行筛选操作。
优选的,在S6中,抽取命令为SQL命令。
优选的,抽取方法为增量抽取方式。
优选的,在S9中,包括以下步骤:
将接收到的消息通知转化为消息处理队列;
按照消息处理队列的顺序对消息逐一进行处理;
对抽取数据进行整理排序,并生成Word文件或Excel文件。
优选的,在S9中,还包括对消息处理队列实行持久化,在数据处理异常时用于对消息处理队列进行恢复。
优选的,在S10中,可视化展示方式为将抽取数据以PPT的方式进行展示。
优选的,还能够将展示的数据内容同步转化为声音。
本发明的上述技术方案具有如下有益的技术效果:
获取数据并生成数据库,编制查询条件并将查询条件配置到XML文件中,自动解析XML文件并读取查询条件,根据查询条件对数据库中的数据进行筛选,并获取符合条件的数据,生成此次抽取任务的数据源,编制本次抽取任务的SQL 命令,自动解析抽取命令并从数据源中抽取数据,对抽取的数据进行处理并生成消息通知,接收消息通知并将抽取数据进行处理,对处理后的抽取数据进行可视化展示,操作过程较为简便,抽取方法简单有效;
本发明能够自动解析查询条件和SQL命令,优化了当前的数据抽取方案,能在大数据抽取过程中减少数据库服务器的访问压力,而且实现了在大数据处理场景中数据逻辑处理的配置化,降低程序编码的复杂性及维护成本,抽取效率高;增强了抽取数据可视化效果,人们可直观清楚的了解抽取结果;规则可灵活配置或扩展以适应不同业务系统、不同关系性数据的数据提取。
附图说明
图1为本发明提出的一种基于深度学习技术的数据实体抽取方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种基于深度学习技术的数据实体抽取方法,包括以下步骤:
S1、获取数据,并生成数据库;
S2、编制查询条件,并将查询条件配置到XML文件中;
S3、自动解析XML文件,并读取查询条件;
S4、根据查询条件对数据库中的数据进行筛选,并获取符合条件的数据;
若数据库中存在符合条件的数据,则进行下一步;若数据库中不存在符合条件的数据,则结束本次抽取操作;
S5、生成此次抽取任务的数据源;
S6、编制抽取命令;
S7、自动解析抽取命令,并从数据源中抽取数据;
S8、对抽取的数据进行处理,并生成消息通知;
S9、接收消息通知,并将抽取数据进行处理;
S10、对处理后的抽取数据进行可视化展示;
S11、结束本次抽取任务。
在一个可选的实施例中,在S1中,数据的获取方式包含网上下载、在线填报、文件上传或批量导入。
在一个可选的实施例中,在S4中,数据库中不存在符合条件的数据时,还可以对查询条件进行修改并重新编制,继续进行筛选操作。
在一个可选的实施例中,在S6中,抽取命令为SQL命令。
在一个可选的实施例中,抽取方法为增量抽取方式。
在一个可选的实施例中,在S9中,包括以下步骤:将接收到的消息通知转化为消息处理队列;按照消息处理队列的顺序对消息逐一进行处理;对抽取数据进行整理排序,并生成Word文件或Excel文件。
在一个可选的实施例中,在S9中,还包括对消息处理队列实行持久化,在数据处理异常时用于对消息处理队列进行恢复,避免数据处理异常时无法继续进行相关操作。
在一个可选的实施例中,在S10中,可视化展示方式为将抽取数据以PPT 的方式进行展示,还能够将展示的数据内容同步转化为声音,可视化效果较好,有利于人们清楚直观的了解抽取结果。
本发明中,首先获取数据并生成数据库;然后编制查询条件并将查询条件配置到XML文件中;接着自动解析XML文件并读取查询条件;然后根据查询条件对数据库中的数据进行筛选,并获取符合条件的数据;若数据库中不存在符合条件的数据,则结束本次抽取操作或更改查询条件并继续进行筛选操作,若数据库中存在符合条件的数据,则根据符合条件的数据来生成此次抽取任务的数据源;接下去开始编制本次抽取任务的SQL命令;然后自动解析抽取命令,并从数据源中抽取数据;紧接着对抽取的数据进行处理,并生成消息通知;然后接收消息通知,并将抽取数据进行处理,包括将接收到的消息通知转化为消息处理队列,按照消息处理队列的顺序对消息逐一进行处理,再对抽取数据进行整理排序,并生成Word文件或Excel文件;最后对处理后的抽取数据进行可视化展示,包括以PPT的方式展示抽取数据,并将展示的数据内容同步转化为声音,可视化效果较好,有利于人们清楚直观的了解抽取结果;
本发明能够自动解析查询条件和SQL命令,优化了当前的数据抽取方案,能在大数据抽取过程中减少数据库服务器的访问压力,而且实现了在大数据处理场景中数据逻辑处理的配置化,降低程序编码的复杂性及维护成本,抽取效率高;增强了抽取数据可视化效果,人们可直观清楚的了解抽取结果;规则可灵活配置或扩展以适应不同业务系统、不同关系性数据的数据提取。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (9)
1.一种基于深度学习技术的数据实体抽取方法,其特征在于,包括以下步骤:
S1、获取数据,并生成数据库;
S2、编制查询条件,并将查询条件配置到XML文件中;
S3、自动解析XML文件,并读取查询条件;
S4、根据查询条件对数据库中的数据进行筛选,并获取符合条件的数据;
若数据库中存在符合条件的数据,则进行下一步;若数据库中不存在符合条件的数据,则结束本次抽取操作;
S5、生成此次抽取任务的数据源;
S6、编制抽取命令;
S7、自动解析抽取命令,并从数据源中抽取数据;
S8、对抽取的数据进行处理,并生成消息通知;
S9、接收消息通知,并将抽取数据进行处理;
S10、对处理后的抽取数据进行可视化展示;
S11、结束本次抽取任务。
2.根据权利要求1所述的一种基于深度学习技术的数据实体抽取方法,其特征在于,在S1中,数据的获取方式包含网上下载、在线填报、文件上传或批量导入。
3.根据权利要求1所述的一种基于深度学习技术的数据实体抽取方法,其特征在于,在S4中,数据库中不存在符合条件的数据时,还可以对查询条件进行修改并重新编制,继续进行筛选操作。
4.根据权利要求1所述的一种基于深度学习技术的数据实体抽取方法,其特征在于,在S6中,抽取命令为SQL命令。
5.根据权利要求1所述的一种基于深度学习技术的数据实体抽取方法,其特征在于,抽取方法为增量抽取方式。
6.根据权利要求1所述的一种基于深度学习技术的数据实体抽取方法,其特征在于,在S9中,包括以下步骤:
将接收到的消息通知转化为消息处理队列;
按照消息处理队列的顺序对消息逐一进行处理;
对抽取数据进行整理排序,并生成Word文件或Excel文件。
7.根据权利要求1所述的一种基于深度学习技术的数据实体抽取方法,其特征在于,在S9中,还包括对消息处理队列实行持久化,在数据处理异常时用于对消息处理队列进行恢复。
8.根据权利要求1所述的一种基于深度学习技术的数据实体抽取方法,其特征在于,在S10中,可视化展示方式为将抽取数据以PPT的方式进行展示。
9.根据权利要求8所述的一种基于深度学习技术的数据实体抽取方法,其特征在于,还能够将展示的数据内容同步转化为声音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910665701.XA CN110399529A (zh) | 2019-07-23 | 2019-07-23 | 一种基于深度学习技术的数据实体抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910665701.XA CN110399529A (zh) | 2019-07-23 | 2019-07-23 | 一种基于深度学习技术的数据实体抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110399529A true CN110399529A (zh) | 2019-11-01 |
Family
ID=68325723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910665701.XA Pending CN110399529A (zh) | 2019-07-23 | 2019-07-23 | 一种基于深度学习技术的数据实体抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110399529A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040168064A1 (en) * | 2003-02-25 | 2004-08-26 | Shougo Shimizu | System of generating procedure for digital signature and encryption to XML |
US20050273706A1 (en) * | 2000-08-24 | 2005-12-08 | Yahoo! Inc. | Systems and methods for identifying and extracting data from HTML pages |
US20060041838A1 (en) * | 2004-08-23 | 2006-02-23 | Sun Microsystems, Inc. | System and method for automatically generating XML schema for validating XML input documents |
CN101241435A (zh) * | 2008-03-07 | 2008-08-13 | 浪潮集团山东通用软件有限公司 | 一种快速将以前业务系统移植到平台中的方法 |
CN101515287A (zh) * | 2009-03-24 | 2009-08-26 | 崔志明 | 一种用于复杂页面的包装器自动生成方法 |
CN101673256A (zh) * | 2008-09-11 | 2010-03-17 | 北大方正集团有限公司 | 一种基于文字流的文章元数据信息自动抽取方法及系统 |
CN101754056A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 支持海量数据自动处理的数字内容编目管理系统及方法 |
CN105187559A (zh) * | 2015-09-30 | 2015-12-23 | 成都智信电子技术有限公司 | 一种数据融合治理系统 |
CN107368500A (zh) * | 2016-05-13 | 2017-11-21 | 北京京东尚科信息技术有限公司 | 数据抽取方法及系统 |
CN108062407A (zh) * | 2017-12-28 | 2018-05-22 | 成都飞机工业(集团)有限责任公司 | 一种项目可视化管控数据抽取方法 |
-
2019
- 2019-07-23 CN CN201910665701.XA patent/CN110399529A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050273706A1 (en) * | 2000-08-24 | 2005-12-08 | Yahoo! Inc. | Systems and methods for identifying and extracting data from HTML pages |
US20040168064A1 (en) * | 2003-02-25 | 2004-08-26 | Shougo Shimizu | System of generating procedure for digital signature and encryption to XML |
US20060041838A1 (en) * | 2004-08-23 | 2006-02-23 | Sun Microsystems, Inc. | System and method for automatically generating XML schema for validating XML input documents |
CN101241435A (zh) * | 2008-03-07 | 2008-08-13 | 浪潮集团山东通用软件有限公司 | 一种快速将以前业务系统移植到平台中的方法 |
CN101673256A (zh) * | 2008-09-11 | 2010-03-17 | 北大方正集团有限公司 | 一种基于文字流的文章元数据信息自动抽取方法及系统 |
CN101754056A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 支持海量数据自动处理的数字内容编目管理系统及方法 |
CN101515287A (zh) * | 2009-03-24 | 2009-08-26 | 崔志明 | 一种用于复杂页面的包装器自动生成方法 |
CN105187559A (zh) * | 2015-09-30 | 2015-12-23 | 成都智信电子技术有限公司 | 一种数据融合治理系统 |
CN107368500A (zh) * | 2016-05-13 | 2017-11-21 | 北京京东尚科信息技术有限公司 | 数据抽取方法及系统 |
CN108062407A (zh) * | 2017-12-28 | 2018-05-22 | 成都飞机工业(集团)有限责任公司 | 一种项目可视化管控数据抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180129579A1 (en) | Systems and Methods with a Realtime Log Analysis Framework | |
US10187415B2 (en) | Cognitive information security using a behavioral recognition system | |
CN107169575A (zh) | 一种可视化机器学习训练模型的建模系统和方法 | |
CN104361140B (zh) | 动态生成数据模型配置装置和方法 | |
CN104268428B (zh) | 一种用于指标计算的可视化配置方法 | |
CN107147639A (zh) | 一种基于复杂事件处理的实时安全预警方法 | |
CN108259371A (zh) | 一种基于流处理的网络流量数据解析方法和装置 | |
CN104391881A (zh) | 一种基于分词算法的日志解析方法及系统 | |
CN115567370B (zh) | 基于实时事件数据的自动化告警方法、存储介质及系统 | |
CN107612730A (zh) | 一种日志采集分析方法、装置以及系统 | |
CN112286957A (zh) | 基于结构化查询语言的bi系统的api应用方法及系统 | |
CN114036183A (zh) | 一种数据etl处理方法、装置、设备及介质 | |
CN113312924A (zh) | 一种基于nlp高精解析标签的风险规则分类方法及装置 | |
CN113742368A (zh) | 一种数据血缘关系分析方法 | |
CN116070992A (zh) | 一种基于WebGL的自动化立体仓库的远程监测系统 | |
CN110399529A (zh) | 一种基于深度学习技术的数据实体抽取方法 | |
CN109032578B (zh) | 基于数据库sql代码生成方法及系统 | |
JP2022010749A (ja) | 寄与度集約システム、寄与度集約方法およびプログラム | |
CN110222402A (zh) | 电气设计系统和方法 | |
CN114697156B (zh) | 火箭总线数据监控方法、装置、终端设备及介质 | |
CN109299132A (zh) | Sql数据处理方法、系统以及电子设备 | |
CN110472292B (zh) | 工业设备数据仿真配置系统及方法 | |
CN115544156A (zh) | 一种实现数据溯源可视化的方法 | |
CN114430421A (zh) | 一种基于多种车型功能集自动产生告警规则的方法和系统 | |
CN114817671A (zh) | 一种空调物联网的日志分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191101 |