CN110399529A

CN110399529A - 一种基于深度学习技术的数据实体抽取方法

Info

Publication number: CN110399529A
Application number: CN201910665701.XA
Authority: CN
Inventors: 肖清林
Original assignee: Fujian Qidian Space Time Digital Technology Co ltd
Current assignee: Fujian Qidian Space Time Digital Technology Co ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-11-01

Abstract

一种基于深度学习技术的数据实体抽取方法，包括以下步骤：生成数据库；编制查询条件，并将查询条件配置到XML文件中；自动解析XML文件并读取查询条件；根据查询条件对数据库中的数据进行筛选并获取符合条件的数据；生成此次抽取任务的数据源；编制抽取命令；自动解析抽取命令，并从数据源中抽取数据；对抽取的数据进行处理并生成消息通知；接收消息通知并将抽取数据进行处理；对处理后的抽取数据进行可视化展示。本发明优化了当前的数据抽取方案，规则可灵活配置或扩展，能在大数据抽取过程中减少数据库服务器的访问压力，降低了程序编码的复杂性及维护成本，抽取效率高，增强了抽取数据可视化效果，人们可直观清楚的了解抽取结果。

Description

一种基于深度学习技术的数据实体抽取方法

技术领域

本发明涉及数据抽取技术领域，尤其涉及一种基于深度学习技术的数据实体抽取方法。

背景技术

对大数据进行智能化管理和有效分析成为一个迫切需求，对大数据进行定量建模以及关联分析，并研究有效的分析挖掘方法，是有效分析大数据的关键，也是提高科学化水平的基础；

但是，数据的规模较大，现有的数据实体抽取方法难以快速的从其中抽取所需数据，且在抽取过程中数据服务器的防蚊压力较大，程序编码较为复杂，维护成本高，并且可视化效果不佳，人们难以直观清楚的了解抽取结果。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于深度学习技术的数据实体抽取方法，优化了当前的数据抽取方案，能在大数据抽取过程中减少数据库服务器的访问压力，降低了程序编码的复杂性及维护成本，抽取效率高，增强了抽取数据可视化效果，人们可直观清楚的了解抽取结果，规则可灵活配置或扩展以适应不同业务系统、不同关系性数据的数据提取。

(二)技术方案

为解决上述问题，本发明提出了一种基于深度学习技术的数据实体抽取方法，包括以下步骤：

S1、获取数据，并生成数据库；

S2、编制查询条件，并将查询条件配置到XML文件中；

S3、自动解析XML文件，并读取查询条件；

S4、根据查询条件对数据库中的数据进行筛选，并获取符合条件的数据；

若数据库中存在符合条件的数据，则进行下一步；若数据库中不存在符合条件的数据，则结束本次抽取操作；

S5、生成此次抽取任务的数据源；

S6、编制抽取命令；

S7、自动解析抽取命令，并从数据源中抽取数据；

S8、对抽取的数据进行处理，并生成消息通知；

S9、接收消息通知，并将抽取数据进行处理；

S10、对处理后的抽取数据进行可视化展示；

S11、结束本次抽取任务。

优选的，在S1中，数据的获取方式包含网上下载、在线填报、文件上传或批量导入。

优选的，在S4中，数据库中不存在符合条件的数据时，还可以对查询条件进行修改并重新编制，继续进行筛选操作。

优选的，在S6中，抽取命令为SQL命令。

优选的，抽取方法为增量抽取方式。

优选的，在S9中，包括以下步骤：

将接收到的消息通知转化为消息处理队列；

按照消息处理队列的顺序对消息逐一进行处理；

对抽取数据进行整理排序，并生成Word文件或Excel文件。

优选的，在S9中，还包括对消息处理队列实行持久化，在数据处理异常时用于对消息处理队列进行恢复。

优选的，在S10中，可视化展示方式为将抽取数据以PPT的方式进行展示。

优选的，还能够将展示的数据内容同步转化为声音。

本发明的上述技术方案具有如下有益的技术效果：

获取数据并生成数据库，编制查询条件并将查询条件配置到XML文件中，自动解析XML文件并读取查询条件，根据查询条件对数据库中的数据进行筛选，并获取符合条件的数据，生成此次抽取任务的数据源，编制本次抽取任务的SQL 命令，自动解析抽取命令并从数据源中抽取数据，对抽取的数据进行处理并生成消息通知，接收消息通知并将抽取数据进行处理，对处理后的抽取数据进行可视化展示，操作过程较为简便，抽取方法简单有效；

本发明能够自动解析查询条件和SQL命令，优化了当前的数据抽取方案，能在大数据抽取过程中减少数据库服务器的访问压力，而且实现了在大数据处理场景中数据逻辑处理的配置化，降低程序编码的复杂性及维护成本，抽取效率高；增强了抽取数据可视化效果，人们可直观清楚的了解抽取结果；规则可灵活配置或扩展以适应不同业务系统、不同关系性数据的数据提取。

附图说明

图1为本发明提出的一种基于深度学习技术的数据实体抽取方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明提出的一种基于深度学习技术的数据实体抽取方法，包括以下步骤：

S1、获取数据，并生成数据库；

S2、编制查询条件，并将查询条件配置到XML文件中；

S3、自动解析XML文件，并读取查询条件；

S5、生成此次抽取任务的数据源；

S6、编制抽取命令；

S7、自动解析抽取命令，并从数据源中抽取数据；

S8、对抽取的数据进行处理，并生成消息通知；

S9、接收消息通知，并将抽取数据进行处理；

S10、对处理后的抽取数据进行可视化展示；

S11、结束本次抽取任务。

在一个可选的实施例中，在S1中，数据的获取方式包含网上下载、在线填报、文件上传或批量导入。

在一个可选的实施例中，在S4中，数据库中不存在符合条件的数据时，还可以对查询条件进行修改并重新编制，继续进行筛选操作。

在一个可选的实施例中，在S6中，抽取命令为SQL命令。

在一个可选的实施例中，抽取方法为增量抽取方式。

在一个可选的实施例中，在S9中，包括以下步骤：将接收到的消息通知转化为消息处理队列；按照消息处理队列的顺序对消息逐一进行处理；对抽取数据进行整理排序，并生成Word文件或Excel文件。

在一个可选的实施例中，在S9中，还包括对消息处理队列实行持久化，在数据处理异常时用于对消息处理队列进行恢复，避免数据处理异常时无法继续进行相关操作。

在一个可选的实施例中，在S10中，可视化展示方式为将抽取数据以PPT 的方式进行展示，还能够将展示的数据内容同步转化为声音，可视化效果较好，有利于人们清楚直观的了解抽取结果。

本发明中，首先获取数据并生成数据库；然后编制查询条件并将查询条件配置到XML文件中；接着自动解析XML文件并读取查询条件；然后根据查询条件对数据库中的数据进行筛选，并获取符合条件的数据；若数据库中不存在符合条件的数据，则结束本次抽取操作或更改查询条件并继续进行筛选操作，若数据库中存在符合条件的数据，则根据符合条件的数据来生成此次抽取任务的数据源；接下去开始编制本次抽取任务的SQL命令；然后自动解析抽取命令，并从数据源中抽取数据；紧接着对抽取的数据进行处理，并生成消息通知；然后接收消息通知，并将抽取数据进行处理，包括将接收到的消息通知转化为消息处理队列，按照消息处理队列的顺序对消息逐一进行处理，再对抽取数据进行整理排序，并生成Word文件或Excel文件；最后对处理后的抽取数据进行可视化展示，包括以PPT的方式展示抽取数据，并将展示的数据内容同步转化为声音，可视化效果较好，有利于人们清楚直观的了解抽取结果；

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于深度学习技术的数据实体抽取方法，其特征在于，包括以下步骤：

S1、获取数据，并生成数据库；

S2、编制查询条件，并将查询条件配置到XML文件中；

S3、自动解析XML文件，并读取查询条件；

S5、生成此次抽取任务的数据源；

S6、编制抽取命令；

S7、自动解析抽取命令，并从数据源中抽取数据；

S8、对抽取的数据进行处理，并生成消息通知；

S9、接收消息通知，并将抽取数据进行处理；

S10、对处理后的抽取数据进行可视化展示；

S11、结束本次抽取任务。

2.根据权利要求1所述的一种基于深度学习技术的数据实体抽取方法，其特征在于，在S1中，数据的获取方式包含网上下载、在线填报、文件上传或批量导入。

3.根据权利要求1所述的一种基于深度学习技术的数据实体抽取方法，其特征在于，在S4中，数据库中不存在符合条件的数据时，还可以对查询条件进行修改并重新编制，继续进行筛选操作。

4.根据权利要求1所述的一种基于深度学习技术的数据实体抽取方法，其特征在于，在S6中，抽取命令为SQL命令。

5.根据权利要求1所述的一种基于深度学习技术的数据实体抽取方法，其特征在于，抽取方法为增量抽取方式。

6.根据权利要求1所述的一种基于深度学习技术的数据实体抽取方法，其特征在于，在S9中，包括以下步骤：

将接收到的消息通知转化为消息处理队列；

按照消息处理队列的顺序对消息逐一进行处理；

对抽取数据进行整理排序，并生成Word文件或Excel文件。

7.根据权利要求1所述的一种基于深度学习技术的数据实体抽取方法，其特征在于，在S9中，还包括对消息处理队列实行持久化，在数据处理异常时用于对消息处理队列进行恢复。

8.根据权利要求1所述的一种基于深度学习技术的数据实体抽取方法，其特征在于，在S10中，可视化展示方式为将抽取数据以PPT的方式进行展示。

9.根据权利要求8所述的一种基于深度学习技术的数据实体抽取方法，其特征在于，还能够将展示的数据内容同步转化为声音。