CN113722302B - 一种数据治理方法与装置 - Google Patents
一种数据治理方法与装置 Download PDFInfo
- Publication number
- CN113722302B CN113722302B CN202110859740.0A CN202110859740A CN113722302B CN 113722302 B CN113722302 B CN 113722302B CN 202110859740 A CN202110859740 A CN 202110859740A CN 113722302 B CN113722302 B CN 113722302B
- Authority
- CN
- China
- Prior art keywords
- metadata
- data
- standard
- quality rule
- intelligent algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013523 data management Methods 0.000 title claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 98
- 238000013441 quality evaluation Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 32
- 238000007726 management method Methods 0.000 claims description 22
- 238000003745 diagnosis Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000003326 Quality management system Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012774 diagnostic algorithm Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种数据治理方法与装置。该方法包括采集元数据;查找与所述元数据相关的数据质量规则,所述数据质量规则用于指示元数据的质量评价规则;确定所述元数据不符合所述数据质量规则时,查找与所述数据质量规则相关的第一智能算法,并利用所述第一智能算法对所述元数据进行治理。通过这种方法,可以实现数据治理的自动化过程,提升效率和准确率。
Description
技术领域
本提案主要涉及大数据分析处理的技术领域,特别涉及一种数据治理方法与装置。
背景技术
数据治理是数据管理的核心职能。从技术实现的角度,包括数据标准和规程、数据问题管理、数据管理服务、数据资产管理等多个方面。围绕数据治理,目前业界诸多厂家都推出了元数据管理、数据质量管理、数据标准管理等相关的工具和平台,为数据治理提供工具和技术上的支撑。
如何实现数据治理的智能化与准确化,是一直需要思考的问题。
发明内容
本申请提供一种数据治理方法与装置,用于实现数据治理的自动化过程,提升效率和准确率。
第一方面,提供一种数据治理方法,包括:
采集元数据;
查找与所述元数据相关的数据质量规则,所述数据质量规则用于指示元数据的质量评价规则;
确定所述元数据不符合所述数据质量规则时,查找与所述数据质量规则相关的第一智能算法,并利用所述第一智能算法对所述元数据进行治理。
在一种可能的设计中,确定所述元数据不符合所述数据质量规则,包括:
查找与所述数据质量规则相关的第二智能算法;
使用所述第二智能算法对所述元数据的质量进行诊断,得到诊断结果;所述诊断结果用于指示所述元数据不符合所述数据质量规则。
在一种可能的设计中,所述方法还包括:
确定所述元数据对应的数据标准,所述数据标准用于指示所述元数据所适配的业务标准;
根据所述数据标准,确定对应的第三智能算法;
使用所述第三智能算法对经过治理后的所述元数据进行业务处理,得到业务处理结果。
在一种可能的设计中,查找与所述元数据相关的数据质量规则,包括:
确定与所述元数据对应的数据标准,所述数据标准用于指示所述元数据所适配的业务标准;
根据所述数据标准,确定与所述数据标准对应的数据质量规则,所述数据质量规则用于指示所述业务标准下数据的质量规则。
在一种可能的设计中,所述方法还包括:
根据历史采集的元数据,建立关联关系;
其中,所述关联关系包括元数据与数据标准之间的关联关系、数据质量规则与元数据之间的关联关系、智能算法与数据质量规则之间的关联关系中的至少一种。
第二方面,提供一种数据治理装置,包括:
获取模块,用于采集元数据;
诊断模块,用于查找与所述元数据相关的数据质量规则,所述数据质量规则用于指示元数据的质量评价规则;
治理模块,用于确定所述元数据不符合所述数据质量规则时,查找与所述数据质量规则相关的第一智能算法,并利用所述第一智能算法对所述元数据进行治理。
在一种可能的实施方案中,所述诊断模块具体用于:
查找与所述数据质量规则相关的第二智能算法;
使用所述第二智能算法对所述元数据的质量进行诊断,得到诊断结果;所述诊断结果用于指示所述元数据不符合所述数据质量规则。
在一种可能的实施方案中,所述装置还包括处理模块,所述处理模块具体用于:
确定所述元数据对应的数据标准,所述数据标准用于指示所述元数据所适配的业务标准;
根据所述数据标准,确定对应的第三智能算法;
使用所述第三智能算法对经过治理后的所述元数据进行业务处理,得到业务处理结果。
在一种可能的实施方案中,所述诊断模块具体用于:
确定与所述元数据对应的数据标准,所述数据标准用于只是所述元数据所适配的业务标准;
根据所述数据标准,确定与所述数据标准对应的数据质量规则,所述数据质量规则用于指示所述业务标准下数据的质量规则。
在一种可能的实施方案中,所述获取模块还用于:
根据历史采集的元数据,建立关联关系;
其中,所述关联关系包括元数据与数据标准之间的关联关系、数据质量规则与元数据之间的关联关系、智能算法与数据质量规则之间的关联关系中的至少一种。
第三方面,提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行上述第一方面提供的方法包括的步骤。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行述第一方面提供的方法。
第五方面,提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行上述第一方面所提供的方法步骤。
在本申请实施例中,数据治理装置可以通过事先定义数据标准、智能算法模型、质量规则,并建立上述业务单元的元数据关联关系实现数据质量诊断、数据治理及转换过程的高度自动化,大幅提升了数据治理的实施效率和准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例。
图1为本申请实施例提供的系统的结构框架示意图;
图2为本申请实施例提供的数据治理方法的流程示意图;
图3为本申请实施例提供的元数据间的关联关系示意图;
图4为本申请实施例提供的一种数据治理装置构成图;
图5为本申请实施例提供的一种电子设备示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个,例如可以是两个、三个或者更多个,本申请实施例不做限制。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。
下面结合说明书附图介绍本申请实施例提供的技术方案。
请参见图1所示,图1为本申请提供的系统的结构框架示意图。所述系统包括五个子系统和一个或多个外部数据源。其中,所述的五个子系统为:元数据管理系统、数据标准管理系统、数据质量管理系统、智能算法管理系统、数据治理系统。其中,所述数据标准管理系统可用于将所述元数据管理系统从所述外部数据元中采集的元数据进行标准定义。所述数据治理系统可用于根据所述数据质量管理系统中的数据质量规则和智能算法管理系统中与数据质量规则对应的智能算法的代码对所述元数据进行治理,传送至用户交互系统(如,界面)。在实际应用中,系统可以包括图1中的全部或部分系统,或者,不同系统之间的连接方式有调整,均属于本申请的保护范围。
图2为本申请实施例提供的一种数据治理方法的流程示意图。该方法流程可以应用到图1所示的系统中。图2所示方法的流程图描述如下:
步骤201:采集元数据。
示例性的,请参见图1,元数据管理系统可用于采集和集中管理各个业务系统中的所有元数据。所述元数据包括技术元数据和业务元数据中的至少一种类型。其中技术元数据可以包含库、表、字段、生命周期等信息的数据;业务元数据可以是包含数据标准定义、字段对应的业务属性含义、统计指标定义等信息的数据。
其中,所述元数据可以是从外部数据源中采集的,也可以是从其他业务子系统中采集的,本申请实施例不作限定。其中,从所述外部数据源中获取的元数据包括但不限于各个业务系统使用的关系型数据,比如MySQL、Oracle等;消息中间件,比如Kafka、RabbitMQ等;大数据组件,比如Hive等。从其他的业务子系统获取的元数据可能是,从所述数据标准系统采集到的数据标准信息,比如,字段标准定义(本申请中称之为数据元)和表结构标准定义(本申请中称之为逻辑模型)等;从数据质量管理系统中采集的数据质量相关的元数据,比如质量规则定义等;从智能算法系统中获取算法相关的元数据,比如,对数据质量算法的描述、对数据智力算法的描述等。
示例性的,所述元数据管理系统包括元数据采集模块、元数据组织模块、元数据存储模块和元数据查询接口。其中,所述元数据采集模块用于完成上文中提到的采集元数据。所述元数据组织模块负责分类组织各种元数据,比如,按照数据库元数据、质量元数据、算法元数据、标准元数据等类目对元数据进行组织;所述元数据存储模块负责将所述元数据组织模块中建立起来的元数据及其关系持久化;所述元数据查询接口用于使其他业务子系统可以查询到本系统中元数据的基本信息和元数据间的关联关系等信息。
步骤202:查找与所述元数据相关的数据质量规则,所述数据质量规则用于指示元数据的质量评价规则。
请继续参见图1,所述数据质量管理系统用于定义数据质量规则。其中,所述数据质量规则是指对数据进行质量评判的准则定义。步骤202的一种可能的实现方式为,确定与所述元数据对应的数据标准,所述数据标准用于指示所述元数据所适配的业务标准;根据所述数据标准,确定与所述数据标准对应的数据质量规则,所述数据质量规则用于指示所述业务标准下数据的质量规则。
下面先介绍数据标准和质量规则。
请继续参见图1,所述系统中的数据标准管理系统用于定义数据标准。其中所述定义数据标准可以包括逻辑模型的定义和数据元的定义。以某行业为例,比如,在某行业中,对于常住人口信息表、机动车信息登记表都有标准的表结构定义,所述逻辑模型包括但不限于表名称、表字段名称及其顺序等;其中,所述字段也有统一的定义规范,我们一般称之为数据元,比如,约定字段名称、字段描述、字段类型、字段长度等。示例性的,“公民身份证号码”这个字段可以定义为名称是“GMSFZHM”的数据元;常住人口信息表可以定义为“CZRKXXB”的逻辑模型,二者均取汉语拼音首字母的缩写。
请继续参见图1,数据质量管理系统包括数据质量规则管理,其中可以包括数据质量规则。仍以“公民身份证号码”这一字段为例,可以定义多个与之相关的规则。比如,身份证长度校验规则用于校验身份证的长度是否正确、身份证合法性校验规则用于根据身份证编排规则校验身份证号码是否符合规范、身份证空值率校验规则用于校验一张表的身份证号码字段空值率等。其中,所述质量规则的作用对象可能是一张表,也可能是一个字段,因此在定义所述质量规则还可以指明所述质量规则作用的对象的类型。示例性的,所述系统可以自动查找与前文提到的所述逻辑模型、所述数据元相关联的数据质量规则,或者,查找出之后推荐给用户以供用户自行选择得到最终的确认。其中,所述数据质量管理系统还用于对所述元数据和逻辑模型进行质量校验,所述质量校验是指根据用户配置的任务,对指定数据表应用所述质量规则、并得出校验结果的过程。
因此,步骤201中采集到元数据之后,执行步骤202时,可以先确定元数据对应的数据标准。比如,采集的元数据是公民身份证号码的字段,那么对应的数据标准包括“GMSFZHM”的数据元和/或“CZRKXXB”的逻辑模型。然后,在数据质量管理系统中查找与所述数据标准对应的质量规则。比如,“GMSFZHM”的数据元对应的数据规则为身份证长度校验规则。
步骤203:确定所述元数据不符合所述数据质量规则时,查找与所述数据质量规则相关的第一智能算法,并利用所述第一智能算法对所述元数据进行治理。其中,第一智能算法也可以称为数据治理算法,用于对元数据进行治理。
示例性的,请继续参见图1,所述智能算法管理系统用于集中管理各种智能算法。比如,智能算法管理系统中包括第一智能算法、第二智能算法和第三智能算法。其中,第一智能算法也可以称为数据治理算法。第二智能算法是数据诊断算法,第三智能算法是数据处理算法(或数据转换算法)。其中,对所述智能算法的管理可以是算法的上传、算法的下载、算法的更新、算法的版本管理和算法的查询等。在本申请中,所述智能算法是指与数据治理的整个流程中的某个环节相关的代码,包括但不限于SQL文件或者代码片段、其他语言编写的脚本或代码片段、数据库或大数据组件的UDF(用户自定义函数)、可执行文件(包括带不限于Jar包、so文件等)等,通过这些代码可以智能完成数据治理中某些功能。
因此,步骤203可以是在智能算法管理系统中查找对应的数据治理算法即第一智能算法,然后使用第一智能算法对元数据进行治理。
其中,步骤203中确定元数据不符合所述数据质量规则可以通过数据诊断算法或数据诊断任务代码(即第二智能算法)实现。其中所述诊断任务代码可以是SQL、Jar包、脚本、python等形式的代码;所述第二智能算法用于诊断所述质量规则系统中的元数据是否准确,得到诊断结果。可选的,当所述第二智能算法输出的诊断结果为所述元数据不符合所述数据质量规则时,步骤203 中使用与所述质量规则相关联的第一智能算法生成相应的数据质量治理代码,所述系统自动执行所述治理代码完成对元数据的质量治理任务。
举例来说,以身份证号码为例,假设元数据中身份证号码包括15位,而数据质量规则指示身份证号码18位,那么使用第二智能算法可以判断元数据中身份证号码是否符合数据质量规则,得到诊断结果,诊断结果可以包括是18 位或不是18位两种情况,当诊断结果指示不是18位时,使用第一智能算法对元数据进行治理,使其成为18位。
可选的,执行完步骤203之后,得到了治理后的原数据,此时可以对治理后的原数据作业务处理。比如,确定元数据对应的数据标准,所述数据标准用于指示所述元数据所适配的业务标准;根据所述数据标准,确定对应的第三智能算法;使用所述第三智能算法对经过治理后的所述元数据进行业务处理,得到业务处理结果。其中,所述第三智能算法可以是脱敏算法、某些业务逻辑处理算法等中的任意一种,或者,将所述第三智能算法推荐给用户,由用户根据需要自行选择出用户需要的智能算法(用户可以不选、单选或多选)。所述系统根据所述用户需要的智能算法自动生成数据处理的代码,并自动执行所述数据处理代码完成数据处理、数据转换的过程。
继续以身份证号码为例,使用第一智能算法对元数据进行治理,使其成为 18位之后,还可以将18位的身份证号码输入第三智能算法进行业务处理,所述业务处理可以是根据输入的身份证号码得到其籍贯所在地,比如得出省、市、区/县的信息,方便人口管理。
可选的,图1所示的系统在应用之前,可以获取关联关系,比如在步骤202 之前根据历史采集的元数据建立关联关系。在获取关联关系之后,图2所示的流程中可以使用该关联关系。比如,步骤202中可以使用质量规则与智能算法之间的关联关系,确定与数据质量规则对应的智能算法。总体来说,系统获取的关联关系包括元数据与数据标准之间的关联关系、数据质量规则与元数据之间的关联关系、智能算法与数据质量规则之间的关联关系中的至少一种。
下面具体介绍所述关联关系。
示例性的,请参见图3,关联关系包括:表的元数据与逻辑模型的关联、字段的元数据与数据元的关联;这两种关联可以理解为元数据与数据标准的关联。继续参见图3,关联关系还包括:逻辑模型与质量规则之间的关联、数据元与质量规则之间的关联,这两种关联可以理解为数据标准与质量规则之间的关联。继续参见图3,关联关系还包括:逻辑模型与智能算法之间的关联、数据元与智能算法之间的关联,这两种关联可以理解为数据标准与智能算法之间的关联。可选的,关联关系还包括:质量规则与智能算法之间的关联。
可选的,可以通过手动维护或者自动识别的方式来建立关联关系。其中,手动维护是指,元数据系统中已经采集到了技术元数据和数据标准定义的元数据,可将二者呈现给用户,由用户通过界面将二者建立关联。自动识别是指,基于库、表的定义细节以及抽取少量的数据正文内容,和已有的数据标准进行比对,选取匹配度最高的结果推荐给用户作为默认关联。
综上所述,本申请实施例提供的图1的系统中,可以完成元数据采集、元数据的标准定义的查找,进而实现数据质量规则的匹配,然后利用数据质量规则对应的数据治理算法对元数据进行治理,这种方式可以实现数据治理的智能化,提升效率。
基于同一发明构思,本申请实施例提供了一种数据治理装置。该数据治理装置可以是硬件结构、软件模块、或硬件结构加软件模块。该数据治理装置可以由芯片系统实现,芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。请参见图4所示,该数据治理装置包括获取模块401、诊断模块402和治理模块403。其中:
获取模块401,用于采集元数据;
诊断模块402,用于查找与所述元数据相关的数据质量规则,所述数据质量规则用于指示元数据的质量评价规则;
治理模块403,用于确定所述元数据不符合所述数据质量规则时,查找与所述数据质量规则相关的第一智能算法,并利用所述第一智能算法对所述元数据进行治理。
在一种可能的实施方案中,所述诊断模块402具体用于:
查找与所述数据质量规则相关的第二智能算法;
使用所述第二智能算法对所述元数据的质量进行诊断,得到诊断结果;所述诊断结果用于指示所述元数据不符合所述数据质量规则。
在一种可能的实施方案中,所述装置还包括处理模块(图中未标出),所述处理模块具体用于:
确定所述元数据对应的数据标准,所述数据标准用于指示所述元数据所适配的业务标准;
根据所述数据标准,确定对应的第三智能算法;
使用所述第三智能算法对经过治理后的所述元数据进行业务处理,得到业务处理结果。
在一种可能的实施方案中,所述诊断模块402具体用于:
确定与所述元数据对应的数据标准,所述数据标准用于只是所述元数据所适配的业务标准;
根据所述数据标准,确定与所述数据标准对应的数据质量规则,所述数据质量规则用于指示所述业务标准下数据的质量规则。
在一种可能的实施方案中,所述获取模块401还用于:
根据历史采集的元数据,建立关联关系;
其中,所述关联关系包括元数据与数据标准之间的关联关系、数据质量规则与元数据之间的关联关系、智能算法与数据质量规则之间的关联关系中的至少一种。
本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
基于同一发明构思,本申请实施例提供一种电子设备。请参见图5所示,该电子设备包括至少一个处理器501,以及与至少一个处理器连接的存储器502,本申请实施例中不限定处理器501与存储器502之间的具体连接介质,图5中是以处理器501和存储器502之间通过总线500连接为例,总线500在图5中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线500可以分为地址总线、数据总线、控制总线等,为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在本申请实施例中,存储器502存储有可被至少一个处理器501执行的指令,至少一个处理器501通过执行存储器502存储的指令,可以执行前述的数据治理方法中所包括的步骤。
其中,处理器501是电子设备的控制中心,可以利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据,电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器501可包括一个或多个处理单元,处理器 501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理501中。在一些实施例中,处理器501和存储器502可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器501可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的数据治理方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通过对处理器501进行设计编程,可以将前述实施例中介绍的数据治理方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行前述的数据治理方法的步骤,如何对处理器501进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
基于同一发明构思,本申请实施例还提供一种计算可读存储介质,该计算可读存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行如前述的数据治理方法的步骤。
在一些可能的实施方式中,本申请提供的数据治理方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使该检测设备执行本说明书上述描述的根据本申请各种示例性实施方式的数据治理方法中的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种数据治理方法,其特征在于,包括:
采集元数据;
查找与所述元数据相关的数据质量规则,所述数据质量规则用于指示元数据的质量评价规则;
确定所述元数据不符合所述数据质量规则时,查找与所述数据质量规则相关的第一智能算法,并利用所述第一智能算法对所述元数据进行治理;
其中,所述元数据包括技术元数据和业务元数据中的至少一种;所述技术元数据包括库、表、字段、生命周期中的至少一项;所述业务元数据包括数据标准定义、字段对应的业务属性含义、统计指标定义中的至少一项;
所述方法还包括:确定所述元数据对应的数据标准,所述数据标准用于指示所述元数据所适配的业务标准;根据所述数据标准,确定对应的第三智能算法;使用所述第三智能算法对经过治理后的所述元数据进行业务处理,得到业务处理结果。
2.根据权利要求1所述的方法,其特征在于,确定所述元数据不符合所述数据质量规则,包括:
查找与所述数据质量规则相关的第二智能算法;
使用所述第二智能算法对所述元数据的质量进行诊断,得到诊断结果;所述诊断结果用于指示所述元数据不符合所述数据质量规则。
3.根据权利要求1所述的方法,其特征在于,查找与所述元数据相关的数据质量规则,包括:
确定与所述元数据对应的数据标准,所述数据标准用于指示所述元数据所适配的业务标准;
根据所述数据标准,确定与所述数据标准对应的数据质量规则,所述数据质量规则用于指示所述业务标准下数据的质量规则。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据历史采集的元数据,建立关联关系;
其中,所述关联关系包括元数据与数据标准之间的关联关系、数据质量规则与元数据之间的关联关系、智能算法与数据质量规则之间的关联关系中的至少一种。
5.一种数据治理装置,其特征在于,包括:
获取模块,用于采集元数据;
诊断模块,用于查找与所述元数据相关的数据质量规则,所述数据质量规则用于指示元数据的质量评价规则;
治理模块,用于确定所述元数据不符合所述数据质量规则时,查找与所述数据质量规则相关的第一智能算法,并利用所述第一智能算法对所述元数据进行治理;
其中,所述元数据包括技术元数据和业务元数据中的至少一种;所述技术元数据包括库、表、字段、生命周期中的至少一项;所述业务元数据包括数据标准定义、字段对应的业务属性含义、统计指标定义中的至少一项;
所述装置还包括处理模块,所述处理模块具体用于:确定所述元数据对应的数据标准,所述数据标准用于指示所述元数据所适配的业务标准;根据所述数据标准,确定对应的第三智能算法;使用所述第三智能算法对经过治理后的所述元数据进行业务处理,得到业务处理结果。
6.根据权利要求5所述的装置,其特征在于,所述诊断模块具体用于:
查找与所述数据质量规则相关的第二智能算法;
使用所述第二智能算法对所述元数据的质量进行诊断,得到诊断结果;所述诊断结果用于指示所述元数据不符合所述数据质量规则。
7.根据权利要求5所述的装置,其特征在于,所述诊断模块具体用于:
确定与所述元数据对应的数据标准,所述数据标准用于只是所述元数据所适配的业务标准;
根据所述数据标准,确定与所述数据标准对应的数据质量规则,所述数据质量规则用于指示所述业务标准下数据的质量规则。
8.根据权利要求5所述的装置,其特征在于,所述获取模块还用于:
根据历史采集的元数据,建立关联关系;
其中,所述关联关系包括元数据与数据标准之间的关联关系、数据质量规则与元数据之间的关联关系、智能算法与数据质量规则之间的关联关系中的至少一种。
9.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行权利要求1-4任一项所述的方法包括的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110859740.0A CN113722302B (zh) | 2021-07-28 | 2021-07-28 | 一种数据治理方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110859740.0A CN113722302B (zh) | 2021-07-28 | 2021-07-28 | 一种数据治理方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113722302A CN113722302A (zh) | 2021-11-30 |
CN113722302B true CN113722302B (zh) | 2024-09-10 |
Family
ID=78674196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110859740.0A Active CN113722302B (zh) | 2021-07-28 | 2021-07-28 | 一种数据治理方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722302B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395325A (zh) * | 2020-11-27 | 2021-02-23 | 广州光点信息科技有限公司 | 一种数据治理方法、系统、终端设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7912820B2 (en) * | 2003-06-06 | 2011-03-22 | Microsoft Corporation | Automatic task generator method and system |
CN109344133B (zh) * | 2018-08-27 | 2020-07-07 | 成都四方伟业软件股份有限公司 | 一种数据治理驱动数据共享交换系统及其工作方法 |
-
2021
- 2021-07-28 CN CN202110859740.0A patent/CN113722302B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395325A (zh) * | 2020-11-27 | 2021-02-23 | 广州光点信息科技有限公司 | 一种数据治理方法、系统、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113722302A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102799634B (zh) | 数据存储方法及装置 | |
JP2020135853A (ja) | 記述情報を決定する方法、装置、電子デバイス、コンピュータ可読媒体およびコンピュータプログラム | |
CN110795455A (zh) | 依赖关系解析方法、电子装置、计算机设备及可读存储介质 | |
CN110659282B (zh) | 数据路由的构建方法、装置、计算机设备和存储介质 | |
CN110866029B (zh) | sql语句构建方法、装置、服务器及可读存储介质 | |
CN108170752B (zh) | 基于模板的元数据管理方法和系统 | |
CN110597844B (zh) | 异构数据库数据统一访问方法及相关设备 | |
CN113220657B (zh) | 数据处理方法、装置及计算机设备 | |
CN111078776A (zh) | 数据表的标准化方法、装置、设备及存储介质 | |
CN111597243A (zh) | 基于数据仓库抽象数据加载的方法及系统 | |
CN111324781A (zh) | 一种数据分析方法、装置及设备 | |
CN107368500B (zh) | 数据抽取方法及系统 | |
CN112231417A (zh) | 数据分类方法、装置、电子设备及存储介质 | |
CN112506931A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN111258905A (zh) | 缺陷定位方法、装置和电子设备及计算机可读存储介质 | |
CN113609128B (zh) | 生成数据库实体类的方法、装置、终端设备及存储介质 | |
CN113407565B (zh) | 跨库数据查询方法、装置和设备 | |
CN114297204A (zh) | 一种异构数据源的数据存储、检索方法及装置 | |
CN114169318A (zh) | 进程识别方法、装置、设备、介质和程序 | |
CN113722302B (zh) | 一种数据治理方法与装置 | |
CN111159213A (zh) | 一种数据查询方法、装置、系统和存储介质 | |
CN113626558A (zh) | 一种基于智能推荐的字段标准化的方法和系统 | |
CN117971873A (zh) | 一种生成结构化查询语言sql的方法、装置及电子设备 | |
CN110765100A (zh) | 标签的生成方法、装置、计算机可读存储介质及服务器 | |
CN116266182A (zh) | Sql语句优化方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |