CN116955736A - 数据标准中数据约束条件推荐方法及系统 - Google Patents
数据标准中数据约束条件推荐方法及系统 Download PDFInfo
- Publication number
- CN116955736A CN116955736A CN202311188197.1A CN202311188197A CN116955736A CN 116955736 A CN116955736 A CN 116955736A CN 202311188197 A CN202311188197 A CN 202311188197A CN 116955736 A CN116955736 A CN 116955736A
- Authority
- CN
- China
- Prior art keywords
- data
- historical
- constraint conditions
- context
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000008569 process Effects 0.000 claims description 41
- 238000012216 screening Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了数据标准中数据约束条件推荐方法及系统,属于数据处理技术领域,其方法包括:在企业的历史业务数据运行记录中提取出每个数据指标的所有历史业务数据运行流;基于数据指标在所有历史业务数据流中相同部门流节点的具体指标描述值,获得数据指标在所有历史业务数据流中每个部门流节点的历史描述值集群;对历史描述值集群进行多层次属性分析,确定出数据指标在部门流节点的多层次属性约束条件;对数据指标在所有部门流节点的多层次属性约束条件进行属性约束条件汇总,获得数据指标的所有层次的属性总约束条件,当作数据指标的推荐数据标准;用以实现数据标准中的数据约束条件的高精度推荐。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及数据标准中数据约束条件推荐方法及系统。
背景技术
目前,数据标准能为业务实体的定义、关系和业务规则到技术实现之间提供清晰、标准的语义转换,提高业务和技术之间的一致性,保障数据系统能够真实反映业务事实,从而更好地支撑业务运行与经营决策,便于精细化管理。
但是,现存的数据标准中数据约束条件的推荐方法都是通过人工确定的数据属性确定数据的属性约束条件或基于数据属性及数据的频数分布之间的对比结果确定约束条件,这种方法确定出的约束条件只是实现对现有数据的单维度概括,没有考虑数据在企业内部不同部门之间的流通过程和交互范围,因此,生成的约束条件不一定能为数据在企业内不同部门之间的流通过程提供清晰、标准的语义转换,例如,公开号为“CN115344755A”、公开日为2022年11月15日、专利标题为“ 数据标准中数据约束条件推荐方法及系统”的中国发明专利,其公开了一种数据标准中数据约束条件推荐方法及系统,用以解决数据约束条件推荐处理效率较低的技术问题。其中,一种数据约束条件推荐方案,通过比较目标数据的属性类型与对比数据的属性类型、比较目标数据的频数分布与对比数据的频数分布,找到与目标数据相似的对比数据,从而确定目标数据的推荐数据约束条件,使得本申请提供的技术方案不再依赖于根据数据的元数据进行数据约束条件匹配,提高了数据约束的自动化水平和约束效率。但是,该专利虽然相比与传统的通过人工确定的数据属性确定数据的属性约束条件并生成数据标准的方法更加先进,但是,该专利确定出的约束条件只是实现对现有数据的单维度概括,没有考虑数据在企业内部不同部门之间的流通过程和交互范围,因此,生成的约束条件不一定能为数据在企业内不同部门之间的流通过程提供清晰、标准的语义转换。
因此,本发明提出了数据标准中数据约束条件推荐方法及系统。
发明内容
本发明提供数据标准中数据约束条件推荐方法及系统,用以实现数据标准中的数据约束条件的高精度推荐。
本发明提供一种数据标准中数据约束条件推荐方法,包括:
S1:基于对历史数据资源的内部运行逻辑解析过程,在企业的历史业务数据运行记录中提取出每个数据指标的所有历史业务数据运行流,其中,每个历史业务数据运行流包含多个部门流节点;
S2:基于数据指标在所有历史业务数据流中相同部门流节点的具体指标描述值,获得数据指标在所有历史业务数据流中每个部门流节点的历史描述值集群;
S3:对历史描述值集群进行多层次属性分析,确定出数据指标在部门流节点的多层次属性约束条件;
S4:对数据指标在所有部门流节点的多层次属性约束条件进行属性约束条件汇总,获得数据指标的所有层次的属性总约束条件,当作数据指标的推荐数据标准,并将推荐数据标准推送给管理者。
优选的,S1:基于对历史数据资源的内部运行逻辑解析过程,在企业的历史业务数据运行记录中提取出每个数据指标的所有历史业务数据运行流,包括:
获取企业的所有历史业务的业务架构;
在业务架构中的每个架构部门中调取出历史业务的历史数据资源;
基于对历史数据资源的内部运行逻辑解析过程,对历史数据资源进行指标解析,确定出历史数据资源中包含的所有数据指标;
基于每个历史业务的企业架构,对历史业务的企业架构中包含同一数据指标的架构部门进行业务运行流程拟合,获得每个数据指标的所有历史业务数据运行流。
优选的,基于对历史数据资源的内部运行逻辑解析过程,对历史数据资源进行指标解析,确定出历史数据资源中包含的所有数据指标,包括:
将历史数据资源的所属架构部门的预设相近部门组,当作第一筛选条件;
在数据资源库中筛选出所属架构部门符合第一筛选条件的第一参考数据资源组;
计算出历史数据资源与第一参考数据资源组中每个参考数据资源的数据相似度,包括:
;
式中,s为历史数据资源与第一参考数据资源组中当前计算的参考数据资源的数据相似度,为史数据资源中包含的数据字符总数,/>为第一参考数据资源组中当前计算的参考数据资源中包含的数据字符总数,q为历史数据资源与第一参考数据资源组中当前计算的参考数据资源中相同的数据字符总数,n为历史数据资源与第一参考数据资源组中当前计算的参考数据资源中包含的字符连续相同的数据段的总段数,/>为历史数据资源与第一参考数据资源组中当前计算的参考数据资源中包含的第i段字符连续相同的数据段中包含的数据字符总数;
在第一参考数据资源组中筛选出数据相似度不小于数据相似度阈值的所有参考数据资源并汇总,获得第二参考数据资源组;
基于对第二参考数据资源组和历史数据资源的内部运行逻辑解析过程,确定出历史数据资源中包含的所有数据指标。
优选的,基于对第二参考数据资源组和历史数据资源的内部运行逻辑解析过程,确定出历史数据资源中包含的所有数据指标,包括:
基于预设的逻辑解析模型,对第二参考数据资源组的参考数据资源进行内部运行逻辑解析,生成每个参考数据资源的第一运行逻辑脉络,其中,第一运行逻辑脉络由多个第一数据资源块相互连接构成,基于第一运行逻辑脉络确定出每个第一数据资源块对应的参考数据指标;
基于预设的逻辑解析模型,对历史数据资源进行内部运行逻辑解析,生成第二运行逻辑脉络,其中,第二运行逻辑脉络由多个第二数据资源块相互连接构成;
将每个第一运行逻辑脉络和第二运行逻辑脉络进行比对,并结合每个第一运行逻辑脉络中包含的参考数据指标,确定出第二运行逻辑脉络中每个第二数据资源块的多个疑似数据指标;
基于每个第二数据资源块的多个疑似数据指标和第一运行逻辑脉络,确定出历史数据资源中包含的所有数据指标。
优选的,将每个第一运行逻辑脉络和第二运行逻辑脉络进行比对,并结合每个第一运行逻辑脉络中包含的参考数据指标,确定出第二运行逻辑脉络中每个第二数据资源块的多个疑似数据指标,包括:
确定出第一运行逻辑脉络中每个第一数据资源块的运行序数和第二运行逻辑脉络中每个第二数据资源块的运行序数;
计算出运行序数相同的第一数据资源块和第二数据资源块的数据相似度,将第一运行脉络逻辑和第二运行脉络逻辑中所有相同运行序数对应的数据相似度的均值,当作第一运行逻辑脉络和第二运行逻辑脉络的相似度;
将相似度超出相似度阈值的所有第一运行逻辑脉络中每个运行序数的所有第一数据资源块对应的参考数据指标,当作第二运行逻辑脉络中相同运行序数的第二数据资源块的所有疑似数据指标。
优选的,基于每个第二数据资源块的多个疑似数据指标和第一运行逻辑脉络,确定出历史数据资源中包含的所有数据指标,包括:
基于每个第二数据资源块的多个疑似数据指标,生成第二运行逻辑脉络的多种疑似运行逻辑脉络;
将第二运行逻辑脉络和多种疑似运行逻辑脉络汇总获得参考运行逻辑脉络组,并确定出每个第一运行逻辑脉络与参考运行逻辑脉络组之间的综合脉络相似度,并将综合脉络相似度超出脉络相似度阈值的第一运行脉络逻辑中的所有第一数据资源块的参考数据指标,当作历史数据资源中包含的所有数据指标。
优选的,S2:基于数据指标在所有历史业务数据流中相同部门流节点的具体指标描述值,获得数据指标在所有历史业务数据流中每个部门流节点的历史描述值集群,包括:
在数据指标的所有历史业务数据流中确定出多组相同部门流节点组;
将数据指标在单个相同部门流节点组中包含的部门流节点的所属历史业务数据流中的具体指标描述值汇总,获得数据指标在相同部门流节点组中包含的部门流节点的历史描述值集群。
优选的,S3:对历史描述值集群进行多层次属性分析,确定出数据指标在部门流节点的多层次属性约束条件,包括:
在历史描述值集群中提取出管理层次属性值集群和技术层次属性值集群和业务层次属性值集群;
对管理层次属性值集群进行范围概括,获得管理层次属性约束条件;
对技术层次属性值集群进行范围概括,获得技术层次属性约束条件;
对业务层次属性值集群进行范围概括,获得业务层次属性约束条件。
优选的,S4:对数据指标在所有部门流节点的多层次属性约束条件进行属性约束条件汇总,获得数据指标的所有层次的属性总约束条件,当作数据指标的推荐数据标准,包括:
将数据指标在所有部门流节点的多层次属性约束条件中的管理层次属性约束条件进行范围概括,获得数据指标的管理层次的属性总约束条件;
将数据指标在所有部门流节点的多层次属性约束条件中的技术层次属性约束条件进行范围概括,获得数据指标的技术层次的属性总约束条件;
将数据指标在所有部门流节点的多层次属性约束条件中的业务层次属性约束条件进行范围概括,获得数据指标的业务层次的属性总约束条件;
将数据指标的管理层次的属性总约束条件、技术层次的属性总约束条件、业务层次的属性总约束条件,当作数据指标的推荐数据标准,并将推荐数据标准推送给管理者。
本发明提供数据标准中数据约束条件推荐系统,包括:
提取模块,用于基于对历史数据资源的内部运行逻辑解析过程,在企业的历史业务数据运行记录中提取出每个数据指标的所有历史业务数据运行流,其中,每个历史业务数据运行流包含多个部门流节点;
获取模块,用于基于数据指标在所有历史业务数据流中相同部门流节点的具体指标描述值,获得数据指标在所有历史业务数据流中每个部门流节点的历史描述值集群;
分析模块,用于对历史描述值集群进行多层次属性分析,确定出数据指标在部门流节点的多层次属性约束条件;
汇总模块,用于对数据指标在所有部门流节点的多层次属性约束条件进行属性约束条件汇总,获得数据指标的所有层次的属性总约束条件,当作数据指标的推荐数据标准,并将推荐数据标准推送给管理者。
本发明区别于现有技术的有益效果为:通过对历史数据资源的内部运行逻辑的解析,确定出不同数据指标在不同历史业务数据运行流中的历史描述值集群,并通过对历史描述值集群的多层次属性分析,实现对数据指标的多个层次属性的历史运行共性分析,也实现对其多层次属性值的约束条件的准确分析概括,进而获得包含数据指标的所有层次的属性总约束条件的推荐数据标准,实现数据标准中的数据约束条件的高精度生成和推荐,实现对数据指标的现有历史数据的多维度概括,考虑了数据在企业内部不同部门之间的流通过程和交互范围,因此,生成的约束条件能为数据在企业内不同部门之间的流通过程提供清晰、标准的语义转换标准。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中的数据标准中数据约束条件推荐方法流程图;
图2为本发明实施例中的数据标准中数据约束条件推荐系统示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:本发明提供了一种数据标准中数据约束条件推荐方法,参考图1,包括:
S1:基于对历史数据资源(即为企业业务运行与经营决策过程中曾经涉及的数据)的内部运行逻辑解析过程(即为解析历史数据资源的内部运行逻辑的过程,内部运行逻辑即为历史数据资源在企业内部门之间传输的流程),在企业的历史业务数据运行记录(即为记录有历史数据资源在企业内部门之间传输流程的记录)中提取出每个数据指标(例如单位周期内的活跃用户数)的所有历史业务数据运行流(即为在历史业务数据运行记录中提取出的数据指标的历史数据业务的),其中,每个历史业务数据运行流包含多个部门流节点(企业内每个部门对应一个部门流节点);
S2:基于数据指标在所有历史业务数据流中相同部门流节点的具体指标描述值(即为:在历史数据资源中确定出的,数据指标的所有历史业务数据流中相同部门流节点对应的部门对该数据指标的描述方式及其表示方式,例如:描述方式为将一周内访问次数达到10次以上的用户当作活跃用户,并统计一周内的活跃用户数作为单位周期内的活跃用户数),获得数据指标在所有历史业务数据流中每个部门流节点的历史描述值集群(即为包含数据指标在所有业务数据流中的该部门流节点的具体描述值的集群);
步骤S1至S2通过对历史数据资源的内部运行逻辑的解析,确定出不同数据指标在不同历史业务数据运行流中的历史描述值集群,通过对历史数据资源的内部运行逻辑的解析,确定出不同数据指标在不同历史业务数据运行流中的历史描述值集群;
S3:对历史描述值集群进行多层次属性分析(多层次属性分析即为对历史描述值集群在多个层次的属性进行分析,多个层次例如有:在管理层次、技术层次、业务层次),确定出数据指标在部门流节点的多层次属性约束条件(即为数据指标在对应部门流节点的多个层次的属性值(例如数据指标为活跃用户数在,则其在技术层次的技术层次属性值有活跃程度属性值,其在业务层次的业务层次属性值有消费能力属性值)的约束条件,另例如数据指标为部门产出时,则其在管理层次的管理属性值可以是人力效率值);
S4:对数据指标在所有部门流节点的多层次属性约束条件进行属性约束条件汇总,获得数据指标的所有层次的属性总约束条件,当作数据指标的推荐数据标准(即为用于推荐给管理者的单个数据指标的数据标准),并将推荐数据标准推送给管理者。
步骤S3和S4通过对历史描述值集群的多层次属性分析,实现对数据指标的多个层次属性的历史运行共性分析,也实现对其多层次属性值的约束条件的准确分析概括,进而获得包含数据指标的所有层次的属性总约束条件的推荐数据标准,实现数据标准中的数据约束条件的高精度生成和推荐,实现对数据指标的现有历史数据的多维度概括,考虑了数据在企业内部不同部门之间的流通过程和交互范围,因此,生成的约束条件能为数据在企业内不同部门之间的流通过程提供清晰、标准的语义转换标准。
实施例2:在实施例1的基础上,S1:基于对历史数据资源的内部运行逻辑解析过程,在企业的历史业务数据运行记录中提取出每个数据指标的所有历史业务数据运行流,包括:
获取企业的所有历史业务(即为企业内部各部门之间曾经执行的业务活动和经营决策过程)的业务架构(即为执行历史业务的企业内部的部门之间的层级关系);
在业务架构中的每个架构部门(即为业务架构中涉及的企业内的部门)中调取出历史业务的历史数据资源;
基于对历史数据资源的内部运行逻辑解析过程,对历史数据资源进行指标解析,确定出历史数据资源中包含的所有数据指标;
基于每个历史业务的企业架构,对历史业务的企业架构中包含同一数据指标的架构部门进行业务运行流程拟合(即为将历史业务的企业架构中包含同一数据指标的架构部门,按照数据指标的历史数据资源在其间的传输顺序进行排序并以流程的形式进行拟合),获得每个数据指标的所有历史业务数据运行流。
以上过程实现了历史业务的业务资源数据的提取,并经过对历史数据资源的内部运行逻辑的解析,确定出数据指标,并对历史业务的企业架构中包含同一数据指标的架构部门进行业务运行流程拟合,实现数据指标在历史业务中的部门流转过程的流程化。
实施例3:在实施例2的基础上,基于对历史数据资源的内部运行逻辑解析过程,对历史数据资源进行指标解析,确定出历史数据资源中包含的所有数据指标,包括:
将历史数据资源的所属架构部门(即为历史数据资源来源于的架构部门)的预设相近部门组(即为预设的架构部门的多个相近部门构成的组合),当作第一筛选条件(在数据资源库中筛选出第一参考数据资源组时所依据的部门筛选条件);
在数据资源库(即为包含大量参考数据资源的数据库)中筛选出所属架构部门符合第一筛选条件的第一参考数据资源组(即为所属架构部门为第一筛选条件中的预设相近部门组中包含的架构部门的参考数据资源构成的组合);
计算出历史数据资源与第一参考数据资源组中每个参考数据资源(即为第一参考数据资源组中包含的、从数据资源库中筛选出的、用于对历史数据资源进行内部运行逻辑解析时所依据的数据资源)的数据相似度,包括:
;
式中,s为历史数据资源与第一参考数据资源组中当前计算的参考数据资源的数据相似度,为史数据资源中包含的数据字符总数,/>为第一参考数据资源组中当前计算的参考数据资源中包含的数据字符总数,q为历史数据资源与第一参考数据资源组中当前计算的参考数据资源中相同的数据字符总数,n为历史数据资源与第一参考数据资源组中当前计算的参考数据资源中包含的字符连续相同的数据段的总段数,/>为历史数据资源与第一参考数据资源组中当前计算的参考数据资源中包含的第i段字符连续相同的数据段中包含的数据字符总数;
在第一参考数据资源组中筛选出数据相似度不小于数据相似度阈值(即为预设的用于在第一参考数据资源组中筛选出与历史数据资源相似度较高的参考数据资源时,所依据的数据相似度的筛选阈值)的所有参考数据资源并汇总,获得第二参考数据资源组;
基于对第二参考数据资源组和历史数据资源的内部运行逻辑解析过程,确定出历史数据资源中包含的所有数据指标。
上述过程以所属架构部门相近的原则和数据相似度不小于相似度阈值的原则,对数据资源库中的参考数据资源进行两次筛选,尤其在第二次筛选过程中引入数据相似度这一计算量,通过准确计算出历史数据资源与第一参考数据资源组中每个参考数据资源的数据相似度,保证了最终筛选出的第二参考数据资源组与参考数据资源的数据相似度的精度较高,为后续完成对历史数据资源的内部运行逻辑解析提供了参考,进而实现对历史数据资源中的数据指标的准确提取。
实施例4:在实施例3的基础上,基于对第二参考数据资源组和历史数据资源的内部运行逻辑解析过程,确定出历史数据资源中包含的所有数据指标,包括:
基于预设的逻辑解析模型(预设的用于解析出数据资源中的运行逻辑脉络的模型,例如:lexical compiler(词法分析器)、Yacc(生成语法分析器的工具)、ANTLR(基于自顶向下的递归下降LL算法实现的语法解析器生成器)),对第二参考数据资源组的参考数据资源进行内部运行逻辑解析,生成每个参考数据资源的第一运行逻辑脉络(其表现形式为抽象语法树AST(abstract syntax tree),第一运行逻辑脉络即为包含参考数据资源在不同被处理步骤中的表现的数据资源块(即包含其具体描述值的数据)),其中,第一运行逻辑脉络由多个第一数据资源块(即为第一运行逻辑脉络对应的数据处理逻辑及顺序中每个数据处理步骤的处理对象数据)相互连接构成,基于第一运行逻辑脉络确定出每个第一数据资源块对应的参考数据指标(基于第一运行逻辑脉络,检索第一运行逻辑脉络与第一数据资源块-参考数据指标对应表,确定出参考数据指标,参考数据指标即为第一数据资源块表述的数据指标);
基于预设的逻辑解析模型,对历史数据资源进行内部运行逻辑解析,生成第二运行逻辑脉络(即为包含历史数据资源在不同被处理步骤中的表现的数据资源块(即包含其具体描述值的数据)),其中,第二运行逻辑脉络由多个第二数据资源块(即为第二运行逻辑脉络对应的数据处理逻辑及顺序中每个数据处理步骤的处理对象数据)相互连接构成;
将每个第一运行逻辑脉络和第二运行逻辑脉络进行比对,并结合每个第一运行逻辑脉络中包含的参考数据指标,确定出第二运行逻辑脉络中每个第二数据资源块的多个疑似数据指标(即为经过前述对比过程,并结合每个第一运行逻辑脉络中包含的参考数据指标,确定出的第二数据资源块中疑似为数据指标的指标信息);
基于每个第二数据资源块的多个疑似数据指标和第一运行逻辑脉络,确定出历史数据资源中包含的所有数据指标。
基于预设的逻辑解析模型,对参考数据资源和历史数据资源进行分别解析,并生成其各自的运行逻辑脉络,将二者的运行逻辑脉络进行对比,可以确定出第二数据资源块的多个疑似数据指标,再次结合第一运行逻辑脉络,实现对历史数据资源中包含的所有数据指标的准确确定。
实施例5:在实施例4的基础上,将每个第一运行逻辑脉络和第二运行逻辑脉络进行比对,并结合每个第一运行逻辑脉络中包含的参考数据指标,确定出第二运行逻辑脉络中每个第二数据资源块的多个疑似数据指标,包括:
确定出第一运行逻辑脉络中每个第一数据资源块的运行序数(即为第一数据资源块在第一运行逻辑脉络中被遍历的顺序序数)和第二运行逻辑脉络中每个第二数据资源块的运行序数(即为第二数据资源块在第二运行逻辑脉络中被遍历的顺序序数);
计算出运行序数相同的第一数据资源块和第二数据资源块的数据相似度(即为确定出运行序数相同的第一数据资源块和第二数据资源块中包含的相同的数据字符总数,将2倍相同的数据字符总数与第一数据资源块和第二数据资源块的数据字符总数之和的比值,当作第一比值,将相同数据字符的字符总数分别与第一数据资源块和第二数据资源块的数据字符总数的比值,当作第二比值,将第一比值和所有第二比值的均值,当作运行序数相同的第一数据资源块和第二数据资源块的数据相似度),将第一运行脉络逻辑和第二运行脉络逻辑中所有相同运行序数对应的数据相似度的均值,当作第一运行逻辑脉络和第二运行逻辑脉络的相似度;
将相似度超出相似度阈值(即为用于确定第二数据资源块的所有疑似数据指标时,对第一运行逻辑脉络中的参考数据指标进行筛选时所依据的相似度的筛选阈值)的所有第一运行逻辑脉络中每个运行序数的所有第一数据资源块对应的参考数据指标,当作第二运行逻辑脉络中相同运行序数的第二数据资源块的所有疑似数据指标。
通过将第一运行逻辑脉络中和第二运行逻辑脉络中,所有运行序数相同的第一数据资源块和第二数据资源块之间的数据相似度的均值,当作第一运行逻辑脉络和第二运行逻辑脉络的相似度,并将相似度与相似度阈值进行比较,实现对确定第二运行逻辑脉络的疑似数据指标时所参考的第一运行逻辑脉络的筛选,并基于筛选后的第一运行逻辑脉络中的参考数据指标,以运行序数相同的原则,确定出第二运行逻辑脉络中每个第二数据资源块的疑似数据指标。
实施例6:在实施例4的基础上,基于每个第二数据资源块的多个疑似数据指标和第一运行逻辑脉络,确定出历史数据资源中包含的所有数据指标,包括:
基于每个第二数据资源块的多个疑似数据指标,生成第二运行逻辑脉络的多种疑似运行逻辑脉络(即为由第二运行逻辑脉络中的所有第二数据资源块的疑似数据指标,按照所有第二数据资源块在第二运行逻辑脉络中的顺序进行排序并连接后获得的脉络);
将第二运行逻辑脉络和多种疑似运行逻辑脉络汇总获得参考运行逻辑脉络组,并确定出每个第一运行逻辑脉络与参考运行逻辑脉络组之间的综合脉络相似度,并将综合脉络相似度(表征两个脉络的相似程度的数值)超出脉络相似度阈值(即为预设的用于在确定历史数据资源中的数据指标时,对第一运行脉络逻辑进行筛选时所依据的综合脉络相似度的筛选阈值)的第一运行脉络逻辑中的所有第一数据资源块的参考数据指标,当作历史数据资源中包含的所有数据指标。
该实施例中,确定出每个第一运行逻辑脉络与参考运行逻辑脉络组之间的综合脉络相似度,包括:
确定出每个第一运行逻辑脉络与参考运行逻辑脉络组中每个参考运行逻辑脉络(即为参考运行逻辑脉络组中包含的运行逻辑脉络)中包含的相同的数据指标总数,与当前计算的第一运行逻辑脉络中的数据指标总数的比值,以及与参考运行逻辑脉络组中当前计算的参考运行逻辑脉络中的数据指标总数的比值;
将两个比值的均值,当作当前计算的第一运行逻辑脉络和参考运行逻辑脉络组中当前计算的参考运行逻辑脉络之间的相似度;
将当前计算的第一运行逻辑脉络和参考运行逻辑脉络组中所有参考运行逻辑脉络之间的相似度的均值,当作当前计算的第一运行逻辑脉络和参考运行逻辑脉络组之间的综合脉络相似度。
上述过程,通过计算第一运行逻辑脉络与由第二运行逻辑脉络和第二运行逻辑脉络的多种疑似运行逻辑脉络汇总获得的参考运行逻辑脉络组之间的综合脉络相似度,并将其与脉络相似度阈值比较,实现对第一运行逻辑脉络的最后一次筛选,即筛选出最终用于确定第二运行逻辑脉络中包含的数据指标时直接依据的第一运行逻辑脉络,进而实现对第二运行逻辑脉络中包含的数据指标的准确确定。
实施例7:在实施例1的基础上,S2:基于数据指标在所有历史业务数据流中相同部门流节点的具体指标描述值,获得数据指标在所有历史业务数据流中每个部门流节点的历史描述值集群,包括:
在数据指标的所有历史业务数据流中确定出多组相同部门流节点组(即为包含所有历史业务数据流中包含的相同的部门流节点的组合);
将数据指标在单个相同部门流节点组中包含的部门流节点的所属历史业务数据流(即为部门流节点属于的历史业务数据流)中的具体指标描述值汇总,获得数据指标在相同部门流节点组中包含的部门流节点的历史描述值集群。
以上过程实现对数据指标在所有历史业务数据流中相同部门流节点的具体指标描述值的集成汇总。
实施例8:在实施例1的基础上,S3:对历史描述值集群进行多层次属性分析,确定出数据指标在部门流节点的多层次属性约束条件,包括:
在历史描述值集群中提取出管理层次属性值集群(即为包含数据指标在管理层次的属性值的集群)和技术层次属性值集群(即为包含数据指标在技术层次的属性值的集群)和业务层次属性值集群(即为包含数据指标在业务层次的属性值的集群);
对管理层次属性值集群进行范围概括,获得管理层次属性约束条件(即为将管理层次属性值集群中包含的所有管理层次属性值当作数据指标在管理层次属性的取值范围);
对技术层次属性值集群进行范围概括,获得技术层次属性约束条件(即为将技术层次属性值集群中包含的所有技术层次属性值当作数据指标在技术层次属性的取值范围);
对业务层次属性值集群进行范围概括,获得业务层次属性约束条件(即为将业务层次属性值集群中包含的所有业务层次属性值当作数据指标在业务层次属性的取值范围)。
上述过程实现对历史描述值集群在管理层次、技术层次、业务层次的多层次取值范围概括,进而生成数据指标分别在管理层次、技术层次、业务层次的管理层次属性约束条件、技术层次属性约束条件、业务层次属性约束条件。
实施例9:在实施例1的基础上,S4:对数据指标在所有部门流节点的多层次属性约束条件进行属性约束条件汇总,获得数据指标的所有层次的属性总约束条件,当作数据指标的推荐数据标准,包括:
将数据指标在所有部门流节点的多层次属性约束条件中的管理层次属性约束条件进行范围概括,获得数据指标的管理层次的属性总约束条件(即为将数据指标在所有部门流节点的多层次属性约束条件中的管理层次属性约束条件中的取值范围汇总后的取值范围,当作数据指标在管理层次属性的取值范围);
将数据指标在所有部门流节点的多层次属性约束条件中的技术层次属性约束条件进行范围概括,获得数据指标的技术层次的属性总约束条件(即为将数据指标在所有部门流节点的多层次属性约束条件中的技术层次属性约束条件中的取值范围汇总后的取值范围,当作数据指标在技术层次属性的取值范围);
将数据指标在所有部门流节点的多层次属性约束条件中的业务层次属性约束条件进行范围概括,获得数据指标的业务层次的属性总约束条件(即为将数据指标在所有部门流节点的多层次属性约束条件中的业务层次属性约束条件中的取值范围汇总后的取值范围,当作数据指标在业务层次属性的取值范围);
将数据指标的管理层次的属性总约束条件、技术层次的属性总约束条件、业务层次的属性总约束条件,当作数据指标的推荐数据标准,并将推荐数据标准推送给管理者。
以上过程实现对数据指标在所有部门流节点的多层次属性约束条件按照层次进行分别汇总,获得数据指标在多个层次的属性总约束条件以及对应的推荐数据标准,即完成数据标准的高精度推荐。
实施例10:本发明提供了数据标准中数据约束条件推荐系统,参考图2,包括:
提取模块,用于基于对历史数据资源的内部运行逻辑解析过程,在企业的历史业务数据运行记录中提取出每个数据指标的所有历史业务数据运行流,其中,每个历史业务数据运行流包含多个部门流节点;
获取模块,用于基于数据指标在所有历史业务数据流中相同部门流节点的具体指标描述值,获得数据指标在所有历史业务数据流中每个部门流节点的历史描述值集群;
分析模块,用于对历史描述值集群进行多层次属性分析,确定出数据指标在部门流节点的多层次属性约束条件;
汇总模块,用于对数据指标在所有部门流节点的多层次属性约束条件进行属性约束条件汇总,获得数据指标的所有层次的属性总约束条件,当作数据指标的推荐数据标准,并将推荐数据标准推送给管理者。
通过对历史数据资源的内部运行逻辑的解析,确定出不同数据指标在不同历史业务数据运行流中的历史描述值集群,并通过对历史描述值集群的多层次属性分析,实现对数据指标的多个层次属性的历史运行共性分析,也实现对其多层次属性值的约束条件的准确分析概括,进而获得包含数据指标的所有层次的属性总约束条件的推荐数据标准,实现数据标准中的数据约束条件的高精度生成和推荐,实现对数据指标的现有历史数据的多维度概括,考虑了数据在企业内部不同部门之间的流通过程和交互范围,因此,生成的约束条件能为数据在企业内不同部门之间的流通过程提供清晰、标准的语义转换标准。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.数据标准中数据约束条件推荐方法,其特征在于,包括:
S1:基于对历史数据资源的内部运行逻辑解析过程,在企业的历史业务数据运行记录中提取出每个数据指标的所有历史业务数据运行流,其中,每个历史业务数据运行流包含多个部门流节点;
S2:基于数据指标在所有历史业务数据流中相同部门流节点的具体指标描述值,获得数据指标在所有历史业务数据流中每个部门流节点的历史描述值集群;
S3:对历史描述值集群进行多层次属性分析,确定出数据指标在部门流节点的多层次属性约束条件;
S4:对数据指标在所有部门流节点的多层次属性约束条件进行属性约束条件汇总,获得数据指标的所有层次的属性总约束条件,当作数据指标的推荐数据标准,并将推荐数据标准推送给管理者。
2.根据权利要求1所述的数据标准中数据约束条件推荐方法,其特征在于,S1:基于对历史数据资源的内部运行逻辑解析过程,在企业的历史业务数据运行记录中提取出每个数据指标的所有历史业务数据运行流,包括:
获取企业的所有历史业务的业务架构;
在业务架构中的每个架构部门中调取出历史业务的历史数据资源;
基于对历史数据资源的内部运行逻辑解析过程,对历史数据资源进行指标解析,确定出历史数据资源中包含的所有数据指标;
基于每个历史业务的企业架构,对历史业务的企业架构中包含同一数据指标的架构部门进行业务运行流程拟合,获得每个数据指标的所有历史业务数据运行流。
3.根据权利要求2所述的数据标准中数据约束条件推荐方法,其特征在于,基于对历史数据资源的内部运行逻辑解析过程,对历史数据资源进行指标解析,确定出历史数据资源中包含的所有数据指标,包括:
将历史数据资源的所属架构部门的预设相近部门组,当作第一筛选条件;
在数据资源库中筛选出所属架构部门符合第一筛选条件的第一参考数据资源组;
计算出历史数据资源与第一参考数据资源组中每个参考数据资源的数据相似度,包括:
;
式中,s为历史数据资源与第一参考数据资源组中当前计算的参考数据资源的数据相似度,为史数据资源中包含的数据字符总数,/>为第一参考数据资源组中当前计算的参考数据资源中包含的数据字符总数,q为历史数据资源与第一参考数据资源组中当前计算的参考数据资源中相同的数据字符总数,n为历史数据资源与第一参考数据资源组中当前计算的参考数据资源中包含的字符连续相同的数据段的总段数,/>为历史数据资源与第一参考数据资源组中当前计算的参考数据资源中包含的第i段字符连续相同的数据段中包含的数据字符总数;
在第一参考数据资源组中筛选出数据相似度不小于数据相似度阈值的所有参考数据资源并汇总,获得第二参考数据资源组;
基于对第二参考数据资源组和历史数据资源的内部运行逻辑解析过程,确定出历史数据资源中包含的所有数据指标。
4.根据权利要求3所述的数据标准中数据约束条件推荐方法,其特征在于,基于对第二参考数据资源组和历史数据资源的内部运行逻辑解析过程,确定出历史数据资源中包含的所有数据指标,包括:
基于预设的逻辑解析模型,对第二参考数据资源组的参考数据资源进行内部运行逻辑解析,生成每个参考数据资源的第一运行逻辑脉络,其中,第一运行逻辑脉络由多个第一数据资源块相互连接构成,基于第一运行逻辑脉络确定出每个第一数据资源块对应的参考数据指标;
基于预设的逻辑解析模型,对历史数据资源进行内部运行逻辑解析,生成第二运行逻辑脉络,其中,第二运行逻辑脉络由多个第二数据资源块相互连接构成;
将每个第一运行逻辑脉络和第二运行逻辑脉络进行比对,并结合每个第一运行逻辑脉络中包含的参考数据指标,确定出第二运行逻辑脉络中每个第二数据资源块的多个疑似数据指标;
基于每个第二数据资源块的多个疑似数据指标和第一运行逻辑脉络,确定出历史数据资源中包含的所有数据指标。
5.根据权利要求4所述的数据标准中数据约束条件推荐方法,其特征在于,将每个第一运行逻辑脉络和第二运行逻辑脉络进行比对,并结合每个第一运行逻辑脉络中包含的参考数据指标,确定出第二运行逻辑脉络中每个第二数据资源块的多个疑似数据指标,包括:
确定出第一运行逻辑脉络中每个第一数据资源块的运行序数和第二运行逻辑脉络中每个第二数据资源块的运行序数;
计算出运行序数相同的第一数据资源块和第二数据资源块的数据相似度,将第一运行脉络逻辑和第二运行脉络逻辑中所有相同运行序数对应的数据相似度的均值,当作第一运行逻辑脉络和第二运行逻辑脉络的相似度;
将相似度超出相似度阈值的所有第一运行逻辑脉络中每个运行序数的所有第一数据资源块对应的参考数据指标,当作第二运行逻辑脉络中相同运行序数的第二数据资源块的所有疑似数据指标。
6.根据权利要求4所述的数据标准中数据约束条件推荐方法,其特征在于,基于每个第二数据资源块的多个疑似数据指标和第一运行逻辑脉络,确定出历史数据资源中包含的所有数据指标,包括:
基于每个第二数据资源块的多个疑似数据指标,生成第二运行逻辑脉络的多种疑似运行逻辑脉络;
将第二运行逻辑脉络和多种疑似运行逻辑脉络汇总获得参考运行逻辑脉络组,并确定出每个第一运行逻辑脉络与参考运行逻辑脉络组之间的综合脉络相似度,并将综合脉络相似度超出脉络相似度阈值的第一运行脉络逻辑中的所有第一数据资源块的参考数据指标,当作历史数据资源中包含的所有数据指标。
7.根据权利要求1所述的数据标准中数据约束条件推荐方法,其特征在于,S2:基于数据指标在所有历史业务数据流中相同部门流节点的具体指标描述值,获得数据指标在所有历史业务数据流中每个部门流节点的历史描述值集群,包括:
在数据指标的所有历史业务数据流中确定出多组相同部门流节点组;
将数据指标在单个相同部门流节点组中包含的部门流节点的所属历史业务数据流中的具体指标描述值汇总,获得数据指标在相同部门流节点组中包含的部门流节点的历史描述值集群。
8.根据权利要求1所述的数据标准中数据约束条件推荐方法,其特征在于,S3:对历史描述值集群进行多层次属性分析,确定出数据指标在部门流节点的多层次属性约束条件,包括:
在历史描述值集群中提取出管理层次属性值集群和技术层次属性值集群和业务层次属性值集群;
对管理层次属性值集群进行范围概括,获得管理层次属性约束条件;
对技术层次属性值集群进行范围概括,获得技术层次属性约束条件;
对业务层次属性值集群进行范围概括,获得业务层次属性约束条件。
9.根据权利要求1所述的数据标准中数据约束条件推荐方法,其特征在于,S4:对数据指标在所有部门流节点的多层次属性约束条件进行属性约束条件汇总,获得数据指标的所有层次的属性总约束条件,当作数据指标的推荐数据标准,包括:
将数据指标在所有部门流节点的多层次属性约束条件中的管理层次属性约束条件进行范围概括,获得数据指标的管理层次的属性总约束条件;
将数据指标在所有部门流节点的多层次属性约束条件中的技术层次属性约束条件进行范围概括,获得数据指标的技术层次的属性总约束条件;
将数据指标在所有部门流节点的多层次属性约束条件中的业务层次属性约束条件进行范围概括,获得数据指标的业务层次的属性总约束条件;
将数据指标的管理层次的属性总约束条件、技术层次的属性总约束条件、业务层次的属性总约束条件,当作数据指标的推荐数据标准,并将推荐数据标准推送给管理者。
10.数据标准中数据约束条件推荐系统,其特征在于,包括:
提取模块,用于基于对历史数据资源的内部运行逻辑解析过程,在企业的历史业务数据运行记录中提取出每个数据指标的所有历史业务数据运行流,其中,每个历史业务数据运行流包含多个部门流节点;
获取模块,用于基于数据指标在所有历史业务数据流中相同部门流节点的具体指标描述值,获得数据指标在所有历史业务数据流中每个部门流节点的历史描述值集群;
分析模块,用于对历史描述值集群进行多层次属性分析,确定出数据指标在部门流节点的多层次属性约束条件;
汇总模块,用于对数据指标在所有部门流节点的多层次属性约束条件进行属性约束条件汇总,获得数据指标的所有层次的属性总约束条件,当作数据指标的推荐数据标准,并将推荐数据标准推送给管理者。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311188197.1A CN116955736B (zh) | 2023-09-15 | 2023-09-15 | 数据标准中数据约束条件推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311188197.1A CN116955736B (zh) | 2023-09-15 | 2023-09-15 | 数据标准中数据约束条件推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116955736A true CN116955736A (zh) | 2023-10-27 |
CN116955736B CN116955736B (zh) | 2023-12-01 |
Family
ID=88456770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311188197.1A Active CN116955736B (zh) | 2023-09-15 | 2023-09-15 | 数据标准中数据约束条件推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116955736B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017041541A1 (zh) * | 2015-09-08 | 2017-03-16 | 北京邮电大学 | 推送推荐信息的方法、服务器及存储介质 |
CN110738464A (zh) * | 2019-10-14 | 2020-01-31 | 张素芬 | 一种基于实时变动数据的企业数据化管理系统及方法 |
CN110851729A (zh) * | 2019-11-19 | 2020-02-28 | 深圳前海微众银行股份有限公司 | 资源信息推荐方法、装置、设备及计算机存储介质 |
WO2020124442A1 (zh) * | 2018-12-19 | 2020-06-25 | 深圳市欢太科技有限公司 | 推送方法及相关产品 |
CN114266443A (zh) * | 2021-11-29 | 2022-04-01 | 于施洋 | 数据评估方法和装置、电子设备、存储介质 |
CN114329280A (zh) * | 2021-12-31 | 2022-04-12 | 中国电信股份有限公司 | 用于资源推荐的方法及装置、存储介质及电子设备 |
CN115344755A (zh) * | 2022-08-16 | 2022-11-15 | 北京亿信华辰软件有限责任公司 | 数据标准中数据约束条件推荐方法及系统 |
CN116680494A (zh) * | 2023-05-31 | 2023-09-01 | 中国工商银行股份有限公司 | 应用推荐页面的生成方法、装置、存储介质以及电子设备 |
-
2023
- 2023-09-15 CN CN202311188197.1A patent/CN116955736B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017041541A1 (zh) * | 2015-09-08 | 2017-03-16 | 北京邮电大学 | 推送推荐信息的方法、服务器及存储介质 |
WO2020124442A1 (zh) * | 2018-12-19 | 2020-06-25 | 深圳市欢太科技有限公司 | 推送方法及相关产品 |
CN110738464A (zh) * | 2019-10-14 | 2020-01-31 | 张素芬 | 一种基于实时变动数据的企业数据化管理系统及方法 |
CN110851729A (zh) * | 2019-11-19 | 2020-02-28 | 深圳前海微众银行股份有限公司 | 资源信息推荐方法、装置、设备及计算机存储介质 |
CN114266443A (zh) * | 2021-11-29 | 2022-04-01 | 于施洋 | 数据评估方法和装置、电子设备、存储介质 |
CN114329280A (zh) * | 2021-12-31 | 2022-04-12 | 中国电信股份有限公司 | 用于资源推荐的方法及装置、存储介质及电子设备 |
CN115344755A (zh) * | 2022-08-16 | 2022-11-15 | 北京亿信华辰软件有限责任公司 | 数据标准中数据约束条件推荐方法及系统 |
CN116680494A (zh) * | 2023-05-31 | 2023-09-01 | 中国工商银行股份有限公司 | 应用推荐页面的生成方法、装置、存储介质以及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116955736B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khalilian et al. | Data stream clustering by divide and conquer approach based on vector model | |
CN111191125A (zh) | 一种基于标签化的数据分析方法 | |
CN111552813A (zh) | 一种基于电网全业务数据的电力知识图谱构建方法 | |
US8661016B2 (en) | Methods and apparatus for specifying and processing descriptive queries for data sources | |
Baralis et al. | CAS-Mine: providing personalized services in context-aware applications by means of generalized rules | |
CN111382155B (zh) | 一种数据仓库的数据处理方法、电子设备及介质 | |
CN117875293A (zh) | 一种业务表单模板快速数字化的生成方法 | |
CN116955736B (zh) | 数据标准中数据约束条件推荐方法及系统 | |
CN103425716B (zh) | 一种数据挖掘中基于命题逻辑的主特征分析方法及系统 | |
Hamidi et al. | Analysis and evaluation of a framework for sampling database in recommenders | |
CN111522819A (zh) | 一种树型结构数据汇总的方法及系统 | |
US20110137842A1 (en) | Method for constructing a tree of linear classifiers to predict a quantitative variable | |
CN113641705B (zh) | 一种基于计算引擎的营销处置规则引擎方法 | |
CN116883035A (zh) | 一种基于用户分群统计的业务匹配方法 | |
CN115688729A (zh) | 一种输变电工程造价数据集成管理系统及其方法 | |
CN115660730A (zh) | 基于分类算法的流失用户分析方法及系统 | |
CN112559854A (zh) | 一种分类方法及装置 | |
CN114722088A (zh) | 一种基于机器学习模型样本生成的在线近似查询方法 | |
CN115292274A (zh) | 一种数据仓库主题模型构建方法和系统 | |
CN109976271B (zh) | 一种利用信息表征方法计算信息结构有序度的方法 | |
CN110737731B (zh) | 一种基于决策树的公积金用户数据细化分析系统及方法 | |
Li et al. | rLLM: Relational table learning with LLMs | |
CN118260273B (zh) | 一种基于企业数据的数据库存储优化方法、系统及介质 | |
CN114943004B (zh) | 属性图查询方法、属性图查询装置以及存储介质 | |
CN103399897B (zh) | 一种基于语义Web服务聚类的服务集特征量提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |