CN114443854A - 多源异构数据的处理方法、装置、计算机设备及存储介质 - Google Patents
多源异构数据的处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114443854A CN114443854A CN202111646837.XA CN202111646837A CN114443854A CN 114443854 A CN114443854 A CN 114443854A CN 202111646837 A CN202111646837 A CN 202111646837A CN 114443854 A CN114443854 A CN 114443854A
- Authority
- CN
- China
- Prior art keywords
- service
- data
- service domain
- domain
- business
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 27
- 230000004927 fusion Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims description 35
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000002688 persistence Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 15
- 238000007726 management method Methods 0.000 description 14
- 238000013461 design Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000010354 integration Effects 0.000 description 8
- 238000011161 development Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011158 quantitative evaluation Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004989 laser desorption mass spectroscopy Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013068 supply chain management Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及知识图谱领域技术领域,特别是涉及多源异构数据的处理方法、装置、计算机设备及存储介质。方法包括从可信源系统中获取业务数据;其中,所述可信源系统包括各个业务域的终端所使用的业务系统;根据所述业务数据构建知识图谱;其中,所述知识图谱能够指示不同业务域的业务数据与业务域指标的关系;根据所述知识图谱,获取待融合的业务域的资源实体及所述资源实体的关系,以构建业务域知识图谱库;基于所述业务域知识图谱库执行跨业务域及跨资源实体的业务域信息同步、融合及共享操作。本发明能够对于内外部不同组织、跨业务领域的信息进行高效提取,以及快速地迭代式地整合为业务知识。
Description
技术领域
本发明涉及知识图谱领域技术领域,特别是涉及多源异构数据的处理方法、装置、计算机设备及存储介质。
背景技术
随着AI技术的快速发展和应用,科技型企业的技术路线变革速度加快,具备优势技术的科技公司通过单业务线单应用场景的支点,向产业链上下游快速产生了虹吸效应。在此背景下,上下游知识信息聚集爆炸,IT产品线需要在短期内快速扩充,IT技术的应用场景也会快速扩大,这对于不同领域的知识获取、融合及分析,提出了高效、辅助决策等需求。
伴随业务线的快速扩张兼并而来的,往往是各发展阶段各内外部组织的信息系统整合和信息共享。在复杂产业链的业务流程场景下,传统ERP是最成熟的实践方案。但ERP往往需要大规模的采购、部署、培训以及高成本的用户习惯、管理体系的迁移成本。在一个快速变革的业务流程的场景下,让既有系统的用户快速融入ERP,并在业务线合并后尽快发挥价值,具有很大的难度。SaaS虽然能够起到一定的去ERP效果,提升业务的灵活度,但SaaS同样与组织、用户习惯进行了深度绑定,并且不同的SaaS厂商,让各自的数据在同一企业内变成了一座座孤岛,进而产生了同样的高迁移成本问题。
在对现有技术的长期研究及实践中,本发明的发明人发现,现有技术下的研究和应用,如ERP、SaaS或其他,鲜有关注在企业快速发展的场景下企业对于内外部组织、跨业务领域的增量信息的如何高效提取,以及快速地迭代式地整合为业务知识的问题。致使现有技术对于多元异构企业信息的管理中跨领域数据的提取、整理、融合并转化为运营决策的参考指标缺乏有效且高效的手段。
发明内容
基于现有技术中存在的问题和缺点,本发明提供一种多源异构数据的处理方法、装置、计算机设备及存储介质,能够对于内外部不同组织、跨业务领域的信息进行高效提取,以及快速地迭代式地整合为业务知识。
本申请一个实施例提供一种多源异构数据的处理方法,包括:
从可信源系统中获取业务数据;其中,所述可信源系统包括各个业务域的终端所使用的业务系统;
根据所述业务数据构建知识图谱;其中,所述知识图谱能够指示不同业务域的业务数据与业务域指标的关系;
根据所述知识图谱,获取待融合的业务域的资源实体及所述资源实体的关系,以构建业务域知识图谱库;
基于所述业务域知识图谱库执行跨业务域及跨资源实体的业务域信息同步、融合及共享操作。
可选的,在所述基于所述业务域知识图谱库执行跨业务域及跨资源实体的业务域信息同步、融合及共享操作之后,还包括:
根据预先配置的各个业务域对应的业务域指标以及可信源指标,对各个业务域的业务数据质量进行校验;其中,
所述业务域指标和所述可信源指标均被配置为由用户定义的对不同业务域的业务数据进行考量的指标,所述可信源指标被用于作为所述业务域指标比对的参考标准。
可选的,所述根据所述业务数据构建知识图谱,包括:
对所述业务数据进行元数据提取,以建立标准化图数据;其中,所述标准化图数据包括元数据实体及实体关系;
根据所述标准化图数据构建业务域知识图谱。
可选的,所述对所述业务数据进行元数据提取,以建立标准化图数据,包括:
在所述业务数据为既有业务数据时,根据业务域指标模型,对所述既有业务数据进行元数据提取,以建立标准化图数据;
其中,所述业务域指标模型被配置有关联各个业务域的业务域指标,每个所述业务域指标均被赋予相应的权重。
可选的,所述对所述业务数据进行元数据提取,以建立标准化图数据,还包括:
在所述业务数据为增量业务数据时,若所述增量业务数据属于全新业务域,则对所述增量业务数据进行元数据提取,以建立新的标准化图数据;
若所述增量业务数据属于既有业务域,则对所述增量业务数据进行元数据提取;并
根据所述增量业务数据对应的业务域指标以及可信源指标,对所述元数据进行校验,根据校验结果以建立新的标准化图数据或增量合并既有的标准化图数据。
可选的,在所述对所述业务数据进行元数据提取之后,还包括:
对所述元数据进行预设数据格式转换以及持久化。
可选的,所述资源实体包括业务系统软件信息、嵌入式软件信息,以及硬件设备信息。
基于同一发明构思,本申请一个实施例还提供一种多源异构数据的处理装置,包括:
获取模块,用于从可信源系统中获取业务数据;其中,所述可信源系统包括各个业务域的终端所使用的业务系统;
第一构建模块,用于根据所述业务数据构建知识图谱;其中,所述知识图谱能够指示不同业务域的业务数据与业务域指标的关系;
第二构建模块,用于根据所述知识图谱,获取待融合的业务域的资源实体及所述资源实体的关系,以构建业务域知识图谱库;
融合模块,用于基于所述业务域知识图谱库执行跨业务域及跨资源实体的业务域信息同步、融合及共享操作。
可选的,所述的多源异构数据的处理装置,还包括:
评价模块,用于根据预先配置的各个业务域对应的业务域指标以及可信源指标,对各个业务域的业务数据质量进行校验;其中,
所述业务域指标和所述可信源指标均被配置为由用户定义的对不同业务域的业务数据进行考量的指标,所述可信源指标被用于作为所述业务域指标比对的参考标准。
基于同一发明构思,本申请一个实施例还提供一种计算机设备,包括:处理器、存储器以及存储在所述存储器上的计算机程序,所述处理器耦合所述存储器,所述处理器在工作时执行所述计算机程序以实现如上述的多源异构数据的处理方法。
基于同一发明构思,本申请一个实施例还提供一种计算机可读存储介质,所述计算机存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行上述的多源异构数据的处理方法的指令。
上述技术方案中的一个技术方案具有如下优点和有益效果:
本申请各实施例,通过知识抽取技术构建与可信源系统中获取业务数据对应的知识图谱。进一步地,根据所述知识图谱,获取待融合的业务域的资源实体及所述资源实体的关系,以构建业务域知识图谱库。基于所述业务域知识图谱库执行跨业务域及跨资源实体的业务域信息同步、融合及共享操作。基于此,本申请能够在企业的业务流程快速迭代和整合过程中,针对跨领域数据的高效提取、整理、融合并转化为运营决策的参考指标。
附图说明
本申请将结合附图对实施方式进行说明。本申请的附图仅用于描述实施例,以展示为目的。在不偏离本申请原理的条件下,本领域技术人员能够轻松地通过以下描述根据所述步骤做出其他实施例。
图1为本申请一个实施例中多源异构数据的管理系统的结构示意图;
图2为本申请一个实施例中多源异构数据的处理方法的流程示意图;
图3为本申请一个实施例中多源异构数据的处理方法的流程示意图;
图4为本申请一个实施例中核心价值流程图谱示意图;
图5为本申请一个实施例中增量业务域的图谱示意图;
图6为本申请一个实施例中基于业务领域的知识图谱构建过程示意图;
图7为本申请一个实施例中多源异构数据的处理方法的流程示意图;
图8为本申请一个实施例中基于可信源指标配置单元的图谱原理示意图;
图9为本申请一个实施例中多源异构数据的处理装置的结构示意图;
图10为本申请一个实施例中多源异构数据的处理装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图是数据结构和算法学中最强大的框架之一,它是一种由顶点和边所组成的抽象网络。在特定场景中,通过对顶点和边进行合理的定义描述,可以构建出客观世界里各类抽象实体之间关系的语义网络。
知识图谱是基于图论的最广泛的应用,常规的知识图谱在逻辑结构上分为模式层和数据层,数据层由一系列(实体、关系、实体)三元组来表达事实。模式层则定义了对于事实的描述规则。一套知识图谱的建立,一般通过知识表达,知识抽取,知识融合来完成。在多源异构的企业信息管理领域,知识图谱和图论的研究主要关注点是企业关系,即通过公开信息的爬取整理,抽取出企业间的关联信息,为尽调和监管提供分析参考。而在企业内部管理领域,研究更多聚焦于知识管理本身,将成熟企业流程化、文化等知识进行图谱构建,进而提高数据查询和流程执行的效率。
然而,过往的研究和应用鲜有关注在企业快速发展的场景下,企业对于内外部组织、跨业务领域的增量信息的提取与学习,并且快速和迭代式地整合为业务知识的效率的诉求远远领先于企业信息整合,知识图谱在此领域可以发挥更大的价值。
基于此,在本发明的一个实施例中,提供一种多源异构数据的管理系统。
如图1所示,多源异构数据的管理系统,包括中心化的业务域价值指标设计和应用模块、分布式多源知识提取架构和多源业务域图谱评价模块,它们与整体IT服务中的提供元数据的现存系统及潜在引入的新系统形成了一整套的分析体系架构。
业务域价值指标设计和应用模块,包括业务域指标和模型设计单元、数据描述规则设计单元、业务域知识图谱可视化单元、业务域指标变更日志单元和智能决策报表引擎。
其中,业务域指标和模型设计单元为用户提供了可视化的指标设计工具。用户可以定义、拖拽以及关联各类指标并形成图结构的业务域指标模型。设计完成的业务域指标模型可以指导智能决策报表引擎,对分布式多源知识提取架构中存储的数据进行提取和分析,形成可读报表。
数据描述规则设计单元用以统一指标语言,方便用户理解和系统解析。
业务域知识图谱可视化单元宏观展示了不同业务域的数据与指标关联关系,方便用户快速学习业务域知识。
业务域指标变更日志单元记录了业务域指标模型变更,方便用户追溯过去的版本。
分布式多源知识提取架构,包括可信源系统数据标注与提取单元、可信源系统管理单元、数据同步和归集服务和分布式数据存储管理。
其中,可信源系统数据标注和提取单元的主要作用是对来自可信源系统的数据进行提取和处理,处理功能包括将元数据进行抽取并统一转换成数据描述规则设计中定义的数据格式。
可信源系统管理对可以接入分布式多源知识提取架构的元数据来源系统进行管理,确定哪一些系统可以被纳入架构,是否有数据同步的权限。
数据同步和归集服务单元定期将分布式的数据进行备份和清洗,以保证微服务的稳定性和可靠性。
分布式数据存储管理单元对统一格式的数据进行了持久化,以保证上层应用对数据的分析需求。
多元业务域评价模块包括可信源指标配置单元、业务域指标比对和评价单元。
其中,可信源指标配置单元允许用户对不同领域的系统进行指标设计,并作为业务域指标比对和评价单元的参考标准。
业务域指标比对和评价单元在新图谱创建的时候,会与可信源指标配置单元中存储的参考图谱进行比对,对用户输出评价。
可信源系统,作为各个业务域的终端所使用的业务系统,包括但不限于项目管理系统、销售管理系统,实验室LIMS、供应链管理系统、人力资源系统,以及其他业务系统。可以理解的是,所述可信源系统支撑起了终端用户的日常工作,并且存储了大量的孤岛数据。
在一个实施例中,由于整合业务线的不同IT系统的数据源不仅存在数据结构的差异,还存在地域、网络配置的区别。因此,分布式多源知识提取架构,为中心化管理、分布式服务部署的模式,需要针对不同的数据源系统进行相应的配置管理。
基于此,针对分布式多源知识提取架构,对可信源系统设计了分布式数据存储和管理功能,以分治相关的系统配置和追溯查询元数据。
可信源系统的定义是整体IT系统的权限认证并可以进行数据对接的系统。它通过多源知识提取架构的中心化管理后台进行配置和赋权,并通过匹配不同环境中部署的多源知识提取服务实现数据提取、标注和清洗等工作程序。
分布式的多源知识提取服务提供元数据的查询、检索等功能,提供接口给相关应用层的服务对数据进行数据的分析或者追溯。
上述实施例实施方式充分结合知识图谱技术,运用在快速发展过程中积累的业务域成功经营指标和经验体系,能够通过知识抽取技术构建业务域知识图谱库,将核心经营的业务域实体及实体关系导入,执行跨业务域,业务线的数据挖掘,实现多元异构的业务线指标数据的快速整合和可视化分析展示。
如图2所示,基于上述实施例,本申请一个实施例提供一种多源异构数据的处理方法,包括步骤S100-步骤S400。
步骤S100:从可信源系统中获取业务数据。其中,所述可信源系统包括各个业务域的终端所使用的业务系统。
步骤S200:根据所述业务数据构建知识图谱。其中,所述知识图谱能够指示不同业务域的业务数据与业务域指标的关系。
如图3所示,步骤S200包括:
步骤S211:对所述业务数据进行元数据提取,以建立标准化图数据。其中,所述标准化图数据包括元数据实体及实体关系。
可以理解的是,在对所述业务数据进行元数据提取之后,需要对所述元数据进行预设数据格式转换以及持久化。
步骤S212:根据所述标准化图数据构建业务域知识图谱。
在一个实施例中,在所述业务数据为既有业务数据时,根据业务域指标模型,对所述既有业务数据进行元数据提取,以建立标准化图数据。
其中,所述业务域指标模型被配置有关联各个业务域的业务域指标,每个所述业务域指标均被赋予相应的权重。
围绕具体的业务线融合方式,基于图1中业务域知识图谱可视化单元,可以快速构建出决策所需的指标层次以及关联业务域的考量指标。例如:
业务线整合时构建效率指标模型时,可以通过人工定义或者决策系统导入的方式,在业务域指标和模型设计的人机界面,定义该模型的名称,版本以及关联的各个业务领域的效率相关指标,并赋予不同的权重,进而形成了经营指标-权重-业务域指标的三元组。进一步地,指导分布式多源知识提取架构对业务域元数据进行提取,以及指导元数据所存在的系统的提取模式与规则进行设计。
具体到业务域指标中,与分布式多源知识提取架构归集的数据会呈现在可视化的图谱面板中,供分析系统的用户进行拖拽,关联和制定,最后形成一套基于图的业务线经营指标模型,如图4所示。
在一个实施例中,在所述业务数据为增量业务数据时,若所述增量业务数据属于全新业务域,则对所述增量业务数据进行元数据提取,以建立新的标准化图数据。若所述增量业务数据属于既有业务域,则对所述增量业务数据进行元数据提取。
根据所述增量业务数据对应的业务域指标以及可信源指标,对所述元数据进行校验。
根据校验结果以建立新的标准化图数据或增量合并既有的标准化图数据。
如图5所示,图5为增量业务域的图谱示意图。当业务线开始整合时,针对增量引入的信息系统,通过多源提取架构对数据进行提取和归集。第一步是构建增量信息系统的知识图谱,若它是一个全新的领域,则需要单独构建新的图谱。若它是一个已有的领域,则可以首先进行数据的提取和比对,形成多元业务域的具体评价,再由多源信息提取架构决定重新构建图谱还是增量合并图谱。
如图6所示,基于业务领域的知识图谱构建过程可以举例如下。标准化的图数据构建完成后,基于对应的业务域指标模型,即可形成知识图谱。通过图1中智能决策报表引擎进行数据的清洗和计算(例如,基于业务域指标模型里的具体设计:业务域指标实体,与其关联的指标或者元数据实体,以及三元组的连接关系权重,来对存储的数据进行计算,最后在用户界面上生成报表),即可以得出增量的业务域在当前待整合业务线对整体经营的贡献。用户通过对指标的观测和分析,使用查询工具和图谱追溯工具,即可了解具体哪一条系统指标影响了整体指标或者产生了正向的收益。
步骤S300:根据所述知识图谱,获取待融合的业务域的资源实体及所述资源实体的关系,以构建业务域知识图谱库。
在一个实施例中,所述资源实体包括业务系统软件信息、嵌入式软件信息,以及硬件设备信息。
步骤S400:基于所述业务域知识图谱库执行跨业务域及跨资源实体的业务域信息同步、融合及共享操作。
如图7所示,在步骤S400之后,还包括步骤S500。
步骤S500:根据预先配置的各个业务域对应的业务域指标以及可信源指标,对各个业务域的业务数据质量进行校验。
其中,所述业务域指标和所述可信源指标均被配置为由用户定义的对不同业务域的业务数据进行考量的指标,所述可信源指标被用于作为所述业务域指标比对的参考标准。
如图8所示,图8为基于可信源指标配置单元的图谱原理。一个可信源系统内的信息结构往往代表着一个业务领域的成熟方法论,因此可以围绕该可信源系统和其所在的行业构建一套量化评价方法,其同样是基于图数据的知识图谱。在新引入分析系统的增量数据源中,构建整合的业务域指标模型要考察其评价分数,以供决策者判断业务域指标模型的合理性。
基于上述实施例,本申请能够在企业的业务流程快速迭代和整合过程中,针对跨领域数据的高效提取、整理、融合并转化为运营决策的参考指标。
如图9所示,基于同一发明构思,本申请一个实施例还提供一种多源异构数据的处理装置,包括:
获取模块10,用于从可信源系统中获取业务数据。其中,所述可信源系统包括各个业务域的终端所使用的业务系统。
第一构建模块20,用于根据所述业务数据构建知识图谱。其中,所述知识图谱能够指示不同业务域的业务数据与业务域指标的关系。
所述第一构建模块20,用于对所述业务数据进行元数据提取,以建立标准化图数据,并根据所述标准化图数据构建业务域知识图谱。其中,所述标准化图数据包括元数据实体及实体关系。
可以理解的是,在对所述业务数据进行元数据提取之后,需要对所述元数据进行预设数据格式转换以及持久化。
在一个实施例中,所述第一构建模块20,还用于在所述业务数据为既有业务数据时,根据业务域指标模型,对所述既有业务数据进行元数据提取,以建立标准化图数据。其中,所述业务域指标模型被配置有关联各个业务域的业务域指标,每个所述业务域指标均被赋予相应的权重。
围绕具体的业务线融合方式,基于图1中业务域知识图谱可视化单元,可以快速构建出决策所需的指标层次以及关联业务域的考量指标。例如:
业务线整合时构建效率指标模型时,可以通过人工定义或者决策系统导入的方式,在业务域指标和模型设计的人机界面,定义该模型的名称,版本以及关联的各个业务领域的效率相关指标,并赋予不同的权重,进而形成了经营指标-权重-业务域指标的三元组。进一步地,指导分布式多源知识提取架构对业务域元数据进行提取,以及指导元数据所存在的系统的提取模式与规则进行设计。
具体到业务域指标中,与分布式多源知识提取架构归集的数据会呈现在可视化的图谱面板中,供分析系统的用户进行拖拽,关联和制定,最后形成一套基于图的业务线经营指标模型,如图4所示。
在一个实施例中,所述第一构建模块20,还用于:
在所述业务数据为增量业务数据时,若所述增量业务数据属于全新业务域,则对所述增量业务数据进行元数据提取,以建立新的标准化图数据;
若所述增量业务数据属于既有业务域,则对所述增量业务数据进行元数据提取;
根据所述增量业务数据对应的业务域指标以及可信源指标,对所述元数据进行校验。
根据校验结果以建立新的标准化图数据或增量合并既有的标准化图数据。
如图5所示,图5为增量业务域的图谱示意图。当业务线开始整合时,针对增量引入的信息系统,通过多源提取架构对数据进行提取和归集。第一步是构建增量信息系统的知识图谱,若它是一个全新的领域,则需要单独构建新的图谱。若它是一个已有的领域,则可以首先进行数据的提取和比对,形成多元业务域的具体评价,再由多源信息提取架构决定重新构建图谱还是增量合并图谱。
如图6所示,基于业务领域的知识图谱构建过程可以举例如下。标准化的图数据构建完成后,基于对应的业务域指标模型,即可形成知识图谱。通过图1中智能决策报表引擎进行数据的清洗和计算(例如,基于业务域指标模型里的具体设计:业务域指标实体,与其关联的指标或者元数据实体,以及三元组的连接关系权重,来对存储的数据进行计算,最后在用户界面上生成报表),即可以得出增量的业务域在当前待整合业务线对整体经营的贡献。用户通过对指标的观测和分析,使用查询工具和图谱追溯工具,即可了解具体哪一条系统指标影响了整体指标或者产生了正向的收益。
第二构建模块30,用于根据所述知识图谱,获取待融合的业务域的资源实体及所述资源实体的关系,以构建业务域知识图谱库。
在一个实施例中,所述资源实体包括业务系统软件信息、嵌入式软件信息,以及硬件设备信息。
融合模块40,用于基于所述业务域知识图谱库执行跨业务域及跨资源实体的业务域信息同步、融合及共享操作。
如图10所示,所述的多源异构数据的处理装置,还包括:
评价模块50,用于根据预先配置的各个业务域对应的业务域指标以及可信源指标,对各个业务域的业务数据质量进行校验;其中,
所述业务域指标和所述可信源指标均被配置为由用户定义的对不同业务域的业务数据进行考量的指标,所述可信源指标被用于作为所述业务域指标比对的参考标准。
如图7所示,图7为基于可信源指标配置单元的图谱原理。一个可信源系统内的信息结构往往代表着一个业务领域的成熟方法论,因此可以围绕该可信源系统和其所在的行业构建一套量化评价方法,其同样是基于图数据的知识图谱。在新引入分析系统的增量数据源中,构建整合的业务域指标模型要考察其评价分数,以供决策者判断业务域指标模型的合理性。
本申请一个实施例提供一种计算机设备,包括:处理器、存储器以及存储在所述存储器上的计算机程序,所述处理器耦合所述存储器,所述处理器在工作时执行所述计算机程序以实现如上述的多源异构数据的处理方法。
本申请一个实施例提供一种计算机可读存储介质,所述计算机存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行如上述的多源异构数据的处理方法的指令。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如:同轴电缆、光纤、数据用户线(Digital Subscriber Line,DSL))或无线(例如:红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质,或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如:软盘、硬盘、磁带)、光介质(例如:数字通用光盘(Digital Versatile Disc,DVD))或半导体介质(例如:固态硬盘(Solid State Disk,SSD))等。
以上所述为本申请提供的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种多源异构数据的处理方法,其特征在于,包括:
从可信源系统中获取业务数据;其中,所述可信源系统包括各个业务域的终端所使用的业务系统;
根据所述业务数据构建知识图谱;其中,所述知识图谱能够指示不同业务域的业务数据与业务域指标的关系;
根据所述知识图谱,获取待融合的业务域的资源实体及所述资源实体的关系,以构建业务域知识图谱库;
基于所述业务域知识图谱库执行跨业务域及跨资源实体的业务域信息同步、融合及共享操作。
2.根据权利要求1所述的多源异构数据的处理方法,其特征在于,在所述基于所述业务域知识图谱库执行跨业务域及跨资源实体的业务域信息同步、融合及共享操作之后,还包括:
根据预先配置的各个业务域对应的业务域指标以及可信源指标,对各个业务域的业务数据质量进行校验;其中,
所述业务域指标和所述可信源指标均被配置为由用户定义的对不同业务域的业务数据进行考量的指标,所述可信源指标被用于作为所述业务域指标比对的参考标准。
3.根据权利要求1所述的多源异构数据的处理方法,其特征在于,所述根据所述业务数据构建知识图谱,包括:
对所述业务数据进行元数据提取,以建立标准化图数据;其中,所述标准化图数据包括元数据实体及实体关系;
根据所述标准化图数据构建业务域知识图谱。
4.根据权利要求3所述的多源异构数据的处理方法,其特征在于,所述对所述业务数据进行元数据提取,以建立标准化图数据,包括:
在所述业务数据为既有业务数据时,根据业务域指标模型,对所述既有业务数据进行元数据提取,以建立标准化图数据;
其中,所述业务域指标模型被配置有关联各个业务域的业务域指标,每个所述业务域指标均被赋予相应的权重。
5.根据权利要求4所述的多源异构数据的处理方法,其特征在于,所述对所述业务数据进行元数据提取,以建立标准化图数据,还包括:
在所述业务数据为增量业务数据时,若所述增量业务数据属于全新业务域,则对所述增量业务数据进行元数据提取,以建立新的标准化图数据;
若所述增量业务数据属于既有业务域,则对所述增量业务数据进行元数据提取;并
根据所述增量业务数据对应的业务域指标以及可信源指标,对所述元数据进行校验,根据校验结果以建立新的标准化图数据或增量合并既有的标准化图数据。
6.根据权利要求3-5任一项所述的多源异构数据的处理方法,其特征在于,在所述对所述业务数据进行元数据提取之后,还包括:
对所述元数据进行预设数据格式转换以及持久化。
7.根据权利要求1所述的多源异构数据的处理方法,其特征在于,所述资源实体包括业务系统软件信息、嵌入式软件信息,以及硬件设备信息。
8.一种多源异构数据的处理装置,其特征在于,包括:
获取模块,用于从可信源系统中获取业务数据;其中,所述可信源系统包括各个业务域的终端所使用的业务系统;
第一构建模块,用于根据所述业务数据构建知识图谱;其中,所述知识图谱能够指示不同业务域的业务数据与业务域指标的关系;
第二构建模块,用于根据所述知识图谱,获取待融合的业务域的资源实体及所述资源实体的关系,以构建业务域知识图谱库;
融合模块,用于基于所述业务域知识图谱库执行跨业务域及跨资源实体的业务域信息同步、融合及共享操作。
9.根据权利要求8所述的多源异构数据的处理装置,其特征在于,还包括:
评价模块,用于根据预先配置的各个业务域对应的业务域指标以及可信源指标,对各个业务域的业务数据质量进行校验;其中,
所述业务域指标和所述可信源指标均被配置为由用户定义的对不同业务域的业务数据进行考量的指标,所述可信源指标被用于作为所述业务域指标比对的参考标准。
10.一种计算机设备,其特征在于,包括:处理器、存储器以及存储在所述存储器上的计算机程序,所述处理器耦合所述存储器,所述处理器在工作时执行所述计算机程序以实现如权利要求1-7中任一项所述的多源异构数据的处理方法。
11.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行权利要求1-7中任一项所述的多源异构数据的处理方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111646837.XA CN114443854A (zh) | 2021-12-30 | 2021-12-30 | 多源异构数据的处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111646837.XA CN114443854A (zh) | 2021-12-30 | 2021-12-30 | 多源异构数据的处理方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114443854A true CN114443854A (zh) | 2022-05-06 |
Family
ID=81365261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111646837.XA Pending CN114443854A (zh) | 2021-12-30 | 2021-12-30 | 多源异构数据的处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114443854A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221339A (zh) * | 2022-09-20 | 2022-10-21 | 联仁健康医疗大数据科技股份有限公司 | 一种区域知识图谱的构建方法、装置、设备及介质 |
CN115829144A (zh) * | 2022-12-16 | 2023-03-21 | 华北电力大学 | 电网业务优化模型的建立方法及电子设备 |
CN116186359A (zh) * | 2023-05-04 | 2023-05-30 | 安徽宝信信息科技有限公司 | 一种高校多源异构数据的集成管理方法、系统及存储介质 |
CN116244386A (zh) * | 2023-02-10 | 2023-06-09 | 北京友友天宇系统技术有限公司 | 应用于多源异构数据存储系统的实体关联关系的识别方法 |
-
2021
- 2021-12-30 CN CN202111646837.XA patent/CN114443854A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221339A (zh) * | 2022-09-20 | 2022-10-21 | 联仁健康医疗大数据科技股份有限公司 | 一种区域知识图谱的构建方法、装置、设备及介质 |
CN115221339B (zh) * | 2022-09-20 | 2023-01-06 | 联仁健康医疗大数据科技股份有限公司 | 一种区域知识图谱的构建方法、装置、设备及介质 |
CN115829144A (zh) * | 2022-12-16 | 2023-03-21 | 华北电力大学 | 电网业务优化模型的建立方法及电子设备 |
CN115829144B (zh) * | 2022-12-16 | 2023-07-07 | 华北电力大学 | 电网业务优化模型的建立方法及电子设备 |
CN116244386A (zh) * | 2023-02-10 | 2023-06-09 | 北京友友天宇系统技术有限公司 | 应用于多源异构数据存储系统的实体关联关系的识别方法 |
CN116244386B (zh) * | 2023-02-10 | 2023-12-12 | 北京友友天宇系统技术有限公司 | 应用于多源异构数据存储系统的实体关联关系的识别方法 |
CN116186359A (zh) * | 2023-05-04 | 2023-05-30 | 安徽宝信信息科技有限公司 | 一种高校多源异构数据的集成管理方法、系统及存储介质 |
CN116186359B (zh) * | 2023-05-04 | 2023-09-01 | 安徽宝信信息科技有限公司 | 一种高校多源异构数据的集成管理方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11562025B2 (en) | Resource dependency system and graphical user interface | |
US11775898B1 (en) | Resource grouping for resource dependency system and graphical user interface | |
CN114443854A (zh) | 多源异构数据的处理方法、装置、计算机设备及存储介质 | |
WO2023123182A1 (zh) | 多源异构数据的处理方法、装置、计算机设备及存储介质 | |
CN110781236A (zh) | 一种构建政务大数据治理体系的方法 | |
CN110543571A (zh) | 用于水利信息化的知识图谱构建方法以及装置 | |
CN111611458A (zh) | 大数据治理中基于元数据和数据分析技术实现系统数据架构梳理的方法 | |
CN115757689A (zh) | 一种信息查询系统、方法及设备 | |
CN111461644A (zh) | 一种审计信息管控平台 | |
CN111563103A (zh) | 一种用于数据血缘检测方法和系统 | |
CN113407678B (zh) | 知识图谱构建方法、装置和设备 | |
CN114511353A (zh) | 数据分析方法和装置 | |
CN107704620B (zh) | 一种档案管理的方法、装置、设备和存储介质 | |
CN115510249A (zh) | 一种知识图谱的构建方法及装置、电子设备、存储介质 | |
CN113779261B (zh) | 知识图谱的质量评价方法、装置、计算机设备及存储介质 | |
CN118114664A (zh) | 社交媒体混合平台的数据处理方法、装置及电子设备 | |
CN113326261B (zh) | 数据血缘关系提取方法、装置及电子设备 | |
Petermann et al. | Graph mining for complex data analytics | |
Zhang et al. | Application of data mining technology based on data center | |
CN117453690A (zh) | 电网数据仓库的数据处理方法、装置和计算机介质 | |
CN113326345A (zh) | 基于动态本体的知识图谱分析、应用方法、平台及设备 | |
CN112750047B (zh) | 行为关系信息提取方法及装置、存储介质、电子设备 | |
Zhao et al. | Design and Implementation of Enterprise Public Data Management Platform Based on Artificial Intelligence | |
CN115203436B (zh) | 一种基于有向图数据融合的电力知识图谱构建方法和装置 | |
US11809398B1 (en) | Methods and systems for connecting data with non-standardized schemas in connected graph data exchanges |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |