CN108038181A - 一种数据处理系统及数据处理方法 - Google Patents
一种数据处理系统及数据处理方法 Download PDFInfo
- Publication number
- CN108038181A CN108038181A CN201711292030.4A CN201711292030A CN108038181A CN 108038181 A CN108038181 A CN 108038181A CN 201711292030 A CN201711292030 A CN 201711292030A CN 108038181 A CN108038181 A CN 108038181A
- Authority
- CN
- China
- Prior art keywords
- data
- database
- mpp
- databases
- processed result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24532—Query optimisation of parallel queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据处理系统及数据处理方法,该数据处理系统包括:关系型数据库、大规模并行处理MPP数据库和数据同步模块;所述关系型数据库,用于根据用户的触发,获取待处理的第一数据,其中,所述第一数据的数据量大于预设的数据量阈值;所述数据同步模块,用于从所述关系型数据库获取所述第一数据,并将所述第一数据发送给所述MPP数据库;所述MPP数据库,用于对所述第一数据进行处理,获得第一数据处理结果;所述数据同步模块,还用于从所述MPP数据库获取所述第一数据处理结果,并将所述第一数据处理结果发送给所述关系型数据库;所述关系型数据库,还用于对所述第一数据处理结果进行展示。本方案能够提高用户的使用体验。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据处理系统及数据处理方法。
背景技术
随着计算机技术的不断发展与进步,企事业单位以及政府部门所需要处理的数据量急剧增加,为了满足用户对数据进行查询和处理的需求,通常采用数据库对海量数据进行处理。
目前,一般通过关系型数据库或大规模并行处理(Massive Parallel Processor,MPP)数据库对海量数据进行处理。
针对目前对海量数据进行处理的方法,关系型数据库可以提供高并发的交互式查询,但无法处理海量结构化数据的负载关联分析计算,MPP数据库具有较强的处理海量数据的能力,但是由于并发量不足无法提供高效的查询服务。因此,现有技术通过关系型数据或MPP数据库对海量数据进行处理的方法,由于关系型数据库处理海量数据能力不足,MPP数据库处理数据查询能力不足,导致两种数据库均无法满足用户的需求,导致用户的使用体验较差。
发明内容
本发明实施例提供了一种数据处理系统和数据处理方法,能够提高用户的使用体验。
第一方面,本发明实施例提供了一种数据处理系统,包括:关系型数据库、大规模并行处理MPP数据库和数据同步模块;
所述关系型数据库,用于根据用户的触发,获取待处理的第一数据,其中,所述第一数据的数据量大于预设的数据量阈值;
所述数据同步模块,用于从所述关系型数据库获取所述第一数据,并将所述第一数据发送给所述MPP数据库;
所述MPP数据库,用于对所述第一数据进行处理,获得第一数据处理结果;
所述数据同步模块,还用于从所述MPP数据库获取所述第一数据处理结果,并将所述第一数据处理结果发送给所述关系型数据库;
所述关系型数据库,还用于对所述第一数据处理结果进行展示。
可选地,
该数据处理系统进一步包括:数据库表迁移模块;
所述数据库表迁移模块,用于在所述数据同步模块将所述第一数据发送给所述MPP数据库之前,将所述关系型数据库中的数据库表迁移到所述MPP数据库中;
所述数据同步模块,用于根据被迁移到所述MPP数据库中的所述数据库表,将所述第一数据存储到所述MPP数据库中。
可选地,
所述关系型数据库,还用于根据所述用户的触发,获取待处理的第二数据,对所述第二数据进行处理获得第二数据处理结果,并对所述第二数据处理结果进行展示,其中,所述第二数据的数据量小于所述数据量阈值。
可选地,
所述关系型数据库,用于根据所述用户的触发判断所述第二数据是否存储在所述MPP数据库,如果是,向所述数据同步模块发送第一数据同步指令,否则直接读取存储在所述关系型数据库中的所述第二数据;
所述数据同步模块,还用于根据所述第一数据同步指令,从所述MPP数据库中获取所述第二数据,并将所述第二数据发送给所述关系型数据库。
可选地,
所述MPP数据库,还用于根据所述用户的触发,向所述数据同步模块发送第二数据同步指令;
所述数据同步模块,还用于根据所述第二数据同步指令,从所述关系型数据库获取待处理的第三数据,并将所述第三数据发送给所述MPP数据库,其中,所述第三数据的数据量大于所述数据量阈值;
所述MPP数据库,还用于对所述第三数据进行处理,获得第三数据处理结果,并发对所述第三数据处理结果进行展示。
可选地,
所述关系型数据库包括:Oracle数据库。
可选地,
所述MPP数据库包括:GreenPlum数据库。
第二方面,本发明实施例还提供了一种基于第一方面提供的任意一种数据处理系统进行数据处理的方法,包括:
利用所述关系型数据库,根据用户的触发获取待处理的第一数据,其中,所述第一数据的数据量大于预设的数据量阈值;
利用所述数据同步模块将所述关系型数据库获取到的所述第一数据发送给所述MPP数据库;
利用所述MPP数据库对所述第一数据进行处理,获得第一数据处理结果;
利用所述数据同步模块将所述MPP数据库获得的所述第一数据处理结果发送给所述关系型数据库;
利用所述关系型数据库对所述第一数据处理结果进行展示。
可选地,
在所述利用所述数据同步模块将所述关系型数据库获取到的所述第一数据发送给所述MPP数据库之前,进一步包括:
利用所述数据库表迁移模块将所述关系型数据库中的数据库表迁移到所述MPP数据库中;
所述将所述关系型数据库获取到的所述第一数据发送给所述MPP数据库,包括:
根据被迁移到所述MPP数据库中的所述数据库表,将所述第一数据存储到所述MPP数据库中。
可选地,
该数据处理方法进一步包括:
利用所述关系型数据库,根据所述用户的触发获取待处理的第二数据,对所述第二数据进行处理获得第二数据处理结果后,对所述第二数据处理结果进行展示,其中,所述第二数据的数据量小于所述数据量阈值。
可选地,
该数据处理方法进一步包括:
利用所述MPP数据库,根据所述用户的触发向所述数据同步模块发送第二数据同步指令;
利用所述数据同步模块,根据所述第二数据同步指令,从所述关系型数据库获取待处理的第三数据,并将所述第三数据发送给所述MPP数据库,其中,所述第三数据的数据量大于所述数据量阈值;
利用所述MPP数据库对所述第三数据进行处理,获得第三数据处理结果;
利用所述MPP数据库对所述第三数据处理结果进行展示。
本发明实施例提供的数据处理系统和数据处理方法,关系型数据库根据用户的触发获取到数据量大于预设数据量阈值的第一数据后,数据同步模块从关系型数据库获取第一数据,并将获取到的第一数据发送给MPP数据库,MPP数据库对第一数据进行处理获得第一数据处理结果后,数据同步模块从MPP数据库获取第一数据处理结果,并将获取到的第一数据处理结果发送给关系型数据库,由关系型数据库将第一数据处理结果展示给用户。由此可见,通过数据同步模块实现关系型数据库与MPP数据库之间的数据交换,由MPP数据库完成海量数据处理的工作,由关系型数据库完成海量数据查询结果的工作,综合关系型数据库和MPP数据库的优势,满足用户对海量数据进行查询和处理的需求,从而可以提升用户的使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种数据处理系统的示意图;
图2是本发明一个实施例提供的另一种数据处理系统的示意图;
图3是本发明一个实施例提供的一种数据处理方法的流程图;
图4是本发明一个实施例提供的另一种数据处理方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据处理系统,该系统可以包括:关系型数据库101、大规模并行处理MPP数据库102和数据同步模块103;
所述关系型数据库101,用于根据用户的触发,获取待处理的第一数据,其中,所述第一数据的数据量大于预设的数据量阈值;
所述数据同步模块103,用于从所述关系型数据库101获取所述第一数据,并将所述第一数据发送给所述MPP数据库102;
所述MPP数据库102,用于对所述第一数据进行处理,获得第一数据处理结果;
所述数据同步模块103,还用于从所述MPP数据库102获取所述第一数据处理结果,并将所述第一数据处理结果发送给所述关系型数据库101;
所述关系型数据库101,还用于对所述第一数据处理结果进行展示。
本发明实施例提供了一种数据处理系统,关系型数据库根据用户的触发获取到数据量大于预设数据量阈值的第一数据后,数据同步模块从关系型数据库获取第一数据,并将获取到的第一数据发送给MPP数据库,MPP数据库对第一数据进行处理获得第一数据处理结果后,数据同步模块从MPP数据库获取第一数据处理结果,并将获取到的第一数据处理结果发送给关系型数据库,由关系型数据库将第一数据处理结果展示给用户。由此可见,通过数据同步模块实现关系型数据库与MPP数据库之间的数据交换,由MPP数据库完成海量数据处理的工作,由关系型数据库完成海量数据查询结果的工作,综合关系型数据库和MPP数据库的优势,满足用户对海量数据进行查询和处理的需求,从而可以提升用户的使用体验。
可选地,在图1所示数据处理系统的基础上,如图2所示,该数据处理系统还可以包括:数据库表迁移模块204;
在数据同步模块103将第一数据发给MPP数据库之前,数据库表迁移模块204将关系型数据库中的数据库表迁移到MPP数据库中,相应地,当数据同步模块103将第一数据发送给MPP数据库时,数据同步模块103根据被迁移到MPP数据库中的数据库表,将第一数据存储到MPP数据库中。
为了保证被发送到MPP数据库中的第一数据与关系型数据库中存储的第一数据具有相同的数据格式和数据关系,数据库表迁移模块将关系型数据库中的数据库表迁移到MPP数据库中,数据同步模块在向MPP数据库发送第一数据时,按照被迁移到MPP数据库中的数据库表,将第一数据存储到MPP数据库中。同时,数据同步模块在将MPP数据库获得的第一数据处理结果发送给关系型数据库时,同样按照关系型数据库中的数据库表将第一数据处理结果存储到关系型数据库中,保证关系型数据库所获得第一数据处理结果与MPP数据库生成的第一数据处理结果相同。
通过将关系型数据库中的数据库表迁移到MPP数据库中,使得被发送到MPP数据库中的第一数据与关系型数据库中所存储的第一数据相同,保证MPP数据库对第一数据进行处理所获得第一数据处理结果的准确性,从而保证该数据处理系统对数据进行处理的准确性。
可选地,如图1所示,
关系型数据库101在接收到用户的触发后,还可以获取数据量小于数据量阈值的第二数据作为待处理数据,关系型数据库101在获取到第二数据后,对第二数据进行处理获得第二数据处理结果,并对第二数据处理结果进行展示。
当用户所要处理的第二数据的数据量较小时,关系型数据库可以直接对第二数据进行处理,获得相对应的第二数据处理结果并进行展示。由于MPP数据库具有对海量数据进行处理的优势,当待处理数据的数据量较小时,无需通过MPP数据库对待处理数据进行处理,直接由关系型数据库对待处理数据进行处理,这样可以节省数据同步模块第二数据处理结果发送给关系型数据库的时间,提升对数据进行处理的效率。
可选地,如图1所示,
关系型数据库101在根据用户的触发获取数据量小于数据量阈值的第二数据时,第二数据可能存储在关系型数据库101上,也可能存储在MPP数据库102上。当第二数据存储在关系型数据库101上时,关系型数据库101直接读取其存储的第二数据进行处理;当第二数据存储在MPP数据库102上时,关系型数据库101向数据同步模块103发送第一数据同步指令,数据同步模块103根据第一数据同步指令从MPP数据库102中获取第二数据,并将获取到的第二数据发送给关系型数据库101,进而关系型数据库101对第二数据进行处理。
针对数据量小于数据量阈值的待处理数据,如果该待处理数据存储到关系型数据库上,关系型数据库直接对其进行读取并处理,如果该待处理数据存储到MPP数据库上,数据同步模块从MPP数据库上获取该待处理数据发送给关系型数据库进行处理。这样,关系型数据库即可以对其自身所存储的数据量较小的数据进行处理,还可以对MPP数据库所存储的数据量较小的数据进行处理,提高了该数据处理系统的适用性。
可选地,如图1所示,
MPP数据库102还可以根据用户的触发,向数据同步模块103发送第二数据同步指令,数据同步模块103在接收到第二数据同步指令后,根据第二数据同步指令从关系型数据库101获取待处理的第三数据,并将获取到的第三数据发送给MPP数据库102,MPP数据库102对第三数据进行处理获第三数据处理结果后进行展示。其中,第三数据存储在关系型数据库101上,且第三数据的数据量大于数据量阈值。
用户除了可以对关系型数据库进行触发外,还可以对MPP数据库进行触发。当MPP数据库根据用户的触发确定待处理的第三数据的数据量大于数据量阈值时,MPP数据库通过向数据同步模块发送数据同步指令获取第三数据,对第三数据进行处理获得第三数据处理结果后,直接将获得的第三数据处理结果展示给用户。由于数据同步模块仅需要从关系型数据库获取第三数据发送给MPP数据库,无需将MPP数据库获得的第三数据处理结果发送给关系型数据库,节省了将第三数据处理结果发送给关系型数据库的时间,缩短了向用户展示数据处理结果的时间,进一步提升了用户的使用体验。
上述对第一数据进行处理的过程对应数据处理模式一:关系型数据库获取第一数据后,数据同步模块从关系型数据库获取第一数据发送给MPP数据库,MPP数据库对第一数据进行处理获得第一数据处理结果后,数据同步模块从MPP数据库获取第一数据处理结果发送给关系型数据库,由关系型数据库对第一数据处理结果进行展示。上述对第三数据进行处理的过程对应数据处理模式二:数据同步模块从关系型数据库获取第三数据发送给MPP数据库,MPP数据库对第三数据进行处理获得第三数据处理结果后对第三数据处理结果进行展示。虽然数据处理模式一和数据处理模式二均能够实现对海量数据的处理和查询,但是数据处理模式一均有更强的兼容性,可以适用于各种版本和构架的系统,而数据处理模式二具有更快的数据处理速度,用户可以根据实际需求灵活选择数据处理模式进行数据处理,进一步提高了该数据处理系统的适用性。
可选地,如图1或图2所示,
关系型数据库101可以为Oracle数据库,MPP数据库102可以为GreenPlum数据库。
Oracle数据库是常用的关系型数据库,具有高并发交互式查询处理能力。GreenPlum数据库包括有多个处理节点,每一个处理节点具有独立的总线、内容和硬盘资源,具有对大规模数据进行处理的能力。通过Oracle数据库和GreenPlum数据库相结合的数据处理系统,可以在满足用户高并发交互式查询的同时满足用户对大数据进行处理的需求,提升用户的使用体验。
GreenPlum数据库包括有多个处理节点,GreenPlum数据库在对数据进行处理时,将待处理数据分发给各个处理节点,各个处理节点分别对接收到的数据进行处理,并将处理结果汇总至统一的归档节点,最终由归档节点将所有待处理数据的处理结果发送给数据同步模块或直接进行展示。
如图3所示,基于上述任意一个实施例提供的数据处理系统,本发明实施例还提供了一种数据处理方法,包括:
步骤301:利用关系型数据库,根据用户的触发获取待处理的第一数据,其中,第一数据的数据量大于预设的数据量阈值;
步骤302:利用数据同步模块将关系型数据库获取到的第一数据发送给MPP数据库;
步骤303:利用MPP数据库对第一数据进行处理,获得第一数据处理结果;
步骤304:利用数据同步模块将MPP数据库获得的第一数据处理结果发送给关系型数据库;
步骤305:利用关系型数据库对第一数据处理结果进行展示。
本发明实施例提供了一种数据处理方法,在接收到用户的触发后,关系型数据库获取第一数据,通过数据同步模块将关系型数据库获取到的第一数据发送给MPP数据库,通过MPP数据库对第一数据进行处理获得第一数据处理结果后,通过数据同步模块将第一数据处理结果发送给关系型数据库,由关系型数据库对第一数据处理结果进行展示。这样,由关系型数据库完成数据处理结果查询,由MPP数据库完成数据处理,发挥关系型数据库和MPP数据库的优势,同时满足用户对大数据进行查询和处理的需求,从而可以提升用户的使用体验。
可选地,如图3所示,在步骤302之前,可以利用数据库表迁移模块将关系型数据库中的数据库表迁移到MPP数据库中,相应地步骤302中将第一数据发送给MPP数据库时,根据被迁移到MPP数据库中的数据库表,将第一数据存储到MPP数据库中。
通过将关系型数据库中的数据库表迁移到MPP数据库中,可以保证MPP数据库获取到的第一数据与关系型数据库中存储的第一数据相同,进而保证MPP数据库处理获取的第一数据处理结果与关系型数据库中存储的第一数据相对应,保证用户最终所获得第一数据处理结果的准确性。
可选地,在图3所示数据处理方法的基础上,还可以利用关系型数据库根据用户的触发获取待处理的第二数据,其中第二数据的数据量小于数据量阈值,在获取到第二数据后,通过关系型数据库对第二数据进行处理获得第二数据处理结果,通过关系型数据库对获得的第二数据处理结果进行展示。
针对数据量较小的待处理数据,直接由关系型数据库完成对待处理数据的处理,并由关系型数据库对获得的数据处理结果进行展示,这样可以节约将待处理数据和数据处理结果在关系型数据库和MPP数据库之间传输所需的时间,提升对较小数据量的数据进行处理的效率。
可选地,在图3所示数据处理方法的基础上,还可以利用MPP数据库根据用户的触发向数据同步模块发送第二数据同步指令,使得数据同步模块根据第二数据同步指令从关系型数据库获取第三数据发送给MPP数据库,其中第三数据的数据量大于数据量阈值,利用MPP数据库对第三数据进行处理获得第三数据处理结果后,由MPP数据库对第三数据处理结果进行展示。
用户可以直接对MPP数据库进行触发,MPP数据库在接收到用户的触发后获取数据量较大的待处理数据进行处理,并直接将处理获得的数据处理结果展示给用户,这样节省了MPP数据库将数据处理结果发送给关系型数据库所需的时间,可以节省数据处理过程所需的总时间,缩短用户的等待时间,进一步提升用户的使用体验。
下面以关系型数据库为Oracle数据库,MPP数据库为GreenPlum数据库,数据同步模块为ETL(Extract-Transform-Load,数据仓库技术)数据同步工具为例,对本发明实施例提供的数据处理方法作进一步详细说明,如图4所示,该方法可以包括以下步骤:
步骤401:搭建Oracle数据库和GreenPlum数据库,并配置ETL数据同步工具。
在本发明实施例中,分别安装Oracle应用程序和GreenPlum应用程序,完成Oracle数据库和GreenPlum数据库的搭建。在Oracle数据库和GreenPlum数据库搭建完成后,配置ETL数据同步工具,实现Oracle数据库和GreenPlum数据库时间的数据互通。
例如,在Win7环境下安装Oracle 11g的过程如下:
(1)找到安装文件“setup.exe”,双击进行安装;
(2)配置安全更新。电子邮件可写可不写,取消下面的“我希望通过My OracleSupport接受安全更新(W)”;
(3)安装选项。直接选择默认的“创建和配置数据库”系统类。由于咱们安装的是服务器,所以选择“服务器类”,单击下一步;
(4)网格安装选项。选择“单实例数据库安装”;
(5)产品语言。直接默认即可(简体中文、英语);
(6)数据库版本。选择“企业版”;
(7)安装位置。填入安装路径;
(8)配置类型。选择“一般用途/事务处理”;
(9)数据库标识符。填入全局数据库名和SID;
(10)配置选项。切换到“字符集”选项卡,选择“使用Unicode(AL32UTF8)”;
(11)管理选项。直接单击下一步;
(12)数据库存储。直接单击下一步;
(13)备份和恢复。如果需要对数据进行备份,就启用自动备份;
(14)方案口令。为了便于测试,这里使用了相同的密码,实际部署时可根据实际情况自行决定;
(15)概要。完成先决条件检查后,单击完成就可以正式开始安装了,单击下一步;
(16)装产品。
在Linux环境下安装GreenPlum的过程如下:
(1)下载数据库安装文件greenplum-db-4.2.2.4-build-1-CE-RHEL5-i386;
(2)关闭防火墙;
(3)修改hosts文件,作为子节点计算机;
(4)在master节点计算机中配置添加子节点计算机;
(5)设置预读块的值;
(6)设置磁盘访问I/O调度策略;
(7)上传并解压数据库安装文件(master节点);
(8)安装软件(master节点);
(9)获取环境参数(master节点);
(10)创建包含所有主机名的文件all_hosts,文件内容;
(11)运行gpseginstall工具(master节点);
(12)配置环境变量(master节点);
(13)创建存储区域(master节点);
(14)同步系统时间;
(15)创建Greenplum数据库配置文件;
(16)运行初始化工具初始化数据库;
(17)设置环境变量;
(18)启动和停止数据库测试是否能正常启动和关闭。
步骤402:将Oracle数据库中的数据库表迁移到和GreenPlum数据库中。
在本发明实施例中,在Oracle数据库和GreenPlum数据库搭建完成之后,将Oracle数据库中的数据库表迁移到和GreenPlum数据库中。
例如,通过数据库表迁移工具Navicat premium,将Oracle数据库中的数据库表迁移到和GreenPlum数据库中。其中,数据库表迁移工具Navicatpremium的工具现在配置如下:数据传输、配置上正确的数据库源地址和目标数据库地址之后进入高级选项,当前选择内容包括:包含索引、包含外键限制、转换对象名为小写、遇到错误继续,其他不选。点击开始,进行数据库表的迁移。
步骤403:Oracle数据库根据用户的触发获取待处理数据。
在本发明实施例中,用户在Oracle数据库上传需要处理的数据源并开发查询权限后,Oracle数据库获取待处理数据。具体地,如果待处理数据存储在Oracle数据库上,Oracle数据库直接对待处理数据进行抓取;如果待处理数据存储在GreenPlum数据库上,Oracle数据库向ETL数据同步工具发送数据同步指令,ETL数据同步工具从GreenPlum数据库上获取待处理数据发送给Oracle数据库。
步骤404:Oracle数据库判断待处理数据的数据量是否小于数据量阈值,如果是,执行步骤405,否则执行步骤406。
在本发明实施例中,预先设定有数据量阈值,当Oracle数据库获取到待处理数据后,判断获取到的待处理数据是否大于数据量阈值,如果待处理数据的数据量小于数据量阈值,说明对待处理数据进行处理的运算量较小,Oracle数据库便可以完成对待处理数据进行处理,相应地执行步骤405;如果待处理数据的数据量大于数据量阈值,说明对待处理数据进行处理的运算量较大,Oracle数据库无法完成对待处理数据进行处理,相应地执行步骤406。
例如,预设数据量阈值为1000万,如果待处理数据的数据量小于或等于1000万则针对该待处理数据执行步骤405,如果待处理数据的数据量大于1000万则针对该待处理数据执行步骤406。
步骤405:Oracle数据库对待处理数据进行处理,获得数据处理结果,并执行步骤409。
在本发明实施例中,当待处理数据的数据量小于数据量阈值时,Oracle数据库直接对待处理数据进行处理获得数据处理结果,在获得数据处理结果后执行步骤409。
例如,待处理数据的数据量500,Oracle数据库直接对待处理数据进行处理获得数据处理结果。
步骤406:ETL数据同步工具将待处理数据发送给GreenPlum数据库。
在本发明实施例中,当待处理数据的数据量大于数据量阈值时,ETL数据同步工具从Oracle数据库获取待处理数据,并按照被迁移到GreenPlum数据库中的数据库表将获取到的待处理数据发送给GreenPlum数据库。
例如,待处理数据的数据量为1亿,则ETL数据同步工具从Oracle数据库获取该待处理数据后,按照被迁移到GreenPlum数据库中的数据库表,将该待处理所述存储到GreenPlum数据库上。
步骤407:GreenPlum数据库对待处理数据进行处理,获得数据处理结果。
在本发明实施例中,GreenPlum数据库接收到待处理数据后,将待处理数据分发到各个数据处理节点,由各个数据处理节点分别进行数据处理,在各个数据处理节点进行数据处理完成后,对各个数据处理节点的数据处理结果进行汇总,获得对应于待处理数据的数据处理结果。
例如,GreenPlum数据库在接收到数据量为1亿的待处理数据后,将该待处理数据分发给10个数据处理节点,每一个数据处理节点获得数据量为1000万的数据。10个数据处理节点分别对接收到数据进行处理,获得数据处理结果。在10个数据处理节点均完成数据处理后,将10个数据处理节点的数据处理结果进行汇总,获得与该待处理数据相对应的数据处理结果。
步骤408:ETL数据同步工具将GreenPlum数据库获取到的数据处理结果发送给Oracle数据库。
在本发明实施例中,GreenPlum数据库在获取到数据处理结果后,ETL数据同步工具从GreenPlum数据库获取数据处理结果,并将获取到的数据处理结果发送给Oracle数据库。
步骤409:Oracle数据库对数据处理结果进行展示。
在本发明实施例中,Oracle数据库在获取或接收到对应于待处理数据的数据处理结果后,对数据处理结果进行展示。还可以根据用户的触发,对数据处理结果进行后续处理。
本发明实施例还通过了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行上述各个实施例提供的数据处理方法。
本发明实施例还提供了一种存储控制器,包括:处理器、存储器和总线;
所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行上述各个实施例提供的数据处理方法。
综上所述,本发明各个实施例提供的数据处理系统及数据处理方法,至少具有如下有益效果:
1、在本发明实施例中,关系型数据库根据用户的触发获取到数据量大于预设数据量阈值的第一数据后,数据同步模块从关系型数据库获取第一数据,并将获取到的第一数据发送给MPP数据库,MPP数据库对第一数据进行处理获得第一数据处理结果后,数据同步模块从MPP数据库获取第一数据处理结果,并将获取到的第一数据处理结果发送给关系型数据库,由关系型数据库将第一数据处理结果展示给用户。由此可见,通过数据同步模块实现关系型数据库与MPP数据库之间的数据交换,由MPP数据库完成海量数据处理的工作,由关系型数据库完成海量数据查询结果的工作,综合关系型数据库和MPP数据库的优势,满足用户对海量数据进行查询和处理的需求,从而可以提升用户的使用体验。
2、在本发明实施例中,通过将关系型数据库中的数据库表迁移到MPP数据库中,使得被发送到MPP数据库中的第一数据与关系型数据库中所存储的第一数据相同,保证MPP数据库对第一数据进行处理所获得第一数据处理结果的准确性,从而保证该数据处理系统对数据进行处理的准确性。
3、在本发明实施例中,由于MPP数据库具有对海量数据进行处理的优势,当待处理数据的数据量较小时,无需通过MPP数据库对待处理数据进行处理,直接由关系型数据库对待处理数据进行处理,这样可以节省数据同步模块第二数据处理结果发送给关系型数据库的时间,提升对数据进行处理的效率。
4、在本发明实施例中,关系型数据库即可以对其自身所存储的数据量较小的数据进行处理,还可以对MPP数据库所存储的数据量较小的数据进行处理,提高了该数据处理系统的适用性。
5、在本发明实施例中,当MPP数据库根据用户的触发确定待处理的第三数据的数据量大于数据量阈值时,MPP数据库通过向数据同步模块发送数据同步指令获取第三数据,对第三数据进行处理获得第三数据处理结果后,直接将获得的第三数据处理结果展示给用户。由于数据同步模块仅需要从关系型数据库获取第三数据发送给MPP数据库,无需将MPP数据库获得的第三数据处理结果发送给关系型数据库,节省了将第三数据处理结果发送给关系型数据库的时间,缩短了向用户展示数据处理结果的时间,进一步提升了用户的使用体验。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃····〃”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种数据处理系统,其特征在于,包括:关系型数据库、大规模并行处理MPP数据库和数据同步模块;
所述关系型数据库,用于根据用户的触发,获取待处理的第一数据,其中,所述第一数据的数据量大于预设的数据量阈值;
所述数据同步模块,用于从所述关系型数据库获取所述第一数据,并将所述第一数据发送给所述MPP数据库;
所述MPP数据库,用于对所述第一数据进行处理,获得第一数据处理结果;
所述数据同步模块,还用于从所述MPP数据库获取所述第一数据处理结果,并将所述第一数据处理结果发送给所述关系型数据库;
所述关系型数据库,还用于对所述第一数据处理结果进行展示。
2.根据权利要求1所述的系统,其特征在于,进一步包括:数据库表迁移模块;
所述数据库表迁移模块,用于在所述数据同步模块将所述第一数据发送给所述MPP数据库之前,将所述关系型数据库中的数据库表迁移到所述MPP数据库中;
所述数据同步模块,用于根据被迁移到所述MPP数据库中的所述数据库表,将所述第一数据存储到所述MPP数据库中。
3.根据权利要求1所述的系统,其特征在于,
所述关系型数据库,还用于根据所述用户的触发,获取待处理的第二数据,对所述第二数据进行处理获得第二数据处理结果,并对所述第二数据处理结果进行展示,其中,所述第二数据的数据量小于所述数据量阈值。
4.根据权利要求3所述的系统,其特征在于,
所述关系型数据库,用于根据所述用户的触发判断所述第二数据是否存储在所述MPP数据库,如果是,向所述数据同步模块发送第一数据同步指令,否则直接读取存储在所述关系型数据库中的所述第二数据;
所述数据同步模块,还用于根据所述第一数据同步指令,从所述MPP数据库中获取所述第二数据,并将所述第二数据发送给所述关系型数据库。
5.根据权利要求1所述的系统,其特征在于,
所述MPP数据库,还用于根据所述用户的触发,向所述数据同步模块发送第二数据同步指令;
所述数据同步模块,还用于根据所述第二数据同步指令,从所述关系型数据库获取待处理的第三数据,并将所述第三数据发送给所述MPP数据库,其中,所述第三数据的数据量大于所述数据量阈值;
所述MPP数据库,还用于对所述第三数据进行处理,获得第三数据处理结果,并发对所述第三数据处理结果进行展示。
6.根据权利要求1至5中任一所述的系统,其特征在于,
所述关系型数据库包括:Oracle数据库;
和/或,
所述MPP数据库包括:GreenPlum数据库。
7.一种基于权利要求1至6中任一所述数据处理系统的数据处理方法,其特征在于,包括:
利用所述关系型数据库,根据用户的触发获取待处理的第一数据,其中,所述第一数据的数据量大于预设的数据量阈值;
利用所述数据同步模块将所述关系型数据库获取到的所述第一数据发送给所述MPP数据库;
利用所述MPP数据库对所述第一数据进行处理,获得第一数据处理结果;
利用所述数据同步模块将所述MPP数据库获得的所述第一数据处理结果发送给所述关系型数据库;
利用所述关系型数据库对所述第一数据处理结果进行展示。
8.根据权利要求7所述的方法,其特征在于,在所述利用所述数据同步模块将所述关系型数据库获取到的所述第一数据发送给所述MPP数据库之前,进一步包括:
利用所述数据库表迁移模块将所述关系型数据库中的数据库表迁移到所述MPP数据库中;
所述将所述关系型数据库获取到的所述第一数据发送给所述MPP数据库,包括:
根据被迁移到所述MPP数据库中的所述数据库表,将所述第一数据存储到所述MPP数据库中。
9.根据权利要求7所述的方法,其特征在于,进一步包括:
利用所述关系型数据库,根据所述用户的触发获取待处理的第二数据,对所述第二数据进行处理获得第二数据处理结果后,对所述第二数据处理结果进行展示,其中,所述第二数据的数据量小于所述数据量阈值。
10.根据权利要求7至9中任一所述的方法,其特征在于,进一步包括:
利用所述MPP数据库,根据所述用户的触发向所述数据同步模块发送第二数据同步指令;
利用所述数据同步模块,根据所述第二数据同步指令,从所述关系型数据库获取待处理的第三数据,并将所述第三数据发送给所述MPP数据库,其中,所述第三数据的数据量大于所述数据量阈值;
利用所述MPP数据库对所述第三数据进行处理,获得第三数据处理结果;
利用所述MPP数据库对所述第三数据处理结果进行展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711292030.4A CN108038181A (zh) | 2017-12-08 | 2017-12-08 | 一种数据处理系统及数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711292030.4A CN108038181A (zh) | 2017-12-08 | 2017-12-08 | 一种数据处理系统及数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108038181A true CN108038181A (zh) | 2018-05-15 |
Family
ID=62101510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711292030.4A Pending CN108038181A (zh) | 2017-12-08 | 2017-12-08 | 一种数据处理系统及数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108038181A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086008A (zh) * | 2018-07-26 | 2018-12-25 | 浪潮电子信息产业股份有限公司 | 固态硬盘的数据处理方法以及固态硬盘 |
WO2021102888A1 (zh) * | 2019-11-29 | 2021-06-03 | 京东方科技集团股份有限公司 | 数据处理设备和方法、计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073706A (zh) * | 2010-12-30 | 2011-05-25 | 北京锐安科技有限公司 | 分布式文件存储系统和关系数据库的结合应用方法 |
CN102929933A (zh) * | 2012-09-21 | 2013-02-13 | 北京世纪高通科技有限公司 | 数据处理的方法和装置 |
CN105512336A (zh) * | 2015-12-29 | 2016-04-20 | 中国建设银行股份有限公司 | 一种基于Hadoop的海量数据处理方法和装置 |
US20170068718A1 (en) * | 2015-09-09 | 2017-03-09 | LiveData, Inc. | Techniques for uniting multiple databases and related systems and methods |
-
2017
- 2017-12-08 CN CN201711292030.4A patent/CN108038181A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073706A (zh) * | 2010-12-30 | 2011-05-25 | 北京锐安科技有限公司 | 分布式文件存储系统和关系数据库的结合应用方法 |
CN102929933A (zh) * | 2012-09-21 | 2013-02-13 | 北京世纪高通科技有限公司 | 数据处理的方法和装置 |
US20170068718A1 (en) * | 2015-09-09 | 2017-03-09 | LiveData, Inc. | Techniques for uniting multiple databases and related systems and methods |
CN105512336A (zh) * | 2015-12-29 | 2016-04-20 | 中国建设银行股份有限公司 | 一种基于Hadoop的海量数据处理方法和装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086008A (zh) * | 2018-07-26 | 2018-12-25 | 浪潮电子信息产业股份有限公司 | 固态硬盘的数据处理方法以及固态硬盘 |
CN109086008B (zh) * | 2018-07-26 | 2021-06-29 | 浪潮电子信息产业股份有限公司 | 固态硬盘的数据处理方法以及固态硬盘 |
WO2021102888A1 (zh) * | 2019-11-29 | 2021-06-03 | 京东方科技集团股份有限公司 | 数据处理设备和方法、计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11144306B2 (en) | Scheduling upgrades in distributed computing systems | |
US10489215B1 (en) | Long-range distributed resource planning using workload modeling in hyperconverged computing clusters | |
US10673981B2 (en) | Workload rebalancing in heterogeneous resource environments | |
US10447806B1 (en) | Workload scheduling across heterogeneous resource environments | |
RU2433463C2 (ru) | Динамическое перепозиционирование потока работ конечными пользователями | |
TWI493465B (zh) | 分配式應用程式堆疊與部署方法及系統 | |
CN103778038B (zh) | 云端测试及远端监控集成电路装置的验证的方法及其系统 | |
CN110442458A (zh) | 缩放计算群集 | |
US8001327B2 (en) | Method and apparatus for managing placement of data in a tiered storage system | |
WO2016082311A1 (zh) | 生成数控机床加工控制数据的系统及方法 | |
CN105227672B (zh) | 数据存储及访问的方法和系统 | |
US20140081901A1 (en) | Sharing modeling data between plug-in applications | |
US9501591B2 (en) | Dynamically modifiable component model | |
CN108027745A (zh) | 基于应用特征来管理it基础设施的方法和装置 | |
CN108038181A (zh) | 一种数据处理系统及数据处理方法 | |
US20200310833A1 (en) | Capturing data from a live web application to populate a demo application | |
CN110011827A (zh) | 面向医联体的多用户大数据分析服务系统和方法 | |
US20110264487A1 (en) | Embedding Planning Components In Transactional Applications | |
CN107329798A (zh) | 数据复制的方法、装置和虚拟化系统 | |
US9652260B2 (en) | Scriptable hierarchical emulation engine | |
US10361925B1 (en) | Storage infrastructure scenario planning | |
Chullipparambil | Big data analytics using Hadoop tools | |
JP2024538679A (ja) | ジャストインタイムコンパイルプロセスの最適化 | |
Mirajkar et al. | Perform wordcount map-reduce job in single node apache hadoop cluster and compress data using lempel-ziv-oberhumer (lzo) algorithm | |
JP4846736B2 (ja) | 並列処理支援装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180515 |