CN111930723A - 基于大数据的科技成果数据融合方法 - Google Patents
基于大数据的科技成果数据融合方法 Download PDFInfo
- Publication number
- CN111930723A CN111930723A CN202011026936.3A CN202011026936A CN111930723A CN 111930723 A CN111930723 A CN 111930723A CN 202011026936 A CN202011026936 A CN 202011026936A CN 111930723 A CN111930723 A CN 111930723A
- Authority
- CN
- China
- Prior art keywords
- data
- scientific
- technological achievement
- achievement data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 21
- 230000036541 health Effects 0.000 claims abstract description 17
- 230000000007 visual effect Effects 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000012544 monitoring process Methods 0.000 claims abstract description 9
- 238000007499 fusion processing Methods 0.000 claims abstract description 6
- 238000004519 manufacturing process Methods 0.000 claims abstract description 6
- 238000007726 management method Methods 0.000 claims description 45
- 238000000034 method Methods 0.000 claims description 40
- 238000000605 extraction Methods 0.000 claims description 25
- 230000002159 abnormal effect Effects 0.000 claims description 18
- 238000002347 injection Methods 0.000 claims description 15
- 239000007924 injection Substances 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000012550 audit Methods 0.000 claims description 7
- 230000002265 prevention Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 6
- 238000011084 recovery Methods 0.000 claims description 6
- 238000013515 script Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000013524 data verification Methods 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 4
- 239000000243 solution Substances 0.000 claims description 4
- 241000700605 Viruses Species 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 claims description 3
- 238000013475 authorization Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000013070 change management Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 235000014510 cooky Nutrition 0.000 claims description 3
- 238000013499 data model Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 230000009545 invasion Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000004083 survival effect Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000013523 data management Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种基于大数据的科技成果数据融合方法,包括:搭建基于大数据的科技成果数据融合数据库,构建科技成果数据指标体系,设置各项指标的健康阈值,对健康状况进行监控;对科技成果数据利用可视化图形进行可视化展示,对应用数据进行自动分析汇总;对数据进行融合处理,对数据获取进行转换和不同数据平台的数据抽取,实现跨平台、跨领域、跨专业的科技成果数据接入;对用户及数据进行安全认证,防止科技成果数据涉及泄密和篡改信息、恶意代码风险。本发明能够实现跨平台、跨领域、跨专业的科技成果数据接入,能方便的查询、展示、共享科技成果信息,将生产经营中形成的科技成果进行深度挖掘,提高管理效率和业务精确度。
Description
技术领域
本发明涉及数据管理技术领域,尤其是一种基于大数据的科技成果数据融合方法。
背景技术
研究如何跨平台、跨领域、跨专业实现科技成果数据深度融合,实现可查询、可统计、可分析、可挖掘的科研成果数据安全管理,时数据管理的核心。科技成果数据范围较广,数据源头较多,根据不同数据来源的差异性,研究数据获取及传输的技术手段,克服数据格式不统一,数据库类型不统一,数据采集方式不统一等问题的方法。主要包括:一是对不同平台、不同领域、不同专业的科技成果数据及产业数据的接入;二是通过统计分析及数据转化完成多源数据融合。在现有技术中,科技成果类数据的管理与挖掘能力较为薄弱,科技成果缺乏统一的数据格式、数据源头、采集方法及使用方式,无法同项目信息形成关联关系,统计分析困难,不能直观方便的查询科技成果信息,成果和过程资料展示不全面,数据共享困难,亟需开展科技成果数据融合和共享研究工作,将生产经营管理研究中形成的成果进行深度挖掘,提高管理效率和业务的精确度。
因此,现有技术需要改进。
发明内容
本发明实施例所要解决的一个技术问题是:提供一种基于大数据的科技成果数据融合方法,以解决现有技术存在的问题。
所述基于大数据的科技成果数据融合方法包括:
搭建基于大数据的科技成果数据融合数据库,构建科技成果数据指标体系,设置各项指标的健康阈值,对健康状况进行监控;
对科技成果数据利用可视化图形进行可视化展示,对应用数据进行自动分析汇总;
对数据进行融合处理,对数据获取进行转换和不同数据平台的数据抽取,实现跨平台、跨领域、跨专业的科技成果数据接入;
对用户及数据进行安全认证,防止科技成果数据涉及泄密和篡改信息、恶意代码风险。
在基于本发明上述基于大数据的科技成果数据融合方法的另一个实施例中,所述搭建基于大数据的科技成果数据融合数据库,构建科技成果数据指标体系,设置各项指标的健康阈值,对健康状况进行监控包括:
对生产经营管理数据进行建模,构建科技成果数据指标体系;
设置科技成果数据指标体系中各项指标数据的填报模板,实时接收并存储科技成果数据;
设置各项指标的具体健康阈值,并设置不健康指标的预警条件;
对数据库中的科技成果数据进行监控,当数据触发不健康指标的预警条件时,启动预警机制。
在基于本发明上述基于大数据的科技成果数据融合方法的另一个实施例中,所述对科技成果数据利用可视化图形进行可视化展示,对应用数据进行自动分析汇总包括:
通过同比、环比、占比方式分析科技成果数据;
利用饼状图、柱状图、折线图对科技成果数据进行可视化展示;
制定科技成果数据的报表生成模板,自动生成科技成果数据报表;
使用JAVA可视化场景,对科技成果数据模型进行可视化展示。
在基于本发明上述基于大数据的科技成果数据融合方法的另一个实施例中,所述对数据进行融合处理,对数据获取进行转换和不同数据平台的数据抽取,实现跨平台、跨领域、跨专业的科技成果数据接入包括:
应用informatica工具进行ETL程序开发,将科技成果数据抽取到全业务数据中心;
定义科技成果数据接入接口的规范,明确数据交换的时间、格式、内容要求;
通过报表和日志的方式完成对数据接口的验证,对科技成果数据进行抽取,所述抽取包括初始抽取和定期抽取,所述初始抽取是从源系统中将相关的科技成果数据一次性的抽取,所述定期抽取是指根据不同的数据内容,按照数据抽取周期,在指定的时间内对数据进行抽取;
判断科技成果数据是否为全业务中心数据,如果是,则直接导入数据库使用;
否则,申请数据接入,判断申请数据接入的科技成果数据是否支持页面导入;
如果是,则通过系统导入接口将科技成果数据导入数据库;
否则,通过人工方式,将数据录入到数据库。
在基于本发明上述基于大数据的科技成果数据融合方法的另一个实施例中,所述对用户及数据进行安全认证,防止科技成果数据涉及泄密和篡改信息、恶意代码风险包括:
对科技成果数据用户的应用安全进行认证,对用户身份信息进行认证,对用户操作进行授权,对数据的输入输出进行验证,对系统的配置、会话、参数操作和异常情况进行管理;
对科技成果数据安全进行管理,使科技成果数据的存储、传输、备份、访问控制进行安全管理;
对操作系统安全进行管理,对操作系统进行身份认证、访问控制限制、病毒入侵防范、漏洞扫描、补丁更新、安全审计、数据备份、恶意代码防范;
对数据库安全进行管理,对数据库系统身份认证、访问控制、漏洞扫描、安全审计和补丁更新。
在基于本发明上述基于大数据的科技成果数据融合方法的另一个实施例中,所述对用户身份信息进行认证包括:
通过MD5方式将密码存储在数据库中;
不在cookie中保存登录密码,当浏览器关闭时,所有认证信息均销毁;
进行密码强度配置,支持密码强度配置开关和强制修改密码开关,登陆时校验密码强度,强度不够时强制修改密码;
登录失败次数超额锁定,当登录失败次数超过设定的阈值时,自动锁定账户,并将事件写入日志;
配置登录账户的IP地址,拒绝统一账户在多个IP地址登录。
在基于本发明上述基于大数据的科技成果数据融合方法的另一个实施例中,所述对数据的输入输出进行验证包括:
通过过滤器对URL的请求参数以及表单的GET、POST数据中包含的javascript脚本的非法字符进行过滤,防止信息篡改;
基于正则表达式进行输入验证,满足不同场景的科技成果数据需要;
对用户登录等过程是否有sql注入的参数进行验证,防止sql注入攻击;
基于身份认证后上传文件,支持配置上传文件的类型;
对用户在客户端输入或导入的数据进行长度、范围、数据类型属性的合法性进行检验,对不合法的数据禁止输入模块,并且提示错误信息;
统一输入及输出数据验证接口,保障验证逻辑的一致性;
按照各接口数据格式,对输入数据数据进行格式化,包括URL、日期、数字、字符串格式,确保数据格式正确;
对特殊字符进行检测,防止XML注入、SQL注入及脚本注入攻击,包括单引号、1=1、CDATA、for、loop;
执行数据过滤及筛选,对不合法数据进行丢弃及报警、统一各集成接口错误提示信息。
在基于本发明上述基于大数据的科技成果数据融合方法的另一个实施例中,所述对系统的配置、会话、参数操作和异常情况进行管理包括:
系统配置管理:
设定配置变更管理流程,关键信息发生配置变更时,实行审批制度,所述关键信息包括:数据库连接、运行参数、模板信息;
设置配置信息的保存及版本控制规则,避免发生版本丢失或混淆;
使用基于角色的授权策略控制配置管理角色,控制配置权限粒度,配置管理功能经过授权的操作员和管理员访问;
数据库连接、系统运行参数等配置交由中间件进行统一管理,模板配置信息进行加密存储;
系统会话管理:
设置会话存活时间,超时后自动销毁用户会话,删除会话信息;
用户登录成功后创建新的会话,并随机分配会话ID,绑定当前IP地址、机器名信息;
在服务端进行会话信息存储,对用户登录信息及身份凭证进行加密传输;
对登录用户进行退出、注销,用户注销或关闭浏览器后,服务端自动清除用户会话;
系统运行参数管理:
对输入参数进行验证,避免使用包含敏感数据或者影响服务器安全逻辑的查询字符串参数;
使用会话标识符标识客户端,并将敏感项存储在服务器上的会话存储区中;
使用HTTP POST代替GET提交窗体,避免使用隐藏窗体;
在服务端执行URL检查,防止用户没有通过操作参数而绕过检查,杜绝用户通过浏览器地址文本框操作URL参数;
限制可接受用户输入的字段,并对来自客户端的所有值进行修改和验证;
系统异常情况管理:
统一返回一般性错误消息;
使用结构化异常处理机制,并捕捉异常现象;
设置异常事务回滚及补偿机制,在异常发生时提供事务安全回滚,并结束发生异常的会话。
在基于本发明上述基于大数据的科技成果数据融合方法的另一个实施例中,所述对科技成果数据安全进行管理,使数据的存储、传输、备份、访问控制进行安全管理包括:
科技成果数据存储安全管理:
核心的管理数据业务信息进行存储及应用时,对数据的完整性进行验证,针对数据缺失、异常情况提供日志记录跟踪及恢复功能;
数据删除均经过访问控制,使用应用软件的访问控制机制;
数据的删除至少经过二次确认;
使用MD5哈希算法进行单向转换后存储在数据库中,密文长度为32位;
科技成果数据传输安全管理:
使用HTTPS安全协议传输业务信息,使用SFTP对远程文件访问进行机密性保护;
采用数字签名加密数据;
科技成果数据备份安全管理:
双机RAC冗余部署拓扑,关键节点发生故障时进行服务节点切换及故障节点恢复;
主要网络设备、通信线路和数据处理系统的硬件冗余;
科技成果数据访问控制管理:
重要数据资源设置敏感标记;
依据安全策略控制用户对有敏感标记信息资源的操作。
在基于本发明上述基于大数据的科技成果数据融合方法的另一个实施例中,所述科技成果数据包括结构化数据和非结构化数据;
所述结构化数据的接入方法包括:
采用ETL、OGG、load方式抽取;
采用数据传输组件纵向交互;
采用ETL方式清洗转换;
采用ETL方式转换加载;
所述非结构化数据的接入方法包括:
采用非结构化数据接入组件采集;
采用非结构化转换组件转换;
采用ETL方式转换加载。
与现有技术相比,本发明具有以下优点:
本发明的基于大数据的科技成果数据融合方法通过搭建科技成果数据库,构建科技成果指标体系,设定指标的健康阈值并进行监控,对数据进行融合处理,满足跨平台、跨领域、跨专业的科技成果数据接入,对科技成果数据进行可视化展示,对用户及数据进行安全保护,实现对科技成果数据的全面获取,数据有机融合,提高管理的效率和业务的精准度。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明的基于大数据的科技成果数据融合方法的一个实施例的流程图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本发明的基于大数据的科技成果数据融合方法一个实施例的流程图,如图1所示,该实施例的基于大数据的科技成果数据融合方法包括:
10,搭建基于大数据的科技成果数据融合数据库,构建科技成果数据指标体系,设置各项指标的健康阈值,对健康状况进行监控;
20,对科技成果数据利用可视化图形进行可视化展示,对应用数据进行自动分析汇总;
30,对数据进行融合处理,对数据获取进行转换和不同数据平台的数据抽取,实现跨平台、跨领域、跨专业的科技成果数据接入;
40,对用户及数据进行安全认证,防止科技成果数据涉及泄密和篡改信息、恶意代码风险。
所述搭建基于大数据的科技成果数据融合数据库,构建科技成果数据指标体系,设置各项指标的健康阈值,对健康状况进行监控包括:
对生产经营管理数据进行建模,构建科技成果数据指标体系;
设置科技成果数据指标体系中各项指标数据的填报模板,实时接收并存储科技成果数据;
设置各项指标的具体健康阈值,并设置不健康指标的预警条件;
对数据库中的科技成果数据进行监控,当数据触发不健康指标的预警条件时,启动预警机制。
在具体的实施例中,对对生产经营管理数据进行建模的流程包括:科技成果数据用户对数据接入需求提出申请,按照结构化数据和非结构化数据对每种接入数据提供对应的接入方案,对选定的数据接入方案进行数据接口的开发,数据接口的开发采用informatica工具进行ETL程序开发,将源系统数据抽取到全业务数据中心。
在数据接口的开发过程中,需要进行如下判断:
判断数据量的大小,根据数据量大小将数据接口分为增量接入与全量接入;
增量接入,数据量比较大的科技成果数据表中的数据,使用时间戳、日志对比及全表对比技术,配合ETL工具提供的变更数据捕获功能捕捉业务处理带来的源系统变化的数据,只把增量数据传输到数据缓存区域供后续的ETL流程处理;
全量接入,对于数据量较小,或者增量接入技术条件不具备,或者带来的性能与复杂性问题超越业务系统所能承受,采用某一个时间范围内的全部数据作为数据缓存区域的处理对象;
初始数据加载均采用全量模式;
接口规范:
为确保准确、高效的实现与源系统之间的数据交换,明确定义数据接入接口规范的方式,明确各方责任以及数据交换的时间、格式及内容要求;
接口规范应包涵接口双方责任、接口实现方式、数据接口要求以及针对每个详细接口的定义;
源数据提供方,保证按时提供接口规范规定的数据内容;对接口数据提供相关的验证功能,保证数据的准确性、一致性;若源系统有变更,则要求在变更前提供变更内容说明,并及时更新本接口规范及相关附件的相应内容;遵循接口规范中规定的验证规则;应及时解决接口数据提供过程中出现的问题;
数据接收方,按时接收接口规范规定的相关数据内容;若接口有变更,需要在变更之前,提供变更内容的相关说明,并及时更新接口规范及相关附件的相应内容;对接收的数据提供验证;
接口实现,通过inforamtica数据库访问接口协议访问源系统数据库,查询指定的接口表获取数据到全业务数据中心,包括:支持Oracle数据库访问接口的传输,实现跨越局域网络、广域网络平台的数据库连接、数据获取,并支持数据库重连、数据重传;支持对接口机的IP地址、帐户、口令的验证;
接口数据的抽取周期:
初始抽取,从源系统中将相关的数据一次性的抽取,初始抽取的数据范围包括抽取时最新状态为有效的所有数据,初始抽取时的数据周期将在数据接口单元的描述中根据具体情况描述;
定期抽取,根据不同的数据内容,按照数据抽取周期,在指定的时间内对数据进行抽取的方式,定期抽取分为日全量、日增量、月全量;
接口的验证方式:
对数据接口进行验证,接口数据的验证由接口双方共同负责,通过报表检查及日志方式进行验证;
报表,通过具有相互关联关系的报表及指标间的稽核,进行数据一致性的验证;
日志,通过比较数据接收方与数据提供方的处理日志,进行验证。
数据接口详细定义:
针对每一个需要传输的数据接口,定义如下内容:
数据内容,接口单元名称、编码、说明、接口单元对应表、接口单元对应表主键;
接口单元字段列表,字段名、业务描述、字段类型、字段格式、字段长度、是否允许空值;
抽取方式、周期;
OGG同步进程配置:
采用OGG方式进行数据同步,在源端数据库及SG-RDB端进行OGG进程配置,将同步表信息加入到进程中,实现数据实时同步。
所述对科技成果数据利用可视化图形进行可视化展示,对应用数据进行自动分析汇总包括:
通过同比、环比、占比方式分析科技成果数据;
利用饼状图、柱状图、折线图对科技成果数据进行可视化展示;
制定科技成果数据的报表生成模板,自动生成科技成果数据报表;
使用JAVA可视化场景,对科技成果数据模型进行可视化展示。
所述对数据进行融合处理,对数据获取进行转换和不同数据平台的数据抽取,实现跨平台、跨领域、跨专业的科技成果数据接入包括:
应用informatica工具进行ETL程序开发,将科技成果数据抽取到全业务数据中心;
定义科技成果数据接入接口的规范,明确数据交换的时间、格式、内容要求;
通过报表和日志的方式完成对数据接口的验证,对科技成果数据进行抽取,所述抽取包括初始抽取和定期抽取,所述初始抽取是从源系统中将相关的科技成果数据一次性的抽取,所述定期抽取是指根据不同的数据内容,按照数据抽取周期,在指定的时间内对数据进行抽取;
判断科技成果数据是否为全业务中心数据,如果是,则直接导入数据库使用;
否则,申请数据接入,判断申请数据接入的科技成果数据是否支持页面导入;
如果是,则通过系统导入接口将科技成果数据导入数据库;
否则,通过人工方式,将数据录入到数据库。
所述对用户及数据进行安全认证,防止科技成果数据涉及泄密和篡改信息、恶意代码风险包括:
对科技成果数据用户的应用安全进行认证,对用户身份信息进行认证,对用户操作进行授权,对数据的输入输出进行验证,对系统的配置、会话、参数操作和异常情况进行管理;
对科技成果数据安全进行管理,使科技成果数据的存储、传输、备份、访问控制进行安全管理;
对操作系统安全进行管理,对操作系统进行身份认证、访问控制限制、病毒入侵防范、漏洞扫描、补丁更新、安全审计、数据备份、恶意代码防范;
对数据库安全进行管理,对数据库系统身份认证、访问控制、漏洞扫描、安全审计和补丁更新。
所述对用户身份信息进行认证包括:
通过MD5方式将密码存储在数据库中;
不在cookie中保存登录密码,当浏览器关闭时,所有认证信息均销毁;
进行密码强度配置,支持密码强度配置开关和强制修改密码开关,登陆时校验密码强度,强度不够时强制修改密码;
登录失败次数超额锁定,当登录失败次数超过设定的阈值时,自动锁定账户,并将事件写入日志;
配置登录账户的IP地址,拒绝统一账户在多个IP地址登录。
所述对数据的输入输出进行验证包括:
通过过滤器对URL的请求参数以及表单的GET、POST数据中包含的javascript脚本的非法字符进行过滤,防止信息篡改;
基于正则表达式进行输入验证,满足不同场景的科技成果数据需要;
对用户登录等过程是否有sql注入的参数进行验证,防止sql注入攻击;
基于身份认证后上传文件,支持配置上传文件的类型;
对用户在客户端输入或导入的数据进行长度、范围、数据类型属性的合法性进行检验,对不合法的数据禁止输入模块,并且提示错误信息;
统一输入及输出数据验证接口,保障验证逻辑的一致性;
按照各接口数据格式,对输入数据数据进行格式化,包括URL、日期、数字、字符串格式,确保数据格式正确;
对特殊字符进行检测,防止XML注入、SQL注入及脚本注入攻击,包括单引号、1=1、CDATA、for、loop;
执行数据过滤及筛选,对不合法数据进行丢弃及报警、统一各集成接口错误提示信息。
所述对系统的配置、会话、参数操作和异常情况进行管理包括:
系统配置管理:
设定配置变更管理流程,关键信息发生配置变更时,实行审批制度,所述关键信息包括:数据库连接、运行参数、模板信息;
设置配置信息的保存及版本控制规则,避免发生版本丢失或混淆;
使用基于角色的授权策略控制配置管理角色,控制配置权限粒度,配置管理功能经过授权的操作员和管理员访问;
数据库连接、系统运行参数等配置交由中间件进行统一管理,模板配置信息进行加密存储;
系统会话管理:
设置会话存活时间,超时后自动销毁用户会话,删除会话信息;
用户登录成功后创建新的会话,并随机分配会话ID,绑定当前IP地址、机器名信息;
在服务端进行会话信息存储,对用户登录信息及身份凭证进行加密传输;
对登录用户进行退出、注销,用户注销或关闭浏览器后,服务端自动清除用户会话;
系统运行参数管理:
对输入参数进行验证,避免使用包含敏感数据或者影响服务器安全逻辑的查询字符串参数;
使用会话标识符标识客户端,并将敏感项存储在服务器上的会话存储区中;
使用HTTP POST代替GET提交窗体,避免使用隐藏窗体;
在服务端执行URL检查,防止用户没有通过操作参数而绕过检查,杜绝用户通过浏览器地址文本框操作URL参数;
限制可接受用户输入的字段,并对来自客户端的所有值进行修改和验证;
系统异常情况管理:
统一返回一般性错误消息;
使用结构化异常处理机制,并捕捉异常现象;
设置异常事务回滚及补偿机制,在异常发生时提供事务安全回滚,并结束发生异常的会话。
所述对科技成果数据安全进行管理,使数据的存储、传输、备份、访问控制进行安全管理包括:
科技成果数据存储安全管理:
核心的管理数据业务信息进行存储及应用时,对数据的完整性进行验证,针对数据缺失、异常情况提供日志记录跟踪及恢复功能;
数据删除均经过访问控制,使用应用软件的访问控制机制;
数据的删除至少经过二次确认;
使用MD5哈希算法进行单向转换后存储在数据库中,密文长度为32位;
科技成果数据传输安全管理:
使用HTTPS安全协议传输业务信息,使用SFTP对远程文件访问进行机密性保护;
采用数字签名加密数据;
科技成果数据备份安全管理:
双机RAC冗余部署拓扑,关键节点发生故障时进行服务节点切换及故障节点恢复;
主要网络设备、通信线路和数据处理系统的硬件冗余;
科技成果数据访问控制管理:
重要数据资源设置敏感标记;
依据安全策略控制用户对有敏感标记信息资源的操作。
所述科技成果数据包括结构化数据和非结构化数据;
所述结构化数据的接入方法包括:
采用ETL、OGG、load方式抽取;
采用数据传输组件纵向交互;
采用ETL方式清洗转换;
采用ETL方式转换加载;
所述非结构化数据的接入方法包括:
采用非结构化数据接入组件采集;
采用非结构化转换组件转换;
采用ETL方式转换加载。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (10)
1.一种基于大数据的科技成果数据融合方法,其特征在于,包括:
搭建基于大数据的科技成果数据融合数据库,构建科技成果数据指标体系,设置各项指标的健康阈值,对健康状况进行监控;
对科技成果数据利用可视化图形进行可视化展示,对应用数据进行自动分析汇总;
对数据进行融合处理,对数据获取进行转换和不同数据平台的数据抽取,实现跨平台、跨领域、跨专业的科技成果数据接入;
对用户及数据进行安全认证,防止科技成果数据涉及泄密和篡改信息、恶意代码风险。
2.根据权利要求1所述的基于大数据的科技成果数据融合方法,其特征在于,所述搭建基于大数据的科技成果数据融合数据库,构建科技成果数据指标体系,设置各项指标的健康阈值,对健康状况进行监控包括:
对生产经营管理数据进行建模,构建科技成果数据指标体系;
设置科技成果数据指标体系中各项指标数据的填报模板,实时接收并存储科技成果数据;
设置各项指标的具体健康阈值,并设置不健康指标的预警条件;
对数据库中的科技成果数据进行监控,当数据触发不健康指标的预警条件时,启动预警机制。
3.根据权利要求1所述的基于大数据的科技成果数据融合方法,其特征在于,所述对科技成果数据利用可视化图形进行可视化展示,对应用数据进行自动分析汇总包括:
通过同比、环比、占比方式分析科技成果数据;
利用饼状图、柱状图、折线图对科技成果数据进行可视化展示;
制定科技成果数据的报表生成模板,自动生成科技成果数据报表;
使用JAVA可视化场景,对科技成果数据模型进行可视化展示。
4.根据权利要求1所述的基于大数据的科技成果数据融合方法,其特征在于,所述对数据进行融合处理,对数据获取进行转换和不同数据平台的数据抽取,实现跨平台、跨领域、跨专业的科技成果数据接入包括:
应用informatica工具进行ETL程序开发,将科技成果数据抽取到全业务数据中心;
定义科技成果数据接入接口的规范,明确数据交换的时间、格式、内容要求;
通过报表和日志的方式完成对数据接口的验证,对科技成果数据进行抽取,所述抽取包括初始抽取和定期抽取,所述初始抽取是从源系统中将相关的科技成果数据一次性的抽取,所述定期抽取是指根据不同的数据内容,按照数据抽取周期,在指定的时间内对数据进行抽取;
判断科技成果数据是否为全业务中心数据,如果是,则直接导入数据库使用;
否则,申请数据接入,判断申请数据接入的科技成果数据是否支持页面导入;
如果是,则通过系统导入接口将科技成果数据导入数据库;
否则,通过人工方式,将数据录入到数据库。
5.根据权利要求1所述的基于大数据的科技成果数据融合方法,其特征在于,所述对用户及数据进行安全认证,防止科技成果数据涉及泄密和篡改信息、恶意代码风险包括:
对科技成果数据用户的应用安全进行认证,对用户身份信息进行认证,对用户操作进行授权,对数据的输入输出进行验证,对系统的配置、会话、参数操作和异常情况进行管理;
对科技成果数据安全进行管理,使科技成果数据的存储、传输、备份、访问控制进行安全管理;
对操作系统安全进行管理,对操作系统进行身份认证、访问控制限制、病毒入侵防范、漏洞扫描、补丁更新、安全审计、数据备份、恶意代码防范;
对数据库安全进行管理,对数据库系统身份认证、访问控制、漏洞扫描、安全审计和补丁更新。
6.根据权利要求1所述的基于大数据的科技成果数据融合方法,其特征在于,所述对用户身份信息进行认证包括:
通过MD5方式将密码存储在数据库中;
不在cookie中保存登录密码,当浏览器关闭时,所有认证信息均销毁;
进行密码强度配置,支持密码强度配置开关和强制修改密码开关,登陆时校验密码强度,强度不够时强制修改密码;
登录失败次数超额锁定,当登录失败次数超过设定的阈值时,自动锁定账户,并将事件写入日志;
配置登录账户的IP地址,拒绝统一账户在多个IP地址登录。
7.根据权利要求5所述的基于大数据的科技成果数据融合方法,其特征在于,所述对数据的输入输出进行验证包括:
通过过滤器对URL的请求参数以及表单的GET、POST数据中包含的javascript脚本的非法字符进行过滤,防止信息篡改;
基于正则表达式进行输入验证,满足不同场景的科技成果数据需要;
对用户登录等过程是否有sql注入的参数进行验证,防止sql注入攻击;
基于身份认证后上传文件,支持配置上传文件的类型;
对用户在客户端输入或导入的数据进行长度、范围、数据类型属性的合法性进行检验,对不合法的数据禁止输入模块,并且提示错误信息;
统一输入及输出数据验证接口,保障验证逻辑的一致性;
按照各接口数据格式,对输入数据数据进行格式化,包括URL、日期、数字、字符串格式,确保数据格式正确;
对特殊字符进行检测,防止XML注入、SQL注入及脚本注入攻击,包括单引号、1=1、CDATA、for、loop;
执行数据过滤及筛选,对不合法数据进行丢弃及报警、统一各集成接口错误提示信息。
8.根据权利要求5所述的基于大数据的科技成果数据融合方法,其特征在于,所述对系统的配置、会话、参数操作和异常情况进行管理包括:
系统配置管理:
设定配置变更管理流程,关键信息发生配置变更时,实行审批制度,所述关键信息包括:数据库连接、运行参数、模板信息;
设置配置信息的保存及版本控制规则,避免发生版本丢失或混淆;
使用基于角色的授权策略控制配置管理角色,控制配置权限粒度,配置管理功能经过授权的操作员和管理员访问;
数据库连接、系统运行参数等配置交由中间件进行统一管理,模板配置信息进行加密存储;
系统会话管理:
设置会话存活时间,超时后自动销毁用户会话,删除会话信息;
用户登录成功后创建新的会话,并随机分配会话ID,绑定当前IP地址、机器名信息;
在服务端进行会话信息存储,对用户登录信息及身份凭证进行加密传输;
对登录用户进行退出、注销,用户注销或关闭浏览器后,服务端自动清除用户会话;
系统运行参数管理:
对输入参数进行验证,避免使用包含敏感数据或者影响服务器安全逻辑的查询字符串参数;
使用会话标识符标识客户端,并将敏感项存储在服务器上的会话存储区中;
使用HTTP POST代替GET提交窗体,避免使用隐藏窗体;
在服务端执行URL检查,防止用户没有通过操作参数而绕过检查,杜绝用户通过浏览器地址文本框操作URL参数;
限制可接受用户输入的字段,并对来自客户端的所有值进行修改和验证;
系统异常情况管理:
统一返回一般性错误消息;
使用结构化异常处理机制,并捕捉异常现象;
设置异常事务回滚及补偿机制,在异常发生时提供事务安全回滚,并结束发生异常的会话。
9.根据权利要求5所述的基于大数据的科技成果数据融合方法,其特征在于,所述对科技成果数据安全进行管理,使数据的存储、传输、备份、访问控制进行安全管理包括:
科技成果数据存储安全管理:
核心的管理数据业务信息进行存储及应用时,对数据的完整性进行验证,针对数据缺失、异常情况提供日志记录跟踪及恢复功能;
数据删除均经过访问控制,使用应用软件的访问控制机制;
数据的删除至少经过二次确认;
使用MD5哈希算法进行单向转换后存储在数据库中,密文长度为32位;
科技成果数据传输安全管理:
使用HTTPS安全协议传输业务信息,使用SFTP对远程文件访问进行机密性保护;
采用数字签名加密数据;
科技成果数据备份安全管理:
双机RAC冗余部署拓扑,关键节点发生故障时进行服务节点切换及故障节点恢复;
主要网络设备、通信线路和数据处理系统的硬件冗余;
科技成果数据访问控制管理:
重要数据资源设置敏感标记;
依据安全策略控制用户对有敏感标记信息资源的操作。
10.根据权利要求1所述的基于大数据的科技成果数据融合方法,其特征在于,所述科技成果数据包括结构化数据和非结构化数据;
所述结构化数据的接入方法包括:
采用ETL、OGG、load方式抽取;
采用数据传输组件纵向交互;
采用ETL方式清洗转换;
采用ETL方式转换加载;
所述非结构化数据的接入方法包括:
采用非结构化数据接入组件采集;
采用非结构化转换组件转换;
采用ETL方式转换加载。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011026936.3A CN111930723B (zh) | 2020-09-25 | 2020-09-25 | 基于大数据的科技成果数据融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011026936.3A CN111930723B (zh) | 2020-09-25 | 2020-09-25 | 基于大数据的科技成果数据融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111930723A true CN111930723A (zh) | 2020-11-13 |
CN111930723B CN111930723B (zh) | 2024-02-02 |
Family
ID=73334274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011026936.3A Active CN111930723B (zh) | 2020-09-25 | 2020-09-25 | 基于大数据的科技成果数据融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111930723B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112965858A (zh) * | 2021-03-04 | 2021-06-15 | 电信科学技术第五研究所有限公司 | 一种组网分布式存储数据冲突处理的实现方法 |
CN113111105A (zh) * | 2021-04-06 | 2021-07-13 | 创意信息技术股份有限公司 | 基于大数据的数据定制接入方法及系统 |
CN113190760A (zh) * | 2021-05-24 | 2021-07-30 | 北京天健智慧科技有限公司 | 区域健康信息平台的数据处理方法 |
CN113723747A (zh) * | 2021-07-16 | 2021-11-30 | 北京房江湖科技有限公司 | 分析报告生成方法、电子设备及可读存储介质 |
CN115987579A (zh) * | 2022-12-07 | 2023-04-18 | 南京鼎山信息科技有限公司 | 基于大数据和物联网通信的数据处理方法和数据处理系统 |
CN116915500A (zh) * | 2023-09-05 | 2023-10-20 | 武汉万数科技有限公司 | 一种接入设备的安全检测方法及系统 |
CN116910036A (zh) * | 2023-09-11 | 2023-10-20 | 中国林业科学研究院森林生态环境与自然保护研究所(国家林业和草原局世界自然遗产保护研究中心) | 一种多源森林土壤属性数据库的构建方法 |
CN118694699A (zh) * | 2024-08-26 | 2024-09-24 | 成都无糖信息技术有限公司 | 一种用于越权测试的身份记录、保持与切换的方法与系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150352444A1 (en) * | 2014-06-07 | 2015-12-10 | Microsoft Corporation | Display of system-level achievements with real-time updating |
CN106354786A (zh) * | 2016-08-23 | 2017-01-25 | 冯村 | 一种可视分析方法及系统 |
CN106777227A (zh) * | 2016-12-26 | 2017-05-31 | 河南信安通信技术股份有限公司 | 基于云平台的多维数据融合分析系统及方法 |
CN111125228A (zh) * | 2019-12-26 | 2020-05-08 | 北京航天泰坦科技股份有限公司 | 一种基于林业数据共享服务平台的数据共享方法及装置 |
CN111191259A (zh) * | 2019-12-24 | 2020-05-22 | 绍兴市上虞区理工高等研究院 | 一种科技成果加密传输方法及装置 |
-
2020
- 2020-09-25 CN CN202011026936.3A patent/CN111930723B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150352444A1 (en) * | 2014-06-07 | 2015-12-10 | Microsoft Corporation | Display of system-level achievements with real-time updating |
CN106354786A (zh) * | 2016-08-23 | 2017-01-25 | 冯村 | 一种可视分析方法及系统 |
CN106777227A (zh) * | 2016-12-26 | 2017-05-31 | 河南信安通信技术股份有限公司 | 基于云平台的多维数据融合分析系统及方法 |
CN111191259A (zh) * | 2019-12-24 | 2020-05-22 | 绍兴市上虞区理工高等研究院 | 一种科技成果加密传输方法及装置 |
CN111125228A (zh) * | 2019-12-26 | 2020-05-08 | 北京航天泰坦科技股份有限公司 | 一种基于林业数据共享服务平台的数据共享方法及装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112965858A (zh) * | 2021-03-04 | 2021-06-15 | 电信科学技术第五研究所有限公司 | 一种组网分布式存储数据冲突处理的实现方法 |
CN113111105A (zh) * | 2021-04-06 | 2021-07-13 | 创意信息技术股份有限公司 | 基于大数据的数据定制接入方法及系统 |
CN113190760A (zh) * | 2021-05-24 | 2021-07-30 | 北京天健智慧科技有限公司 | 区域健康信息平台的数据处理方法 |
CN113190760B (zh) * | 2021-05-24 | 2024-05-17 | 北京天健智慧科技有限公司 | 区域健康信息平台的数据处理方法 |
CN113723747A (zh) * | 2021-07-16 | 2021-11-30 | 北京房江湖科技有限公司 | 分析报告生成方法、电子设备及可读存储介质 |
CN115987579A (zh) * | 2022-12-07 | 2023-04-18 | 南京鼎山信息科技有限公司 | 基于大数据和物联网通信的数据处理方法和数据处理系统 |
CN115987579B (zh) * | 2022-12-07 | 2023-09-15 | 南京鼎山信息科技有限公司 | 基于大数据和物联网通信的数据处理方法和数据处理系统 |
CN116915500A (zh) * | 2023-09-05 | 2023-10-20 | 武汉万数科技有限公司 | 一种接入设备的安全检测方法及系统 |
CN116915500B (zh) * | 2023-09-05 | 2023-11-17 | 武汉万数科技有限公司 | 一种接入设备的安全检测方法及系统 |
CN116910036A (zh) * | 2023-09-11 | 2023-10-20 | 中国林业科学研究院森林生态环境与自然保护研究所(国家林业和草原局世界自然遗产保护研究中心) | 一种多源森林土壤属性数据库的构建方法 |
CN116910036B (zh) * | 2023-09-11 | 2023-12-26 | 中国林业科学研究院森林生态环境与自然保护研究所(国家林业和草原局世界自然遗产保护研究中心) | 一种多源森林土壤属性数据库的构建方法 |
CN118694699A (zh) * | 2024-08-26 | 2024-09-24 | 成都无糖信息技术有限公司 | 一种用于越权测试的身份记录、保持与切换的方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111930723B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930723B (zh) | 基于大数据的科技成果数据融合方法 | |
AU2024201130A1 (en) | Encrypted userdata transit and storage | |
KR101327317B1 (ko) | Sap 응용 트래픽 분석 및 모니터링 장치 및 방법, 이를 이용한 정보 보호 시스템 | |
CN112765245A (zh) | 一种电子政务大数据处理平台 | |
US20090327411A1 (en) | Protecting web application data | |
CN102946384B (zh) | 用户验证方法和设备 | |
CN103001770B (zh) | 一种用户验证方法、服务器及系统 | |
CN112583815B (zh) | 一种操作指令管理方法、装置 | |
CN111680105A (zh) | 基于区块链的分布式关系型数据库的管理方法及系统 | |
CN103441926A (zh) | 数控机床网安全网关系统 | |
CN110958239B (zh) | 访问请求的校验方法和装置、存储介质及电子装置 | |
CN114078061A (zh) | 一种基于区块链的电力核心数据溯源系统 | |
CN109981677B (zh) | 一种授信管理方法及装置 | |
CN107580002A (zh) | 双因子认证安全管理机登录系统及方法 | |
CN111652454A (zh) | 一种监理质量、安全生产管理评测管理系统 | |
CN111506661B (zh) | 一种内容访问管理方法、装置和存储介质 | |
US20130311385A1 (en) | Third Party Security Monitoring & Audit | |
KR100877593B1 (ko) | 랜덤하게 맵핑되는 가변 패스워드에 의한 인증 보안 방법 | |
CN117454342A (zh) | 基于区块链的数据处理方法、装置、设备及可读存储介质 | |
CN116860764A (zh) | 一种数据变更处理方法和系统、电子设备及存储介质 | |
CN115239261A (zh) | 账号登录方法、装置、设备以及介质 | |
CN114915500A (zh) | 基于pc桌面客户端的自媒体账号管理方法及装置 | |
CN112671787B (zh) | 一种规则执行验证方法、装置、电子设备及存储介质 | |
CN118174965B (zh) | 一种基于多模态信息融合的工业互联网设备认证方法 | |
JP3821107B2 (ja) | Cgiバッファオーバフロー脆弱性検証装置と方法並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |