CN117473571B

CN117473571B - 一种数据信息安全处理方法及系统

Info

Publication number: CN117473571B
Application number: CN202311491262.8A
Authority: CN
Inventors: 李荣耀; 何建银
Original assignee: Guangdong Deep Technology Information Technology Co ltd
Current assignee: Guangdong Deep Technology Information Technology Co ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-05-14
Anticipated expiration: 2043-11-10
Also published as: CN117473571A

Abstract

本申请公开了一种数据信息安全处理方法及系统，设计数据处理领域，包括：从业务处理设备获取第一风险识别信息；从云平台获取包含威胁情报、安全知识库和历史分析模型的第二风险识别信息；对采集的第一风险识别信息和第二风险识别信息进行预处理；构建转换为结构化格式的第一风险识别信息的时间关联特征、空间关联特征和序列关联特征；构建转换为结构化格式的第二风险识别信息的威胁情报特征IOC，作为专业特征；利用构建的关联特征和专业特征，训练基于Apriori算法和pearson相关系数的安全风险关联度模型，获取第一风险识别信息和第二风险识别信息之间的关联性。针对现有技术中信息安全中风险识别准确性低的问题，本申请提高了异构数据中风险识别的准确性。

Description

一种数据信息安全处理方法及系统

技术领域

本发明涉及数据处理领域，特别涉及一种数据信息安全处理方法及系统。

背景技术

随着互联网、云计算、大数据等技术的发展，网络安全风险呈现复杂多变的态势。企业网络环境面临着来源多样、类型复杂的网络攻击和安全威胁。如何实现对网络安全风险的主动发现和智能评估，是保障网络安全的重要课题。

传统的安全风险评估主要依赖单一来源的风险识别信息，存在安全blindspot，无法对复杂安全环境进行全面评估。

在相关技术中，比如中国专利文献CN115563657A中提供了一种数据信息安全处理方法、系统及云平台，包括：经由预配置的风险识别决策算法对所述每组会话安全检测报告进行安全风险识别所得的最少一个第二安全风险识别信息；利用确定出的所述最少一个第一安全风险识别信息和所述最少一个第二安全风险识别信息，获得在将所述业务处理设备的整体化风险识别项目进行分治处理所得到的多个安全风险识别环节下，所述预配置的风险识别决策算法的决策分析优劣数据。但是本申请主要依赖单一数据源和预设模型，风险识别精度有待进一步提高。

发明内容

1.要解决的技术问题

针对现有技术中存在的信息安全中风险识别准确性低的问题，本发明提供了一种数据信息安全处理方法及系统，运用Apriori算法和Pearson相关系数建立安全事件之间的关联度模型等技术，提高了异构数据中风险识别的准确性。

2.技术方案

本发明的目的通过以下技术方案实现。

本说明书实施例的一个方面提供一种数据信息安全处理方法，包括：从业务处理设备获取包含设备日志、监控数据和报警信息的第一风险识别信息；业务处理设备：指运行关键业务系统和处理业务数据的服务器、网络设备、安全设备等。这些设备在运行过程中会产生各种日志、监控和报警信息。设备日志：如服务器运行日志、网络连接日志、用户操作日志等，记录了设备的运行状态、网络连接信息、用户操作活动等。监控数据：如CPU或内存使用监控、网络流量监控、安全事件监控等，实时反映设备的性能状态和安全状态。报警信息：如入侵检测报警、DDoS攻击报警、数据库审计报警等，在设备上发生安全事件时，由安全监控系统生成的报警信息。获取方式：可以通过日志收集系统、监控系统获取设备日志、监控数据；通过安全信息与事件管理系统获取报警信息。FIRST风险识别信息：综合设备日志、监控数据、报警信息，可以分析设备运行状态、网络通信行为、业务操作活动、安全攻击事件等，用于风险识别和关联分析。设备日志等能提供设备及业务运行的详细状态信息，通过分析这些低层详细信息，可以提高对潜在风险的识别能力。

从云平台获取包含威胁情报、安全知识库和历史分析模型的第二风险识别信息，其中，安全知识库为包含安全事件特征和对应方案的结构化知识库，历史分析模型为基于机器学习训练的安全事件匹配模型；云平台：整合了多源安全情报和知识的云端平台，可以为风险识别提供丰富的安全知识支持。威胁情报：包含已知的威胁情报指标(IOC)、攻击模式、漏洞信息等，用于检测已知安全威胁。安全知识库：结构化存储安全事件特征(如攻击手段、影响等)以及对应处理方案知识，支持通过事件匹配获取应对方案。历史分析模型：使用机器学习算法训练的安全事件检测与匹配模型，可以支持对未知新事件的识别与判断。获取方式：通过访问云安全平台的开放接口获取威胁情报、知识库等信息。SECOND风险识别信息：通过云端安全知识与模型，进行已知威胁检测、新事件匹配及方案推荐，作为风险识别的补充来源。云端安全知识图谱与AI模型可以检测更多类型的风险，与FIRST信息互补提高识别覆盖面。

对采集的第一风险识别信息和第二风险识别信息进行预处理，并转换为结构化格式；预处理的目的：消除数据噪声，提高数据质量，转换格式以方便后续处理。预处理步骤：数据清洗：过滤无用和异常数据，校正错误数据。数据整合：将不同来源但语义相关的数据字段进行聚合。数据转换：将非结构化数据(如文本、日志)转换为结构化数据(如数据库表)。数据归一化：使不同范围数据转换到统一值域。去重处理：删除重复及冗余数据。结构化转换：根据预定义的数据模型，抽取非结构化数据中的特征字段。将特征字段映射到结构化模型(如表单)中。对无法映射的新特征，使用机器学习更新数据模型。消除噪声，提高数据质量，为后续处理提供高质量输入。结构化转换降低处理复杂度，提高处理效率。标准化格式便于特征提取和模型训练。预处理提高数据质量，结构化降低处理难度，为构建安全关联模型提供高质量的结构化输入数据。

构建转换为结构化格式的第一风险识别信息的时间关联特征、空间关联特征和序列关联特征；构建转换为结构化格式的第二风险识别信息的威胁情报特征IOC，作为专业特征；时间关联特征：使用时间戳序列建模事件时间关系，计算时间间隔差值判断时间相关性，采用滑窗统计事件时间分布，通过时间关联学习器融合不同时间特征；空间关联特征：应用空间距离算法判断事件空间相关性，使用空间自相关分析判断聚类模式，空间关联分析模型综合判断空间关联性；序列关联特征：按时间顺序构建事件序列，使用频繁序列模式反映事件顺序规律，关联规则挖掘学习事件因果关系；威胁情报IOC特征：从威胁报告中提取特征IOC指标，关联分析生成组合IOC指标，使用网络流量验证IOC有效性，对IOC进行编码并使用特征选择算法构建IOC特征；时间、空间、顺序关联特征从多维度反映事件关联性，IOC特征带来专业威胁情报知识，关联特征的组合分析提高了风险识别的全面性与准确性。

利用构建的关联特征和专业特征，训练基于Apriori算法和pearson相关系数的安全风险关联度模型，获取第一风险识别信息和第二风险识别信息之间的关联性；关联特征：时间、空间、序列关联特征反映事件间隐含关联；IOC专业特征带入专业知识。Apriori算法：利用关联规则学习频繁关联模式，挖掘不同事件之间的潜在关联关系，计算置信度评估关联规则可靠性；pearson相关系数：度量两变量间线性相关程度判断两事件之间数值特征的相关性，结合置信度进行关联度量化；关联度模型：输入两事件的多维关联特征，模型：集成学习模型，融合Apriori和pearson算法，输出，事件间的关联度分值；Apriori挖掘事件潜在关联，pearson计算数值特征相关性，两者集成，实现关联度的定量计算与评估，为风险识别提供更精确的多源关联判断。

利用获取的关联性，生成包含资源配置和监控策略的安全方案。获取的关联性：反映了不同安全事件之间的关联程度。资源配置策略：根据关键事件关联性，确定高危核心资产，提高这些资产的监控与防护资源优先级，如加大日志采集量，部署WAF等；监控策略：根据关联事件的时间顺序规律，设置主动监测的时间范围与重点，如在事件A发生后24小时内监测事件B；安全方案生成，关联分析引擎结合安全知识库，根据事件关联性，匹配可行的应对方案，生成资源配置和监控策略推荐；根据安全事件的关联规律生成针对性方案，相比通用策略，更有针对性、符合事件关联性，提高安全资源使用效率及攻击检测能力。

进一步地，构建转换为结构化格式的第一风险识别信息的时间关联特征、空间关联特征和序列关联特征；构建转换为结构化格式的第二风险识别信息的威胁情报特征IOC，作为专业特征包括如下步骤：利用时间戳平滑和统计方法，构建时间关联特征，包含时间戳序列、时间间隔和滑动时间窗口频率；时间平滑技术去除时间序列的随机误差，提高时间数据质量，为提取时间关联特征提供高质量的时间数据输入。构建多粒度的时间关联特征，即时间戳序列、时间间隔和滑窗频率，可以从多个维度学习事件时间关联性，更全面刻画事件时间关系。时间戳序列保留时间先后顺序信息，支持判断事件时间逻辑关系，是判断时间因果关联的基础。时间间隔计算事件间时间距离，可以判断两事件时间上是否紧密关联，具有判别时间关联强度的能力。滑动时间窗口统计事件频数，可以有效发现事件时间聚集性规律，判断时间相关性。多粒度时间特征的组合分析，可以相互验证时间关联性，减少单一时间指标判断的错误率，提高时间关联判定的准确性。从而可以更准确地建模事件时间关联规律，发现事件隐藏的时间相关性，提高利用时间关联进行风险识别和安全管理的效果和质量。

利用空间距离算法和空间自相关分析，构建空间关联特征，包含安全事件空间距离和空间聚类模式；利用空间距离算法计算事件之间的空间距离，可以判断事件在空间上是否邻近，具有判定空间关联强度的功能。空间自相关分析可以检测事件在空间分布上的聚类模式，有利于发现事件空间聚集性。空间距离反映事件空间紧密程度，空间聚类模式判断空间相关性，两者组合可以全面判断事件空间关联性。空间距离计算利用事件的坐标、IP地址等空间属性，保证空间计算的准确性。空间自相关分析利用统计学方法，避免主观判断空间聚类，使空间关联挖掘更具客观性。构建的空间关联特征可以应用在网络安全关联分析中，判断分布在不同位置的攻击源是否具有空间关联性。也可以应用于IoT环境，判断不同传感器采集的数据在空间上是否存在关联，从而实现对物理事件的空间关联分析。提高了通过空间数据分析安全事件关联性的能力，使安全管理和风险识别更具空间维度思维。综上，本申请通过空间特征工程和空间分析技术的运用，增强了空间关联分析在安全管理中的效果。

利用顺序模型挖掘算法，构建包含频繁序列模式的安全事件序列特征，利用关联规则算法构建安全事件因果链；利用顺序模型挖掘算法分析事件的时间顺序，发现频繁的事件序列模式，可以反映事件之间的顺序。频繁序列模式识别事件顺序规律，为判断事件顺序因果关系提供基础。关联规则算法可以直接从大量事件数据中发现事件之间的隐含因果关系。事件时间顺序和因果链相互验证，可以提高顺序关联关系判断的准确性。序列模式和关联规则都是数据驱动型方法，可以自动从数据中发现顺序规律，无需人工构建顺序模型。在网络安全分析中，可以应用本申请识别攻击多阶段顺序模式及攻击步骤之间的因果关系。在业务系统分析中，可以发现业务操作的顺序依赖和异常操作序列。顺序关联特征的构建，增强了从事件序列中学习关联知识的能力，使安全管理更注重顺序思维。综上，本申请通过序列模式和关联规则的组合运用，可以有效发现事件序列之间的隐含顺序关联性。

利用NAT解析和告警关联分析，构建威胁情报特征IOC，包含源IP、目的IP和URL；NAT解析技术可以还原内外网地址转换，提取攻击连接的真实源IP，构建准确的源IPIOC特征。告警关联分析可以发现与同一源IP相关的多个安全事件，扩展提取的IOCs。不仅提取源IP，还可以构建目的IP和恶意URL等多维IOC指标，全面描述攻击特征。IOC特征可以应用于入侵检测系统，匹配已知攻击源进行黑名单屏蔽。也可以将IOC输入威胁情报云平台，与全局威胁情报进行关联分析。借助威胁情报相关技术如NAT解析，可以构建准确和全面的IOC特征。IOC特征的引入，为安全防御系统带来实时的攻击特征，提升了风险识别和关联分析的针对性。最终实现利用威胁情报增强自身安全防护的能力，提高风险识别和关联分析的效果。综上，本申请通过构建准确和多维的IOC特征，并与威胁情报技术结合，可以有效提高风险识别和安全管理的质量。具体地，NAT(网络地址转换)是一种网络地址转换技术，可以将内部私有IP转换为外部公有IP，实现内网访问互联网。由于NAT地址转换的作用，导致记录的攻击源IP是转换后的公网IP，而非实际的内网源IP。NAT解析就是一种可以追溯并还原NAT转换前的真实IP地址的技术手段。在构建威胁情报IOC时，通过NAT解析技术可以还原出真实的攻击源内网IP地址。而不是直接使用转换后的公网IP，这可能会影响IOC特征的准确性。NAT解析的具体技术包括解析NAT日志、根据时间关系推断、基于流量特征识别等。将NAT解析应用于IOC构建，可以提高提取的源IPIOC特征的准确性。从而避免因NAT转换引起的误报，提高IOC应用于入侵检测等防御系统的效果。构建准确且可操作的威胁情报IOC特征。综上所述，NAT解析技术通过还原攻击链路的真实源IP，提高了IOC特征的准确性与可用性。

其中，安全事件表示与系统或网络安全状态变化相关的记录，安全事件包含源IP和目的端口。源IP和目的端口是网络连接的基础属性，也是构建网络安全关联分析的重要特征。源IP反映了网络事件的发起方，可用于判断攻击源是否相关。目的端口反映受攻击的服务类型，可判断目标是否相关。将源IP和目的端口作为安全事件的基本属性，既符合网络安全监测的标准模型，也为构建关联提供了基础特征。在进行时间关联时，可判断源IP目的端口组合在时间上的分布模式。在进行空间关联时，源IP具有固有的空间属性，可判断源IP在空间上的聚集性。在进行顺序关联时，可分析源IP目的端口的时间序列模式。因此，定义包含源IP和目的端口的安全事件模型，可以支持构建各维度的关联特征。也为关联分析提供了基础的判断标准，提高了安全事件关联分析的质量。综上所述，结合安全事件的技术特点，包含源IP和目的端口是构建网络安全关联分析的必要特征，也为提高关联效果提供了支撑。具体地，安全事件指的是与系统或网络安全状态变化相关的各种记录或数据。它可以包括为：网络入侵检测设备生成的安全告警信息，操作系统或应用程序日志中记录的安全相关事件，数据库审计系统产生的记录数据库访问行为的审计日志，网络流量分析工具提取的可疑网络连接记录，终端行为分析系统生成的异常用户操作事件；安全事件中的主要特征可能包含：事件发生时间，事件类型，参与主体(用户、IP地址等)，目标(被访问资产)，结果(成功/失败)等；通过分析安全事件，可以检测到对系统或网络的潜在威胁，及早做出防范和应对。安全事件分析也是构建安全关联分析模型的重要数据源。综上所述，安全事件是反映系统或网络安全状态变化的各种记录数据，它提供了进行安全威胁检测与关联分析的基础数据支持。

进一步地，构建时间关联特征包括如下步骤：获取安全事件的时间戳，并生成时间戳序列；从安全事件中可以提取事件发生的时间戳。将不同事件的时间戳进行排序，可以构建成时间序列。时间序列以时间顺序记录了事件的发生过程，保留了事件之间的时间逻辑关系。在进行时间关联分析时，时间序列是判断事件时间先后以及因果关系的依据。对时间序列进行分析，可以发现时间上相关的事件模式，是时间关联分析的基础。而直接利用时间戳进行时间相关性计算，则会失去事件之间的时间先后顺序信息。构建时间序列也为后续的时间平滑、提取时间间隔等提供了输入。从而更全面地学习事件时间分布规律，判断事件时间关联性。最终可以提高基于事件时间戳进行安全关联分析的效果。综上所述，获取时间戳并生成时间序列，是进行时间关联分析的基础，也是提高时间关联分析效果的重要一步。

对时间戳序列进行小波去噪和双线性插值重采样，获得等间隔时间戳序列；原始时间戳序列可能存在随机扰动或缺失，需要进行平滑以提高质量。小波去噪可以有效消除时间序列中的随机高频噪声。双线性插值可以重新采样时间序列，生成等间隔的时间样本。小波去噪可以消除序列的随机误差，提高时间数据质量。双线性插值可以填补时间序列的缺失，使其等间隔连续。进行平滑后的时间序列，可以更准确地反映事件的时间分布规律。有利于消除随机误差的影响，提高判断时间关联的准确性。平滑后的等间隔时间序列，也便于后续进行统计分析，如计算滑动时间窗口频率等。最终可以为基于时间戳的关联分析提供高质量的时间数据输入，提高时间关联分析的效果。综上所述，对时间序列进行平滑可以提高时间数据质量，是进行时间关联分析的重要预处理步骤之一。具体地，利用小波分析的多尺度分解能力，分解时间序列，提取不同频率分量。对高频分量进行缩小或置零，有效抑制高频噪声。然后重构信号，完成信号的小波去噪。本申请可以消除时间序列的随机扰动，提高序列的平滑性。双线性插值重采样：根据原始时间序列，设置固定的等间隔采样时间。在不规则时间点，利用邻近的两个实际样本点进行双线性插值，估计新的时间点值。最终得到时间间隔固定的新的时间序列。本申请可以填补时间序列的缺失，使序列等间隔连续。两者结合使用，可以消除时间序列的随机噪声，并使序列时序等间隔连续。提高了时间序列的质量，有利于时间关联分析。

计算时间戳序列的时间间隔差值，获得时间间隔特征；在获得平滑后的时间戳序列后，可以计算相邻时间点之间的时间差值，得到时间间隔特征。时间间隔可以直接反映事件之间的时间距离，判断两事件时间上是否临近发生。计算时间间隔不需要预定义时间窗口，可以关注任意时间范围内的事件时间关联性。不同的事件类型组合，可以采用不同的时间间隔范围来判断其时间关联性。时间间隔提供了比时间戳更直观的时间距离指标，更方便判断事件时间关联强度。时间间隔特征还可以组合时间戳序分析时间先后顺序，进行综合的时间关联判断。引入时间间隔分析，丰富了基于时间戳的时间关联分析手段。最终可以使时间关联模式挖掘更具针对性，提高时间关联分析的效果。为基于时间特征的安全事件关联分析提供了更全面和可操控的时间关联判断方法。综上所述，计算时间间隔特征，是进行基于时间戳的安全事件时间关联分析的重要补充手段。

采用滑动时间窗口统计时间戳序列中安全事件次数，得到时间频率特征；滑动时间窗口可以在时间序列上滑动，动态统计窗口内事件的发生次数。时间窗口频率反映了一个时间范围内事件发生的密集程度。高频时间窗口表示事件时间上聚集，低频窗口表示时间上稀疏。动态滑窗可以自适应关注不同时间粒度，发现不同时间范围内的频率模式。频率特征直观反映事件的时间相关性，通过频繁窗口可以直接定位时间关联的事件。时间窗口频率不需要事先定义时间相关性的具体范围，更具灵活性。与时间戳序和时间间隔特征相结合，可以提供时间关联的多个维度判断。最终可以使复杂时间序列的时间关联模式挖掘更精确可控，提高安全事件时间关联分析质量。为基于时间戳进行安全关联分析提供了多粒度的时间关联分析手段。综上所述，滑动窗口统计时间频率，是时间关联分析的重要补充，提供多维度的时间关联判断。具体地，利用滑动时间窗口统计次数，设置一个大小为w的滑动窗口，窗口内保存最近w个时间戳数据，当最旧时间戳超出w时，窗口向前滑动，滑动时，记录当前窗口内事件数量，最终得到时间窗口频率序列。更具体地，除了基于序列的滑动窗口，优选地，基于时间段的滑动窗口，将时间轴分段为固定长度的时间段，每段作为一个滑动窗口，统计事件数量，窗口滑动时，重新分割时间段。基于数据流的滑动窗口，将事件数据作为流输入进行在线处理，设置一个大小受限的窗口，保存最近几个事件，当新事件到达时，移除最老事件，更新窗口，本申请可以增量式计算频率，适合流式处理。基于位图的滑动窗口，使用位图来记录每个时间点是否有事件发生，滑动窗口通过位操作得到区间内的事件数，本申请通过位运算提高了频率计算效率。基于概率数据结构的滑动窗口，使用概率数据结构如Bloom filter来估计滑动窗口内的事件数，通过概率统计提高窗口计算的内存和速度。

构建注意力机制的循环神经网络模型，作为时间相关性学习器，输入时间间隔特征和时间频率特征，输出时间关联特征。循环神经网络由于其内在的循环结构，可以模拟时间序列数据的时序逻辑。RNN编码历史信息的能力适合学习时间数据的关联模式。注意力机制可以自动学习不同时间特征的重要性权重。输入包含时间间隔和频率的多维时间特征，综合刻画事件时间相关性。RNN结构提取时间特征之间的非线性关联，注意力机制学习特征权重。最终得到某时间范围内事件关联可能性的评分，实现时间关联的端到端学习。相比RULES规则，RNN学习时间关联更具灵活性，避免人工定义时间关联范围。提取时间关联特征，为后续安全关联提供时间维度判断材料。最终可以提高基于时间戳的安全事件关联效果，增强时间关联分析的智能化水平。综上所述，本申请利用RNN和注意力机制的优势，实现端到端的时间关联学习，可以显著增强时间关联分析的性能。

进一步地，构建空间关联特征包括如下步骤：基于空间数据库算法，构建基于网格索引或地理哈希的空间索引；空间数据库具备对空间数据类型的支持，如点、线、面等。网格索引将空间划分为多个网格，根据对象所在网格建立索引。地理哈希将空间位置映射到哈希值，近似判断空间距离。利用空间索引技术可以快速判断空间对象的邻近关系。为判断安全事件源是否空间聚集提供了支持。相比线性扫描，利用空间索引可以降低判断空间关联的时间复杂度。网格索引可以精确判断对象间空间距离。地理哈希效率更高但存在误差。结合空间对象的坐标或地理位置信息，构建空间索引。最终可以大幅提高判断安全事件之间空间关联的效率。综上所述，本申请利用空间数据库中的索引技术，可以显著提升空间关联判断的性能，使安全关联分析结果更准确。具体地，网格索引，将空间区域划分为多个网格，每个网格建立空间对象的索引，根据空间对象的坐标，判断其所在网格，通过网格索引快速检索周围对象，可以通过调整网格大小控制索引粒度，实现不同范围内的空间关联判断。地理哈希，使用哈希函数，将空间坐标映射为哈希值，空间接近的对象，其哈希值相近，

通过比较哈希值大小判断空间对象之间的距离，哈希函数可以自定义，控制空间距离的误差。通过空间索引快速提取空间关联候选，减少不必要的关联计算，提高空间关联分析的效率和效果。例如，输入安全事件集合，包含源IP地址或地理坐标，构建网格索引或地理哈希，判断事件源之间空间距离，输出空间距离内的安全事件对，作为空间关联候选。

基于构建的空间索引，采用曼哈顿距离或切比雪夫距离计算各个安全事件之间的空间距离；曼哈顿距离(Manhattan distance)和切比雪夫距离(Chebyshev distance)都是常用的空间距离度量方法。曼哈顿距离计算两点在各个维度上的距离差绝对值之和，反映总体距离。切比雪夫距离取各维距离差的最大值，反映维度最大差距。基于构建的空间索引，可以快速获得空间对象之间的坐标差值。将坐标差值输入距离公式，高效计算空间距离。距离度量标准化了空间距离的数值，便于设定距离阈值。距离阈值可以控制需要关注的空间关联范围。不同场景可以选择合适的距离计算方法，如对角线距离或曼哈顿距离。最终可以快速且灵活地判断空间对象间的距离关联，提升空间关联分析效果。综上所述，本申请充分利用空间索引，选择合适距离度量，可以有效提高空间关联分析的性能。

具体地，利用空间自相关算法，判断安全事件间的空间聚类模式和空间相关性；空间自相关分析空间对象属性值的相关性和依赖性。全局空间自相关度检测数据集整体的聚集模式。局部空间自相关度识别局部空间聚类。空间权重矩阵定义空间关联的衰减模式。考虑事件位置坐标，判定事件属性值在空间上的相关性。可以识别空间上相关的安全事件聚类模式。相比距离阈值判断，更加全面地度量空间关联强度。可检测空间聚类范围不同的关联模式。最终可以更精确地学习到事件的空间关联知识，提升空间关联测度的效果。为基于位置信息的安全事件关联分析提供更丰富的空间关联分析手段。综上所述，空间自相关技术可以探测复杂的空间关联模式，增强安全事件的空间关联分析能力。具体地，本申请中空间自相关算法为：全局莫兰I指数，检测数据集整体的空间聚集or离散模式，值大于0表示正相关，小于0表示负相关；全局盖瑞指数，考虑空间权重，检测聚集程度，更强大的全局空间自相关检测指标；局部指标Moran’sI，检测局部空间聚类和空间异质性，识别空间“热点”；局部G系数，局部版本的盖瑞指数，结合空间权重矩阵识别局部聚类；卡方空间自相关检验，基于卡方统计检测空间自相关显著性。

根据获得的空间距离、空间聚类模式和空间相关性，采用机器学习方法建立空间关联分析模型，以构建反映安全事件空间关联性的空间关联特征；将空间距离、聚类模式、相关性作为输入特征。利用神经网络、树模型等机器学习算法进行空间关联模式学习。模型结构可以学习空间特征之间的复杂非线性关系。注意力机制可以学习不同空间特征的重要性权重。端到端学习空间特征与安全事件关联之间的映射关系。建立数据驱动的空间关联分析模型，不依赖人工设置空间关联规则。输出反映空间关联可能性的评分或概率。提取空间关联特征，为后续整体安全关联分析提供空间关联判断。最终实现更加智能化和可解释的空间关联分析过程。提高基于位置信息的安全事件关联分析效果。综上所述，本申请利用机器学习进行空间关联模式建模，可以取得更好的空间关联分析效果，增强分析的智能水平。具体地，空间聚类模式，空间聚类指空间上邻近的对象或事件出现群集的现象。空间聚类模式是指反映这种聚类现象的各种特征。比如，全局空间聚类指数据集整体聚集在一起的总体模式。局部空间聚类指数据集中局部区域内点的密集聚集模式。不同密度的聚类区域也反映不同的空间聚类模式。聚类的形状和范围等也体现空间聚类模式的差异。空间聚类指标如盖瑞指数可以量化反映空间聚类模式。在安全事件分析中，空间聚类模式反映事件源IP在空间分布上的聚集情况。如源IP对角分布、线性分布、块状分布等都是不同的空间聚类模式。综上所述，空间聚类模式是从多个方面描述空间聚集特征的度量指标的集合。通过分析空间聚类模式，可以有效发现空间上存在的各种安全事件聚集现象。具体地，空间关联分析模型是指用于学习和建模空间关联关系的机器学习模型。输入空间特征：空间距离、空间聚类模式、空间相关性作为特征。输出空间关联可能性，即反映事件间空间关联强度的评分或概率。模型结构可以是神经网络、决策树等，用来学习输入和输出之间的复杂映射关系。通过模型学习，可以自动发现空间特征与事件关联之间的模式。不需要人工定义空间关联规则，实现更智能化的空间关联分析。注意力机制可以学习不同空间特征的重要性。模型可以从数据中自主学习空间关联知识，并进行推理预测。相比传统方法，可以建立更准确、可解释的空间关联分析模型。最终输出空间关联特征，为整体安全事件关联分析提供空间关联度量。综上，空间关联分析模型实现了智能化和可解释的空间关联学习，提高了分析效果。更具体地，基于卷积神经网络的空间关联模型，利用卷积层学习空间特征的局部模式，不同卷积核学习不同空间模式；基于图神经网络的空间关联模型，将空间对象表示为图结构，学习图上节点的空间依赖关系；基于随机森林的空间关联模型，随机森林集成多个决策树，学习空间特征之间的复杂交互关系；基于Xgboost的空间关联模型，Xgboost实现GBDT集成，学习空间特征权重；基于Gaussian过程的空间关联模型，利用高斯过程建模空间关联，实现高效率的贝叶斯空间学习。

采用注意力机制的卷积神经网络，对空间关联特征进行多级抽象与表达，并进行空间关联判断。利用卷积层的局部连接结构学习空间特征的局部模式。不同卷积核抽取空间特征的不同表示，形成多级空间特征表达。池化操作获取空间特征在不同区域的统计特征。注意力机制自动学习不同空间特征的重要性权重。空间特征经过多层卷积池化形成高级抽象空间表示。全连接层结合注意力权重，进行空间关联度的判定推理。端到端学习空间特征与空间关联之间的映射关系。建立数据驱动、无需人工定义的空间关联分析模型。输出反映空间关联可能性的判断结果或概率。最终实现更加智能化和高效的空间关联分析过程。综上所述，本申请充分利用卷积神经网络的优势进行空间学习，可以取得更准确的空间关联分析效果。具体地，多级抽象与表达是指：原始的空间距离、聚类指标等是底层的空间特征表示。通过卷积层，原始特征被不同卷积核转换为更高级的特征表示，这是一种抽象过程。不同卷积核学习空间特征的不同方面，使特征表达更全面。池化层对空间特征进行压缩统计，保留区域特征，是一种特征提取。经过多层卷积池化，空间特征形成分层的抽象表达，反映空间关联的不同侧面。底层表达反映精细的空间细节，高层表达反映全局的空间分布模式。多级特征表达从不同粒度角度刻画空间关联，使模型理解更全面。注意力机制学习不同层次表达的重要性，实现可解释的特征加权。最后都汇总到全连接层，进行空间关联的联合判定。多级特征抽象与表达，使卷积神经网络更好地建模空间关联关系。综上所述，多级抽象与表达充分发挥卷积神经网络的学习能力，提升空间关联分析效果。具体地，将空间特征经过卷积和池化形成的高级特征表示输入全连接层。全连接层集成不同粒度的空间特征，进行综合判断。注意力机制学习不同空间特征在判断中的重要性权重。全连接层的参数反映空间特征与空间关联之间的复杂映射关系。通过端到端训练，自动学习空间特征组合与空间关联之间的模式。不需要人工定义空间关联的规则，实现智能化判断。最终输出一个数值或概率，表示输入空间特征对应的空间关联的可能性。数值越大，表示空间关联可能性越大。可以基于输出设置阈值，给出空间关联的明确判断。相比传统方法，这种判断融合了更多空间信息，更加智能和准确。为后续的安全事件关联分析提供重要的空间关联依据。综上所述，基于神经网络进行空间关联判断，可以取得更好的判断效果，增强分析的智能化程度。

进一步地，构建安全事件序列特征和构建安全事件因果链包括如下步骤：利用预处理后的第一风险识别信息，根据时间戳顺序构建结构化的安全事件序列，安全事件序列包含：表示事件类型的编码字段，表示事件目标的ID字段，表示事件时间的时间戳字段；对第一风险识别信息进行预处理，提取关键字段。将同类型事件合并为一个编码，表示事件类型。保留各事件独立的ID，表示事件目标实体。标准化不同时间格式为统一时间戳。根据时间戳顺序，组织事件为线性序列结构。序列包含事件类型编码、目标ID、时间戳三个字段。序列以时间为线索，反映事件演化的时间顺序。目标ID串联同一对象遭遇的事件链。事件类型编码反映不同事件的安全意义。构建结构化序列，便于后续利用序列模型分析事件关联。提取事件时间和对象关键信息，建模事件的演化关系。最终用于增强安全管理，提高风险识别效果。综上所述，本申请通过构建结构化序列，充分利用了第一风险识别的结果，为后续安全事件关联分析提供了重要前提。

利用顺序模式挖掘算法，获取安全事件序列中的频繁序列模式，构建候选序列特征；输入预处理后的结构化安全事件序列数据。应用顺序模式挖掘算法，如Prefix Span等。识别事件序列中频繁出现的事件模式序列。频繁序列模式反映事件之间存在的关联规律。通过支持度和置信度来控制模式的质量。相比单个事件，序列模式包含更丰富的安全关联信息。序列模式作为候选特征，提供给后续模型学习潜在的事件关联。不需要人工提取序列特征，降低了工程需求。候选序列模式可解释事件之间的逻辑顺序关系。最终可以更智能且高效地发现安全事件之间的关联知识。提升对复杂事件关联规律的学习效果。综上所述，本申请利用顺序模式有效构建了候选的序列关联特征，为后续事件关联分析奠定了基础。具体地，本申请中，顺序模式挖掘算法包含：Prefix Span算法，一种经典高效的顺序模式挖掘算法，通过递归分割序列数据库来发现频繁序列模式。SPADE算法，基于深度优先搜索的顺序模式挖掘方法，利用位图压缩提高效率。SPAM算法，基于深度优先搜索与位图表示的顺序模式挖掘，在大数据集上展现出良好扩展性能。CloSpan算法，利用闭序列模式提高挖掘效率，可以发现更长的序列模式。BIDE算法，利用位向量压缩表示序列，可以发现隐藏的序列模式。更具体地，频繁序列模式指在事件序列数据集中频繁出现的事件顺序模式。它反映了事件之间存在一定的先后顺序规律。比如模式"<入侵检测，资产异常>"表示入侵检测后常跟着资产异常事件。通过事先设置最小支持度阈值来筛选频繁的序列模式。支持度衡量模式在数据集中的出现频率。置信度衡量前后事件偶联关系的强度。频繁序列模式中事件间顺序强相关，包含丰富的关联信息。相比单个事件，它揭示了更复杂的事件间依赖关系。频繁序列模式可以作为候选特征，输入到关联分析模型中。有助于学习事件之间的逻辑顺序与关联规律。综上所述，频繁序列模式是顺序模式挖掘的关键输出，为后续安全事件关联分析提供了重要支持。

应用关联规则挖掘算法，从候选序列特征中学习事件之间的因果关系，生成事件因果链；输入是顺序模式挖掘生成的候选序列特征。应用Apriori等关联规则挖掘算法。从候选序列中学习事件之间的前后因果关系。如"入侵检测->资产异常"反映了它们的因果关系。根据置信度提取强关联的因果规则。连接因果相关的事件，可以构建事件演化的因果链。因果链清晰反映了事件之间的逻辑关系。基于规则挖掘实现自动化事件因果关系的学习。不需要人工定义事件之间的因果关系。最终产生对事件演化规律的深入理解，提升安全管理水平。综上所述，本申请通过规则挖掘实现了事件因果关系的智能学习，使事件关联分析更加高效和自动化。具体地，几种关联规则挖掘算法：Apriori算法，经典的关联规则挖掘算法，用来高效发现频繁项集；FP growth算法，基于分步式模式增长的关联规则挖掘，不需要生成候选项集。Eclat算法，利用深度优先搜索和集合交集的关联规则挖掘方法。Charm算法，基于闭频繁项集的高效关联规则挖掘算法。RuleGen算法，一种增量式学习关联规则的方法。CMRules算法，处理数据分类任务的分类关联规则挖掘算法综上所述，这些算法可以高效产生关联规则，用于学习事件序列数据集中的事件因果关系，构建事件演化链。

采用基于FP growth的预计算，以减少候选序列模式生成次数；FP growth算法通过FP tree避免生成大量候选频繁项集。在FP tree上递归增长频繁序列模式，避免多次扫描数据库。首先预计算单事件的频繁度，建立频繁事件表。扫描数据库只统计频繁事件，构建更小的FP tree。递归树化只针对频繁事件，减少遍历次数。相比Apriori，大幅减少候选模式的生成。只测试真正可能频繁的序列，降低计算复杂度。提高顺序模式挖掘的效率。可以挖掘更长、更复杂的频繁序列模式。为构建高质量候选序列特征提供支持。综上所述，本申请通过FP growth的预计算有效减少了候选模式生成，提升了挖掘效率和质量。具体地，FP growth是一种频繁模式增长算法(Frequent Pattern Growth Algorithm)，是关联规则挖掘中的一种重要算法。不需要生成候选频繁项集，避免重复扫描数据库。通过构建FPtree来压缩表示数据集。在FP tree上递归增长频繁模式。利用频繁模式的分步增长来避免生成大量非频繁的候选模式。相比Apriori算法，大幅减少候选模式测试次数。可以高效挖掘较长的频繁模式。通过构建条件模式基和条件FP tree，实现分步增长。不需要事先生成全集候选模式，降低内存需求。整体上大大减少了计算复杂度。是一种效率高且可扩展性强的频繁模式挖掘方法。综上所述，FP growth通过频繁模式的分步增长避免生成大量非频繁候选模式，是一种高效的频繁模式挖掘算法。

应用信息增益评价指标和最小支持度阈值，从候选序列模式中选择信息增益高于阈值且支持度满足要求的频繁序列模式；计算每个候选序列模式的信息增益，评估其包含的信息量。信息增益高表示模式具有区分样本的能力。设置信息增益阈值，筛选信息量充足的模式。同时计算序列模式在数据集中的支持度。支持度衡量序列出现的频率。设置最小支持度阈值，确保模式出现足够频繁。结合两个条件，选择既频繁又信息量大的序列模式。频繁支持度保证模式统计意义，信息增益保证区分能力。序列模式作为模型输入，能有效表示样本特征。选择优质序列模式，训练更准确的事件关联模型。综上所述，本申请通过评价指标有效提取了优质的频繁序列模式，为事件关联分析提供了质量更高的特征。具体地，信息增益(Information Gain)是一种特征选择方法，主要用于评估特征的分类分辨能力。基于信息熵，衡量数据集D的不确定性。信息熵越大，数据越随机。对数据集D根据特征A分割成不同的子集Di。计算特征A对数据集D的信息增益：IG(D，A)＝信息熵H(D)条件熵H(D|A)。条件熵H(D|A)衡量按A分割后数据子集的不确定性。信息增益越大，表示特征A将数据集分割得越清晰。可以作为特征选择的评价指标，选择信息增益高的特征。信息增益大说明特征具有强大的类别区分能力。常用在决策树、ID。等算法中进行特征选择。可以有效地选择对目标分类作用明显的特征。综上所述，信息增益通过计算特征分割前后数据不确定性的减少程度，评估特征的分类分辨能力。更具体地，最小支持度阈值，收集安全事件数据集，记录出现的各类事件。统计每个事件在数据集中的出现次数，计算其支持度。按支持度对事件进行排序。绘制支持度分布图，标记支持度相对集中区间。结合业务分析确定关注的事件类型。选择使关注事件类型中的最小支持度作为整体最小支持度的阈值。也可以选择区间最小值或者中位数作为阈值。设置阈值以过滤掉非频繁事件。可适当调低阈值，保留更多可能相关的长尾事件。观察不同阈值筛选结果的差异，找到合适阈值。根据后续分析效果进行阈值微调。最终确定一个既保证频繁性又包含足够信息的合理最小支持度阈值。

利用选择的频繁序列模式，构建基于顺序特征的安全事件关联图；输入是按信息增益和支持度筛选的频繁序列模式。每个序列模式表示一个复合安全事件。事件间顺序反映事件之间的先后关系。在关联图中，用节点表示事件，边表示事件间顺序。构建一个带权有向图表示事件关联知识。权重为序列模式的支持度，表示关联强度。图中连接性强的部分反映事件聚集和关联特别紧密的区域。关联图直观展示了事件关系，便于人工分析。也可以作为后续事件关联模型的特征输入。借助图计算方法分析事件的关联规律。最终可实现对安全事件关联的精准模型化。综上所述，本申请通过构建关联图，将事件频繁序列模式的关联知识进行了可视化表达，使其结构化并可用于后续建模分析。

采用知识图谱表示安全事件关联图，并利用基于GAT的图注意力网络进行特征学习与融合，输出融合了顺序特征和关联规则的序列关联特征。将安全事件关联图用知识图谱形式表示，包含实体节点和关系边。应用基于图注意力机制的神经网络GAT进行特征学习。GAT可以自动学习节点特征和边特征。注意力机制可以聚焦不同关联强度的邻居节点。学习到的节点特征融合了邻居关联信息。输出融合了顺序模式特征和关联规则特征的事件表示。GAT可以直接在图上进行端到端的特征学习。不需要人工构建特征工程。图神经网络可以处理节点顺序无关的图结构数据。最终获得结合拓扑结构与关联知识的事件序列特征。提升后续安全事件关联分析的效果。综上所述，本申请通过图神经网络有效获得了融合顺序与关联知识的安全事件特征，为关联分析提供了有力支持。具体地，GAT(GraphAttention Network)是一种图注意力网络，用于学习图结构数据的特征表示，GAT是一种图神经网络，可以对图中的节点学习特征表示。通过注意力机制自动学习节点之间的关联程度。为每个节点学习针对其邻居节点的注意力权重。注意力权重表示节点间相对关联强度。将邻居节点特征按注意力权重进行加权融合。获得融合邻居关联信息的节点特征表示。多头注意力机制可以学习节点不同的表示子空间。通过自注意力机制避免信息泄露。可以直接在图上进行端到端的特征学习。不需要人工特征工程。GAT可以处理节点顺序无关的图结构数据。通过注意力聚焦异质网络中的关键关联，实现特征的自适应学习。综上所述，GAT是一种利用注意力机制自动学习节点表示的有效图神经网络。

进一步地，构建威胁情报特征IOC包括如下步骤：从云平台中，获取包含IOC指标的威胁报告；选择提供威胁情报分析服务的云安全平台。云平台整合各大安全厂商和研究机构的威胁数据。提供对Advanced Persistent Threats(APT)的实时监测。支持开放的API接口和SDK接入。使用API密钥认证，获取读取接口访问权限。调用相关接口，获取包含IOC指标的最新威胁报告。IOC指标包括IP地址、域名、文件Hash等。报告中提供对威胁的详细技术分析。解析报告，提取IOCs构建指标列表。IOC指标可导入安全设备，进行威胁检测。借助云平台获取全面及时的威胁情报。协助提高企业网络的威胁感知能力。综上所述，本申请利用云安全平台的威胁分析服务获取最新IOC指标，有助于提升企业防御能力。

使用XML解析器对获取的威胁报告进行解析，提取出报告中的原子IOC指标，原子IOC指标包含IP地址、域名和文件哈希；威胁报告多以XML格式提供。使用XML解析器解析报告文件。通过遍历XML文档树，找到IOC指标的标签。原子IOC标签包括IP、域名、Hash等。解析出每个IOC标签的文本内容。文本内容就是一个原子IOC指标。将提取的原子IOC存入数据库表中。构建IP地址表、域名表、Hash表。也可以将不同类型IOC统一存入IOC指标数据库。对解析结果进行校验，过滤无效内容。采用增量更新方式处理持续获取的报告。使用解析器可方便快速提取结构化IOC内容。自动化获得大量威胁情报指标。有效获取最新威胁情报，提升安全监控效能。综上所述，本申请使用XML解析器可以有效自动化地大规模获取威胁报告的IOC指标。

对提取的原子IOC指标进行关联分析，生成组合IOC指标；对提取的原子IOC指标进行关联规则挖掘。可以采用Apriori算法进行频繁项集和关联规则分析。也可以使用更高效的FP growth等算法。找到频繁同时出现的原子IOC组合。用支持度和置信度评估组合IOC的质量。支持度评估组合出现的统计频率。置信度评估组合的逻辑关联强度。选择支持度和置信度较高的组合IOC。将其作为一个聚合的组合IOC指标。组合IOC能更全面地描述一个攻击行为。将生成的组合IOC存入数据库。组合IOC指标集通过关联分析实现自动化扩充。提高了对持续演化的新型攻击的检测能力。综上所述，本申请通过关联分析高效获取更多高质量的组合IOC指标。具体地，IOC代表In dicators of Compromise，中文翻译为“入侵痕迹指标”。原子IOC指标是IOC的最小单位，通常包括以下几类：IP地址：恶意软件的控制服务器地址等。域名：恶意网站、命令控制服务器的域名等。URL：攻击活动相关的网址。文件Hash：恶意软件样本的MD5、SHA1等哈希。进程名：恶意软件的进程名称。互联网用户ID：执行攻击的用户名等。原子IOC指标描述了一个单一的可检测的攻击相关实体。它能够准确指示并证明已发生的入侵行为。是构建和运用威胁情报的基础。可以借助原子IOC进行attacker模式分析、关联分析等。是实施基于情报的威胁检测的核心要素。综上所述，原子IOC指标是对威胁的关键技术特征的原子级抽象描述，是进行入侵检测和取证的重要依据。

利用网络流量和日志数据，对组合IOC指标进行验证；收集网络流量和各种安全日志数据。流量数据包括North-South和East-West流量。日志数据包括防火墙、IDS、终端、应用等日志。在数据中检索组合IOC相关实体。如IP、域名、文件hash等。分析不同实体间的统计关联性。如IP和域名的解析关系。对比流量和日志中的时间关系。判断组合IOC各实体指标是否匹配数据。验证组合IOC是否出现在实际环境中。统计每个组合IOC的验证命中次数。根据验证结果评估组合IOC的质量。验证支持度高的组合IOC，进一步产生标签数据。反馈验证结果优化IOC关联分析模型。综上所述，本申请通过多源异构数据验证，提升了组合IOC质量与可靠性。North-South流量：指的是进入或离开数据中心的流量，通常是用户访问互联网产生的流量。这部分流量需要经过边界安全设备如防火墙、IPS等进行监控。East-West流量：指的是数据中心或企业内部系统之间的流量，是不同应用服务器、数据库等内部系统互相通信产生的流量。这部分流量通常较大，但不会经过边界安全设备监控。区分这两类流量的原因：North-South流量与外部环境交互，安全威胁更高。East-West流量在内部，相对更加安全。两类流量需要不同的监控策略与设备。分析不同流量可以更全面发现威胁。如东西向流量可以分析内网攻击路径。因此，综合利用两类流量可以构建更丰富的安全数据源，进行组合IOC指标的验证将更加准确和全面。

对经验证的组合IOC指标进行one hot编码和向量化，构建结构化IOC特征；对验证后的组合IOC指标进行提取。每个组合IOC包含多个原子指标。对每个原子指标进行独热编码(one hot encoding)。为每个原子指标创建一个二进制向量。构建多字段cate特征向量空间。不同类型IOC各建立一个字段。如IP字段，域名字段，Hash字段等。每个字段按位标记IOC指标的存在。然后将各字段向量拼接，形成组合IOC的编码表示。获得了固定长度的结构化特征向量。向量表示了IOC组成结构的数字化描述。可以输入到机器学习和深度学习模型中。利用模型进行攻击行为的关联检测。特征工程显著提升了指标的检测效果。综上所述，本申请使用编码和向量化将文本IOC转化为结构化数字特征，便于模式识别与安全分析。

应用基于TFIDF和信息增益的特征选择算法，从编码得到的结构化IOC特征中，选择TFIDF权重大于阈值且信息增益大于阈值的IOC特征；计算每个结构化IOC特征的TFIDF权重。TFIDF评估特征在不同样本中的重要性。计算每个特征对分类/聚类目标的信息增益。信息增益评估特征对目标区分度的贡献。设置TFIDF权重阈值，过滤权重较小特征。设置信息增益阈值，选择增益较大特征。两阈值过滤获得决策性的特征子集。减少冗余与不相关特征的干扰。保留关键的分类/聚类特征。降维提升模型效率。TFIDF筛选高频重要特征。信息增益选择高区分特征。两者结合进行多角度特征选择。获得对IOC关联检测更加敏感的特征子集。提升后续建模的性能。综上所述，本申请集成TFIDF与信息增益进行结构化特征选择，可以获得对安全事件检测更敏感和有效的特征。

利用隔离森林模型对选择的IOC特征进行异常检测，过滤掉无效IOC指标；构建多颗隔离树，用子采样方式训练每颗树。每棵树使用随机选择的特征子集。计算样本在每棵树上的异常度得分。对所有树异常度结果取平均作为最终异常度。异常样本的平均异常度明显higher。设置合理阈值，检测异常样本。对选择的IOC特征样本进行隔离森林异常检测。过滤掉平均异常度高的样本。这些样本可能对应错误或无效的IOC。有效降低错误IOC对后续建模的干扰。考虑到时间因素，可采用增量训练。新加入的IOC样本继续进行隔离森林检测。动态调整和优化IOC指标集。提高IOC关联建模的质量。

综上所述，本申请利用隔离森林技术进行动态的IOC异常检测，过滤误报IOC指标，从而提升下游分析的效果。具体地，隔离森林(Isolation Forest)模型是一种无监督的异常检测算法，隔离森林包含多棵隔离树，每棵树通过随机选取特征进行训练。每个样本从树根开始递归分裂，异常样本更易分裂(隔离)，得到较短路径长度。正常样本分裂路径较长，更难被隔离。对样本在所有树上的路径长度进行平均，得到平均路径长度。平均路径长度越短，该样本越有可能是异常点。设置阈值，平均路径长度低于阈值判定为异常。多棵树的随机性增强了检测稳健性。无需正常/异常样本，可用于无监督异常检测。适用于高维稀疏数据，效率高。隔离森林通过递归隔离的方式，使用路径长度判定异常点，可以有效检测出不同类型的异常样本。

组合经过滤处理的IOC指标，构建威胁情报特征。将经过验证、编码、选择和异常检测过滤后的IOC指标集合起来。这些IOC指标均为高质量有效指标。根据不同类型将IOC指标组织到各自的集合中。如IP地址集合、域名集合、HASH集合等。在每个集合内部，可以统计各指标的出现频次。按照一定阈值只保留频次较高的指标。然后对每个集合进行编码one hot化。将不同集合的编码连接起来构成一个样本。每个样本表示一个组合IOC实例。所有样本构成特征空间和训练集。可以标记部分样本，获得带标签训练数据。运用机器学习方法进行行为检测建模。也可以采用无监督学习方法进行行为聚类分析。组合处理后的IOC具有更强的区分度和表达能力。有助于提取攻击模式，发现未知威胁。综上所述，本申请通过组合集成不同类型的有效IOC，构建出高质量的威胁情报特征，为安全监测和防御提供重要支撑。

进一步地，获取第一风险识别信息和第二风险识别信息之间的关联性包括如下步骤：构建包含安全事件和风险结果的关联规则矩阵；收集安全事件数据，包括时间、类型、严重级别等信息。收集风险检查结果数据，包括资产、风险类型、风险值等。对事件数据和风险结果数据进行关联分析。使用Apriori或FP growth等算法挖掘关联规则。记录每条规则的支持度和置信度。构建安全事件到风险结果的关联规则集。将规则集表示为一个关联矩阵M。矩阵横轴表示安全事件，纵轴表示风险结果。Matrx[i][j]的值表示事件i到结果j的规则置信度。矩阵可直观表示事件和风险结果之间的关联关系。按置信度阈值过滤较弱关联的规则。获得更准确的安全事件影响风险结果的关联矩阵。矩阵可用于事件对资产风险的影响评估与预测。也可以通过矩阵分析风险传播路径。综上所述，本申请通过构建关联矩阵，直观表示事件与风险结果之间的定量关联关系。

计算关联规则矩阵中每个关联规则的支持度和置信度；遍历事件数据集和风险结果数据集。统计每个事件和结果的出现次数，计算各自支持度。支持度定义为出现次数/总记录数。对每条关联规则事件X->结果Y。统计X和Y同时出现的记录数n(X，Y)。计算规则的支持度：n(X，Y)/总记录数。计算规则的置信度：n(X，Y)/n(X)。n(X)表示事件X出现的记录数。支持度反映规则出现的频率。置信度反映事件X导致Y的可能性。统计全部规则的支持度和置信度。将结果填入关联矩阵对应位置。也可以将支持度和置信度作为规则的附加属性。优先选择置信度和支持度较高的规则。通过置信度THRESHOLD筛选关联矩阵。综上所述，本申请统计各规则的支持度和置信度，构建可解释的关联矩阵，准确反映事件与风险之间的关联关系。

利用Apriori算法，从关联规则矩阵中选择支持度和置信度均超过预设阈值的强关联规则；利用Apriori算法挖掘频繁项集和关联规则。设置最小支持度min_sup和最小置信度min_conf。遍历数据集找出满足min_sup的频繁项集。生成满足min_conf的强关联规则。计算每个规则的支持度和置信度。将满足条件的规则存入候选规则集。对关联矩阵进行规则匹配。如果一个规则同时满足：支持度>最小支持度阈值置信度>最小置信度阈值；则将该规则选入强关联规则集。在关联矩阵中标记这些强规则。强规则对应矩阵的高置信度位置。通过可视化表示事件影响风险的强关联。强规则有助于关注高相关的事件-风险组合。Apriori算法利用频繁项挖掘稳定关联模式。结合置信度约束可以发现价值规则。综上所述，本申请集成Apriori与置信度约束选择强关联规则，能够准确预测事件对风险的影响。具体地，Apriori算法是一种经典的关联规则挖掘算法，主要用于在大规模数据集中发现频繁项集和关联规则。其基本思想是：先找出所有频繁项集，频繁项集需要满足最小支持度阈值。从频繁项集中生成关联规则，关联规则需要满足最小置信度阈值。Apriori利用了“先确定频繁项集，再从频繁项集中生成关联规则”的思路。Apriori使用了一个“下向封闭属性”来迭代寻找频繁项集：只有一个项集的所有子集都是频繁的，这个项集才可能是频繁的。在每次迭代中，利用这个属性来避免检查非频繁的项集，提高效率。在找到所有频繁项集后，检查每个频繁项集是否能生成置信度大于阈值的关联规则。输出满足条件的频繁项集和关联规则。综上所述，Apriori算法利用了频繁项集的特点，通过迭代层层推导的策略高效挖掘关联规则，是一种简单有效的关联分析算法。

将选择的强关联规则的左侧事件和右侧事件分别拆分成多个字段，分别计算各个字段之间的pearson相关系数，并计算事件发生时间的先后顺序作为时间权重；对选中的强关联规则进行拆分。将左侧事件拆分成多个字段，如事件类型、事件级别等。将右侧风险结果也拆分成多个字段，如资产类型、风险值等。对规则两侧的每个字段组合计算pearson相关系数。评估字段间数值相关性的强度。对事件数据提取时间戳信息。比较左右两侧事件的时间先后顺序。如果左侧事件时间在先，则设置时间权重为1。如果右侧事件时间在先，则设置时间权重为-1。最终得到字段间相关矩阵和时间权重。相关矩阵反映事件字段与风险字段的匹配关系。时间权重表示事件影响风险的时间逻辑。结合相关矩阵和时间权重可以深入分析事件引起风险的机制。为风险预测和资产关联提供支持。综上所述，本申请全面考察规则内部的定量关联，有助于分析事件触发风险的内在联系。其中，强关联规则的左侧事件为导致风险的安全事件，右侧事件为对应的风险结果，安全事件和风险结果各自拆分成多个字段；风险结果包含风险级别和风险类别。强关联规则左侧是导致风险的安全事件。将安全事件拆分为多个字段，如事件类型、事件级别等。规则右侧是对应的风险结果。将风险结果拆分为风险级别字段和风险类别字段。风险级别可取值高/中/低三个级别。风险类别表示资产类别，如服务器、网络等。计算规则左右两侧各字段间的pearson相关系数。分析事件字段与风险级别和类别的相关性。同时计算事件与风险结果的时间先后顺序。综合时间顺序与相关性计算规则权重。构建安全事件与风险级别、类别的关联模型。对新事件评估其导致不同风险的可能性。按风险级别和资产类别输出结果。评估结果支持风险分级管理和关键资产保护。综上所述，本申请明确表示强规则左右侧含义，右侧细化风险结果字段，有助于深入分析事件与细粒度风险之间的关联。

构建安全风险关联度模型，模型中每个关联规则的权重由时间权重和pearson相关系数共同决定；对每个强关联规则计算时间权重和相关矩阵。时间权重反映事件时间逻辑。相关矩阵反映字段间相关性。将时间权重归一化到[-1，1]范围。对相关矩阵取绝对值并归一化到[0，1]范围。获得规则的时间权重Wt和相关矩阵Wr。计算规则的综合权重：W＝α*Wt+(1-α)*Wr；α为时间权重系数，控制时间与相关性的权重比例。W充分结合时间顺序与关联强度。将所有强规则及其权重W整合到关联度模型中。对新检测到的事件，根据模型评估其引发各类风险的可能性。返回风险及模型关联权重W。根据权重大小对风险进行排序，得到评估结果。通过调节α参数，可动态调整时间顺序与关联相关性的作用。综上所述，本申请建立安全事件与风险联动的定量关联模型，评估事件导致风险的可能性。

根据构建的安全风险关联度模型，计算第一风险识别信息和第二风险识别信息之间的关联性；输入第一条风险识别信息，包含事件内容。根据关联度模型，计算该事件与各风险结果的关联权重。返回top k可能的相关风险列表。同理，对第二条风险信息进行关联度计算。得到两条风险信息分别关联的风险结果集合A和B。计算A和B的交集C＝A∩B。如果C不为空：两条风险信息具有共同关联风险，存在关联性。关联性可由交集大小|C|/min(|A|，|B|)表示。|C|越大，两条风险信息的关联性越强。若C为空，两条风险信息无共同关联风险，不存在关联性。通过关联模型挖掘风险识别信息之间的潜在关联。有助于分析同一事件序列触发的风险，提高检测效果。综上所述，本申请基于构建的关联度模型，通过比较两条风险信息联动的风险集合，智能判断两条风险信息之间的定量关联性。

进一步地，计算事件发生时间的先后顺序包括如下步骤：设置时间权重调整因子wt，用于表示事件发生的时间先后顺序；如果左侧事件的发生时间t1早于右侧事件的发生时间t2，则设置wt为α，其中α为0至1之间的常数；如果右侧事件的发生时间t2早于左侧事件的发生时间t1，则设置wt为1；对每条强关联规则提取左右两侧事件的时间戳。比较时间戳的先后顺序。如果左侧事件时间t1早于右侧事件时间t2：设置时间权重调整因子wt＝α；其中α为(0，1)之间的常数，如0.8。此情况下，左侧事件早发生，符合事件引发风险的时间逻辑。设置α表示这种时间顺序的正向作用程度。如果右侧事件时间t2早于左侧事件时间t1：设置wt＝1。此情况不符合常理，设置wt最大值1表示负向影响。wt与时间序正相关，左在先wt更小，RIGHT先发生wt为1。将wt与pearson相关系数结合计算权重W。wt的设置综合考虑事件时间顺序对规则的影响。通过调节α参数控制时间顺序的权重比例。综上所述，设置时间权重调整因子wt表示时间顺序对规则的贡献，wt与时间顺序正相关，可灵活调控时间因素的作用。

计算各字段间的pearson相关系数与时间权重调整因子wt的乘积，得到调整后的相关系数，以表示考虑时间因素后的相关性大小；整合各个字段的调整后的相关系数，得到事件对的整体相关性。对规则中的每个事件字段分别计算与风险字段的pearson相关系数P。P表示两字段间的线性相关性。计算事件对的时间权重调整因子wt。对每个相关系数计算：wt*P。得到调整后的相关系数P'。P'同时反映了字段间相关性及时间先后顺序。对规则中所有的P'进行整合：P_全局＝ΣP'/n。n为字段对数，P_全局为规则的整体相关性。P_全局充分综合了各个字段的关联强度。也考虑了事件时间对规则的影响。将P_全局与置信度相结合，得到规则的综合权重。权重高的规则进入关联模型。最终得到事件对字段关联细致，时间顺序准确的安全风险关联模型。有助于评估事件导致风险的全面关系。综上所述，本申请通过调整相关系数及整体融合，构建事件时间准确、字段关系精细的关联模型。

进一步地，对采集的第一风险识别信息和第二风险识别信息进行预处理，并转换为结构化格式包括如下步骤：设置数据库，存储第一风险识别信息和第二风险识别信息；创建关系数据库，建立风险识别信息表。表中包含以下字段：信息ID：唯一标识每条信息的主键信息内容：存储识别信息的文本内容捕获时间：信息被捕获的时间戳信息源：信息来源或检测系统。建立索引以加速按ID和时间字段的查询。按时间顺序存储各条风险识别信息。第一风险识别信息和第二风险识别信息按检测时间插入表中。也可以添加地域、关键词等字段记录更多元信息。数据库采用MySQL、MongoDB等关系/非关系数据库。根据数据量选择合适的数据库产品。通过数据库进行结构化存储和管理风险识别信息。为风险关联分析、模型评估等提供数据支持。综上所述，该数据库方案能够存储多维风险识别信息，方便关联分析和检索，提高风险管理的数据处理能力。

根据预定义安全风险的数据模型，使用包含自然语言处理和机器学习算法，将数据库中的非结构化数据转换为结构化数据；预定义安全风险数据模型，包含标准字段。字段包括时间、地点、参与者、事件类型、风险类型等。对数据库中的非结构化文本数据进行自然语言处理。使用命名实体识别，提取文本中的实体词和关键词。基于规则匹配和词向量技术抽取结构化字段。使用机器学习模型对抽取结果进行分类纠错。训练序列标注模型SEQ2SEQ，修正未识别和错误抽取字段。将抽取并纠正的结构化数据，映射到预定义的数据模型中。按模型格式转换并记录到结构化数据库。迭代优化抽取、纠错模型，提高结构化转换质量。结构化数据可直接用于关联分析、风险识别等算法。有效整合数据库存量非结构化数据的价值。综上所述，本申请通过NLP和机器学习算法，实现非结构化数据到结构化数据的自动转换，结合预定义数据模型使结果适用于风险分析算法。

建立数据流转跟踪机制，记录数据在预处理中的原始输入、输出和运行日志，预处理包含日志过滤、安全风险特征提取、数据脱敏和格式校验；构建数据流转跟踪系统，记录数据处理的全流程。定义数据处理流水线，包含日志过滤、特征提取、脱敏和格式校验等步骤。在流水线入口添加日志组件，记录原始输入数据。在每个处理组件出口添加日志记录输出数据。记录数据量、处理时间等运行指标。采用分布式日志收集系统，如Flume采集各处理节点的日志。构建日志主题，存储原始输入日志、处理后输出日志。日志数据库采用Elasticsearch，支持日志检索与分析。提供日志查询接口按条件检索日志。跟踪查询接口展示数据在各处理组件的流转情况。日志记录支持数据处理的监控与审计。有助于优化数据处理流程，确保处理效果。综上所述，本申请通过构建流转跟踪和日志管理机制，实现对数据处理的全链路监控，确保数据处理的质量和安全。

当检测到数据处理错误时，根据反馈日志确定出错组件，使用修正后的数据执行相应的出错步骤；通过构建的数据流转跟踪机制收集处理日志。分析日志，当发现处理数据量异常或处理时间超时可以判定为处理出错。根据日志定位出错的处理组件，如特征提取组件。查询处理前后日志，分析出错原因，如正则表达式错误导致特征未提取。修正组件业务逻辑，如修正正则表达式。查询出错数据的原始输入。使用修正后的组件重新处理出错数据。更新处理后输出日志，记录重处理结果。对比重处理前后结果，验证错误是否得到修正。根据需要触发后续组件重新处理已处理的数据。记录修正过程以优化处理程序，避免重复出错。通过快速定位、修正和重处理，有效解决数据处理过程中的异常。综上所述，本申请通过构建的数据处理跟踪机制，可以快速发现并修复处理错误，重新生成正确的处理结果，确保下游分析的可靠性。

当检测到新类型数据时，利用特征提取算法提取新类型数据的特征，使用新特征训练数据模型，利用经过训练的数据模型将新类型数据转换为结构化数据。利用日志系统检测到新类型未知数据的出现。收集一定量的新类型数据样本。对新数据进行探索性分析，使用特征提取算法如Word2Vec提取词向量特征。分析新数据的字段语义和数据分布。根据分析结果，更新数据模型，扩展字段定义和特征表示。收集更多新类型数据，标注字段信息构建新的训练数据集。使用新数据集重新训练序列标注模型SEQ2SEQ。训练目标是提升新类型数据的结构化转换效果。在处理流水线中配置新模型，部署在线处理新类型数据。持续跟踪日志，监测模型效果。根据日志继续收集错标的数据，进行增量训练以不断优化模型。重复上述过程，持续扩展模型针对新类型数据的处理能力。综上所述，本申请通过特征学习、模型定制训练、以及持续优化，实现系统对新类型数据的自适应和转换，保证结构化处理的持续有效性。具体地，新类型数据通常包括：新增的数据来源产生的数据，其特征和分布有明显不同。原有数据源中出现新的事件或场景所产生的数据，具有系统未见过的新语义。数据格式或表达方式发生明显变化，如从非结构化变为半结构化。数据集中出现新的词汇、名称实体等系统词表中未覆盖的新成分。数据中的新领域知识，如新增业务线、系统不熟悉的专业词汇。其他前所未有的语义、语法特征，不在模型的识别范围内。新类型数据是指出现在系统日志或数据集中，而之前机器学习模型没有见过、没有覆盖到的新特征的数据。通过检测、学习这些新出现的数据，可以让系统获得新知识，从而更好地处理新数据。

本说明书实施例的另一个方面还提供一种数据信息安全处理系统，执行本申请的一种数据信息安全处理方法，包括：第一风险识别信息采集模块，用于从业务处理设备获取包含设备日志、监控数据和报警信息的第一风险识别信息；第二风险识别信息采集模块，用于从云平台获取包含威胁情报、安全知识库和历史分析模型的第二风险识别信息；数据预处理模块，用于对采集的第一风险识别信息和第二风险识别信息进行预处理，并转换为结构化格式；特征构建模块，用于构建转换为结构化格式的第一风险识别信息的时间关联特征、空间关联特征和序列关联特征；并构建转换为结构化格式的第二风险识别信息的威胁情报特征IOC，作为专业特征；风险关联模型训练模块，用于利用构建的关联特征和专业特征，训练基于Apriori算法和pearson相关系数的安全风险关联度模型，获取第一风险识别信息和第二风险识别信息之间的关联性；安全方案生成模块，用于利用获取的关联性，生成包含资源配置和监控策略的安全方案。

3.有益效果

相比于现有技术，本发明的优点在于：

(1)通过采集来自业务处理设备和云平台的多样化数据信息，包括设备日志、监控数据、报警信息、威胁情报、安全知识库和历史分析模型等，综合利用多个信息源的数据，能够提供更全面的安全情报和上下文信息，增强了风险检测和关联分析的能力，从而提高风险识别的准确性；

(2)通过对采集的第一风险识别信息和第二风险识别信息进行预处理和转换为结构化格式，能够更好地进行后续特征构建和模型训练。将非结构化数据转换为结构化数据，有助于提取和表示关键特征，有效地降低数据处理的复杂性和提高处理效率，从而提高风险识别的准确性；

(3)通过构建时间关联特征、空间关联特征和序列关联特征，以及威胁情报特征IOC，作为专业特征，能够捕捉不同维度的安全事件关联信息。通过时间、空间和序列等方面的特征提取和关联分析，能够更好地揭示安全事件之间的内在关联性，从而提高风险检测的精度和准确性。

附图说明

本说明书将以示例性实施例的方式进一步描述，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的一种数据信息安全处理方法的示例性流程图；

图2是根据本说明书一些实施例所示的数据预处理的示例性流程图；

图3是根据本说明书一些实施例所示的提取关联特征的示例性流程图；

图4是根据本说明书一些实施例所示的获取数据关联性的示例性流程图；

图5是根据本说明书的一些实施例所示的一种数据信息安全处理系统的示例性模块图。

具体实施方式

下面结合附图对本说明书实施例提供的方法和系统进行详细说明。

图1是根据本说明书一些实施例所示的一种数据信息安全处理方法的示例性流程图，如图1所示，一种数据信息安全处理方法，包括：S110从业务处理设备采集第一风险识别信息，包含设备日志、监控数据和报警信息等非结构化数据。S120从云安全平台获取第二风险识别信息，包含威胁情报、安全知识库和历史分析模型等结构化信息。其中，安全知识库为预定义的事件-响应模板；历史分析模型为基于机器学习的安全事件匹配模型。S130对第一、第二风险识别信息进行预处理，包括过滤、格式校验、脱敏等，输出结构化数据。S140构建第一风险识别信息的时间关联特征、空间关联特征和序列关联特征。构建第二风险识别信息的威胁情报IOC特征。S150基于Apriori算法和pearson相关系数，训练安全风险关联度模型，学习第一信息和第二信息之间的关联规则。根据关联规则评估新检测安全事件与已知风险的关联性和相关度。S160根据关联度生成对应风险的安全防范方案，包含资源调配和监控策略。持续优化关联特征，并增量学习关联度模型，适应新风险和业务变更。通过构建安全关联规则，可以实现对海量安全事件和风险信息的智能分析和处理，有效预测风险并制定针对性方案，提高信息系统的安全防护能力。

具体实施例：从服务器收集设备运行日志，日志中包含错误码、访问IP、访问时间等信息。从防火墙获取进出流量监控数据，包含源IP、目的IP、协议、流量大小等信息。从IDS获取攻击检测报警，包含漏洞名称、攻击源、检测时间等。上述日志、监控和报警数据构成第一风险识别信息。从第三方威胁情报平台获取已知攻击源IP地址集合，作为IOC指标。从安全知识库获取SQL注入攻击特征集合与应对方案。从机器学习模型获取DDoS攻击流量检测规则。上述IOC、知识库和检测模型构成第二风险识别信息。对第一、第二信息进行预处理，转换为结构化数据格式。构建第一信息的时间关联特征、空间关联特征和攻击序列特征。构建第二信息的IOC指标特征。训练关联度模型，发现SQL注入攻击与威胁情报IP的关联。根据关联关系，生成补丁服务器和监控访问流量的安全方案。持续分析新检测到的攻击事件，更新安全方案。

图2是根据本说明书一些实施例所示的数据预处理的示例性流程图，如图2所示，对采集的第一风险识别信息和第二风险识别信息进行预处理，并转换为结构化格式包括如下步骤：

S111首先，设置数据库存储采集的第一风险识别信息和第二风险识别信息。S112然后，根据预先定义的安全风险的数据模型，应用包含自然语言处理和机器学习算法，将存储在数据库中的非结构化数据转换成结构化数据格式。S113在数据预处理过程中，建立数据处理的跟踪机制，记录预处理流程中的原始输入数据、输出数据以及运行日志，预处理包含日志过滤、安全风险特征提取、数据脱敏和格式校验等步骤。S114如果在预处理中检测到数据处理错误，则根据反馈日志确定出错的组件，并使用经过修正的数据重新执行出错的步骤。S115另外，如果检测到新的类型的数据，则利用特征提取算法提取新类型数据的特征，使用提取的新特征来训练数据模型，并用训练好的模型将新类型的数据也转换为结构化格式。本申请，实现了对采集的包含设备日志、监控数据、报警信息、威胁情报等多源异构风险识别信息的预处理，将其统一转换为结构化数据格式，以供后续构建关联特征和训练风险评估模型使用。同时，建立了数据处理追踪机制，可以定位并修正预处理错误，实现了对新类型数据的适配，保证了预处理流程的鲁棒性。

具体实施例：在MySQL数据库建立两张表，分别存储原始第一和第二风险识别信息。对第一信息中的非结构化设备日志，利用NLP技术提取日志时间、设备ID、日志关键词等结构化字段。使用Bi LSTM模型训练日志文本的语义特征表示，支持新日志的识别。对第二信息中的文本类知识库，使用SEQ2SEQ模型抽取事件-方案字段。在数据处理流水线设置日志节点，记录原始输入和每个组件输出。Flume搜集日志数据到Hadoop。使用Elasticsearch进行日志检索和分析。发现关键词提取组件误匹配日志文本，导致关键词缺失。根据日志修正关键词提取正则表达式，重处理出错日志。采集新的汉字日志数据，Word2Vec提取新词汇特征。使用新词汇特征增量训练Bi LSTM模型。使用增强模型重新处理新日志，输出结构化数据。持续扩充词汇表，优化模型，应对更多新类型日志。

图3是根据本说明书一些实施例所示的提取关联特征的示例性流程图，如图3所示，构建转换为结构化格式的第一风险识别信息的时间关联特征、空间关联特征和序列关联特征；构建转换为结构化格式的第二风险识别信息的威胁情报特征IOC，作为专业特征包括如下步骤：

S131构建时间关联特征：获取安全事件的时间戳，生成时间戳序列；对时间戳序列进行平滑和重采样，得到等间隔时间戳序列；计算时间戳序列的时间间隔，获得时间间隔特征；使用滑动时间窗口统计时间戳序列中事件次数，得到时间频率特征；使用注意力机制的循环神经网络模型学习时间关联特征。S132构建空间关联特征：基于空间数据库算法构建空间索引；计算安全事件之间的空间距离；利用空间自相关分析判断空间聚类模式；建立空间关联分析模型构建空间关联特征；使用卷积神经网络学习空间关联特征。S133构建序列关联特征：构建时间序的安全事件序列；使用顺序模式挖掘算法获得频繁序列模式；应用关联规则挖掘学习事件因果关系；S134使用图注意力网络学习序列关联特征。构建威胁情报特征IOC：从威胁报告中解析提取原子IOC指标；生成并验证组合IOC指标；对IOC进行编码、选择并过滤处理；构建包含源IP、目的IP、URL等的威胁情报特征。通过构建多维关联特征对安全事件进行表示，提高风险识别的准确性。

具体实施例：对第一信息中的设备日志，提取日志时间戳，构建以1小时为滑窗的时间分布特征。计算日志地理坐标之间的距离，进行DBSCAN聚类，生成空间聚类特征。使用Apriori算法，挖掘出设备重启日志和网络连接失败日志的频繁序列模式。对第二信息中的IDS报警，使用NAT日志解析出攻击源公网IP。关联分析抓取的攻击请求报文，提取攻击源IP和访问URL作为IOC指标。定义SQL注入攻击事件，包含源IP、目标数据库端口。构建上述时间、空间、序列和IOC特征。存储构建的结构化关联特征到特征库中。后续使用这些关联特征，训练安全风险度模型。持续丰富关联特征，扩展安全事件的关联维度。

具体地，获取安全事件的时间戳，根据时间戳生成时间戳序列。对构建的时间戳序列进行去噪和插值重采样处理，具体采用小波去噪方法抑制噪声，并使用双线性插值法进行定间隔重采样，得到等间隔的时间戳序列。计算重采样后的时间戳序列的时间间隔差值，获得表示时间间隔信息的时间间隔特征。采用滑动时间窗口对时间戳序列进行统计，计算每个时间窗口内的安全事件数量，获得表示时间频率信息的时间频率特征。构建注意力机制的循环神经网络模型，作为时间关联特征的学习器。将提取的时间间隔特征和时间频率特征作为输入，通过循环神经网络层级的特征提取和注意力机制的特征聚合，输出综合时间间隔和时间频率的时间关联特征。最终得到反映时间相关性的时间关联特征，作为训练安全风险关联度模型的特征之一，提高模型对时间因素的敏感性，增强风险识别的准确性。本申请，利用时间戳信息综合生成时间关联特征，构建对时间因素敏感的安全风险评估模型。

具体实施例：收集网络入侵检测日志，提取每个检测日志的时间戳。对时间戳进行小波去噪，减少随机抖动。采用双线性插值进行定时重采样，转换为等间隔时间序列。计算时间序列的差值，获得时间间隔特征，反映事件间的时间距离。设置1小时时间滑动窗口，统计窗口内检测日志的数量，得到时间频率特征。构建注意力机制Bi LSTM模型，输入时间间隔和频率特征。Bi LSTM模型输出时间关联特征，学习时间上相关日志模式。时间关联特征融合时间相关性，输入到后续风险度模型中。根据新检测日志动态更新时间序列和特征。迭代优化Bi LSTM模型，提高时间关联特征的质量。持续构建时间关联特征，支持风险度模型对更复杂时间相关攻击的识别。

具体地，基于空间数据库算法，构建基于网格索引或地理哈希的空间索引，用以快速查找空间距离。在构建的空间索引基础上，计算各个安全事件之间的空间距离，可以采用曼哈顿距离或切比雪夫距离等算法。利用空间自相关分析算法判断安全事件之间的空间聚类模式和空间相关性。根据计算得到的空间距离、空间聚类模式和空间相关性，使用机器学习方法建立空间关联分析模型。通过空间关联分析模型构建反映安全事件空间关联性的空间关联特征。采用注意力机制的卷积神经网络对空间关联特征进行多级抽象和表达，并进行空间关联判断。最终获得融合空间距离、聚类模式、相关性的空间关联特征。本申请，综合空间因素构建空间关联特征，用于训练空间敏感的安全风险评估模型，提高风险识别的空间相关性。

具体实施例：收集包含经纬度坐标的网络攻击日志。使用Geohash算法对空间坐标进行地理哈希编码，获取日志的空间索引。基于空间索引，计算日志坐标点之间的曼哈顿距离，获得空间距离特徵。使用DBSCAN聚类算法，分析日志的空间聚类模式。通过局部Moran'sI空间自相关统计量，计算空间自相关性，反映区域聚集，局部Moran'sI统计量是一种用于检测空间数据聚集模式的统计方法。它可以度量一个区域内的空间单元与相邻区域单元的值之间的相关性,用于判断单个空间单元周围是否存在与其值相似的聚类。。将空间距离、聚类模式、自相关性作为输入，使用PCA降维。构建卷积神经网络CNN模型，输入降维后空间特征。CNN网络输出抽象后的空间关联特征。使用空间关联特征，判定攻击日志的空间相关性。根据新日志更新空间索引和特征提取。迭代优化CNN模型，提升空间关联判断的准确率。持续丰富空间关联特征，支持风险模型检测具有空间关联的攻击。

具体地，利用预处理后的第一风险识别信息，按时间顺序构建结构化的安全事件序列，包含事件类型字段、事件目标ID字段和时间戳字段。使用顺序模式挖掘算法，从安全事件序列中获取频繁的序列模式，生成候选序列特征。应用关联规则挖掘算法，从候选序列特征学习事件之间的因果关系，得到安全事件的因果链。使用基于FP growth的预计算方法，减少候选序列模式的生成次数，提高效率。根据信息增益和最小支持度阈值，从候选序列中选择信息增益高和支持度满足要求的频繁序列模式。使用选择的频繁序列模式构建基于顺序特征的安全事件关联图。采用知识图谱表示安全事件关联图，使用基于图注意力网络的模型进行特征学习和融合。最终输出融合了顺序特征和关联规则信息的序列关联特征。通过序列特征提取、关联规则学习和图注意力网络的融合，构建反映事件顺序和因果关系的序列关联特征，提高安全事件的顺序关联判断能力。

具体实施例：从预处理后日志中提取安全事件，包含事件类型、目标ID和时间戳。根据时间戳排序，构建事件序列。使用Apriori算法，按支持度计算候选频繁序列模式。应用FP growth算法优化，减少候选生成次数。计算各候选序列的信息增益，选择信息增益高的频繁序列模式。使用关联规则算法，从频繁序列中学习事件因果关系。构建基于频繁序列的事件关联图谱。应用GAT网络，学习关联图的特征表示。GAT网络输出融合顺序和关联规则的序列特征。根据新事件更新关联图谱和GAT模型。持续迭代优化序列特征学习，提升关联精度。应用序列特征启发安全风险模型，识别事件关联和攻击链。

具体地，从云平台获取包含IOC指标的威胁报告，使用XML解析器解析提取报告中的原子IOC指标，包括IP地址、域名和文件哈希。对提取的原子IOC指标进行关联分析，生成组合的IOC指标。使用网络流量和日志数据验证生成的组合IOC指标的有效性。对验证的组合IOC指标进行one hot编码和向量化，构建结构化的IOC特征。应用基于TF-IDF和信息增益的特征选择算法，选择权重和信息增益大于阈值的IOC特征。使用隔离森林模型对选择的IOC特征进行异常检测，过滤无效的IOC指标。组合经过滤处理的有效IOC指标，构建结构化的威胁情报特征。最终获得经验证和优化的威胁情报特征IOC，用于训练安全风险评估模型。通过解析、验证、过滤和优化，从威胁情报报告中提取有效的IOC指标，构建威胁情报特征，提高安全风险识别的准确性。

具体实施例：从第三方威胁情报平台获取包含IOC的威胁报告文件。使用XML解析器提取报告中的原子IOC，如IP地址、URL、File Hash。通过关联分析，生成组合IOC，如IP+端口、域名+URI。使用网络日志和流量数据验证组合IOC，过滤无效IOC。对有效IOC进行onehot编码，转换为向量表示。计算编码后IOC特征的TF-IDF权重。根据信息增益，选择有效的TF-IDF权重高的IOC特征。使用Isolation Forest过滤异常IOC噪声。保留通过验证的有效IOC特征。将选择的IOC特征输入风险度模型。当导入新报告时，更新IOC提取和处理流程。持续优化IOC特征选择与处理，提高风险模型的准确性。

图4是根据本说明书一些实施例所示的获取数据关联性的示例性流程图，如图4所示，获取第一风险识别信息和第二风险识别信息之间的关联性包括如下步骤：

S151构建包含安全事件和风险结果的关联规则矩阵。S152计算关联规则矩阵中每个关联规则的支持度和置信度。S153使用Apriori算法，从矩阵中选择支持度和置信度均超过阈值的强关联规则。将选择的强关联规则的左侧安全事件和右侧风险结果分别拆分成多个字段。S154计算安全事件字段和风险结果字段之间的pearson相关系数。计算事件发生的时间先后顺序，作为时间权重。S155构建安全风险关联度模型，每个关联规则的权重由时间权重和pearson相关系数共同决定。S156根据构建的模型，计算第一风险识别信息和第二风险识别信息之间的关联性。强关联规则的左侧事件表示导致风险的安全事件，右侧结果表示对应的风险级别和风险类别。通过上述方案，构建了结合时间顺序和统计相关性的安全风险关联度模型，可以有效评估多源异构信息之间的关联性，提高风险识别的准确率。

具体实施例：构建包含安全事件和风险结果的关联规则矩阵。计算每个规则的支持度和置信度。使用Apriori算法，选择支持度和置信度高的强关联规则。拆分左右两个事件，分别统计字段pearson相关系数。计算事件时间顺序，作为时间权重。构建关联度模型，规则权重由pearson系数和时间权重共同决定。对新检测安全事件，根据关联度模型计算其与风险结果的关联性。安全事件字段包括源IP、端口、漏洞类型等。风险结果字段包括风险级别、风险类型等。根据源IP和端口的相关性判定网络入侵事件与数据泄露风险的关联度。当导入新数据时，更新关联规则矩阵和模型。持续迭代优化关联度模型，提高关联判断准确性。

具体地，设置时间权重调整因子wt，用于表示关联规则左右两侧事件发生时间的先后顺序。如果左侧事件的发生时间t1早于右侧事件的发生时间t2，则设置wt为α，其中α为0至1之间的常数。如果右侧事件的发生时间t2早于左侧事件的发生时间t1，则设置wt为1。分别计算各个字段间的pearson相关系数。将各字段间的pearson相关系数与时间权重调整因子wt相乘，得到调整后的相关系数。调整后的相关系数表示考虑了时间因素后的相关性大小。整合所有字段的调整后的相关系数，求平均或求和，得到事件对的整体关联性。通过时间权重调整因子的设置，考虑了事件发生的时间先后顺序对关联性的影响。最终获得集成了时间顺序和统计相关性的安全事件关联度量。上述方案充分利用时间信息指导关联性分析，提高安全风险评估的准确性。

具体实施例：定义时间权重调整因子wt，用于表示事件时间先后顺序。对关联规则矩阵中每个规则的左右两个事件：比较它们的发生时间t1和t2。如果t1<t2，即左事件先发生，设置wt＝0.8。如果t1>t2，即右事件先发生，设置wt＝1。计算两个事件各个字段间的pearson相关系数。将相关系数与wt相乘，得到调整后的相关系数。合并每个字段的调整相关系数，计算两个事件的整体关联性。考虑时间顺序后，同样的相关性大小表示事件顺序与关联规则一致，其关联性更强。当导入新数据时，更新时间顺序权重计算。通过时间顺序调整，使关联度模型更加准确。持续优化时间顺序因素的融合，提高模型对事件先后顺序的学习能力。

图5是根据本说明书的一些实施例所示的一种数据信息安全处理系统的示例性模块图，如图5所示，一种数据信息安全处理系统200，包括：第一风险识别信息采集模块210，用于从业务处理设备获取包含设备日志、监控数据和报警信息的第一风险识别信息；第二风险识别信息采集模块220，用于从云平台获取包含威胁情报、安全知识库和历史分析模型的第二风险识别信息。数据预处理模块230，用于对采集的第一风险识别信息和第二风险识别信息进行预处理，并转换为结构化格式。特征构建模块240，用于构建第一风险识别信息的时间关联特征、空间关联特征和序列关联特征；并构建第二风险识别信息的威胁情报特征IOC，作为专业特征。风险关联模型训练模块250，用于利用构建的关联特征和专业特征，基于Apriori算法和pearson相关系数训练获取第一风险识别信息和第二风险识别信息之间关联性的安全风险关联度模型。安全方案生成模块260，用于根据获得的关联性，生成包含资源配置和监控策略的安全方案。通过对多源异构风险识别信息的预处理、特征构建、关联性模型训练和安全方案生成，实现了基于大数据分析的安全风险智能关联与评估，提高了安全防护的主动性和有效性。具体实施例，风险采集模块从第三方云平台获取威胁情报报告、安全知识库等作为第二风险识别信息。数据预处理模块对第一和第二风险信息进行清洗、解析、转换为结构化数据。特征构建模块从第一信息中提取时间、空间、序列关联特征。从第二信息中提取IOC威胁情报特征。风险关联模型模块，使用Apriori算法和pearson系数训练关联度模型。输入第一和第二信息的关联特征，计算两者的关联性。安全方案模块根据关联性，自动生成资源隔离和网络访问控制的安全策略方案。部署资源隔离容器，限制异常应用访问核心数据库。配置访问控制系统，屏蔽来自可疑IP的网络连接。持续迭代优化关联模型和安全策略生成，做到自动化的风险驱动分析与应对。

Claims

1.一种数据信息安全处理方法，其特征在于，包括：

从业务处理设备获取包含设备日志、监控数据和报警信息的第一风险识别信息；

从云平台获取包含威胁情报、安全知识库和历史分析模型的第二风险识别信息，其中，安全知识库为包含安全事件特征和对应方案的结构化知识库，历史分析模型为基于机器学习训练的安全事件匹配模型；

对采集的第一风险识别信息和第二风险识别信息进行预处理，并转换为结构化格式；

构建转换为结构化格式的第一风险识别信息的时间关联特征、空间关联特征和序列关联特征；构建转换为结构化格式的第二风险识别信息的威胁情报特征IOC，作为专业特征；

利用构建的关联特征和专业特征，训练基于Apriori算法和pearson相关系数的安全风险关联度模型，获取第一风险识别信息和第二风险识别信息之间的关联性；

利用获取的关联性，生成包含资源配置和监控策略的安全方案；

获取第一风险识别信息和第二风险识别信息之间的关联性包括如下步骤：

构建包含安全事件和风险结果的关联规则矩阵；

计算关联规则矩阵中每个关联规则的支持度和置信度；

利用Apriori算法，从关联规则矩阵中选择支持度和置信度均超过预设阈值的强关联规则；

将选择的强关联规则的左侧事件和右侧事件分别拆分成多个字段，分别计算各个字段之间的pearson相关系数，并计算事件发生时间的先后顺序作为时间权重；

构建安全风险关联度模型，模型中每个关联规则的权重由时间权重和pearson相关系数共同决定；

根据构建的安全风险关联度模型，计算第一风险识别信息和第二风险识别信息之间的关联性；

其中，强关联规则的左侧事件为导致风险的安全事件，右侧事件为对应的风险结果，安全事件和风险结果各自拆分成多个字段；风险结果包含风险级别和风险类别；

计算事件发生时间的先后顺序包括如下步骤：

设置时间权重调整因子wt，用于表示事件发生的时间先后顺序；

如果左侧事件的发生时间t1早于右侧事件的发生时间t2，则设置wt为α，其中α为0至1之间的常数；

如果右侧事件的发生时间t2早于左侧事件的发生时间t1，则设置wt为1；

计算各字段间的pearson相关系数与时间权重调整因子wt的乘积，得到调整后的相关系数，以表示考虑时间因素后的相关性大小；

整合各个字段的调整后的相关系数，得到事件对的整体相关性。

2.根据权利要求1所述的数据信息安全处理方法，其特征在于：

构建转换为结构化格式的第一风险识别信息的时间关联特征、空间关联特征和序列关联特征；构建转换为结构化格式的第二风险识别信息的威胁情报特征IOC，作为专业特征包括如下步骤：

利用时间戳平滑和统计方法，构建时间关联特征，包含时间戳序列、时间间隔和滑动时间窗口频率；

利用空间距离算法和空间自相关分析，构建空间关联特征，包含安全事件空间距离和空间聚类模式；

利用顺序模型挖掘算法，构建包含频繁序列模式的安全事件序列特征，利用关联规则算法构建安全事件因果链；

利用NAT解析和告警关联分析，构建威胁情报特征IOC，包含源IP、目的IP和URL；

其中，安全事件表示与系统或网络安全状态变化相关的记录，安全事件包含源IP和目的端口。

3.根据权利要求2所述的数据信息安全处理方法，其特征在于：

构建时间关联特征包括如下步骤：

获取安全事件的时间戳，并生成时间戳序列；

对时间戳序列进行小波去噪和双线性插值重采样，获得等间隔时间戳序列；

计算时间戳序列的时间间隔差值，获得时间间隔特征；

采用滑动时间窗口统计时间戳序列中安全事件次数，得到时间频率特征；

构建注意力机制的循环神经网络模型，作为时间相关性学习器，输入时间间隔特征和时间频率特征，输出时间关联特征。

4.根据权利要求2所述的数据信息安全处理方法，其特征在于：

构建空间关联特征包括如下步骤：

基于空间数据库算法，构建基于网格索引或地理哈希的空间索引；

基于构建的空间索引，采用曼哈顿距离或切比雪夫距离计算各个安全事件之间的空间距离；

利用空间自相关算法，判断安全事件间的空间聚类模式和空间相关性；

根据获得的空间距离、空间聚类模式和空间相关性，采用机器学习方法建立空间关联分析模型，以构建反映安全事件空间关联性的空间关联特征；

采用注意力机制的卷积神经网络，对空间关联特征进行多级抽象与表达，并进行空间关联判断。

5.根据权利要求2所述的数据信息安全处理方法，其特征在于：

构建安全事件序列特征和构建安全事件因果链包括如下步骤：

利用预处理后的第一风险识别信息，根据时间戳顺序构建结构化的安全事件序列，安全事件序列包含：表示事件类型的编码字段，表示事件目标的ID字段，表示事件时间的时间戳字段；

利用顺序模式挖掘算法，获取安全事件序列中的频繁序列模式，构建候选序列特征；

应用关联规则挖掘算法，从候选序列特征中学习事件之间的因果关系，生成事件因果链；

采用基于FP growth的预计算，以减少候选序列模式生成次数；

应用信息增益评价指标和最小支持度阈值，从候选序列模式中选择信息增益高于阈值且支持度满足要求的频繁序列模式；

利用选择的频繁序列模式，构建基于顺序特征的安全事件关联图；

采用知识图谱表示安全事件关联图，并利用基于GAT的图注意力网络进行特征学习与融合，输出融合了顺序特征和关联规则的序列关联特征。

6.根据权利要求2所述的数据信息安全处理方法，其特征在于：

构建威胁情报特征IOC包括如下步骤：

从云平台中，获取包含IOC指标的威胁报告；

使用XML解析器对获取的威胁报告进行解析，提取出报告中的原子IOC指标，原子IOC指标包含IP地址、域名和文件哈希；

对提取的原子IOC指标进行关联分析，生成组合IOC指标；

利用网络流量和日志数据，对组合IOC指标进行验证；

对经验证的组合IOC指标进行one hot编码和向量化，构建结构化IOC特征；

应用基于TFIDF和信息增益的特征选择算法，从编码得到的结构化IOC特征中，选择TFIDF权重大于阈值且信息增益大于阈值的IOC特征；

利用隔离森林模型对选择的IOC特征进行异常检测，过滤掉无效IOC指标；

组合经过滤处理的IOC指标，构建威胁情报特征。

7.根据权利要求1所述的数据信息安全处理方法，其特征在于：

对采集的第一风险识别信息和第二风险识别信息进行预处理，并转换为结构化格式包括如下步骤：

设置数据库，存储第一风险识别信息和第二风险识别信息；

根据预定义安全风险的数据模型，使用包含自然语言处理和机器学习算法，将数据库中的非结构化数据转换为结构化数据；

建立数据流转跟踪机制，记录数据在预处理中的原始输入、输出和运行日志，预处理包含日志过滤、安全风险特征提取、数据脱敏和格式校验；

当检测到数据处理错误时，根据反馈日志确定出错组件，使用修正后的数据执行相应的出错步骤；

当检测到新类型数据时，利用特征提取算法提取新类型数据的特征，使用新特征训练数据模型，利用经过训练的数据模型将新类型数据转换为结构化数据。

8.一种基于权利要求1至7任一所述的数据信息安全处理方法的系统，包括：

第一风险识别信息采集模块，用于从业务处理设备获取包含设备日志、监控数据和报警信息的第一风险识别信息；

第二风险识别信息采集模块，用于从云平台获取包含威胁情报、安全知识库和历史分析模型的第二风险识别信息；

数据预处理模块，用于对采集的第一风险识别信息和第二风险识别信息进行预处理，并转换为结构化格式；

特征构建模块，用于构建转换为结构化格式的第一风险识别信息的时间关联特征、空间关联特征和序列关联特征；并构建转换为结构化格式的第二风险识别信息的威胁情报特征IOC，作为专业特征；

风险关联模型训练模块，用于利用构建的关联特征和专业特征，训练基于Apriori算法和pearson相关系数的安全风险关联度模型，获取第一风险识别信息和第二风险识别信息之间的关联性；

安全方案生成模块，用于利用获取的关联性，生成包含资源配置和监控策略的安全方案。