Nothing Special   »   [go: up one dir, main page]

CN112733937A - 一种可信图数据节点分类方法、系统、计算机设备及应用 - Google Patents

一种可信图数据节点分类方法、系统、计算机设备及应用 Download PDF

Info

Publication number
CN112733937A
CN112733937A CN202110028476.6A CN202110028476A CN112733937A CN 112733937 A CN112733937 A CN 112733937A CN 202110028476 A CN202110028476 A CN 202110028476A CN 112733937 A CN112733937 A CN 112733937A
Authority
CN
China
Prior art keywords
node
curvature
matrix
graph
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110028476.6A
Other languages
English (en)
Inventor
肖阳
邢卓林
裴庆祺
杨舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110028476.6A priority Critical patent/CN112733937A/zh
Publication of CN112733937A publication Critical patent/CN112733937A/zh
Priority to US17/325,246 priority patent/US20220222536A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于深度学习应用之网络分析技术领域,公开了一种可信图数据节点分类方法、系统、计算机设备及应用,所述可信图数据节点分类方法包括以下步骤:1)输入拓扑图和节点特征,计算散拓扑图的离散里奇曲率;2)对曲率和节点特征进行预处理;3)对曲率进行映射,对原始特征进行重构,在包含对抗样本的图数据上进行半监督训练;4)对没有标记的节点进行分类。本发明利用离散曲率提取拓扑信息,使用残差网络重构节点特征向量,无需了解对抗样本的具体技术细节,无需大量的对抗样本进行对抗性训练,能够有效抵抗图数据上对抗样本的攻击,且在不含对抗样本的数据上也超过了现有主流模型的准确率,是一种可信的节点分类系统。

Description

一种可信图数据节点分类方法、系统、计算机设备及应用
技术领域
本发明属于深度学习应用之网络分析技术领域,尤其涉及一种可信图数据节点分类方法、系统、计算机设备及应用。
背景技术
目前:随着计算机硬件设备的进步和计算能力的爆炸式发展,深度学习和神经网络技术也不断实现突破,而GNN(GraphNeuralNetwork,图神经网络) 的出现将深度学习和神经网络引入了图这种非欧式数据分析中,研究者们基于图信号处理中对频谱的定义,使用图拉普拉斯算子解决了CNN (ConvolutionalNeuralNetwork,卷积神经网络)从图片文本领域移植到图数据领域时,局部卷积算子和汇聚算子难以定义的问题。自此GNN飞速发展,在科研和工业应用上都取得了令人瞩目的成果。
但是,深度学习在图片和文本领域面临的对抗样本攻击的安全性问题,在图数据领域同样不可避免。以应用最广泛的GCN(GraphNeuralNetwork)为例,通过在拓扑图中添加或删除一些边,造成微小扰动,就能够是分类系统性能出现大幅下降。比如使用mettack对抗样本生成模型在原始图书数据中添加5%的扰动,就能够导致GCN的分类准确率下降13%以上。而其他的对抗样本技术,比如nettack这种有目标攻击,则是通过对目标节点添加扰动,让模型对指定节点产生错误判别。对抗样本的存在,严重阻碍了GNN在一些对安全性和稳定性要求较高的领域应用,比如在银行的信用预测系统中,一些信用度低的人可以通过添加一些信用度高的好友来伪装自己,在推荐系统中,一些垃圾邮件发送者可能创建虚假关注者以增加虚假新闻的影响范围。
目前对于图数据对抗样本的防御研究或者可信图神经网络系统的研究仍处于起步阶段,现有技术方案如下:现有技术一,利用节点的特征相似度,对输入的图数据拓扑进行清洗。通过去除相似度低的节点之间的边,构建新的拓扑结构,随后输入到已有的GNN模型进行训练和预测。现有技术二,采用奇异值分解的方式提取拓扑信息,利用对抗样本的高阶特性,使用低阶奇异值对分类结果进行低阶近似,以避开对抗样本的攻击。现有技术三,使用注意力机制和概率论模型,将高斯分布表示GNN的隐藏层节点特征,依靠注意力机制为邻居节点分配权重。现有技术四,利用天然图数据的低阶性和稀疏特性,在堆拓扑结构进行训练,学习出一个新的拓扑代替原有受到攻击的拓扑。现有技术五,利用大量的对抗样本对模型进行对抗训练。
综上所述,现有技术存在的问题如下:1)现有的数据清洗技术(现有技术一、现有技术四),利用节点特征相似度或者图数据的低阶特性,导致两个问题:首先对于某些只含拓扑结构的图数据分析任务,基于节点特征相似度的分类系统完全不可用。其次利用图数据的低阶特性对含有对抗样本进行清洗的同时可能会引入新的干扰,造成对数据的二次污染,使得模型在较低干扰率下的性能得不到保障。2)现有的可信图数据分类系统和对抗训练技术(现有技术二、现有技术四、现有技术五),需要事先了解对抗样本的技术细节,或者需要生成大量的对抗样本进行有针对性的进行鲁棒性提升,由于对抗样本生成算法复杂度高,其在数据构建阶段会浪费大量时间,其次这种有针对的提升不能很好地抵抗未知干扰。3)现有技术三,在这种利用概率论模型的方案中,GNN对于高比例的对抗样本攻击产生了一定的抵抗效果,但是在干扰率较低的环境下,分类系统的性能不稳定,甚至低于最基本的GNN分类系统。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有的数据清洗技术利用节点特征相似度或者图数据的低阶特性导致对于某些只含拓扑结构的图数据分析任务,基于节点特征相似度的分类系统完全不可用;利用图数据的低阶特性对含有对抗样本进行清洗的同时可能会引入新的干扰,造成对数据的二次污染,使得模型在较低干扰率下的性能得不到保障。
(2)现有的可信图数据分类系统和对抗训练技术对抗样本生成算法复杂度高,其在数据构建阶段会浪费大量时间,其次这种有针对的提升不能很好地抵抗未知干扰。
(3)现有在利用概率论模型的方案中,GNN对于高比例的对抗样本攻击产生了一定的抵抗效果,在干扰率较低的环境下,分类系统的性能不稳定,甚至低于最基本的GNN分类系统。
解决以上问题及缺陷的难度为:如何在无需了解对抗样本技术细节的情况下提高系统鲁棒性;如何降低数据准备阶段的处理时间,提高系统效率;如何提高系统的适用性,避免对图数据某一特征的过分依赖;如何保证系统鲁棒性的同时,使得系统在贴近真实环境的较低干扰率或者无对抗样本数据上保持较高的准确率。
解决以上问题及缺陷的意义为:提高分类系统鲁棒性和安全性,能够加快图神经网络在工业领域的推广和应用,尤其是在一些对安全性要求较高的领域。另外能够提升已有应用的稳定性可靠性,充分利用图神经网络强大的表达能力促进生产进步。提高系统的适用性降低图神经网络的应用限制,有利于发掘图神经网络的应用潜力,扩大图神经网络的应用范围。
发明内容
针对现有技术存在的问题,本发明提供了一种可信图数据节点分类方法、系统、计算机设备及应用。
本发明是这样实现的,一种可信图数据节点分类方法,所述可信图数据节点分类方法包括:
输入图的邻接矩阵和节点特征矩阵,计算散拓扑图的离散里奇曲率提取拓扑信息,相比特征相似度、注意力机制等机制,离散里奇曲率能够更加明显的对抗样本进行区分,由于曲率模型不依赖特征,所以曲率驱动网络能够运行在一些不含特征的图数据中,适用范围更广;
对曲率和节点特征进行预处理,包括原始曲率的预处理和节点特征矩阵的归一化处理,以便后需进行特征重构和聚合,利用残差网络重构特征能够降低模型子拟合过程的中的过平滑问题;
使用MLP对曲率进行映射并归一化处理,使用特征重构模型对原始特征进行特征重构,利用映射后的曲率矩阵和原始特征向量进行半监督训练。提取并聚合节点特征;
利用节点分类模型对图数据中的节点完成分类预测。
进一步,所述可信图数据节点分类方法的离散里奇曲率计算,使用 Ricci–Ollivier curvature曲率计算公式,具体计算公式如下:
Figure BDA0002891165240000041
其中x,y表示拓扑图中的节点,kxy表示x节点与y节点之间的边e(x,y), W(mx,my)为瓦瑟斯坦距离,d(x,y)表示x节点与y节点之间最短距离,即边 e(x,y)的权重。
Figure BDA0002891165240000042
其中α为超参数且α∈[0,1],一般将α设为0.5,
Figure BDA0002891165240000043
表示在节点x处的一种概率度量,如果使用G=(V,E)表示一个无向图的顶点和边的集合,那么对于每个节点x∈V,N(x)={x1,x2,x4,…,xk}表示x节点的一阶近邻节点;
计算x节点与y节点之间瓦瑟斯坦距离的方式为求解如下线性规划:
min∑i,jd(xi,yi)M(xi,yi);
Figure BDA0002891165240000044
Figure BDA0002891165240000045
进一步,所述可信图数据节点分类方法的曲率预处理,通过对数值较低的曲率进行预处理,具体计算公式入下:
Figure BDA0002891165240000051
其中p为一个超参数,表示一个百分比,percentile(K,p)计算出的是所有曲率值按升序排列后的第p%个数值。
进一步,所述可信图数据节点分类方法的原始特征矩阵进行归一化处理,具体处理方式为对于每一行特征向量求和并对每个特征值除以这个值,使得处理后的特征矩阵中每个特征向量特征值和为1;
基于残差网络的节点特征特征重构模块,具体方案为对于每一个节点特征
Figure BDA0002891165240000052
将其一阶近邻节点xi∈N(x)的特征向量从特征矩阵中提取出来,将其纵向堆叠为一个新的矩阵M,将x节点同样纵向堆叠为相同的矩阵,并进行拼接得到矩阵
Figure BDA0002891165240000053
将这个堆叠起来的矩阵通过MLP计算Mask,特征重构后的特征矩阵为
Figure BDA0002891165240000054
其中每个特征向量
Figure BDA0002891165240000055
的聚合方式为:
Figure BDA0002891165240000056
其中sum函数表示对其中的矩阵按列求和。
进一步,所述可信图数据节点分类方法的曲率映射模块,其为一个偏置量为1的多层感知机,使用α=0.2的LeakyRule激活函数,并对最终的曲率矩阵进行按行归一化处理,最终得到映射后的曲率矩阵ψ;
曲率聚合模块,基于曲率的隐藏层节点特征聚合模块,使用映射后的曲率值代替传统GCN中的拉普拉斯矩阵,层间聚合公式为:
Figure BDA0002891165240000057
GNN模型中各模块的网络参数在半监督学习训练过程中使用反向传播算法同步更新。
进一步,所述可信图数据节点分类方法的节点预测模型,使用最后一层网络的输出的节点特征向量通过一个全连接层网络,使用softmax作为激活函数,得到到节点的概率分布,取预测概率最大类别作为节点的预测结果。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
输入图的邻接矩阵和节点特征矩阵,计算散拓扑图的离散里奇曲率提取拓扑信息;
对曲率和节点特征进行预处理,包括原始曲率的预处理和节点特征矩阵的归一化处理;
使用MLP对曲率进行映射并归一化处理,使用特征重构模型对原始特征进行特征重构,利用映射后的曲率矩阵和原始特征向量进行半监督训练。提取并聚合节点特征;
利用节点分类模型对图数据中的节点完成分类预测。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
输入图的邻接矩阵和节点特征矩阵,计算散拓扑图的离散里奇曲率提取拓扑信息;
对曲率和节点特征进行预处理,包括原始曲率的预处理和节点特征矩阵的归一化处理;
使用MLP对曲率进行映射并归一化处理,使用特征重构模型对原始特征进行重构,利用映射后的曲率矩阵和原始特征向量进行半监督训练。提取并聚合节点特征;
利用节点分类模型对图数据中的节点完成分类预测。
本发明的另一目的在于提供一种实施所述可信图数据节点分类方法的可信图数据节点分类系统,所述可信图数据节点分类系统包括:
拓扑信息提取模块,用于输入拓扑图和节点特征,计算散拓扑图的离散里奇曲率提取拓扑信息;
归一化预处理模块,用于对曲率和节点特征进行归一化预处理;
半监督训练模块,用于在利用曲率和残差网络模型在存在包含对抗样本的图数据上进行半监督训练;
分类预测模块,用于对没有标记的节点进行分类预测。
本发明的另一目的在于提供一种计算机硬件设备,所述计算机硬件设备用于实现所述的可信图数据节点分类方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明无需了解对抗样本技术细节,无需对原始拓扑清洗,也不许要大量的对抗样本进行对抗训练,系统适用性强,精确度高。
表1 对比实验结果
Figure DEST_PATH_IMAGE001
本发明使用经过映射的曲率矩阵代替卷积图神经网络中的拉普拉斯矩阵,并使用MLP学习每个特征的重要程度,在原始特征矩阵上对特征进行特征重构,在避免对原始拓扑信息清洗造成二次污染的同时充分利用图数据节点特征和拓扑信息提高模型鲁棒性,这种多维度聚合方式有效提高了系统的适应性和准确率。上表为在四个数据集上使用nettack对抗样本生成模型的实验结果,我们和七个主流方案进行对比,本发明的准确率均高于其他方案。
本发明对于无对抗样本的图数据,本系统相比其他方法平均高出了1.33%到5.41%的准确率,在含有对抗样本的图数据上使用本系统得到准确率较其他方法均有大幅度提升。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的可信图数据节点分类方法流程图。
图2是本发明实施例提供的可信图数据节点分类系统的结构示意图;
图2中:1、拓扑信息提取模块;2、归一化预处理模块;3、半监督训练模块;4、分类预测模块。
图3是本发明实施例提供的可信图数据节点分类方法的各模块及整体系统结构示意图。
图4是本发明实施例提供的实验效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种可信图数据节点分类方法、系统、计算机设备及应用,下面结合附图对本发明作详细的描述。
如图1所示,本发明提供的可信图数据节点分类方法包括以下步骤:
S101:输入图的邻接矩阵和节点特征矩阵,计算散拓扑图的离散里奇曲率提取拓扑信息;
S102:对曲率和节点特征进行预处理,包括原始曲率的预处理和节点特征矩阵的归一化处理;
S103:使用MLP对曲率进行映射并归一化处理,使用特征重构模型对原始特征进行特征重构,利用映射后的曲率矩阵和原始特征向量进行半监督训练。
提取并聚合节点特征;
S104:利用节点分类模型对图数据中的节点完成分类预测。
本发明提供的可信图数据节点分类方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的可信图数据节点分类方法仅仅是一个具体实施例而已。
如图2所示,本发明提供的可信图数据节点分类系统包括:
拓扑信息提取模块1,用于输入拓扑图和节点特征,计算散拓扑图的离散里奇曲率提取拓扑信息;
归一化预处理模块2,用于对曲率和节点特征进行归一化预处理;
半监督训练模块3,用于在利用曲率和残差网络模型在存在包含对抗样本的图数据上进行半监督训练;
分类预测模块4,用于对没有标记的节点进行分类预测。
下面结合附图对本发明的技术方案作进一步的描述。
如图3所示,本发明将离散曲率引入图神经网络,并在原始特征上进行特征重构。充分合理的利用了图数据的拓扑信息和节点原始特征,提高了分类模型的适用性和稳定性。
离散里奇曲率计算,本发明使用Ricci–Ollivier curvature曲率计算公式,具体计算公式如下:
Figure BDA0002891165240000101
其中x,y表示拓扑图中的节点,kxy表示x节点与y节点之间的边e(x,y), W(mx,my)为瓦瑟斯坦距离,d(x,y)表示x节点与y节点之间最短距离,即边 e(x,y)的权重。
Figure BDA0002891165240000102
其中α为超参数且α∈[0,1],一般将α设为0.5,
Figure BDA0002891165240000103
表示在节点x处的一种概率度量,如果使用G=(V,E)表示一个无向图的顶点和边的集合,那么对于每个节点x∈V,N(x)={x1,x2,x4,…,xk}表示x节点的一阶近邻节点。
计算x节点与y节点之间瓦瑟斯坦距离的方式为求解如下线性规划:
min∑i,jd(xi,yi)M(xi,yi);
Figure BDA0002891165240000104
Figure BDA0002891165240000105
曲率预处理,通过对一些数值较低的曲率进行预处理,降低对抗样本的影响力,具体计算公式入下:
Figure BDA0002891165240000106
其中p为一个超参数,表示一个百分比,percentile(K,p)计算出的是所有曲率值按升序排列后的第p%个数值。
原始特征矩阵进行归一化处理,具体处理方式为对于每一行特征向量求和并对每个特征值除以这个值,使得处理后的特征矩阵中每个特征向量特征值和为1。
基于残差网络的节点特征特征重构模块,具体方案为。对于每一个节点特征
Figure BDA0002891165240000111
将其一阶近邻节点xi∈N(x)的特征向量从特征矩阵中提取出来,将其纵向堆叠为一个新的矩阵M,将x节点同样纵向堆叠为相同的矩阵,并进行拼接得到矩阵
Figure BDA0002891165240000112
将这个堆叠起来的矩阵通过MLP计算Mask,特征重构后的特征矩阵为
Figure BDA0002891165240000113
其中每个特征向量
Figure BDA0002891165240000114
的聚合方式为:
Figure BDA0002891165240000115
其中sum函数表示对其中的矩阵按列求和。
曲率映射模块,其为一个偏置量为1的多层感知机,使用α=0.2的 LeakyRule激活函数,并对最终的曲率矩阵进行按行归一化处理。最终得到映射后的曲率矩阵ψ。
曲率聚合模块,基于曲率的隐藏层节点特征聚合模块,使用映射后的曲率值代替传统GCN中的拉普拉斯矩阵。层间聚合公式为:
Figure BDA0002891165240000116
GNN模型中各模块的网络参数在半监督学习训练过程中使用反向传播算法同步更新。
节点预测模型,使用最后一层网络的输出的节点特征向量通过一个全连接层网络,使用softmax作为激活函数,得到到节点的概率分布,取预测概率最大类别作为节点的预测结果。
下面结合实验对本发明的技术效果作详细的描述。
如图4所示,本实验通过知名开源深度学习平台Pytorch以及其衍生的图神经网络框架Torch_geometric、曲率计算相关的开源库GraphRicciCurvature以及网络分析开源库networkx实现了该模型,硬件平台基于NVIDIARTX2080。使用了四组真实数据集Cora、Citeseer、Polblogs、Pumbed和四种主流的对抗样本生成模型来验证和评估模型以及现有方法的性能,并根据模型的精准度作为评估指标对数据集和现有方法进行评估。在半监督训练中训练集、验证集、测试集的比例为0.1:0.1:0.8,所有方法训练迭代次数均为200次。
使用有目标攻击Nettack对抗样本生成模型对数据进行干扰测试时,结果显示在含有不同程度的对抗样本的数据中模型精准度相比现有方法至少提高了 1.87%-20.41%,尤其是在Polblogs数据集上,模型在最高干扰率下保持了90%以上的准确率。
使用无目标攻击Mettack和Dice对抗样本生成模型对数据进行干扰测试时,结果显示在整个数据集中含有5%、10%、15%、20%、25%、30%的对抗样本时,模型相比现有方法分别提高了至少2.98%、7.64%、13.71%、17.86、23.27%的准确率。
使用无目标攻击Random随机对抗样本生成模型对数据进行干扰测试时,结果显示在整个数据集中含有5%、10%、15%、20%、25%、30%的对抗样本时,模型相比现有方法分别提高了至少1.45%、3.66%、5.77%、8.45%、9.91%的准确率。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种可信图数据节点分类方法,其特征在于,所述可信图数据节点分类方法包括:
输入图的邻接矩阵和节点特征矩阵,计算散拓扑图的离散里奇曲率提取拓扑信息;
对曲率和节点特征进行预处理,包括原始曲率的预处理和节点特征矩阵的归一化处理;
使用MLP对曲率进行映射并归一化处理,使用特征重构模型对原始特征进行重构,利用映射后的曲率矩阵和原始特征向量进行半监督训练,提取并聚合节点特征;
利用节点分类模型对图数据中的节点完成分类预测。
2.如权利要求1所述的可信图数据节点分类方法,其特征在于,所述可信图数据节点分类方法的离散里奇曲率计算,使用Ricci-Ollivier curvature曲率计算公式,具体计算公式如下:
Figure FDA0002891165230000011
其中x,y表示拓扑图中的节点,kxy表示x节点与y节点之间的边e(x,y),W(mx,my)为瓦瑟斯坦距离,d(x,y)表示x节点与y节点之间最短距离,即边e(x,y)的权重:
Figure FDA0002891165230000012
其中α为超参数且α∈[0,1],一般将α设为0.5,
Figure FDA0002891165230000013
表示在节点x处的一种概率度量,如果使用G=(V,E)表示一个无向图的顶点和边的集合,那么对于每个节点x∈V,N(x)={x1,x2,x4,…,xk}表示x节点的一阶近邻节点;
计算x节点与y节点之间瓦瑟斯坦距离的方式为求解如下线性规划:
min∑i,jd(xi,yi)M(xi,yi);
Figure FDA0002891165230000014
Figure FDA0002891165230000021
3.如权利要求1所述的可信图数据节点分类方法,其特征在于,所述可信图数据节点分类方法的曲率预处理,通过对数值较低的曲率进行预处理,具体计算公式入下:
Figure FDA0002891165230000022
其中p为一个超参数,表示一个百分比,percentile(K,p)计算出的是所有曲率值按升序排列后的第p%个数值。
4.如权利要求1所述的可信图数据节点分类方法,其特征在于,所述可信图数据节点分类方法的原始特征矩阵进行归一化处理,具体处理方式为对于每一行特征向量求和并对每个特征值除以这个值,使得处理后的特征矩阵中每个特征向量特征值和为1;
基于残差网络的节点特征重构模块,具体方案为对于每一个节点特征
Figure FDA0002891165230000023
Figure FDA0002891165230000024
将其一阶近邻节点xi∈N(x)的特征向量从特征矩阵中提取出来,将其纵向堆叠为一个新的矩阵M,将x节点同样纵向堆叠为相同的矩阵,并进行拼接得到矩阵
Figure FDA0002891165230000025
将这个堆叠起来的矩阵通过MLP计算Mask,重构后的特征矩阵为
Figure FDA0002891165230000026
其中每个特征向量
Figure FDA0002891165230000028
的聚合方式为:
Figure FDA0002891165230000027
其中sum函数表示对其中的矩阵按列求和。
5.如权利要求1所述的可信图数据节点分类方法,其特征在于,所述可信图数据节点分类方法的曲率映射模块,其为一个偏置量为1的多层感知机,使用α=0.2的LeakyRule激活函数,并对最终的曲率矩阵进行按行归一化处理,最终得到映射后的曲率矩阵ψ;
曲率聚合模块,基于曲率的隐藏层节点特征聚合模块,使用映射后的曲率值代替传统GCN中的拉普拉斯矩阵,层间聚合公式为:
Figure FDA0002891165230000031
GNN模型中各模块的网络参数在半监督学习训练过程中使用反向传播算法同步更新。
6.如权利要求1所述的可信图数据节点分类方法,其特征在于,所述可信图数据节点分类方法的节点预测模型,使用最后一层网络的输出的节点特征向量通过一个全连接层网络,使用softmax作为激活函数,得到到节点的概率分布,取预测概率最大类别作为节点的预测结果。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
输入图的邻接矩阵和节点特征矩阵,计算散拓扑图的离散里奇曲率提取拓扑信息;
对曲率和节点特征进行预处理,包括原始曲率的预处理和节点特征矩阵的归一化处理;
使用MLP对曲率进行映射并归一化处理,使用特征重构模型对原始特征进行特征重构,利用映射后的曲率矩阵和原始特征向量进行半监督训练,提取并聚合节点特征;
利用节点分类模型对图数据中的节点完成分类预测。
8.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
输入图的邻接矩阵和节点特征矩阵,计算散拓扑图的离散里奇曲率提取拓扑信息;
对曲率和节点特征进行预处理,包括原始曲率的预处理和节点特征矩阵的归一化处理;
使用MLP对曲率进行映射并归一化处理,使用特征重构模型对原始特征进行重构,利用映射后的曲率矩阵和原始特征向量进行半监督训练,提取并聚合节点特征;
利用节点分类模型对图数据中的节点完成分类预测。
9.一种实施权利要求1~6任意一项所述可信图数据节点分类方法的可信图数据节点分类系统,其特征在于,所述可信图数据节点分类系统包括:
拓扑信息提取模块,用于输入拓扑图和节点特征,计算散拓扑图的离散里奇曲率提取拓扑信息;
归一化预处理模块,用于对曲率和节点特征进行归一化预处理;
半监督训练模块,用于在利用曲率和残差网络模型在存在包含对抗样本的图数据上进行半监督训练;
分类预测模块,用于对没有标记的节点进行分类预测。
10.一种计算机硬件设备,其特征在于,所述计算机硬件设备用于实现权利要求1~6任意一项所述的可信图数据节点分类方法。
CN202110028476.6A 2021-01-11 2021-01-11 一种可信图数据节点分类方法、系统、计算机设备及应用 Pending CN112733937A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110028476.6A CN112733937A (zh) 2021-01-11 2021-01-11 一种可信图数据节点分类方法、系统、计算机设备及应用
US17/325,246 US20220222536A1 (en) 2021-01-11 2021-05-20 Trusted graph data node classification method, system, computer device and application

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110028476.6A CN112733937A (zh) 2021-01-11 2021-01-11 一种可信图数据节点分类方法、系统、计算机设备及应用

Publications (1)

Publication Number Publication Date
CN112733937A true CN112733937A (zh) 2021-04-30

Family

ID=75589980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110028476.6A Pending CN112733937A (zh) 2021-01-11 2021-01-11 一种可信图数据节点分类方法、系统、计算机设备及应用

Country Status (2)

Country Link
US (1) US20220222536A1 (zh)
CN (1) CN112733937A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596277A (zh) * 2022-03-03 2022-06-07 北京百度网讯科技有限公司 检测对抗样本的方法、装置、设备以及存储介质
CN116754499A (zh) * 2023-08-23 2023-09-15 天津中科谱光信息技术有限公司 多拓扑节点高光谱水质参数联合反演方法及相关设备

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230236900A1 (en) * 2022-01-21 2023-07-27 Vmware, Inc. Scheduling compute nodes to satisfy a multidimensional request using vectorized representations
US20240160904A1 (en) * 2022-11-03 2024-05-16 International Business Machines Corporation Graph learning attention mechanism
CN115941501B (zh) * 2023-03-08 2023-07-07 华东交通大学 基于图神经网络的主机设备管控方法
CN117054968B (zh) * 2023-08-19 2024-03-12 杭州优航信息技术有限公司 基于线性阵列麦克风的声源定位系统及其方法
CN117579324B (zh) * 2023-11-14 2024-04-16 湖北华中电力科技开发有限责任公司 基于门控时间卷积网络与图的入侵检测方法
CN118313643B (zh) * 2024-06-06 2024-08-13 乐百氏(广东)饮用水有限公司 一种粒粒果饮料的全流程生产监测管理方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596277A (zh) * 2022-03-03 2022-06-07 北京百度网讯科技有限公司 检测对抗样本的方法、装置、设备以及存储介质
CN116754499A (zh) * 2023-08-23 2023-09-15 天津中科谱光信息技术有限公司 多拓扑节点高光谱水质参数联合反演方法及相关设备
CN116754499B (zh) * 2023-08-23 2023-10-31 天津中科谱光信息技术有限公司 多拓扑节点高光谱水质参数联合反演方法及相关设备

Also Published As

Publication number Publication date
US20220222536A1 (en) 2022-07-14

Similar Documents

Publication Publication Date Title
CN112733937A (zh) 一种可信图数据节点分类方法、系统、计算机设备及应用
Chen et al. Iterative deep graph learning for graph neural networks: Better and robust node embeddings
Hu et al. Graph-mlp: Node classification without message passing in graph
Liu et al. Structure learning for deep neural networks based on multiobjective optimization
Ma et al. Adaptive-step graph meta-learner for few-shot graph classification
Lei et al. Molding cnns for text: non-linear, non-consecutive convolutions
US20180018555A1 (en) System and method for building artificial neural network architectures
Alfarra et al. On the decision boundaries of neural networks: A tropical geometry perspective
Nguyen et al. Quaternion graph neural networks
CN112215292A (zh) 一种基于迁移性的图像对抗样本生成装置及方法
Thapa et al. Spamhd: Memory-efficient text spam detection using brain-inspired hyperdimensional computing
Yang et al. Semi-supervised classification via full-graph attention neural networks
CN111144500A (zh) 基于解析高斯机制的差分隐私深度学习分类方法
Shirahata et al. Memory reduction method for deep neural network training
Jiang et al. MixPHM: redundancy-aware parameter-efficient tuning for low-resource visual question answering
Ladner et al. Automatic abstraction refinement in neural network verification using sensitivity analysis
Chan et al. Development and application of an algorithm for extracting multiple linear regression equations from artificial neural networks for nonlinear regression problems
CN115758337A (zh) 基于时序图卷积网络的后门实时监测方法、电子设备、介质
Oh et al. BERTAC: Enhancing transformer-based language models with adversarially pretrained convolutional neural networks
Malji et al. Significance of entropy correlation coefficient over symmetric uncertainty on FAST clustering feature selection algorithm
Amini et al. MeanSparse: Post-Training Robustness Enhancement Through Mean-Centered Feature Sparsification
Xue et al. Deeper vs wider: A revisit of transformer configuration
Farzad Log message anomaly detection with oversampling
CN115115920A (zh) 一种数据训练方法及装置
WO2022164613A1 (en) Ml using n-gram induced input representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination