CN108171010A

CN108171010A - 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置

Info

Publication number: CN108171010A
Application number: CN201711250342.9A
Authority: CN
Inventors: 朱佳; 黄昌勤
Original assignee: Guangzhou Van Ping Electronic Technology Co Ltd; South China Normal University
Current assignee: Guangdong Suchuang Data Technology Co ltd
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2018-06-15
Anticipated expiration: 2037-12-01
Also published as: CN108171010B

Abstract

本发明公开了基于半监督网络嵌入模型的蛋白质复合体检测方法和装置，所述方法包括获取蛋白质相互作用交互网络的邻接矩阵，对邻接矩阵进行嵌入处理，从而得到降维矩阵，利用聚类算法对降维矩阵进行处理，从而得到蛋白质复合体检测结果等步骤，所述装置包括用于存储至少一个程序存储器以及用于加载所述至少一个程序以执行基于半监督网络嵌入模型的蛋白质复合体检测方法的处理器。本发明通过对蛋白质相互作用交互网络对应的邻接矩阵进行维度转化，再交由聚类算法处理，提高了聚类处理的效果。本发明基于半监督网络嵌入模型的蛋白质复合体检测方法和装置广泛应用于蛋白质复合体识别技术领域。

Description

基于半监督网络嵌入模型的蛋白质复合体检测方法与装置

技术领域

本发明涉及蛋白质复合体识别技术领域，尤其是基于半监督网络嵌入模型的蛋白质复合体检测方法与装置。

背景技术

蛋白质复合体是蛋白质相互作用(Protein-protein interaction，PPI)所形成的复杂的图结构，在生化过程和制药工艺中扮演着至关重要的角色。因此，正确地识别PPI交互网络中的蛋白质复合体，对于生物医学领域极为有用。不过，随着PPI数据的巨大增长，又加之实验方法的瓶颈制约，仅有少量的蛋白质复合体通过实验被识别。

为克服蛋白质复合体检测中实验方法的技术限制，人们使用了计算方法。PPI交互网络可看做是一个无向的非加权图，其中，蛋白质是顶点，它们的相互作用是边。每个蛋白质复合体由两个或更多的表现为密集相连的子图的蛋白质构成，这意味着，可以利用基于聚类方法形成的图来发现它们。

近来，网络嵌入被人们广泛加以研究，并证实其可进一步改善许多图聚类方法的性能。网络向量学习网络中顶点的低维表示，用以捕捉和保存该网络结构。不过，大部分现有的网络向量方法严重依赖网络中每个顶点的特征，这使得它们不适用于PPI交互网络。PPI交互网络中，除了蛋白质名称之外，没有任何元数据与每个顶点相关。换言之，现有的网络向量方法无法完全捕捉PPI交互网络结构，因为没有足够的资料能用来计算其一阶估计和二阶估计。

发明内容

为了解决上述技术问题，本发明的第一目的在于提供基于半监督网络嵌入模型的蛋白质复合体检测方法，第二目的在于提供基于半监督网络嵌入模型的蛋白质复合体检测装置。

本发明所采取的第一技术方案是：

基于半监督网络嵌入模型的蛋白质复合体检测方法，包括以下步骤：

获取蛋白质相互作用交互网络的邻接矩阵；

对邻接矩阵进行嵌入处理，从而得到降维矩阵；

利用聚类算法对降维矩阵进行处理，从而得到蛋白质复合体检测结果。

进一步地，所述对邻接矩阵进行嵌入处理，从而得到降维矩阵这一步骤，具体包括：

计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计，从而得到蛋白质相互作用交互网络的局部结构信息；

计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计，从而得到蛋白质相互作用交互网络的总体结构信息；

将局部结构信息和总体结构信息保存到邻接矩阵中，从而得到降维矩阵。

进一步地，所述计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计，从而得到蛋白质相互作用交互网络的局部结构信息这一步骤，具体包括：

利用邻点选择算法选择出蛋白质相互作用交互网络中的每一个顶点的优选邻点集；

分别根据每一个顶点的优选邻点集，为每一个顶点赋予特征信息，从而建立特征信息矩阵；

根据特征信息矩阵，计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计；

将蛋白质相互作用交互网络中所有任意两点之间的一阶估计作为所需获取的蛋白质相互作用交互网络的局部结构信息。

进一步地，所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计，从而得到蛋白质相互作用交互网络的总体结构信息这一步骤，具体包括：

将邻接矩阵和特征信息矩阵输入到图卷积神经网络中处理，从而输出蛋白质相互作用交互网络中所有任意两点之间的二阶估计；

将蛋白质相互作用交互网络中所有任意两点之间的二阶估计作为所需获取的蛋白质相互作用交互网络的总体结构信息。

进一步地，所述利用邻点选择算法选择出蛋白质相互作用交互网络中的每一个顶点的优选邻点集这一步骤，具体包括：

利用Deepwalk算法对蛋白质相互作用交互网络进行处理，从而得到每一个顶点的Deepwalk向量；

选定蛋白质相互作用交互网络中的一个顶点作为对象顶点；

根据对象顶点和对象顶点的所有邻点的Deepwalk向量，分别计算对象顶点与其每一个邻点的欧几里得距离；

计算对象顶点与其每一个邻点的欧几里得距离的算术平均数；

将所有与对象顶点的欧几里得距离大于算术平均数的邻点组成的集合作为对象顶点的优选邻点集；

返回执行所述选定蛋白质相互作用交互网络中的一个顶点作为对象顶点这一步骤，直至选择出蛋白质相互作用交互网络中的每一个顶点的优选邻点集为止。

进一步地，所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计，从而得到蛋白质相互作用交互网络的总体结构信息这一步骤之后，设有优化步骤，所述优化步骤包括：

根据蛋白质相互作用交互网络中所有任意两点之间的一阶估计和二阶估计，计算图拉普拉斯正则项损失函数；

动态调整特征信息矩阵的阶数，直至图拉普拉斯正则项损失函数最小化；

将根据图拉普拉斯正则项损失函数最小时对应的一阶估计和二阶估计分别作为所需获取的蛋白质相互作用交互网络的局部结构信息和总体结构信息。

进一步地，所述图拉普拉斯正则项损失函数，其计算公式如下所示：

L＝L_first+λL_second

式中，L为图拉普拉斯正则项损失函数，L_first为一阶估计被监控的损失，L_second为二阶估计被监控的损失，λ为L_first和L_second之间的均衡因子。

进一步地，所述一阶估计被监控的损失，其计算公式如下所示：

式中，v_i和v_j是蛋白质相互作用交互网络中由一条边连接的一对顶点，y_i是由v_i的Deepwalk向量建立的矩阵，y_j是由v_j的Deepwalk向量建立的矩阵；

所述二阶估计被监控的损失，其计算公式如下所示：

式中，L₀为图卷积神经网络的卷积层层数，H⁽⁰⁾＝N×D，

动态调整α和β，使得下列方程组中Z等于0或最大限度地接近0：

式中，为第一目标的负偏差变量，为第一目标的正偏差变量，为第二目标的负偏差变量，为第二目标的正偏差变量；X为特征信息矩阵，D为X的列数，P为X的奇异值的最高百分比，α为一矩阵，且α的列数等于D可取的最大值，β等于D可取的最小值。

本发明所采取的第二技术方案是：基于半监督网络嵌入模型的蛋白质复合体检测装置，其包括：

存储器，用于存储至少一个程序；

处理器，用于加载所述至少一个程序以执行第一技术方案所述基于半监督网络嵌入模型的蛋白质复合体检测方法。

本发明的有益效果是：通过本发明蛋白质复合体检测方法和装置，对蛋白质相互作用交互网络进行嵌入、维度转化处理，能够提高现有聚类算法对蛋白质相互作用交互网络进行聚类运算处理时的效率，优化聚类效果，使得蛋白质复合体检测结果更精确。同时，本发明可以为蛋白质相互作用交互网络各个顶点赋予特征，既能捕捉蛋白质相互作用交互网络的局部结构又能捕捉其总体结构，因此本发明不要求蛋白质相互作用交互网络各个顶点本身具有特征，克服了无法直接使用聚类算法对各顶点不存在特征的蛋白质相互作用交互网络进行处理的技术缺陷。本发明运行稳定，各项预测结果评价指标均优于其他蛋白质复合体检测方法。

附图说明

图1为本发明蛋白质复合体检测方法的流程图；

图2为步骤S2的具体流程图；

图3为步骤S21的具体流程图；

图4为步骤S211的具体流程图；

图5为Krogan数据集的比较结果；

图6为Dip数据集的比较结果；

图7为Biogrid数据集的比较结果；

图8为本发明蛋白质复合体检测装置的结构图。

具体实施方式

实施例1

本发明公开的基于半监督网络嵌入模型的蛋白质复合体检测方法，如图1所示，包括以下步骤：

S1.获取蛋白质相互作用交互网络的邻接矩阵；

S2.对邻接矩阵进行嵌入处理，从而得到降维矩阵；

S3.利用聚类算法对降维矩阵进行处理，从而得到蛋白质复合体检测结果。

现有对蛋白质复合体的检测方法，是将蛋白质相互作用交互网络表示为一个无向图G＝(V,E)，蛋白质为图中的顶点V，其相互作用为图中的边E，而且蛋白质相互作用交互网络的边没有权重。蛋白质相互作用交互网络可以从Krogan、Dip和Biogrid等现有数据集中获取。由图论可知，一个蛋白质相互作用交互网络对应一个邻接矩阵，利用COACH或K-means等聚类算法对邻接矩阵进行处理，便可以得到蛋白质复合体检测结果，即输出结果显示哪些蛋白质属于一类也就是一个复合体。本发明基于半监督网络嵌入模型的蛋白质复合体检测方法通过对邻接矩阵进行嵌入处理，从而得到由邻接矩阵经过维度转化而来的降维矩阵，再用公知的方法聚类算法对降维矩阵进行蛋白质复合体检测，可以提高聚类算法的运行效率。由于本发明利用蛋白质相互作用对应的交互网络，即数学上的图进行蛋白质复合体检测，因此除非特别说明，实施例中不对蛋白质相互作用、PPI、蛋白质相互作用交互网络以及蛋白质相互作用交互网络对应的图等概念进行区分。

进一步作为优选的实施方式，所述对邻接矩阵进行嵌入处理，从而得到降维矩阵这一步骤，即步骤S2，如图2所示，具体包括：

S21.计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计，从而得到蛋白质相互作用交互网络的局部结构信息；

S22.计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计，从而得到蛋白质相互作用交互网络的总体结构信息；

S23.将局部结构信息和总体结构信息保存到邻接矩阵中，从而得到降维矩阵。

其中，一阶估计(First-order proximity)描述顶点之间的成对相似性。对于蛋白质相互作用交互网络中任何一对顶点v_i和v_j来说，如果v_i和v_j之间有一条边，则v_i和v_j之间有正一阶估计。反之，v_i和v_j之间的一阶估计为0。一阶估计反映了蛋白质相互作用交互网络的局部结构。

二阶估计(Second-order proximity)描述顶点邻域结构之间的成对相似性。假定N_i和N_j代表v_i和v_j的相邻对顶点，则二阶估计由N_i和N_j的相似性决定。假如两个顶点共有许多公共近邻，则两顶点之间的二阶估计会很高。二阶估计已经被证明是定义一对顶点相似性的良好度量标准，即使它们并无边相连，故其可大大丰富顶点的关系。二阶估计反映了蛋白质相互作用交互网络的总体结构。

一阶估计与二阶估计的概念,最早是在LINE模型中提出的。设u是图G＝(V,E)中的一个顶点，那么u与图G＝(V,E)中其他所有顶点的一阶估计可表示为N_u＝{s_u,1,s_u,2,…s_u,|V|}，其中s_i,j表示图G＝(V,E)中顶点i与顶点j之间的边的权重，如果顶点i与顶点j之间没有边连接，那么s_i,j＝0，如果顶点i与顶点j之间被边连接，且图G＝(V,E)不是加权图，那么s_i,j＝1，如果图G＝(V,E)是加权图，那么s_i,j>0。同理顶点v与图G＝(V,E)中其他所有顶点的一阶估计可表示为N_v＝{s_v,1,s_v,2,…s_v,|V|}。根据此算法，可以算出图G＝(V,E)中所有顶点与其他顶点之间的一阶估计。而二阶估计，以顶点v与顶点u为例，则可以通过计算N_u与N_v之间的相似性得到。由此可见，计算一阶估计和二阶估计，要求先得到图中各条边的权重，但是PPI的特点在于顶点之间除了蛋白质名称不同之外，没有其他特征可供区分，也就是每个顶点缺乏可供为各条边赋权的特征。

由于本发明利用蛋白质相互作用对应的交互网络进行蛋白质复合体检测，即着眼于蛋白质相互作用交互网络整体，因此除非特别说明，实施例中不对蛋白质相互作用交互网络中所有任意两点之间的一阶估计、蛋白质相互作用交互网络的一阶估计、一阶估计作区分，也不对蛋白质相互作用交互网络中所有任意两点之间的二阶估计、蛋白质相互作用交互网络的二阶估计、二阶估计作区分。

在得到一阶估计和二阶估计后，即可将一阶估计和二阶估计与邻接矩阵结合，也就是将一阶估计对应的局部结构信息和二阶估计对应的总体结构信息保存到邻接矩阵中，从而得到降维矩阵。由于将一阶估计和二阶估计与邻接矩阵结合属于现有技术，因此此处不赘述。

因为蛋白质相互作用交互网络中的每个顶点除了对应的蛋白质名称外没有其他特征，因此为了计算蛋白质相互作用交互网络的一阶估计，即蛋白质相互作用交互网络中所有任意两个顶点之间的一阶估计，需要为每个顶点赋予一组特征。考虑到蛋白质复合体的定义，可将每个顶点的重要邻点设为其特征，因为这些邻点有更高的概率作为蛋白质复合体组合在一起。所谓重要邻点，是指经过一定的算法在一个顶点的所有邻点中筛选出来的部分邻点。

进一步作为优选的实施方式，所述计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计，从而得到蛋白质相互作用交互网络的局部结构信息这一步骤，即步骤S21，如图3所示，具体包括：

S211.分别根据每一个顶点的优选邻点集；

S212.根据每一个顶点各自对应的优选邻点集，为每一个顶点赋予特征信息，从而建立特征信息矩阵；

S213.根据特征信息矩阵，计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计；

蛋白质相互作用交互网络中的每一个顶点都具有优选邻点集，但不排除某些顶点的优选邻点集可能是空集。对于蛋白质相互作用交互网络中的一个顶点，其优选邻点集是从其所有邻点中筛选出来的符合条件的邻点的集合。利用优选邻点集给对应的顶点赋予特征信息。假如顶点v_i对应的优选邻点集包括顶点x、y和z，那么“x、y和z”三个顶点就是顶点v_i被赋予的特征。每个顶点都按这样的方法被赋予特征后，才有了计算边权重的基础，然后用来计算一阶估计。

由于每个顶点都具备了被赋予的特征信息，因此便可以得到蛋白质相互作用交互网络的特征信息矩阵(Feature matrix)，它是一个N×D阶的矩阵，其中N为蛋白质相互作用交互网络的顶点总数，D为每个顶点的特征数量。因为每个顶点对应的优选邻点集都不一样，也就是每个顶点的特征都不一样，因此每个顶点的特征数量也不一样。

例如，在一个具有N个顶点的蛋白质相互作用交互网络中，一个顶点可能对应的特征数量的最大值为N，因此这个蛋白质相互作用交互网络对应的特征信息矩阵的最大阶数为N×N阶。如果一个顶点对应的特征数量小于N，那么这个顶点在特征信息矩阵中对应的那一行本不足N列，可用填充算法将其补足N列，优选的方法是将其补足N列使其最右边的元素均为零。而在特征信息矩阵的使用过程中，有时需要缩小其规模，即保持其行数不变，减小其列数，此时可以把D视为一个变量，D的最大值可以定为蛋白质相互作用交互网络中特征数量最大的顶点的特征数量，也可以直接定为N，D的最小值可以定为蛋白质相互作用交互网络中特征数量最小的顶点的特征数量。例如，将D的最大值定为N时，N×D阶的特征信息矩阵可以降为N×(D-1)阶、N×(D-2)阶等，优选地，将特征信息矩阵降阶时，是将其最右边的列删去，只保留最左边的列。

根据特征信息矩阵，便可以计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计。根据特征信息矩阵计算一阶估计的方法有多种，可以优选地采用余弦相似度的计算方法，由于这属于现有技术，因此这里不赘述。

进一步作为优选的实施方式，所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计，从而得到蛋白质相互作用交互网络的总体结构信息这一步骤，具体包括：

二阶估计代表一对顶点邻域结构的相似程度。因而，要模型化二阶估计，首先要模型化每个顶点的邻域。对于含有n个顶点的图G＝(V,E)，其对应相邻矩阵M，其包含n个行矩阵，即m₁,m₂,…m_n。对于行矩阵当且仅当v_i和v_j被一条边连接时有m_i,j>0。

m_i描述顶点v_i的邻域结构，而M提供每个顶点邻域结构的信息。所以，可以基于自动编码器设计出GCN，用以保存G的二阶估计。

基于自动编码器的图卷积神经网络(Graph Convolutional Network，GCN)能够应用隐变量，能够学习无向的非权重图的可判断的隐表示，这是非常适合蛋白质相互作用交互网络的。使用每个顶点的特征作为GCN的一部分输入数据，然后，经过l卷积层的编码之后，就能获得由原始图学习而来的表述。对于解码部分，可以简单地使用内部产品解码器。蛋白质相互作用交互网络是一个无向的非权重的图G＝(V,E)，其有N＝|V|个顶点。将G的邻域矩阵A和N×D阶的特征信息矩阵X作为输入。应用随机隐变量Z_i，可以得到N×F阶的输出矩阵Z。这里，F是输出特征的数量，D是每个顶点的特征数量。从GCN的输出结果中便能得到所要获得的蛋白质相互作用交互网络的二阶估计，即蛋白质相互作用交互网络中所有任意两个顶点的二阶估计。由于从GCN的输出结果中得到二阶估计的方法属于现有技术，因此这里不做赘述。

由于每一个顶点的特征是基于选择的邻点产生的，换言之，每个顶点的特征数量是不同的。所以，设定N为D的最初值，当建立特征信息矩阵X时，假如该顶点没有这些特征，则设定相关数值为0。于是，图卷积神经网络中每个网络层可以写为如下非线性函数：

H^(l+1)＝f(H^l,A)，

其中H⁽⁰⁾＝X，H^(l)＝Z，

传输规则如下：

f(H^(l),A)＝relu(AH^(l)W^(l))，

其中W是I网络层的权重矩阵，relu是激活函数，注意，与A相乘者只是囊括了所有邻点的所有特征，但不包括该顶点本身。所以，需要在A上加进一个单位矩阵I。于是，传输规则变为：

其中是的对角顶点度矩阵，设L＝3，那意味着，图卷积神经网络有三个卷积层来重建A的结构以获得Z。假定决定网络中每一层保留前一层半数的特征，则在三层后得到

进一步作为优选的实施方式，所述邻点选择算法，即步骤S211，如图4所示，具体为：

S2111.利用Deepwalk算法对蛋白质相互作用交互网络进行处理，从而得到每一个顶点的Deepwalk向量；

S2112.选定蛋白质相互作用交互网络中的一个顶点作为对象顶点；

S2113.根据对象顶点和对象顶点的所有邻点的Deepwalk向量，分别计算对象顶点与其每一个邻点的欧几里得距离；

S2114.将所有与对象顶点的欧几里得距离大于算术平均数的邻点组成的集合作为对象顶点的优选邻点集；

S2115.返回执行所述选定蛋白质相互作用交互网络中的一个顶点作为对象顶点这一步骤，直至选择出蛋白质相互作用交互网络中的每一个顶点的优选邻点集为止。

DeepWalk是一种学习节点隐表达的方法，这个方法在一个连续向量空间中对节点的社会关系进行编码，是语言模型和无监督学习从单词序列到图上的一个扩展。该方法将截断游走的序列当成句子进行学习。该方法具有可扩展，可并行化的特点，可以用来做网络分类和异常点检测。DeepWalk法已经成功地在社交网络和图分析中得以验证。它通过模型化一连串短而随机的游走，将连续的向量空间以低维编码，从而学习潜在的表述。

通过Deepwalk对蛋白质相互作用交互网络进行处理，所得处理结果使得蛋白质相互作用交互网络中每一个顶点都对应着一个64维的向量，根据任意两个顶点各自对应的64维向量可以计算这两个顶点的欧几里得距离。本发明申请中，将每个顶点经过Deepwalk算法处理后得到的64维向量称作这个顶点对应的Deepwalk向量。选定蛋白质相互作用交互网络中的一个顶点，称之为对象顶点，将对象顶点与其所有邻点的欧几里得距离分别计算出来，再求所有这些欧几里得距离的算术平均数，即将对象顶点与其所有邻点的欧几里得距离之和除以其邻点总数。然后，将对象顶点与其每一个邻点的欧几里得距离与算术平均数进行比较，对于欧几里得距离大于算术平均数的邻点，则归入优选邻点集，否则排除在优选邻点集之外。通过这种方法，可以针对蛋白质相互作用交互网络的一个特定顶点筛选出其符合条件的邻点组成优选邻点集。

反复利用上述方法，即在步骤S2114中为一个对象顶点选择并组建其优选邻点集后，返回步骤S2112，在蛋白质相互作用交互网络中选择另一个尚未组建优选邻点集的顶点作为新的对象顶点，从步骤S2112开始继续执行，直到蛋白质相互作用交互网络中所有顶点都通过这种方法筛选出其符合条件的邻点组成对应的优选邻点集。有了对应的优选邻点集，便可以通过上述已公开的方法进行特征赋予等操作。

按照上述这种邻点选择算法，特征信息矩阵的意义就更加明确：其具有N行D列，N为蛋白质相互作用交互网络的顶点总数，D为每个顶点的特征数量。经过Deepwalk算法后，每个顶点均对应了一个64维的向量，因此，特征信息矩阵里的每一个元素实质上都是一个64维向量。

进一步作为优选的实施方式，所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计，从而得到蛋白质相互作用交互网络的总体结构信息这一步骤之后，设有优化步骤，所述优化步骤包括：

由于建立特征信息矩阵时设定了N作为D的最初值，因此特征信息矩阵的阶数不一定是最合理的，根据特征信息矩阵所得的蛋白质相互作用交互网络的一阶估计和二阶估计也不一定是最优的，这将使得最终得到的用于聚类算法处理的降维矩阵不是最优的。为了求得最优的降维矩阵，动态地调整特征信息矩阵的阶数，蛋白质相互作用交互网络的一阶估计和二阶估计也将发生变化，由一阶估计和二阶估计计算所得的图拉普拉斯正则项损失函数取得最小值时，表明对应的一阶估计和二阶估计组合为最优的，应当以这个最优的一阶估计和二阶估计组合分别作为所需获取的蛋白质相互作用交互网络的局部结构信息和总体结构信息，进一步去求得降维矩阵。

进一步作为优选的实施方式，所述图拉普拉斯正则项损失函数，其计算公式如下所示：L＝L_first+λL_second

式中，L为图拉普拉斯正则项损失函数，L_first为一阶估计被监控的损失，L_second为二阶估计被监控的损失，λ为L_first和L_second之间的均衡因子，λ是一个参数，可在算法实际运行时选择其取值。

进一步作为优选的实施方式，所述一阶估计被监控的损失，其计算公式如下所示：

式中，v_i和v_j是蛋白质相互作用交互网络中由一条边连接的一对顶点，y_i是由v_i的Deepwalk向量建立的矩阵，y_j是由v_j的Deepwalk向量建立的矩阵。优选地，y_i是由v_i的Deepwalk向量建立的矩阵，其具体为，以v_i以及v_i的所有优选邻点对应的Deepwalk向量作为元素，构建矩阵y_i。矩阵y_j的构建方法同理。因为每个顶点的邻点数目可能是不同的，也就是说y_i和y_j的阶数可能是不同的，使用零元素来填充较小的矩阵，确保两个矩阵大小相同，以进行计算。所谓使用零元素来填充较小的矩阵，具体可以优选使用以下这种填充方法：如y_i阶数比y_j小，那么就用零元素填充到y_i中成为一个新矩阵，使得新矩阵的阶数与y_j一样，而且y_i处于新矩阵的左上角。

所述二阶估计被监控的损失，其计算公式如下所示：

式中，L₀为图卷积神经网络的卷积层层数，H⁽⁰⁾＝N×D，这里同样地用零元素填充的方法，使得H^(l+1)和H^(l)的阶数相同。

用上述方法，当为图拉普拉斯正则项损失函数L取得最小值时对应的一阶估计和二阶估计组合是最优的。

式中，为第一目标的负偏差变量，为第一目标的正偏差变量，为第二目标的负偏差变量，为第二目标的正偏差变量；X为特征信息矩阵，D为X的列数，P为X的奇异值的最高百分比，α为一矩阵，且α的列数等于D可取的最大值，β等于D可取的最小值；

将根据Z等于0或最大限度地接近0时对应的特征信息矩阵计算出来的一阶估计和二阶估计分别作为所需获取的蛋白质相互作用交互网络的局部结构信息和总体结构信息。

上述方法是优化步骤的另一种实现方法。在数学上，通过求图拉普拉斯正则项损失函数最小值以实现最优化的问题实际上是矩阵的降维问题，作为优选的实施方式，可以使用传统的奇异值分解法(SVD)来进行矩阵的降维。按照SVD的定理，有着N×D阶的特征信息矩阵X，可以再写为U×S×V*,这里，U是特征信息矩阵X的正交矩阵，U的大小为N×N阶；S是特征信息矩阵X的对角矩阵，S的大小为N×D阶；V*是U的共轭转置矩阵，V*的大小为D×D阶。S也可以被称为X的奇异值。如果设定该奇异值的某个最高百分比P的最小值为0，那么，可以得到X的近似矩阵，即X′。最后，D的值是减小的，不过，因为需要最小化X→X′的重构误差，必须最大化1-P的值。由于用SVD进行了乘法演算后，X'＝(1-P)X，X是一个N×D矩阵，所以，可以将求图拉普拉斯正则项损失函数最小值以实现最优化的问题转换为目标规划问题，如以下方程组所示：

动态调整α，是指α初始可优选地取为N×N的矩阵，也就是特征信息矩阵本身，调整α，也就是逐步将α降阶，如删除最右边一列成为N×(N-1)的矩阵，然后再代入方程组中计算；下一步再删除最右边一列成为N×(N-2)的矩阵，然后再代入方程组中计算，等等。

在这个方程组中，将正负偏差变量置于同等重要地位，这意味着，对于每个偏差变量，权重均为1。显然，当Z等于0时，可以获得帕累托最优解。但在一些情况下，Z不能精确地等于0，此时所要求的Z是其取值范围内尽可能接近0的值。所以，通过不断更新α和β，直到找到可以使Z接近或等于0的α和β组合，这个α和β的组合所对应的特征信息矩阵是最优的，由最优的特征信息矩阵所计算出来的一阶估计和二阶估计能使降维矩阵最优，以最优化聚类效果。

实施例2

在本实施例中，基于三组PPI数据集，将实施例1中说明的基于半监督网络嵌入模型的蛋白质复合体检测方法，结合现有的聚类方法进行实验，将其实验结果与现有的聚类方法的常规应用的实验结果用最先进的方法比较，以展示实施例1所述方法的性能。实验在台式电脑上运行，配置为i7CPU双核4.00GHZ，16GB内存，GTX 1070显卡。三组数据集的整个运算过程可以在一天内完成。此外，由于PPI数据聚类通常在现实世界里是一次性的过程，在研究中无需关注运行时间的改善和时间复杂度的分析，因为聚类质量才是更重要的。

使用三组最新的酿酒酵母的PPI数据集，即Krogan数据集、Dip数据集和Biogrid数据集。Krogan数据集和Dip数据集是用于评估几种聚类算法的运行的。如表1所示，Krogan数据集和Dip数据集有着相近的平均度和密度，而Biogrid数据集与它们比，有着更高的平均度和密度。因为PPI数据可以用无向图G＝(V，E)表示，则平均度可计算为密度可计算为三种PPI数据集的特性如表1所示。

PPI数据有较高的误报率，据估计约在50％左右。数据的噪音干扰了从PPI数据中检测蛋白质复合体的聚类方法。于是，使用CYC2008作为参照数据集。CYC2008提供酿酒酵母方面经过人工校对的408种蛋白质复合体的总目录，比另一种流行数据集MIPS多90％。

表1

数据集	顶点	边	平均度	密度
					Krogan	5364	61289	22.85	0.0043
Dip	4972	17836	7.17	0.0014
					Biogrid	6242	255510	81.87	0.013

使用近邻亲和力评分来看某种算法检测的蛋白质复合体是否与CYC2008中的蛋白质复合体相配。然后，再用它来计算准确率、召回率和F值，以评估该算法的表现。近邻亲和力评分NA(p,b)定义如下：

这里，P＝(Vp，Ep)是预测的蛋白质复合体，B＝(Vb，Eb)是参照的蛋白质复合体。于是，准确率precision可以计算如下：

其中，

召回率recall计算如下：

其中，

F值F-measure是准确率和召回率的调和平均数，计算如下：

ω是一个阈值，表示蛋白质复合体是否被确认为参照数据集中的某一蛋白质复合体。依据实验，设定近邻亲和力评分阈值为0.25，这使得模型性能与其他算法有所不同。

此外，也使用三个指标，即分数(Frac)、最大匹配率(MMR)和几何精度(Acc)，来度量蛋白质复合体聚类的质量。Frac是测度两个蛋白质复合体之间分数对的指标，有着大于0.25的重叠积分θ，Frac(θ)计算如下：

这里，A和B是两个蛋白质复合体。

Acc是其他两种度量——聚类灵敏度(Sn)和聚类阳性预测值(PPV)——的几何平均数。Sn和PPV计算如下：

这里，n是参照蛋白质复合体的蛋白质数目，m是聚类蛋白质复合体的蛋白质数目，元素t_ij表示两个复合体中发现的蛋白质数目。因为S_n可以通过在同一复合体中加进每个蛋白质而增大，而PPV也可以通过在其自身复合体中加进每个蛋白质而最大化，故可以用这两种度量来计算Sn和PPV的几何平均值：

MMR表示两组聚集的蛋白质复合体为二部图，其中两组结点分别代表参照复合体和预测复合体，联结参照复合体和预测复合体的边由重叠积分加权。两个蛋白质复合体之间的重叠积分用方程计算。MMR的值是拥有最大权重的边的特定子集的总权重，除以参照蛋白质复合体的数目。

根据研究，迄今为止，COACH是PPI交互网络最稳定最有代表性的聚类算法。用其作为评估模型的聚类分析方法。用两种最先进的网络向量模型DeepWalk和SDNE来比较模型的性能。至于评估模型的鲁棒性，则选择两种不同类型的传统聚类算法K-means和DBSCAN进行比较。关于COACH，设定该算法的三个关键参数，即密度、亲和力和接近度，分别为0.7、0.2和0.5，按实验分析，这些参数足以完成所有网络向量算法的稳定演算。而对于K-means和DBSCAN，仅使用其设置默认值。

因为SDNE也需要一阶估计，不过由于其最初是为社交网络设计的，使用了三种版本的SDNE，即每个顶点无任何特征的SDNE-NA、每个顶点采用所有邻点作为特征的SDNE-ALL及每个顶点采用选定的邻点作为特征的SDNE-SN。SDNE-SN采用实施例1中所公开的邻点选择算法进行邻点选定。

Krogan数据集、Dip数据集和Biogrid数据集的测试结果分别见图5、图6、图7。

从结果看，针对所有三个数据集的准确率、召回率和F值的测试，模型均优于其他模型。特别是对于具有高密度的Biogrid数据集，模型完成的F值比第二位的模型至少高90％。对于Dip数据集，模型完成的F值是最高的0.528，大约比仅使用COACH的算法高出20％，也比位居第二的COACH+SDNE-SN算法高出9.5％，比COACH+DeepWalk算法高出17％。类似的结果同样可以在Krogan数据集中找到。这些结果证明，模型比其他模型更适合使用在具有高密度的复杂网络上。

此外，发现，针对所有三个数据集，SDNE-SN优于SDNE-NA和SDNE-ALL。因为SDNE-SN是基于实施例1中公开的邻点选择算法来计算一阶估计的，结果从侧面证明了模型的有效性。

至于K-means和DBSCAN聚类算法，两者在测试中的表现不佳。无论与哪种网络向量算法一起使用，实验结果都不很好，这意味着，这两种算法不适合用于PPI交互网络。

以下比较每种模型的聚类质量。根据前一节的测试结果，仅选择三种有代表性的模型来进行比较，即COACH、COACH+DeepWalk和COACH+SDNE-SN。表2显示用不同模型检测的蛋白质复合体数目。从表中，可以发现，针对所有三个数据集，模型都能比其它模型检测到更多的蛋白质复合体。有了这一数量基础，改善聚类的质量便更为容易。

表2

数据集	COACH+本发明方法	COACH	COACH+Deepwalk	COACH+DNE-SN
					Krogan	610	570	570	580
Dip	808	748	750	840
					Biogrid	3470	3158	3160	3267

表3、表4、表5分别显示针对Krogan、Dip和Biogrid数据集的聚类质量比较。从表3可以看到，模型能够完成更好的聚类质量，就MMR和Frac两项而言，比位居第二的COACH+SDNE-SN约高38％，而Acc一项则约高25％。Dip数据集的情况也大致相似。

至于Biogrid数据集，由于该网络的高密度，所有模型的聚类质量均降低。不过，模型仍优于其它。例如，模型Acc值达到0.69，比位居第二的COACH+SDNE-SN约高25％。

表3

	COACH+本发明方法	COACH	COACH+Deepwalk	COACH+DNE-SN
					Frac	0.61	0.35	0.4	0.44
Acc	0.68	0.46	0.48	0.54
					MMR	0.5	0.19	0.25	0.36

表4

	COACH+本发明方法	COACH	COACH+Deepwalk	COACH+DNE-SN
					Frac	0.81	0.61	0.62	0.64
Acc	0.68	0.58	0.6	0.63
					MMR	0.75	0.36	0.4	0.48

表5

	COACH+本发明方法	COACH	COACH+Deepwalk	COACH+DNE-SN
					Frac	0.35	0.14	0.2	0.24
Acc	0.69	0.39	0.4	0.45
					MMR	0.28	0.05	0.14	0.22

比较其他的网络向量方法，设计了一种选择关键邻点作为每个顶点特征的算法，以计算其一阶估计。此外，设计了一种三层GCN，深度学习PPI交互网络的结构，以保存其二阶估计。

针对各种PPI交互网络进行的广泛实验表明，模型是稳定的，各项指标都优于其他最先进的模型。将来，计划使用循环神经网络，从生物医学文献中将资料整合到PPI交互网络，以进一步改进蛋白质复合体检测的质量。

实施例3

本发明基于半监督网络嵌入模型的蛋白质复合体检测装置，如图8所示，其包括：

存储器，用于存储至少一个程序；

处理器，用于加载所述至少一个程序以执行实施例1和2所述基于半监督网络嵌入模型的蛋白质复合体检测方法。

以上是对本发明的较佳实施进行了具体说明，但对本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于半监督网络嵌入模型的蛋白质复合体检测方法，其特征在于，包括以下步骤：

获取蛋白质相互作用交互网络的邻接矩阵；

对邻接矩阵进行嵌入处理，从而得到降维矩阵；

2.根据权利要求1所述的基于半监督网络嵌入模型的蛋白质复合体检测方法，其特征在于，所述对邻接矩阵进行嵌入处理，从而得到降维矩阵这一步骤，具体包括：

3.根据权利要求2所述的基于半监督网络嵌入模型的蛋白质复合体检测方法，其特征在于，所述计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计，从而得到蛋白质相互作用交互网络的局部结构信息这一步骤，具体包括：

4.根据权利要求3所述的基于半监督网络嵌入模型的蛋白质复合体检测方法，其特征在于，所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计，从而得到蛋白质相互作用交互网络的总体结构信息这一步骤，具体包括：

5.根据权利要求3或4所述的基于半监督网络嵌入模型的蛋白质复合体检测方法，其特征在于，所述利用邻点选择算法选择出蛋白质相互作用交互网络中的每一个顶点的优选邻点集这一步骤，具体包括：

选定蛋白质相互作用交互网络中的一个顶点作为对象顶点；

6.根据权利要求4所述的基于半监督网络嵌入模型的蛋白质复合体检测方法，其特征在于，所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计，从而得到蛋白质相互作用交互网络的总体结构信息这一步骤之后，设有优化步骤，所述优化步骤包括：

7.根据权利要求6所述的基于半监督网络嵌入模型的蛋白质复合体检测方法，其特征在于，所述图拉普拉斯正则项损失函数，其计算公式如下所示：

L＝L_first+λL_second

8.根据权利要求7所述的基于半监督网络嵌入模型的蛋白质复合体检测方法，其特征在于，所述一阶估计被监控的损失，其计算公式如下所示：

所述二阶估计被监控的损失，其计算公式如下所示：

式中，L₀为图卷积神经网络的卷积层层数，H⁽⁰⁾＝N×D，

9.根据权利要求4所述的基于半监督网络嵌入模型的蛋白质复合体检测方法，其特征在于，所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计，从而得到蛋白质相互作用交互网络的总体结构信息这一步骤之后，设有优化步骤，所述优化步骤包括：

式中，为第一目标的负偏差变量，为第一目标的正偏差变量，为第二目标的负偏差变量，为第二目标的正偏差变量；X为特征信息矩阵，D为X的列数，P为X的奇异值的最高百分比，Z为将邻接矩阵和特征信息矩阵输入到图卷积神经网络中处理的输出结果，α为一矩阵，且α的列数等于D可取的最大值，β等于D可取的最小值；

将根据Z等于0或最大限度地接近0时对应的特征信息矩阵而计算出来的一阶估计和二阶估计分别作为所需获取的蛋白质相互作用交互网络的局部结构信息和总体结构信息。

10.基于半监督网络嵌入模型的蛋白质复合体检测装置，其特征在于，其包括：

存储器，用于存储至少一个程序；

处理器，用于加载所述至少一个程序以执行权利要求1-9任一项所述基于半监督网络嵌入模型的蛋白质复合体检测方法。