CN108171010A - 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置 - Google Patents
基于半监督网络嵌入模型的蛋白质复合体检测方法与装置 Download PDFInfo
- Publication number
- CN108171010A CN108171010A CN201711250342.9A CN201711250342A CN108171010A CN 108171010 A CN108171010 A CN 108171010A CN 201711250342 A CN201711250342 A CN 201711250342A CN 108171010 A CN108171010 A CN 108171010A
- Authority
- CN
- China
- Prior art keywords
- network
- protein interaction
- protein
- interaction network
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 62
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 62
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 230000006916 protein interaction Effects 0.000 claims abstract description 131
- 239000011159 matrix material Substances 0.000 claims abstract description 121
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 44
- 230000009467 reduction Effects 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000003993 interaction Effects 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 2
- 230000009466 transformation Effects 0.000 abstract 1
- 230000004850 protein–protein interaction Effects 0.000 description 25
- 102000007474 Multiprotein Complexes Human genes 0.000 description 18
- 108010085220 Multiprotein Complexes Proteins 0.000 description 18
- 238000002474 experimental method Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 2
- 235000014680 Saccharomyces cerevisiae Nutrition 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 108060003393 Granulin Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003851 biochemical process Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- General Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于半监督网络嵌入模型的蛋白质复合体检测方法和装置,所述方法包括获取蛋白质相互作用交互网络的邻接矩阵,对邻接矩阵进行嵌入处理,从而得到降维矩阵,利用聚类算法对降维矩阵进行处理,从而得到蛋白质复合体检测结果等步骤,所述装置包括用于存储至少一个程序存储器以及用于加载所述至少一个程序以执行基于半监督网络嵌入模型的蛋白质复合体检测方法的处理器。本发明通过对蛋白质相互作用交互网络对应的邻接矩阵进行维度转化,再交由聚类算法处理,提高了聚类处理的效果。本发明基于半监督网络嵌入模型的蛋白质复合体检测方法和装置广泛应用于蛋白质复合体识别技术领域。
Description
技术领域
本发明涉及蛋白质复合体识别技术领域,尤其是基于半监督网络嵌入模型的蛋白质复合体检测方法与装置。
背景技术
蛋白质复合体是蛋白质相互作用(Protein-protein interaction,PPI)所形成的复杂的图结构,在生化过程和制药工艺中扮演着至关重要的角色。因此,正确地识别PPI交互网络中的蛋白质复合体,对于生物医学领域极为有用。不过,随着PPI数据的巨大增长,又加之实验方法的瓶颈制约,仅有少量的蛋白质复合体通过实验被识别。
为克服蛋白质复合体检测中实验方法的技术限制,人们使用了计算方法。PPI交互网络可看做是一个无向的非加权图,其中,蛋白质是顶点,它们的相互作用是边。每个蛋白质复合体由两个或更多的表现为密集相连的子图的蛋白质构成,这意味着,可以利用基于聚类方法形成的图来发现它们。
近来,网络嵌入被人们广泛加以研究,并证实其可进一步改善许多图聚类方法的性能。网络向量学习网络中顶点的低维表示,用以捕捉和保存该网络结构。不过,大部分现有的网络向量方法严重依赖网络中每个顶点的特征,这使得它们不适用于PPI交互网络。PPI交互网络中,除了蛋白质名称之外,没有任何元数据与每个顶点相关。换言之,现有的网络向量方法无法完全捕捉PPI交互网络结构,因为没有足够的资料能用来计算其一阶估计和二阶估计。
发明内容
为了解决上述技术问题,本发明的第一目的在于提供基于半监督网络嵌入模型的蛋白质复合体检测方法,第二目的在于提供基于半监督网络嵌入模型的蛋白质复合体检测装置。
本发明所采取的第一技术方案是:
基于半监督网络嵌入模型的蛋白质复合体检测方法,包括以下步骤:
获取蛋白质相互作用交互网络的邻接矩阵;
对邻接矩阵进行嵌入处理,从而得到降维矩阵;
利用聚类算法对降维矩阵进行处理,从而得到蛋白质复合体检测结果。
进一步地,所述对邻接矩阵进行嵌入处理,从而得到降维矩阵这一步骤,具体包括:
计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计,从而得到蛋白质相互作用交互网络的局部结构信息;
计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计,从而得到蛋白质相互作用交互网络的总体结构信息;
将局部结构信息和总体结构信息保存到邻接矩阵中,从而得到降维矩阵。
进一步地,所述计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计,从而得到蛋白质相互作用交互网络的局部结构信息这一步骤,具体包括:
利用邻点选择算法选择出蛋白质相互作用交互网络中的每一个顶点的优选邻点集;
分别根据每一个顶点的优选邻点集,为每一个顶点赋予特征信息,从而建立特征信息矩阵;
根据特征信息矩阵,计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计;
将蛋白质相互作用交互网络中所有任意两点之间的一阶估计作为所需获取的蛋白质相互作用交互网络的局部结构信息。
进一步地,所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计,从而得到蛋白质相互作用交互网络的总体结构信息这一步骤,具体包括:
将邻接矩阵和特征信息矩阵输入到图卷积神经网络中处理,从而输出蛋白质相互作用交互网络中所有任意两点之间的二阶估计;
将蛋白质相互作用交互网络中所有任意两点之间的二阶估计作为所需获取的蛋白质相互作用交互网络的总体结构信息。
进一步地,所述利用邻点选择算法选择出蛋白质相互作用交互网络中的每一个顶点的优选邻点集这一步骤,具体包括:
利用Deepwalk算法对蛋白质相互作用交互网络进行处理,从而得到每一个顶点的Deepwalk向量;
选定蛋白质相互作用交互网络中的一个顶点作为对象顶点;
根据对象顶点和对象顶点的所有邻点的Deepwalk向量,分别计算对象顶点与其每一个邻点的欧几里得距离;
计算对象顶点与其每一个邻点的欧几里得距离的算术平均数;
将所有与对象顶点的欧几里得距离大于算术平均数的邻点组成的集合作为对象顶点的优选邻点集;
返回执行所述选定蛋白质相互作用交互网络中的一个顶点作为对象顶点这一步骤,直至选择出蛋白质相互作用交互网络中的每一个顶点的优选邻点集为止。
进一步地,所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计,从而得到蛋白质相互作用交互网络的总体结构信息这一步骤之后,设有优化步骤,所述优化步骤包括:
根据蛋白质相互作用交互网络中所有任意两点之间的一阶估计和二阶估计,计算图拉普拉斯正则项损失函数;
动态调整特征信息矩阵的阶数,直至图拉普拉斯正则项损失函数最小化;
将根据图拉普拉斯正则项损失函数最小时对应的一阶估计和二阶估计分别作为所需获取的蛋白质相互作用交互网络的局部结构信息和总体结构信息。
进一步地,所述图拉普拉斯正则项损失函数,其计算公式如下所示:
L=Lfirst+λLsecond
式中,L为图拉普拉斯正则项损失函数,Lfirst为一阶估计被监控的损失,Lsecond为二阶估计被监控的损失,λ为Lfirst和Lsecond之间的均衡因子。
进一步地,所述一阶估计被监控的损失,其计算公式如下所示:
式中,vi和vj是蛋白质相互作用交互网络中由一条边连接的一对顶点,yi是由vi的Deepwalk向量建立的矩阵,yj是由vj的Deepwalk向量建立的矩阵;
所述二阶估计被监控的损失,其计算公式如下所示:
式中,L0为图卷积神经网络的卷积层层数,H(0)=N×D,
进一步地,所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计,从而得到蛋白质相互作用交互网络的总体结构信息这一步骤之后,设有优化步骤,所述优化步骤包括:
动态调整α和β,使得下列方程组中Z等于0或最大限度地接近0:
式中,为第一目标的负偏差变量,为第一目标的正偏差变量,为第二目标的负偏差变量,为第二目标的正偏差变量;X为特征信息矩阵,D为X的列数,P为X的奇异值的最高百分比,α为一矩阵,且α的列数等于D可取的最大值,β等于D可取的最小值。
本发明所采取的第二技术方案是:基于半监督网络嵌入模型的蛋白质复合体检测装置,其包括:
存储器,用于存储至少一个程序;
处理器,用于加载所述至少一个程序以执行第一技术方案所述基于半监督网络嵌入模型的蛋白质复合体检测方法。
本发明的有益效果是:通过本发明蛋白质复合体检测方法和装置,对蛋白质相互作用交互网络进行嵌入、维度转化处理,能够提高现有聚类算法对蛋白质相互作用交互网络进行聚类运算处理时的效率,优化聚类效果,使得蛋白质复合体检测结果更精确。同时,本发明可以为蛋白质相互作用交互网络各个顶点赋予特征,既能捕捉蛋白质相互作用交互网络的局部结构又能捕捉其总体结构,因此本发明不要求蛋白质相互作用交互网络各个顶点本身具有特征,克服了无法直接使用聚类算法对各顶点不存在特征的蛋白质相互作用交互网络进行处理的技术缺陷。本发明运行稳定,各项预测结果评价指标均优于其他蛋白质复合体检测方法。
附图说明
图1为本发明蛋白质复合体检测方法的流程图;
图2为步骤S2的具体流程图;
图3为步骤S21的具体流程图;
图4为步骤S211的具体流程图;
图5为Krogan数据集的比较结果;
图6为Dip数据集的比较结果;
图7为Biogrid数据集的比较结果;
图8为本发明蛋白质复合体检测装置的结构图。
具体实施方式
实施例1
本发明公开的基于半监督网络嵌入模型的蛋白质复合体检测方法,如图1所示,包括以下步骤:
S1.获取蛋白质相互作用交互网络的邻接矩阵;
S2.对邻接矩阵进行嵌入处理,从而得到降维矩阵;
S3.利用聚类算法对降维矩阵进行处理,从而得到蛋白质复合体检测结果。
现有对蛋白质复合体的检测方法,是将蛋白质相互作用交互网络表示为一个无向图G=(V,E),蛋白质为图中的顶点V,其相互作用为图中的边E,而且蛋白质相互作用交互网络的边没有权重。蛋白质相互作用交互网络可以从Krogan、Dip和Biogrid等现有数据集中获取。由图论可知,一个蛋白质相互作用交互网络对应一个邻接矩阵,利用COACH或K-means等聚类算法对邻接矩阵进行处理,便可以得到蛋白质复合体检测结果,即输出结果显示哪些蛋白质属于一类也就是一个复合体。本发明基于半监督网络嵌入模型的蛋白质复合体检测方法通过对邻接矩阵进行嵌入处理,从而得到由邻接矩阵经过维度转化而来的降维矩阵,再用公知的方法聚类算法对降维矩阵进行蛋白质复合体检测,可以提高聚类算法的运行效率。由于本发明利用蛋白质相互作用对应的交互网络,即数学上的图进行蛋白质复合体检测,因此除非特别说明,实施例中不对蛋白质相互作用、PPI、蛋白质相互作用交互网络以及蛋白质相互作用交互网络对应的图等概念进行区分。
进一步作为优选的实施方式,所述对邻接矩阵进行嵌入处理,从而得到降维矩阵这一步骤,即步骤S2,如图2所示,具体包括:
S21.计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计,从而得到蛋白质相互作用交互网络的局部结构信息;
S22.计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计,从而得到蛋白质相互作用交互网络的总体结构信息;
S23.将局部结构信息和总体结构信息保存到邻接矩阵中,从而得到降维矩阵。
其中,一阶估计(First-order proximity)描述顶点之间的成对相似性。对于蛋白质相互作用交互网络中任何一对顶点vi和vj来说,如果vi和vj之间有一条边,则vi和vj之间有正一阶估计。反之,vi和vj之间的一阶估计为0。一阶估计反映了蛋白质相互作用交互网络的局部结构。
二阶估计(Second-order proximity)描述顶点邻域结构之间的成对相似性。假定Ni和Nj代表vi和vj的相邻对顶点,则二阶估计由Ni和Nj的相似性决定。假如两个顶点共有许多公共近邻,则两顶点之间的二阶估计会很高。二阶估计已经被证明是定义一对顶点相似性的良好度量标准,即使它们并无边相连,故其可大大丰富顶点的关系。二阶估计反映了蛋白质相互作用交互网络的总体结构。
一阶估计与二阶估计的概念,最早是在LINE模型中提出的。设u是图G=(V,E)中的一个顶点,那么u与图G=(V,E)中其他所有顶点的一阶估计可表示为Nu={su,1,su,2,…su,|V|},其中si,j表示图G=(V,E)中顶点i与顶点j之间的边的权重,如果顶点i与顶点j之间没有边连接,那么si,j=0,如果顶点i与顶点j之间被边连接,且图G=(V,E)不是加权图,那么si,j=1,如果图G=(V,E)是加权图,那么si,j>0。同理顶点v与图G=(V,E)中其他所有顶点的一阶估计可表示为Nv={sv,1,sv,2,…sv,|V|}。根据此算法,可以算出图G=(V,E)中所有顶点与其他顶点之间的一阶估计。而二阶估计,以顶点v与顶点u为例,则可以通过计算Nu与Nv之间的相似性得到。由此可见,计算一阶估计和二阶估计,要求先得到图中各条边的权重,但是PPI的特点在于顶点之间除了蛋白质名称不同之外,没有其他特征可供区分,也就是每个顶点缺乏可供为各条边赋权的特征。
由于本发明利用蛋白质相互作用对应的交互网络进行蛋白质复合体检测,即着眼于蛋白质相互作用交互网络整体,因此除非特别说明,实施例中不对蛋白质相互作用交互网络中所有任意两点之间的一阶估计、蛋白质相互作用交互网络的一阶估计、一阶估计作区分,也不对蛋白质相互作用交互网络中所有任意两点之间的二阶估计、蛋白质相互作用交互网络的二阶估计、二阶估计作区分。
在得到一阶估计和二阶估计后,即可将一阶估计和二阶估计与邻接矩阵结合,也就是将一阶估计对应的局部结构信息和二阶估计对应的总体结构信息保存到邻接矩阵中,从而得到降维矩阵。由于将一阶估计和二阶估计与邻接矩阵结合属于现有技术,因此此处不赘述。
因为蛋白质相互作用交互网络中的每个顶点除了对应的蛋白质名称外没有其他特征,因此为了计算蛋白质相互作用交互网络的一阶估计,即蛋白质相互作用交互网络中所有任意两个顶点之间的一阶估计,需要为每个顶点赋予一组特征。考虑到蛋白质复合体的定义,可将每个顶点的重要邻点设为其特征,因为这些邻点有更高的概率作为蛋白质复合体组合在一起。所谓重要邻点,是指经过一定的算法在一个顶点的所有邻点中筛选出来的部分邻点。
进一步作为优选的实施方式,所述计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计,从而得到蛋白质相互作用交互网络的局部结构信息这一步骤,即步骤S21,如图3所示,具体包括:
利用邻点选择算法选择出蛋白质相互作用交互网络中的每一个顶点的优选邻点集;
S211.分别根据每一个顶点的优选邻点集;
S212.根据每一个顶点各自对应的优选邻点集,为每一个顶点赋予特征信息,从而建立特征信息矩阵;
S213.根据特征信息矩阵,计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计;
将蛋白质相互作用交互网络中所有任意两点之间的一阶估计作为所需获取的蛋白质相互作用交互网络的局部结构信息。
蛋白质相互作用交互网络中的每一个顶点都具有优选邻点集,但不排除某些顶点的优选邻点集可能是空集。对于蛋白质相互作用交互网络中的一个顶点,其优选邻点集是从其所有邻点中筛选出来的符合条件的邻点的集合。利用优选邻点集给对应的顶点赋予特征信息。假如顶点vi对应的优选邻点集包括顶点x、y和z,那么“x、y和z”三个顶点就是顶点vi被赋予的特征。每个顶点都按这样的方法被赋予特征后,才有了计算边权重的基础,然后用来计算一阶估计。
由于每个顶点都具备了被赋予的特征信息,因此便可以得到蛋白质相互作用交互网络的特征信息矩阵(Feature matrix),它是一个N×D阶的矩阵,其中N为蛋白质相互作用交互网络的顶点总数,D为每个顶点的特征数量。因为每个顶点对应的优选邻点集都不一样,也就是每个顶点的特征都不一样,因此每个顶点的特征数量也不一样。
例如,在一个具有N个顶点的蛋白质相互作用交互网络中,一个顶点可能对应的特征数量的最大值为N,因此这个蛋白质相互作用交互网络对应的特征信息矩阵的最大阶数为N×N阶。如果一个顶点对应的特征数量小于N,那么这个顶点在特征信息矩阵中对应的那一行本不足N列,可用填充算法将其补足N列,优选的方法是将其补足N列使其最右边的元素均为零。而在特征信息矩阵的使用过程中,有时需要缩小其规模,即保持其行数不变,减小其列数,此时可以把D视为一个变量,D的最大值可以定为蛋白质相互作用交互网络中特征数量最大的顶点的特征数量,也可以直接定为N,D的最小值可以定为蛋白质相互作用交互网络中特征数量最小的顶点的特征数量。例如,将D的最大值定为N时,N×D阶的特征信息矩阵可以降为N×(D-1)阶、N×(D-2)阶等,优选地,将特征信息矩阵降阶时,是将其最右边的列删去,只保留最左边的列。
根据特征信息矩阵,便可以计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计。根据特征信息矩阵计算一阶估计的方法有多种,可以优选地采用余弦相似度的计算方法,由于这属于现有技术,因此这里不赘述。
进一步作为优选的实施方式,所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计,从而得到蛋白质相互作用交互网络的总体结构信息这一步骤,具体包括:
将邻接矩阵和特征信息矩阵输入到图卷积神经网络中处理,从而输出蛋白质相互作用交互网络中所有任意两点之间的二阶估计;
将蛋白质相互作用交互网络中所有任意两点之间的二阶估计作为所需获取的蛋白质相互作用交互网络的总体结构信息。
二阶估计代表一对顶点邻域结构的相似程度。因而,要模型化二阶估计,首先要模型化每个顶点的邻域。对于含有n个顶点的图G=(V,E),其对应相邻矩阵M,其包含n个行矩阵,即m1,m2,…mn。对于行矩阵当且仅当vi和vj被一条边连接时有mi,j>0。
mi描述顶点vi的邻域结构,而M提供每个顶点邻域结构的信息。所以,可以基于自动编码器设计出GCN,用以保存G的二阶估计。
基于自动编码器的图卷积神经网络(Graph Convolutional Network,GCN)能够应用隐变量,能够学习无向的非权重图的可判断的隐表示,这是非常适合蛋白质相互作用交互网络的。使用每个顶点的特征作为GCN的一部分输入数据,然后,经过l卷积层的编码之后,就能获得由原始图学习而来的表述。对于解码部分,可以简单地使用内部产品解码器。蛋白质相互作用交互网络是一个无向的非权重的图G=(V,E),其有N=|V|个顶点。将G的邻域矩阵A和N×D阶的特征信息矩阵X作为输入。应用随机隐变量Zi,可以得到N×F阶的输出矩阵Z。这里,F是输出特征的数量,D是每个顶点的特征数量。从GCN的输出结果中便能得到所要获得的蛋白质相互作用交互网络的二阶估计,即蛋白质相互作用交互网络中所有任意两个顶点的二阶估计。由于从GCN的输出结果中得到二阶估计的方法属于现有技术,因此这里不做赘述。
由于每一个顶点的特征是基于选择的邻点产生的,换言之,每个顶点的特征数量是不同的。所以,设定N为D的最初值,当建立特征信息矩阵X时,假如该顶点没有这些特征,则设定相关数值为0。于是,图卷积神经网络中每个网络层可以写为如下非线性函数:
H(l+1)=f(Hl,A),
其中H(0)=X,H(l)=Z,
传输规则如下:
f(H(l),A)=relu(AH(l)W(l)),
其中W是I网络层的权重矩阵,relu是激活函数,注意,与A相乘者只是囊括了所有邻点的所有特征,但不包括该顶点本身。所以,需要在A上加进一个单位矩阵I。于是,传输规则变为:
其中 是的对角顶点度矩阵,设L=3,那意味着,图卷积神经网络有三个卷积层来重建A的结构以获得Z。假定决定网络中每一层保留前一层半数的特征,则在三层后得到
进一步作为优选的实施方式,所述邻点选择算法,即步骤S211,如图4所示,具体为:
S2111.利用Deepwalk算法对蛋白质相互作用交互网络进行处理,从而得到每一个顶点的Deepwalk向量;
S2112.选定蛋白质相互作用交互网络中的一个顶点作为对象顶点;
S2113.根据对象顶点和对象顶点的所有邻点的Deepwalk向量,分别计算对象顶点与其每一个邻点的欧几里得距离;
计算对象顶点与其每一个邻点的欧几里得距离的算术平均数;
S2114.将所有与对象顶点的欧几里得距离大于算术平均数的邻点组成的集合作为对象顶点的优选邻点集;
S2115.返回执行所述选定蛋白质相互作用交互网络中的一个顶点作为对象顶点这一步骤,直至选择出蛋白质相互作用交互网络中的每一个顶点的优选邻点集为止。
DeepWalk是一种学习节点隐表达的方法,这个方法在一个连续向量空间中对节点的社会关系进行编码,是语言模型和无监督学习从单词序列到图上的一个扩展。该方法将截断游走的序列当成句子进行学习。该方法具有可扩展,可并行化的特点,可以用来做网络分类和异常点检测。DeepWalk法已经成功地在社交网络和图分析中得以验证。它通过模型化一连串短而随机的游走,将连续的向量空间以低维编码,从而学习潜在的表述。
通过Deepwalk对蛋白质相互作用交互网络进行处理,所得处理结果使得蛋白质相互作用交互网络中每一个顶点都对应着一个64维的向量,根据任意两个顶点各自对应的64维向量可以计算这两个顶点的欧几里得距离。本发明申请中,将每个顶点经过Deepwalk算法处理后得到的64维向量称作这个顶点对应的Deepwalk向量。选定蛋白质相互作用交互网络中的一个顶点,称之为对象顶点,将对象顶点与其所有邻点的欧几里得距离分别计算出来,再求所有这些欧几里得距离的算术平均数,即将对象顶点与其所有邻点的欧几里得距离之和除以其邻点总数。然后,将对象顶点与其每一个邻点的欧几里得距离与算术平均数进行比较,对于欧几里得距离大于算术平均数的邻点,则归入优选邻点集,否则排除在优选邻点集之外。通过这种方法,可以针对蛋白质相互作用交互网络的一个特定顶点筛选出其符合条件的邻点组成优选邻点集。
反复利用上述方法,即在步骤S2114中为一个对象顶点选择并组建其优选邻点集后,返回步骤S2112,在蛋白质相互作用交互网络中选择另一个尚未组建优选邻点集的顶点作为新的对象顶点,从步骤S2112开始继续执行,直到蛋白质相互作用交互网络中所有顶点都通过这种方法筛选出其符合条件的邻点组成对应的优选邻点集。有了对应的优选邻点集,便可以通过上述已公开的方法进行特征赋予等操作。
按照上述这种邻点选择算法,特征信息矩阵的意义就更加明确:其具有N行D列,N为蛋白质相互作用交互网络的顶点总数,D为每个顶点的特征数量。经过Deepwalk算法后,每个顶点均对应了一个64维的向量,因此,特征信息矩阵里的每一个元素实质上都是一个64维向量。
进一步作为优选的实施方式,所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计,从而得到蛋白质相互作用交互网络的总体结构信息这一步骤之后,设有优化步骤,所述优化步骤包括:
根据蛋白质相互作用交互网络中所有任意两点之间的一阶估计和二阶估计,计算图拉普拉斯正则项损失函数;
动态调整特征信息矩阵的阶数,直至图拉普拉斯正则项损失函数最小化;
将根据图拉普拉斯正则项损失函数最小时对应的一阶估计和二阶估计分别作为所需获取的蛋白质相互作用交互网络的局部结构信息和总体结构信息。
由于建立特征信息矩阵时设定了N作为D的最初值,因此特征信息矩阵的阶数不一定是最合理的,根据特征信息矩阵所得的蛋白质相互作用交互网络的一阶估计和二阶估计也不一定是最优的,这将使得最终得到的用于聚类算法处理的降维矩阵不是最优的。为了求得最优的降维矩阵,动态地调整特征信息矩阵的阶数,蛋白质相互作用交互网络的一阶估计和二阶估计也将发生变化,由一阶估计和二阶估计计算所得的图拉普拉斯正则项损失函数取得最小值时,表明对应的一阶估计和二阶估计组合为最优的,应当以这个最优的一阶估计和二阶估计组合分别作为所需获取的蛋白质相互作用交互网络的局部结构信息和总体结构信息,进一步去求得降维矩阵。
进一步作为优选的实施方式,所述图拉普拉斯正则项损失函数,其计算公式如下所示:L=Lfirst+λLsecond
式中,L为图拉普拉斯正则项损失函数,Lfirst为一阶估计被监控的损失,Lsecond为二阶估计被监控的损失,λ为Lfirst和Lsecond之间的均衡因子,λ是一个参数,可在算法实际运行时选择其取值。
进一步作为优选的实施方式,所述一阶估计被监控的损失,其计算公式如下所示:
式中,vi和vj是蛋白质相互作用交互网络中由一条边连接的一对顶点,yi是由vi的Deepwalk向量建立的矩阵,yj是由vj的Deepwalk向量建立的矩阵。优选地,yi是由vi的Deepwalk向量建立的矩阵,其具体为,以vi以及vi的所有优选邻点对应的Deepwalk向量作为元素,构建矩阵yi。矩阵yj的构建方法同理。因为每个顶点的邻点数目可能是不同的,也就是说yi和yj的阶数可能是不同的,使用零元素来填充较小的矩阵,确保两个矩阵大小相同,以进行计算。所谓使用零元素来填充较小的矩阵,具体可以优选使用以下这种填充方法:如yi阶数比yj小,那么就用零元素填充到yi中成为一个新矩阵,使得新矩阵的阶数与yj一样,而且yi处于新矩阵的左上角。
所述二阶估计被监控的损失,其计算公式如下所示:
式中,L0为图卷积神经网络的卷积层层数,H(0)=N×D,这里同样地用零元素填充的方法,使得H(l+1)和H(l)的阶数相同。
用上述方法,当为图拉普拉斯正则项损失函数L取得最小值时对应的一阶估计和二阶估计组合是最优的。
进一步作为优选的实施方式,所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计,从而得到蛋白质相互作用交互网络的总体结构信息这一步骤之后,设有优化步骤,所述优化步骤包括:
动态调整α和β,使得下列方程组中Z等于0或最大限度地接近0:
式中,为第一目标的负偏差变量,为第一目标的正偏差变量,为第二目标的负偏差变量,为第二目标的正偏差变量;X为特征信息矩阵,D为X的列数,P为X的奇异值的最高百分比,α为一矩阵,且α的列数等于D可取的最大值,β等于D可取的最小值;
将根据Z等于0或最大限度地接近0时对应的特征信息矩阵计算出来的一阶估计和二阶估计分别作为所需获取的蛋白质相互作用交互网络的局部结构信息和总体结构信息。
上述方法是优化步骤的另一种实现方法。在数学上,通过求图拉普拉斯正则项损失函数最小值以实现最优化的问题实际上是矩阵的降维问题,作为优选的实施方式,可以使用传统的奇异值分解法(SVD)来进行矩阵的降维。按照SVD的定理,有着N×D阶的特征信息矩阵X,可以再写为U×S×V*,这里,U是特征信息矩阵X的正交矩阵,U的大小为N×N阶;S是特征信息矩阵X的对角矩阵,S的大小为N×D阶;V*是U的共轭转置矩阵,V*的大小为D×D阶。S也可以被称为X的奇异值。如果设定该奇异值的某个最高百分比P的最小值为0,那么,可以得到X的近似矩阵,即X′。最后,D的值是减小的,不过,因为需要最小化X→X′的重构误差,必须最大化1-P的值。由于用SVD进行了乘法演算后,X'=(1-P)X,X是一个N×D矩阵,所以,可以将求图拉普拉斯正则项损失函数最小值以实现最优化的问题转换为目标规划问题,如以下方程组所示:
动态调整α,是指α初始可优选地取为N×N的矩阵,也就是特征信息矩阵本身,调整α,也就是逐步将α降阶,如删除最右边一列成为N×(N-1)的矩阵,然后再代入方程组中计算;下一步再删除最右边一列成为N×(N-2)的矩阵,然后再代入方程组中计算,等等。
在这个方程组中,将正负偏差变量置于同等重要地位,这意味着,对于每个偏差变量,权重均为1。显然,当Z等于0时,可以获得帕累托最优解。但在一些情况下,Z不能精确地等于0,此时所要求的Z是其取值范围内尽可能接近0的值。所以,通过不断更新α和β,直到找到可以使Z接近或等于0的α和β组合,这个α和β的组合所对应的特征信息矩阵是最优的,由最优的特征信息矩阵所计算出来的一阶估计和二阶估计能使降维矩阵最优,以最优化聚类效果。
实施例2
在本实施例中,基于三组PPI数据集,将实施例1中说明的基于半监督网络嵌入模型的蛋白质复合体检测方法,结合现有的聚类方法进行实验,将其实验结果与现有的聚类方法的常规应用的实验结果用最先进的方法比较,以展示实施例1所述方法的性能。实验在台式电脑上运行,配置为i7CPU双核4.00GHZ,16GB内存,GTX 1070显卡。三组数据集的整个运算过程可以在一天内完成。此外,由于PPI数据聚类通常在现实世界里是一次性的过程,在研究中无需关注运行时间的改善和时间复杂度的分析,因为聚类质量才是更重要的。
使用三组最新的酿酒酵母的PPI数据集,即Krogan数据集、Dip数据集和Biogrid数据集。Krogan数据集和Dip数据集是用于评估几种聚类算法的运行的。如表1所示,Krogan数据集和Dip数据集有着相近的平均度和密度,而Biogrid数据集与它们比,有着更高的平均度和密度。因为PPI数据可以用无向图G=(V,E)表示,则平均度可计算为密度可计算为三种PPI数据集的特性如表1所示。
PPI数据有较高的误报率,据估计约在50%左右。数据的噪音干扰了从PPI数据中检测蛋白质复合体的聚类方法。于是,使用CYC2008作为参照数据集。CYC2008提供酿酒酵母方面经过人工校对的408种蛋白质复合体的总目录,比另一种流行数据集MIPS多90%。
表1
数据集 | 顶点 | 边 | 平均度 | 密度 |
Krogan | 5364 | 61289 | 22.85 | 0.0043 |
Dip | 4972 | 17836 | 7.17 | 0.0014 |
Biogrid | 6242 | 255510 | 81.87 | 0.013 |
使用近邻亲和力评分来看某种算法检测的蛋白质复合体是否与CYC2008中的蛋白质复合体相配。然后,再用它来计算准确率、召回率和F值,以评估该算法的表现。近邻亲和力评分NA(p,b)定义如下:
这里,P=(Vp,Ep)是预测的蛋白质复合体,B=(Vb,Eb)是参照的蛋白质复合体。于是,准确率precision可以计算如下:
其中,
召回率recall计算如下:
其中,
F值F-measure是准确率和召回率的调和平均数,计算如下:
ω是一个阈值,表示蛋白质复合体是否被确认为参照数据集中的某一蛋白质复合体。依据实验,设定近邻亲和力评分阈值为0.25,这使得模型性能与其他算法有所不同。
此外,也使用三个指标,即分数(Frac)、最大匹配率(MMR)和几何精度(Acc),来度量蛋白质复合体聚类的质量。Frac是测度两个蛋白质复合体之间分数对的指标,有着大于0.25的重叠积分θ,Frac(θ)计算如下:
这里,A和B是两个蛋白质复合体。
Acc是其他两种度量——聚类灵敏度(Sn)和聚类阳性预测值(PPV)——的几何平均数。Sn和PPV计算如下:
这里,n是参照蛋白质复合体的蛋白质数目,m是聚类蛋白质复合体的蛋白质数目,元素tij表示两个复合体中发现的蛋白质数目。因为Sn可以通过在同一复合体中加进每个蛋白质而增大,而PPV也可以通过在其自身复合体中加进每个蛋白质而最大化,故可以用这两种度量来计算Sn和PPV的几何平均值:
MMR表示两组聚集的蛋白质复合体为二部图,其中两组结点分别代表参照复合体和预测复合体,联结参照复合体和预测复合体的边由重叠积分加权。两个蛋白质复合体之间的重叠积分用方程计算。MMR的值是拥有最大权重的边的特定子集的总权重,除以参照蛋白质复合体的数目。
根据研究,迄今为止,COACH是PPI交互网络最稳定最有代表性的聚类算法。用其作为评估模型的聚类分析方法。用两种最先进的网络向量模型DeepWalk和SDNE来比较模型的性能。至于评估模型的鲁棒性,则选择两种不同类型的传统聚类算法K-means和DBSCAN进行比较。关于COACH,设定该算法的三个关键参数,即密度、亲和力和接近度,分别为0.7、0.2和0.5,按实验分析,这些参数足以完成所有网络向量算法的稳定演算。而对于K-means和DBSCAN,仅使用其设置默认值。
因为SDNE也需要一阶估计,不过由于其最初是为社交网络设计的,使用了三种版本的SDNE,即每个顶点无任何特征的SDNE-NA、每个顶点采用所有邻点作为特征的SDNE-ALL及每个顶点采用选定的邻点作为特征的SDNE-SN。SDNE-SN采用实施例1中所公开的邻点选择算法进行邻点选定。
Krogan数据集、Dip数据集和Biogrid数据集的测试结果分别见图5、图6、图7。
从结果看,针对所有三个数据集的准确率、召回率和F值的测试,模型均优于其他模型。特别是对于具有高密度的Biogrid数据集,模型完成的F值比第二位的模型至少高90%。对于Dip数据集,模型完成的F值是最高的0.528,大约比仅使用COACH的算法高出20%,也比位居第二的COACH+SDNE-SN算法高出9.5%,比COACH+DeepWalk算法高出17%。类似的结果同样可以在Krogan数据集中找到。这些结果证明,模型比其他模型更适合使用在具有高密度的复杂网络上。
此外,发现,针对所有三个数据集,SDNE-SN优于SDNE-NA和SDNE-ALL。因为SDNE-SN是基于实施例1中公开的邻点选择算法来计算一阶估计的,结果从侧面证明了模型的有效性。
至于K-means和DBSCAN聚类算法,两者在测试中的表现不佳。无论与哪种网络向量算法一起使用,实验结果都不很好,这意味着,这两种算法不适合用于PPI交互网络。
以下比较每种模型的聚类质量。根据前一节的测试结果,仅选择三种有代表性的模型来进行比较,即COACH、COACH+DeepWalk和COACH+SDNE-SN。表2显示用不同模型检测的蛋白质复合体数目。从表中,可以发现,针对所有三个数据集,模型都能比其它模型检测到更多的蛋白质复合体。有了这一数量基础,改善聚类的质量便更为容易。
表2
数据集 | COACH+本发明方法 | COACH | COACH+Deepwalk | COACH+DNE-SN |
Krogan | 610 | 570 | 570 | 580 |
Dip | 808 | 748 | 750 | 840 |
Biogrid | 3470 | 3158 | 3160 | 3267 |
表3、表4、表5分别显示针对Krogan、Dip和Biogrid数据集的聚类质量比较。从表3可以看到,模型能够完成更好的聚类质量,就MMR和Frac两项而言,比位居第二的COACH+SDNE-SN约高38%,而Acc一项则约高25%。Dip数据集的情况也大致相似。
至于Biogrid数据集,由于该网络的高密度,所有模型的聚类质量均降低。不过,模型仍优于其它。例如,模型Acc值达到0.69,比位居第二的COACH+SDNE-SN约高25%。
表3
COACH+本发明方法 | COACH | COACH+Deepwalk | COACH+DNE-SN | |
Frac | 0.61 | 0.35 | 0.4 | 0.44 |
Acc | 0.68 | 0.46 | 0.48 | 0.54 |
MMR | 0.5 | 0.19 | 0.25 | 0.36 |
表4
COACH+本发明方法 | COACH | COACH+Deepwalk | COACH+DNE-SN | |
Frac | 0.81 | 0.61 | 0.62 | 0.64 |
Acc | 0.68 | 0.58 | 0.6 | 0.63 |
MMR | 0.75 | 0.36 | 0.4 | 0.48 |
表5
COACH+本发明方法 | COACH | COACH+Deepwalk | COACH+DNE-SN | |
Frac | 0.35 | 0.14 | 0.2 | 0.24 |
Acc | 0.69 | 0.39 | 0.4 | 0.45 |
MMR | 0.28 | 0.05 | 0.14 | 0.22 |
比较其他的网络向量方法,设计了一种选择关键邻点作为每个顶点特征的算法,以计算其一阶估计。此外,设计了一种三层GCN,深度学习PPI交互网络的结构,以保存其二阶估计。
针对各种PPI交互网络进行的广泛实验表明,模型是稳定的,各项指标都优于其他最先进的模型。将来,计划使用循环神经网络,从生物医学文献中将资料整合到PPI交互网络,以进一步改进蛋白质复合体检测的质量。
实施例3
本发明基于半监督网络嵌入模型的蛋白质复合体检测装置,如图8所示,其包括:
存储器,用于存储至少一个程序;
处理器,用于加载所述至少一个程序以执行实施例1和2所述基于半监督网络嵌入模型的蛋白质复合体检测方法。
以上是对本发明的较佳实施进行了具体说明,但对本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.基于半监督网络嵌入模型的蛋白质复合体检测方法,其特征在于,包括以下步骤:
获取蛋白质相互作用交互网络的邻接矩阵;
对邻接矩阵进行嵌入处理,从而得到降维矩阵;
利用聚类算法对降维矩阵进行处理,从而得到蛋白质复合体检测结果。
2.根据权利要求1所述的基于半监督网络嵌入模型的蛋白质复合体检测方法,其特征在于,所述对邻接矩阵进行嵌入处理,从而得到降维矩阵这一步骤,具体包括:
计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计,从而得到蛋白质相互作用交互网络的局部结构信息;
计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计,从而得到蛋白质相互作用交互网络的总体结构信息;
将局部结构信息和总体结构信息保存到邻接矩阵中,从而得到降维矩阵。
3.根据权利要求2所述的基于半监督网络嵌入模型的蛋白质复合体检测方法,其特征在于,所述计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计,从而得到蛋白质相互作用交互网络的局部结构信息这一步骤,具体包括:
利用邻点选择算法选择出蛋白质相互作用交互网络中的每一个顶点的优选邻点集;
分别根据每一个顶点的优选邻点集,为每一个顶点赋予特征信息,从而建立特征信息矩阵;
根据特征信息矩阵,计算蛋白质相互作用交互网络中所有任意两点之间的一阶估计;
将蛋白质相互作用交互网络中所有任意两点之间的一阶估计作为所需获取的蛋白质相互作用交互网络的局部结构信息。
4.根据权利要求3所述的基于半监督网络嵌入模型的蛋白质复合体检测方法,其特征在于,所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计,从而得到蛋白质相互作用交互网络的总体结构信息这一步骤,具体包括:
将邻接矩阵和特征信息矩阵输入到图卷积神经网络中处理,从而输出蛋白质相互作用交互网络中所有任意两点之间的二阶估计;
将蛋白质相互作用交互网络中所有任意两点之间的二阶估计作为所需获取的蛋白质相互作用交互网络的总体结构信息。
5.根据权利要求3或4所述的基于半监督网络嵌入模型的蛋白质复合体检测方法,其特征在于,所述利用邻点选择算法选择出蛋白质相互作用交互网络中的每一个顶点的优选邻点集这一步骤,具体包括:
利用Deepwalk算法对蛋白质相互作用交互网络进行处理,从而得到每一个顶点的Deepwalk向量;
选定蛋白质相互作用交互网络中的一个顶点作为对象顶点;
根据对象顶点和对象顶点的所有邻点的Deepwalk向量,分别计算对象顶点与其每一个邻点的欧几里得距离;
计算对象顶点与其每一个邻点的欧几里得距离的算术平均数;
将所有与对象顶点的欧几里得距离大于算术平均数的邻点组成的集合作为对象顶点的优选邻点集;
返回执行所述选定蛋白质相互作用交互网络中的一个顶点作为对象顶点这一步骤,直至选择出蛋白质相互作用交互网络中的每一个顶点的优选邻点集为止。
6.根据权利要求4所述的基于半监督网络嵌入模型的蛋白质复合体检测方法,其特征在于,所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计,从而得到蛋白质相互作用交互网络的总体结构信息这一步骤之后,设有优化步骤,所述优化步骤包括:
根据蛋白质相互作用交互网络中所有任意两点之间的一阶估计和二阶估计,计算图拉普拉斯正则项损失函数;
动态调整特征信息矩阵的阶数,直至图拉普拉斯正则项损失函数最小化;
将根据图拉普拉斯正则项损失函数最小时对应的一阶估计和二阶估计分别作为所需获取的蛋白质相互作用交互网络的局部结构信息和总体结构信息。
7.根据权利要求6所述的基于半监督网络嵌入模型的蛋白质复合体检测方法,其特征在于,所述图拉普拉斯正则项损失函数,其计算公式如下所示:
L=Lfirst+λLsecond
式中,L为图拉普拉斯正则项损失函数,Lfirst为一阶估计被监控的损失,Lsecond为二阶估计被监控的损失,λ为Lfirst和Lsecond之间的均衡因子。
8.根据权利要求7所述的基于半监督网络嵌入模型的蛋白质复合体检测方法,其特征在于,所述一阶估计被监控的损失,其计算公式如下所示:
式中,vi和vj是蛋白质相互作用交互网络中由一条边连接的一对顶点,yi是由vi的Deepwalk向量建立的矩阵,yj是由vj的Deepwalk向量建立的矩阵;
所述二阶估计被监控的损失,其计算公式如下所示:
式中,L0为图卷积神经网络的卷积层层数,H(0)=N×D,
9.根据权利要求4所述的基于半监督网络嵌入模型的蛋白质复合体检测方法,其特征在于,所述计算蛋白质相互作用交互网络中所有任意两点之间的二阶估计,从而得到蛋白质相互作用交互网络的总体结构信息这一步骤之后,设有优化步骤,所述优化步骤包括:
动态调整α和β,使得下列方程组中Z等于0或最大限度地接近0:
式中,为第一目标的负偏差变量,为第一目标的正偏差变量,为第二目标的负偏差变量,为第二目标的正偏差变量;X为特征信息矩阵,D为X的列数,P为X的奇异值的最高百分比,Z为将邻接矩阵和特征信息矩阵输入到图卷积神经网络中处理的输出结果,α为一矩阵,且α的列数等于D可取的最大值,β等于D可取的最小值;
将根据Z等于0或最大限度地接近0时对应的特征信息矩阵而计算出来的一阶估计和二阶估计分别作为所需获取的蛋白质相互作用交互网络的局部结构信息和总体结构信息。
10.基于半监督网络嵌入模型的蛋白质复合体检测装置,其特征在于,其包括:
存储器,用于存储至少一个程序;
处理器,用于加载所述至少一个程序以执行权利要求1-9任一项所述基于半监督网络嵌入模型的蛋白质复合体检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711250342.9A CN108171010B (zh) | 2017-12-01 | 2017-12-01 | 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711250342.9A CN108171010B (zh) | 2017-12-01 | 2017-12-01 | 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108171010A true CN108171010A (zh) | 2018-06-15 |
CN108171010B CN108171010B (zh) | 2021-09-14 |
Family
ID=62525063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711250342.9A Active CN108171010B (zh) | 2017-12-01 | 2017-12-01 | 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108171010B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932402A (zh) * | 2018-06-27 | 2018-12-04 | 华中师范大学 | 一种蛋白质复合物识别方法 |
CN109389151A (zh) * | 2018-08-30 | 2019-02-26 | 华南师范大学 | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 |
CN110796133A (zh) * | 2018-08-01 | 2020-02-14 | 北京京东尚科信息技术有限公司 | 文案区域识别方法和装置 |
CN110942805A (zh) * | 2019-12-11 | 2020-03-31 | 云南大学 | 一种基于半监督深度学习的绝缘子元件预测系统 |
CN111860768A (zh) * | 2020-06-16 | 2020-10-30 | 中山大学 | 一种增强图神经网络点边交互的方法 |
CN112071362A (zh) * | 2020-08-03 | 2020-12-11 | 西安理工大学 | 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070192034A1 (en) * | 2001-06-21 | 2007-08-16 | Benight Albert S | Methods for representing sequence-dependent contextual information present in polymer sequence and uses thereof |
WO2013049398A2 (en) * | 2011-09-28 | 2013-04-04 | H. Lee Moffitt Cancer Center & Research Institute, Inc. | Protein-protein interaction as biomarkers |
CN103235900A (zh) * | 2013-03-28 | 2013-08-07 | 中山大学 | 蛋白质复合体挖掘的加权组装聚类方法 |
CN105138866A (zh) * | 2015-08-12 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法 |
CN105930686A (zh) * | 2016-07-05 | 2016-09-07 | 四川大学 | 一种基于深度神经网络的蛋白质二级结构预测方法 |
CN106021988A (zh) * | 2016-05-26 | 2016-10-12 | 河南城建学院 | 蛋白质复合物的识别方法 |
-
2017
- 2017-12-01 CN CN201711250342.9A patent/CN108171010B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070192034A1 (en) * | 2001-06-21 | 2007-08-16 | Benight Albert S | Methods for representing sequence-dependent contextual information present in polymer sequence and uses thereof |
WO2013049398A2 (en) * | 2011-09-28 | 2013-04-04 | H. Lee Moffitt Cancer Center & Research Institute, Inc. | Protein-protein interaction as biomarkers |
CN103235900A (zh) * | 2013-03-28 | 2013-08-07 | 中山大学 | 蛋白质复合体挖掘的加权组装聚类方法 |
CN105138866A (zh) * | 2015-08-12 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法 |
CN106021988A (zh) * | 2016-05-26 | 2016-10-12 | 河南城建学院 | 蛋白质复合物的识别方法 |
CN105930686A (zh) * | 2016-07-05 | 2016-09-07 | 四川大学 | 一种基于深度神经网络的蛋白质二级结构预测方法 |
Non-Patent Citations (5)
Title |
---|
L. HUANG, L. LIAO AND C. H. WU: "Protein-protein interaction network inference from multiple kernels with optimization based on random walk by linear programming", 《2015 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 * |
U013527419: "网络表示学习(DeepWalk,LINE,node2vec,SDNE)", 《HTTPS://WWW.ITDAAN.COM/BLOG/2017/07/24/CE511D9D6C68917C8A1AFABBD66C17AE.HTML》 * |
朱佳,等: "针对蛋白质复合体检测的自学习图聚类(英文)", 《控制理论与应用》 * |
梁华东: "基于流形学习的蛋白质功能预测与优化", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
梦游--: "LLE流行嵌入式降维算法", 《HTTPS://BLOG.CSDN.NET/ZHOUGUANGFEI0717/ARTICLE/DETAILS/78604980》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932402A (zh) * | 2018-06-27 | 2018-12-04 | 华中师范大学 | 一种蛋白质复合物识别方法 |
CN110796133A (zh) * | 2018-08-01 | 2020-02-14 | 北京京东尚科信息技术有限公司 | 文案区域识别方法和装置 |
US11763167B2 (en) | 2018-08-01 | 2023-09-19 | Bejing Jingdong Shangke Information Technology Co, Ltd. | Copy area identification method and device |
CN110796133B (zh) * | 2018-08-01 | 2024-05-24 | 北京京东尚科信息技术有限公司 | 文案区域识别方法和装置 |
CN109389151A (zh) * | 2018-08-30 | 2019-02-26 | 华南师范大学 | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 |
CN109389151B (zh) * | 2018-08-30 | 2022-01-18 | 华南师范大学 | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 |
CN110942805A (zh) * | 2019-12-11 | 2020-03-31 | 云南大学 | 一种基于半监督深度学习的绝缘子元件预测系统 |
CN111860768A (zh) * | 2020-06-16 | 2020-10-30 | 中山大学 | 一种增强图神经网络点边交互的方法 |
CN111860768B (zh) * | 2020-06-16 | 2023-06-09 | 中山大学 | 一种增强图神经网络点边交互的方法 |
CN112071362A (zh) * | 2020-08-03 | 2020-12-11 | 西安理工大学 | 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 |
CN112071362B (zh) * | 2020-08-03 | 2024-04-09 | 西安理工大学 | 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108171010B (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108171010B (zh) | 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置 | |
Zhang et al. | A cross-domain recommender system with kernel-induced knowledge transfer for overlapping entities | |
CN111291139B (zh) | 基于注意力机制的知识图谱长尾关系补全方法 | |
CN113705772A (zh) | 一种模型训练方法、装置、设备及可读存储介质 | |
CN109389151B (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN114387486A (zh) | 基于持续学习的图像分类方法以及装置 | |
CN112231592B (zh) | 基于图的网络社团发现方法、装置、设备以及存储介质 | |
WO2022105108A1 (zh) | 一种网络数据分类方法、装置、设备及可读存储介质 | |
Mall et al. | Representative subsets for big data learning using k-NN graphs | |
Ghanbari et al. | Reconstruction of gene networks using prior knowledge | |
CN114154557A (zh) | 癌症组织分类方法、装置、电子设备及存储介质 | |
CN106569954A (zh) | 一种基于kl散度的多源软件缺陷预测方法 | |
CN114693993B (zh) | 一种图像处理和图像分类方法、装置、设备及存储介质 | |
Zhou et al. | Multi-scale graph classification with shared graph neural network | |
US20220076121A1 (en) | Method and apparatus with neural architecture search based on hardware performance | |
CN115130554A (zh) | 对象分类方法、装置、电子设备及存储介质 | |
Clark et al. | Finding outliers in Gaussian model-based clustering | |
CN118135279A (zh) | 一种不完整视图的聚类方法及系统 | |
CN117909517A (zh) | 知识图谱补全方法、装置、设备、存储介质和程序产品 | |
Wu et al. | An outlier-resilient autoencoder for representing high-dimensional and incomplete data | |
Zhu et al. | A hybrid model for nonlinear regression with missing data using quasilinear kernel | |
JP2012079225A (ja) | 協調フィルタリング処理方法およびプログラム | |
Li et al. | An imbalanced ensemble learning method based on dual clustering and stage-wise hybrid sampling | |
Dong et al. | An optimization method for pruning rates of each layer in CNN based on the GA-SMSM | |
EP4460774A2 (en) | Machine learning with periodic data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220323 Address after: 510000 5548, floor 5, No. 1023, Gaopu Road, Tianhe District, Guangzhou City, Guangdong Province Patentee after: Guangdong SUCHUANG Data Technology Co.,Ltd. Address before: 510631 School of computer science, South China Normal University, 55 Zhongshan Avenue West, Tianhe District, Guangzhou City, Guangdong Province Patentee before: SOUTH CHINA NORMAL University Patentee before: Guangzhou Fanping Electronic Technology Co., Ltd |
|
TR01 | Transfer of patent right |