一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法
技术领域
本发明属于生物信息学技术领域,更确切的是涉及一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法。
背景技术
近年来,随着一些农艺性状得到遗传改良的食物增多及基因工程药物的应用增加,一些对人类具有潜在过敏的蛋白可能引入这些食品和药品中,由此将导致过敏性体质人群的生活压力和整个社会的生活成本增加。在这些新蛋白基因遗传转化之前及与人体的产生接触之前,先期进行过敏原性评价,显得十分迫切。而应用软件对蛋白的过敏原性进行精确预测是过敏原性评价的最经济有效的首选方案。过敏原性的精确评估,既可避免高过敏原性蛋白基因的应用所带来的前期巨额投入,又可避免这类蛋白对人体的伤害,使风险成本得到降低。
目前,国内尚没有一款可以评价过敏原的软件,而国际上,过敏原性预测软件可以概括为如下几类方法进行过敏原检测,包话:(1)通常的序列比对;(2)基于滑动肽窗口原理的过敏原IgE表位和基序的检测;(3)以支持向量机(Support Vector Machine,SVM)为支持算法的分类器来区分过敏原和非过敏原;(4)基于过敏原代表肽段(Allergen Representative Peptides,ARPs)或经过长度调整后的过敏原肽段构建的描述器(Detection based on Filtered Length-adjustedAllergen Peptides,DFLAPs)。当待查询序列或其片段与已知过敏原完全相同、或者同源、或者具有匹配的基序时,这些软件就非常有效,而对于那些跟已知过敏原相似性低的新型蛋白质,这些软件的预测准确性就不佳了。因此,为了从随机的序列数据、特别是从那些农艺性状优良而尚未开发的外源基因里甄别过敏原,以避免将从未被人类作为食物的外源基因通过遗传工程等方法引入食品中,需要在准确性、特异性和敏感性等方面对过敏原预测软件进行大幅度的改良提高。
发明内容
本发明要解决的技术问题是克服现有技术的不足而提供一种能提高过敏原预测的敏感性、特异性和精确性的基于支持向量机的过敏原的预测方法。
为解决上述技术问题,本发明的技术方案是:一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,包括以下步骤:
步骤1:数据库的建立,
从各过敏原数据库经过筛选得到的过敏原序列和非过敏原序列作为数据库;
步骤2:过敏原家族特征肽的提取,
针对过敏原序列进行聚类分析,在形成的每一过敏原家族中,过敏原序列按照每相隔1-10个碱基用滑动窗口分成6-32个碱基长度的肽段,然后用所得肽段和非过敏原序列进行使用序列基本对齐本地搜索工具BLAST(Basic Local AlignmentSearch Tool)进行对比后,剔除那些与非过敏原相同或相似的片段,而那些和非过敏原序列没配对的肽段,并且E值低于10-7~10-1时,即是过敏原特征肽(AllergenFeatured Peptides,AFP),而落在同一过敏原上且相邻的过敏原特征肽拼接后形成由2-30个小的特征肽构成的过敏原家族特征肽(Allergen Family Featured Peptides,AFFP);
步骤3:建立支持向量机模型,
对于一个查询蛋白X建立特征向量FX=fx1,fx2,…,fxn,n代表过敏原家族特征肽库的片段数量,fxi为蛋白X和第i个AFFP进行BLAST(Basic Local AlignmentSearch Tool,序列基本对齐本地搜索工具)后E值均一化的值作为矢量,并转换为径向基函数(Radial Basis Function,RBF);
步骤4:支持向量机模型的性能测定,
采用交叉验证方法进行测定,即将训练集随机均分成n个互不相交的子集,利用n-1个训练子集,对给定的一组参数建立模型,利用剩下一个子集做测试评估参数性能,即为n倍的内在交叉效度。
进一步的,上述方案中步骤3所述对BLAST(Basic Local Alignment SearchTool,序列基本对齐本地搜索工具)比对所得的E值x进行均一化,均一化的公式如下:
或其中C为通过实验获得的0~20的常数。
进一步的,上述方案中步骤3所述支持向量机是基于结构风险最小化原则的统计,其使用核函数将输进去的矢量投射到高维特征空间,在空间形成一个超平面,使过敏原和非过敏原得以在超平面两边分开,支持向量机的核函数首先经过标准化,以使每个向量在特征空间拥有长度单位1,核函数标准化的公式如下:
其中X为是指蛋白X,Y是指蛋白Y。
更进一步的,所述核函数y(X,Y)转换为径向基函数(RBF),以使形成的平面通过原点,由核函数转换为径向基函数的公式如下:
其中,σ是特征空间里阳性的训练矢量到阴性矢量的欧几里德距离中值。
优选的,上述方案中步骤4所述支持向量机模型的性能测定采用十倍的内在的交叉效度方法进行测定,计算模型的敏感性(Sensitivity,SE),特异性(Specificity,SP),精确度(Accuracy,ACC),Matthews相关系数(MatthewsCorrelation Coefficients,MCC),而这四个参数的计算公式如下:
其中,真阳性TP代表确定的过敏群体中过敏原的数目;真阴性TN代表确定的非过敏群体中非过敏原的数目;假阴性FN代表确定的过敏群体中非过敏原的数目;假阳性FP确定的非过敏群体中过敏原的数目。
优选的,上述方案中步骤1所述数据库的建立中过敏原序列是从各过敏原数据库收集过敏原序列,并移除序列同源性达到80-90%的过敏原后得到的;非过敏原序列是以大米,苹果,胡萝卜等常见食物和人类自身蛋白并经过过敏原筛选后得到的。
与现有技术相比,本发明相对于现有技术的有益效果是:
本发明基于支持向量机的过敏原的预测方法对过敏原预测的敏感性、特异性和精确性高。与国际上最新的过敏原预测软件比较,采用本发明方法进行预测的结果与文献数据一致性最好。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明基于支持向量机的过敏原的预测方法具体实现框图。
具体实施方式
图1为本发明基于支持向量机的过敏原的预测方法具体实现框图。本发明公开了一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,包括以下步骤:
步骤一:过敏原和非过敏原数据库的建立,从各过敏原数据库收集过敏原序列,并移除序列同源性达到80-90%的过敏原后作为过敏原库。以大米、苹果、胡萝卜等常见食物和人类自身蛋白,并经过过敏原筛选,再被选为非过敏原库。
步骤二:过敏原家族特征肽的提取:所有过敏原序列按照每相隔一定碱基数用滑动窗口分成一定长度的肽段,然后用所得肽段和非过敏原序列进行BLAST(Basic Local Alignment Search Tool,序列基本对齐本地搜索工具),那些和非过敏原序列没配对的肽段,并且E值低于10-7~10-1时,确定是过敏原家族特征肽(Allergen Family Featured Peptides,AFFPs)。然后将邻近的AFFPs合并,并选取每一过敏原序列上最长的AFFPs作为代替相应的过敏原家族特征肽,以代替相应的过敏原家族。
步骤三:建立支持向量机模型:对于一个蛋白X的特征向量FX=fx1,fx2,…,fxn,n代表过敏原家族特征肽库的片段数量,fxi为蛋白X和第i个AFFP进行BLAST(Basic Local Alignment Search Tool,序列基本对齐本地搜索工具)后E值均一化的值作为矢量,并转换为径向基函数(Radial Basis Function,RBF),训练支持向量机。
对BLAST(Basic Local Alignment Search Tool,序列基本对齐本地搜索工具)比对所得的E值x进行均一化,均一化的公式如下:
或其中C为通过实验获得的0~20的常数。
支持向量机是基于结构风险最小化原则的统计原理,这个原理可以使用核函数将输进去的矢量投射到高维特征空间,在空间形成一个超平面,使过敏原和非过敏原得以在超平面两边分开。支持向量机的核函数首先经过标准化,以致使每个向量在特征空间拥有长度单位1。标准化的公式如下:
其中X为是指蛋白X,Y是指蛋白Y
然后将这个核函数y(X,Y)转换为径向基函数(RBF),以使形成的平面通过原点。由核函数转换为径向基函数的公式如下:
这里的σ是特征空间里阳性的训练矢量到阴性矢量的欧几里德距离中值,核函数常数1的增加是为了转换数据,使超平面通过原点。这个方法可以对由一个待测序列形成的未知矢量进行分类,使其在特征空间落到超平面的一边,进而判断是否过敏原。
步骤四:模型性能采用交叉验证(cross-validation)方法进行测定,即将训练集随机均分成n个互不相交的子集。利用n-1个训练子集,对给定的一组参数建立模型,利用剩下一个子集做测试评估参数性能。采用十倍的内在的交叉效度分析评估向量模型,同时计算了模型的敏感性(Sensitivity,SE),特异性(Specificity,SP),精确度(Accuracy,ACC),Matthews相关系数(MatthewsCorrelation Coefficients,MCC)。
TP(真阳性)代表已知过敏原被预测为过敏原,TN(真阴性)代表非过敏原被预测为非过敏原,FN(假阴性)代表已知过敏原被预测为非过敏原,FP(假阳性)代表非过敏原被预测为过敏原。MCC的范围是从-1到1。MCC的值为1指示预测结果最好,为-1时代表预测的结果最差,MCC为0时代表预测的随意性大。
本发明的应用实例1:与已经发表的过敏原预测软件的比较。
采用500个已经确认的过敏原和500个已经确认的非过敏原作为待测数据,用国际上最近5年来发表的过敏原软件AlgPred,EVALLER,AllerHunter以及国际粮农组织和世界卫生组织联合提议的指南方法及本发明预测方法的软件SORTALLER对这些序列数据进行预测,所得结果见表1。
表1.不同软件和方法的准确性比较.
Methods |
SE(%) |
SP(%) |
ACC(%) |
MCC |
FAO/WHO |
99.2 |
8.8 |
54.0 |
0.187 |
EVALLER |
86.6 |
98.0 |
92.3 |
0.870 |
AlgPred |
88.0 |
88.2 |
88.1 |
0.762 |
AllerHunter |
77.4 |
82.6 |
80.0 |
0.827 |
SORTALLER |
98.4 |
98.4 |
98.4 |
0.968 |
从表1可以看出:采用发明预测方法的软件SORTALLER在较高水平上同时使敏感性和特异性都达到最高水平,因此准确性显著比其他软件高。
本发明的应用实例2:不同软件对13个蛋白分析的结果比较。
针对目前本身比较难进行分类的13个蛋白,但都有文献支持认为:这13个蛋白是过敏原,采用发明预测方法的软件SORTALLER和国际上最新的5个过敏原预测软件进行分析,结果见表2。
表2
从表2中可以看出,本发明预测方法的软件与文献数据一致性最好,都认为这些蛋白是过敏原,而其他软件则预测性能较低因而一致性差,认为有些蛋白是非过敏原。