栏目分类
你的位置:MKR 中文站 > Lord Of SOL中文网 >
生物体细胞内存在许多细胞区域和细胞器,蛋白质合成后只有转运到正确的细胞器或区域中才能发挥作用,参与各种生命活动。因此蛋白质的亚细胞定位(subcellular localization)信息对于揭示蛋白质的功能及其生命活动中发挥的作用是必不可少的[1, 2, 3]。同时,蛋白质亚细胞定位在药物设计、药物靶点的辨别和优化等方面也发挥着重要的作用。
目前可确定蛋白质亚定位的传统实验技术主要有绿色荧光蛋白标记[1]等,但由于实验效率较低,已经无法满足当前蛋白质组学快速发展的需求。为解决上述问题,利用生物信息学方法进行蛋白质亚细胞定位的研究现已取得了相当多的成果[4, 5, 6, 7, 8]。这些方法首先提取反映蛋白质亚细胞定位的相关特征信息,并将其转化成输入特征向量,在此基础上选择合适的机器学习和统计学方法加以预测。现有研究表明,以氨基酸组成(amino acid composition,AAC)为主的蛋白质序列信息对预测其亚定位有很大的帮助,蛋白质的序列相似程度越高,则其越趋向于存在于相同的细胞区域或细胞器内,因此是目前蛋白质亚细胞定位中的常用特征[4, 5, 6, 7, 8]。但是,仅通过序列特征并不能反映蛋白质亚细胞定位的全部信息,相应的预测方法性能不够理想。另一方面,蛋白-蛋白相互作用(protein-protein Interaction,PPI)是反映蛋白相互作用和功能特性关系的重要特征[9, 10, 11],蛋白质存在相互作用的前提是共处于细胞的同一位置,因此如果两个蛋白质存在较明显的相互作用,则其很可能存在共同的亚细胞定位。因此,如能合理使用PPI信息,将有效地提高蛋白质亚细胞定位的预测性能。
蛋白质亚细胞定位的常用预测算法有支持向量机(support vector machine,SVM)、K近邻(K-nearest neighbor,KNN)等[1]。SVM是一种基于统计学习理论的机器学习方法,该方法在结构风险最小化的原则下,保证最小的分类错误率,其缺点是在输入特征维数很高时算法复杂度大,同时性能不够理想。K近邻是一种简单有效的有监督分类方法,但是需预先定义数据之间的距离,目前大多方法是根据氨基酸组成等序列信息计算两个蛋白质的欧式距离[1, 2, 8],但这种距离计算方法无法有效地整合蛋白质PPI信息。
针对上述问题,本文提出了一种结合PPI和氨基酸组成信息的距离公式,用以综合评估两个蛋白质在序列和内在功能特性上的相似性,在此基础上利用K近邻算法对数据进行了训练和测试,取得了令人满意的效果。
1 数据与算法
1.1 数据
本文从现有的Uniprot、Organelle和LOCATE3个蛋白质数据库中获得相关的蛋白质亚定位信息,从中提取出有亚定位标注的人类蛋白质,并对其进行BLAST去冗余和去除序列过短的蛋白质,最终提取胞外区、细胞核、细胞质、细胞骨架、细胞膜共5个具有代表性的亚细胞定位,具体信息如表 1所示。此外,为获得相关蛋白质的PPI信息,从生物信息学数据库STRING中下载了全部共80 138条PPI记录,每条记录中都包括一对相互作用的蛋白质和相互作用强弱的数值,采用1~1 000之内的整数表示。
表1 亚细胞定位数据集
1.2 评价方法
为了检验算法的有效性,在评估算法性能的过程中采用以下4个评价指标:敏感性(Sn)、特异性(Sp)、准确率(ACC)和马氏相关系数(MCC),分别定义为:
${S_{\rm{n}}} = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FN}}}}$
(1)
${S_{\rm{p}}}{\rm{ = }}\frac{{{\rm{TN}}}}{{{\rm{TN + FP}}}}$
(2)
${\rm{ACC = }}\frac{{{\rm{TP + TN}}}}{{{\rm{TP + TN + FP + FN}}}}$
(3)
$\begin{array}{l}
{\rm{MCC}} = \\
\frac{{{\rm{TP}} \times {\rm{TN}} - {\rm{FP}} \times {\rm{FN}}}}{{\sqrt {({\rm{TP}} + {\rm{FN}}) \times ({\rm{TP}} + {\rm{FP}}) \times ({\rm{TN}} + {\rm{FN}}) \times ({\rm{TN}} + {\rm{FP}})} }}
\end{array}$
(4)
式中,TN、TP、FN、FP分别表示用该模型测试得到的真阴性、真阳性、假阴性和假阳性数据的数目; Sn反映模型对阳性数据的预测水平;Sp反映模型对阴性数据的预测水平;ACC反映整体数据的正确预测率;MCC反映了模型对整体数据的预测水平。
1.3 算法
K近邻算法的基本思想是:对于一个分类标签的测试样本,通过找到训练数据集中距离它最近的k个近邻,再通过这k个近邻的分类标签来确定该测试样本的标签,因此确定测试样本的近邻是决定该算法性能的重要因素。在蛋白质亚细胞定位的预测研究中,对蛋白质P可使用氨基酸组成特征向量$ {P_{{\rm{AAC}}}}$表征其序列信息,有:
${P_{{\rm{AAC}}}} = [\begin{array}{*{20}{c}}
{{f_1}}&{{f_2}}& \cdots &{{f_{20}}}
\end{array}]$
(5)
式中,${f_i}(i = 1,2, \cdots ,20)$表示第i种氨基酸在蛋白质序列中出现的频率。在此基础上,可以定义任意两个蛋白质$P$、$P'$之间的距离,实际中通常采用欧氏距离进行计算,如表 2所示。
${d_{{\rm{AAC}}}}(P,P') = \sqrt {\sum\limits_{i = 1}^{20} {{{({f_i} - {{f'}_i}{\rm{ }})}^2}} } $
(6)
表2 不同蛋白质亚细胞定位预测方法的性能比较
由于PPI强弱关系的数值与上述欧式距离在分布上具有明显的差异,因此为将两者相结合,采用了加权混合的方式计算两个存在相互作用的蛋白间的距离,有:
$d(P,P') = (1 - c)\frac{1}{{{d_{{\rm{PPI}}}}(P,P')}} + c{d_{{\rm{AAC}}}}(P,P')$
(7)
式中,${d_{{\rm{PPI}}}}(P,P')$表示蛋白质$P$、$P'$之间相互作用的强弱数值,若两个蛋白之间的PPI作用越明显,则其之间的距离越近;c为预先指定的权重系数。
在使用SVM算法进行性能比较时,所使用的PPI特征向量为:
${P_{{\rm{PPI}}}} = [\begin{array}{*{20}{c}}
{{p_1}}&{{p_2}}& \cdots &{{p_M}}
\end{array}]$
(8)
式中,M为PPI数据集中出现的蛋白质总数;${p_i}(i = 1,2, \cdots ,M)$表示该蛋白质P与第i个蛋白质相互作用的强弱数值,如果没有相互作用即为0。由此将氨基酸组成和PPI特征结合得到输入SVM的最终特征向量为:
${P_{{\rm{AAC + PPI}}}} = [\begin{array}{*{20}{c}}
{{f_1}}&{{f_2}}& \cdots &{{f_{20}}\begin{array}{*{20}{c}}
{}&{\begin{array}{*{20}{c}}
{{p_1}}&{{p_2}}& \cdots &{{p_M}}
\end{array}}
\end{array}}
\end{array}]$
(9)
2 结果与讨论
为检验蛋白质亚细胞定位与蛋白之间相互作用的联系,首先利用获得的PPI信息构建了PPI的网络,同时将网络节点的蛋白质亚细胞定位信息用不同颜色标示出来,如图 1所示。由图可以看出,该网络由多个聚类构成,每种聚类分别对应于具有相同定位的蛋白质,它们之间具有密切的相互作用关系。而处于不同定位的蛋白质之间尽管也存在一定程度的联系,但相对共定位的蛋白而言其PPI作用明显降低。因此,蛋白质PPI信息可以反映出蛋白质之间在亚细胞定位方面的内在联系。
图 1 亚细胞定位与蛋白质相互作用网络
本文提出的K近邻算法中有两个重要参数:近邻数k和计算蛋白距离公式中的系数c。在数据的训练和性能评估时,需要对上述参数进行选择以保证最优的分类性能。本文采用常见的网格搜索策略在整个参数空间进行寻优,由于不同亚细胞定位的数据之间数目差别很大,因此使用了对有偏数据鲁棒的马氏相关系数(MCC)作为评估指标,如图 2所示。对于所有的亚细胞定位数据,通过参数寻优均可显著提高预测性能。如对于胞外区数据选择k=1、c=0时,预测结果的MCC仅为0.22;而通过网格搜索确定最优参数k=3、c=0.5后,K近邻算法的预测性能获得明显提升,其MCC达到了0.41。
图 2 算法参数的网格搜索寻优
为客观评估亚细胞定位的预测性能,进一步使用留一法对本文的方法与仅使用氨基酸组成的K近邻算法进行了比较,如表 2所示。除了对细胞质定位的灵敏度略低(1%)以外,本文算法的性能指标均具较明显的优势,如对于细胞核数据本文算法的马氏相关系数和灵敏度分别达到了0.44和0.70,而使用氨基酸组成的K近邻算法的相关指标仅为0.36和0.62。上述结果表明,引入PPI信息有助于定位蛋白质所属的细胞区域并提升亚细胞定位的预测精度。此外,对相关研究中广泛使用的SVM算法也进行了性能比较。由于SVM的性能同样也受参数影响,因此在实验中使用了LibSVM工具包[12]中提供的网格搜索函数对其进行了参数优化。表 2的结果显示,本文算法在所有测试中均好于使用相同特征的SVM算法,这可能是由于输入SVM的PPI特征维数过高造成的。因此,在使用氨基酸组成和PPI信息时,K近邻算法能更好地对不同亚细胞区域进行区分。
3 总 结
本文探讨了蛋白质相互作用信息对蛋白质亚细胞器定位预测的影响。通过网络聚类分析的结果表明,存在密切作用关系的蛋白质具有相同亚细胞定位的趋势,因此上述信息可以用于蛋白质的亚细胞定位的预测工作。为有效地整合蛋白质序列和PPI信息,本文进一步提出了一种表征蛋白质在序列和功能上相似性的距离公式,在此基础上使用K近邻算法获得了明显的性能提升。本文的工作为蛋白质亚细胞定位提供了一种新的思路,对相关预测方法的研究具有积极的意义。