蛋白质结构与功能的预测方法总结和资料汇总

蛋白质结构与功能的预测方法总结和资料汇总
“折叠(fold)”的概念

“折叠(fold)”是近年来蛋白质研究中应用较广的一个概念,它是介与二级和三级结构之间的蛋白质结构层次,它描述的是二级结构元素的混合组合方式。

二级结构的预测方法介绍:

Chou-Fasman算法:

是单序列预测方法中的一种,它是使用氨基酸物理化学数据中派生出来的规律来预测二级结构。 首先统计出20种氨基酸出现在α螺旋、β折叠和无规则卷曲中出现频率的大小,然后计算出每一种氨基酸在这几种构象中的构象参数Px.构象参数值的大小反映了该种残基出现在某种构象中的倾向性的大小。按照构象参数值的大小可以把氨基酸分为六个组:Ha(强螺旋形成者)、ha( 螺旋形成者)、Ia(弱螺旋形成者)、ia(螺旋形成不敏感者)、ba(螺旋中断者)、Ba(强螺旋中断者)。Chou和Fasman根据残基的倾向性因子提出二级结构预测的经验规则,要点是沿蛋白序列寻找二级结构的成核位点和终止位点。这种方法可能能够正确反映蛋白质二级结构的形成过程,但预测成功率并不高,仅有50%左右

GOR算法:

也是单序列预测方法中的一种,因其作者Garnier, Osguthorpe和 Robson而得名。这种方法是以信息论为基础的,也属于统计学方法的一种,GOR方法不仅考虑被预测位置本身氨基酸残基种类对该位置构象的影响,也考虑到相邻残基种类对该位置构象的影响。这样使预测的成功率提高到 65% 左右。GOR方法的优点是物理意义清楚明确,数学表达严格,而且很容易写出相应的计算机程序,但缺点是表达式复杂。

多序列列线预测:

对序列进行多序列比对,并利用多序列比对的信息进行结构的预测。调查者可找到和未知序列相似的序列家族,然后假设序列家族中的同源区有同样的二级结构,预测不是基于一个序列而是一组序列中的所有序列的一致序列。

基于神经网络的序列预测:

利用神经网络的方法进行序列的预测,BP (Back-Propagation Network) 网络即反馈式神经网络算法是目前二级结构预测应用最广的神经网络算法,它通常是由三层相同的神经元构成的层状网络,使用反馈式学习规则,底层为输入层,中间为隐含层,顶层是输出层,信号在相邻各层间逐层传递,不相邻的各层间无联系,在学习过程中根据输入的一级结构和二级结构的关系的信息不断调整各单元之间的权重,最终目标是找到一种好的输入与输出的映象,并对未知二级结构的蛋白进行预测。神经网络方法的优点是应用方便,获得结果较快较好,主要缺点是没有反映蛋白的物理和化学特性,而且利用大量的可调参数,使结果不易理解。许多预测程序如PHD、PSIPRED等均结合利用了神经网络的计算方法。

基于已有知识的预测方法(knowledge based method):

这类预测方法包括Lim 和 Cohen 两种方法。Lim 方法是一种物理化学的方法,它根据氨基酸残基的物理化学性质,包括:疏水性、亲水性、带电性以及体积大小等,并考虑残基之间的相互作用而制订出一套预测规则。对于小于50个氨基酸残基的肽链, Lim 方法的预测准确率可以达到73%. 另一种是 Cohen 方法,它的提出当时是为了α/β蛋白的预测,基本原理是说:疏水性残基决定了二级结构的相对位置,螺旋亚单元或扩展单元是结构域的核心,α螺旋和β折叠组成了结构域。

混合方法(hybrid system method):

将以上几种方法选择性的混合使用,并调整他们之间使用的权重可以提高预测的准确率,目前预测准确率在70%以上的都是混合方法,其中,同源性比较方法、神经网络方法 和 GOR方法 应用最为广泛。

三级结构的预测:

同源性建模:

假设对已知结构的另一个蛋白质序列来排列一个蛋白质的序列,如果靶序列和已知结构序列在整个序列的全长有很高的相似性,在合理的信任度上,我们可以使用已知结构作为靶蛋白质的模版。

“串线(threading)”算法:

串线结构分析是试图把未知的氨基酸序列和各种已存在的三维结构相匹配,并评估序列折叠成那种结构的合适度。串线法最适用于折叠(fold)的识别,而不是模型的建立。它是快速用未知序列的氨基酸侧链替换已知序列中的氨基酸位置。Jones等首先从蛋白质结构数据库中挑选蛋白质结构建立折叠子数据库,以折叠子数据库中的折叠结构作为模板,将目标序列与这些模板一一匹配,通过计算打分函数值判断匹配程度,根据打分值给模板结构排序,其中打分最高的被认为是目标序列最可能采取的折叠结构。Threading 方法的难点在于序列与折叠结构的匹配技术和打分函数的确定。(Jones等,1992)

蛋白质二级结构预测:

蛋白质二级结构的预测通常被认为是蛋白结构预测的第一步,是根据它们被预测的局部结构,对蛋白序列中的氨基酸进行分类。二级结构的预测方法通常分为多序列列线预测和单序列预测的方法。由于单序列预测所提供的信息只是残基的顺序而没有其空间分布的信息,所以单序列预测的算法预测准确率并不高而且对于一些特殊结构,这些算法很难预测成功。 多序列列线预测和神经网络的应用大大提高了二级结构预测的准确度,通过对序列比对的预测可以明确的提供单一位点在三维结构上的信息。这样通常二级结构预测的准确率比单序列预测能够提高10%.许多方法据说可达到70%-77%,目前较为常用的几种方法有:PHD、PSIPRED、Jpred、PREDATOR、PSA。其中最常用的是PHD。PHD结合了许多神经网络的成果,每个结果都是根据局部序列上下文关系和整体蛋白质性质(蛋白质长度、氨基酸频率等)来预测残基的二级结构。那么,最终的预测是这些神经网络每个输出的算术平均值。 这种结合方案被称为陪审团决定法(jury decision)或者称为所有胜利者(winner-take-all)法。PHD被认为是二级结构预测的标准。

蛋白质三级结构预测:

蛋白质三维结构的预测方法通常包括:同源性建模和从头开始的预测方法。对数据库中已知结构的序列的比对是预测未知序列三级结构的主要方法,也即同源建模的方法。通常对于同源建模的方法过程并非统一,但基本思路是一致的,基本包括如下几个步骤:
1.使用未知序列作为查询来搜索已知蛋白质结构。
2.产生未知序列和模版序列最可能的完整比对。
3.以模版结构骨架作为模型,建立蛋白质骨架模型。
4.在靶序列或者模版序列的有空位区域,使用环建模过程代替合适长度的片段。
5.给骨架模型加上侧链。
6.优化侧链的位置。
7.使用能量最小和已知的优化知识来优化结构。

在进行序列比对时,最容易使用 BLASTP 程序比对 NRL-3D 或 SCOP 数据库中的序列。如果发现超过100个碱基长度且有远高于40%序列相同率的匹配序列,则未知序列蛋白与该匹配序列蛋白将有非常相似的结构。在这种情况下,同源性建模在预测该未知蛋白精细结构方面会有非常大的作用。同源性建模的成功的关键通常不是建模使用的软件或服务器,在设计与模版结构好的比对时的技巧更加重要。

结构预测相关程序及数据库:
常用蛋白序列和结构数据库:
数据库说明网址链接
PDB蛋白质三维结构http://www.rcsb.org/pdb
SWISS-PROT蛋白质序列数据库http://kr.expasy.org/sprot/
PIR蛋白质序列数据库http://pir.georgetown.edu/
OWL非冗余蛋白质序列http://www.bioinf.man.ac.uk/dbbrowser/OWL/
EMBL核酸序列数据库http://www.embl-heidelberg.de/
TrEMBLEMBL的翻译数据库http://kr.expasy.org/sprot/
GenBANK核酸序列数据库http://www.ncbi.nih.gov/Genbank/
PROSITE蛋白质功能位点http://kr.expasy.org/prosite/
SWISS-MODEL从序列模建结构http://www.expasy.org/swissmod/SWISS-MODEL.html
SWISS-3DIMAGE三维结构图示http://us.expasy.org/sw3d/
DSSP蛋白质二级结构参数http://www.cmbi.kun.nl/gv/dssp/
FSSP已知空间结构的蛋白质家族http://www.ebi.ac.uk/dali/fssp/fssp.html
SCOP蛋白质分类数据库http://scop.mrc-lmb.cam.ac.uk/scop/
CATH蛋白质分类数据库http://www.biochem.ucl.ac.uk/bsm/cath/
Pfam蛋白质家族和结构域http://pfam.wustl.edu/

蛋白质功能预测:

相关概念:

1. 重叠群(contig):
基因组测序中将许多序列片段经过比对找到重叠区,从而连接成长片段,称重叠连续群,简称重叠群。
2. 序列模体(motif):
通常指蛋白序列中相邻或相近的一组具有保守性的残基,与蛋白质分子及家族的功能有关。
3. Smith-Waterman算法:
1981年,Smith 和Waterman提出的一种用来寻找并比较这些具有局部相似区域的方法,即常用的Smith-Waterman算法,它也是一种基于矩阵的方法,而且也是运用回溯法(backtracking)建立允许空位插入的比对。这个算法的一个重要特征是矩阵中每个单元均可以是比对结果序列片段的终点,该片段的相似性程度由该单元中的分数值表示。
4. 计分矩阵(scoring matrix):
记分矩阵是描述残基(氨基酸或碱基)在比对中出现的概率值的表。在记分矩阵中的值是两种概率比值的对数,一个是在序列比对中氨基酸随机发生的概率。这个值只是指出每个氨基酸出现的独立几率的概率。另一个是在序列比对中,一对残基的出现的有意义的概率。这些概率来源于已知有效的真实的序列的比对的样本。

蛋白质功能确定的思路及方法:

1. 通过相似序列的数据库比对确定功能

具有相似性序列的蛋白质具有相似的功能。因此,最可*的确定蛋白质功能的方法是进行数据库的相似性搜索。需要明确的是,一个显著的匹配应至少有25%的相同序列和超过80个氨基酸的区段。对于不少种类的数据库搜索工具,快速搜索工具(如BLASTP)速度快,也很容易发现匹配良好的序列,一般就没必要运行更花时间的工具(如FASTA、BLITZ);但当BLASTP不能发现显著的匹配时,就需要使用那些搜索速度较慢但很灵敏的工具了。所以,一般的策略就是先进行BLASTP检索,如果不能得到相应的结果,就可以运行FASTA,如果FASTA也无法得到相应结果,最后就需要选用完全根据Smith-Waterman 算法设计的搜索程序,如 BLITZ。
比对所选用的记分矩阵对最终预测结果影响也很重要,首先,选择的矩阵须与匹配水平相一致。PAM250应用于远距离匹配(<25%相同比率),PAM40应用于不很相近的蛋白质序列,BLOSUM62为一个通用矩阵。其次,使用不同矩阵,可以发现始终出现的匹配序列,这样可以减少误差。

2. 确定序列特性:疏水性、跨膜螺旋等

许多功能可直接从蛋白质序列预测出来。例如,疏水性信息可被用于跨膜螺旋的预测,还有不少小的序列模体(motif)是细胞用于特定细胞区室(cell compartment)蛋白质的定向。对于跨膜螺旋的预测涉及到对跨膜蛋白跨膜区域的识别,这就需要鉴定序列中可以折叠成螺旋并存在于膜的疏水环境中的区域。跨膜序列一般具有一些明显的特征,比如,为了跨膜α螺旋必须有大约17~25个氨基酸长度,因为细胞膜内部是由脂肪酸的长的碳氢链组成,所以膜中的α螺旋必须存在相对的面向膜的非极性面才能在能量上是有利的。早期的算法程序会直接分析这些特征,并通过分析序列的17~25个氨基酸的窗口,对每个窗口产生的疏水性得分,得分高的即被预测为跨膜螺旋,现在一些经过改进的更精确的算法,不仅提高预测准确性到90%以上,而且可以预测跨膜螺旋的一些其他特征,比如在膜上的方向。这些都依赖于一系列对已知跨膜螺旋的特征研究的成果。
3. 通过序列模体数据库等的比对确定功能

蛋白质不同区段的进化速率不同,蛋白质的一些部分必须保持一定的残基模式以保持蛋白质的功能,通过确定这些保守区域,有可能为蛋白质功能提供线索。主要有两种方法可用于序列模体的查找。一种方法是查找匹配的一致序列或序列模体。这种技术的优点是快捷,序列模体数据库庞大而且不断被扩充;缺点是有时不灵敏,因为只有与一致序列或序列模体完全匹配才被列出,而近乎匹配的都将被忽略。使在做复杂分析时候受到严重限制。第二种方法是更加精细的序列分布型方法。原则上,分布型搜索的是保守序列(不只是一致序列),这样可以更灵敏的找出那些相关性较远的序列。但分布型和分布数据库需要大量的计算和人力,所以分布数据库的记录没有序列模体数据库多。在实际分析时,应同时对这两种类型的数据库都进行搜索。

结构密码蕴藏在排序中

这是一个复杂但很有意思的生命过程——基因承载了生命的遗传信息,生命的功能则是藉由蛋白质执行的;蛋白质是由20种氨基酸组成的肽链,而DNA中的基因控制了蛋白质中氨基酸种类的排序。蛋白质只有在折叠的状态下才能表现出生命的功能,但折叠是如何自发形成的呢?

氨基酸序列与蛋白质空间结构的关系研究源于美国生物化学家安芬森(C.Anfinsen)。1961年,他研究了核糖核酸酶的去折叠和重折叠过程,发现在相同的环境中去折叠的蛋白质都会恢复到原来的空间结构,认为蛋白质链会以自由能最低的方式形成三维结构,由此推测蛋白质的折叠密码隐藏在氨基酸排序中,即所谓的安芬森原则:蛋白质一级排序决定三维结构。因为“对控制蛋白质链折叠原理的研究”,安芬森获得1972年诺贝尔化学奖。

然而,蛋白质的空间结构极其复杂,该如何确定呢?现在有两种方法:一种是实验测量,包括用X射线衍射和核磁共振成像;一种是理论预测,利用计算机根据理论和已知的氨基酸序列等信息来预测,方法包括同源结构模拟、折叠辨识模拟和基于第一性原理的从头计算。

1913年,劳尔和布拉格父子第一次发现X射线通过晶体可以产生衍射现象从而确定原子在晶体中的位置并因此获得诺贝尔奖。1957年,剑桥大学的肯德鲁用劳尔-布拉格的方法确定出第一个蛋白质(肌红蛋白)的三维结构从而获得1962年的诺贝尔化学奖。此后18年间,人类共测出38个蛋白质结构;至1980年,这个数目增长到184个。

显然,用实验方法测量蛋白质及生物大分子的结构相当繁琐。张阳说:“蛋白质结构的实验测定十分费时费力。多年前测定一个蛋白质的结构就有可能获得诺贝尔奖。如今随着技术的进步,实验测蛋白质结构的时间和花费已经大大地减少了,但测定一个蛋白质结构的平均费用也在100万美元左右。”

自然界有大量种类的蛋白质,实验只能测出其中非常小的一部分,目前“蛋白质数据库”中只有3万多个蛋白质的结构。有没有其他方法可以更快、更经济地测量出大量蛋白质呢?

物含妙理总堪寻

既然蛋白质结构的密码隐藏在序列中,那么解开这个密码就可以通过序列来解开蛋白质的结构。张阳说:“我们的目的就是用计算机从氨基酸的序列来直接预测蛋白质的结构。将序列输进计算机里,设计一套程序,让计算机去计算和确定蛋白质中每个原子的三维坐标。如果这种理论方法经实验数据的验证可行,那么就可能通过计算机自动预测出蛋白质的结构,这几乎是免费的。”

然而,用序列预测结构谈何容易。驱动氨基酸折叠形成特定三维空间的作用诸多,包括氨基酸侧链分子间作用力、水分子表面张力、氨基酸侧链分子间的电偶极距和电磁力以及它与水分子的相互作用等。根据数学计算,由100个氨基酸构成的小蛋白质的空间构象可能会有1050种空间结构。

物含妙理总堪寻。一种氨基酸序列只可能有一种蛋白质结构,这就是计算机预测蛋白质结构的意义所在。根据安芬森的热动力学原理,蛋白质在细胞中应该处在它与环境的自由能最低态。这意味着可以根据物理、化学、生物学等知识来设计蛋白质的能量函数,因此寻找这种最低自由能所代表的结构。

科学家们使出十八般武艺来预测序列与结构间的密码,寻找出三种有代表性的预测方法:同源结构模拟(Homology Modeling)、折叠辨识模拟(Fold Recognition)和基于“第一原则”的从头计算方法(Ab Initio)。

同源模拟又称为比较性模拟。如果目标蛋白质与已测出结构的蛋白质的序列有30%以上的相似,那么这两种蛋白质可被视为同源,它们也应该有类似的空间结构。因此,若知道同源蛋白质家族中的某些蛋白质的结构,就可利用它们作为模板来模拟目标蛋白质的结构,这种方法速度较快,精度也比较高。但是这种方法有局限性,毕竟已知结构的蛋白质数量很少,而且很多蛋白质没有同源系列。

折叠辨识模拟又称串线指认方法,意思是指把目标蛋白序列与蛋白质数据库中所有的蛋白质结构进行逐一对比。自然界中有些蛋白质的氨基酸序列不大相同,但其结构极为相似。张阳说:“这对我们建立新计算机模型非常有用。在无法进行序列比对的情况下,我们就想办法用目标序列直接与已有的其他蛋白质结构进行比较。具体做法是,设计一个打分系统,让计算机来识别这个序列放在被比较的其他蛋白质上是否‘舒服’,再根据得分高低判断序列是否会折叠成这种结构,评分系统是这种方法的关键。”

“从头计算”方法源于安芬森的“最低自由能构型假说”。前两种方法是用已知结构的蛋白质为模板来构建新的结构,而“从头计算”不需要模板,它是以物理为基础来研究蛋白质的折叠方法,怎样设计适当的能量函数,怎样找到相应的最低自由能是这种方法的关键。

蛋白质结构预测免费服务

目前已经有许多蛋白质结构预测服务通过因特网对公众免费开放。由于结构预测技术本身的局限性,每种预测服务都各有得失。 我们简要介绍几种国际上较为常用的预测服务的优缺点、使用方法及工作原理。

三级结构预测(同源建模):

瑞士生物信息研究所 SWISS-MODEL

丹麦技术大学生物序列分析中心 CPHmodels

比利时拿摩大学 ESyPred3D

英国癌症研究中心 3DJigsaw

二级结构预测(折叠识别):

美国哥伦比亚大学 PredictProtein

英国瓦卫克大学 PSIpred

印度昌迪加尔的微生物技术研究所 APSSP

欧洲生物信息研究所(EBI)Jpred

美国加利福尼亚大学 SSpro

α-螺旋倾向性预测(从无到有):

欧洲分子生物学实验室(EMBL) AGADIR

AGADIR Service

AGADIR —— 一种预测肽链中螺旋含量的算法

AGADIR是一种基于螺旋/卷曲转化理论,可以在残基水平上准确预测单体肽螺旋行为的算法。利用此算法,可以预测肽链的平均螺旋含量、α碳和α氢原子的构象、偶合常数、及N-Cap、C-Cap等参数。通过用圆二色性法和核磁共振法的测评,此算法对短肽链,即三级相互作用不明显时,预测准确很高。

利用AGADIR的预测数据,可以参考之对肽链螺旋,及至蛋白结构进行适当修饰,以达到特定的实验目的,或进行其它应用。

到目前为止,蛋白质结构解析的方法主要是两种,x射线衍射和NMR。近年来还出现了一种新的方法,叫做Electron Microscopy。

其中X射线的方法产生的更早,也更加的成熟,解析的数量也更多,我们知道,第一个解析的蛋白的结构,就是用x晶体衍射的方法解析的。而NMR方法则是在90年代才成熟并发展起来的。这两种方法各有优点和缺点。
首先来说一下,这两种方法的一般的步骤和各自的优点和缺点。

电子显微镜(electron microscopy)作为一种新型的技术,目前的应用还是非常少,并且比较狭窄,到最后在给它作些介绍,而且相信绝大多数人也没有听说过,也不会有很大的兴趣。

首先是X晶体衍射。首先要得到蛋白质的晶体。
通常,都是将表达蛋白的基因PCR之后克隆到一种表达载体中,然后在大肠杆菌中诱导表达,提纯之后摸索结晶条件,等拿到晶体之后,工作便完成的80%,将晶体进行x射线衍射,收集衍射图谱,通过一系列的计算,很快就能得到蛋白质的原子结构。
用x射线的优点是:速度快,通常只要拿到晶体,甚至当天就能得到结构,另外不受大小限制,无论是多大的蛋白,或者复合体,无论是蛋白质还是RNA、DNA,还是结合了什么小分子,只要能够结晶就能够得到其原子结构。
所以x射线方法解析蛋白的瓶颈是摸索蛋白结晶的条件。这个时候运气就显的特别重要。关于这个有好多有趣的离子。据说国外一个同学在摸索两个月无果之后,毅然去度假,就将蛋白扔在一个很随便的地方,等度假回来之后,却发现已经结晶了。
然后,来说一下NMR。
NMR(nuclear magnetic resonance)现象早已发现了很久,然后将这种方法用来解析蛋白结构,却是近一二十年的事情。不过到今天为止,用nmr方法来解析结构已经十非常成熟的方法。
原理暂且放在一边,先说常规步骤。
首先通过基因工程的方法,表达出目的蛋白,提纯之后,摸索一下蛋白稳定的条件,如果蛋白没有聚合,而且折叠良好,便将蛋白样品(通常是1mM-3mM,500ul,Ph6-7的PBS)装入核磁管中,放入核磁谱仪中,然后用一系列写好的程序控制谱仪,发出一系列的电磁波,激发蛋白中的H、N13、C13原子,等电磁波发射完毕,在收集受激发的原子所放出的“能量”,其实也是小磁场,通过收集数据、谱图处理、电脑计算从而得到蛋白的原子结构。
它的优点就是,蛋白在液体中得到结构,是一个动态的结构,事实上所有在pdb中或者文献中发表的NMR结构都是十个或者二十个结构的ensemble(集合),这就是因为这些结构都是进行能量优化后符合条件的结构,或者说就是溶液中的蛋白结构。因为是动态就很容易的研究蛋白与其他蛋白或者配基的相互作用。缺点是,受大小的限制,到目前为止NMR解析蛋白结构的上限是50kd。

无论是晶体还是NMR,蛋白都要符合下面的条件:首先表达量要大,象NMR要求1个mM500UL,这就要求十几个毫克,结晶要摸索很多的条件也需要大量的蛋白。所以蛋白一定要在胞质中表达才行。其次,蛋白要折叠。我们知道许多蛋白,尤其是真核蛋白在大肠杆菌中是以包含体的形式存在,这种情况下是不行的,除非复性。如果你的蛋白在胞质中表达,如果你不确定是不是表达,可以从分子筛上的位置,或者扫CD确定一下,当然最简单的是做一个NMR一维谱,只需要几分钟。
小于20Kd的蛋白可以考虑NMR,因为NMR研究功能核相互作用方面是更加擅长的,而且不需要结晶,现在速度也不慢。如果比较大,可以考虑晶体解析。

蛋白质的亚细胞定位
关于蛋白质的亚细胞定位的预测,In general,预测方法分为3个步骤。首先,为每一类亚细胞locations构建客观而具有代表性的数据集。其次,从数据集中提取特征参数或 descriptor。最后也是最关键的一步,通过算法比较查询序列中所包含的特征参数与各类相应的location的相似度,作出判断,一般会用一组概率的形式来表述。很明显,其中大量运用的是机器学习理论和统计学的方法。对算法有兴趣的朋友可以参考下面这一篇综述,“An overview on predicting the subcellular location of a protein” In Silico Biology 2002http://www.bioinfo.de/isb/2002/02/0027/main.html

以下是该综述中涉及的部分server,都是比较经典的。

PSORT:http://psort.nibb.ac.jp
By amino acid composition information and sorting signal knowledge

TargetP:http://www.cbs.dtu.dk/services/TargetP/
By discriminating the individual targeting signal peptide

MitoProt:http://ihg.gsf.de/ihg/mitoprot.html
By discriminating mitochondrial and chloroplast signal peptide

Predotar:http://www.inra.fr/Internet/Produits/Predotar/
By discriminating mitochondrial, chloroplast signal peptide

NNPSL:http://predict.sanger.ac.uk/nnpsl
By amino acid composition

SobLoc:http://www.bioinfo.tsinghua.edu.cn/SubLoc/
By amino acid composition

SubLoc: http://www.bioinfo.tsinghua.edu.cn/SubLoc/
By more sequence information besides the amino acid composition

一篇文献:http://cubic.bioc.columbia.edu/papers/2003_loci_3dnet/paper.html

“Better prediction of sub-cellular localization by combining evolutionary and structural information”

找到一些晶体学的原理。一起学习。
蛋白质纯化与结晶
获得蛋白质的晶体结构的第一个瓶颈,就是制备大量纯化的蛋白质(>10 mg),其浓度通常在10 mg/ml 以上,并以此为基础进行结晶条件的筛选。运用重组基因的技术,将特定基因以选殖(clone)的方式嵌入表现载体(expression vector)内,此一载体通常具有易于调控的特性。之后再将带有特定基因的载体送入可快速生长的菌体中,如大肠杆菌(Escherichia coli),在菌体快速生长的同时,也大量生产表现载体上的基因所解译出之蛋白质。一般而言纯度越高的蛋白质比较有机会形成晶体,因此纯化蛋白质的步骤就成为一个重要的决定因素。

在取得高纯度的蛋白质溶液后,接下来就是晶体的培养。蛋白质晶体与其他化合物晶体的形成类似,是在饱和溶液中慢慢产生的,每一种蛋白质养晶的条件皆有所差异,影响晶体形成的变量很多,包含化学上的变量,如酸碱度、沈淀剂种类、离子浓度、蛋白质浓度等;物理上的变数,如溶液达成过饱和状态的速率、温度等;及生化上的变数,如蛋白质所需的金属离子或抑制剂、蛋白质的聚合状态、等电点等,皆是养晶时的测试条件。截至目前为止,并无一套理论可以预测结晶的条件,所以必须不断测试各种养晶溶液的组合后,才可能得到一颗完美的单一晶体(图一) 。

蛋白质晶体的培养,通常是利用气相扩散法(Vapor Diffusion Method) 的原理来达成;也就是将含有高浓度的蛋白质(10-50 mg/ml)溶液加入适当的溶剂,慢慢降低蛋白质的溶解度,使其接近自发性的沈淀状态时,蛋白质分子将在整齐的堆栈下形成晶体。举例来说,我们将蛋白质溶于低浓度(~1.0 M) 的硫酸铵溶液中,将它放置于一密闭含有高浓度(~2.0 M)硫酸铵溶液的容器中,由气相平衡,可以缓慢提高蛋白质溶液中硫酸铵的浓度,进而达成结晶的目的(图二)。

蛋白质晶体在外观上与其他晶体并无明显不同之处,但在晶体的内部,却有很大的差异。一般而言,蛋白质晶体除了蛋白质分子外,其他的空间则充满约40 %至60 %之间的水溶液,其液态的成分不仅使晶体易碎,也容易使蛋白质分子在晶格排列上有不规则的情形出现,造成晶体处理时的困难及绕射数据上的搜集不易等缺点。但也由于高含水量的特性,让蛋白质分子在晶体内与水溶液中的状态,极为相似。所以由晶体所解出的蛋白质结构,基本上可视为自然状态下的结构。

绕射数据的记录
X 光绕射点搜集,随着时间的推移,也由早期以闪烁计数器(scintillation counter) 一次记录一个点及使用许多X-光片(X-ray film) 拍下绕射点,每张X 光片都要经过显影的步骤;之后进而使用多重金属丝板(multiwire)自动记录每次侦测到的绕射点。目前使用的荧光记录板(image plate),则是利用磷化物经X 光激发后会产生荧光,经荧光扫描仪记录成数字模式的图像文件后,再以灯光照射一段时间去除记录板上的荧光点,即可再进行下一次的记录工作。电荷耦合器(charge-coupled devices, CCD) 的出现及技术的改良,可以不断地记录绕射点,而不需荧光板扫描及去除步骤,如此将加速绕射点的搜集。目前的同步辐射光源几乎全部使用CCD 来记录绕射数据(图三)。
在实验室中的X 光光源的产生,一般使用铜作为旋转式阳极靶(rotating anode),可以产生波长为1.54 Å Cu Kα放射光。不过,以目前发表的文献来看,在同步辐射(synchrotron)光源所搜集的资料有增加的趋势,因为同步辐射所提供的X 光束,其强度较实验室强约百倍、甚至上千倍,同时它也可以改变不同频段的波长,以供非寻常散射(anomalous dispersion) 的实验研究

绕射原理
单一分子在X 光下的讯号极弱,无法被记录下来,然而在晶体中通常是由许多排列整齐的蛋白质分子所组成,当晶体内所有的分子(数量约在1015 个以上)一起在同一个方向上进行绕射且绕射波皆同步时,即足以使所产生的讯号被记录下来。每一个绕射波的强度与其振幅(amplitude)的平方成正比。但绕射波的另一个变数,绕射波的相角(phase),则无法直接测量得到,必须利用其他的方法方能获得(见相角决定方法)。若是绕射点振幅与相角都可获知,则可以进一步地来计算晶体中的电子密度图。
下列方程式即是著名的傅立叶转换公式,ρ表示在晶体中任何一个位置上(x, y, z) 的电子密度,φhkl 为绕射光相角,|Fhkl|为绕射光振幅,可由实验测得的绕射光强度开平方获得。
所以若是记录了所有的绕射波的强度(h,k,l),并计算出所有绕射光的相角,带入这个公式,蛋白质在晶体内的结构,就以电子密度图的方式呈现在我们的眼前了(图四)。
相角决定方法
决定相角通常有三种常用的方法,分别是同型置换法(isomorphous replacement method) 、非寻常散射法(anomalous dispersion method) 以及分子置换法(molecular replacement) ,现在分述如下:
(1)同型置换法
同型重原子置换法最早的应用是在1954 年,用来解出血红蛋白hemoglobin 的相角,需要在晶体蛋白质的内部加入重原子。通常以浸泡的方法使重原子能够渗透(diffuse) 进入到晶体内部和蛋白质结合。这些重原子对X 光产生较大的绕射,对绕射点的强度会有明显的差异,根据这些差异,可定出重原子的位置,并进而推算出蛋白质晶体绕射光的相角。理论上,若是只获得一组重原子衍生物数据(single isomorphous replacement, SIR),经计算后,其解并不是唯一的;因此通常会结合数个不同的重原子衍生物所得到的数据(multiple isomorphous replacement, MIR), 来求得更精确的相角。
(2) 非寻常散射法
较重的原子会吸收特定波长的X 光,运用接近吸收边缘(absorption edge)的X 光进行绕射实验时,会产生不寻常的X 光散射或吸收现象,称为非寻常散射(anomalous scattering),此一现象可导致绕射振幅及相角的改变。经由数个不同波长的X 光照射,记录吸收边缘前后所产生的不同绕射结果,可依此计算出相角。由于它使用数个不同波长,所以称为「多波长非寻常散射法」(multiwavelength anomalous dispersion, MAD) 。使用这个方法的前提是X 光的波长需依重原子的特性加以调整,而一般在实验室的X 光通常是属于固定波长的,并无法满足这个方法,所以非寻常散射法就需要利用同步辐射可变波长的光源来完成(5)。目前很多实验室使用硒化甲硫胺酸(selenomethionine)来取代甲硫胺酸 (methionine),在养菌的同时加入硒化甲硫胺酸,使蛋白质的形成过程带入含有重原子硒的硒化甲硫胺酸,接下来养出蛋白质晶体,在硒的吸收边缘进行绕射实验,并运用MAD 的方法来计算出蛋白质晶体绕射波的相角(图四)。
(3) 分子置换法
若是一个未知的蛋白质与另一已解出结构的蛋白质,在胺基酸序列具有30 %以上的一致性(identity),表示这两个蛋白质的结构可能类似,可以利用分子置换法来计算出未知蛋白质的相角。利用已知蛋白质之结构分子带入晶体中寻找旋转及位移的可能位置,解析出结构。随着蛋白质结构的增加,可以发现类似的蛋白质具有相同的折迭方式,而出现新的折迭的机率也相对减少,所以只要未知的蛋白质在蛋白质数据库(Protein Data Bank, PDB )中,找到序列上具有同源性(homology)的已知结构时,即可在取得晶体绕射数据后,快速地运用分子置换法来解决相角问题。

三维结构模型之建立及修正
藉由电子密度图的三维构形,可将每一个胺基酸依蛋白质序列建立蛋白质的起始模型。蛋白质的起始模型,常由于相角的解不够完美,使计算出来的电子密度图产生误差,误导模型的走向,因此需要做进一步的改善,称为修正(refinement)。修正的目的在于进行立体化学(stereochemistry)(如胜 键键长、键角、胺基酸构形)优化的同时,减少计算与实验绕射点强度的差异,用来评估的数值则是「剩余值(R-factor)」:

其中Fobs 及Fcalc 分别表示观察值与计算值的绕射光振幅。尽可能将剩余值降到最低,直到进一步的修正无法减少其值为止,即达最终的蛋白质结构模型。大部分修正后可接受的剩余值约0.2 (20%)。但低的剩余值,并不代表其结构就是正确的。已有数个例子显示在蛋白质结构上的某些部分不正确时,仍可能获得较低的剩余值。因此Brünger (7)在1992 年提出一个交互验证的程序,也就是取出部分的绕射点(建议为10%),排除于修正的程序之外,以对结构的正确性,提供个别的检查,称为「自由剩余值(R-free) 」,其计算方式同剩余值。除了剩余值外,分辨率是另一个判断晶体结构可信度的重要数值。分辨率在蛋白质晶体结构中通常是定义为:可以分辨二个平面的最小距离。分辨率对模型的建构所造成的影响,可以直接由电子密度图看出,在低分辨率(~6 Å )时,只能观察到由α螺旋(α-helix)所形成的圆柱形密度图;随着分辨率提高(3 Å ~ 2 Å ) ,主链与支链结构就会出现,但个别原子仍无法由密度图中看出,除非分辨率可以达到1.0 Å 或更高的分辨率。蛋白质结构所能达到的分辨率,主要是取决晶体内分子排列的整齐程度。小分子晶体内并没有太多的水分子,所以常能得到分辨率高于0.5 Å 的绕射数据。但因蛋白质结构由长的胜 链所组成,其间又是由较弱的氢键及凡得瓦力所维系,造成蛋白质结构富有弹性,蛋白质分子与分子的堆栈也就没有那么整齐。同时分子与分子之间的空隙由水分子来填补,也因这些空隙的水分子排列比较紊乱,所以蛋白质晶体绕射出的结果,仅有少数高分辨率晶体,一般蛋白质晶体结构的分辨率约在2.0 至3.0 Å 之间。

生物信息学简概及教程(经典)

一、数据库

注:Display中选FASTA形式,显示原始的核苷酸数据,便于复制。

(2)dbEST
EST来源于mRNA
-基因片度(300-400bp,数据长度足以分析编码的产物)或者全基因(已知)
-5’端或3’端的cDNA序列(EST)
-300-400bp single-pass sequence (可能有误,如果要求<0.1%的错误率,需要测序8-10次)
-GenBank中71%以上的是EST序列。
http://www.ncbi.nlm.nih.gov/dbEST/index.html

(3)UniGene
来源于同一基因的非重复EST,组成基因序列群(contig)
注:不同实验室各自采用poly(T)15法和随机引物合成的cDNA(不完整),不同的cDNA的加工、拼接,形成重叠群(Contig) http://www.ncbi.nlm.nih.gov/UniGene/

(4)dbSTS (sequence tagged sites)
a.短序列(200-500bp) b.已完成染色体上的定位 c.可以与电子PCR相连用
http://www.ncbi.nlm.nih.gov/dbSTS/index.html

(5)dbGSS (genome survey sequence)
a.基因组短序列 b. cosmid、BAC、YAC外源插入片断末端序列 c. Alu PCR 序列
http://www.ncbi.nlm.nih.gov/dbGSS/index.html

(6)HTG (high-throughput genome sequence)
尚未完成测序的重叠群(>2kb) 更新快!!!
http://www.ncbi.nlm.nih.gov/HTGS/

(7)dbSNP
每100-300bp有一个SNP
http://www.ncbi.nlm.nih.gov/SNP/

(8)EMBL
http://www.ebi.ac.uk/embl/

(9)DDBJ
http://www.ddbj.nig.ac.jp/

(10)EPD (Eukaryotic Promoter Database) 启动子数据库
http://www.genome.jp/dbget/dbget2.html

2.蛋白质数据库
(1)SWISS-PROT
http://us.expasy.org/sprot/
有详细的注释序列;与44个数据库相互参照(cross-reference)
(2)TrEMBL (translation of EMBL)

(3)PIR (Promoter information resource)
http://www-nbrf.georgetown.edu/pir/
表明了结构域

(4)PRF (Promoter research foundation)
http://www4.prf.or.jp/

(5)PDBSTR (Re-organized Protein data Bank)
http://us.expasy.org/sprot/prosite.html
蛋白质的二级结构、α-碳位置

(6)Prosite
蛋白质家族、结构域
http://us.expasy.org/prosite/

3.结构数据库
(1)PDB (Protein Data Bank)
http://www.rcsb.org/pdb/

(2) NDB (Nucleic Acid Database)
http://ndbserver.rutgers.edu/NDB/ndb.html

(3)DNA-bind Protein database
http://ndbserver.rutgers.edu/NDB/structure-finder/protein/index.html

(4)swiss-3D IMAGE
http://www.expasy.ch/sw3d/

4.酶和代谢数据库
(1)KEGG (Kyoto Eneyclopedin of genes & genemes)
http://www.genome.ad.jp/kegg/

(2)PKR (Protein Kinase Resource)
http://www.sdsc.edu/kinases

5.文献数据库
(1)PubMed
http://www.ncbi.nlm.nih.gov/PubMed/

(2)OMIM
http://www.ncbi.nlm.nih.gov/Omim

(3)Agricola
http://agricola.nal.usda.gov/
农业相关的文献

6.提交数据
GenBank
BankIt提交
网上直接提交,立即得到临时编号(1周内提供Aceesion No.)
SequIn提交 下载软件填写表格,自动确定CDS、ORF和查找重复序列、查载体序列
用Update功能修改

二、检索数据库的方法
1、用关键词或词组进行的数据库检索 Text-based database searching
2、用和甘肃或蛋白质序列进行的数据库检索 Sequence-based database searching
关键词:名词;描述性词、词组;Accession number
体系:Entrz;Sequence retrieval system (SRS);Integrated database retrieval system (DBGET)
检索须知
1、连接词:AND OR NOT
用引号将两个词组成一个词组 “disease resistance” 表示必须两个词先后顺序连续出现;disease resistance 表示默认AND
2、wild card “*” 放在单词后使检索范围扩大,但是专一性降低
Wan*=所有以Wan开头的单词 enzyme*=enzyme + enzymes 单复数同
(1)Entrz(NCBI)
优点:三种检索体系中最容易操作的; 缺点:检索范围有限
8大类29个与Entrz体系相连的数据库
1、Nucleiotide sequence database(6)
GenBank; SNP; Gene; Homologene; UniSTS; ProSet
2、Protein sequence database(1)
Proteins
3、Structure database(4)
Structure; PubChem; Compound; 3D-Domain; CDD
4、Taxonomy database(1)
Taxonomy
5、Genome database(2)
Genomes; Genome Project
6、Expression database(4)
UniGene; GEO Profiles; GEO database;GENSAT
注:数据库来源于mRNA-cDNA-protein(更确切)
7、Literature database(7)
PubMed(文摘); PubMed central(全文); Books; OMIM; Journals; NLM catalog; MeSH
8、Others
PubChem substance; Cancer chromosome; PubChem BioAssay; SiteSearch
检索方法:a、数据库间的检索 b、选择数据库 (可以限定检索内容和时间范围)

(2)SRS (Sequence Retrieval System)
http://srs.ebi.ac.uk/ 有不同的版本,可以下载。
EBI 优点:检索面宽 缺点:检索复杂
***类194个数据库与SRS体系相连
检索方法:a、快速检索(操作简单,检索的数据库有限,适用于明确目标的检索。) b、深入检索(检索稍微复杂,检索全部的数据库,适用范围广泛的检索。)

(3)DBGET
http://www.genome.jp/dbget/dbget2.html
优点:与KEGG相连,操作较SRS简单 缺点:检索面较窄
检索方法:a、Basic search b、Advanced search

三、核苷酸和蛋白质序列为基础的数据库检索 Sequence-based database searching
1、序列对位排列(sequence alignment)
2、将两条或多条序列对位排列,突出相似的结构区域(分析功能、分析物种进化、检测突变,插入或缺

失、序列延长、序列定位、基因表达谱分析) 3、序列对位排列分析种类
a、序列对库对位排列分析 (从数据库中寻找同源序列,主要涉及核苷酸库和蛋白质库)
b、两序(多序列)列对位排列分析

(一)序列对位排列分析的基本原理
1、记分矩阵(scoring matrix)
a、蛋白质序列对位排列分析记分复杂
b、一致氨基酸记分不同 稀有氨基酸分值高,普通氨基酸分值低
c、相似氨基酸也积分,如D-E 用“+”表示氨基酸残基性质相似

2、空位(间隔)罚分(gap penalty)
基因进化过程中产生突变(插入、缺失)
序列对位排列分析是允许插入空位
空位罚分涉及两个参数:空位开放(gap opening) 空位延伸(gap extension)

(二)序列对库对位排列分析
对待分析的序列对库进行相似性分析;重复许多次的两序列对位排列分析;从数据库找出所以的同源序列
主要检索体系:BLAST、FASTA、Blitz
1、基本概念
a、sequence identity 两序列在同一位点核苷酸或氨基酸残基完全相同
sequence similarity(or opositive) 两序列在同一位点核苷酸或氨基酸残基化学性质相似
b、Global alignment 完整的序列比较
Local alignment 两序列相似程度最高的片断相比较
c、Gapped alignment 为达到最佳alignment序列中加入空位
Ungapped alignment 相比较的核苷酸或氨基酸残基连续
d、Alignment score 衡量两相比序列相似程度的标准
E (expect) value 期望得到的,完全由机会造成的,相当于或大于目前分值的alignment次数
Raw score 原始分,分值较大,两个比较序列相似性程度较大
Bit score 采用统计学方法以原始分为基础计算
E=10 ;表示方法5e-46=5×10-46 E越小越好
可以接受的标准:E=10-5 (重叠位置>40bp;identity>94%;远大于杂交标准)
E=10-30 基因组分析,功能与序列中相似
E取决于alignment分值,相比较序列的长短和库中数据数量
e、Low-complexity alignment region(LCR)
核苷酸序列中短的重复序列或由少数几种核苷酸或氨基酸残基组成的序列(如polyA)
数据库中半数以上的序列至少带有一处LCR
序列alignment 应避免LCR相互配对得分
BLAST用Filter功能避免比较LCR 用X和N分别代表LCR中的每个氨基酸残基和核苷酸

2、BLAST(Basic Local Alignment Search Tool)
(1) Nucleiotide Blast (Blastn)
(2) Protein Blast (Blastp、PSI blast、PHI blast;Conserved domain (rpsblast)
(3) Translated blast (blastx;tblstn;tblsatx)
(4) Special Blast (Blast 2 sequence;bl2seq;VecScreen)
BLAST program
Blastn 用核苷酸序列检索核苷酸库
BlastP 用氨基酸序列检索蛋白质库
Blastx 用核苷酸序列通过6种阅读框翻译成不同的氨基酸序列检索蛋白质库
tblastn 将蛋白质序列译成不同的核苷酸序列检索核苷酸库 tblastx 将核苷酸序列通过6种阅读框翻译成

不同的氨基酸序列检索核苷酸库(库中的序列也被译成不同的氨基酸序列)
Blast database
nr (nucleiotide blast) GenBank(无EST、STS、GSS、HTGS)
nr (protein blast) GenBank CDS translation + PDB + SwissProt + PIR + PRF
(1)BLASTN 序列的粘贴(或用GI号)-选择database-Autoformat(full/semi)
(2)BLASTP
(3)PSI-blast (Position Specific Iterated Blast) 氨基酸序列检索;重复循环检索数据库。 注意:

PHI和PSH同一网页,需要设定。
(4)PHI-blast (Pattern Hit Initiated Blast) 蛋白质并带有特殊的结构域(pattern)检索库中的

相似蛋白质(带有同样的特殊结构域或者这一临近的序列与被查找的序列相似。) 与PSI-blast相连,可

以循环检索。
(5)Translated Blast
(6) Conserved Domain Blast (rpsblast)

3、FASTA
www.ebi.ac.uk/fasta33/index.html
fasta3 用DNA序列检索核苷酸序列,用氨基酸序列检索蛋白质库。
Fastx3/fastay3 将DNA序列及其互补的序列通过6种读码框翻译成不同的氨基酸序列检索蛋白质库
注意:提交结果的形式与Blast不同(表格形式)

4、Blitz
http://www2.ebi.ac.uk/bic_sw/
能检索出远缘的序列;发现家族成员上可*;只用于蛋白质库;慢!一般用email服务。

(三)两序列对位排列分析
全局(贯穿整条序列长度);局部(相似性变大区段)
1、Blast 2 sequence 任两条序列,允许空位。 blastn, blastp, tblastn(比较蛋白质序列1与核苷酸序

列翻译成蛋白质序列2比较。 blastx 比较核苷酸序列(译成蛋白质)(seq1)和蛋白质序列(seq2)

tblastx 两条核苷酸比较(译成蛋白质) 2、Global alignment program (GAP) 两条序列,允许空位,

可以选记分的矩阵,全局对位排列,提交有格式。 >sequence 1 ATGTGAGGTCCCTGA >sequence 2

GCTGCAAGTCGTAGC 四、多序列对位排列分析和系谱分析 主要用于分析基因或蛋白质的进化;通过分析各

个基因和蛋白质序列的同源性确定它们在进化上的关系;分析基因或蛋白质的功能。 1、多序列对位排列

分析(Multiple Sequence Alignment) -两条以上序列排列分析 -可以发展保守的结构域(重要的功能

位点?) -多序列允许插入空位 -Clustal W 目前公认的最好的序列alignment的方法之一(可以下载)

对要分析的序列输入格式有要求 FAST(Pearson)格式 >sequence 1 ATGTGAGGTCCCTGA >sequence 2

GCTGCAAGTCGTAGC -分析方法(举例) Bayor college of medicine (BCM)生物信息学主页

http://dot.imgen.bcm.tmc.edu Multiple sequence alignment –Clustal W 1.8-结果 [o] full

options form 修改 -可以修改分析参数 一些参数的定义: (1)Gap opening penalty 增大数值使Gap

数减小; (2) Gap extension penalty 增大数值使Gap变短; (3)Weight transition penalty A-G转

换成C-T 转换(multiple DNA alignment) (4) Hydrophilic gap 选“on”将增加形成gap的机会