序列比对 联系客服

发布时间 : 星期日 文章序列比对更新完毕开始阅读60ca93573c1ec5da50e270c7

gb|AA246675|AA246675 LD05588.5prime LD Drosophila Embr...+2 117 2.8e-10 2

gb|AA282899|AA282899 zt14g09.r1 Soares NbHTGBC Homo sa...+3 118 6.1e-07 1

gb|AA247705|AA247705 csh0941.seq.F Human fetal heart,....+3 56 0.0039 2

b

gb|AA390557|AA390557 LD09473.5prime LD Drosophila Embryo Drosophila melanogaster cDNA clone LD09473 5’ Length – 659

Score – 130 (60.4 bits), Expect – 1.6e-20, Sum P(2) – 1.6e-20 Identities – 25/60 (41%), Positives – 40/60 (66%), Frame - +3

Query: 105 TIKSVRFYTEKNGQLIYTTFTEDTPSVGQRLLNSVLNTLIMISVIVVMTIFLVVLYKYRC 164

+I S+ FY + L+YT F E +P + +++ ++LI++SV+VVMT L+VLYK RC

sbjct: 480 SINSISFYNSTDVYLLYTPFHEQSPEPSVKFWSALGSSLILMSVVVVMTFLLIVLYKKRC 659

Score – 117 (54.3 bits), Expect – 1.6e-20, Sum P(2) – 1.6e-20 Identities –23/30 (76%), Positives – 27/30 (90%), Frame - +1

Query: 75 LEEELTLKYGAKHVIMLFVPVTLCMIVVVA 104

+EEE LKYGA+HVI LFVPV+LCM+VVVA

sbjct: 391 MEEEQGLKYGAQHVIKLFVPVSLCMLVVVA 480

图7.11、一次TBLASTN搜索的输出:在这次TBLASTN搜索中,以dbest数据库为基础,以阿尔茨海默氏病(即进行性老年性痴呆)基因(Genbank 检索号码L43964)的蛋白质产物为查询序列,目的是为了从其它那些可能同人类基因有同源性的物种中鉴定出一些cDNA克隆。(a).命中列表的一部分显示了其中最好的25个命中。每个检索出来的序列都由它们的GenBank检索号码以及一部分定义行组成。其中包括了它们的阅读框架和最佳HSP分值,同时显示的还有一个偶然命中的可能性的加和。最后一列中的数据给出了在计算加和的可能性时所涉及到的HSP的数量。在这个命中列表中可以见到至少10条从老鼠中得到的序列和一条从果蝇中得到的序列; (b).同果蝇的EST序列(GenBank AA390557)理论上的翻译序列匹配的结果。找到了两个HSPs,每一个使用不同的阅读框架。相同的残基在两行序列中间的相应位置回显,而“+”符号标记着那些不相同但是其取代分值是正分的残基。

BLAST的最新改进

最近发布的BLAST程序的修订版提高了搜索速度、敏感度和实用性。这个完全重新写过的软件包指定为2.0版本(避免同WU-BLUST混淆,这个软件是由华盛顿大学设计的,有时称为BLAST2)。应该注意到,在发布的2.0版本中,命令行的参数有很大改变,其中一些常用的参数列在表7.4中。

一个改进来自于引发一个字串命中的延伸的标准。现在,在一个需要考虑的残基的窗口里必须找到两个字串命中。使用这种策略提高了搜索速度,因为大量随机的字串命中将会被忽略,并且很有可能得到一个显著性良好的比对。第二个改进是能够明确地而不是含蓄地处理空位。除了帮助使用者更加容易地理解产生的比对,新版本还提高了较远关系的敏感性,其中可能会包含许多插入和缺失。比较从寻找无空位的HSP这一标准策略开始,然后,这一比对中获得最高分区域的中心一列被鉴定出来,接着,从这一点向前和向后延伸,通过赋值的路径进行无空位局部比对的搜索。如同最初的HSP搜索,一个分值下降的阈值X将会促使放弃那些遭遇大量负的取代分值的路径。对剩余的HSP进行反复的这种操作,将会揭示另外的含空位的比对,并保证它们同已经报告的部分不会相交。这个系统不同于FASTA所采取的策略,FASTA只会产生一个最佳的比对。

表7.4、一些对于BLAST很有用的参数值:

参数名称

数据库 (database)

查询序列文件 (query sequence file) 期望阈值E (expectation cutoff) HSP分值阈值S (HSP score cutoff) 字串分值阈值T (word score cutoff) 多命中窗口A (multihit window) 打分矩阵 (score matrix)

低复杂度过滤 (low-complexity filtering) 空位开放罚分 (gap opening penalty) 空位拓展罚分 (gap extension penalty) PSI-BLAST反复 (PSI-BLAST iterations)

BLAST 1.4 第一参数 第二参数 E = number S = number T = number n/a

-matrix matrix -filter seg n/a n/a n/a

BLAST 2.0 -d database -I filename -e number -s number -f number -A number -M matrix -F -G number -E number -j number

对于那些弱势的但是显著性较强的比对,进行较高敏感性的数据库搜索的一个方法就是使用诸如profile(表头轮廓)的数据结构(Gonzalez et al., 1994)。这个策略可能曾经被认为是个进行数据库搜索的比较先进的课题,但是BLAST的一个新特性简化了基于profile的搜索工作。一个profile可能会被理解为一

个列表,其中列出了在一个保守的蛋白质结构域中每一个位点发现每一种氨基酸残基的频率。建立一个profile可能是很乏味的,其信息是从那些拥有我们感兴趣的蛋白质结构域的多序列比对中得到的,这些比对必须预先准备好,而且,在这里有许多技术上的问题还没有解决。

位点特性反复BLAST(PSI-BLAST)是指BLAST2.0的一个特性,其中一个profile被不断组织并且不断精练。这个过程开始于使用一个简单查询序列的一个标准的数据库搜索。在这个初始的搜索结果中,一个profile从高度显著的比对中获得,然后这个profile在第二轮的数据库搜索中使用。如果需要的话,这个过程会反复进行,并且在操作中为了精练profile,会在每一轮中加入新的序列。

为了演示PSI-BLAST方法的高敏感性,旦氨酸三联体蛋白(HIT)序列被用来作为数据库搜索中的查询序列。HIT和1-磷酸乳糖尿苷酸转移酶(GalT)基于位点重叠的三位结构相似性最近得到描述(Holm and Sander, 1997)。经过一次标准的(一轮)BLASTP搜索,没有发现一个对GalT序列有显著的命中。但是经过多次搜索,在每一次反复中都发现新的关系,正如图7.12所示。在第二次搜索中了发现老鼠的GalT蛋白质,并且在这一信息被加入profile之后,另外一些其它物种的同源物也被检测出来。 Sequences producing significant alignments: Hign E Score Value Pass1:

sp|P49789|FHIT_HUMAN FRAGILE HISTIDINE TRIAD PROTEIN 290 7e-79

sp|P49776|APH1_SCHPO BIS(5’ – NUCLEOSYL) – TETRAPHOSPHATASE (ASYMME... 117 8e-27

sp|P49775|YD15_YEAST HYPOTHETICAL 24.8 KD HIT – LIKE PROTEIN 88.0 6e-18

sp|Q11066|YHIT_MYCTU HYPOTHETICAL 20.0 KD HIT – LIKE PROTEIN 52.7 3e-07

sp|Q04344|HIT_YEAST HIT1 PROTEIN (ORF U) 45.3 4e-05

Pass2:

sp|P47378|YHIT_MYCGE HYPOTHETICAL 15.6 KD HIT – LIKE PROTEIN 70.5 1e-12

sp|P32083|YHIT_MYCHR HYPOTHETICAL 13.1 KD HIT – LIKE PROTEIN IN P... 59.0 3e-09

sp|P26724|YHIT_AZOBR HYPOTHETICAL 13.2 KD HIT – LIKE PROTEIN IN H... 57.6 9e-09

sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 KD HIT – LIKE PROTEIN IN P... 55.7 3e-08

sp|P53795|YHIT_CAEEL HYPOTHETICAL HIT – LIKE PROTEIN F21C3.3 54.3 9e-08

sp|P42856|ZB14_MAIZE 14 KD ZINC – BINDING PROTEIN (PROTEIN KINASE... 52.8 2e-07

sp|P42855|ZB14_BRAJU 14 KD ZINC – BINDING PROTEIN (PROTEIN KINASE... 50.2 1e-06

sp|P49774|YHIT_MYCLE HYPOTHETICAL 17.0 KD PROTEIN HIT – LIKE PROT... 49.5 2e-06

sp|P49773|IPK1_HUMAN PROTEIN KINASE C INHIBITOR 1 (PKCI – 1) 49.1 3e-06

sp|P16436|IPK1_BOVIN PROTEIN KINASE C INHIBITOR 1 (PKCI – 1) (17 ... 48.7 4e-06

sp|P44956|YCFF_HAEIN HYPOTHETICAL HIT – LIKE PROTEIN HI0961 47.3 1e-05

sp|P43424|GAL7_RAT GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 41.0 8e-04

Pass3:

sp|Q03249|GAL7_MOUSE GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 87.2 1e-17

sp|P07902|GAL7_HUMAN GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 79.8 2e-15

sp|P31764|GAL7_HAEIN GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 64.7 6e-11

sp|P09148|GAL7_ECOLI GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 62.5 3e-10

sp|P22714|GAL7_SALTY GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 58.1 6e-09

sp|P09580|GAL7_KLULA GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 48.5 4e-06

sp|P08431|GAL7_YEAST GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 40.8 0.001

Pass4:

sp|P40908|GAL7_CRYNE GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 71.0 8e-13

sp|P13212|GAL7_STRLI GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 57.0 1e-08

图7.12、使用PSI-BLAST后,敏感性提高很大:在这次BLASTP搜索中,查询序列是人类组氨酸三联体(HIT)蛋白(Swiss-Prot P49789),搜索时开启了PSI-BLAST功能。在每一次重复搜索中,新检索出来的具有统计学显著性的匹配都会显示它们的定义行,打分值以及E 数值。

低复杂度区域

不管是蛋白还是核酸都包含一些偏颇的区域,在进行序列数据库搜索时这些区域可能会导致一些令人迷惑的结果。这些低复杂度区域(LCRs)在从明显的同性聚合顺串和短周期重复到更精细的情况(如其中某些或一些残基过多表现)的范围内变化。一个称为SEG的程序发展起来,目的是要把一个蛋白质序列分解为低复杂度和高复杂度组成的各个片段(Wootton and Federhen, 1993, 1996)。这个程序的结果表明数据库中的蛋白质有一半以上拥有至少一个LCR(Wootton and Federhen, 1993; Wootton, 1994)。LCRs的进化、功能和结构性质并没有被很好地了解。在DNA中,有许多种简单的重复,其中一些已经知道是高度多样性的,并且在作基因图谱时经常使用的。它们源起的机制可能是聚合酶滑动、偏颇核苷酸取代或者不等