Alineamiento múltiple de secuencias
Transcripción
Alineamiento múltiple de secuencias
Alineamiento múltiple de secuencias Filogenias http://bioinfo2.ugr.es/ José L Oliver Alineamiento múltiple >Man MENFPIVDMG INDLDWESTF NYPPCPKPEL DGARMSLASF KLNTEERKAT FLRHLPVSNI IKGLRAHTDA YNPGDDALIS LDKMKDACEN SEIPDLDQDY GGNLLLFQDD PAPTLVKENE WGFFELVNHG RKVMKEFAVK KVSGLRLLKD TSEIYPKFVF ISIELMDTVE LEKLAEELLD DKWIDVPPMR DDYMKLYVGL KLTKEHYKKC YLCENLGLEK HSIVINLGDQ KFQAKEPRFE MEQRFKEMVE GYLKKVFYGS LEVITSGKYK AMKALSSVDV SKGLEYVQSE KGPNFGTKVS SVMHRVIAQT GPVVTA NNLNGESRVS FFLRHLPVSN LIKGLRAHTD FYNPGNDAVI VLNQINDACE MSEIGDLDEE AGGLILLFQD YPAPALVEGE NWGFFELVNH YKKVMKEFAD DKVSGLHVLK QEKTKLYPKF GISHELMDKV ELEKLAEEVL DGKWVDVPPM VFDDYMKLYV EKLTKEHYRK DLLCENLGLE HHSIVINLGD GLKFQAKEPR CMEQRFKEMV KGYLKKVFYG QLEVITNGKY FEAMKAMEST ASKGLDSVET SKGPNFGTKV KSVMHRVIAQ NLNMGPIATV KLNTEDRKST FLRHLPVSSI IKGLRAHTDA YNPGDDAVIS MELIKDACEN SEIPDLDDDY GGIILLFQDD PASTLLKENE WGFFECVNHG RKVMKEFALK KVSGLQLLKD TSEVYPKFVF ISIEMMDTVE LEELAEELLD DQWIDVPPMR DDYMKLYMGL KLTKEHYKKC LLCENLGLEK HSIVINLGDQ KFQAKEPRFE MEQRFKEMVA GYLKKAFYGS LEVITNGKYK AMMKAMSSVK TKGLECVQSE KGPNFGTKVS SVMHRVIAQT VGPVVSI KLNTEERGTA FLRHLPVSNV IKGLRAHTDA YNPGDDAVIS MEMIKDACEN SENTDLDQDY GGIILLFQDD PAPALVKESD WGFFELVNHG RKIMKQFAEE KVSGLQLLKD ETSQVYPKFV ISIELMDTVE LEKLAEHLLD DQWIDVPPMR FNDYMKLYAG KLTKEHYKKT LLCENLGLEK HSIVINLGDQ LKFQAKEPRF MEQRFKEMVA GYLKKVFYGS LEVITNGKYK EAMKAVSSVD NKGLESVQSE KGPNFGTKVS SVMHRVIAQT VGAIATV NLNGDERAKT FLRHLPTSNI IKGLRAHTDA YNPGNDAVIY MEMIKDACEN SQVPDLDEEY GGIILLFQDD PAPSLIEESK WGFFELVNHG REVMRDFAKR KVSGLQLLKD QVYPKFVFDD IPHEVMDTVE LEKLAEELLD EQWIDVPPMR YMKLYAGLKF KLTKGHYKKC LLCENLGLEK HSIVVNLGDQ QPKEPRFEAM MEQRFKELVA GYLKNAFYGS LEVITNGKYK KAMEANVELV SKGLEAVQAE KGPNFGTKVS SVMHRVIAQT DQIASA >Rhesus MEMDFPVINM EINDTDWEST SNYPPCPKPE EDGNRMSIAS >Chimp MENFPIVDMG IDDLDWESTF NYPPCPKPEL DGARMSIASF >Gorilla MANFPVVDMG INDLDWESTF NYPPCPTPDL DGTRMSLASF >Orangutan MENFPIINLE VTDLDWESTF NYPPCPKPDL DGTRMSLASF http://bioinfo2.ugr.es/ José L Oliver CLUSTAL W 1. Se alinean las secuencias separadamente de dos en dos, obteniéndose una matriz de distancias por pares 2. Se deriva un árbol guía a partir de la matriz de distancias 3. Las secuencias se van alineando progresivamente de acuerdo con el árbol guía 4. Los gaps introducidos en las primeras etapas se respetan en etapas posteriores http://bioinfo2.ugr.es/ José L Oliver CLUSTAL W (1.82) multiple sequence alignment Man Chimp Gorilla Orangutan Rhesus MEN-FPIVDMGKLNTEERKATLDKMKDACENWGFFELVNHGISIELMDTVEKLTKEHYKK MEN-FPIVDMGKLNTEDRKSTMELIKDACENWGFFECVNHGISIEMMDTVEKLTKEHYKK MAN-FPVVDMGKLNTEERGTAMEMIKDACENWGFFELVNHGISIELMDTVEKLTKEHYKK MEN-FPIINLENLNGDERAKTMEMIKDACENWGFFELVNHGIPHEVMDTVEKLTKGHYKK MEMDFPVINMNNLNGESRVSVLNQINDACENWGFFELVNHGISHELMDKVEKLTKEHYRK * **:::: :** :.* .:: ::********** *****. *:**.****** **:* 59 59 59 59 60 Man Chimp Gorilla Orangutan Rhesus CMEQRFKEMVESKGLEYVQSEINDLDWESTFFLRHLPVSNISEIPDLDQDYRKVMKEFAV CMEQRFKEMVATKGLECVQSEIDDLDWESTFFLRHLPVSSISEIPDLDDDYRKVMKEFAL TMEQRFKEMVANKGLESVQSEINDLDWESTFFLRHLPVSNVSENTDLDQDYRKIMKQFAE CMEQRFKELVASKGLEAVQAEVTDLDWESTFFLRHLPTSNISQVPDLDEEYREVMRDFAK CMEQRFKEMVASKGLDSVETEINDTDWESTFFLRHLPVSNMSEIGDLDEEYKKVMKEFAD *******:* .***: *::*: * ************.*.:*: ***::*:::*::** 119 119 119 119 120 Man Chimp Gorilla Orangutan Rhesus KLEKLAEELLDYLCENLGLEKGYLKKVFYGSKGPNFGTKVSNYPPCPKPELIKGLRAHTD KLEELAEELLDLLCENLGLEKGYLKKAFYGSKGPNFGTKVSNYPPCPKPELIKGLRAHTD ELEKLAEHLLDLLCENLGLEKGYLKKVFYGSKGPNFGTKVSNYPPCPTPDLIKGLRAHTD RLEKLAEELLDLLCENLGLEKGYLKNAFYGSKGPNFGTKVSNYPPCPKPDLIKGLRAHTD ELEKLAEEVLDLLCENLGLEKGYLKKVFYGSKGPNFGTKVSNYPPCPKPELIKGLRAHTD .**:***.:** *************:.********************.*:********** 179 179 179 179 180 Man Chimp Gorilla Orangutan Rhesus AGGNLLLFQDDKVSGLRLLKDDKWIDVPPMRHSIVINLGDQLEVITSGKYKSVMHRVIAQ AGGIILLFQDDKVSGLQLLKDDQWIDVPPMRHSIVINLGDQLEVITNGKYKSVMHRVIAQ AGGIILLFQDDKVSGLQLLKDDQWIDVPPMRHSIVINLGDQLEVITNGKYKSVMHRVIAQ AGGIILLFQDDKVSGLQLLKDEQWIDVPPMRHSIVVNLGDQLEVITNGKYKSVMHRVIAQ AGGLILLFQDDKVSGLHVLKDGKWVDVPPMHHSIVINLGDQLEVITNGKYKSVMHRVIAQ *** :***********::*** :*:*****:****:**********.************* 239 239 239 239 240 Man Chimp Gorilla Orangutan Rhesus TDGARMSLASFYNPGDDALISPAPTLVKE-NETSEIYPKFVFDDYMKLYVGLKFQAKEPR TDGARMSIASFYNPGDDAVISPASTLLKE-NETSEVYPKFVFDDYMKLYMGLKFQAKEPR TDGTRMSLASFYNPGDDAVISPAPALVKESDETSQVYPKFVFNDYMKLYAGLKFQAKEPR TDGTRMSLASFYNPGNDAVIYPAPSLIEE---SKQVYPKFVFDDYMKLYAGLKFQPKEPR EDGNRMSIASFYNPGNDAVIYPAPALVEGEQEKTKLYPKFVFDDYMKLYVGLKFQAKEPR ** ***:*******:**:* **.:*:: ..::******:****** *****.**** 298 298 299 296 300 Man Chimp Gorilla Orangutan Rhesus FEA-MKALSS--VDVGPVVTA FEAMMKAMSS--VKVGPVVSI FEA-MKAVSS--VDVGAIATV FEA-MKAMEANVELVDQIASA FEA-MKAMESTNLNMGPIATV *** ***:.: :. :.: http://bioinfo2.ugr.es/ Secuencia consenso 316 317 317 316 320 José L Oliver http://bioinfo2.ugr.es/ José L Oliver http://bioinfo2.ugr.es/ José L Oliver Rooted trees with a time axis. Tree (a) can be converted to tree (b) by swinging around the horizontal branches like mobiles. Hence (a) and (b) are equivalent to one another. http://bioinfo2.ugr.es/ José L Oliver A rooted tree with branches scaled according to the amount of evolutionary change. http://bioinfo2.ugr.es/ José L Oliver The unrooted tree in (a) can be converted to the rooted trees in (b) and (c) by placing the root in different positions. http://bioinfo2.ugr.es/ José L Oliver http://bioinfo2.ugr.es/ José L Oliver • Los árboles filogenéticos deben contener solo bifurcaciones • Las trifurcaciones o multifurcaciones se deben generalmente a falta de resolución del método Deben resolverse con más datos http://bioinfo2.ugr.es/ José L Oliver http://bioinfo2.ugr.es/ José L Oliver http://bioinfo2.ugr.es/ José L Oliver http://bioinfo2.ugr.es/ José L Oliver http://bioinfo2.ugr.es/ José L Oliver Selección de las secuencias de partida: • Ortólogas: ancestro común • Que estén presentes en todas las especies del grupo de interés • Ritmo evolutivo adecuado: ni muy alto ni muy bajo Se descartan los gaps Part of the alignment of the mitochondrial small subunit rRNA gene from primates, tree shrews, and rodents. http://bioinfo2.ugr.es/ José L Oliver http://bioinfo2.ugr.es/ José L Oliver http://bioinfo2.ugr.es/ José L Oliver Bootstrapping http://bioinfo2.ugr.es/ José L Oliver http://bioinfo2.ugr.es/ José L Oliver FIG. 3. Sample output from Project 4. A, a portion of the multiple sequence alignment used for the analysis of phenylalanine hydroxylase generated by the program ClustalW. Swiss-Prot accession numbers for the sequences used in this exercise were as follows: P00439, Homo sapiens PAH; P04176, Rattus norvegicus PAH; P16331, Mus musculus PAH; P30967, Chromobacterium violaceum PAH; P43334, Pseudomonas aeruginosa PAH; P17276, Drosophila melanogaster PAH; P90925, Caenorhabditis elegans PAH; and 1PAH, the sequence from the crystallographic-solved PAH fragment from Rattus Norvegicus (13). B, structure of PAH in which the 100% conserved residues, identified through the sequence alignment in A, are shown in space-filling mode, whereas the remainder of the protein is shown as a backbone trace. C, overall statistics of the ClustalW alignment. http://bioinfo2.ugr.es/ Copyright ©2002 The American Society of Biochemistry and Molecular Biology José L Oliver http://bioinfo2.ugr.es/ José L Oliver