Protein sequence analysis Structural Bioinformatics

Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysisStructural Bioinformatics 2007

El flujo de información en biología Función Gen > DNA AATTCATGAAAATCGTATACTGGTCTGGTACCGGCAACAC TGAGAAAATGGCAGAGCTCATCGCTAAAGGTATCATCGAA TCTGGTAAAGACGTCAACACCATCAACGTGTCTGACGTTA ACATCGATGAACTGCTGAACGAAGATATCCTGATCCTGGG TTGCTCTGCCATGGGCGATGAAGTTCTCGAGGAAAGCGAA TTTGAACCGTTCATCGAAGAGATCTCTACCAAAATCTCTG GTAAGAAGGTTGCGCTGTTCGGTTCTTACGGTTGGGGCGA CGGTAAGTGGATGCGTGACTTCGAAGAACGTATGAACGGC TACGGTTGCGTTGTTGTTGAGACCCCGCTGATCGTTCAGA ACGAGCCGGACGAAGCTGAGCAGGACTGCATCGAATTTGG TAAGAAGATCGCGAACATCTAGTAGA > Proteina MKIVYWSGTGNTEKMAELIAKGIIESGKDVNTINVSDVNI DELLNEDILILGCSAMGDEVLEESEFEPFIEEISTKISGK KVALFGSYGWGDGKWMRDFEERMNGYGCVVVETPLIVQNE PDEAEQDCIEFGKKIANI

Conformación proteica • Christian AnfinsenEstudios sobre desnaturalización reversible: “la secuencia determina la conformación” • Las chaperonas y las enzimas intercambiadoras de disulfuros están involucrados pero no controlan el estado final. • A partir de una secuencia proteica recién determinada, que se puede decir acerca de su conformación? Se puede predecir la estructura por métodos computacionales? • Respuesta: predicción ab initio (no muy confiable!!!)

Protein sequence analysis • Ancestro común? • Función conservada? • Dominio o secuencia completa?

Identifica high-scoring segment pairs (HSPs) • Un par de secuencias que pueden ser alineados sin gaps • Cuando están alineadas tienen un score agregado máximo (no puede ser mejorado por extensión o por recorte del alineamiento) • El score debe estar por arriba de un determinado valor (threshold) S. • gapped (2.0) o ungapped (1.4) • Modos de uso (interfases disponibles) • WWW search formhttp://www.ncbi.nlm.nih.gov/BLAST • Unix command lineblastall -p progname -d db -i query > outfile BLAST

Algoritmos BLAST Program Query Sequence Target Sequence BLASTN Nucleotide Nucleotide BLASTP Protein Protein BLASTX Nucleotide, Protein six-frame translation TBLASTN Protein Nucleotide, six-frame translation TBLASTX Nucleotide, Nucleotide, six-frame translation six-frame translation

Query: GSQSLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEAFVED PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12 etc. Palabras cercanas (neighborhood words) Query Word (W = 3) Neighborhood Words Neighborhood Score Threshold (T = 13)

PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12 etc. Query: 325 SLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEA 365 +LA++L TP G R++ +W+ P+ D + ER + A Sbjct: 290 TLASVLDCTVTPMGSRMLKRWLHMPVRDTRVLLERQQTIGA 330 High-scoring segment pairs (HSPs)

Una secuencia query, en formato FASTA. • Qué programa de BLAST usar. • Qué base de datos buscar. • Parámetros de la búsqueda. Requerimientos de una búsqueda de BLAST

>N-terminal unknown protein MSSAAAAAAGAAGGGALFQPQSVSTANSSSSNNNNSSTPAALATHSPTSNSPVSGASSASSLLTAAFGNL FGGSSAKMLNELFGRQMKQAQDATSGLPQSLDNAMLAAAMETATSAELLIGSLNSTSKLLQQQHNNN... Score E Sequences producing significant alignments: (bits) Value sp|P29617|PRO_DROME PROTEIN PROSPERO 948 0.0 sp|P34522|HM26_CAEEL HOMEOBOX PROTEIN CEH-26 242 4e-63 sp|P48437|PRX1_MOUSE HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 214 7e-55 sp|Q92786|PRX1_HUMAN HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 214 7e-55 sp|Q91018|PRX1_CHICK HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 213 2e-54 sp|P25440|RNG3_HUMAN RING3 PROTEIN (KIAA9001) 35 0.79 sp|P31000|VIME_RAT VIMENTIN 34 1.4 sp|P48670|VIME_CRIGR VIMENTIN 34 1.4 Secuencia query BLASTP / SWISSPROT / BLOSUM62 Un E bajo implica un HSP más significativo – pero siempre hay que mirar los alineamientos!!!

Una secuencia query, en formato FASTA. • Qué programa de BLAST usar. • Qué base de datos buscar. • Parámetros de la búsqueda. Requerimientos BLAST E = kNe-S Número de HSPs hallados por puro azar X HSP X Cumulative Score Intenta extender el HSP, siempre que la caída del score sea menos que X (bits). Si lo logra, se repite con el próximo pico. S T Extension

Esquema empírico de ponderación (weighting) que intenta representar conocimiento biológico (estructural/funcional) • Cys : puentes disulfuro o unión a metales: estabilizan la estructura. • Pro : relativamente voluminoso y sin grupo N-H para cadenas laterales: ocurre en codos (turns). • Trp: cadena lateral voluminosa. • Lys/Arg: cadenas laterales cargadas positivamente. • Gly: no tiene cadena lateral. Permite rotar a la cadena porlipeptídica: ocurre en codos (turns). • Ala: sinpropiedades particulaes. Cadena lateral pequeña: ocurre frecuentemente en alpha-hélices. • Glu/Asp: frecuentes al comienzo de alpha-hélices. • Lys/Arg: frecuentes hacia el final de alpha-hélices. Matrices de scoring

Matrices de scoring: importancia • Es importante comprender las matrices de scoring • Aparecen (y son la base) de todos los análisis que involucran comparación de secuencias. • Representan en forma implícita una teoría particular de la evolución. • La elección de la matriz puede influenciar fuertemente los resultados que se obtengan.

A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 Q -1 1 0 0 -35 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 27 -1 -3 -2 -1 -4 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1 Estructura de una matriz

Triple-PAM (Altschul, 1991) • PAM 40 Alineamientos cortos, alta similitud • PAM 120 • PAM 250 Alineamientos largos, baja similitud • BLOSUM 62 (Henikoff, 1993) • La más efectiva para detectar miembros de una familia de proteínas. (BLAST default). • No hay una matriz que sea la respuesta completa para todas las comparaciones!!! Hay tantas matrices ...

Margaret Dayhoff, 1978 • Point Accepted Mutation (PAM) • Se observan los patrones de sustituciones en proteínas relacionadas. • La nueva cadena lateral debe funcionar en forma similar a la anterior (aceptación) • En promedio 1 PAM, corresponde al cambio de 1 amino ácido cada 100 residuos. • 1 PAM ~ 1% divergencia • Se extrapola para predecir patterns de mutación a mayores distancias. Matrices PAM

Suposiciones • Una mutación es independiente de los residuos que la rodean. • Las secuencias comparadas son de una composición promedio. • Todos los sitios son igualmente reemplazables. • Fuentes de error • Para derivar las matrices se utilizaron proteínas pequeñas, globulares (desvío de la composición promedio). • Los errores en PAM 1 son aumentados al extrapolar hasta PAM 250 • No considera, ni es flexible para considerar bloques conservados o dominios. Matrices PAM (cont.)

Henikoff and Henikoff, 1992 • BlocksSubstitutionMatrix (BLOSUM) • Considera sólo diferencias en regiones conservadas, libres de gaps, de una familia proteica. • Más sensible a sustituciones estructurales o funcionales. • BLOSUM n • Contribución de secuencias > n% idénticas pesan 1. • Reduce la contribución de secuencias muy similares. • Incrementar n ~ incrementar la distancia PAM. Matrices BLOSUM

Protein sequence analysis • Ancestro común? • Función conservada? • Dominio o secuencia completa?

Representación númerica de un alineamiento múltiple. • Depende de patrones (patterns) o motivos (motifs) que contengan residuos conservados. • Representan las características comunes de una familia de proteínas. • Permite identificar similitud entre secuencias con poca o ninguna identidad. • Permite incorporar al análisis secuencias relacionadas en forma distante. Profiles

APHIIVATPG GCEIVIATPG GVEICIATPG GVDILIGTTG RPHIIVATPG KPHIIIATPG KVQLIIATPG RPDIVIATPG APHIIVGTPG APHIIVGTPG GCHVVIATPG NQDIVVATTG Cons A B C D E F G H I K L M N P Q R S T V W Y Z G 17 18 0 19 14 -22 31 0 -9 12 -15 -5 15 10 9 6 18 14 1 -15 -22 11 P 18 0 13 0 0 -12 13 0 8 -3 -3 -1 -2 23 2 -2 12 11 17 -31 -8 1 H 5 24 -12 29 25 -20 8 32 -9 9 -10 -9 22 7 30 10 0 4 -8 -20 -7 27 I -1 -12 6 -13 -11 33 -12 -13 63 -11 40 29 -15 -9 -14 -15 -6 7 50 -17 8 -11 V 3 -11 1 -11 -9 22 -3 -11 46 -9 37 30 -13 -3 -9 -13 -6 6 50 -19 2 -8 V 5 -9 9 -9 -9 19 -1 -13 57 -9 35 26 -13 -2 -11 -13 -4 9 58 -29 0 -9 A 54 15 12 20 17 -24 44 -6 -4 -1 -11 -5 12 19 9 -13 21 19 9 -39 -20 10 T 40 20 20 20 20 -30 40 -10 20 20 -10 0 20 30 -10 -10 30 150 20 -60 -30 10 P 31 6 7 6 6 -41 19 11 -9 6 -16 -11 0 89 17 17 24 22 9 -50 -48 12 G 70 60 20 70 50 -60 150 -20 -30 -10 -50 -30 40 30 20 -30 60 40 20 -100 -70 30 Construcción de profiles • Qué residuos aparecen en cada posición? • Cuál es la frecuencia de los residuos observados? • Qué posiciones están conservadas? • Dónde pueden introducirse gaps? Position-Specific Scoring Table

Compara una secuencia contra una colección de profiles. • Bases de datos disponibles • PROSITE 17.39 1609 entries • Pfam 8.0 5193 entries • http://expasy.org/prosite ProfileScan

>C-terminal end MALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDA RTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAAR ATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGG GTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA... normalized raw from - to Profile|Description 219.3535 27400 pos. 21 - 600 PF00012|HSP70 Heat shock hsp70 proteins [IV]-D-L-G-T-[ST]-x-[SC] [LIVMF]-[LIVMFY]-[DN]-[LIVMFS]-G-[GSH]-[GS]-[AST]-x(3)- [ST]-[LIVM]-[LIVMFC] [LIVM]-x-[LIVMF]-x-G-G-x-[ST]-x-[LIVM]-P-x-[LIVM]-x- [DEQKRSTA] NScore SwissProt 7.0 1.8000 8.0 0.1800 9.0 0.0180 10.0 0.0018 219.4 3e-211 Query ProfileScan Selecciono TODAS las bases de datos Sólo matches significativos E-value Signatures

Steve Henikoff, Fred Hutchinson Cancer Research Center, Seattle • Alineamientos múltiples de regiones conservadas en familias de proteínas. • 1 “block” = 1 alineamiento corto, sin gaps • Cada familia puede definirse por uno o más ‘blocks’ • Las búsquedas permiten detectar uno o más blocks representantes de una familia. • Interfases disponibles • E-Mail blocks@howard.fchrc.org • Web http://blocks.fhcrc.org/ BLOCKS

>C-terminal end MALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDA RTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAAR ATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGG GTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA... BL00297A HSCA_ECOLI 136 ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA ||||||||||||||||||||||||||||||||||||||||||||||||||||||| C-terminal 136 ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA ID HSP70_1; BLOCK AC BL00297A; distance from previous block=(94,187) DE Heat shock hsp70 proteins family proteins. BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607 Query BLOCKS Search blocks Examine blocks

ID HSP70_1; BLOCK AC BL00297A; distance from previous block=(94,187) DE Heat shock hsp70 proteins family proteins. BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607 HS70_CHLRE ( 129) KETAQASLGADREVKKAVVTVPAYFNDSQRQATKDAGMIAGLEVLRIINEPTAAA 19 HS7L_SBYV ( 132) ALISTASEAFKCQCTGVICSVPANYNCLQRSFTESCVNLSGYPCVYMVNEPSAAA 75 HS7R_HUMAN ( 124) KLKETAESVLKKPVVDCVVSVPCFYTDAERRSVMDATQIAGLNCLRLMNETTAVA 45 HS7T_MOUSE ( 126) TKMKETAEVFWAPMSQRVITVPAYFNDSQRQATKDAGVIAGLNVLRIINEPTAVA 28 YKH3_YEAST ( 160) SLLKDRDARTEDFVNKMSFTIPDFFDQHQRKALLDASSITTGIEETYLVSEGMSV 100 DNAK_BACSU ( 95) HLKSYAESYLGETVSKAVITVPAYFNDAERQATKDAGKIAGLEVERIINEPTAAA 7 DNAK_BORBU ( 122) KMKETAEAYLGEKVTEAVITVPAYFNDAQRQATKDAGKIAGLEVKRIVNEPTAAA 3 DNAK_BRUOV ( 122) KMKETAESYLGETVTQAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 3 DNAK_BURCE ( 123) KMKKTAEDYLGEPVTEAVITVPAYFNDSQRQATKDAGRIAGLEVKRIINEPTAAA 3 DNAK_CAUCR ( 122) KMKEAAEAHLGEPVTKAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 5 DNAK_CHLPN ( 125) KMKETAEAYLGETVTEAVITVPAYFNDSQRASTKDAGRIAGLDVKRIIPEPTAAA 10 DNAK_CLOPE ( 98) KLKADAEAYLGEKVTEAVITVPAYFNDAERQATKDAGRIAGLDVKTIINEPTAAS 8 DNAK_CRYPH ( 122) KLVDDASKYLGESVKQAVITVPAYFNDSQRQATKDAGRIAGLEVLRIINEPTAAS 5 DNAK_ECOLI ( 121) KMKKTAEDYLGEPVTEAVITVPAYFNDAQRQATKDAGRIAGLEVKRIINEPTAAA 3 DNAK_ERYRH ( 96) YMKSYAEDYLGEKVTKAVITVPAYFNDAQRQATKDAGKIAGLEVERIINEPTAAA 5 DNAK_HAEIN ( 120) KMKKTAEDFLGESVTEAVITVPAYFNDAQRQATIDAGKIAGLDVKRIINEPTAAA 6 . . . BLOCKS entry

>chk-H5 SRRSASHPTYSEMIAAAIRAEKSRGGSSRQSIQKYIKSHYKVGHNADLQIKLSIRRLLAAGVLKQTKGVGASGSFRLAKS >hum-H1 TPRKASGPPVSELITKAVAASKERSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASGSFKLNKK >pea-H1 PRNPASHPTYEEMIKDAIVSLKEKNGSSQYAIAKFIEEKQKQLPANFKKLLLQNLKKNVASGKLIKVKGSFKLSAAAKKP >Histone chk-H5 family 6 sequences are included in 2 blocks HistoneA, width = 31 chk-H5 1 SHPTYSEMIAAAIRAEKSRGGSSRQSIQKYI hum-H1 1 SGPPVSELITKAVAASKERSGVSLAALKKAL pea-H1 1 SHPTYEEMIKDAIVSLKEKNGSSQYAIAKFI sce-H1.1 1 SSKSYRELIIEGLTALKERKGSSRPALKKFI sce-H1.2 1 SSLTYKEMILKSMPQLNDGKGSSRIVLKKYV xla-H1 1 SGPSASELIVKAVSSSKERSGVSLAALKKAL HistoneB, width = 15 chk-H5 ( 21) 53 IRRLLAAGVLKQTKG hum-H1 ( 21) 53 LKSLVSKGTLVQTKG pea-H1 ( 21) 53 LKKNVASGKLIKVKG sce-H1.1 ( 21) 53 IKKGVEAGDFEQPKG sce-H1.2 ( 21) 53 IKKCVENGELVQPKG xla-H1 ( 21) 53 LKALVTKGTLTQVKG BLOCK Maker MOTIF/GIBBS

Compara una secuencia contra una colección de profiles (Reverse PSI-BLAST) • Bases de datos disponibles • Pfam 2478 entries • Smart 488 entries • Oasis (combined pfam, smart and cdd) 3019 profiles. • Buscar usando Blast http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi • Buscar la base de datos CDD (Conserved Domains from 3D structures) • http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml CD-Search (RPS-BLAST)

Position-Specific Iterated BLAST search • Easy-to-use version of a profile-based search • Hace una búsqueda utilizando BLAST contra una base de datos de proteínas. • Utiliza los resultados para derivar una matriz posición-específica (position-specific scoring matrix, PSSM) • En la próximas rondas (iteraciones) se utiliza la PSSM en lugar de la secuencia query original • Se puede iterar hasta que no aparezcan nuevos alineamientos significativos. • Convergencia – todas las secuencias relacionadas fueron encontradas. • Divergencia – el query es demasiado amplio, utilizar criterios (cut-offs) más estringentes. PSI-BLAST

Protein sequence analysis • estructura secundaria • módulos de señalización • estructura terciaria • plegamientos especializados

Predicción de estructura secundaria • Dada una secuencia primaria de una proteína GHWIATRGQLIREAYEDYRHFSSECPFIP • Predecir el contenido de estuctura secundaria (-hélice, -sheets, coils) CEEEEECHHHHHHHHHHHCCCHHCCCCCC

Predice la posición más probable de alfa-hélices y hojas beta. • Cuando la similitud con otras secuencias es baja, confirma características estructurales o funcionales compartidas entre dos secuencias. • Guía la selección racional de mutantes específicas para el estudio en el laboratorio. • Es la base para futuros estudios estructurales. Predicción de estructura secundaria

Estrategia de predicción basada en una red neural (Kneller et al., 1990) • Best-case accuracy > 65% • Interfases • E-mail nnpredict@celeste.ucsf.edu • Web http://www.cmpharm.ucsf.edu/ ~nomi/nnpredict.html nnpredict

option: a/b >flavodoxin - Anacystis nidulans AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG LAIDEDNQPDLTKNRIKTWVSQLKSEFGL Tertiary structure class: alpha/beta Sequence: AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVG ELQSDWEGIYDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYW PIEGYDFNESKAVRNNQFVGLAIDEDNQPDLTKNRIKTWVSQLKSEFGL Secondary structure prediction (H = helix, E = strand, - = no prediction): ----EEE------EEEHHHHHHH------EEEH---------------EEEE-------- ---------------HHHH---EEEE------------H--HHHHHHHH------E--E- -E--------------HH--E----------------EHHHHH------ nnpredict query folding class

Dos métodos de predicción • Red neural (SignalP-NN) • Modelos de Markov (SignalP-HMM) • Entrenamiento basado en filogenia. • Gram-negative prokaryotic • Gram-positive prokaryotic • Eukaryotic • Predice péptido señal (secreción, no los involucrados en transducción de señales intracelulares) • http://www.cbs.dtu.dk/services/SignalP/ SignalP

>sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSOR MGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG ************************* SignalP predictions ************************* Using networks trained on euk data >IGF-IB length = 195 # pos aa C S Y . . . 46 A 0.365 0.823 0.495 47 T 0.450 0.654 0.577 48 A 0.176 0.564 0.369 49 G 0.925 0.205 0.855 50 P 0.185 0.163 0.376 . . . < Is the sequence a signal peptide? # Measure Position Value Cutoff Conclusion max. C 49 0.925 0.37 YES max. Y 49 0.855 0.34 YES max. S 37 0.973 0.88 YES mean S 1-48 0.550 0.48 YES # Most likely cleavage site between pos. 48 and 49: ATA-GP SignalP query N-terminal end only Eukaryotic set

SignalP query >sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSOR MGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG ************************* SignalP predictions ************************* Using networks trained on euk data >IGF-IB length = 195 # pos aa C S Y . . . 46 A 0.365 0.823 0.495 47 T 0.450 0.654 0.577 48 A 0.176 0.564 0.369 49 G 0.925 0.205 0.855 50 P 0.185 0.163 0.376 . . . < Is the sequence a signal peptide? # Measure Position Value Cutoff Conclusion max. C 49 0.925 0.37 YES max. Y 49 0.855 0.34 YES max. S 37 0.973 0.88 YES mean S 1-48 0.550 0.48 YES # Most likely cleavage site between pos. 48 and 49: ATA-GP N-terminal end only Eukaryotic set C = cleavage site score S = signal peptide score Y = combined score

Interfases Web http://predictprotein.org/ • Algoritmo predictivo en varios pasos. (Rost et al., 1994) • La secuencia de proteína se compara contra SWISS-PROT • Se utiliza MaxHom para generar alineamiento multiple baasado en profiles (iterativo) (Sander and Schneider, 1991) • El alineamiento multiple se utiliza como input para una red neural (PHDsec) • Precisión • Average > 70% • Best-case > 90% PredictProtein

Joe Buzzcut National Human Genome Research Institute, NIH buzzcut@nhgri.nih.gov # flavodoxin - Anacystis nidulans AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG LAIDEDNQPDLTKNRIKTWVSQLKSEFGL ....,....1....,....2....,....3....,....4....,....5....,....6 AA |AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVG| PHD sec | EEEEEEE HHHHHHHHHHHHH EEEEE HHH HHHH EEEEE | Rel sec |938999736982489999999999767982443213241278631241999861547765| Detail: prH sec |000000000014689999999999821000011112565388764321000001111111| prE sec |058998852000000000000000000003665542100000000014899874120002| prL sec |931000137985310000000000178985222344324511234554000114667776| Predict protein query Estructura secundaria • SWISS-PROT hits • Multiple alignment • PDB homologues

Estrategia similar a PredictProtein (PHDsec) • Precisión total 94.7% • Predicción de hélices 92.0% • Predicción de loops 96.0% • Incluye predicción de topología. • Gratuito para uso académico. Licencia comercial disponible. • Interfases disponibles • E-mail predictprotein@embl-heidelberg.de • Web http://predictprotein.org PHDtopology

Joe Buzzcut National Human Genome Research Institute, NIH buzzcut@nhgri.nih.gov predict htm topology # pendrin MAAPGGRSEPPQLPEYSCSYMVSRPVYSELAFQQQHERRLQERKTLRESLAKCCSCSRKRAFGVLKTLVPILEWLPKYRV KEWLLSDVISGVSTGLVATLQGMAYALLAAVPVGYGLYSAFFPILTYFIFGTSRHISVGPFPVVSLMVGSVVLSMAP... ....,....37...,....38...,....39...,....40...,....41...,....42 AA |YSLKYDYPLDGNQELIALGLGNIVCGVFRGFAGSTALSRSAVQESTGGKTQIAGLIGAII| PHD htm | HHHHHHHHHHHHHH HHHHHHHHHH| Rel htm |368899999999999998641104667777655431257778887777621467788888| detail: | | prH htm |310000000000000000124457888888877765321110000111135788899999| prL htm |689999999999999999875542111111122234678889999888864211100000| . . . PHDThtm |iiiiiiiiiiiiiiiiiiiTTTTTTTTTTTTTTTTTToooooooooooooooTTTTTTTT| PHDtopology query

Precisión de las predicciones

Protein sequence analysis • estructura secundaria • módulos de señalización • estructura terciaria • plegamientos especializados

La secuencia determina la conformación pero no viceversa. • La estructura se conserva mucho más que la secuencia. • Númer limitado de plegamientos conocidos. • Similitud entre proteínas no siempre detectada por métodos ‘tradicionales’. Predicción de estructura terciaria

PDB Growth

ab initiostructure prediction • Funciones de energía que describan la estructura 3D de una proteína • bond energy • bond angle energy • dihedral angle energy • van der Waals energy • electrostatic energy • Minimizar las funciones y obtener la estructura. En general poco práctico. • Computacionalmente costoso • Precisión pobre • Funciona razonablemente para proteínas chicas • Péptidos (~ 20 aa)

Contact order • Orden de contacto • Medida que refleja las interacciones entre aminoácidos en una proteína • Distancia promedio entre aminoácidos que interaccionan entre sí • Suma de las distancias / Longitud de la proteína • Está relacionada con el tiempo de plegamiento de una proteína • Low contact order proteins = fast folding • High contact order proteinas = slow folding • Las estructuras de proteínas con valores de contact order bajos son más fáciles de predecir ab initio

Ab initio prediction: Rosetta • Análisis de MSAs de proteínas de estructura conocida • Gran número de patrones de 3-15 aminoácidos, algunos de los cuales están fuertemente asociados a ciertas estructuras locales • Algunas de estas estructuras tienen energías predecibles (datos experimentales de NMR) • I-Sites • La estrategia recrea el proceso de folding • Análisis usando una ventana de 9 aminoacidos • Identificación de I-Sites • Muestreo de posibles estructuras minimizando energía (Monte Carlo)

Rosetta online: Robetta

Threading • Predicción de estructura basado en el reconocimiento del fold nativo • thread (alinear o acomodar) una proteína query sobre una estructura molde de alguna forma óptima. • Un alineamiento bueno provee un backbone aproximado • Requerimientos • Una biblioteca de moldes • Una función de scoring • Un alineamiento • Evaluar confidencia • Fuerza bruta • Threading de una secuencia contra todas las estructuras disponibles (PDB)

Protein sequence analysis Structural Bioinformatics

Protein sequence analysis Structural Bioinformatics

Presentation Transcript

Protein Sequence Analysis - Overview

Visualizing Protein Structures and Structural Bioinformatics

Basics of Protein Bioinformatics and Structural Bioinformatics

Bioinformatics and Protein Sequence Analysis

Structural Bioinformatics

PROTEIN SEQUENCE ANALYSIS

Protein Sequence Analysis - Overview

Structural Bioinformatics

Bioinformatics and Protein Structural Analysis

Protein Sequence Analysis - Overview -

Seminar in Structural Bioinformatics - Multiple sequence alignment algorithms .

Protein sequence analysis

Bioinformatics Sequence Analysis I

Structural Bioinformatics

Structural Bioinformatics Study of Protein Interaction Network

Day 1b: Protein Sequence Analysis

Structural Bioinformatics

Protein Evolution and Sequence Analysis

Structural Bioinformatics

Protein Evolution and Sequence Analysis

Protein Sequence Analysis - Overview

Structural Bioinformatics