Protein Folding Initiation Site Motifs

Protein Folding Initiation Site Motifs Chris Bystroff Dept of Biology Rensselaer Polytechnic Institute, Troy, NY

ATCTGTATCGTATCGTATTTCTGGHACCCCCTGATGTAAAAGAGAGTTCTATATTACTACAACCACGATCGGATTTATTTTGGTCTADCAGCTCAGGATCATCACAGGATTCAAATCCTATCATCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGTCAGTCAGTCATACGTACGTCATGCATACGTAGCTAGCAGACGCAGCATTACGTCGCGATCGATCGATCGGCATAGCAGCATCCCAGTCAGTCATATGCATAGTCGATCGACGTCAGTCATGAGATCGTACGAAATACGTAGCTGATCGACGTCAGTCAGACTGATCGATCGGATTCAGTCACGATGCATGCTAGCAAAGTCAGCGCATGCTAGCTACGTAGTCAGTACTGCATGCAGTACGTACGTAGACGTCAGTCAGTCAGTCATGATGCTAGCTAGCTACGTCACAGTCAGTCATGACTGACTGACTGACTGCAGTCAGTCATCGATACGTAGCTAGCTACGTCAGTCATGCAGTCAGTCATTGATGATCGATCGTACATGCAGATGCCGTAGGCTAGCTAGCTAGCACTACGATGCATGCTAGCTAGCTACGACCAGTACCATGATGACTGCATGATCATACTGCCCAAAAAACGACTTAATCGTATCGTATTTCTGGHACCCCCTGATGTAAAAGAGAGTTCTATATTACTACAACCACGATCGGATTTATTTTGGTCTADCAGCTCAGGATCATCACAGGATTCAAATCCTATCATCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGTCAGTCAGTCATACGTACGTCATGCATACGTAGCTAGCAGACGCAGCATTACGTCGCGATCGATCGATCGGCATAGCAGCATCCCAGTCAGTCATATGCATAGTCGATCGACGTCAGTCATGAGATCGTACGAAATACGTAGCTGATCGACGTCAGTCAGACTGATCGATCGGATTCAGTCACGATGCATGCTAGCAAAGTCAGCGCATGCTAGCTACGTAGTCAGTACTGCATGCAGTACGTACGTAGACGTCAGTCAGTCAGTCATGATGCTAGCTAGCTACGTCACAGTCAGTCATGACTGACTGACTGACTGCAGTCAGTCATCGATACGTAGCTAGCTACGTCAGTCATGCAGTCAGTCATTGATGATCGATCGTACATGCAGATGCCGTAGGCTAGCTAGCTAGCACTACGATGCATGCTAGCTAGCTACGACCAGTACCATGATGACTGCATGATCATACTGCCCAAAAAACGACTTAATCGTATCGTATTTCTGGHACCCCCTGATGTAAAAGAGAGTTCTATATTACTACAACCACGATCGGATTTATTTTGGTCTADCAGCTCAGGATCATCACAGGATTCAAATCCTATCATCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGTCAGTCAGTCATACGTACGTCATGCATACGTAGCTAGCAGACGCAGCATTACGTCGCGATCGATCGATCGGCATAGCAGCATCCCAGTCAGTCATATGCATAGTCGATCGACGTCAGTCATGAGATCGTACGAAATACGTAGCTGATCGACGTCAGTCAGACTGATCGATCGGATTCAGTCACGATGCATGCTAGCAAAGTCAGCGCATGCTAGCTACGTAGTCAGTACTGCATGCAGTACGTACGTAGACGTCAGTCAGTCAGTCATGATGCTAGCTAGCTACGTCACAGTCAGTCATGACTGACTGACTGACTGCAGTCAGTCATCGATACGTAGCTAGCTACGTCAGTCATGCAGTCAGTCATTGATCATGATCATACTGCCCAAAAAACGACTTAATCTGTATCGTATCGTATTTCTGGHACCCCCTGATGTAAAAGAGAGTTCTATATTACTACAACCACGATCGGATTTATTTTGGTCTADCAGCTCAGGATCATCACAGGATTCAAATCCTATCATCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGTCAGTCAGTCATACGTACGTCATGCATACGTAGCTAGCAGACGCAGCATTACGTCGCGATCGATCGATCGGCATAGCAGCATCCCAGTCAGTCATATGCATAGTCGATCGACGTCAGTCATGAGATCGTACGAAATACGTAGCTGATCGACGTCAGTCAGACTGATCGATCGGATTCAGTCACGATGCATGCTAGCAAAGTCAGCGCATGCTAGCTACGTAGTCAGTACTGCATGCAGTACGTACGTAGACGTCAGTCAGTCAGTCATGATGCTAGCTAGCTACGTCACAGTCAGTCATGACTGACTGACTGACTGCAGTCAGTCATCGATACGTAGCTAGCTACGTCAGTCATGCAGTCAGTCATTGATGATCGATCGTACATGCAGATGCCGTAGGCTAGCTAGCTAGCACTACGATGCATGCTAGCTAGCTACGACCAGTACCATGATGACTGCATGATCATACTGCCCAAAAAACGACTTAATCGTATCGTATTTCTGGHACCCCCTGATGTAAAAGAGAGTTCTATATTACTACAACCACGATCGGATTTATTTTGGTCTADCAGCTCAGGATCATCACAGGATTCAAATCCTATCATCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGTCAGTCAGTCATACGTACGTCATGCATACGTAGCTAGCAGACGCAGCATTACGTCGCGATCGATCGATCGGCATAGCAGCATCCCAGTCAGTCATATGCATAGTCGATCGACGTCAGTCATGAGATCGTACGAAATACGTAGCTGATCGACGTCAGTCAGACTGATCGATCGGATTCAGTCACGATGCATGCTAGCAAAGTCAGCGCATGCTAGCTACGTAGTCAGTACTGCATGCAGTACGTACGTAGACGTCAGTCAGTCAGTCATGATGCTAGCTAGCTACGTCACAGTCAGTCATGACTGACTGACTGACTGCAGTCAGTCATCGATACGTAGCTAGCTACGTCAGTCATGCAGTCAGTCATTGATGATCGATCGTACATGCAGATGCCGTAGGCTAGCTAGCTAGCACTACGATGCATGCTAGCTAGCTACGACCAGTACCATGATGACTGCATGATCATACTGCCCAAAAAACGACTTAATCGTATCGTATTTCTGGHACCCCCTGATGTAAAAGAGAGTTCTATATTACTACAACCACGATCGGATTTATTTTGGTCTADCAGCTCAGGATCATCACAGGATTCAAATCCTATCATCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGTCAGTCAGTCATACGTACGTCATGCATACGTAGCTAGCAGACGCAGCATTACGTCGCGATCGATCGATCGGCATAGCAGCATCCCAGTCAGTCATATGCATAGTCGATCGACGTCAGTCATGAGATCGTACGAAATACGTAGCTGATCGACGTCAGTCAGACTGATCGATCGGATTCAGTCACGATGCATGCTAGCAAAGTCAGCGCATGCTAGCTACGTAGTCAGTACTGCATGCAGTACGTACGTAGACGTCAGTCAGTCAGTCATGATGCTAGCTAGCTACGTCACAGTCAGTCATGACTGACTGACTGACTGCAGTCAGTCATCGATACGTAGCTAGCTACGTCAGTCATGCAGTCAGTCATTGATCATGATCATACTGCCCAAAAAACGACTTA Bioinformatics = sequence analysis Biological sequences come in two types: DNA and protein DNA has a four-letter alphabet Protein has a 20-letter alphabet Sequences are an abstraction. As such, they are treated abstractly... Sequence alignment Phylogenetic trees Gene finding Data mining

behind the abstraction... "A free-standing reality" ATGCATCAGGACTAGCTATCAGAATC Any DNA sequence REPRESENTS a physical object, and some DNA sequences translate to protein serquences, which also REPRESENT physical objects.

Sequence = Structure Structure = Function Function = Life __________________ \ Sequence = Life

Sequence = Structure The protein folding problem Unfolded Folded This happens spontaneously (in water).

The problem with the protein folding problem. Number of amino acids residues in a typical protein: 100 Approximate number of degrees of freedom per residue: 3 Estimated total number of conformations (=3100): 1045 Time required to fold if all conformations are sampled at the rate of 1 per 10-15s: 1020 y Time since the Big Bang: ~13 x 109 y

pathways

folding pathways must exist ...something happens first... The protein is unfolded... ...then something else happens.

Early events eliminate alternative pathways

What happens first? Helix/coil transition 10-100ns Beta-hairpin 0.1-1.0 ms transient intermediates < 1ms equilibrium 0.001-1.0 s

Local structure usually isn't stable Helices and turns form quickly but just as quickly fall apart. Most short peptides (<20aa) do not show structural stability in NMR studies. Exceptions:A few short peptides have been shown to be conformationally stable (for example Met-enkephalin = YGGFM)

Interesting parallels between bioinformatics and semantics language proteins letters amino acids words motifs phrases modules sentences whole proteins meaning structure literature genome grammar folding??

ATCTGTATCGTATCGTATTTCTGGHACCCCCTGATGTAAAAGAGAGTTCTATATTACTACAACCACGATCGGATTTATTTTGGTCTADCAGCTCAGGATCATCACAGGATTCAAATCCTATCATCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGTCAGTCAGTCATACGTACGTCATGCATACGTAGCTAGCAGACGCAGCATTACGTCGCGATCGATCGATCGGCATAGCAGCATCCCAGTCAGTCATATGCATAGTCGATCGACGTCAGTCATGAGATCGTACGAAATACGTAGCTGATCGACGTCAGTCAGACTGATCGATCGGATTCAGTCACGATGCATGCTAGCAAAGTCAGCGCATGCTAGCTACGTAGTCAGTACTGCATGCAGTACGTACGTAGACGTCAGTCAGTCAGTCATGATGCTAGCTAGCTACGTCACAGTCAGTCATGACTGACTGACTGACTGCAGTCAGTCATCGATACGTAGCTAGCTACGTCAGTCATGCAGTCAGTCATTGATGATCGATCGTACATGCAGATGCCGTAGGCTAGCTAGCTAGCACTACGATGCATGCTAGCTAGCTACGACCAGTACCATGATGACTGCATGATCATACTGCCCAAAAAACGACTTAATCGTATCGTATTTCTGGHACCCCCTGATGTAAAAGAGAGTTCTATATTACTACAACCACGATCGGATTTATTTTGGTCTADCAGCTCAGGATCATCACAGGATTCAAATCCTATCATCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGTCAGTCAGTCATACGTACGTCATGCATACGTAGCTAGCAGACGCAGCATTACGTCGCGATCGATCGATCGGCATAGCAGCATCCCAGTCAGTCATATGCATAGTCGATCGACGTCAGTCATGAGATCGTACGAAATACGTAGCTGATCGACGTCAGTCAGACTGATCGATCGGATTCAGTCACGATGCATGCTAGCAAAGTCAGCGCATGCTAGCTACGTAGTCAGTACTGCATGCAGTACGTACGTAGACGTCAGTCAGTCAGTCATGATGCTAGCTAGCTACGTCACAGTCAGTCATGACTGACTGACTGACTGCAGTCAGTCATCGATACGTAGCTAGCTACGTCAGTCATGCAGTCAGTCATTGATGATCGATCGTACATGCAGATGCCGTAGGCTAGCTAGCTAGCACTACGATGCATGCTAGCTAGCTACGACCAGTACCATGATGACTGCATGATCATACTGCCCAAAAAACGACTTAATCGTATCGTATTTCTGGHACCCCCTGATGTAAAAGAGAGTTCTATATTACTACAACCACGATCGGATTTATTTTGGTCTADCAGCTCAGGATCATCACAGGATTCAAATCCTATCATCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGTCAGTCAGTCATACGTACGTCATGCATACGTAGCTAGCAGACGCAGCATTACGTCGCGATCGATCGATCGGCATAGCAGCATCCCAGTCAGTCATATGCATAGTCGATCGACGTCAGTCATGAGATCGTACGAAATACGTAGCTGATCGACGTCAGTCAGACTGATCGATCGGATTCAGTCACGATGCATGCTAGCAAAGTCAGCGCATGCTAGCTACGTAGTCAGTACTGCATGCAGTACGTACGTAGACGTCAGTCAGTCAGTCATGATGCTAGCTAGCTACGTCACAGTCAGTCATGACTGACTGACTGACTGCAGTCAGTCATCGATACGTAGCTAGCTACGTCAGTCATGCAGTCAGTCATTGATCATGATCATACTGCCCAAAAAACGACTTAATCTGTATCGTATCGTATTTCTGGHACCCCCTGATGTAAAAGAGAGTTCTATATTACTACAACCACGATCGGATTTATTTTGGTCTADCAGCTCAGGATCATCACAGGATTCAAATCCTATCATCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGTCAGTCAGTCATACGTACGTCATGCATACGTAGCTAGCAGACGCAGCATTACGTCGCGATCGATCGATCGGCATAGCAGCATCCCAGTCAGTCATATGCATAGTCGATCGACGTCAGTCATGAGATCGTACGAAATACGTAGCTGATCGACGTCAGTCAGACTGATCGATCGGATTCAGTCACGATGCATGCTAGCAAAGTCAGCGCATGCTAGCTACGTAGTCAGTACTGCATGCAGTACGTACGTAGACGTCAGTCAGTCAGTCATGATGCTAGCTAGCTACGTCACAGTCAGTCATGACTGACTGACTGACTGCAGTCAGTCATCGATACGTAGCTAGCTACGTCAGTCATGCAGTCAGTCATTGATGATCGATCGTACATGCAGATGCCGTAGGCTAGCTAGCTAGCACTACGATGCATGCTAGCTAGCTACGACCAGTACCATGATGACTGCATGATCATACTGCCCAAAAAACGACTTAATCGTATCGTATTTCTGGHACCCCCTGATGTAAAAGAGAGTTCTATATTACTACAACCACGATCGGATTTATTTTGGTCTADCAGCTCAGGATCATCACAGGATTCAAATCCTATCATCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGTCAGTCAGTCATACGTACGTCATGCATACGTAGCTAGCAGACGCAGCATTACGTCGCGATCGATCGATCGGCATAGCAGCATCCCAGTCAGTCATATGCATAGTCGATCGACGTCAGTCATGAGATCGTACGAAATACGTAGCTGATCGACGTCAGTCAGACTGATCGATCGGATTCAGTCACGATGCATGCTAGCAAAGTCAGCGCATGCTAGCTACGTAGTCAGTACTGCATGCAGTACGTACGTAGACGTCAGTCAGTCAGTCATGATGCTAGCTAGCTACGTCACAGTCAGTCATGACTGACTGACTGACTGCAGTCAGTCATCGATACGTAGCTAGCTACGTCAGTCATGCAGTCAGTCATTGATGATCGATCGTACATGCAGATGCCGTAGGCTAGCTAGCTAGCACTACGATGCATGCTAGCTAGCTACGACCAGTACCATGATGACTGCATGATCATACTGCCCAAAAAACGACTTAATCGTATCGTATTTCTGGHACCCCCTGATGTAAAAGAGAGTTCTATATTACTACAACCACGATCGGATTTATTTTGGTCTADCAGCTCAGGATCATCACAGGATTCAAATCCTATCATCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGGAGGGGGGTCGTGGTTGCGCATTAGCAAAGTTGCAGTCAGTCGTCATGCAGCGACCACATACACACTGCATGCGCGTCTTCAVATCCCACAGTCAGTAGTAGTCACAGACCTCCAGTCAGTCGAGTACGACGTCAGTACGTCAGTCAGCCAGTCAGTCAGTCATACGTACGTCATGCATACGTAGCTAGCAGACGCAGCATTACGTCGCGATCGATCGATCGGCATAGCAGCATCCCAGTCAGTCATATGCATAGTCGATCGACGTCAGTCATGAGATCGTACGAAATACGTAGCTGATCGACGTCAGTCAGACTGATCGATCGGATTCAGTCACGATGCATGCTAGCAAAGTCAGCGCATGCTAGCTACGTAGTCAGTACTGCATGCAGTACGTACGTAGACGTCAGTCAGTCAGTCATGATGCTAGCTAGCTACGTCACAGTCAGTCATGACTGACTGACTGACTGCAGTCAGTCATCGATACGTAGCTAGCTACGTCAGTCATGCAGTCAGTCATTGATCATGATCATACTGCCCAAAAAACGACTTA Does anyone know the words? What if we use the enormous database of protein sequences to find recurrent short patterns? Those short patterns would be the words. But, are they "meaningful words"? (Does the sequence correlate with the local structure?)

Maybe, protein folding pathways can be found in protein sequence "grammar" 1. Letters 2. Words 3. Phrases 4. Sentences

Amino acids can be grouped

Sequence alignments show evolutionary diversity

( ) w s aa d = å k kj i k seqs = P = ij w å k k seqs = Sequence profiles are condensed sequence alignments Sequence alignment VIVAANRSA VIVSAARTA VIASAVRTA VIVDAGRSA VIASGVRTA Sequence profile VIVAAKRTA VIVSAVRTP (Gribskov) VIVSAARTA VIVSAVRTP VIVDAGRTA VIVDAGRTA VIVSGARTP ••• ••• VIVDFGRTP VIVSATRTP VIVSATRTP VIVGALRTP VIVSATRTP VIVSATRTP VIASAARTA VIVDAIRTP Red = high prob ratio (>3)Green = background prob ratio(~1)Blue = low prob ratio (< 1/3) VIVAAYRTA VIVSAARTP VIVDAIRTP VIVSAVRTA VIVAAHRTA

 | P  P | ijl ikl i  1 , 20 l  1 Clustering profiles each dot represents a different 1-residue profile did it! Resulting clusters: K Q RA S TA CS W Y FA P GD E NI L V MH Y “distance” between two points = "Kmeans" clustering

Protein sequence grammar 1. Letters: amino acid profiles 2. Words 3. Phrases 4. Sentences

  | P  P | ijl ikl i  1 , 20 l  1 , L Clustering profile segments, length L each dot represents a different short profile ~120,000 segments ~800 clusters for each L L=3,15 “distance” from i to k =

the database Learning the structure of each sequence cluster remove all cluster members that do not conform with the paradigm profile of cluster cluster of nearest neighbors Search the database for the 400 nearest neighbors After convergence, a cross-validation test is done.

I-sites library of sequence structure motifs 1000's of sequence clusters supervised learning Cross-validation 262 motifs Number of different motifs after removing register variants: 31

Example of a motif Sequences that match sequence profile.... ...tend to have the same structure... ...and this is it.

Clustering finds previously known sequence-structure motifs amphipathic a-helix amphipathic b-strand a-helix N-cap p•nppn• nS••En•p •n•n

Many new motifs are found diverging type-2 turn Frayed helix Type-I hairpin Serine hairpin glycine helix N-cap alpha-alpha corner Proline helix C-cap

Why are there motifs in proteins? Ancient conserved regions? Selection for stability? Folding initiation sites?

Structural features seem to drive clustering. 2. conserved sidechain contacts y 1. glycine at strained angles f 3. negative design against alternative structures (helix)

I-sites sequence patterns are distinct • Number of Pattern • sites / 100 positions Average boundaries of conservedMotif clusters overall confid. > 0.60mda°dme rmsd (len) non-polar • residues • 1 Amphipathic a-helix 13 3.1 0.9 56 0.71 0.78 (15) 1-4-8, 1-5-8 • 2 Non-polar a-helix 6 0.9 0.12 54 0.58 0.40 (11) 1-4-8, 1-5-8 • 3 Schellman cap Type 1 6 0.09 0.07 81 1.01 1.02 (15) 1-6-9-11 • 4 Schellman cap Type 2 10 0.3 0.14 76 0.94 0.94 (15) 1-6-8-9 • 5 Proline a-helixC cap 10 1.8 0.6 92 1.07 0.89 (13) 1-2-5-8 • 6 Frayed a-helix2 1.2 0.13 75 0.96 0.69 (15) 1-5-9-13 • 7 Helix N capping box 10 1.1 0.6 99 0.95 0.65 (15) 1-6-9-13 • 8 Amphipathic b-strand 8 6.8 2.1 89 0.87 0.87 (6) 1-3, 1-3-5 • 9 Hydrophobic b-strand 5 2.3 0.3 101 0.91 0.91 (7) 1-2-3 • 10 b-bulge 2 0.5 0.15 100 0.97 0.78 (7) 1-4-6 • 11 Serine b-hairpin 4 1.3 0.3 94 0.76 0.81 (9) 1-8 • 12 Type-I hairpin 2 0.07 0.04 80 0.94 1.23 (13) 1-7-8 • 13 Diverging Type-II turn 4 0.3 0.14 87 1.04 1.00 (9) 1-7-9 (Bystroff & Baker, J. Mol. Biol, 1998)

A hypothesis: I-sites sequence motifs are folding initiation sites. • The I-sites sequence patterns are mutually exclusive. • Each I-sites motif is found in a variety of contexts. • Local structure forms fast. • Early-folding units 'initiate' folding. One reason this hypothesis may be wrong: Database statistics may reflect bias in the data.

maybe not... Alpha helices may fold by packing interactions. Dots show positions of alpha-carbons relative to the amphipathic helix motif. The hydrophobic side is up.

How do we test this hypothesis? • See if I-sites peptides fold in isolation from the rest of the protein. ... by NMR. ... by simulation.

NMR structure of a 7-residue I-sites motif in isolation diverging turn (Yi et al, J. Mol. Biol, 1998)

Partial literature search of peptide NMR structures I-sites motif Authors date glycine helix cap Viguera 1995 serine hairpin Blanco 1994 Type-I hairpin deAlba 1996 diverging turn Sieber 1996

Molecular dynamics ... is a cheap substitute for an NMR spectrometer. What is MD? • A simulation of the dynamic behavior of the molecule in water, using "first principles." Advantages? • You can observe the system directly. Disadvantages? • It's not a real system, just an approximation.

Helical peptide simulations • AMBER (parm94) force field.• Randomly chosen natural sequences• Initially extended.• 800-900 waters added.• Ions added (Na, Cl)• 7-30 ns at 340°K AAALDRMR AALEALLR AANRSHMP AARYKFIE ADFKAAVA AFDGETEI AKELVVVY AKGVETAD ARFTKRLG ATLEEKLN CNGGHWIA DAVTRYWP DEAIDAYI DELTRHIR DYVRSKIA EDLVERLK EELKQALR EEMVSKLK EKLLESLE EKPFGTSY EQIKAAVK FHMYFMLR FSVMNDAS FYSSYVYL GQLMALKQ HNLIEAFE IEHTLNEK IQNGDWTF KAAIAQLR KKYRPETD KNPDNVVG KPMGPLLV KQAHPDLK KQDKHYGY KSYLRSLR LDLHQTYL NAVWAAIK NETHSGRK NFLEVGEY NPVKESRH PAIISAAE PLQHHNLL PRDANTSH QDDARKLM QGIIDKLD QKMKTYFN QTLAQLSV RDFEERMN RIILDRHR RLLLKAYR RPIARMLS RVLGRDLF SCDVKFPI TEVMKRLV TLNEKRIL YASLRSLV YESHVGCR Sequences

The MD scheme • Select random peptides and predict how much helix they will have, using the I-sites motif pattern. • Run LONG simulations. • Test to see whether they have reached equilibrium. • If they have, find out how much of the time the peptide spent in a helical state. (by cluster analysis) • Does the fraction helix correlate with the prediction?

Cluster analysis of trajectories 1) Define a node for every step in the trajectory, keep the backbone angles (q). 2) For each node, draw an edge to every other node for which max(Dq) < 60°. 3) The node with the most edges defines the first cluster. Remove it and all its neighbors. Then the node with the most edges is the second cluster. Etc.

Clusters in conformational space RPIARMLS Our criterea for good clustering: no two clusters look alike, and no cluster looks like two.

This is what a trajectory looks like if it has reached equilibrium cluster number ns Both halfs of the trajectory have about the same distribution.

This is what it looks like if it has not. cluster number ns

NAIIQELE movie A rough energy landscape.

There is a correlation between I-sites sequence score and the simulations r=0.48 (all peptides)r=0.61 (trajectories > 20ns long)

Sampling of sequence space 72 peptides were simulated. Is this a representative sample of the space of amphipathic helix sequences? 72 peptides, weighted by %helix 72 peptides, unweighted I-sites motif

What this means? The MD experiment separates the local effects from the non-local effects on helix formation. In the simulation, there are only local interations. So the propensity for amphipathic sequences to form helix is mostly intrinsic.

Outliers • Simulation too short. We see only meta-stable states. • I-sites scoring method is missing something. Using additive probabilities ignores statistical dependence between different positions. • Part-helix was not counted as helix in this study. Helix caps are competing motifs. (+-) and (-+) look just like (++) and (--)

an outlier QVFMRIME (a helix in 1dldA) Predicted to be helix with confidence = 0.86 Zero helix found in 17ns trajectory. What does it fold into?

Protein sequence grammar 1. Letters: Amino acid profiles 2. Words: I-sites motifs 3. Phrases: 4. Sentences

Protein sequence grammar 1. Letters: Amino acid profiles 2. Words: I-sites motifs 3. Phrases: a hidden Markov model 4. Sentences

Protein Folding Initiation Site Motifs

Protein Folding Initiation Site Motifs

Presentation Transcript

Protein Folding

Protein folding catalysts

Protein Folding Programs

Simulating Protein Folding

Protein FOLDING

Protein folding

Protein Folding

Protein Folding

Protein Motifs

Protein Folding

Protein Folding/Unfolding

Protein Folding

Protein Structure: protein folding

Protein folding

Cotranslational Protein Folding

Protein Folding

PROTEIN FOLDING

Protein Sequence Motifs

Protein Folding

Protein Folding

Protein Folding

Protein Folding