1 / 19

UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA

UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA. Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 3 Mappe genetiche. Alfabeti, parole, linguaggi. Alfabeto = insieme finito S di elementi detti lettere, caratteri o simboli Esempi

danika
Télécharger la présentation

UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UNIVERSITA’ DI MILANO-BICOCCALAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 3 Mappe genetiche

  2. Alfabeti, parole, linguaggi Alfabeto = insieme finito S di elementi detti lettere, caratteri o simboli Esempi S = {0,1} Alfabeto binario S = {a, b, c, ... , v, z} Alfabeto italiano S = {A, C, G, T} Alfabeto del DNA S= {GLY, ALA, VAL, LEU, …} Alfabeto delle proteine

  3. Alfabeti, parole, linguaggi Parola, stringa o sequenza su S = lista ordinata di simboli di S scritti consecutivamente da sinistra a destra Formalmente: Una stringa w = a1a2…an è una funzione w: {1,2,…,n} Scon: • w(i) = aicarattere i-esimo di w • n lunghezza di w (denotata anche con |w|) ESEMPIO: w = AATGCA |w| = 6 Parola vuota e |e| = 0 L’insieme delle parole su S viene indicato con S* (chiusura di S)

  4. Alfabeti, parole, linguaggi Sottosequenza di w = sequenza ottenuta per cancellazione di uno o più caratteri di w Esempio w = AATGCATTCGCT Supersequenza di w’ w’= ATGATCGT Sottosequenza di w

  5. Alfabeti, parole, linguaggi Sottostringa di w = stringa formata da caratteri consecutivi di w Esempio w = AATGCATTCGCT Superstringa di w’ w’= TGCATTC Sottostringa di w Una sottostringa di w è anche sottosequenza di w (ma non vale il viceversa)

  6. Alfabeti, parole, linguaggi Concatenazione di w e v, wv = stringa formata dai caratteri di w, seguiti da quelli di v Esempio v = AATGC w = ATTCGCT vw = AATGCATTCGCT

  7. Alfabeti, parole, linguaggi Prefisso di w = stringa v tale che w = vt per qualche t S* Esempio w = A A T G C A T T C G C T Suffisso di w = stringa t tale che w = vt per qualche vS* Esempio w = A A T G C A T T C G C T

  8. Gene hunting Ricerca del gene responsabile di un particolare evento (in genere malattia) Esempio • Malattia: fibrosi cistica (frequenza 1/2500) • Causa: gene alterato presente con frequenza 1/25 (se ereditato da ambedue i genitori causa la malattia) • Scoperte: • primi anni ‘80: inizia la ricerca del gene responsabile della FC (per diagnosi prenatale e cura) • 1985: viene individuato il cromosoma 7 su cui risiede il gene • 1989: il gene viene localizzato sul cromosoma 7 (la proteina corrispondente comprende 1480 aminoacidi)

  9. Mappaggio genetico Posizionamento approssimato di un gene su un particolare cromosoma (prima fase del genehunting) Idea generale: analizzare la frequenza di diverse combinazioni di fenotipi nella discendenza per determinare l’ordine dei geni Prima mappa genetica: sei geni della DrosophilaMelanogaster (Sturtevant, 1913)

  10. Mappaggio genetico: un esempio Organismo modello semplice (unico cromosoma) • Numero di geni: 3 (colore di occhi, pelle, capelli) • Ogni gene può essere nello stato • R: fenotipo rosso • V: fenotipo verde • Dati un individuo madre (m1, m2, m3) e un individuo padre (p1, p2, p3), con mi e pi stati dei geni, un figlio è un individuo con insieme degli stati fornito da una particolare posizione di ricombinazione i compresa tra 0 e 3 (ad esempio (m1, p2, p3) per i=1) NB: per la stessa posizione di ricombinazione, l’insieme degli stati poteva anche essere (p1, m2, m3) • Ogni coppia di individui può dare luogo a 8 ricombinazioni diverse • La probabilità di ricombinazione alla posizione i è pari a 1/4

  11. Mappaggio genetico: un esempio Gen1 abc Gen2 def abc def aef dbc abf dec abc def Dati i fenotipi di un grande numero di figli di un genitore tutto rosso e uno tutto verde, si vuol trovare l’ordine dei geni

  12. Mappaggio genetico: un esempio Le diverse possibilità di ricombinazione tra un individuo (R, R, R) e uno (V, V, V) sono: • per i=0: (V, V, V) o (R, R, R) • per i=1: (R,V, V) o (V,R, R) • per i=2: (R, R,V) o (V, V,R) • per i=3: (R, R, R) o (V, V, Mappe genetiche) NB: - Probabilità di avere caratteri diversi per i geni in posizione 1 e 2: 1/4 - Probabilità di avere caratteri diversi per i geni in posizione 2 e 3: 1/4 - Probabilità di avere caratteri diversi per i geni in posizione 1 e 3: 1/2

  13. Mappaggio genetico: un esempio Generalizzando si ottiene • Numero di geni: n • Ogni gene può essere nello stato • R: fenotipo rosso • V: fenotipo verde • Dati un individuo madre (m1, m2, …, mn) e un individuo padre (p1, p2, …, pn), con mi e pi stati dei geni, un figlio è un individuo con insieme degli stati fornito da una particolare posizione di ricombinazione i compresa tra 0 e n ((m1, …, mi, pi+1, …, pn) o (p1, …, pi, mi+1, …, mn)) • Ogni coppia di individui può dare luogo a 2(n+1) ricombinazioni diverse • La probabilità di ricombinazione alla posizione i (probabilità di avere diversi i caratteri per i geni nelle posizioni i e i+1) è pari a 1/(n+1) • La probabilità di avere diversi i caratteri per i geni non consecutivi è pari a d/(n+1) con d distanza tra i caratteri

  14. Mappaggio genetico: un esempio INPUT: un elevato numero di figli di un individuo tutto rosso (R, R, …, R) e di uno tutto verde (V, V, …, V) OUTPUT: ordine (g1, g2, …, gn) dei geni nell’organismo modello Misurando la frequenza dei caratteri diversi nella popolazione dei figli, si risale alla stima delle distanze tra i geni gi e quindi al loro ordine sul cromosoma

  15. Mappaggio fisico del DNA • Mappa fisica := localizzazione di marcatori lungo la sequenza del DNA • Tecnica: RFLP (Restriction Fragments Length Polymorphism) • Esempio: Siti di restrizione • 1970: Hamilton Smithscopre che HindII taglia il DNA in corrispondenza di GTGCAC o GTTAAC • Il DNA umano è tagliato in circa un milione di frammenti • Mutazioni interne al sito di restrizione impediscono il taglio • 1973: Danna et al. costruiscono la prima mappa di restrizione per il DNA del Simian Virus 40

  16. Mappaggio fisico del DNA Il mappaggio fisico del DNA consiste nel • creare alcune copie del DNA da mappare • frammentare con enzimi di restrizione • confrontare i frammenti e le loro sovrapposizioni • Generazione di fingerprints per • analisi dei siti di restrizione • Misura della lunghezza dei frammenti • ibridazione • Ricerca di piccole sequenze che legano i frammenti

  17. 3 8 6 10 3 1 5 2 6 3 7 5 4 11 7 Analisi dei siti di restrizione Enzima A Enzima B Enzima A+B

  18. Problema della doppia digestione (DDP) INPUT: tre multinsiemi di numeri interi: A = {a1, a2, …, an} B = {b1, b2, …, bm} O = {o1, o2, …, ok} OUTPUT: due permutazioni di A e B, pA e pB, tali che, riportando su una retta gli elementi di A in segmenti consecutivi e ordinati secondo pA e gli elementi di B in segmenti consecutivi e ordinati secondo pB, si ottenga una suddivisione in segmenti corrispondenti agli elementi di O Il problema DDP è NP-completo (Goldstein e Waterman, 87)

  19. 3 8 6 10 pA 3 11 17 27 4 5 11 7 pB 4 9 20 27 3 1 5 2 6 3 7 pA UpB Problema della doppia digestione (DDP) Esempio INPUT: A = {3, 6, 8, 10} B = {4, 5, 7, 11} O = {1, 2, 3, 3, 5, 6, 7} OUTPUT:

More Related