E N D
1. SeminarvortragZOOM! - Zillions of Oligos Mapped von
Konstantin Postlep
und
Andreas Moritz
2. Index
Grundlagen
DNA-Sequenzierung
Genom
Sequenzierungsmethoden
Mapping
ZOOM!
Seeds , Space Seeds , Multiple Space Seeds
Designing Spaced Seeds
Komplexitt , Hash Tables
Ergebnisse und Effizienz
Resultate
Effizienzvergleich
3. DNA-Sequenz- Nukleotidsequenz- Bei der DNA ist das eine Sequenz aus den Basen : Adenin , Guanin , Thymin , Cytosin , abgekrzt als A G T C
4. DNA-Sequenz- Nukleotidsequenz- Bei der DNA ist das eine Sequenz aus den Basen : Adenin , Guanin , Thymin , Cytosin , abgekrzt als A G T CDNA-Sequenzierung- Die Bestimmung der DNA-Sequenz- Mitte der 70er Jahre Biochemische Verfahren zur Sequenzierung entwickelt- Technische Beschrnkungen ? Jede Sequenzierreaktion ermglicht nur das Ablesen eines kleinen DNA-Abschnittes mit unter 1000 Basenpaaren ? read
5. Genom- Erbgut eines Lebewesens- Alle vererbbaren Informationen- Diese Informationen stecken in der Basensequenz der DNA
6. Genom- Erbgut eines Lebewesens- Alle vererbbaren Informationen- Diese Informationen stecken in der Basensequenz der DNASequenzierte Organismen- Organismen, dessen DNA-Sequenz des Genoms vollstndig entschlsselt wurde.- ein Grossteil der bisher sequenzierten Genome sind die von bakteriellen Mikroorganismen (aufgrund der Genomgre)- Humangenomprojekt ? Entschlsselung des menschlichen Genoms. Es enthlt 3Milliarden Basenpaare- Begonnen 1990 , Beendet 2004
8. Mapping- Vergleich der Sequenzierten DNA mit einem Referenz-Genom, um Rckschlsse gewinnen zu knnen- Alte Mapping-Methoden : Z.B. BLAST,RMAP- Errors sind beim Mapping-Prozess einzuplanen, aufgrund von Sequenzierungs-Fehlern und Variationen zum Referenz-GenomFormalisierung des Problems Eine Menge R an reads ist gegeben. Fr jedes Read r aus der Menge R finde die Zielregionen auf dem ReferenzGenom G, so das fr jede Zielregon t maximal k Fehler zischen r und der Zielregion t liegen.
9. Seeds und Spaced Seeds- Seeds : Folgen von bereinstimmenden Zeichen an den Sequenzpositionen.- Der Vergleich jeder einzelnen Position ist zu Zeitaufwendig ? Idee der Spaced Seeds- Spaced Seeds nutzen keine aneinanderhngende Sequenz von Buchstaben, die wichtigen Positionen wo ein Match ntig ist, werden mit einer 1 gekennzeichnet, die unwichtigen mit einer 0. - Die Gewichtung des Seed ist die Anzahl der 1en .- 001100011 wre ein Spaced Seed mit weight 4 und der Lnge 9Beispiel
10. Vorteil Spaced Seeds- Selektivitt : Hhere Seed-Gewichtung ? weniger Matches- Sensitivitt : Qualitt der Suche. Nicht alle bereinstimmungen knnen von einem Seed gefunden werden. Im letzten Beispiel z.B. htte das Seed 11111111111 die bereinstimmung nicht entdeckt- Ein normales Seed 111111 findet dieselbe bereinstimmung mehrmals (ein Feld nach Rechts verschoben isdt die wahrscheinlichkeit sehr gross).- Spaced Seeds sind unabhngiger und produzieren so nicht soviele doppelte Treffer ? Geschwindigkeitsverbesserung.Beispiel
11. Multiple Space Seeds- Jedes Seed kann bereinstimmungen bersehen- Unterschiedliche Seeds verfehlen unterschiedliche bereinstimmungen- Das gleichzeitige Verwenden von mehreren, unterschiedlichen Spaced Seeds kann die Trefferrate verbessern.- Dabei wird eine gute Abstimmung zwischen den verschiedenen Seeds bentigt, um den Vorgang zu optimieren.
12. ZOOM !- Zoom verwendet verschiedene Spaced Seeds- Jedes genutzte Spaced Seed wird auf die Lnge des Reads erweitert, so dass es auch durch seine Position am Read definiert ist.- 000111010110000 wre z.B. das Seed 11101011 an der 4. Stelle des Reads mit der Lnge 15- Durch ein optimales Design dieser Spaced Seeds kann eine minimal ntige Anzahl Seeds gefunden werden, die ausreicht, um 100% Sensitivitt zu erreichen- Jedes Spaced Seed wird so nur einmalig genutzt um den Read zu indexen.- m und k gegeben, designe eine minimale Anzahl an Spaced Seeds mit weight w , so dass wir 100% Sensitivitt fr alle (m,k) Regionen finden
13. Ein Beispiel- Diese 4 Designten Spaced Seeds mit Weight 13 knnen bei 2 erlaubten Fehlern 100% Sensitivitt bei Reads der Lnge 33 gewhrleisten. - Bei grsserer Read-Lnge mssen mehr Fehler erlaubt werden, z.B. 4 Fehler bei lnge 50. - Wieviele Spaced Seeds bei bestimmter Gewichtung und Read Lnge bentigt werden bei 2 Fehlern fr 100% Sensitivtt in 2. Grafik
14. Hash Tables
15. Hash Tables
16. Hash Tables - Die Designed Spaced Seeds werden genutzt, um Input Reads in Hash Tables zu platzieren
- Reads mit gleicher Base an allen 1-Positionen des Seeds in einer Zeile der Hash Table
- Hash Key kommt von den Nucleotid-Buchstaben AGCT
- in unserem Beispiel wre das CATA fr die erste Zeile.
- Beim Mapping-Prozess wird jeder generierte Hash Key mit dem Eintrag verglichen und jeder dort vorhandene Read berprft
17. Komplexittohne hash tables :? O ( n * ( 4^w + N ))mit hash tables :? O ( 4^w + n*N ))
18. Ein paar Resultate Effizienzvergleich:
- ZOOM bietet 100% Sensitivitt bei maximal 2 Missmatches.
- Fr den BAC Datensatz bentigte Mapping-Zeit in obiger Tabelle
19. Seed-weight und Effizienz
- Man sieht, dass hher gewichtete Seeds lnger brauchen, um die Hash tables zu erstellen, dafr insgesamt weniger Zeit bei einem grossen Referenz-Genom bentigen.
- Ausserdem wird mehr Speicher bentigt.
20. Resume - Die heutigen Sequenzierungsmethoden erfordern ein schnelles Mappen von kleinen DNA-Bruchstcken (reads) zu einem Referenz-Genom.
- Zoom ist eine Erweiterung der Multiple Space Seeds auf Seeds, die an verschiedenen Positionen des Read designed werden.
- Dies hat die Anzahl der Indexe von jedem Read gesenkt, die ntig sind, 100% Sensitivitt zu erreichen.
- Dadurch wurde sowohl die Geschwindigkeit, als auch der Speicher-Gebrauch drastisch gesenkt.
- Zoom ermglicht so, den grossen Berg an sequenzierter, zu mappender DNA in krzerer Zeit zu bewltigen.
21. Vielen DANK fr ihre Aufmerksamkeit !! Verwendete Quellen :
http://upload.wikimedia.org/wikipedia/commons/1/16/DNA_orbit_animated.gif
http://www.bioinformaticssolutions.com/products/ph/approach.php
http://de.wikipedia.org/w/index.php?title=Datei:DNA-Sequencers_from_Flickr_57080968.jpg&filetimestamp=20070111154214
http://www2.in.tu-clausthal.de/~hammer/lectures/biosem08/Lin.pdf