Seminarvortrag ZOOM - Zillions of Oligos Mapped

1. SeminarvortragZOOM! - Zillions of Oligos Mapped von Konstantin Postlep und Andreas Moritz

2. Index Grundlagen DNA-Sequenzierung Genom Sequenzierungsmethoden Mapping ZOOM! Seeds , Space Seeds , Multiple Space Seeds Designing Spaced Seeds Komplexit�t , Hash Tables Ergebnisse und Effizienz Resultate Effizienzvergleich

3. DNA-Sequenz- Nukleotidsequenz- Bei der DNA ist das eine Sequenz aus den Basen : Adenin , Guanin , Thymin , Cytosin , abgek�rzt als A G T C

4. DNA-Sequenz- Nukleotidsequenz- Bei der DNA ist das eine Sequenz aus den Basen : Adenin , Guanin , Thymin , Cytosin , abgek�rzt als A G T CDNA-Sequenzierung- Die Bestimmung der DNA-Sequenz- Mitte der 70er Jahre Biochemische Verfahren zur Sequenzierung entwickelt- Technische Beschr�nkungen ? Jede Sequenzierreaktion erm�glicht nur das Ablesen eines kleinen DNA-Abschnittes mit unter 1000 Basenpaaren ? �read�

5. Genom- Erbgut eines Lebewesens- Alle vererbbaren Informationen- Diese Informationen stecken in der Basensequenz der DNA

6. Genom- Erbgut eines Lebewesens- Alle vererbbaren Informationen- Diese Informationen stecken in der Basensequenz der DNASequenzierte Organismen- Organismen, dessen DNA-Sequenz des Genoms vollst�ndig entschl�sselt wurde.- ein Grossteil der bisher sequenzierten Genome sind die von bakteriellen Mikroorganismen (aufgrund der Genomgr��e)- Humangenomprojekt ? Entschl�sselung des menschlichen Genoms. Es enth�lt 3Milliarden Basenpaare- Begonnen 1990 , Beendet 2004

8. Mapping- Vergleich der Sequenzierten DNA mit einem Referenz-Genom, um R�ckschl�sse gewinnen zu k�nnen- Alte Mapping-Methoden : Z.B. BLAST,RMAP- Errors sind beim Mapping-Prozess einzuplanen, aufgrund von Sequenzierungs-Fehlern und Variationen zum Referenz-GenomFormalisierung des Problems Eine Menge R an reads ist gegeben. F�r jedes Read r aus der Menge R finde die Zielregionen auf dem ReferenzGenom G, so das f�r jede Zielregon t maximal k Fehler zischen r und der Zielregion t liegen.

9. Seeds und Spaced Seeds- Seeds : Folgen von �bereinstimmenden Zeichen an den Sequenzpositionen.- Der Vergleich jeder einzelnen Position ist zu Zeitaufwendig ? Idee der Spaced Seeds- Spaced Seeds nutzen keine aneinanderh�ngende Sequenz von Buchstaben, die wichtigen Positionen wo ein �Match� n�tig ist, werden mit einer �1� gekennzeichnet, die unwichtigen mit einer �0�. - Die Gewichtung des Seed ist die Anzahl der 1en .- �001100011� w�re ein Spaced Seed mit weight 4 und der L�nge 9Beispiel

10. Vorteil Spaced Seeds- Selektivit�t : H�here Seed-Gewichtung ? weniger Matches- Sensitivit�t : Qualit�t der Suche. Nicht alle �bereinstimmungen k�nnen von einem Seed gefunden werden. Im letzten Beispiel z.B. h�tte das Seed �11111111111� die �bereinstimmung nicht entdeckt- Ein normales Seed �111111� findet dieselbe �bereinstimmung mehrmals (ein Feld nach Rechts verschoben isdt die wahrscheinlichkeit sehr gross).- Spaced Seeds sind �unabh�ngiger� und produzieren so nicht soviele doppelte Treffer ? Geschwindigkeitsverbesserung.Beispiel

11. Multiple Space Seeds- Jedes Seed kann �bereinstimmungen �bersehen- Unterschiedliche Seeds verfehlen unterschiedliche �bereinstimmungen- Das gleichzeitige Verwenden von mehreren, unterschiedlichen Spaced Seeds kann die Trefferrate verbessern.- Dabei wird eine gute Abstimmung zwischen den verschiedenen Seeds ben�tigt, um den Vorgang zu optimieren.

12. ZOOM !- Zoom verwendet verschiedene Spaced Seeds- Jedes genutzte Spaced Seed wird auf die L�nge des Reads erweitert, so dass es auch durch seine Position am Read definiert ist.- �000111010110000� w�re z.B. das Seed �11101011� an der 4. Stelle des Reads mit der L�nge 15- Durch ein optimales Design dieser Spaced Seeds kann eine minimal n�tige Anzahl Seeds gefunden werden, die ausreicht, um 100% Sensitivit�t zu erreichen- Jedes Spaced Seed wird so nur einmalig genutzt um den Read zu indexen.- m und k gegeben, designe eine minimale Anzahl an Spaced Seeds mit weight w , so dass wir 100% Sensitivit�t f�r alle (m,k) Regionen finden

13. Ein Beispiel- Diese 4 Designten Spaced Seeds mit Weight 13 k�nnen bei 2 erlaubten Fehlern 100% Sensitivit�t bei Reads der L�nge 33 gew�hrleisten. - Bei gr�sserer Read-L�nge m�ssen mehr Fehler erlaubt werden, z.B. 4 Fehler bei l�nge 50. - Wieviele Spaced Seeds bei bestimmter Gewichtung und Read L�nge ben�tigt werden bei 2 Fehlern f�r 100% Sensitivt�t in 2. Grafik

14. Hash Tables

15. Hash Tables

16. Hash Tables - Die Designed Spaced Seeds werden genutzt, um Input Reads in Hash Tables zu platzieren - Reads mit gleicher Base an allen 1-Positionen des Seeds in einer Zeile der Hash Table - Hash Key kommt von den Nucleotid-Buchstaben AGCT - in unserem Beispiel w�re das �CATA� f�r die erste Zeile. - Beim Mapping-Prozess wird jeder generierte Hash Key mit dem Eintrag verglichen und jeder dort vorhandene Read �berpr�ft

17. Komplexit�tohne hash tables :? O ( n * ( 4^w + N ))mit hash tables :? O ( 4^w + n*N ))

18. Ein paar Resultate Effizienzvergleich: - ZOOM bietet 100% Sensitivit�t bei maximal 2 Missmatches. - F�r den BAC Datensatz ben�tigte Mapping-Zeit in obiger Tabelle

19. Seed-weight und Effizienz - Man sieht, dass h�her gewichtete Seeds l�nger brauchen, um die Hash tables zu erstellen, daf�r insgesamt weniger Zeit bei einem grossen Referenz-Genom ben�tigen. - Ausserdem wird mehr Speicher ben�tigt.

20. Resume� - Die heutigen Sequenzierungsmethoden erfordern ein schnelles Mappen von kleinen DNA-Bruchst�cken (reads) zu einem Referenz-Genom. - Zoom ist eine Erweiterung der Multiple Space Seeds auf Seeds, die an verschiedenen Positionen des Read designed werden. - Dies hat die Anzahl der Indexe von jedem Read gesenkt, die n�tig sind, 100% Sensitivit�t zu erreichen. - Dadurch wurde sowohl die Geschwindigkeit, als auch der Speicher-Gebrauch drastisch gesenkt. - Zoom erm�glicht so, den grossen Berg an sequenzierter, zu mappender DNA in k�rzerer Zeit zu bew�ltigen.

21. Vielen DANK f�r ihre Aufmerksamkeit !! Verwendete Quellen : http://upload.wikimedia.org/wikipedia/commons/1/16/DNA_orbit_animated.gif http://www.bioinformaticssolutions.com/products/ph/approach.php http://de.wikipedia.org/w/index.php?title=Datei:DNA-Sequencers_from_Flickr_57080968.jpg&filetimestamp=20070111154214 http://www2.in.tu-clausthal.de/~hammer/lectures/biosem08/Lin.pdf

Seminarvortrag ZOOM - Zillions of Oligos Mapped

Seminarvortrag ZOOM - Zillions of Oligos Mapped

Presentation Transcript

Zoom!

“Zoom”

zoom

ZOOM

ZOOM

ZOOM!

IXPs: Mapped?

Zoom-Zoom

ZOOM

10 Mbp of oligos / $300 chip

Folienvorlagen für Seminarvortrag

ZOOM

ZoOm! ZoOm! ZoOm!