1 / 21

Seminarvortrag ZOOM - Zillions of Oligos Mapped

red
Télécharger la présentation

Seminarvortrag ZOOM - Zillions of Oligos Mapped

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. Seminarvortrag ZOOM! - Zillions of Oligos Mapped von Konstantin Postlep und Andreas Moritz

    2. Index Grundlagen DNA-Sequenzierung Genom Sequenzierungsmethoden Mapping ZOOM! Seeds , Space Seeds , Multiple Space Seeds Designing Spaced Seeds Komplexitt , Hash Tables Ergebnisse und Effizienz Resultate Effizienzvergleich

    3. DNA-Sequenz - Nukleotidsequenz - Bei der DNA ist das eine Sequenz aus den Basen : Adenin , Guanin , Thymin , Cytosin , abgekrzt als A G T C

    4. DNA-Sequenz - Nukleotidsequenz - Bei der DNA ist das eine Sequenz aus den Basen : Adenin , Guanin , Thymin , Cytosin , abgekrzt als A G T C DNA-Sequenzierung - Die Bestimmung der DNA-Sequenz - Mitte der 70er Jahre Biochemische Verfahren zur Sequenzierung entwickelt - Technische Beschrnkungen ? Jede Sequenzierreaktion ermglicht nur das Ablesen eines kleinen DNA-Abschnittes mit unter 1000 Basenpaaren ? read

    5. Genom - Erbgut eines Lebewesens - Alle vererbbaren Informationen - Diese Informationen stecken in der Basensequenz der DNA

    6. Genom - Erbgut eines Lebewesens - Alle vererbbaren Informationen - Diese Informationen stecken in der Basensequenz der DNA Sequenzierte Organismen - Organismen, dessen DNA-Sequenz des Genoms vollstndig entschlsselt wurde. - ein Grossteil der bisher sequenzierten Genome sind die von bakteriellen Mikroorganismen (aufgrund der Genomgre) - Humangenomprojekt ? Entschlsselung des menschlichen Genoms. Es enthlt 3Milliarden Basenpaare - Begonnen 1990 , Beendet 2004

    8. Mapping - Vergleich der Sequenzierten DNA mit einem Referenz-Genom, um Rckschlsse gewinnen zu knnen - Alte Mapping-Methoden : Z.B. BLAST,RMAP - Errors sind beim Mapping-Prozess einzuplanen, aufgrund von Sequenzierungs-Fehlern und Variationen zum Referenz-Genom Formalisierung des Problems Eine Menge R an reads ist gegeben. Fr jedes Read r aus der Menge R finde die Zielregionen auf dem ReferenzGenom G, so das fr jede Zielregon t maximal k Fehler zischen r und der Zielregion t liegen.

    9. Seeds und Spaced Seeds - Seeds : Folgen von bereinstimmenden Zeichen an den Sequenzpositionen. - Der Vergleich jeder einzelnen Position ist zu Zeitaufwendig ? Idee der Spaced Seeds - Spaced Seeds nutzen keine aneinanderhngende Sequenz von Buchstaben, die wichtigen Positionen wo ein Match ntig ist, werden mit einer 1 gekennzeichnet, die unwichtigen mit einer 0. - Die Gewichtung des Seed ist die Anzahl der 1en . - 001100011 wre ein Spaced Seed mit weight 4 und der Lnge 9 Beispiel

    10. Vorteil Spaced Seeds - Selektivitt : Hhere Seed-Gewichtung ? weniger Matches - Sensitivitt : Qualitt der Suche. Nicht alle bereinstimmungen knnen von einem Seed gefunden werden. Im letzten Beispiel z.B. htte das Seed 11111111111 die bereinstimmung nicht entdeckt - Ein normales Seed 111111 findet dieselbe bereinstimmung mehrmals (ein Feld nach Rechts verschoben isdt die wahrscheinlichkeit sehr gross). - Spaced Seeds sind unabhngiger und produzieren so nicht soviele doppelte Treffer ? Geschwindigkeitsverbesserung. Beispiel

    11. Multiple Space Seeds - Jedes Seed kann bereinstimmungen bersehen - Unterschiedliche Seeds verfehlen unterschiedliche bereinstimmungen - Das gleichzeitige Verwenden von mehreren, unterschiedlichen Spaced Seeds kann die Trefferrate verbessern. - Dabei wird eine gute Abstimmung zwischen den verschiedenen Seeds bentigt, um den Vorgang zu optimieren.

    12. ZOOM ! - Zoom verwendet verschiedene Spaced Seeds - Jedes genutzte Spaced Seed wird auf die Lnge des Reads erweitert, so dass es auch durch seine Position am Read definiert ist. - 000111010110000 wre z.B. das Seed 11101011 an der 4. Stelle des Reads mit der Lnge 15 - Durch ein optimales Design dieser Spaced Seeds kann eine minimal ntige Anzahl Seeds gefunden werden, die ausreicht, um 100% Sensitivitt zu erreichen - Jedes Spaced Seed wird so nur einmalig genutzt um den Read zu indexen. - m und k gegeben, designe eine minimale Anzahl an Spaced Seeds mit weight w , so dass wir 100% Sensitivitt fr alle (m,k) Regionen finden

    13. Ein Beispiel - Diese 4 Designten Spaced Seeds mit Weight 13 knnen bei 2 erlaubten Fehlern 100% Sensitivitt bei Reads der Lnge 33 gewhrleisten. - Bei grsserer Read-Lnge mssen mehr Fehler erlaubt werden, z.B. 4 Fehler bei lnge 50. - Wieviele Spaced Seeds bei bestimmter Gewichtung und Read Lnge bentigt werden bei 2 Fehlern fr 100% Sensitivtt in 2. Grafik

    14. Hash Tables

    15. Hash Tables

    16. Hash Tables - Die Designed Spaced Seeds werden genutzt, um Input Reads in Hash Tables zu platzieren - Reads mit gleicher Base an allen 1-Positionen des Seeds in einer Zeile der Hash Table - Hash Key kommt von den Nucleotid-Buchstaben AGCT - in unserem Beispiel wre das CATA fr die erste Zeile. - Beim Mapping-Prozess wird jeder generierte Hash Key mit dem Eintrag verglichen und jeder dort vorhandene Read berprft

    17. Komplexitt ohne hash tables : ? O ( n * ( 4^w + N )) mit hash tables : ? O ( 4^w + n*N ))

    18. Ein paar Resultate Effizienzvergleich: - ZOOM bietet 100% Sensitivitt bei maximal 2 Missmatches. - Fr den BAC Datensatz bentigte Mapping-Zeit in obiger Tabelle

    19. Seed-weight und Effizienz - Man sieht, dass hher gewichtete Seeds lnger brauchen, um die Hash tables zu erstellen, dafr insgesamt weniger Zeit bei einem grossen Referenz-Genom bentigen. - Ausserdem wird mehr Speicher bentigt.

    20. Resume - Die heutigen Sequenzierungsmethoden erfordern ein schnelles Mappen von kleinen DNA-Bruchstcken (reads) zu einem Referenz-Genom. - Zoom ist eine Erweiterung der Multiple Space Seeds auf Seeds, die an verschiedenen Positionen des Read designed werden. - Dies hat die Anzahl der Indexe von jedem Read gesenkt, die ntig sind, 100% Sensitivitt zu erreichen. - Dadurch wurde sowohl die Geschwindigkeit, als auch der Speicher-Gebrauch drastisch gesenkt. - Zoom ermglicht so, den grossen Berg an sequenzierter, zu mappender DNA in krzerer Zeit zu bewltigen.

    21. Vielen DANK fr ihre Aufmerksamkeit !! Verwendete Quellen : http://upload.wikimedia.org/wikipedia/commons/1/16/DNA_orbit_animated.gif http://www.bioinformaticssolutions.com/products/ph/approach.php http://de.wikipedia.org/w/index.php?title=Datei:DNA-Sequencers_from_Flickr_57080968.jpg&filetimestamp=20070111154214 http://www2.in.tu-clausthal.de/~hammer/lectures/biosem08/Lin.pdf

More Related