1 / 38

Podstawy bioinformatyki – sekwencjonowanie nowej generacji

Podstawy bioinformatyki – sekwencjonowanie nowej generacji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu. Rozwój technologii i przyrost danych. Wzrost olbrzymiej ilości i objętości surowych danych  potrzeba gromadzenia danych

juan
Télécharger la présentation

Podstawy bioinformatyki – sekwencjonowanie nowej generacji

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Podstawy bioinformatyki – sekwencjonowanie nowej generacji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

  2. Rozwój technologii i przyrost danych Wzrost olbrzymiej ilości i objętości surowych danych  potrzeba gromadzenia danych  potrzeba stworzenia skomplikowanych procedur komputerowych do zarządzania danymi 1 osobnik Dane NGS w Katedrze Genetyki: 200 buhajów 32 krowy NGS

  3. DANE NGS The second-generation machines arecharacterized by highly parallel operation, higher yield, simpler operation, much lower costper read, and (unfortunately) shorter reads. Today’s machines are commonly referred to asshort-read sequencers or next-generation sequencers (NGS) though their successors may be on thehorizon (Miller 2010). Sekwenatory pierwszej generacji : 500 – 1000 bp Sekwenatory drugiej generacji: • 454 Roche 400 – 700 bp • Illumina 100 bp (35 – 150 bp ) • SOLiD 100 bp Krótsze odczyty: • mniej informacji • ich składanie wymaga większego pokrycia genomu NGS

  4. Pokrycie genomu wysokie pokrycie niskie pokrycie Krótkie Sekwencje Genom referencyjny NGS

  5. Baza danych NCBI -  SequenceReadArchive http://www.ncbi.nlm.nih.gov/sra NGS

  6. Dane - format fastq SRR988073_1.fastq SRR988073_2.fastq NGS

  7. Dane - format fastq 1. Nazwa sekwencji 2. Sekwencja 3. Separator 4. Jakość sekwencji (uwaga na kodowanie!) 1 odczyt (read) NGS

  8. Kodowanie jakości http://en.wikipedia.org/wiki/FASTQ_format NGS

  9. Dane – pary odczytów (paired-end) SRR988073_1.fastq SRR988073_2.fastq NGS

  10. Dane – pary odczytów (paired-end) Single –end Paired – end Read 1 Read 1 Read 1 Read 2 Read 1 Read 1 Read 2 Reference Reference NGS

  11. Dane – pary odczytów (paired-end) Single –end Paired – end Read 1 Read 1 Read 1 Read 2 Read 1 Read 1 Read 2 Reference Reference NGS

  12. FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ •  Kontrola jakości danych • Graficzne przedstawienie sekwencji • Tworzenie raportu • Brak możliwości filtracji danych NGS

  13. Basic statistics NGS

  14. Per basesequencequality Length 35bp to 150bp, typically100bp today Attributes  High qualityat 5' start, lowerstoward 3' end • Jakość dla każdej pozycji • Mediana • Wykres pudełkowy • Max/min • Średnia • Ostrzeżenie – niższy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25 • Awaria – niższy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20 NGS

  15. Per sequencequalityscores Średnia jakość sekwencji Ostrzeżenie – najczęściej obserwowane średnia jakość <27 Awaria – najczęściej obserwowane średnia jakość< 20 NGS

  16. Per baseN content Ostrzeżenie – dowolna pozycja pokazuje zawartość N> 5%. Awaria – dowolna pozycja pokazuje zawartość N> 20%. NGS

  17. SequenceLengthDistribution Ostrzeżenie – sekwencje nie są tej samej długości Awaria – którakolwiek sekwencja ma długość 0 NGS

  18. Edycja danych NGS

  19. Torsten Seemann - CleaningIlluminareads NGS

  20. PRINSEQ http://prinseq.sourceforge.net/index.html NGS

  21. PRINSEQ Jakoś satysfakcjonująca - 20 Dopuszczalna długość sekwencji -60 pz NGS

  22. Przyrównanie do genomu referencyjnego NGS

  23. Przyrównanie do sekwencji referencyjnej read ACTGGGGGGGA GGGAACCTTTCT GGGAAAAATTTC CCTTTCTTTGGA ACTGGGGGGGAAAAATTTCAAAGGGAACCTTTCTTTGGAGGGTT reference NGS  złożenie krótkich fragmentów

  24. Genom referencyjny - NCBI NGS

  25. Genom referencyjny - format fasta NGS

  26. Przyrównanie do genomu referencyjnego - software BfastBioScopeBowtie BWA CLC bioCloudBurst Eland/Eland2 GenomeMapperGnuMap Karma MAQ MOM MosaikMrFAST/MrsFASTNovoAlign PASS PerMRazerS RMAP SSAHA2 SegemehlSeqMapSHRiMPSlider/SliderII SOAP/SOAP2 Stampy ZOOM… … i wiele wiele innych NGS

  27. Przyrównanie do genomu referencyjnego - algorytmy 1. Hashtable: • „Hashtable on the set of inputreads” • „Hashtable on thereferencegenome” 2. TransformataBurrowsa-Wheelera (BWT) Oprogramowanie = formatowanie genomu referencyjnego + przyrównanie do genomu referencyjnego NGS

  28. BWA NGS

  29. Przykłady programów Tabela2. Programy służące do przyrównania do genomu referencyjnego (Pabingeret.al. 2013) NGS

  30. Format SAM SequenceAlignment/Map Format: • popularny, uniwersalny • zawiera informacje na temat przyrównania headersection alignmentsection NGS

  31. Format BAM BinaryAlignment/Map Format: • binarny odpowiednik formatu SAM • skompresowany przez BGZF • zajmuje mniej pamięci dysku (stanowi ok. 27% oryginalnego pliku w formacie SAM) NGS

  32. Poszukiwanie POLIMORFIZMÓW DNA NGS

  33. Poszukiwanie polimorfizmów • SNP – Polimorfizm pojedynczego nukleotydu ACTGACTGACTGCCCGTTCCA ACTGACTCACTGCCCGTTCCG • INDEL: insercja delecja ACTGACTGACTGCCCGTTCCA ACTGACTGACTGCCCGTTCC ACTGACTGACTGGCTCCCGTTCCA ACTGA - - - - CTGCCCGTTCC NGS

  34. Poszukiwanie polimorfizmów – pakiet Samtools http://samtools.sourceforge.net/ http://samtools.sourceforge.net/mpileup.shtml NGS

  35. SNP Venn diagrams showing the number of identified variants for tested tools (Pabinger et al. 2013) NGS

  36. IGV http://www.broadinstitute.org/igv/ NGS

  37. IGV NGS

  38. Automatyzacja pracy Automatyzacja działania programów pozwala na: • skrócenie czasu analiz – równoległe działanie programów • oszczędność czasu - uniwersalność skryptów, wykorzystanie dla różnych danych • unikanie błędów • pracę z ogromnymi zbiorami danych NGS

More Related