390 likes | 863 Vues
Podstawy bioinformatyki – sekwencjonowanie nowej generacji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu. Rozwój technologii i przyrost danych. Wzrost olbrzymiej ilości i objętości surowych danych potrzeba gromadzenia danych
E N D
Podstawy bioinformatyki – sekwencjonowanie nowej generacji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu
Rozwój technologii i przyrost danych Wzrost olbrzymiej ilości i objętości surowych danych potrzeba gromadzenia danych potrzeba stworzenia skomplikowanych procedur komputerowych do zarządzania danymi 1 osobnik Dane NGS w Katedrze Genetyki: 200 buhajów 32 krowy NGS
DANE NGS The second-generation machines arecharacterized by highly parallel operation, higher yield, simpler operation, much lower costper read, and (unfortunately) shorter reads. Today’s machines are commonly referred to asshort-read sequencers or next-generation sequencers (NGS) though their successors may be on thehorizon (Miller 2010). Sekwenatory pierwszej generacji : 500 – 1000 bp Sekwenatory drugiej generacji: • 454 Roche 400 – 700 bp • Illumina 100 bp (35 – 150 bp ) • SOLiD 100 bp Krótsze odczyty: • mniej informacji • ich składanie wymaga większego pokrycia genomu NGS
Pokrycie genomu wysokie pokrycie niskie pokrycie Krótkie Sekwencje Genom referencyjny NGS
Baza danych NCBI - SequenceReadArchive http://www.ncbi.nlm.nih.gov/sra NGS
Dane - format fastq SRR988073_1.fastq SRR988073_2.fastq NGS
Dane - format fastq 1. Nazwa sekwencji 2. Sekwencja 3. Separator 4. Jakość sekwencji (uwaga na kodowanie!) 1 odczyt (read) NGS
Kodowanie jakości http://en.wikipedia.org/wiki/FASTQ_format NGS
Dane – pary odczytów (paired-end) SRR988073_1.fastq SRR988073_2.fastq NGS
Dane – pary odczytów (paired-end) Single –end Paired – end Read 1 Read 1 Read 1 Read 2 Read 1 Read 1 Read 2 Reference Reference NGS
Dane – pary odczytów (paired-end) Single –end Paired – end Read 1 Read 1 Read 1 Read 2 Read 1 Read 1 Read 2 Reference Reference NGS
FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ • Kontrola jakości danych • Graficzne przedstawienie sekwencji • Tworzenie raportu • Brak możliwości filtracji danych NGS
Basic statistics NGS
Per basesequencequality Length 35bp to 150bp, typically100bp today Attributes High qualityat 5' start, lowerstoward 3' end • Jakość dla każdej pozycji • Mediana • Wykres pudełkowy • Max/min • Średnia • Ostrzeżenie – niższy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25 • Awaria – niższy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20 NGS
Per sequencequalityscores Średnia jakość sekwencji Ostrzeżenie – najczęściej obserwowane średnia jakość <27 Awaria – najczęściej obserwowane średnia jakość< 20 NGS
Per baseN content Ostrzeżenie – dowolna pozycja pokazuje zawartość N> 5%. Awaria – dowolna pozycja pokazuje zawartość N> 20%. NGS
SequenceLengthDistribution Ostrzeżenie – sekwencje nie są tej samej długości Awaria – którakolwiek sekwencja ma długość 0 NGS
Edycja danych NGS
PRINSEQ http://prinseq.sourceforge.net/index.html NGS
PRINSEQ Jakoś satysfakcjonująca - 20 Dopuszczalna długość sekwencji -60 pz NGS
Przyrównanie do sekwencji referencyjnej read ACTGGGGGGGA GGGAACCTTTCT GGGAAAAATTTC CCTTTCTTTGGA ACTGGGGGGGAAAAATTTCAAAGGGAACCTTTCTTTGGAGGGTT reference NGS złożenie krótkich fragmentów
Przyrównanie do genomu referencyjnego - software BfastBioScopeBowtie BWA CLC bioCloudBurst Eland/Eland2 GenomeMapperGnuMap Karma MAQ MOM MosaikMrFAST/MrsFASTNovoAlign PASS PerMRazerS RMAP SSAHA2 SegemehlSeqMapSHRiMPSlider/SliderII SOAP/SOAP2 Stampy ZOOM… … i wiele wiele innych NGS
Przyrównanie do genomu referencyjnego - algorytmy 1. Hashtable: • „Hashtable on the set of inputreads” • „Hashtable on thereferencegenome” 2. TransformataBurrowsa-Wheelera (BWT) Oprogramowanie = formatowanie genomu referencyjnego + przyrównanie do genomu referencyjnego NGS
BWA NGS
Przykłady programów Tabela2. Programy służące do przyrównania do genomu referencyjnego (Pabingeret.al. 2013) NGS
Format SAM SequenceAlignment/Map Format: • popularny, uniwersalny • zawiera informacje na temat przyrównania headersection alignmentsection NGS
Format BAM BinaryAlignment/Map Format: • binarny odpowiednik formatu SAM • skompresowany przez BGZF • zajmuje mniej pamięci dysku (stanowi ok. 27% oryginalnego pliku w formacie SAM) NGS
Poszukiwanie polimorfizmów • SNP – Polimorfizm pojedynczego nukleotydu ACTGACTGACTGCCCGTTCCA ACTGACTCACTGCCCGTTCCG • INDEL: insercja delecja ACTGACTGACTGCCCGTTCCA ACTGACTGACTGCCCGTTCC ACTGACTGACTGGCTCCCGTTCCA ACTGA - - - - CTGCCCGTTCC NGS
Poszukiwanie polimorfizmów – pakiet Samtools http://samtools.sourceforge.net/ http://samtools.sourceforge.net/mpileup.shtml NGS
SNP Venn diagrams showing the number of identified variants for tested tools (Pabinger et al. 2013) NGS
IGV http://www.broadinstitute.org/igv/ NGS
IGV NGS
Automatyzacja pracy Automatyzacja działania programów pozwala na: • skrócenie czasu analiz – równoległe działanie programów • oszczędność czasu - uniwersalność skryptów, wykorzystanie dla różnych danych • unikanie błędów • pracę z ogromnymi zbiorami danych NGS