1 / 46

Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 1. část

Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 1. část Petr Koutecký & Jiří Košnar, 201 3. Vytvořeno v rámci projektu Molekularizace biologických oborů PřF JU reg. č. CZ.1.07/2.2.00/15.0364. Historie, princip sekvenování DNA. Sekvenování DNA

maik
Télécharger la présentation

Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 1. část

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Metody molekulární biologie v ekologii a systematice rostlin 5. Sekvenování DNA – 1. část Petr Koutecký & Jiří Košnar, 2013 Vytvořeno v rámci projektu Molekularizace biologických oborů PřF JU reg. č. CZ.1.07/2.2.00/15.0364

  2. Historie, princip sekvenování DNA • Sekvenování DNA řešení otázek: • fylogeneze, na jakékoli tax. úrovni • taxonomie na úrovni druhů, příp. vnitrodruhových taxonů • hybridizace • fylogeografie • molekulární identifikace - barcoding předpoklady: • musíme znát primery na PCR amplifikaci zvoleného úseku • musíme nalézt vhodně variabilní úsek • metodicky často ne příliš náročné, stačí rel. málo genomové DNA • dost peněz (rel. drahé)

  3. Princip sekvenování DNA • Metody sekvenování DNA • chain terminator method: sekvenování syntézou DNA • dideoxynukleotidy (ddNTPs): nemají 3´-OH skupinu pro další prodlužování řetězce DNA, proto terminují Sanger &Coulson, 1975 • ddNTPs smíchané s převládajícími dNTPs • sekvenační reakce – DNA polymeráza, pouze 1 primer, podobné PCR (cycle sequencing), ale fragmenty přibývají lineárně! • při inkorporaci značeného ddNTP - terminace • vznikají různě dlouhé fragmenty – ELFO denaturační PAA gel, kapilární ELFO se sekv. polymerem A původně 4 reakce (každý nukleotid zvlášť) B dye termination: ddNTPs odlišně fluorescenčně značené, sekvenační reakce probíhá najednou B A

  4. Princip sekvenování DNA • Jak probíhá zpracování vzorku: • je nutné mít PCR produkt úseku, který chceme sekvenovat: • bez nespecifických PCR produktů • dostatečně koncentrovaný PCR produkt lze přímo sekvenovat • u slabších bandů je třeba odstranit neinkorporované primery a dNTPs(sekvenace je jednosměrná → nutný řádový nadbytek 1 primeru; musí být přesně vyvážený poměr dNTP a ddNTP) • kitová purifikace (PCR clean up kity) – vhodné i pro odstranění nespecif. fragmentů a dimerů primerů do 100 bp • EXOSAP: enzymatické odstranění primerů (ExoI) a dNTPs (SAP) ExoI: Exonuclease I, štěpí jednovláknovou DNA; SAP – shrimp alkaline phosphatase, degraduje dNTPs • vlastní sekvenaci provádějí servisní pracoviště – vyžadují dodání PCR produktu + požadovaného sekvenačního primeru

  5. Výstup ze sekvenátoru • Data ze sekvenátoru: • vizualizace a editace - free programy (FinchTV – prohlížení a editace Sequence Scanner –prohlížení, zobrazuje i raw data a parametry runu BioEdit (BioLign)– prohlížení a editace, sestavování alignmentu) • jeden běh sekvenace pokryje 500-900 bp • delší úseky se dají pokrýt sekvenování z reverse směru (za použití reverse PCR primeru), případně pomocí vnitřních primerů

  6. Výstup ze sekvenátoru • Ideální výsledek: • jednotlivé, nepřekrývající se píky = jasně určené báze sekvence • prvních ~30 bp včetně sekv. primeru nečitelných (nevýhoda Sanger metody) • po 500-800 bp: postupný pokles signálu, problém zejména s určením počtu nukleotidů u opakujících se bází - vždy vhodná manuální editace!, příp. doplňující sekvenace v reverse směru konecsekvence: náhlý pokles signálu, často patrná sekvence reverse primerü (v reverse complement podobě!) raw signál: vyrovnaný průběh příp. mírný pokles

  7. Výstup ze sekvenátoru Skládání forward a reverse sekvence daného vzorku: aby bylo možné srovnat, je nutné reverse sekvenci převést do reverse complement forward sekvenace → - nezachytí prvních ~30 bp (← reverse sekvenace) 5´ - GGAGAAGTCGTAACAAGGTTTCCG – 3´ sekvence forward primeru – vždy pouze na konci reverse sekv. (forward sekvenace →) 5´ - TCCTCCGCTTAGTGATATGC – 3´ - reverse complement sekvence reverse primeru, vždy pouze na konci forward sekv. ← reverse sekvenace - nezachytí posledních ~30 bp

  8. Výstup ze sekvenátoru Technické artefakty sekvenace: ? • PCR produkt může být v pořádku, pouze chyba během přípravy vzorku na sekvenaci • dejte znovu sekvenovat... • vmezeřené píky (často jde o jeden typ barvy – nukleotidu); zeditovat!

  9. Výstup ze sekvenátoru • Technické artefakty sekvenace: • bloby - nadbytek neinkorporovaných ddNTPs • nejasná místa blobu řeší sekvenace v reverse směru; někdy možné i zeditovat: artefaktní píky obvykle nápadně vysoké a neostré, překryvají pravé píky bází (aac) artefakt

  10. Výstup ze sekvenátoru Technické artefakty sekvenace: • spike – překryje 1-2 báze, nutná reverse sekvenace (vznik nejasný - malé vzduchové bubliny v kapiláře?) • zákeřné chyby vyhodnocovacího programu (?) - před analýzou dat zkontrolovat podezřele variabilní místa!

  11. Výstup ze sekvenátoru • Technické artefakty sekvenace: • chyby polymerázy u repetitivních sekvencí (často u cpDNA) u 2 bp a více bp mikrosatelitů: nečitelnou část sekvence lze doplnit reverse sekvenací

  12. Výstup ze sekvenátoru Technické artefakty sekvenace: • inhibice sekvenace: indikují ji např. raw data v programu Sequence Scanner; signál po celou délku runu ideálně ~1000-2000 předčasný konec čtení: sekvence neúplná, chybí místo reverse primeru! raw signál: náhlý pokles, abnormální signál

  13. Výstup ze sekvenátoru Technické artefakty sekvenace: • nadbytek PCR produktu: spotřebování / opotřebení sekv. reagencií předčasný pokles kvality a výšky píků (např. už od 300-400 bp) raw signál: vysoké počáteční píky, pak patrný pokles

  14. Výstup ze sekvenátoru Technické artefakty sekvenace: • málo PCR produktu: nejčastěji u slabých bandů nízká kvalita čtení, abnormální morfologie píků, zdvojené píky raw signál: signál <100, téměř nepřevyšuje bazální šum

  15. Výstup ze sekvenátoru Zákeřnější artefakty sekvenace: • sekvence PCR produktu tvoří sekundární strukturu – smyčku náhlý, nápadný pokles signálu: http://mfold.rna.albany.edu/?q=mfold/DNA-Folding-Form začátek smyčky problematické jsou patrně smyčky stabilní za elongační teploty sekvenace (65-72°C); u méně stabilních sek. struktur pomůže(?) přidání denaturačních látek (např. DMSO); ani reverse sekvenace nepokryje vlastní oblast smyčky (pouze oblast za ní)

  16. Výstup ze sekvenátoru Zákeřnější artefakty sekvenace: • dimery primerů: horší signál na začátku, paknáhlé zlepšení: podobné i jiné, delší nespecif. PCR produkty; řeší gelová extrakce, nebo doplňující sekvenace v reverse směru ! signál dimerů může převyšovat signál cílového PCR produktu → začátek sekvence je nesmyslný (nesedí na příbuzné sekvence) - nutné oříznout! falešný ´dimerový´ signál cílový signál

  17. Výstup ze sekvenátoru Zákeřnější artefakty sekvenace: • kontaminace signálem ze sekvence z necílového organismu: (ITS sekvence mechu r. Didymodon, nižší píky odpovídají kvasince - r. Yarrowia?) • kontaminační píky obvykle od začátku sekvence (a často až do konce) (pozn.: výše uvedený příklad zachycuje situaci, kdy se cílový a kontaminující PCR produkt lišil délkou)

  18. Sekvenování DNA - paralogy Paralogy • na první pohled připomínají kontaminaci sekvenace • v genomu více rozrůzněných kopií úseku, použité primery je chytají • typické pro multi-copy úseky: jaderná rDNA, vzácně ale i cpDNA • i u low-copy úseků, nebo dokonce u single-copy úseků u (diploidních) heterozygotních jedinců • mohou komplikovat analýzu a interpretaci dat: • zásadním předpokladem je homologie posuzovaných objektů (orthology) často neřešitelné otázky: která ze 2 sekvencí taxonu B je homologická se sekvencí taxonu A? co s případem, kdy při zahrnutí obou sekvencí taxonu B, dává každá jiný výsledek?

  19. Výstup ze sekvenátoru Paralogy • při sekvenci PCR produktu se poznají podle zdvojených píků: na rozdíl od kontaminace bývá začátek sekvence čitelný! a) paralogy lišící se substitucemi:

  20. Výstup ze sekvenátoru Paralogy b) paralogy lišící se indely – obvykle působí nečitelnost sekvence: (indel = místo inzerce nebo delece nukleotidu) někdy se projeví i poklesem na raw signálu (ale ne tak nápadné jako u smyčky nebo inhibice)

  21. Výstup ze sekvenátoru Paralogy zdánlivě neproblematická sekvenace z jednoho směru ... ? možná inhibice? ... reverse sekvenace jasně prokáže paralogy (a vyloučí možnost inhibice):

  22. Sekvenování DNA - paralogy • Co s paralogy? • minoritní variabilitu lze v některých případech zanedbat (např. fylogeneze vyšších tax. úrovní) • x jak velké rozdíly jsou ještě minoritní a zanedbatelné??? • je nutné řešit pokud jsou sekvence totálně nečitelné • molekuly paralogů z PCR produktu lze separovat klonováním: • jednotlivé molekuly PCR produktu vloženy pomocí vektoru do bakterií • předpoklad: 1 buňka přijme pouze 1 vektor, z každé 1 buňky bakterie vyroste jediná homogenní kolonie • jednotlivé bakteriální kolonie použity pro amplifikaci dané molekuly PCR produktu → sekvenace

  23. Sekvenování DNA - paralogy • Klonování PCR produktu: • Ligace molekul PCR produktu (inzertu) do vektoru (plazmidu): • enzym ligáza – spojuje kohezivní nebo tupé konce (ligázu držet na ledu, skladovat v mrazáku - velmi nespolehlivá a citlivá na zvýš. teplotu!) • snadnější je ligování kohezivních konců – PCR produkt vytvořený Taq polymerázou má na konci A-přesahy, linearizovaný vektor má komplementární T: PCR produkt

  24. Sekvenování DNA - paralogy • Klonování PCR produktu: • Transformace: vektor vnesen do kultury kompetentních buněk (Escherichia coli) – např. teplotním šokem (45s – 42°C) • Výsev bakteriální kultury na médium, které obsahuje: • antibiotikum (ampicilin) → přežijí jen bakterie transformované plazmidem nesoucím rezistenci • substrát, které bakterie s funkčním β-galaktosidázovýmoperonem utilizují za vzniku modrého barviva → bakterie transformované prázdným plazmidem bez inzertu jsou modré • Colony PCR:bílé bakteriální kolonie s inzertem se použijí jako templát pro PCR a sekvenaci

  25. Sekvenování DNA - paralogy • Klonování PCR produktu: • protože klonování separuje a namnoží jednotlivé molekuly PCR produktu, při jejich sekvenování se zachytí artefakty PCR (nejsou patrné na signálu přímého sekvenování, které zobrazuje většinový signál převažujících molekul) • chyby PCR polymerázy (v reálu obvykle ~1-3 chyby / 700 bp PCR produktu za použití klasické Taq polymerázy; u proofreadingových ještě méně) • artefaktní hybridní molekuly (PCR hybrids, PCR recombinants): • polymeráza nedokončí syntézu vlákna, a to v dalším cyklu nasedne na jiné, ne zcela komplementární vlákno, a podle něj se dosyntetizuje • používat 2x delší cyklovou elongaci, redukovat počet PCR cyklů

  26. Využití sekvenování DNA Co se dá sekvenovat? To, na co jsou primery... • výběru úseku by mělo předcházet prohledání databáze NCBI • např. pokud jsou dostupné sekvence z příbuzných organismů, můžeme je přímo využít pro analýzu, nebo z nich můžeme odhadnout variabilitu daného úseku • exony –kódující sekvence • nižší variabilita, ale jednodušší určení homologie (alignování) • introny – přepisované do mRNA, vystřižené během její maturace • vyšší variabilita, někdy problémy s určením homologie • spacery – mezerníky oddělující geny • vyšší variabilita, někdy problémy s určením homologie schéma genu: (UTR – regulace translace a stability mRNA)

  27. Využití sekvenování DNA Co se dá sekvenovat? To, na co jsou primery... • jaderná ribozomální DNA:tisíce kopií v tandemovém uspořádání, v tzv. NORs (nucleolar organizing regions), na jednom nebo více chromozomech • concerted evolution – molek. mechanizmy které homogenizují případnou variabilitu v kopiích • 18S rDNA (SSU, small ribosomal subunit), 26S rDNA (LSU, large r. s.), 5.8SrDNA (součást LSU) - transkripcí vzniká rRNA, která spolu s proteiny tvoří součást ribozomů; vyšší tax. úroveň • ITS (Internal Transcribed Spacer) – přepisované do rRNA, ale před maturací z rRNA vystřižené; druhová a nižší úroveň; často paralogy; příp. IGS, EGS • univerzální primery nebo specifické pro urč. skupinu

  28. Využití sekvenování DNA Co se dá sekvenovat? To, na co jsou primery... • jaderné single-copy a low-copy geny • primery obvykle fungují pouze na určitou taxonomickou skupinu • oproti multi-copy úsekům by měly mít méně problémů s paralogy, ale u low-copy úseků často paralogy jsou • LEAFY geny – někdy komplikované duplikacemi • zdá se, že multi-copy úseky mohou nést informaci o starších událostech (zachová se kvůli dostatečnému počtu kopií), low-copy úseky zaznamenávají spíše recentnější historii

  29. Využití sekvenování DNA Co se dá sekvenovat? To, na co jsou primery... • cpDNA: • ± univerzální primery pro desítky úseků • ačkoli jsou chloroplasty v buňce ve velkém počtu, obvykle bez paralogů • kódující oblasti – vyšší tax. úroveň • nekódující oblasti – druhová a nižší úroveň, u krytosemenných fylogeografie, někdy méně variabilní než např. ITS • příklady často používaných úseků: • rbcL, matK – kódující • exony, spacery a introny oblasti trnT-trnL-trnF(Taberlet et al., 1991) • Taberlet P, Gielly L, Patou G, and Bouvet J. 1991. Universal primers for amplification of three noncoding regions of chloroplast DNA. Pl. Mol. Biol. 17: 1105-1109. • Shaw J, Lickey E, Beck JT, Farmer SB, Liu W, Miller J, Siripun KC, Winder CT, Schilling EE, and Small RL. 2005. The tortoise and the hare II: relative utility of 21 noncoding chloroplast DNA sequences for phylogenetic analysis. American Journal of Botany 92: 142–166. • Shaw J, Lickey E, Schilling EE, and Small RL. 2007. Comparison of whole chloroplast genome sequences to choose noncoding regions for phylogenetic studies in angiosperms: the tortoise and the hare III. American Journal of Botany 94: 275–288.

  30. Využití sekvenování DNA Co se dá sekvenovat? To, na co jsou primery... • mtDNA: • ještě méně variabilní než cpDNA (neplatí pro nahosemenné) • ± univerzální primery, ale rel. časté ztráty/duplikace úseků • jako zdroj dat slouží pořadí genů (taxonomie vyšších tax. jednotek, např. oddělení) • Duminil J, Pemonge MH, Petit RJ. 2002. A set of 35 consensus primer pairs amplifying genes and introns of plant mitochondrial DNA. Molecular Ecology Resources, 2:428-430. • Knoop V. 2004. The mitochondrial DNA of land plants: peculiarities in phylogenetic perspective. Curr Genet 46: 123-139.

  31. Práce s DNA sekvencemi Tvorba alignmentu (alignování) • určení homologií jednotlivých pozic sekvencí • může být jednoduché u translatovaných kódujících sekvencí (nejsou gapy = inzerce a delece) → stačí manuální alignování od oka • programy hledají řešení, které má nejnižší D skóre: D = s + wg s – počet substitucí g – počet gapů w – tzv. cena gapu: cena za otevření gapu, a za jeho prodlužování parametry ceny gapu musíme zadat → spíše intuitivně: když máme hodně diverzifikované sekvence, u nichž se dá čekat hodně indelů, je logické použít nižší cenu gapu

  32. Práce s DNA sekvencemi Tvorba alignmentu (alignování) • Clustal W (implementován např. v programu BioEdit) (Accessory Application → ClustalW Multiple Alignment) • relativně rychlé, vhodné např. pro orientační ´zarovnání´ alignmentu • tzv. progresivní metoda: once gap → always gap • nepoužívat, vede k nekonzistencím (pro stejné sekvenční motivy u různých sekvencí různá řešení): • sofistikovanější algoritmy: MAFFT, Muscle • iterativní přístup - programy se během procesu vrací na jednotlivé úrovně, umožňuje korigování

  33. Práce s DNA sekvencemi Úprava alignmentu: • po zalignování případně vyříznout příliš variabilní oblasti s nejistou homologií: • saturace mutacemi: příliš variabilní pozice → mutace se několikrát protočily → riziko homoplazií

  34. Práce s DNA sekvencemi Úprava alignmentu: • využití informace ze sekundární struktury: u DNA přepisované do RNA, která má určitou funkci závislou na sek. struktuře - např. nrDNA: SSU, LSU, ITS (zvlášť pro ITS1 a ITS2) loop stem • loops – přesycené mutacemi, vyřadit z analýzy • stems– protože interagují v sek. struktuře, nejsou jednotlivé pozice vzájemně nezávislé, kompenzační mutace (vážení pozic alignmentu)

  35. Práce s DNA sekvencemi Úprava alignmentu: • ošetření oblastí gapů:(v místě indelů; pro delece symbol – nebo ~) • vyříznout(gaps were excluded from the analysis) – vhodné, když je nejistota s homologií; ideálně už v BioEditu (ale radši si uložit i původní verzi bez výřezů) • použít, ale vlastní deleci brát jako missing data (symbol ?) výhoda: neztratí se informace o znacích sdílených sekvencemi A a B

  36. Práce s DNA sekvencemi Úprava alignmentu: • zakódovat: • kódovat jako pátý stav (gaps were considered as fifth state), ale radši pouze začátek gapu: delší indel vznikl jako jedna událost → když by se zohledňovala každá pozice gapu, tak by byla jeho informace nadhodnocená • kódovat jako binární data 0/1 (gaps were scored as present or absent); vlastní gapy dát jako missing data, nebo vyříznout: nutné např. pro nestejně dlouhé gapy, které začínají na stejné pozici – ani kódování začátkem gapu není uspokojivé, spojovalo by nerovnocenné indely: OK (nahrazení symbolů lze nejlépe provést pomocí hromadných záměn v Notepadu)

  37. Práce s DNA sekvencemi NCBI (National Center for Biotechnology Information) http://www.ncbi.nlm.nih.gov/ • spojuje veřejně dostupné databáze sekvencí DNA vyhledávání podle jména taxonu příp. názvu úseku, nebo accession number • pro publikování dat je nutné sekvence submitovat do veřejně dostupné databáze (GenBank), vždy uvádět příslušná accession numbers

  38. Práce s DNA sekvencemi BLAST (Basic Local Alignment Search Tool) • algoritmuspro hledání homologických sekvencí • přibližné ověření identity sekvence • hledání příbuzných sekvencí, které můžeme zahrnout do analýzy • přibližný a hrubý nástroj, nemůže nahradit fylogenetickou analýzu • výsledek ovlivněn např. jak moc je daný úsek/tax. skupina zastoupená v databázi) • vlastní algoritmus: • naše sekvence (Query) → algoritmus z ní použije kratší motivy (words), prohledává jimi databázi • pokud word nalezeno v sekvenci z databáze (Sbjct), dále v ní prohledává jeho okolí • pokud celková podobnost přesáhne určitý limit, sekvenci vybere http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome

  39. Práce s DNA sekvencemi BLAST vizualizace Query coverage (~ jak dlouhý je homolog. úsek srovnávaných sekvencí) pravděpodobnost, že podobnost sekvencí je náhodná je dobré brát v potaz: někdy může např. Max. Ident. 95%, ale jen na krátkém úseku Query

  40. Fylogenetická analýza – praktické návody Editace sekvencí, tvorba alignmentu v programu BioEdit zeditovat danou sekvenci – opravit zjevné chyby, nerozlišené části import z prohlížeče (stačí vybrat, Ctrl+C, File – Import from Clipboard) ! prvních 9 písmen názvu by mělo sekvenci jednoznačně identifikovat, používat radši jen písmena bez diakritiky, čísla a příp. ´_´ přibližně manuálně zarovnat (I, D apod.) zkontrolovat a opravit případná podezřele variabilní místa (Edit mode) oříznout sekvence primerů + neúplné částí na začátku a na konci datové matice (vybrat přísl. sloupce, Delete) uložit: formát .fas, .bio apod.

  41. Fylogenetická analýza – praktické návody • MAFFT alignmenthttp://mafft.cbrc.jp/alignment/server/ naloadovat soubor sekvencí zaslání výsledného souboru e-mailem

  42. Fylogenetická analýza – praktické návody • MAFFT alignmenthttp://mafft.cbrc.jp/alignment/server/ ideální pro obtížně zalignovatelné sekvence nekódující sekvence, které ale tvoří funkční RNA molekuly (ncRNA) se sekundární strukturou, např. nrDNA cena gapů

  43. Fylogenetická analýza – praktické návody Úprava alignmentu: • export do formátu pro fylogenet. analýzy: nejčastěji nexus (.nex) BioEdit: File → Export → Sequence Alignment → PAUP/NEXUS (*.pau, *.nex) • případně zakódovat a definovat gapy: (nexus interleaved formát)

  44. Fylogenetická analýza – praktické návody Úprava alignmentu: • využití informace ze sekundární struktury: u DNA přepisované do RNA, která má určitou funkci závislou na sek. struktuře - např. nrDNA: SSU, LSU, ITS (zvlášť pro ITS1 a ITS2) • někdo tento přístup nepoužívá (x sek. struktury jsou modely, nemusí odpovídat realitě); často používají např. algologové • pokud je k dispozici, použít dostupný model pro danou skupinu • pokud není, nutné vytvořit vlastní model: • vytvořit modely všech možných sek. struktur – program Mfold http://mfold.rna.albany.edu/?q=mfold/DNA-Folding-Form teplota, za které je struktura stabilní; používá se průměrná teplota, při které organismus žije

  45. Fylogenetická analýza – praktické návody Úprava alignmentu: • program obvykle vygeneruje několik různých struktur, smyčky společné všem navrženým strukturám použít pro vytvoření hypotetického konsenzuálního modelu: loop stem • loops – přesycené mutacemi, vyřadit z analýzy • stems– protože interagují v sek. struktuře, nejsou jednotlivé pozice vzájemně nezávislé, kompenzační mutace (vážení pozic alignmentu)

  46. Fylogenetická analýza – praktické návody BLAST vložíme naši analyzovanou sekvenci ovlivní kolik sekvencí bude prohledávat, ale také rychlost vyhledávání

More Related