Damon P. Little and Dennis Wm. Stevenson Cullman Program for Molecular Systematic Studies

A comparison of algorithms for identification of specimens using DNA barcodes: examples from gymnosperms Damon P. Little and Dennis Wm. Stevenson Cullman Program for Molecular Systematic Studies The New York Botanical Garden, Bronx, New York

Why is DNA barcoding useful?

Why is DNA barcoding useful? • (1) Non–specialists can identify specimens (e.g., customs inspectors, ethnobotanists). • (2) Morphologically deficient or incomplete specimens can be identified (e.g., powders).

application to conservation: • Cycadopsida: • all 305 species are protected by CITES (Convention on International Trade in Endangered Species) • 5 genera are appendix I • 6 genera are appendix II* Cycas machonie

nrITS 2: ((GTGCTCGGGC and TCTCGCACTG) and not CGCCTCCCCT) CGCCTCCCCT Lepidozamia hopei Encephalartos ferox CITES appendix II CITES appendix I

selection of the barcode locus

loci used for barcoding • nuclear: • rDNA: 26S, 18S, ITS 1, ITS 2 • mitochondrial: • COI • chloroplast: • trnH-psbA, rbcL

Consortium for the Barcode Of Life (CBOL) • cpDNA: matK, rpoC1, rpoB, YCF5, accD, ndhJ • Edinburgh (UK) => Podocarpus, Araucaria, Asterella, Anastrophyllum • Instituto de Biologia UNAM (Mexico) => Agave • Kew (UK) => Conostylis, Pinus, Equisetum, Dactylorhiza • National Biodiversity Institute (South Africa) => Encephalartos, Mimetes • Natural History Museum (Denmark) => Hordeum, Scalesia, Crocus • Natural History Museum (UK) => Tortella, Ptychomniaceae, Asplenium, • New York Botanical Garden (USA) => Elaphoglossum, Cupressus, Labordia • Universidad de los Andes (Colombia) => Lauraceae • University of Cape Town (South Africa) => Anastrophyllum, Bryum • Universidade Estadual de Feira de Santana (Brazil) => Laelia, Cattleya

measuring precision and accuracy

test data sets • gymnosperm nuclear ribosomal internal transcribed spacer 2 (nrITS 2) • 1,037 sequences • 413 species • 71 genera • gymnosperm plastid encoded maturase K (matK) • 522 sequences • 334 species • 75 genera

pairwise divergence

hierarchical clustering

…alignment

hierarchical clustering • reference databases: • aligned with MUSCLE 3.52 • query sequence: • aligned to the reference database using MUSCLE (“-profile” option) • parsimony (TNT 1.0): • (1) 200 iteration ratchet holding 1 tree • (2) SPR holding 1 tree • neighbor joining (PHYLIP 3.63): • Jukes–Cantor distance (returns 1 tree) • identification scored using “Least Inclusive Clade”

Will and Rubinoff (2004)... • identification ambiguity due to tree shape • Fitch (1971) optimization of group membership variables

Least Inclusive Clade

…clustering with nrITS 2 and matK

…clustering time (s) N = 29; 3.06 GHz Intel Pentium 4; 1 GB of RAM; Ubuntu Linux 5.04 (Hoary Hedgehog)

similarity methods

similarity methods • BLASTn (version 2.2.10) • BLAT (version 32) • megaBLAST (version 2.2.10) • default parameters • best match(es) taken as ID

…similarity methods with nrITS 2 and matK

… similarity time (s) N = 29; 3.06 GHz Intel Pentium 4; 1 GB of RAM; Ubuntu Linux 5.04 (Hoary Hedgehog)

combination methods (cf. BOLD–ID)

combination methods (cf. BOLD–ID): • get the top 100 BLAST hits • (2) align with MUSCLE • (a) 200 iteration ratchet holding 1 tree • (b) SPR holding 1 tree • (c) neighbor joining with Jukes–Cantor distances

…combination methods with nrITS 2 and matK

…combination time (s) N = 29; 3.06 GHz Intel Pentium 4; 1 GB of RAM; Ubuntu Linux 5.04 (Hoary Hedgehog)

diagnostic methods

DNA–BAR (DasGupta et al 2005): each sequenceand itsreverse complement (separated by 50 ``N'' symbols) degenbar presence/absence matrix of“distinguishers” up to 50 bp long

DNA–BAR (DasGupta et al 2005): matrix of distinguishers query + PERL script C. arizonica 1 matches = 582 C. arizonica 2 matches = 582 C. lusitanica 1 matches = 582 ID = the reference sequence(s) with the greatest number of matching presence/absence scores

DNA–BAR... distinguisher matrix

diagnostic methods: DOME ID • reference database (via PERL and MySQL): • (1) all sequence strings of 10 nucleotides offset by 5 nucleotides were extracted from the reference sequences • (2) each string was classified as diagnostic (unique to a particular species) or non–diagnostic • (3) diagnostic strings were inserted into the diagnostic barcode database GCGTTGATGG GTTGGGCGTT CATACGTTGG GTCACCATAC CCTTTGTTTG AGGGACCTTT CTGAGCATCG GTGCACTGAG TTCTCGATGC GGCGTTTCTC TAGCTGGCGT AGGTCTAGCT GGCTGAGGTC GCTTGCATCG CCCTAGCTTG AATGTGCGCA GATGCAATGT TAGCCGGCGT CTGTCTAGCC GCCTTGCCCC ATGCCCCCTG ATCGTGGTGC CCCTGCAAGT AGTGTGCGCA TAGACGACGT CTGTCTAGAC GACTTGCCCC CTTGCGGATC CGGCCTGACT ACCCCCGGCC CGTGAACCCC CTGCCTGACT CCCCCCTGCC TGGGCCGTCA CGCGATGGGC ATACGCGCGA GCCCTTTGAG TGCGGTGGGA CAAGTGAGGA TCGGGCAAGT TAAAATCGTC CAAACCCGTC GTGCATGTGC CGTGCGTGCA CTTCCCACGA CCGTCCCGCA GCATTTGCGG CTCGGGGAGC AAGACCCGTC GCGGCAAGAC GTGCGTGCGT TGCAGAGGGG TTCTCACGAA AGGTTCTCCC GTGCCAGGTT TGCGTCCCGC TTGTTTGCGT TTTCATTGTT GGCGGCATGA TCCCCTGCCC CTTGCTTTTT GGCGGCTTGC CGGCGGGCGG CGGCACGGCG CTTTACGGCA AGACTCCGCG GATCGAGACT CAAGTGATCG GGTGTCAAGT GGTGGCCCCC GGCTCATCAT TGAAACGTGC CCCAAGACGG CGTGCCCCAA AGGACCGGGA TGGGGGTGGG CCGCGTGGGG GACCTCCATT AAACCGACCT AAAGAAAAGA TCCAAGAAAA GCCTGTTTTC GGTCAGCCTG CATGCGTGCG TCAAGGATCC CGGTTTCAAG CGACGCGGTT GTGCTCGGAA GGGATGTGCT CTACGGTCGA GTCGCCTACG ATAGTCTTCA CGGCGATAGT TGTTTTCATG GATGGTGTTT GTCCCTATCA ATTAAAATAC CGATCCGAGT GCGGGTGAGA TCCCCCCCAA AGGATGACGA GCAAAAGGAT ACATGATTCG AATACAACTC CGCAAGCGGC GGCGTGGAAT TCAGCGTTGG ACGGGTCAGC GATAGTCCGT GATCCGATAG GCATTGGGGG GATATTTGAT TAGCCCAAAA TCGCCTAGCC GCCCTTCGGC CATGCGCCCT CTACTCTTTC AACGTCTACT CACGCGAGAG CGCGTCACGC CGCGTATCTT AGCGTGCATC GGGGGAGCGT GCTACGGGGG CGAGGCGTCC GGAACCGAGG TTTCACGGGT GCCGATCCGG AATGCGCCGA GTACTCGCGA TGGCAAGGAT GCCGGTACCG CAACGGCCGG AAGCGGGCAG GCAGCAAGCG CGAGACGATG GACGACGAGA AGACCCGGGA CGAGCCTTCA CGGATGAGAA TTGCGCGGAT CTCCATAGGT TTCCCCCAAG AATCGTTCCC CGCCTCGATG CCGAGCCTCG TTCAAGAATC GTGAATTCAA AAAATTCACG TCGTCCGCCG GCGACCCAGC GAAGCGCGAC ACGGGTGCCG CGTGTAATGT AACGACGTGT AGTAAAGGTC GCTCAAGTAA GACGTGCTCA TGCTGGACGT TAGATGGCTG GGCGGTATGT CCGATGCGAT ATCCCCCGAT TCCTGTCCTC GAGACTCCAA ACCGGCGTTG CAAAGACCGG ACTGAAATGA AGGGCTCGGC ATATCGTCGG CAGGAATCCC AATTGCAGGA CCAACGATGA ACATCCCAAC TGTCAACATC CCTCTCCCGT GGTTGGACGG TTGATGGTTG GGGGATTGAT AATCTAGTTG AGGGGAATCT CTCTTTCCAA CGCCTCTCTT CTGTGCGCCT TCGACCTGTG CTTTCTCGAC CGCTACTTTC AGCGCCGCTA ATCTCAGCGC TGGGTATCTC CTCGTTGGGT TCGCGCTCGT GTGTGTCGCG CTTGACGTCC AAAGCCTCGT CTTCGAAAGC CCGATGCGCT TCTCGCCGAT CCCTGTCTCG GTTGGAGGGT TGATCGTTGG TTGATTGATC GGTGATTGAT TCGTGGGTGA TCTTCTCGTG GCTATTCTTC GACGGGCTAT TAGCTGACGG CTGGATAGCT CAGCACTGGA GGCTTCAGCA TCGCGGGCTT GTGATTGCTG CCGCCGTGAT CTGCCCCGCC CTTCTCTGCC CCTGACTTCT CGTTGCCTGA GCTGCCGTTG TGCTGGCTGC TCCAGTGCTG GGCTATCCAG CCGTGGGCTA GCGCCCCGTG CTGTTGCGCC CGAGGCTGTT CTTTACGCCT GCGCCCTTTA GAAAGGGCTT GATCGGAAAG TGTTGCATGT GGTCCTGTTG TTGTCGGTCC CATGGTTGTC

diagnostic methods: DOME ID • reference database (via PERL and MySQL): • (1) all sequence strings of 10 nucleotides offset by 5 nucleotides were extracted from the reference sequences • (2) each string was classified as diagnostic (unique to a particular species) or non–diagnostic • (3) diagnostic strings were inserted into the diagnostic barcode database diagnostic barcode database

diagnostic methods: DOME ID diagnostic barcode database query + MySQL + PERL script C. arizonica matches = 43 ID = the reference sequence(s) with the greatest number of matching presence/absence scores

diagnostic methods: ATIM PERL script presence/absence matrix of all possible of 10 bp combinations [1,048,576 motifs]

diagnostic methods: ATIM 1,048,576 character presence/absence matrix TNT (parsimony ratchet) reference tree (strict consensus)

diagnostic methods: ATIM query + 1,048,576 character presence/absence matrix + reference tree (positive constraint) TNT (TBR hold 20) identification scored using “Least Inclusive Clade”

…diagnostic methods with nrITS 2 and matK

…diagnostic time (s) N = 29; 3.06 GHz Intel Pentium 4; 1 GB of RAM; Ubuntu Linux 5.04 (Hoary Hedgehog)

DAWG I “training” dataset

…the DAWG I “training” dataset

conclusions: • all methods are relatively precise • => expect accuracy to approximate precision • observed accuracy of species level identification is lower • => failure of the algorithms to correspond to species delimitations (shared haplotypes or haplotypes of a species are more similar to those of different species) • => for accurate identification, the reference database must contain virtually all haplotypes • none of the methods performed particularly well • => computer time • => BLAST (BLAT and megaBLAST too) • => DNA–BAR

brilliant insights &tc: K. Cameron C. Chaboo T. Dikow C. Martin R. Meier M. Mundry money: Cullman Program for Molecular Systematic Studies DIMACS/NSF acknowledgments

Damon P. Little and Dennis Wm. Stevenson Cullman Program for Molecular Systematic Studies

Damon P. Little and Dennis Wm. Stevenson Cullman Program for Molecular Systematic Studies

Presentation Transcript

Damon Pythias

Stevenson Language Program

Damon and Pythias

Split-mouth studies and systematic reviews

Damon Wayans

IOM Standards for Systematic Reviews: Finding and Assessing Individual Studies

Matt Damon

Systematic force field optimization for more accurate molecular simulations

Dennis Delay NH Center for Public Policy Studies

Stevenson Language Program

Leadership Cullman Class

Dennis P. Lettenmaier and Fengge Su

Andrew W. Wood and Dennis P. Lettenmaier

Prospects for Systematic d-Au studies with PHENIX

Systematic studies on mw

Some JLIP systematic studies

Systematic Reviews of Diagnostic Studies

Systematic studies

Neutral Current: Ongoing Systematic Studies

INTEGRATING MOLECULAR STUDIES AND EVOLUTION

Systematic reviews of animal studies

Cullman Electric Cooperative