The Human Genome Project

The Human Genome Project Rec DNA II.

Celera Celera Genomics Genomics 2001 First draft of the Human Genome (private sector) (privát szektor) Craig Craig Venter Venter HGP ( HGP ( Human Human Genome Genome Project) Project) Francis Francis Collins Collins NCBI:National NCBI:National Center of Center of Biotechnology Biotechnology Information Information 2003 Completion of the Human Genome Programe Start of the „post-genomic era” Rec DNA II.

The Human Genome Project ‘clone by clone’ technique: - Parallel construction of genetic and physical maps - Representation of the genome in ordered libraries GTCCGGTCCC GGGACCCCCT GCCCAGGGTC AGAGGGGCGC CTACCTAGCT CACGGTCTTG GGCCGGAGGG AATGGAGGAG GGAGCGGGGT CGACCGCTCA GCTGTCCGCC CAGTTTCGGA GGCGGCCACG CGAGGATCAA CTGTGCAACG GGTGGGGCCG CGGCTGACCG TGGTGGTCGC GGGGGCTGAG GGCCAGAGGC TGCGGGGGGG GGGCGGCGGG ATGAGCTAGG CGTCGGCGGT TGAGTCGGGC GCGGAGTCGG GGGCAGGGGG AGCGGGCGTG GAGGGCGCGC ACGAGGTCGA GGCGAGTCCG CGGGGGAGGC GGGCAGAGCC TGAGCTCAGG TCTTTCTGCG TCTGGCGGAA CGGGCCTGGG AGGGAGGTTT TGCCAGATAC CAGGTGGACT AGGGTGAGCG CCCGAGGGCC GGGACGCACG CACGGGCCGG GTAGGATGGC GCTGGCGTCG ATGCCCGCGC GCTTCAGGGC CTGGTCTGGC CGCCCCTCCA TCCTTGTCGG TTTCTCGGGT CGCGGACCCC GCGCGGCGCC GGGCGATGCT GGCCTGCCCG TGGCCACCAC CTCGCTTCAT TCCCGTCTCT TTGGGCCGCC GCATTCGTCC ACGTGCCCGT CTCTCCCTGC GCAAAATTCC AAGATGAGCA AATACTGGGC TCACGGTGGA GCGCCGCGGG GGCCCCCCTG AGCCGGGGCG GGTCGGGGGC GGGACCAGGG TCCGGCCGGG GCGTGCCCGA GGGGAGGGAC TCCCCGGCTT GCGACCCGGC GTTGTCCGCG J.Watson, 1st director of HGP Rec DNA II.

Low resolution High Mapping strategies: Physical Maps Cytogenetic (chromosomal) maps - binding pattern Cosmid contig maps ordered clones of overlapping libraries Restriction maps sites of known restriction enzymes DNA sequences Rec DNA II.

The ‘clone by clone’ technique • 1st aim: • Find 30,000 markers • (in average distance of 150,000 bp) • Marker: a unique sequence 2nd aim: - Isolate chromosomes - Cleave them with endonuclease (150,000 bp fragments) -Clone them (Bacterial Arteficial Chromosome, BAC clones) Rec DNA II.

The ‘clone by clone’ technique 3rd aim: Map the BAC clones with restriction endonuclease Put them in order! Ordered BAC libraries Rec DNA II.

150 000 bp (BAC) 1500 bp fragments (overlapping) Sequence the ends: Align the sequences: GCCGAATCCAATTAGAAAAT GCCGAATCCAATTAGAAAAT TAGAAAATCACATTTACCAGTCTGA TAGAAAATCACATTTACCAGTCTGA CCAGTCTGACCCCGCAAACGGGTTT CCAGTCTGACCCCGCAAACGGGTTT Sequencing the BAC clones Rec DNA II.

2000 bp and 10000 bp fragments Celera: The „shotgun” methods Craig Venter Sequencing of the ends and aligning by computer: AAGGACTTATG____________________GGACACAGGTTATGG GACTTA_____CGTTGGA GAGAGGACACA________________CGTTATATTG Only physical maps Rec DNA II.

Representation of the human genome 1. Databases (‘in silico’) HGP: http://www.ncbi.nlm.nih.gov/ Celera: http://www.celera.com/ 2. A series of bacterial colonies (BAC libraries) Rec DNA II.

Surfing on the Net The ENTREZ database National Center of Biotechnology Institute, USA http://www.ncbi.nlm.nih.gov/Entrez/ Rec DNA II.

Surfing on the Net Search for Homo Sapiens, DRD4 (dopamine D4 receptor gene) Rec DNA II. http://www.ncbi.nlm.nih.gov/mapview/

Internet séta Chromosomal localization of the DRD4 gene Rec DNA II. http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=9606&query=DRD4

Internet séta nagyítás sequence Search gene Rec DNA II. http://www.ncbi.nlm.nih.gov/mapview/maps.cgi?taxid=9606&chr=11&MAPS=genec,ugHs,genes-r&cmd=focus&fill=40&query=uid(1641)&QSTR=DRD4

NCBI Entrez Gene Rec DNA II.

Internet séta OMIM: Database of mutations, diseases Known function of genes Online Mendelian Inheritance in Man (OMIM) Review of the literature, references Rec DNA II. http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=60521

Internet séta Exon (red box) – intron (red line) structure of a gene Exon – intron structure Direction of transcription Rec DNA II. http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene&cmd=retrieve&dopt=default&list_uids=1815

The “useful information” of the genome About 20,000 genes ??? Less than 5% of the genome 45% of the human genomes are “jumping genes” (transposones) The ‘extra’ (‘junk’) DNA - Repeat sequences • LINEs • (long interspread elements): 6 kb, 8500 copies, 25% of our genome • replicates with reverse transcription • many truncated forms (inactive) • SINEs (short interspred elements): 100-300 bp, 1,5 million copies • 13% of our genome, replicates by using the SHINE machinery • Others • Duplicated human genes (pseudogenes) • Simple repeats (e.g.. AAAAAAAAAAAAAA….) Rec DNA II.

Internet séta Protein databases NCBI Entrez Protein database http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Protein&itool=toolbar Universal Protein Resource (Swiss-Prot, TrEMBL, és PIR egyesítése) http://www.expasy.uniprot.org/ Rec DNA II.

Internet séta Databases of transcription factors http://www.gene-regulation.com/pub/databases.html 2 transzkripciós faktor együtt http://www.gene-regulation.com/pub/databases.html#transcompel http://www.cbil.upenn.edu/tess/ Rec DNA II.

The polymorphic nature of the human genome Approx. 0.5% variations (15 million base pairs) Rec DNA II.

“Similarity” in terms of gene sequence Unrelated humans: share - 99.9% (the difference is about 3 x 106 bp) Mutations& Polimorphisms GAGGGTGCGC GAGGGAGCGC GAGGGAGCGC GAGGGTGCGC Human&apes: share~ 95% GAGGGTGCGC GAGGGAGCGC Rec DNA II.

when the “misprint” is fatal Mutations: rare allele variations - usually monogenic disorders (in less than 1% of the human population) GTCCGGTCCC GGGACCCCCT GCCCAGGGTC AGAGGGGCGC CTACCTAGCT CACGGTCTTG GGCCGGAGGG AATGGAGGAG GGAGCGGGGT CGACCGCTCA GCTGTCCGCC CAGTTTCGGA GGCGGCCACG CGAGGATCAA CTGTGCAACG GGTGGGGCCG CGGCTGACCG TGGTGGTCGC GGGGGCTGAG GGCCAGAGGC TGCGGGGGGG GGGCGGCGGG ATGAGCTAGG CGTCGGCGGT TGAGTCGGGC GCGGAGTCGG GGGCAGGGGG AGCGGGCGTG GAGGGCGCGC ACGAGGTCGA GGCGAGTCCG CGGGGGAGGC GGGCAGAGCC TGAGCTCAGG TCTTTCTGCG TCTGGCGGAA CGGGCCTGGG AGGGAGGTTT TGCCAGATAC CAGGTGGACT AGGGTGAGCG CCCGAGGGCC GGGACGCACG CACGGGCCGG GTAGGATGGC GCTGGCGTCG ATGCCCGCGC GCTTCAGGGC CTGGTCTGGC CGCCCCTCCA TCCTTGTCGG TTTCTCGGGT CGCGGACCCC GCGCGGCGCC GGGCGATGCT GGCCTGCCCG TGGCCACCAC CTCGCTTCAT TCCCGTCTCT TTGGGCCGCC GCATTCGTCC ACGTGCCCGT CTCTCCCTGC GCAAAATTCC AAGATGAGCA AATACTGGGC TCACGGTGGA GCGCCGCGGG GGCCCCCCTG AGCCGGGGCG GGTCGGGGGC GGGACCAGGG TCCGGCCGGG GCGTGCCCGA GGGGAGGGAC TCCCCGGCTT GCGACCCGGC GTTGTCCGCG GAGGGCGCGC ACGAGGTCGA TCTTTCTGCG TCTGGCGGAA AGGGTGAGCG CCCGAGGGCC ATGCCCGCGC GCTTCAGGGC CGCGGACCCC GCGCGGCGCC TCCCGTCTCT TTGGGCCGCC AAGATGAGCA AATACTGGGC GGTCGGGGGC GGGACCAGGG CGACCCGGC GTTGTCCGCG Azonosított monogénes öröklődésű betegségek Sickle cell anemia Rec DNA II.

VNTR SNP 2 ismétlődés G C ACT A C C C G T G A T G G 3 ismétlődés G C A T T A C C C G T A A T G G 4 ismétlődés 5 ismétlődés … harmless misprints” Genetic polimorphisms: variations over 1% frequency in humans Single Nucleotide Polymorphism Variable Number of Tandem Repeats Rec DNA II.

Mutation Polymorphism Frequency more than 1% less than 1% Effect disease Neutral ??? Risk factors Single Nucleotide Polymorphisms/ SNPs (pronounced “snips”) • 90% of the known variations • most SNPs have only two alleles Polymorphism - Mutation Length Polymorphism: repeat sequences Rec DNA II.

What is next? Rec DNA II.

“Human - ape genome: 95% similarity What is the difference?” Rec DNA II.

High throughput methods in genome analyzes:Automated DNA sequencing Terminating positions ... 3’ C A A G T C A C C T T G C A A G A ddA ‘Color sequencing’ Based on dideoxy-chain termination (see also: Lehninger) Sequencing reaction mixture: All the four dNTP All the four ddNTP with different fluorescent dye DNA polymerase, primer Rec DNA II.

Sequencing results: + index Rec DNA II.

One position: 1 000 000 molecules DNA chip (oligonucleotide array) 1. Mutation analysis 50 µm ~ 60 000 position 1.2 cm Rec DNA II.

Arrays of a 20 bp oligo 1–20 2–21 3–22 ... The oligonucleotide array Example: mutation analysis of a 4 000 bp gene (e.g. CFTR) 4000 bp length – 4000 oligo 4 variations in the middle base: 12 000 oligo Rec DNA II.

Control (no mutation) Comparison with computer The result sample Rec DNA II.

DNA-chip 2: Expression Analysis by Micro-arrays Rec DNA II.

The Human Genome Project