Download
ji young choi and sang hoon yi department of computer aided science inje university gimhea 621 749 n.
Skip this Video
Loading SlideShow in 5 Seconds..
Ji Young Choi* and Sang Hoon Yi Department of Computer Aided Science*, PowerPoint Presentation
Download Presentation
Ji Young Choi* and Sang Hoon Yi Department of Computer Aided Science*,

Ji Young Choi* and Sang Hoon Yi Department of Computer Aided Science*,

240 Vues Download Presentation
Télécharger la présentation

Ji Young Choi* and Sang Hoon Yi Department of Computer Aided Science*,

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Functional classification and characterization in corynebacterium glutamicum ATCC 13032by using Shannon’s entropy and Position Weight Matrix Ji Young Choi* and Sang Hoon Yi Department of Computer Aided Science*, Inje University, Gimhea 621-749

  2. Review genome functioning • H. E. Stanley , A. L. Goldberger DFA 진핵 생물의 논 코딩 서열에만 장 주기 상관성이 있는 것을 확인 이를 바탕으로 아직 밝혀지지 않은 DNA서열의 코딩위치를 통계적인 개념으로 Coding Sequence Finder Algorithm 을 만드는데 활용 • G. K. Zipf 샤논 엔트로피진핵생물에서 논 코딩 서열이 코딩 서열보다 높은 엔트로피 값을 가짐을 확인 • Jose L.Oliver 젠센-샤논 엔트로피 DNA서열 중 수치적으로 유효한 서열 조각 발견 이 조각을 이용하여 상동의 도메인을 찾음 • Zu-Guo Yu, Bin Wang 완전한 게놈이 밝혀진 박테리아 CDS서열 6개의 카테고리에 대해서 적용 허스트 지수 코딩 서열의 허스트 지수 평균으로 박테리아의 카테고리 분류 상관차원 (D2) 전체 서열의 상관차원으로 박테리아의 카테고리 분류 • Ming Xiao, Zhi Zhan Zhu MEP(Maximal Entropy Principle) DNA 서열의 각 위치마다 엔트로피를 계산 생물학적으로 중요한 역할을 하는 지역을 찾음.(ex. Promoter, gene 중의 중요한 위치)

  3. Structure of DNA sequence 5’ 3’ 3’ 5’ 코딩영역 – 단백질로 번역되는 영역 (항상 5’  3’ 방향으로 진행) 정방향 – 현재 표시된 서열과 같은 방향으로 단백질 번역 역방향 – 현재 표시된 서열과 반대 방향으로 단백질 번역 논코딩영역 – 코딩영역과 코딩 영역 사이. 기능이 없는 영역 프로모터 – DNA서열의 전사를 조절. 주로 코딩 영역 앞부분 600 bp 내에 존재

  4. DATA_NCBI LOCUS NC_003450 3309401 bp DNA linear BCT 10-DEC-2002 DEFINITION Corynebacterium glutamicum ATCC13032,complete genome. : CDS 1..1575 /locus_tag… : CDS compliment(337..2799) /locus_tag.. : ORIGIN 1 agcttttcat tctgactgca acgggcaata tgtctctgtg .. : 3309361 acgccttagt aagtattttt // Whole sequence

  5. sequence atgcgagtgttgaagttcggcggtacatcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgccaggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtggcgatgattgaaaaaaccattagcggccaggatgctttacccaatatcagcgatgccgaacgtatttttgccgaacttttgacgggactcgccgccgcccagccggggttcccgctggcgcaattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgagaaaatgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattgctgagtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgcc…aatgaaaaaggcgaactggtggtgcttggacgcaacggttccgactactctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagtcgatgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatcctcaagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaagggatggtcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgactgtgtgcgagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtatgcgcaccttgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatgcgaccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagcaaagctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaagccaaagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttcctgcgcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacaccaacgttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttagacgaaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccggacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgctcgtgaaacgggacgtgaactggagctggcggatattgaaattgaacctgtgctgcccgcagagtttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatctctttgccgcgcgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaatattgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgctgttcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctgccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttgctgatctgctacgtaccctctcatggaagttaggagtctga……gtgaaaaagatgcaatctatcgtactcgcactttccctggttctggtcgctcccatggcagcacaggctgcggaaattacgttagtcccgtcagtaaaattacagataggcgatcgtgataatcgtggctattactgggatggaggtcactggcgcgaccacggctggtggaaacaacattatgaatggcgaggcaatcgctggcacctacacggaccgccgccaccgccgcgccaccataagaaagctcctcatgatcatcacggcggtcatggtccaggcaaacatcac……gtgaacggtgctacctccttatatgatgaggtaattattattaataaaatcccccccaaaaaaattgatactaaaggagttgctactgaagaagttgctactaaaaaagtactgctgaacaaattactgacaacgcaattattgaatgagccagaataaatggaacgttgcggctgggtgagtcaggacccgctttatattgcctaccatgataatgagtggggcgtgcctgaaactgacagtaaaaaactgttcgaaatgatctgccttgaagggcagcaggctggattatcgtggatcaccgtcctcaaaaaacgcgaaaactatcgcgcctgctttcatcagttcgatccggtgaaggtcgcagcaatgcaggaagaggatgtcgaaagactggtacaggacgccgggattatccgccatcgagggaaaattcaggcaattattggtaatgcgcgggcgtacctgcaaatggaacagaacggcgaaccgtttgtcgactttgtctggtcgtttgtaaatcatcagccacaggtgacacaagccacaacgttgagcgaaattcccacatctacgtccgcctccgacgccctatctaaggcactgaaaaaacgtggttttaagtttgtcggcaccacaatctgttactcctttatgcaggcatgtgggctggtgaatgatcatgtggttggctgctgttgctatccgggaaataaaccatgatcaatatgccgacttcctgcgcgctcggtggtaggtgatggtatgcgcaccttgcgtgtactga coding Non-coding

  6. Bacterium –corynebacterium glutamicum ATCC 13032 DNA서열의 각 영역별 길이 분포 Number of coding Number of non-coding a) b) length length

  7. Symbolic analysis • 1bit (2 symbol)부호화의 예- 화학적 결합 word sequence 5 2 7 1 … … * 2 symbol – 8개의 워드 • 2bit (4 symbol) 부호화의 예- 화학적 결합 + 수소결합의 강도 word sequence 54 9 63 18 … … * 4symbol – 64개의 워드 워드 서열 구성 – 겹침 없이 세 개의 코드가 하나의 워드 (단백질 코딩 시 세 개의 염기가 하나의 아미노산 합성)

  8. Information Entropy (Shannon’s entropy) *정보 엔트로피 DNA서열을 부호화  심볼 서열을 구성  - 무늬의 정보 엔트로피 적용 는 현재 -무늬 부호 서열에서 나타나는 무늬의 확률 ( = 3 ) *Correct Shannon’s Entropy (CSE) 엔트로피는 무한 길이에 대한 정의  보정 필요 단, 은 데이터에서 얻은 전체 워드 수 , 은 개의 워드를 가지고 계산된 엔트로피 은 전체 워드 중에서 나타나는 워드의 수

  9. Word distribution Coding region Unequal word distribution Non-coding region  Nearly equal word distribution

  10. Word distribution (length= 600 bp) Coding Hypothetical coding index Unequal index Non-coding Promoter Nearly- equal index index

  11. Surrogatedata test • Surrogate sequence - DNA 서열 구성 염기의 개수를 유지하면서 무작위로 섞음 - 각 DNA 당 50개 씩의 대체 서열을 생성 - 엔트로피 값을 통한 유의도 테스트 유의도 Z = 여기서 는 DNA데이터의 정보 엔트로피 는 surrogate 서열의 정보 엔트로피의 평균 는 surrogate 서열의 정보 엔트로피의 표준편차

  12. Surrogate sequence test (length=600 bp) Circle : surrogate sequence, Triangle- DNA sequence [significance z, + z> 4.47 ] cse cse cse cse

  13. CSE analysis of coding and non-coding sequence Symbol 2 * * * * * * * * * * * * * * * * * * CSE 모든 길이 영역 엔트로피 값  코딩과 논 코딩 구분 Symbol 4 * * * * * * * * * * * * * * * * * * CSE length [ filled rectangle: coding, rectangle :non-coding significance p, * p< 0.001 ]

  14. CSE analysis of four type regions (length=600 bp) ‡∬* Symbol 2 ‡∬* †∫ CSE Coding vs ~ : † p-value<0.05, ‡ p-value<0.001 Hypothetical coding vs ~ : ∫ p-value<0.05, ∬ p-value<0.001 Non- coding vs ~ : * p-value<0.05, ** p-value<0.001 Symbol 4 † ‡∬* CSE

  15. Promoter vs Non Promoter Entropy 각 영역별 서열의 정보량 비교 코딩과 논 코딩을 유의하게 구분 프로모터와 논 코딩은 약하게 구분됨 PWM (Position Weight Matrix)  Promoter 의 서열 구성 특성을 이용 Promoter 예측에 많이 이용 Entropy + PWM  각 기능별 서열 구분

  16. Structure of promoter -35 region -10 region -60 ~ -40 region +1 CDS 3’ 5’ TTGACA TATAAT A/T rich(up element) 17bp Coding region Promoter region Consensus sequence of promoter Two consensus sequence + 17bp (not consensus) Transcription start

  17. Degree of consensus conservation M. Patek et al.( 1996 ) In the C.glutamicum -35 consensus sequence the fourth nucleotide is C instead A. An A at this position was found in only 7 of the 33 promoters. (21% conservation)

  18. PWM (Position Weight Matrix)

  19. PWM N – 서열의 총수 (총 15개) • ni,j – 뉴클레오타이드 i 가 j 위치에서 나타나는 개수 • fi,j = ni,j/N - 뉴클레오타이드 i 가 j 위치에서 나타나는 빈도 • pi – 현 종(ex: E.coli ) 에서의 뉴클레오타이드 i 가 나타나는 확률 • 양수의 weighti,j는 문자 i가 위치 j에서 위치 확률이 클수록 값이 크게 나타남을 의미한다.

  20. Result (length =600 bp) TP : 프로모터로 예측된 값이 실제로 프로모터인 경우 FN : 예측은 프로모터가 아닌 것으로 나왔지만 실재로 프로모터 인 경우 FP : 프로모터라고 예측 되었지만 실재로 프로모터가 아닌 경우

  21. Conclusion & Discussion • 정보 엔트로피 - 논 코딩 영역이 코딩 영역보다 균등한 무늬 분포  높은 엔트로피 - 두 군이 통계적으로 유의 하게 구분 - 프로모터 영역은 논 코딩과 유사한 무늬분포와 엔트로피 값 • 정보 엔트로피 + PWM - 정보 엔트로피와 PWM을 threshold로 이용 - Promoter와 Non promoter 를 구분 - 기존의 promoter search 프로그램보다 좋은 민감도와 특이도 • 향후 과제 - Promoter 구분하는 프로그램을 더욱 최적화 시켜 프로그램 등록