210 likes | 495 Views
Functional classification and characterization in corynebacterium glutamicum ATCC 13032 by using Shannon’s entropy and Position Weight Matrix. Ji Young Choi* and Sang Hoon Yi Department of Computer Aided Science*, Inje University, Gimhea 621-749. Review genome functioning.
E N D
Functional classification and characterization in corynebacterium glutamicum ATCC 13032by using Shannon’s entropy and Position Weight Matrix Ji Young Choi* and Sang Hoon Yi Department of Computer Aided Science*, Inje University, Gimhea 621-749
Review genome functioning • H. E. Stanley , A. L. Goldberger DFA 진핵 생물의 논 코딩 서열에만 장 주기 상관성이 있는 것을 확인 이를 바탕으로 아직 밝혀지지 않은 DNA서열의 코딩위치를 통계적인 개념으로 Coding Sequence Finder Algorithm 을 만드는데 활용 • G. K. Zipf 샤논 엔트로피진핵생물에서 논 코딩 서열이 코딩 서열보다 높은 엔트로피 값을 가짐을 확인 • Jose L.Oliver 젠센-샤논 엔트로피 DNA서열 중 수치적으로 유효한 서열 조각 발견 이 조각을 이용하여 상동의 도메인을 찾음 • Zu-Guo Yu, Bin Wang 완전한 게놈이 밝혀진 박테리아 CDS서열 6개의 카테고리에 대해서 적용 허스트 지수 코딩 서열의 허스트 지수 평균으로 박테리아의 카테고리 분류 상관차원 (D2) 전체 서열의 상관차원으로 박테리아의 카테고리 분류 • Ming Xiao, Zhi Zhan Zhu MEP(Maximal Entropy Principle) DNA 서열의 각 위치마다 엔트로피를 계산 생물학적으로 중요한 역할을 하는 지역을 찾음.(ex. Promoter, gene 중의 중요한 위치)
Structure of DNA sequence 5’ 3’ 3’ 5’ 코딩영역 – 단백질로 번역되는 영역 (항상 5’ 3’ 방향으로 진행) 정방향 – 현재 표시된 서열과 같은 방향으로 단백질 번역 역방향 – 현재 표시된 서열과 반대 방향으로 단백질 번역 논코딩영역 – 코딩영역과 코딩 영역 사이. 기능이 없는 영역 프로모터 – DNA서열의 전사를 조절. 주로 코딩 영역 앞부분 600 bp 내에 존재
DATA_NCBI LOCUS NC_003450 3309401 bp DNA linear BCT 10-DEC-2002 DEFINITION Corynebacterium glutamicum ATCC13032,complete genome. : CDS 1..1575 /locus_tag… : CDS compliment(337..2799) /locus_tag.. : ORIGIN 1 agcttttcat tctgactgca acgggcaata tgtctctgtg .. : 3309361 acgccttagt aagtattttt // Whole sequence
sequence atgcgagtgttgaagttcggcggtacatcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgccaggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtggcgatgattgaaaaaaccattagcggccaggatgctttacccaatatcagcgatgccgaacgtatttttgccgaacttttgacgggactcgccgccgcccagccggggttcccgctggcgcaattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgagaaaatgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattgctgagtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgcc…aatgaaaaaggcgaactggtggtgcttggacgcaacggttccgactactctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagtcgatgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatcctcaagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaagggatggtcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgactgtgtgcgagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtatgcgcaccttgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatgcgaccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagcaaagctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaagccaaagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttcctgcgcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacaccaacgttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttagacgaaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccggacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgctcgtgaaacgggacgtgaactggagctggcggatattgaaattgaacctgtgctgcccgcagagtttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatctctttgccgcgcgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaatattgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgctgttcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctgccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttgctgatctgctacgtaccctctcatggaagttaggagtctga……gtgaaaaagatgcaatctatcgtactcgcactttccctggttctggtcgctcccatggcagcacaggctgcggaaattacgttagtcccgtcagtaaaattacagataggcgatcgtgataatcgtggctattactgggatggaggtcactggcgcgaccacggctggtggaaacaacattatgaatggcgaggcaatcgctggcacctacacggaccgccgccaccgccgcgccaccataagaaagctcctcatgatcatcacggcggtcatggtccaggcaaacatcac……gtgaacggtgctacctccttatatgatgaggtaattattattaataaaatcccccccaaaaaaattgatactaaaggagttgctactgaagaagttgctactaaaaaagtactgctgaacaaattactgacaacgcaattattgaatgagccagaataaatggaacgttgcggctgggtgagtcaggacccgctttatattgcctaccatgataatgagtggggcgtgcctgaaactgacagtaaaaaactgttcgaaatgatctgccttgaagggcagcaggctggattatcgtggatcaccgtcctcaaaaaacgcgaaaactatcgcgcctgctttcatcagttcgatccggtgaaggtcgcagcaatgcaggaagaggatgtcgaaagactggtacaggacgccgggattatccgccatcgagggaaaattcaggcaattattggtaatgcgcgggcgtacctgcaaatggaacagaacggcgaaccgtttgtcgactttgtctggtcgtttgtaaatcatcagccacaggtgacacaagccacaacgttgagcgaaattcccacatctacgtccgcctccgacgccctatctaaggcactgaaaaaacgtggttttaagtttgtcggcaccacaatctgttactcctttatgcaggcatgtgggctggtgaatgatcatgtggttggctgctgttgctatccgggaaataaaccatgatcaatatgccgacttcctgcgcgctcggtggtaggtgatggtatgcgcaccttgcgtgtactga coding Non-coding
Bacterium –corynebacterium glutamicum ATCC 13032 DNA서열의 각 영역별 길이 분포 Number of coding Number of non-coding a) b) length length
Symbolic analysis • 1bit (2 symbol)부호화의 예- 화학적 결합 word sequence 5 2 7 1 … … * 2 symbol – 8개의 워드 • 2bit (4 symbol) 부호화의 예- 화학적 결합 + 수소결합의 강도 word sequence 54 9 63 18 … … * 4symbol – 64개의 워드 워드 서열 구성 – 겹침 없이 세 개의 코드가 하나의 워드 (단백질 코딩 시 세 개의 염기가 하나의 아미노산 합성)
Information Entropy (Shannon’s entropy) *정보 엔트로피 DNA서열을 부호화 심볼 서열을 구성 - 무늬의 정보 엔트로피 적용 는 현재 -무늬 부호 서열에서 나타나는 무늬의 확률 ( = 3 ) *Correct Shannon’s Entropy (CSE) 엔트로피는 무한 길이에 대한 정의 보정 필요 단, 은 데이터에서 얻은 전체 워드 수 , 은 개의 워드를 가지고 계산된 엔트로피 은 전체 워드 중에서 나타나는 워드의 수
Word distribution Coding region Unequal word distribution Non-coding region Nearly equal word distribution
Word distribution (length= 600 bp) Coding Hypothetical coding index Unequal index Non-coding Promoter Nearly- equal index index
Surrogatedata test • Surrogate sequence - DNA 서열 구성 염기의 개수를 유지하면서 무작위로 섞음 - 각 DNA 당 50개 씩의 대체 서열을 생성 - 엔트로피 값을 통한 유의도 테스트 유의도 Z = 여기서 는 DNA데이터의 정보 엔트로피 는 surrogate 서열의 정보 엔트로피의 평균 는 surrogate 서열의 정보 엔트로피의 표준편차
Surrogate sequence test (length=600 bp) Circle : surrogate sequence, Triangle- DNA sequence [significance z, + z> 4.47 ] cse cse cse cse
CSE analysis of coding and non-coding sequence Symbol 2 * * * * * * * * * * * * * * * * * * CSE 모든 길이 영역 엔트로피 값 코딩과 논 코딩 구분 Symbol 4 * * * * * * * * * * * * * * * * * * CSE length [ filled rectangle: coding, rectangle :non-coding significance p, * p< 0.001 ]
CSE analysis of four type regions (length=600 bp) ‡∬* Symbol 2 ‡∬* †∫ CSE Coding vs ~ : † p-value<0.05, ‡ p-value<0.001 Hypothetical coding vs ~ : ∫ p-value<0.05, ∬ p-value<0.001 Non- coding vs ~ : * p-value<0.05, ** p-value<0.001 Symbol 4 † ‡∬* CSE
Promoter vs Non Promoter Entropy 각 영역별 서열의 정보량 비교 코딩과 논 코딩을 유의하게 구분 프로모터와 논 코딩은 약하게 구분됨 PWM (Position Weight Matrix) Promoter 의 서열 구성 특성을 이용 Promoter 예측에 많이 이용 Entropy + PWM 각 기능별 서열 구분
Structure of promoter -35 region -10 region -60 ~ -40 region +1 CDS 3’ 5’ TTGACA TATAAT A/T rich(up element) 17bp Coding region Promoter region Consensus sequence of promoter Two consensus sequence + 17bp (not consensus) Transcription start
Degree of consensus conservation M. Patek et al.( 1996 ) In the C.glutamicum -35 consensus sequence the fourth nucleotide is C instead A. An A at this position was found in only 7 of the 33 promoters. (21% conservation)
PWM N – 서열의 총수 (총 15개) • ni,j – 뉴클레오타이드 i 가 j 위치에서 나타나는 개수 • fi,j = ni,j/N - 뉴클레오타이드 i 가 j 위치에서 나타나는 빈도 • pi – 현 종(ex: E.coli ) 에서의 뉴클레오타이드 i 가 나타나는 확률 • 양수의 weighti,j는 문자 i가 위치 j에서 위치 확률이 클수록 값이 크게 나타남을 의미한다.
Result (length =600 bp) TP : 프로모터로 예측된 값이 실제로 프로모터인 경우 FN : 예측은 프로모터가 아닌 것으로 나왔지만 실재로 프로모터 인 경우 FP : 프로모터라고 예측 되었지만 실재로 프로모터가 아닌 경우
Conclusion & Discussion • 정보 엔트로피 - 논 코딩 영역이 코딩 영역보다 균등한 무늬 분포 높은 엔트로피 - 두 군이 통계적으로 유의 하게 구분 - 프로모터 영역은 논 코딩과 유사한 무늬분포와 엔트로피 값 • 정보 엔트로피 + PWM - 정보 엔트로피와 PWM을 threshold로 이용 - Promoter와 Non promoter 를 구분 - 기존의 promoter search 프로그램보다 좋은 민감도와 특이도 • 향후 과제 - Promoter 구분하는 프로그램을 더욱 최적화 시켜 프로그램 등록