1 / 19

2. 분자생물학 데이터베이스 2.1 역사적인 배경

2. 분자생물학 데이터베이스 2.1 역사적인 배경. 분자유전체학과 이영애. 분자생물학 데이터베이스의 발전. - 19 세기 : 유전학과 세포생물학 - 20 세기 : 분자생물학. - 생물학의 기초적인 관찰 - 컴퓨터화된 데이터베이스 ( 팽창해가는 지식들의 기반 ). 분자생물학 데이터베이스. 문헌 데이터베이스 정보 검색의 목적 도서목록과 온라인 간행물 검색 사실정보 데이터베이스 실험 데이터들의 집합 핵산 염기 서열 , 단백질 서열 , 3 차원 분자 구조 지식 기반

verna
Download Presentation

2. 분자생물학 데이터베이스 2.1 역사적인 배경

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2. 분자생물학 데이터베이스 2.1 역사적인 배경 분자유전체학과 이영애

  2. 분자생물학 데이터베이스의 발전 - 19세기: 유전학과 세포생물학 - 20세기: 분자생물학 - 생물학의 기초적인 관찰 - 컴퓨터화된 데이터베이스 (팽창해가는 지식들의 기반)

  3. 분자생물학 데이터베이스 • 문헌 데이터베이스 • 정보 검색의 목적 • 도서목록과 온라인 간행물 검색 • 사실정보 데이터베이스 • 실험 데이터들의 집합 • 핵산 염기 서열, 단백질 서열, 3차원 분자 구조 • 지식 기반 • 저장된 지식으로부터 새로운 지식 추론을 목적 • 생물학적 기능들에 대한 지식 표현

  4. 데이터베이스 종류 데이터 내용 예 1. 문헌 데이터베이스 서지학적 인용 MEDLINE (1971) 온라인 간행물 2. 사실정보 데이터베이스 핵산서열 GenBank(1982), EMBL(1982), DDBJ(1984) 아미노산 서열 PIR(1968), PRF(1979), SWISS- PROT(1986) 3차원 분자 구조 PDB(1971), CSD(1965) 3. 지식 기반 모티프 라이브러리 PROSITE(1988) 분자 분류 SCOP(1994) 생화학 경로 KEGG(1995) <표 2-1> 분자생물학 데이터베이스들의 발전

  5. 데이터베이스 기관 주소 MEDLINE 국립 의학도서관 www.nlm.nih.gov GenBank 국립 생명공학 정보센터 www.ncbi. nlm.nih.gov EMBL 유럽 생물정보학 연구소 www. ebi.ac.uk DDBJ 일본 국립 유전학 연구소 www. ddbj.nig.ac.jp SWISS-PROT 스위스 생물정보학 연구소 www.expasy.ch PIR 국립 생명의학 연구재단 www-nbrf.georgetown.edu PRF 일본 단백질 연구재단 www.prf.or.jp PDB 구조생명정보학 연구공동체 www.rcsb.org CSD 캠브리지 결정학 데이터센터 www.ccdc.cam.ac.uk <표 2-2> 중요한 데이터베이스들의 주소

  6. 정보 데이터베이스 주소 화합물과 반응 LIGAND www.genome.ad.jp/dbget/ligand.html AAindex www.genome.ad.jp/dbget/aaindex.html 단백질 군과 PROSITE www.expasy.ch/sprot/prosite/html 서열 모티프 Blocks www. blocks.fhcrc.org/ PRINTS www.biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/ Pfam www.sanger.ac.uk/Pfam/,pfam.wustl.edu/ ProDom protein.toulouse.inra.fr/prodom.html <표 2-3> 새로운 세대의 분자생물학 데이터베이스

  7. 정보 데이터베이스 주소 3차원 폴드 분류 SCOP scop.mrc-lmb.cam.ac.uk/scop/ CATH www.biochem.ucl.ac.uk/bsm/cath/ 오소로그 유전자 COG www.ncbi.nlm.nih.gov/COG/ KEGG www. genome.ad.jp/kegg/ 생화학 경로 KEGG www. genome.ad.jp/kegg/ WIT www.mcs.anl.gov/WIT2 Ecocyc ecocyc.PangeaSystems.com/ecocyc/ UM-BBD www.labmed.umn.edu/umbbd/ 유전체 다양성 NCBI Taxonomy www.ncbi.nlm.nih.gov/Taxonomy/ OMIM www.ncbi.nlm.nih.gov/Omim <표 2-3> 새로운 세대의 분자생물학 데이터베이스

  8. 도서목록 데이터베이스 MEDLINE - 1971년 이후 온라인으로 이용 미국 국립보건원(NIH)의 국립의학도서관 (NLM) 통관 -1988년 국립생명공학정보센터(NCBI)로 이관된 후 분자생물학 최고의 데이터베이스 ①DNA 염기 서열, 단백질 서열, 3차원 분자구조 등의 사실 정보 데이터 베이스와 연결 ② 온라인으로 Full text를 제공하는 간행물 출판사와 연결 ③ 인터넷으로 무료로 사용 가능

  9. 아미노산 서열 데이터베이스 • PIR-International Protein Sequence Database • - 1968-1978년 “데이호프”가 “단백질 서열과 구조 도해서” 출판, 1980년대 NBRF 단백질 서열 데이터베이스가 시초 • 1984년 Protein Information Resource (PIR)이NIH 지원으로 설립 • 1988년 독일 뮌헨 단백질 서열 정보센터(MIPS)와 일본 국제 단백질 서열 데이터베이스 (JIPID)와 협력

  10. 아미노산 서열 데이터베이스 • Protein Research Foundation (PRF) • 1975년 일본의 단백질 연구 재단 (PRE)이 “펩티드 정보(Peptide information)” 를 출판 • 1979년 전산화한 데이터베이스SEQDB와 LITDB 제작 • 아미노산 서열을 서지학적 정보 부분으로 다룸

  11. 아미노산 서열 데이터베이스 • SWISS-PROT • 1986년 제네바대학에서 제작 • 데이터의 질적인 면에서 최고 • 1987년 유럽 분자 생물학연구소(EMBL)과 협력하여 • 뉴클레오티드 서열 데이터베이스를 번역하여 보완 • 현재 스위스생물정보학협회(SIB), EMBL의 • 유럽생물정보학협회 (EBI)와 공동으로 운영

  12. 3차원 구조 데이터베이스 • Protein Data Bank(PDB) • 1971년 북하벤 국립연구소(BNL)에 설립 • 1999년 구조생물 정보학 연구협력 기구(RCSB)가 운영 • - 단백질, RNA, DNA, 탄수화물, 분자 합성물, 바이러스 구조 정보 • Cambridge Structural Database(CSD) • 1965년 캠브리지대학에 설립 • 1989년 캠브리지 결정데이터센터(CCDC)에 의해 유지 • 서지학적, 화학적, 결정학적 데이터와 X-레이, 중성자 회절방법에 의한 3차원 분자좌표 데이터를 포함

  13. 뉴클레오티드 서열 데이터베이스 • GeneBank • -1982년 로스 알라모스 국립연구소 • -1992년 NCBI로 이관 • EMBL • 1982년 유럽 분자생물학 연구소 • 1994년 EBI로 이관 • DDBJ • -1984년 일본 DNA 데이터 은행 • 이들 세 기관이 “국제 뉴클레오티드 서열 데이터베이스 • 협력기구” 결성하여 매일 데이터를 교환

  14. <그림 2-1> (a) 등록자료의 개수와 (b) 잔기의 개수에서 본 서열과 3차원 구조 데이터베이스들의 성장

  15. 플랫 파일 (Flat File) 형식 • 핵산 서열, 단백질 서열, 3차원 분자 구조 데이터베이스에 널리 사용 • 데이터 처리 및 이용이 쉬움 • 서열 데이터베이스 등록자료 내용 • ① 명명법, 서지학적 정보 • ② 서열 특성에 대한 생물학적 주석을 포함한 특징표 • ③ 일차 서열 데이터

  16. GeneBank의 서열데이터베이스 LOCUS DRODPPC 4001 bp mRNA linear INV 26-APR-1993 DEFINITION D.melanogaster decapentaplegic gene complex (DPP-C), complete cds. ACCESSION M30116 VERSION M30116.1 GI:157291 KEYWORDS . SOURCE Drosophila melanogaster (fruit fly) ORGANISM Drosophila melanogaster Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha; Ephydroidea; Drosophilidae; Drosophila. REFERENCE 1 (bases 1 to 4001) AUTHORS Padgett,R.W., St Johnston,R.D. and Gelbart,W.M. TITLE A transcript from a Drosophila pattern gene predicts a protein homologous to the transforming growth factor-beta family JOURNAL Nature 325 (6099), 81-84 (1987) PUBMED 3467201 COMMENT Original source text: D.melanogaster, cDNA to mRNA. The initiation codon could be at either 1188-1190 or 1587-1589. FEATURES Location/Qualifiers source 1..4001 /organism="Drosophila melanogaster" /mol_type="mRNA" /db_xref="taxon:7227" mRNA <1..3918 /product="decapentaplegic protein mRNA" CDS 1188..2954 /note="decapentaplegic protein (1188 could be 1587)" /codon_start=1 /protein_id="AAA28482.1" /db_xref="GI:157292" /translation="MRAWLLLLAVLATFQTIVRVASTEDISQRFIAAIAPVAAHIPLA……LGYDAYYCHGKC PFPLADHFNSTNHAVVQTLVNNMNPGKVPKACCVPTQLDSVAMLYL NDQSTVVLKNYQEMTVVGCGCR" ORIGIN 1 gtcgttcaac agcgctgatc gagtttaaat ctataccgaa atgagcggcg gaaagtgagc 61 cacttggcgt gaacccaaag ctttcgagga aaattctcgg acccccatat acaaatatcg 121 gaaaaagtat cgaacagttt cgcgacgcga agcgttaaga tcgccaaaag atctccgtgc 181 ggaaacaaag aaattgaggc actattaaga gattgttgtt gtgcgcgagt gtgtgtcttc 241 agctgggtgt gtggaatgtc aactgacggg ttgtaaaggg aaaccctgaa atccgaacgg …………. 3841 aactgtataa acaaaacgta tgccctataa atatatgaat aactatctac atcgttatgc 3901 gttctaagct aagctcgaat aaatccgtac acgttaatta atctagaatc gtaagaccta 3961 acgcgtaagc tcagcatgtt ggataaatta atagaaacga g //

  17. Entry information Entry name Name: Drosophila melanogaster (Fruit fly) NUCLEOTIDE SEQUENCE [MRNA].DOI=10.1038/325081a0; PubMed=3467201 [NCBI, ExPASy, EBI, Israel, Japan]Padgett R.W., St Johnston R.D., Gelbart W.M.;"A transcript from a Drosophila pattern gene predicts a protein homologous to the transforming growth factor-beta family.";Nature 325:81-84(1987). dpp DECA_DROME [TaxID: 7227] [1] Primary accession number P07713 ORFNames: CG9885 Eukaryota Secondary accession numbers P91651 Q6AWM1 Q8I0M7 Q8ITK4 Q9VQC6 ; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha; Ephydroidea; Drosophilidae; Drosophila. Integrated into Swiss-Prot on April 1, 1988 Sequence was last modified on September 13, 2005 (Sequence version 2) March 21, 2006 (Entry version 66) Name and origin of the protein Protein name Protein decapentaplegic [Precursor] Synonym Protein DPP-C Annotations were last modified on Gene name From Taxonomy References SWISS-PROT의 서열 데이터 베이스 Features……….. Sequence information…………..

  18. 유전체 데이터베이스 • - 생물 종에 대한 유전적 지도, 물리적 지도, 핵산 서열, 아미노산 서열과 같은 여러 종류의 데이터를 포함 • 다양한 해상력에서의 유전체 구조 • 다양한 단계에서의 유전체 기능 • 유전자 기능에 따른 계층적 분류 • DNA 칩, 단백질 칩과 같은 실험 방법들로부터 얻은 • 새로운 종류의 발현 데이터들과 통합 발전

  19. <표 2-4> 라일리(Monica Riley)에 따른 대장균(E. coli) 유전자들의 기능적인 분류

More Related