520 likes | 905 Views
Bioinformatics. ĐẠI HỌC NGUYỄN TẤT THÀNH. NGUYỄN THÁI MINH QUÂN. 1. Các xu hướng phát triển của Tin – Sinh học. Xây dựng cơ sở dữ liệu sinh học Lưu trữ và quản lý nguồn dữ liệu sinh học Phát triển các thuật giải và các phương pháp thống kê Xác định mối quan hệ sinh học giữa các dữ liệu
E N D
Bioinformatics ĐẠI HỌC NGUYỄN TẤT THÀNH NGUYỄN THÁI MINH QUÂN 1
Các xu hướng phát triển của Tin – Sinh học • Xây dựng cơ sở dữ liệu sinh học • Lưu trữ và quản lý nguồn dữ liệu sinh học • Phát triển các thuật giải và các phương pháp thống kê • Xác định mối quan hệ sinh học giữa các dữ liệu • Sử dụng các công cụ tin sinh học • Phân tích và thông dịch nguồn dữ liệu sinh học
Trình tự DNA là vô nghĩa! gggtctctcttgttagaccagatctgagcctgggagctctctggctaactagggaacccactgcttaagcctcaataaagcttgccttgagtgcttcaagtagtgtgtgcccgtctgttgtgtgactctgatagctagagatcccttcagaccaaatttagtcagtgtgaaaaatctctagcagtggcgcctgaacagggacttgaaagcgaaagagaaaccagagaagctctctcgacgcaggactcggcttgctgaagcgcgcacggcaagaggcgaggggacggcgactggtgagtacgccaaaattttgactagcggaggctagaaggagagagatgggtgcgagagcgtcgatattaagcgggggaggattagatagatgggaaaaaattcggttaaggccagggggaaagaaaaaatatagattaaaacatttagtatgggcaagcagggagctagaacgattcgcagtcaatcctggcctattagaaacatcagaaggttgtagacaaatactgggacaactacaaccagcccttcagacaggatcagaagaacttagatcattatataatacagtagcaaccctctattgtgtgcatcaaaagatagatgtaaaagacaccaaggaagctttagataagatagaggaagagcaaaacaaaagtaagaaaaaagcacagcaagcagcagctgacacaggaaatagcagccaggtcagccaaaattaccccatagtgcagaacatccaggggcaaatggtacatcaggccatatcacctagaactttaaatgcatgggtaaaagtagtagaagagaaggctttcagcccagaagtaatacccatgttttcagcattatcagaaggagccaccccacaagatttaaacaccatgctaaacacagtggggggacatcaagcagccatgcaaatgttaaaagagaccatcaatgaggaagctgcagaatgggatagattgcatccagtgcatgcagggcctcatccaccaggccagatgagagaaccaaggggaagtgacatagcaggaactactagtacccttcaggaacaaatagcatggatgacaaataatccacctatcccagtaggagaaatctataagagatggataatcctgggattaaataaaatagtaaggatgtatagccctaccagcattctggacataaaacaaggaccaaaggaaccctttagagactatgtagaccggttctataagactctaagagccgagcaagcttcacaggaggtaaaaaattggatgacagaaaccttgttggtccaaaatgcgaacccagattgtaagactattttaaaagcattgggaccagcagctacactagaagaaatgatgacagcatgtcagggagtgggaggacccggccataaagcaagagttttggcagaagcaatgagccaagtaacaaattcagctaccataatgatgcagaaaggcaattttaggaaccaaagaaaaattgttaagtgtttcaattgtggcaaagaagggcacatagccaaaaattgcagggcccctaggaaaaggggctgttggaaatgtggaaaggagggacaccaaatgaaagattgtactgagagacaggctaattttttagggaaaatctggccttcccacaggggaaggccagggaattttcctcagaacagactagagccaacagccccaccagccccaccagaagagagcttcaggtttggggaagagacaacaactccctctcagaagcaggagctgatagacaaggaactgtatccttcagcttccctcaaatcactctttggcaacgaccccttgtcacaataaagataggggggcaactaaaggaagctctattagatacaggagcagatgatacagtattagaagaaataaatttgccaggaagatggaaaccaaaaatgatagggggaattggaggttttatcaaagtaagacagtatgatcaaatactcgtagaaatctgtggacataaagctataggtacagtattagtaggacctacacctgtcaacataattggaagaaatctgttgactcagattggttgcactttaaattttcccattagtcctattgaaactgtaccagtaaaattaaagccaggaatggatggcccaaaagttaaacaatggccattgacagaagaaaaaataaaagcattagtagaaatctgtacagaaatggaaaaggaaggaaaaatttcaaaaatcgggcctgaaaatccatataatactccagtatttgccataaagaaaaaagacagtactaaatggagaaaattagtagatttcagagaacttaataagaaaactcaagacttctgggaagttcaattaggaataccacatcccgcagggttaaaaaagaaaaaatcagtaacagtactggatgtgggtgatgcatatttttcagttcccttagataaagaattcaggaagtacactgcatttaccatacctagtataaacaatgagacaccagggattagatatcagtacaatgtgcttccacagggatggaaaggatcaccagcaatattccaaagcagcatgacaaaaatcttagagccttttagaaaacaaaatccagacatagttatctatcaatacatggacgatttgtatgtaggatctgacttagaaatagggcagcatagaacaaaaatagaggaactgagacaacatctgttgaagtggggatttaccacaccagacaaaaaacatcagaaagaacctccattcctttggatgggttatgaactccatcctgataaatggacagtacagcctatagtgctgccagaaaaggacagctggactgtcaatgacatacagaagttagtgggaaaattgaattgggcaagtcagatttacccagggattaaagtaaagcaattatgtagactccttaggggaaccaaggcactaacagaagtaataccactaacaaaagaagcagagctagaactggcagaaaacagggaaattctaaaagaaccagtacatggagtgtattatgacccatcaaaagacttaatagcggaaatacagaagcaggggcaaggtcaatggacatatcaaatttatcaagagccatttaaaaatctgaaaacaggaaaatatgcaagaatgaggggtgcccacactaatgatgtaaaacaattaacagaggcagtgc
Cơ sở dữ liệu sinh học Các bài báo khoa học Phân loại học (taxonomy) Trình tự nucleotide Bộ gen (genome) Trình tự protein Cấu trúc protein 4
Các loại cơ sở dữ liệu sinh học • Cơ sở dữ liệu sơ cấp: • Dữ liệu được cung cấp từ nhà thực nghiệm • Thông tin chỉ được thêm vào, không thêm bớt, hiệu chỉnh • Cơ sở dữ liệu thứ cấp: • Dữ liệu được xử lý • Nội dung được kiểm soát bởi tổ chức CSDL 5
Ví dụ cơ sở dữ liệu sơ cấp NCBI (National Center for Biotechnology Information) EMBL-EBI (European Molecular Biology Laboratory) DDBJ (DNA Data Bank of Japan) 6
http://www.ncbi.nlm.nih.gov/ NCBI 7
NCBI: A science primer Single Nucleotide Polymorphism Expression Sequence Tag 10
NCBI: EST Nguồn: NCBI 11
NCBI: SNP Nguồn: NCBI 12
Ví dụ cơ sở dữ liệu thứ cấp UNI-PROT (UNIted PROTein) PIR (Protein Information Resource) DSSP (Database of Secondary Structure of Protein) 16
UNI-PROT http://www.uniprot.org/ 17
UNI-PROT • Sự kết hợp của 3 cơ sở dữ liệu lớn: • European Bioinformatics Institute (EBI) • Swiss Institute of Bioinformatics (SIB) • Protein Information Resource (PIR) • SWISS-PROT • Ra đời năm 1986 • Sát nhập vào UNI-PROT năm 2003 18
Hợp tác quốc tế về trao đổi dữ liệu trình tự nucleotide Entrez NIH NCBI EMBL GenBank • Đăng tải • Cập nhật • Đăng tải • Cập nhật EMBL DDBJ EBI CIB NIG • Đăng tải • Cập nhật SRS getentry 21
Định dạng GenBank Nguồn: NCBI 22
Ý nghĩa các thông số • LOCUS • ID của EMBL • Tên của locus trên gen • ACCESSION NUMBER • ID để xác định tính duy nhất của trình tự • Các trình tự đến từ các CSDL khác nhau có tiền tố khác nhau 23
Ý nghĩa các thông số (tt) • gi • GenInfo Identifiers • Là dãy các con số chỉ một trình tự là khác biệt với các trình tự khác • VERSION • Các phiên bản khác nhau của một trình tự 24
Ý nghĩa các thông số (tt) • KEYWORDS • Từ khóa để tìm kiếm nhanh 1 trình tự • SOURCE/ORGANISM • Nguồn gốc (loài) của trình tự • Được kết nối với ngân hàng phân loại học của NCBI 25
Ý nghĩa các thông số (tt) • REFERENCE … • Trích dẫn bài báo, các công trình nghiên cứu liên quan đến trình tự • Được kết nối với cơ sở dữ liệu PubMed 26
Ý nghĩa các thông số FEATURE • Source • Thông tin chi tiết của trình tự • Gene • Thông tin chi tiết về gen hiện diện trong trình tự và các sản phẩm liên quan của nó 27
Ý nghĩa các thông số FEATURE (tt) • CDS: Coding Definition Sequence • Thông tin vùng mã hóa protein của gen và chi tiết về sản phẩm của nó • Exon • Thông tin chi tiết về các trình tự exon trong gen 28
Định dạng FASTA Nguồn: NCBI 30
Định dạng Graphic Nguồn: NCBI 31
Các tiền đề cơ bản so sánh trình tự • Thuyết tiến hóa: • Các trình tự gen tiến hóa từ một tổ tiên chung • Các protein có trình tự giống nhau thường có cấu trúc và chức năng giống nhau. • Dữ liệu lớn trình tự trong các ngân hàng dữ liệu: • Genbank: 82,853,685 trình tự DNA • Swiss-Prot: 362,782 trình tự protein 32
Các tiền đề so sánh trình tự Trình tự A và trình tự B được gọi là các trình tự tương đồng (homologous) So sánh trình tự A và trình tự B phát hiện x + y sự khác nhau (trình tự A có x sự biến đổi từ trình tự tổ tiên, trình tự B có y sự biến đổi từ trình tự tổ tiên). 33
Các tiền đề so sánh trình tự • Sự tiến hóa gen: • Orthologous • a1 (loài1) và a1 (loài 2) • a2 (loài 1) và a2 (loài 2) • Paralogous • gen a1 và gen a2 • Homologous • Orthologous, Paralogous 34
Thế nào là so sánh trình tự (sắp gióng cột) So sánh từng ký tự trong trình tự này với các ký tự trong trình tự khác (theo cột). DNA: 4 ký tự, protein: 20 ký tự. Đánh giá kết quả so sánh bằng cách tính tổng số chuyển đổi. Sự chuyển đổi: Đột biến thay thế Đột biến thêm (mất) Phép so sánh trình tự tối ưu: tổng chuyển đổi là thấp nhất. 36
Ví dụ sắp gióng cột trình tự Trình tự 1: A A T T G A T T G C G C A T T T A A A G G G Trình tự 2: A A C T G A C G C A T C T T A A G G G 1 Các cột so sánh Trình tự 1: A ATT G AT T G C GCATT T A A A G G G Trình tự 2: A AC T G AC G C A TCTT A A G G G - - - 15 phép chuyển đổi, 7 gốc bảo tồn 2 Đột biến (thay thế) Trình tự 1: A ATT G AT T G C G C A T T T A A A G G G Trình tự 2: A ACT G A- - -C GC A T C T T A A G G G 6 phép chuyển đổi 16 gốc bảo tồn 3 Thêm (mất) Cột bảo tồn 37
Các ràng buộc của sắp gióng cột 2 trình tự Tất cả các ký tự (nu, aa) trong trình tự 1 và 2 phải có trong sắp gióng cột và đúng trật tự Một ký tự từ 1 được gióng cột với một ký tự của 2 Một ký tự có thể gióng cột với khoảng trống, ký hiệu “-” 2 khoảng trống không được gióng cột với nhau 38
Các loại sắp gióng cột trình tự 2 loại: Sắp gióng cột toàn bộ chiều dài (Global alignment) Sắp gióng cột địa phương (Local alignment) 39
Global alignment • Sắp gióng cột trên toàn bộ chiều dài (bao gồm cả hai đầu của mỗi trình tự). • Áp dụng cho các trình tự có cùng chiều dài, độ giống nhau ở các cột so sánh cao. 40
Local alignment • Sắp gióng cột tìm ra vùng giống nhau nhất trên hai trình tự. • Áp dụng cho các trình tự có chiều dài khác nhau, có các vùng địa phương giống nhau cao. • Xác định các vùng chức năng trong protein, so sánh trình tự DNA dài với một trình tự DNA ngắn, … 41
Dot-plot Dot-plot là công cụ mạnh,đơn giản dùng so sánh trình tự nhằm xác định các vùng giống nhau trong 2 trình tự và những vùng lặp lại trong một trình tự đơn 42
Ma trận điểm thay thế Chứa các giá trị tỉ lệ với xác suất amino acid A đột biến thành amino acid B của tất cả các cặp amino acid qua quá trình tiến hóa Được xây dựng từ số lượng lớn và đa dạng các sắp gióng cột mẫu 43
Ma trận điểm thay thế PAM Xây dựng bởi Dayhoff, Schwarts & Orcutt năm 1978 dựa trên sự tiến hóa của 71 họ protein có độ tương đồng giữa các trình tự lớn hơn 85%. Tần số xuất hiện của mỗi cặp amino acid được xác định từ các kết quả sắp gióng cột những protein có khoảng cách tiến hóa nhỏ 1% (trung bình có một đột biến trên 100 amino acid). Kết hợp tần số xuất hiện này với tần số xuất hiện ngẫu nhiên của amino acid đơn tạo thành ma trận PAM-1. Sau đó ma trận PAM-1 được sử dụng để ngoại suy tạo các ma trận PAM-k. Ví dụ ma trận PAM - 250 = (PAM-1)250 phản ánh tần số xuất hiện đột biến của protein 250% (có 250 đột biến trên 100 amino acid). 44
Ma trận điểm thay thế BLOSUM Xây dựng dựa trên các kết quả sắp gióng cột không gap (khoảng trống) của các đoạn tương đồng (blocks) từ CSDL Blocks Những block cung cấp một ma trận điểm sẽ được định nghĩa dựa trên tần số xuất hiện của các cặp amino acidqab Các trình tự trong một block sẽ được phân nhóm dựa theo % giống nhau. Hai trình tự được sắp trong cùng một nhóm khi có % gốc giống nhau lớn hơn giá trị ngưỡng x%. Tần số xuất hiện chỉ được tính trong các cặp trình tự có % nhỏ hơn x%. Chọn giá trị ngưỡng x% tạo ra ma trận điểm BLOSUM-x với x từ 30-100%. Ví dụ BLOSUM-62 dựa trên các cặp amino acid của những trình tự nhỏ hơn 62% giống nhau. 45
Thuật giải quy hoạch động - DP Ma trận điểm DP: tương tự ma trận Dot – Plot nhưng sử dụng ma trận thay thế để tính điểm và điểm phạt khoảng trống (gap) Ma trận traceback: tìm sắp gióng cột có điểm cao nhất 46
Ma trận traceback Đểtạosắpgióngcộttoànbộ, bắtđầutừ ô cuốicùngbênphảivàtheohướngmũitênđingượclại 48