170 likes | 289 Views
BIOINFORMÀTICA: Interfície gràfica per a la representació de genomes via Web. Albert Bisbal Herrero Tutors: Mario Huerta, Juan José Villanueva Setembre 2008. INTRODUCCIÓ OBJECTIUS ESPECIFICACIONS TÈCNIQUES GESTIÓ DE DESCÀRREGUES MUM’s PROCÉS GENERAL CLUSTERS LAYOUT
E N D
BIOINFORMÀTICA:Interfície gràfica per a la representació de genomes via Web Albert Bisbal Herrero Tutors: Mario Huerta, Juan José Villanueva Setembre 2008
INTRODUCCIÓ • OBJECTIUS • ESPECIFICACIONS TÈCNIQUES • GESTIÓ DE DESCÀRREGUES • MUM’s • PROCÉS GENERAL • CLUSTERS • LAYOUT • INTERFÍCIE GRÀFICA • BIBLIOGRAFIA
ADN: Instruccions genètiques que determinen el desenvolupament i funcionament dels organismes. • Genomes • Formen l’ADN i contenen gens • S’obtenen amb la seqüenciació de l’ADN • Representable amb seqüències de 4 caràcters (A,C,G,T) TCAATATGGACGCCTGTAAAGGAGAGCATAGGCTATGTTTATGTTTCTAGGCGCGTCACGGTTAAAGCGAGCAAGCTATTGGGTTCGCTTACTTTGTTAGCGAGTTTAATATCTTTTGTGGTTGGTGCAGCATATGGTATTAC Comparar genomes de diferents organismes ens pot donar informació molt valuosa.
Proporcionar una eina de descàrrega i gestió dels genomes. • Portar a terme una comparació general entre tots els genomes obtinguts. • Realitzar tot el procés que porta de la obtenció dels alineaments a la seva distribució en un Layout per a la seva representació en una interfície gràfica. • Proporcionar una eina (interfície gràfica) a la comunitat científica per a l’estudi de les relacions entre els genomes.
Entorn de desenvolupament: • Sistema Operatiu : Linux • Eines de desenvolupament (software lliure): • C / C++ • BASH • Eclipse • Java Applets
NCBI: Bases de Dades públiques que contenen informació de la biologia mol·lecular. Les dades estan disponibles a través del buscador Entrez. • Genomes: els dividim en 3 organismes; Bactèria, Archaea i Eukaryota. • Problema: Gestió manual dels genomes descarregats requereix d’un temps massa elevat. • Solució: desenvolupament d’una eina per a realitzar aquest procés. • Resultat: Carpeta per cada organisme amb els seus genomes corresponents. • Inconvenient: Fitxers Eukaryota massa pesats. Descàrrega manual.
MUM: Donades 2 seqüències X i Y, un MUM és una subseqüència W que podem localitzar un sol cop en X i Y, les quals no contindran cap paraula més llarga amb els mateixos caràcters seguits. que W. • Comptem amb un programa (MumUnix) per trobar els MUM’s per a 2 genomes • Objectiu: Fer un alineament global per a tenir un número que indiqui la similitud entre cada parell d’organismes. • Solució: realització d’un programa que llenci el MumUnix per cada parell de genomes i emmagatzemi els resultats en un fitxer; “factors”. • Problema: alguns fitxers Eukaryota massa pesats (>2GB). • Solució: adaptació del MumUnix per poder-los gestionar. X: ACTTGCAACTGGG Y: AGCAATGCAACTA --------------------------- Mum: TGCAACT X: ACTTGCAACTGGG Y: TAAACGTTCCGCG --------------------------- Mum: TGCAACT
En la interfície gràfica volem tenir els clústers (grup de genomes) més correlacionats entre sí de manera que quedin més propers. • Solució: Mitjançant la tècnica de clustering “single-linckage” agrupem els genomes segons les millors correlacions que tenen. • Resultat: Obtenim un fitxer de text que podem veure en forma de nodes i arestes amb tots els clústers. • Inconvenient: Necessitem que els clústers quedin relacionats. • Solució: A partir del maximumspanningtree trobem les arestes que uneixen clústers i les afegim al fitxer. Aquestes son les arestes interclúster.
Necessitat: Requerim d’un programa que ubiqui els genomes i clústers generats dins d’un espai (X,Y). • Previ: Tenim un programa que fa la ubicació al Layout dels genomes dels clústers i posteriorment els clústers. • Problema: Necessitem fusionar les dues operacions (ubicació local i global) per obtenir els clústers relacionats segons els genomes de les arestes interclúster i les seves orientacions.
1. UBICACIÓ LOCAL Obtenim els genomes de cada clúster en una 1ª ubicació en l’espai local segons les correlacions de tots els genomes entre sí. Ho farem mitjançant un desplaçament i una rotació a partir del centre del clúster. • 2. UBICACIÓ GLOBAL • Tractar arestes interclúster pels seus nodes origen-destí i no pels seus centres • Buscar la millor ubicació respecte els nodes origen-destí dels genomes del mstree. • Evitar solapaments amb els clústers col·locats. • Problemes a resoldre: • Reubicartots els genomes a cada pas. • Càlcul de distàncies i rotacions en l’espai 2D
Objectiu: Volem obtenir una execució de tots els processos que hem vist des d’un sol programa. • Problema: Tenim forces programes que s’intercanvien dades i 3 grups d’organismes diferents. • Solució: Creació del programa lanzadera que s’encarrega de portar a terme totes les execucions i intercanvis d’arxius. Així com col·locar-los en un PATH on la interfície gràfica els pugui utilitzar enllaçant-lo.
Objectiu: Adaptar l’aplicació del IBB per a la representació de gens als genomes. • Eina: IDE Java d’Eclipse • Llibreria per a la construcció de grafs: Jung (Java Universal Network/Graph Framework). • Resultat: Applet Web que crida per paràmetres les dades generades en el procés general. • Opcions més importants de l'aplicació: • Tenir una disposició general dels genomes segons els seus MUM’s i organitzats en clústers. • Genoma Info: Obtenir informació dels genomes amb enllaços al NCBI i les correlacions. • Mspath: Calcula el Shortest Path entre un grup de genomes seleccionats • Mum’s Analysis: Obtenir els Mum’s d’un grup de genomes escollits. • Altres: • Filtrar arestes segons correlacions • Pintar arestes segons correlacions • Noms de Genomes • Pintar clústers • Mostrar mstree
Finalització amb èxit dels objectius. • Obert a noves aplicacions sobre la interfície. • Visió de tot el procés de principi a fi. • Descoberta del món de la biologia molecular i la bioinformàtica. • Participació en projecte punter d’investigació.
Efficient Space and Time multicomparison of genomes. Mario Huerta, Xavier Messeguer, Technicalreport LSI-02-64-R. Llenguatges i Sistemes Informàtics, Universitat Politècnica de Catalunya (2002). • Pinto, Manuel; Riqueleme, Alejandro. Introducción a la genómica en VID. Universidad de Chile. • http://www.ncbi.nlm.nih.gov Pàgina oficial del NCBI • http://www.statsoft.com/textbook/stcluan.html Anàlisi de clústers • http://jung.sourceforge.net/ Especificacions llibreria Jung • http://www.sc.ehu.es/sbweb/fisica/cursoJava/ Applets java