150 likes | 290 Views
Discovery Bus Sistem za automatsko pravljenje QSAR modela. Damjan Krstaji ć Istraživački Centar za Hemijsku Informatik u www.rcc.org.rs. Istraživački Centar za Hemijsku Informatiku. osnovan krajem 2005. ugovor sa Njukasl univerzitetom razvoj opensource projek a ta (myStructure, CDL)
E N D
Discovery BusSistem za automatsko pravljenjeQSAR modela Damjan Krstajić Istraživački Centar za Hemijsku Informatiku www.rcc.org.rs
Istraživački Centar za Hemijsku Informatiku • osnovan krajem 2005. • ugovor sa Njukasl univerzitetom • razvoj opensource projekata (myStructure, CDL) • primena evolucionih strategija u rešavanju problema iz hemijske i bioinformatike (GA,ACO) • razvoj Discovery Bus projekta – programiranje u R, Java, C/C++, Matlab
Motivacije za Discovery Bus • Konstantan priliv novih podataka i metoda • Ne postoji jedan siguran način da se reši QSAR (statistički model) • Kratki rokovi • Lako integrisati novi softver bez obzira na operativni sistem(Windows ili Linux) • Otvoren za različite programske jezike • Distribuirano izračunavanje
Drugi sistemi za mašinsko učenje • ABLE: Agent Building and Learning Environment (IBM) • YALE: Yet Another Learning Environment (U. Dortmund et al) • WEKA: (U. Waikato) • Slaba fleksibilnost za planiranje i povezivanje agenata • Slabe mogućnosti distribucije posla • Bez fleksibilnosti da se uradi više ili manje posla u zavisnosti od broja rasploživih servera
Osnove Discovery Bus-a • Bus kernel je softver na centralnom serveru koji koordiniše aktivnosti. • Ljudi ili softver agenti predaju zahteve kernelu da se odradi posao. • Svaki zahtev (request) je specifičnog tipa (request type), npr izračunati deskriptore, odabrati obeležja, napraviti model itd. • Softver agenti, kada nisu zauzeti, obaveštavaju kernel da su slobodni i da mogu da zadovolje zahteve odredjenog tipa. Prihvataju posao i po završetku vraćaju odgovore kernelu. • Ljudi (human agents) mogu da obave posao i da odgovore na zahtev ili paralelno sa softver agentima ili umesto njih ako odgovarajući softver agent još ne postoji.
Arhitektura (1) • Agenti nemaju uvid u druge agente. Oni predaju zahteve ne znajući da li i ko može da zadovolji njihovim zahtevima. • Agent prihvata posao na osnovu tipa posla koji može da obavi. • Softver agenti koriste program API dapreuzmu posao ili da predaju zahteve. • Ljudi koriste veb interfejskoji se oslanja na program API
responses responses responses responses responses responses responses requests requests requests requests requests requests requests ‘The Discovery Bus’ Get data Get structures Calc descriptors Stratify Data Filter Features Machine Learn Select Best Architecture (2)
Architecture (3) Machine Agents Bus Kernel API Bus Kernel PL/SQL Data Tables Human Agents Web Interface Oracle collaboratively open language neutral open, robust
Competitive Workflow • Ekspert je neki put primoran da uradi nekoliko pokušaja da dodje do odgovara - možeš da probaš ovo – ili ovo – ili ovo • Često postoji više odgovora na jedno pitanje. Različiti eksperti daju različite odgovore i u literaturi postoje različiti prilazi rešavanju problema. • Svaki zahtev predat Busu može biti izvršen više puta ‘buildModel’ je tip zahteva (request type) ‘linear’, ‘neuralNet’ i ‘PLS’ su različiti agenti koji mogu da naprave model • Jedno izvršenje može da rezultira u više odgovora – npr odgovor na kvadratnu jednačinu
Agenti • Postoje dva specijalna agenta • Planner agent • Bootstrap agent • Većina agenata su napisani kao komand lajn programi. Bootstrap agent poziva odgovarajuće agente, prenosi im input podatke i po završetku šalje output podatke kernelu. • Zadatak planner agenta je da koordiniše rad drugih agenata tako što izvršava zadati skup planova.
Hemijska struktura & eksperimentalni rezultati Nova metoda? 1/X logX Transform response 4 x 8 x 6 x 8 = 1536 modela 4 x 8 = 32 filter feature zahteva class ? X 32 filter feature zahteva x 8 = 256 modela Split and stratify 10% D E Calculate descriptors H L&H&R A&D A&L A L R Combine descriptors A&E A&D&R E&D ... cfs1 cfs2 cfs3 Filter features nov ff cfs4 no filter cfs5 Test model Cross validate Build models ? ?&? NetlabNN GAWRMLR GUIDE Rpls Rlin Rnnet Rrpart GARMLR
Koja je najveća manaDiscovery Bus-a? • Koristi sve raspoložive metode za svaki problem – kombinatorna eksplozija
Global QSAR Models:: Solubility J. Cartmell, S. Enoch, D. Krstajic, D. E. Leahy, Automated QSPR through Competitive Workflow, Journal of Computer-Aided Molecular Design, Volume 19, Issue 11, Nov 2005, Pages 821 - 833
HVALA. Reference:J.Cartmell, S. Enoch, D. Krstajic, D. E. Leahy “Automated QSPR through Competitive Workflow” Journal of Computer Aided Molecular Design, 2005 Nov; 19(11): 821-833J.Cartmell, D. Krstajic, D. E. Leahy “Competitive Workflow: novel software architecture for automating drug design” Current Opinion in Drug Discovery & Development, 2007 May; 10(3): 347-352