330 likes | 749 Views
Bioinformatikos duomenų analizės metodai. Doc. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: damarobe @soften.ktu.lt. Daugiamačiai duomenys (1). Daugiamačiais duomenys: duomenys, kurie nurodo sudėtingą reiškinį aprašytą daugeliu parametrų. Savybes:
E N D
Bioinformatikos duomenų analizės metodai Doc. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: damarobe@soften.ktu.lt
Daugiamačiai duomenys (1) • Daugiamačiais duomenys: • duomenys, kurie nurodo sudėtingą reiškinį aprašytą daugeliu parametrų. • Savybes: • sudėtinga struktūra - jų objektai kartais susideda iš daugelio tūkstančių taškų, įvairiai pasiskirsčiusių erdvėje, jų negalima atvaizduoti vienoje fiksuotos struktūros reliacinėje lentelėje; • didelės duomenų bazės - paprastai yra operuojama gigabaitiniais atminties kiekiais. Bioinformatika (B110M100)
Daugiamačiai duomenys (2) • Problema: • daugiamačiai duomenys yra sunkiai suprantami, todėl būtina juos pateikti žmogui suvokiama forma, pvz., projektuojant į dvimatę plokštumą. • Daugiamačių duomenų projekcijos į mažesnės dimensijos erdvę metodai: • pagrindinių komponenčių analizė (PCA), daugiamatės skalės (MDS), Sammon‘o projekcija ir kt. • Taikymas: • transformacijos metu gautos projekcijos yra naudojamos klasteriams ir šablonams duomenyse identifikuoti, kurie paskui yra vizualizuojami naudojant įvairius grafinio vizualizavimo metodus. Bioinformatika (B110M100) 3
Pavyzdys: genų išraiškos duomenų matrica (mikromatrica) • Tai yra daugiamatis masyvas, kur: • Kiekviena eilutė atitinka geną Gi; • Kiekvienas stulpelis atitinka eksperimento sąlygą Sj; • Kiekvienas masyvo elementas Xijyra realus skaičius nusakantis geno Giišraiškos lygį esant sąlygai Sj; • Nagrinėjant genų išraiška laike atsiranda papildomas matmuo: laikas. • Tipinė matrica apima 1000 genų ir 10 laiko taškų Bioinformatika (B110M100)
Tipinio duomenų analizės eksperimento schema Bioinformatika (B110M100)
Duomenų vizualizavimas • Vizualizavimas: • grafinis informacijos pateikimas. • Pagrindinė idėja: • duomenis pateikti tokia forma, kuri leistų vartotojui suprasti duomenis, juos analizuoti ir daryti išvadas. • Vizualizavimo rūšys: • Trimačio vaizdo pateikimas plokštumoje išlaikant erdvines savybes (kompiuterinė grafika). • Daugiamačių vektorių pavaizdavimas mažesnio matavimo erdvėje siekiant išlaikyti panašią duomenų struktūrą ir jų tarpusavio išsidėstymą. Bioinformatika (B110M100)
Duomenų dimensiškumo sumažinimo metodai (1) • Tiesioginiai vizualizavimo metodai: pagal juos daugiamačiai duomenys yra pateikiami tam tikra vizualia forma, šie metodai padeda suvokti duomenis. • taškiniai grafikai (Scatter Plots), • taškinių grafikų matricos (Matrix of Scatter Plots), • linijiniai grafikai (Line Graph, Multi Line Graph), • perstatymų matrica (Permutation Matrix), • apžiūros grafikai (Survey Plots) Bioinformatika (B110M100)
Duomenų dimensiškumo sumažinimo metodai (2) • Projekcijos metodai leidžia daugiamačius duomenų objektus atitinkančius vektorius pateikti mažesnės dimensijos erdvėje. • Pagrindinių komponenčių analizė (Principal Component Analysis), • Projekcijos siekimas (Projection Pursuit), • Daugiamatės skalės (Multidimensional Scaling), • Sammon‘o projekcija ir kt.; • Netiesiniai projekcijos metodus. Bioinformatika (B110M100)
Duomenų dimensiškumo sumažinimo metodai (3) • Klasterizavimo metodai padeda suvokti didelių imčių duomenis juos grupuojant į klasterius, grupes. • K-vidurkių klasterizavimas (k-means), • artimiausių kaimynų klasterizavimo metodas (nearest neighbor), • K-vidurinių taškų klasterizavimo metodas (K-medoids) • Dirbtiniai neuroniniai tinklai gali būti naudojami daugiamačių duomenų vizualizavimui • Saviorganizuojantys neuroniniai tinklai (SOM). Bioinformatika (B110M100)
Daugiamačių skalių metodas • Daugiamatės skalės (MDS - Multidimensional Scaling) – grupė metodų, plačiai naudojamų daugiamačių duomenų analizei • MDS pagalba n-mačiai vektoriai projektuojami į mažesnės dimensijos erdvę (dažniausiai į R2) siekiant išlaikyti atstumus ar kitus panašumus tarp analizuojamos aibės objektų • Gautuose dvimačiuose grafikuose panašūs objektai yra vaizduojami arčiau vieni kitų, o mažiau panašūs – toliau vieni nuo kitų • Pradiniai duomenys yra panašumų arba skirtingumų matrica: kvadratinė simetrinė matrica, atvaizduojanti ryšius tarp analizuojamų duomenų aibės elementų • Ryšiais tarp aibės elementų gali būti įvairios atstumų metrikos Bioinformatika (B110M100)
Atstumų metrikos (1) • Plačiausiai naudojama atstumo metrika yra Euklido atstumas, kuris reiškia atstumą tarp 2 taškų plokštumoje: • Manheteno atstumas reiškia atstumą tarp taškų stačiakampio išplanavimo mieste: • Minkowskio atstumas apibendrina Euklido ir Manheteno atstumus: Čia - dimensijos parametras. Bioinformatika (B110M100)
Atstumų metrikos (2) • Kanberos atstumas: • Čebyševo (maksimalios reikšmės) atstumas: • Bray Curtis (Sorensen) atstumas naudojamas botanikoje ir ekologijoje: Bioinformatika (B110M100)
x 3 y 4 Atstumų metrikos: pavyzdys 4. Kanberos atstumas:
Paklaidų funkcijos • STRESS: • STRESS1: • SSTRESS: Bioinformatika (B110M100)
MDS algoritmų tipai (1) • Metriniai MDS algoritmai, arba klasikiniai (classical scaling) • Naudojami kai įmanoma rasti atstumus tarp analizuojamų duomenų elementų. • Tikslas: pavaizduoti daugiamačius taškus dvimatėje erdvėje taip, kad atstumai tarp dvimačių vektorių būtų kiek galima artimesni atstumams tarp daugiamačių vektorių, minimizuojant paklaidos funkciją. Bioinformatika (B110M100)
MDS algoritmų tipai (2) • Nemetriniai MDS algoritmai • Duomenų elementų skirtingumai ar panašybės nėra atstumai. • Prasmingos ne atstumų skaitinės reikšmės, o atstumų tarp objektų eilės numeriai, t.y. objektų išsidėstymo eilė. Bioinformatika (B110M100) 18
MDS taikymo pavyzdys Distance between any two dots (sequences) represent relative proximity between their sequence signatures (MDS was performed from 64 to 2-dimensions) Legault et al. BMC Genomics 2006 7:171
Klasterizavimo algoritmai • Problema: sudėtingi daugiamačiai nehomogeniniai duomenys, analizė/modeliavimas nesiseka. • Sprendimas: reikia suskaidyti duomenis į klasterius ir juos modeliuoti atskirai. • Klasterizavimo algoritmai: • 1) nustato (atskleidžia) panašumus tarp objektų • 2) „padeda“ panašius objektus į klasterius
K-means klasterizavimo algoritmas • Pasirinkite atsitiktinai k pradinių taškų • Klasterizuokite duomenis naudodami Euklido atstumą • Susklaičiuokite naujus centrinius taškus kiekvienam klasteriui naudodami tik klasterio taškų koordinates • Klasterizuokite visus duomenis iš naujo priskirdami juos naujiems centriniams taškams • Kartokite 3 ir 4 žingsnius tol, kol duomenų taškai daugiau nekeičia savo priklausomybės klasteriams From “Data Analysis Tools for DNA Microarrays” by Sorin Draghici
Pasirinkite k pradinių taškų K-Means klasterizavimas
Priskirkite klasterius Suskaičiuokite naujus centrinis taškus K-Means klasterizavimas
Kartokite, kol centriniai taškai nekeičia savo padėties K-Means klasterizavimas
Atraminių vektorių klasifikatorius =Support Vector Machine (SVM) are training data vectors, are unknown data vectors , is a targetspace is the kernel function.
Quality of classification Training data size of dataset, generation of negative examples, imbalanced datasets Mapping of data into feature space Orthogonal, single nucleotide, nucleotide grouping, ... Selection of an optimal kernel function linear, polynomial, RBF, sigmoid Kernel function parameters SVM learning parameters Regularization parameter, Cost factor Selection of SVM parameter values – an optimization problem 26
SVM (hyper)parameters • Kernel parameters • Learning parameters
SVM feature space • Feature space: multidimensional vector representing data instances • Mapping of data into features:achieving better classification accuracy • Feature space construction: • nucleotide position-dependent • nucleotide position-independent • both nucleotide position-dependent and -independent information • Feature mapping rule: • N –the lengthof a DNA sequence, M – thelength of feature vector Int. Workshop on Intelligent Informatics in Biology and Medicine (IIBM’2008), March 4-7, 2008, Barcelona, Spain
Feature mapping rules • 4-letter (ACGT) :Σ = {A, C, G, T}, ||Σ|| = 4 • Advantage: Hamming-distance is constant • Disadvantage: feature space growth ~ 4k • Nucleotide grouping based: SW, KM & RY • SW : Σ = {S, W}, ||Σ|| = 2 • Strong (C, G) nucleotides– 3 H bonds • Weak (A, T) nucleotides– 2 H bonds • RY : Σ = {R, Y}, ||Σ|| = 2 • A and G – purines (R) • C and T – pyrimidines (Y) • KM : Σ = {K, M}, ||Σ|| = 2 • A and C – amines (M) • G and T – ketones (K)
Binary feature mapping rules Bioinformatika (B110M100)
Klasifikavimo metodų pavyzdys • LocBoost classification applet • http://www.cs.technion.ac.il/~rani/LocBoost/ Bioinformatika (B110M100)