1 / 31

Bioinformatikos duomenų analizės metodai

Bioinformatikos duomenų analizės metodai. Doc. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: damarobe @soften.ktu.lt. Daugiamačiai duomenys (1). Daugiamačiais duomenys: duomenys, kurie nurodo sudėtingą reiškinį aprašytą daugeliu parametrų. Savybes:

rumor
Download Presentation

Bioinformatikos duomenų analizės metodai

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bioinformatikos duomenų analizės metodai Doc. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: damarobe@soften.ktu.lt

  2. Daugiamačiai duomenys (1) • Daugiamačiais duomenys: • duomenys, kurie nurodo sudėtingą reiškinį aprašytą daugeliu parametrų. • Savybes: • sudėtinga struktūra - jų objektai kartais susideda iš daugelio tūkstančių taškų, įvairiai pasiskirsčiusių erdvėje, jų negalima atvaizduoti vienoje fiksuotos struktūros reliacinėje lentelėje; • didelės duomenų bazės - paprastai yra operuojama gigabaitiniais atminties kiekiais. Bioinformatika (B110M100)

  3. Daugiamačiai duomenys (2) • Problema: • daugiamačiai duomenys yra sunkiai suprantami, todėl būtina juos pateikti žmogui suvokiama forma, pvz., projektuojant į dvimatę plokštumą. • Daugiamačių duomenų projekcijos į mažesnės dimensijos erdvę metodai: • pagrindinių komponenčių analizė (PCA), daugiamatės skalės (MDS), Sammon‘o projekcija ir kt. • Taikymas: • transformacijos metu gautos projekcijos yra naudojamos klasteriams ir šablonams duomenyse identifikuoti, kurie paskui yra vizualizuojami naudojant įvairius grafinio vizualizavimo metodus. Bioinformatika (B110M100) 3

  4. Pavyzdys: genų išraiškos duomenų matrica (mikromatrica) • Tai yra daugiamatis masyvas, kur: • Kiekviena eilutė atitinka geną Gi; • Kiekvienas stulpelis atitinka eksperimento sąlygą Sj; • Kiekvienas masyvo elementas Xijyra realus skaičius nusakantis geno Giišraiškos lygį esant sąlygai Sj; • Nagrinėjant genų išraiška laike atsiranda papildomas matmuo: laikas. • Tipinė matrica apima 1000 genų ir 10 laiko taškų Bioinformatika (B110M100)

  5. Tipinio duomenų analizės eksperimento schema Bioinformatika (B110M100)

  6. Duomenų vizualizavimas • Vizualizavimas: • grafinis informacijos pateikimas. • Pagrindinė idėja: • duomenis pateikti tokia forma, kuri leistų vartotojui suprasti duomenis, juos analizuoti ir daryti išvadas. • Vizualizavimo rūšys: • Trimačio vaizdo pateikimas plokštumoje išlaikant erdvines savybes (kompiuterinė grafika). • Daugiamačių vektorių pavaizdavimas mažesnio matavimo erdvėje siekiant išlaikyti panašią duomenų struktūrą ir jų tarpusavio išsidėstymą. Bioinformatika (B110M100)

  7. Duomenų dimensiškumo sumažinimo metodai (1) • Tiesioginiai vizualizavimo metodai: pagal juos daugiamačiai duomenys yra pateikiami tam tikra vizualia forma, šie metodai padeda suvokti duomenis. • taškiniai grafikai (Scatter Plots), • taškinių grafikų matricos (Matrix of Scatter Plots), • linijiniai grafikai (Line Graph, Multi Line Graph), • perstatymų matrica (Permutation Matrix), • apžiūros grafikai (Survey Plots) Bioinformatika (B110M100)

  8. Duomenų dimensiškumo sumažinimo metodai (2) • Projekcijos metodai leidžia daugiamačius duomenų objektus atitinkančius vektorius pateikti mažesnės dimensijos erdvėje. • Pagrindinių komponenčių analizė (Principal Component Analysis), • Projekcijos siekimas (Projection Pursuit), • Daugiamatės skalės (Multidimensional Scaling), • Sammon‘o projekcija ir kt.; • Netiesiniai projekcijos metodus. Bioinformatika (B110M100)

  9. Duomenų dimensiškumo sumažinimo metodai (3) • Klasterizavimo metodai padeda suvokti didelių imčių duomenis juos grupuojant į klasterius, grupes. • K-vidurkių klasterizavimas (k-means), • artimiausių kaimynų klasterizavimo metodas (nearest neighbor), • K-vidurinių taškų klasterizavimo metodas (K-medoids) • Dirbtiniai neuroniniai tinklai gali būti naudojami daugiamačių duomenų vizualizavimui • Saviorganizuojantys neuroniniai tinklai (SOM). Bioinformatika (B110M100)

  10. Daugiamačių skalių metodas • Daugiamatės skalės (MDS - Multidimensional Scaling) – grupė metodų, plačiai naudojamų daugiamačių duomenų analizei • MDS pagalba n-mačiai vektoriai projektuojami į mažesnės dimensijos erdvę (dažniausiai į R2) siekiant išlaikyti atstumus ar kitus panašumus tarp analizuojamos aibės objektų • Gautuose dvimačiuose grafikuose panašūs objektai yra vaizduojami arčiau vieni kitų, o mažiau panašūs – toliau vieni nuo kitų • Pradiniai duomenys yra panašumų arba skirtingumų matrica: kvadratinė simetrinė matrica, atvaizduojanti ryšius tarp analizuojamų duomenų aibės elementų • Ryšiais tarp aibės elementų gali būti įvairios atstumų metrikos Bioinformatika (B110M100)

  11. Atstumų metrikos (1) • Plačiausiai naudojama atstumo metrika yra Euklido atstumas, kuris reiškia atstumą tarp 2 taškų plokštumoje: • Manheteno atstumas reiškia atstumą tarp taškų stačiakampio išplanavimo mieste: • Minkowskio atstumas apibendrina Euklido ir Manheteno atstumus: Čia  - dimensijos parametras. Bioinformatika (B110M100)

  12. Atstumų metrikos (2) • Kanberos atstumas: • Čebyševo (maksimalios reikšmės) atstumas: • Bray Curtis (Sorensen) atstumas naudojamas botanikoje ir ekologijoje: Bioinformatika (B110M100)

  13. x 3 y 4 Atstumų metrikos: pavyzdys 4. Kanberos atstumas:

  14. Paklaidų funkcijos • STRESS: • STRESS1: • SSTRESS: Bioinformatika (B110M100)

  15. MDS algoritmų tipai (1) • Metriniai MDS algoritmai, arba klasikiniai (classical scaling) • Naudojami kai įmanoma rasti atstumus tarp analizuojamų duomenų elementų. • Tikslas: pavaizduoti daugiamačius taškus dvimatėje erdvėje taip, kad atstumai tarp dvimačių vektorių būtų kiek galima artimesni atstumams tarp daugiamačių vektorių, minimizuojant paklaidos funkciją. Bioinformatika (B110M100)

  16. MDS algoritmų tipai (2) • Nemetriniai MDS algoritmai • Duomenų elementų skirtingumai ar panašybės nėra atstumai. • Prasmingos ne atstumų skaitinės reikšmės, o atstumų tarp objektų eilės numeriai, t.y. objektų išsidėstymo eilė. Bioinformatika (B110M100) 18

  17. MDS taikymo pavyzdys Distance between any two dots (sequences) represent relative proximity between their sequence signatures (MDS was performed from 64 to 2-dimensions) Legault et al. BMC Genomics 2006 7:171

  18. Klasterizavimo algoritmai • Problema: sudėtingi daugiamačiai nehomogeniniai duomenys, analizė/modeliavimas nesiseka. • Sprendimas: reikia suskaidyti duomenis į klasterius ir juos modeliuoti atskirai. • Klasterizavimo algoritmai: • 1) nustato (atskleidžia) panašumus tarp objektų • 2) „padeda“ panašius objektus į klasterius

  19. K-means klasterizavimo algoritmas • Pasirinkite atsitiktinai k pradinių taškų • Klasterizuokite duomenis naudodami Euklido atstumą • Susklaičiuokite naujus centrinius taškus kiekvienam klasteriui naudodami tik klasterio taškų koordinates • Klasterizuokite visus duomenis iš naujo priskirdami juos naujiems centriniams taškams • Kartokite 3 ir 4 žingsnius tol, kol duomenų taškai daugiau nekeičia savo priklausomybės klasteriams From “Data Analysis Tools for DNA Microarrays” by Sorin Draghici

  20. Pasirinkite k pradinių taškų K-Means klasterizavimas

  21. Priskirkite klasterius Suskaičiuokite naujus centrinis taškus K-Means klasterizavimas

  22. Kartokite, kol centriniai taškai nekeičia savo padėties K-Means klasterizavimas

  23. Atraminių vektorių klasifikatorius =Support Vector Machine (SVM) are training data vectors, are unknown data vectors , is a targetspace is the kernel function.

  24. Quality of classification Training data size of dataset, generation of negative examples, imbalanced datasets Mapping of data into feature space Orthogonal, single nucleotide, nucleotide grouping, ... Selection of an optimal kernel function linear, polynomial, RBF, sigmoid Kernel function parameters SVM learning parameters Regularization parameter, Cost factor Selection of SVM parameter values – an optimization problem 26

  25. SVM (hyper)parameters • Kernel parameters • Learning parameters

  26. SVM feature space • Feature space: multidimensional vector representing data instances • Mapping of data into features:achieving better classification accuracy • Feature space construction: • nucleotide position-dependent • nucleotide position-independent • both nucleotide position-dependent and -independent information • Feature mapping rule: • N –the lengthof a DNA sequence, M – thelength of feature vector Int. Workshop on Intelligent Informatics in Biology and Medicine (IIBM’2008), March 4-7, 2008, Barcelona, Spain

  27. Feature mapping rules • 4-letter (ACGT) :Σ = {A, C, G, T}, ||Σ|| = 4 • Advantage: Hamming-distance is constant • Disadvantage: feature space growth ~ 4k • Nucleotide grouping based: SW, KM & RY • SW : Σ = {S, W}, ||Σ|| = 2 • Strong (C, G) nucleotides– 3 H bonds • Weak (A, T) nucleotides– 2 H bonds • RY : Σ = {R, Y}, ||Σ|| = 2 • A and G – purines (R) • C and T – pyrimidines (Y) • KM : Σ = {K, M}, ||Σ|| = 2 • A and C – amines (M) • G and T – ketones (K)

  28. Binary feature mapping rules Bioinformatika (B110M100)

  29. Klasifikavimo metodų pavyzdys • LocBoost classification applet • http://www.cs.technion.ac.il/~rani/LocBoost/ Bioinformatika (B110M100)

More Related