200 likes | 368 Views
DATU GRUPĒŠANA. 1) klāsteru analīze. Praktiskā ekoloģija, Līga Strazdiņa. Botānikas un ekoloģijas katedra. MĒRĶIS klasificēt datu kopu apakšgrupās jeb klāsteros. Katrā klāsterī tiek apvienoti savstarpēji visciešāk saistītie objekti. JĒGA
E N D
DATU GRUPĒŠANA 1) klāsteru analīze Praktiskā ekoloģija, Līga Strazdiņa Botānikas un ekoloģijas katedra
MĒRĶIS klasificēt datu kopu apakšgrupās jeb klāsteros. Katrā klāsterī tiek apvienoti savstarpēji visciešāk saistītie objekti. JĒGA saprast, cik līdzīgi (jeb atšķirīgi) ir objekti, kas tiek grupēti. REZULTĀTS dendrogramma.
HIERARHISKA klasifikācija no apakšgrupām pakāpeniski vairākos soļos tiek veidotas lielākas grupas. NEHIERARHISKA klasifikācija datu kopai tiek meklēta optimālā struktūra, kurā grupas var arī nebūt savstarpēji saistītas un nesastāv no apakšgrupām. PIEMĒRS. ar vidējā k (k-mean) metodi datu kopu atkārtoti grupē klāsteros pēc objektu tuvākas atrašanās klāstera centram Ethem Alpaydin http://www.cmpe.boun.edu.tr/~ethem/i2ml/
AGLOMERATĪVĀ (APVIENOŠANAS) metode apakšgrupas hierarhiski apvieno lielākās, līdz iegūst tikai vienu grupu ar visiem objektiem. DALĪŠANAS metode datu kopu dala divās grupās, tās dala atkārtoti, ... A , B , C , D , E grupu apvienošana C , D , E A , B Kuras grupas ? D , E klāsteru sadalīšana A B C D E
PARAMETRI izvēloties grupu savienošanas metodi (Group linkage method), jāņem vērā, kā tiks mērīts līdzīgums/atšķirīgums starp pētāmajiem objektiem (Distance measure). • DISTANCE MEASURE • (detalizētāks apraksts iepriekšējās lekcijās). • Visbiežāk tiek izmantoti: • + Sorensen (Bray-Curtis vai Relative) • + Euclidean (Pythagorean vai Relative) • Mazāk piemēroti: • Jaccard • Correlation • Chi-squared
GROUP LINKAGE METHOD grupu savienošanas metodes tiek vērtētas pēc parametriem: KOMBINATORISKA STRATĒĢIJA – atšķirības starp grupām aprēķina ar kombināciju vienādojumu. NEKOMBINATORISKA STRATĒĢIJA – grupu atšķirības aprēķina pēc katra soļa, tādēļ metode ir lēnāka un aizņem vairāk datoratmiņas. SAVIENOJAMAS ar attāluma jeb atšķirības mērīšanas metodi – vairākām grupu savienošanas metodēm neder Sorensen metode. NEMAINĪGS LAUKS – apvienojot grupas, to sākotnējais attālums paliek konstants (pozitīva īpašība). MAINĪGS LAUKS – apvienotās grupas pietuvojas (lauku saspiež) vai attālinās (lauku izpleš) vēl atlikušajiem objektiem un izmaina to sākotnējo attālumu. Rezultātā veidojas kļūdainas dendrogrammas.
G2 + G1 + GROUP LINKAGE METHOD NEAREST NEIGHBOR attālums starp diviem tuvākajiem objektiem no pretējām grupām attālums starp divām grupām = • atšķirību starp grupām nosaka tikai pēc diviem objektiem • nespēj apstrādāt lielu populāciju datus • saspiež lauku • dendrogrammai gari ‘zari’
G2 + G1 + GROUP LINKAGE METHOD FARTHEST NEIGHBOR attālums starp diviem tālākajiem objektiem no pretējām grupām attālums starp divām grupām = • + veido daudz blīvus klāsterus • atšķirību starp grupām nosaka tikai pēc diviem objektiem • izpleš lauku, tādejādi veido grupas, pat ja nevajadzētu – uzsver outlier jeb nepiederošos datus
GROUP LINKAGE METHOD MEDIAN & CENTROID Tikai ar Euclidean distance measure!! G2 G1 attālums starp grupu centroīdām, ko mēra ar Eiklīda metodi attālums starp divām grupām = • abas metodes saspiež lauku, tiek pievienotas grupas, kas varētu veidot atsevišķus klāsterus • nav savienojamas ar Sorensen metodi
G2 + G1 + GROUP LINKAGE METHOD GROUP AVERAGE attālums starp divām grupām = vidējā vērtība no attāluma starp visiem vienas grupas objektiem ar visiem otras grupas objektiem + nemaina lauku - dendrogrammai gari ‘zari’
GROUP LINKAGE METHOD WARD’S METHOD Tikai ar Euclidean distance measure!! + nemaina lauku + veido līdzīga izmēra klāsterus - nav savienojama ar Sorensen metodi
GROUP LINKAGE METHOD FLEXIBLE BETA ß = -0.25 -līdzīga dendrogramma kā Ward’s metodei ß = 0- līdzīga dendrogramma kā McQuitty’s metodei + nemaina lauku
GROUP LINKAGE METHOD MCQUITTY’S METHOD Tikai ar Euclidean distance measure!! • saspiež lauku • nav savienojamas ar Sorensen metodi • lieliem populāciju datiem dendrogrammai gari ‘zari’
SECINĀJUMI par piemērotākajām metodēm uzskatāmas: DISTANCE MEASURE GROUP LINKAGE METHOD Sorensen & Euclidean Group average Euclidean Ward’s method Sorensen & Euclidean Flexible beta (ß = -0.25)
PAPILDUS FUNKCIJA sadala parauglaukumus vairākos grupu līmeņos
PAPILDUS FUNKCIJA izvērtē, cik grupu līmeņi ir piemēroti esošai datu kopai. Mazākā iespēja ir divas grupas.
Distance (Objective function) – norāda informācijas zudumus aglomerācijas (grupu apvienošanas) procesā Information Remaining (%) – norāda %, cik informācijas vēl nav apstrādātas A1; A55; ... Parauglaukumu numuri KĀ INTERPRETĒT KLĀSTERANALĪZES REZULTĀTUS? atsevišķi klāsteri
KĀ INTERPRETĒT KLĀSTERANALĪZES REZULTĀTUS? grupu savienošanas metode attāluma jeb līdzīguma/atšķirīguma mērīšanas metode ‘chaining’ jeb virknēšana ir secīga mazu grupu pievienošana lielai. Jo lielāks rādītājs, jo grūtāk interpretējama dendrogramma