1 / 18

1) klāsteru analīze

DATU GRUPĒŠANA. 1) klāsteru analīze. Praktiskā ekoloģija, Līga Strazdiņa. Botānikas un ekoloģijas katedra. MĒRĶIS klasificēt datu kopu apakšgrupās jeb klāsteros. Katrā klāsterī tiek apvienoti savstarpēji visciešāk saistītie objekti. JĒGA

noreen
Download Presentation

1) klāsteru analīze

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DATU GRUPĒŠANA 1) klāsteru analīze Praktiskā ekoloģija, Līga Strazdiņa Botānikas un ekoloģijas katedra

  2. MĒRĶIS klasificēt datu kopu apakšgrupās jeb klāsteros. Katrā klāsterī tiek apvienoti savstarpēji visciešāk saistītie objekti. JĒGA saprast, cik līdzīgi (jeb atšķirīgi) ir objekti, kas tiek grupēti. REZULTĀTS dendrogramma.

  3. HIERARHISKA klasifikācija no apakšgrupām pakāpeniski vairākos soļos tiek veidotas lielākas grupas. NEHIERARHISKA klasifikācija datu kopai tiek meklēta optimālā struktūra, kurā grupas var arī nebūt savstarpēji saistītas un nesastāv no apakšgrupām. PIEMĒRS. ar vidējā k (k-mean) metodi datu kopu atkārtoti grupē klāsteros pēc objektu tuvākas atrašanās klāstera centram Ethem Alpaydin http://www.cmpe.boun.edu.tr/~ethem/i2ml/

  4. AGLOMERATĪVĀ (APVIENOŠANAS) metode apakšgrupas hierarhiski apvieno lielākās, līdz iegūst tikai vienu grupu ar visiem objektiem. DALĪŠANAS metode datu kopu dala divās grupās, tās dala atkārtoti, ... A , B , C , D , E grupu apvienošana C , D , E A , B Kuras grupas ? D , E klāsteru sadalīšana A B C D E

  5. PARAMETRI izvēloties grupu savienošanas metodi (Group linkage method), jāņem vērā, kā tiks mērīts līdzīgums/atšķirīgums starp pētāmajiem objektiem (Distance measure). • DISTANCE MEASURE • (detalizētāks apraksts iepriekšējās lekcijās). • Visbiežāk tiek izmantoti: • + Sorensen (Bray-Curtis vai Relative) • + Euclidean (Pythagorean vai Relative) • Mazāk piemēroti: • Jaccard • Correlation • Chi-squared

  6. GROUP LINKAGE METHOD grupu savienošanas metodes tiek vērtētas pēc parametriem: KOMBINATORISKA STRATĒĢIJA – atšķirības starp grupām aprēķina ar kombināciju vienādojumu. NEKOMBINATORISKA STRATĒĢIJA – grupu atšķirības aprēķina pēc katra soļa, tādēļ metode ir lēnāka un aizņem vairāk datoratmiņas. SAVIENOJAMAS ar attāluma jeb atšķirības mērīšanas metodi – vairākām grupu savienošanas metodēm neder Sorensen metode. NEMAINĪGS LAUKS – apvienojot grupas, to sākotnējais attālums paliek konstants (pozitīva īpašība). MAINĪGS LAUKS – apvienotās grupas pietuvojas (lauku saspiež) vai attālinās (lauku izpleš) vēl atlikušajiem objektiem un izmaina to sākotnējo attālumu. Rezultātā veidojas kļūdainas dendrogrammas.

  7. G2 + G1 + GROUP LINKAGE METHOD NEAREST NEIGHBOR attālums starp diviem tuvākajiem objektiem no pretējām grupām attālums starp divām grupām = • atšķirību starp grupām nosaka tikai pēc diviem objektiem • nespēj apstrādāt lielu populāciju datus • saspiež lauku • dendrogrammai gari ‘zari’

  8. G2 + G1 + GROUP LINKAGE METHOD FARTHEST NEIGHBOR attālums starp diviem tālākajiem objektiem no pretējām grupām attālums starp divām grupām = • + veido daudz blīvus klāsterus • atšķirību starp grupām nosaka tikai pēc diviem objektiem • izpleš lauku, tādejādi veido grupas, pat ja nevajadzētu – uzsver outlier jeb nepiederošos datus

  9. GROUP LINKAGE METHOD MEDIAN & CENTROID Tikai ar Euclidean distance measure!! G2 G1 attālums starp grupu centroīdām, ko mēra ar Eiklīda metodi attālums starp divām grupām = • abas metodes saspiež lauku, tiek pievienotas grupas, kas varētu veidot atsevišķus klāsterus • nav savienojamas ar Sorensen metodi

  10. G2 + G1 + GROUP LINKAGE METHOD GROUP AVERAGE attālums starp divām grupām = vidējā vērtība no attāluma starp visiem vienas grupas objektiem ar visiem otras grupas objektiem + nemaina lauku - dendrogrammai gari ‘zari’

  11. GROUP LINKAGE METHOD WARD’S METHOD Tikai ar Euclidean distance measure!! + nemaina lauku + veido līdzīga izmēra klāsterus - nav savienojama ar Sorensen metodi

  12. GROUP LINKAGE METHOD FLEXIBLE BETA ß = -0.25 -līdzīga dendrogramma kā Ward’s metodei ß = 0- līdzīga dendrogramma kā McQuitty’s metodei + nemaina lauku

  13. GROUP LINKAGE METHOD MCQUITTY’S METHOD Tikai ar Euclidean distance measure!! • saspiež lauku • nav savienojamas ar Sorensen metodi • lieliem populāciju datiem dendrogrammai gari ‘zari’

  14. SECINĀJUMI par piemērotākajām metodēm uzskatāmas: DISTANCE MEASURE GROUP LINKAGE METHOD Sorensen & Euclidean Group average Euclidean Ward’s method Sorensen & Euclidean Flexible beta (ß = -0.25)

  15. PAPILDUS FUNKCIJA sadala parauglaukumus vairākos grupu līmeņos

  16. PAPILDUS FUNKCIJA izvērtē, cik grupu līmeņi ir piemēroti esošai datu kopai. Mazākā iespēja ir divas grupas.

  17. Distance (Objective function) – norāda informācijas zudumus aglomerācijas (grupu apvienošanas) procesā Information Remaining (%) – norāda %, cik informācijas vēl nav apstrādātas A1; A55; ... Parauglaukumu numuri KĀ INTERPRETĒT KLĀSTERANALĪZES REZULTĀTUS? atsevišķi klāsteri

  18. KĀ INTERPRETĒT KLĀSTERANALĪZES REZULTĀTUS? grupu savienošanas metode attāluma jeb līdzīguma/atšķirīguma mērīšanas metode ‘chaining’ jeb virknēšana ir secīga mazu grupu pievienošana lielai. Jo lielāks rādītājs, jo grūtāk interpretējama dendrogramma

More Related