1 / 28

Paskaita 4. Klasteriavimas

DUOMENŲ GAVYBOS TECHN O LOGIJOS. Paskaita 4. Klasteriavimas. Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>. Klasteriavimo uždavinys. K lasteriavimas ( clustering ) yra duomenų analizės b ū das , padedantis atskleisti jų struktūrą.

Download Presentation

Paskaita 4. Klasteriavimas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DUOMENŲ GAVYBOS TECHNOLOGIJOS Paskaita 4.Klasteriavimas Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>

  2. Klasteriavimo uždavinys Klasteriavimas (clustering) yra duomenų analizės būdas, padedantis atskleisti jų struktūrą. Klasteriavimas yra skirtas sugrupuoti duomenis į iš anksto nežinomas grupes arba klasterius (cluster). Klasteriavimu taip pat gali būti siekiama sumažinti tiriamų duomenų kiekį, sugrupuojant ir nagrinėjant juos atskirai.

  3. Klasteriavimo tikslas Pagrindinis klasterinės analizės tikslas - suskirstyti objektus taip, kad skirtumai klasterių viduje būtų kuo mažesni, o tarp klasterių - kuo didesni. Klasteriuojamų objektų ir klasteriavimo požymių parinkimą diktuoja konkretaus tyrimo tikslai bei uždaviniai. Visais atvejais skirstymas į klasterius prasideda tada, kai yra duoti objektų aibė ir kiekvieną objektą aprašančių skaitinių rodiklių aibės.

  4. Klasteriavimo etapai Klasteriavimo etapai: • pasirinkti klasteriuojamus objektus; • nuspręsti, pagal kokius požymius klasteriuojama; • pasirinkti kiekybinį matą, kuriuo matuojamas objektų panašumas; • vienu ar kitu metodu suskirstyti objektus į klasterius; • peržiūrėti gautus rezultatus.

  5. Klasteriavimo etapai • Taikant klasteriavimą, reikia atsižvelgti, kad : • daugelis klasteriavimo metodų yra euristiniai; • klasterinės analizės metodai dažnaikonstruojami tam tikroms sritims, todėl jie turi daug specifiškumų. • tirianttuospačiusduomenis skirtingais klasterinės analizės metodais, galima gauti skirtingus rezultatus.

  6. Klasteriavimo duomenys Klasteriavimo algoritmuose naudojamą pradinę informaciją sudaro grupuojamų objektų stebėjimų įrašų duomenys

  7. Klasteriavimo duomenys Tarkime, duota daugiamatė nepriklausomų kintamųjų stebėjimų matricą: Klasteriuojant siekiama sugrupuoti objektus (eilutes, įrašus).

  8. Panašumo ar skirtingumo matai Klasteriavime svarbu parinkti kiekybinį objektų panašumo arba skirtingumo matą. Parinkus kiekybinį panašumo ar skirtingumo matą, galime pasakyti, kurios objektų poros panašesnės. Nuo pasirinkto mato priklauso klasteriavimo rezultatai.

  9. Panašumo ir skirtingumo matai Klasterinėje analizėje dažniausiai naudojami panašumo matai (metrikos): • Metriniai atstumo matai • Koreliacijos koeficientai • Asociatyvumo koeficientai Metriniai atstumo matai naudojami tada, kai objektus charakterizuojantys požymiai matuojami pagal intervalų arba santykių skalę. Asociatyvumo koeficientai taikomi binariniams duomenims

  10. Atstumo (skirtingumo) matai - Euklido metrika: - Miesto metrika (City metrics) - Euklido atstumo kvadrato metrika - Čebyševo metrika

  11. Trimatė Euklido metrika

  12. Atstumai tarp klasterių U ir V

  13. Klasteriavimo metodai

  14. Hierarchinis klasteriavimas Hierarchinių metodų rezultatai nusako klasterių tarpusavio hierarchiją. Taikant hierarchinius metodus, nustatoma visų klasterių tarpusavio priklausomybių struktūrą ir tik po to sprendžiama, kurią klasterių struktūrą pasirinkti. Hierarchiniai metodai skirstomi į jungimo ir skaidymo metodus.

  15. Hierarchinis klasteriavimas Jungimo metodai smulkius klasterius jungia į stambesnius, kol telieka vienas didelis klasteris. Skaidymo metodai yra loginė jungimo metodų priešingybė. Vienintelis klasteris nuosekliai skaidomas į vis smulkėjančias dalis. Hierarchinius metodus sunku taikyti, kai objektų skaičius yra didelis.

  16. Klasteriavimas jungimo būdu 1) duotaN klasterių po 1 objektą ir NxN simetrinė atstumų matrica 2) pagal atstumų tarp klasterių matricą nustatomi du klasteriai, tarp kurių atstumas yra mažiausias; 3) šie klasteriai sujungiami, o atstumų matrica perskaičiuojama: • išbraukiami stulpeliai ir eilutės, atitinkantys sujungtus klasterius, • pridedama eilutė ir stulpelis su atstumais tarp naujo klasterio ir likusiųjų klasterių. 4) žingsniai 2 ir 3 kartojami (N-1)kartų, kol visi objektai patenka į vieną klasterį.

  17. Dendrograma Jungimo proceso schema vaizduojama grafiku, vadinamu dendrograma.

  18. Jungimo protokolas Kurioje vietoje “kirsti medį”, galima nuspręsti pagal jungimo protokolą:

  19. Skaidymo metodai Taikant skaidymo metodus, objektai yra pavaizduojami grafu, kuriam sudaromas mažiausias jungiantis medis (minimal spanning tree), ir iš šio medžio nuosekliai šalinamos ilgiausios šakos, kol lieka klasteriai, susidedantys tik iš vieno objekto. Šis procesas taip pat vaizduojamas dendrograma ir skaidymo protokolu.

  20. Minimalus jungiantis medis

  21. K-vidurkių (K-means) algoritma9 Šį klasteriavimo metodą galima laikyti kvadratinės paklaidos algoritmu (squared error clustering algorithm) , nes jis minimizuoja kvadratinę paklaidą. • Tegu klasteriui Kkpriskirta objektų aibė {Xk1,Xk2,...,Xk,nk, čia nk -objektų skaičius klasteryje Kk, Xij =(x1ij,x2ij,...,xnij) , j = (1,..., nk)

  22. K-vidurkių (K-means) algoritma9 Kvadratinė paklaida k-tajam klasteriui yra Euklido atstumų tarp kiekvieno klasterio elemento ir klasterio centro Ckkvadratų suma čia Ck=(ck,1, ck,2, ... , ck,n) klasterio vidurkis: - klassnk

  23. K-vidurkių (K-means) algoritma9 Kvadratinė paklaida klasterių aibei K = {K1,K2,...,KK} apskaičiuojama pagal formulę: Klasteriai sudaromi taip, kad ši paklaida būtų mažiausia.

  24. K-vidurkių algoritmas 1) inicijuojami kklasterių centrai: 2) kiekvienas objektas priskiriamas tam klasteriui, iki kurio centro jo atstumas yra mažiausias; 3) perskaičiuojamivisų klasterių centrai; 4) apskaičiuojamakvadratinėpaklaida; 2-4 punktaikartojami, kolkvadratinėspaklaidosreikšmėtampamažesnėužpasirinktąslenkstinęreikšmęarbaobjektainebepersiskirstokitiemsklasteriams.

  25. K-vidurkių algoritmas

  26. Klasteriavimo metodo parinkimas Tiriant paslėptas duomenų struktūras, būtina tirti, ar duomenų aibė turi tendenciją klasteriuotis, t.y. ar duomenys linkę grupuotis, kokia susidariusių klasterių forma ir pan. Objektų klasteriavimui rekomenduojama taikyti keletą klasterizavimo metodų. Jei duomenyse paslėpta ryški struktūra, ji bus pastebima daugeliu metodų.

  27. Klasterių interpretavimas Klasterius apibūdina keliolika charakteristikų: požymių vektorių sklaida nuo klasterio centro, forma ir pan. Neturint išankstinės informacijos apie nagrinėjamų duomenų struktūras, gautus rezultatus lyginti sunku. Svarbi klasterinės analizės problema – klasterių interpretavimas. Klasterinės analizės rezultatus būtina pagrįsti. Tam patartina ištirti klasterių aprašomąsias statistikas.

  28. Klasterių aprašomoji statistika

More Related