1 / 15

Paskaita 9. Statistiniai klasifikavimo metodai

DUOMENŲ GAVYBOS TECHN O LOGIJOS. Paskaita 9. Statistiniai klasifikavimo metodai. Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>. Klasifikavimo uždaviniai. Jei priklausomas kintamasis įgyja kategorines reikšmes, galim a spręsti klasifikavimo uždavinius.

Download Presentation

Paskaita 9. Statistiniai klasifikavimo metodai

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DUOMENŲ GAVYBOS TECHNOLOGIJOS Paskaita 9.Statistiniaiklasifikavimometodai Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>

  2. Klasifikavimo uždaviniai Jei priklausomas kintamasis įgyja kategorines reikšmes, galima spręsti klasifikavimo uždavinius. Klasifikavimo tikslas - pagal duotus objektus ir žinomas jų klases nustatyti taisykles, pagal kurias objektai skirstomi į klases.

  3. Klasifikavimo uždaviniai Klasifikuojant tenka spręsti atskiriamumo (diskriminavimo) ir/arba klasifikavimo uždavinius: • diskriminavimo tikslas – pasinaudojant stebėjimų duomenimis, nustatyti taisykles, padedančias atskirti tiriamų objektų grupes, bei įvertinti diskriminavimo kokybę; • klasifikavimo tikslas – pasinaudojus diskriminavimo taisykle, priskirti objektus vienai iš klasių ir įvertinti klasifikavimo patikimumą.

  4. Klasifikavimo uždaviniai Taigi, diskriminantinė analizė siekia dviejų tikslų: pirma – įvertinti grupių diskriminavimo galimybę, antra – rasti optimalias klasifikavimo taisykles. Sukaupti duomenys, naudojami diskriminavimo taisyklėms sudaryti, vadinami mokymo imtimi, o pats taisyklių sudarymas – mokymu. Diskriminantinė analizė neturi būti painiojama su klasterine analize – skirtingai nei klasterinėje analizėje, čia klasės iš anksto žinomos.

  5. Diskriminantinės analizės etapai Išskiriami šie diskriminantinės analizės etapai: • nustatoma, kurie kintamieji tinka tiriamų objektų diskriminavimui, bei pašalinami tie kintamieji, kurie nepadeda nustatyti klasių skirtumų. • ieškoma diskriminavimo priežasčių, įvertinama diskriminavimo kokybė. • parenkamas labiausiai tinkamas klasifikuoti būdas ir sudaromos klasifikavimo taisyklės (t.y. konstruojamos klasifikavimo funkcijos). • Įvertinamas klasifikavimo patikimumas.

  6. Klasifikavimo uždaviniai Statistinės klasifikavimo taisyklės gali būti vaizduojamos tiesįmis, plokštumomis arba hiperplokštumomis.

  7. Diskriminavimo kintamieji Tegul matuojami kiekvieno objekto p intervalinių (vadinamų diskriminavimo) kintamųjų (požymių) (X1, X2, ..., Xp). Žinoma, kad objektų populiaciją sudaro g klasių. Tad imties duomenis sudaro stebėjimai (xijk), i = 1, ..., p, j = 1, ..., g, k = 1, ..., nj; čia (xijk) yra i-ojo kintamojo k-asis stebėjimas j-oje grupėje, nj – stebėjimų skaičius j-oje grupėje, o n = n1 + n2 + ... + ng – imties didumas. Pvz., x121 yra kintamojo X1pirmasis stebėjimas antrojoje grupėje.

  8. Diskriminavimo duomenys Diskriminavimo duomenys užrašomi į lentelę. Pageidautina, kad klasių didumai labai nesiskirtų.

  9. Diskriminavimo prielaidos • klasių skaičius g yra baigtinis. • grupės yra nepriklausomos ir neturi bendrų objektų: • diskriminavimo kintamieji matuojami intervalų skalėje ir Xi ~ N(, Σ) ; • nė vienas diskriminavimo kintamasis negali būti kitų kintamųjų tiesinė daugdara. • diskriminavimo kintamųjų kovariacijų matricos grupėse vienodos.

  10. Kintamųjų diskriminavimo geba Kintamųjų diskriminavimo savybės įvertinamos atsakant į klausimus: Ar kintamasis diskriminuoja grupes? Kintamojo diskriminavimo galimybės nustatomos pagal Fišerio kriterijų Kurie kintamieji turi didesnę įtaką grupių diskriminavime? Visiems kintamiesiems apskaičiuojama diskriminavimo charakteristika – Vilkso  statistika, kintanti [0; 1]. Kuo šios statistikos reikšmė mažesnė, tuo kintamasis geriau diskriminuoja grupes.

  11. Kanoninės diskriminavimo funkcijos Diskriminavimui nasudojamos tiesinės daugdaros, vadinamos, kanoninėmis diskriminavimo funkcijomis, kurios: - padeda įvertinti kiekybinį kiekvieno kintamojo indėlį diskriminuojant grupes; - palengvina grupių skirtumų priežasčių interpretavimą; - gali būti naudojamos ir klasifikavimui; - grupių duomenų vaizdavimas kanoninių funkcijų erdvėje leidžia suvokti populiaciją sudarančių grupių skirtumus ir ryšius bei aptikti išskirtis.

  12. Kanoninių funkcijų skaičius Tinkamai parinkus koeficientus, galima gauti kelias diskriminavimui tinkamas tiesines kanonines daugdaras. Didžiausias kanoninių funkcijų skaičius yra lygus mažesniam iš diskriminavimo kintamųjų skaičiaus p ir grupių skaičiaus g be vieno, t.y. min(g-1, p)

  13. Kanoninių funkcijų radimas Kanoninių funkcijų koeficientai yra matricų sandaugos W-1B tikriniai vektoriai, čia W – empirinė nuokrypių grupių viduje sandaugų matrica (arba vidinių nuokrypių matrica), B – empirinė grupių nuokrypių sandaugų matrica (arba grupių nuokrypių matrica). Didžiausią matricos W-1Btikrinę reikšmę atitinkančio tikrinio vektoriaus koordinatės sudaro pirmosios kanoninės funkcijos koeficientų aibė ir t.t. Kanoninių funkcijų yra tiek, kiek ir tikrinių vektorių.

  14. Kanoninės funkcijos Taip gaunamos kanoninės funkcijos, kurių koeficientai li yra nestandartizuoti: Yi = li1X1 + li2X2 + ... + lipXp + Ci, i = 1, ..., min(g-1, p). Laisvasis kanoninės funkcijos narys (konstanta Ci) parenkamas taip, kad duomenų kanoninės funkcijos reikšmių empirinis vidurkis būtų lygus nuliui.

  15. Kanoninių funkcijų savybės Kanoninių funkcijų diskriminavimo savybėms įvertinti paprastai naudojami keli rodikliai. Geriausiomis diskriminavimo savybėmis dažniausiai pasižymi pirmoji kanoninė funkcija, po to antroji ir t.t. Kintamųjų indėliui į kanoninės funkcijos didumą įvertinti naudojamos standartizuotos kanoninės funkcijos. Dviejų kanoninių funkcijų diskriminavimo savybes galima palyginti grafiškai.

More Related