1 / 62

Inteligentná analýza dát

Inteligentná analýza dát. M ária Markošová FIIT STU. Analýza dát. Je to proces, ktorým získame z dát zmysluplné štatistické a iné výsledky 1: štatistické metódy (dôraz na matematickú presnosť, matematický dôkaz): model

tanner
Download Presentation

Inteligentná analýza dát

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Inteligentná analýza dát Mária Markošová FIIT STU

  2. Analýza dát Je to proces, ktorým získame z dát zmysluplné štatistické a iné výsledky 1: štatistické metódy (dôraz na matematickú presnosť, matematický dôkaz): model 2: “machine learning” metódy (dôraz na počítačovú prax, na to, čo funguje, bez pýtania sa prečo): algoritmus Ideál: Kombinácia oboch prístupov

  3. Dáta - numerické - textové - obrazové . .

  4. Štatistické metódy 1. Opakovanie základných pojmov (pravdepodobnosť, distribúcie, vzorkovanie, odhady, predikcie) 2. Štatistické metódy (lineárne modely, regresia, testovanie hypotéz, Studentov test, ANOVA) 3. Analýza časových radov ( analýza sezónnych zmien, trendov)

  5. Nelineárne metódy 4. Nelineárne dynamické systémy a časové rady (fraktálne štruktúry, fraktálna dimenzia, zovšeobecnené dimenzie, embedding teorém)

  6. Machine learning 1. Indukcia zákonov (reprezentácie domén, znalostí, vytváranie hypotéz, klasifikácia ) 2. Neurónové siete (prehľad základných princípov) 3. Stochastické vyhľadávacie metódy (základné princípy simulovaného žíhania, evolučných stratégií, genetického programovania)

  7. Pravdepodobnosť: Axióma pravdepodobnosti: Pravdepodobnosť je funkcia, ktorá priraďuje podmnožinám z priestoru možných výsledkov náhodného experimentu reálne číslo. Má tieto vlastnosti a) b) aditívnosť : ak potom c)

  8. Stredná hodnota a variácia náhodnej premennej -pre diskrétnu náh. premennú -pre spojitú náh. premennú -variácia -smerodajná odchýlka

  9. Distribúcia pravdepodobnosti Je to funkcia F(x), ktorá každej možnej realizácii x z R priradí pravdepodobnosť Niektoré dôležité distribúcie: a) binomická b) Poissonova c) rovnomerná d) gaussovská

  10. Binomická distribúcia B(m, ) Experiment s dvoma možnými výsledkami (1, 0) = Bernoulliho experiment p(1) = p(0) = 1- Binomiálny experiment: identické opakovania Bernoulliho experimentu y= 0,1,2,…..,m je počet úspechov

  11. Stredná hodnota a variácia

  12. Poissonova distribúcia Po( ) reálne y= 0,1,2,…… Poissonova distribúcia je aproximáciou binomickej distribúcia

  13. Rovnomerná distribúcia Ak inde Stredná hodnota a variácia:

  14. Gaussovská distribúcia y je reálne. Ak je náhodná premenná určovaná mnohými nezávislými vplyvmi, jej rozdelenie sa blíži k normálnemu rozdeleniu. --- Štandardná normálna distribúcia

  15. Exponenciálna distribúcia Ak náhodná premenná T má takúto distribúciu, môžeme o nej uvažovať ako o náhodnom čase (napr. dobe života). Ak vieme, že objekt prežije do času t , šanca prežiť do času s je nezávislá od t.

  16. Vzorkovanie Vzorka: výber z populácie, na jej základe robíme závery o štatistických vlastnostiach celej populácie. Problém: chyby a hlavne ich veľkosť a) jednoduchý náhodný výber: postupný výber kažého z m prvkov (veľkosť celej populácie je M)je rovnako pravdepodobný b) náhodný výber s nahradením: prvok sa m krát vyberá z celej populácie, po zaregistrovaní ho vrátime späť

  17. Príklad Máme populáciu o veľkosti M=6, zloženú z týchto prvkov: 1,1,2,2,2,3. Vyberáme z nej vzorku o m=2 prvkoch, s nahradením.

  18. Štatistika vzorky

  19. Štatistika vzorky (sample statistics): stredná hodnota, variácia

  20. Čo s veľkými vzorkami? 1. Distribúcia náhodnej premennej má nejakú štandardnú formu, pomocou ktorej odvodíme presnú distribúciu vzorky. 2.Aproximujeme distribúciu vzorky nejakou limitnou distribúciou, ktorá môže byť odvodená z distribúcie pôvodnej náhodnej premenne.

  21. Charakteristiky vzorky Stredná hodnota a variácia Distribúcia X Distribúcia

  22. Distribúcia zlomku úspešných pokusov vo vzorke (Fr štatistika) Nech náhodná premenná má hodnoty 0 alebo 1 (úspech, neúspech). Počet úspechov vo vzorke je daný m- veľkosť vzorky - zlomok počtu úspechov v populácii Stredná hodnota variácaia

  23. Centrálny limitný teorém Nech je náhodná vzorka z ktorejkoľvek distribúcie s konečnou strednou hodnotou a variáciou a priemerom , potom bez ohľadu na to, aká bola pôvodná distribúcia

  24. Aplikácia centrálneho limitného teorému Distribúcia úspešných pokusov vo vzorke (Fr štatistika). Ak úspech je kódovaný ako 1 a neúspech ako 0, zlomok úspechov vo vzorke je vlastne strednou hodnotou. Preto: a ak Ak je blízke 0 alebo 1, je lepšou aproximáciou Poissinova distribúcia

  25. Bodový odhad Odhadujeme nejaký neznámy parameter populácie jedným číslom. G- odhad , (G- ) náhodná premenná -chyba bias odhadu variácia odhadu stredná kvadratická chyba Plug-in princíp: pre odhad populačných parametrov použite ich analóg pre vzorku. Least-square metóda

  26. Intervalový odhad Odhad intervalu, v ktorom sa parameter danej populácie nachádza s danou pravdepodobnosťou očakávaná šírka intervalu pravdep. výskytu skutočnej hodnoty parametra v int. hladina vierohodnosti

  27. Príklad Máme populáciu s distribúciou . Aká je distribúcia strednej hodnoty vzorky z danej populácie? 1.Vieme, že distr. str. hodnoty vzorky je . 2. Vieme, že má dist. . 3.Pravdepod., že je o viac ako väčšie ako neznáme je . 4. Pravdepodob., že je o viac ako menšie od neznámeho je

  28. 5. Pravdepodobnosť že interval obsahuje skutočnú strednú hodnotu je 0.8413 . 6. Ak má byť pravdepodobnosť nájdenia daná na percent ,interval spoľahlivosti bude . 7. Pravostranný interval spoľahlivosti v ktorom je s pradepodobnosťou percent je . 8. Obojstranný interval spoľahlivosti:

  29. Testovanie hypotéz Test je štatistická procedúra, ktorá umožní rozhodnúť medzi dvoma hypotézami o parametre populácie . - nulová hypotéza - alternativna hypotéza Chyby: I) Zamietneme , keď je pravdivá (pravd. ) II) Akceptujeme keď je chybná (pravd ). G- testovacia štatistika oblasť zamietnutia - hodnoty G, ktoré vedú k zamietnutiu kvalita testu: - pravdepodobnosť zamietnutia vtedy, keď je skutočne chybná

  30. Príklad Výrobca mikropočítačov verí, že viac ako 20 percent jeho zákazníkov si kúpi aj software. Vybrali vzorku 10 zákazníkov, z ktorých 4 povedali, že si software kúpia. Potvrdzuje vzorka predpoklad výrobcu? Riešenie: 1. : p = 0.2 : p > 0.2 2. Predpokladáme, že náh. premenná má binomické rozdelenie. je oblasť zamietnutia . 3. Takže máme: G je y, oblasť odmietnutia: 4. y=4 (pozorovanie) a teda zamietneme .

  31. Príklad - pokračovanie Aká je pravdepodobnosť, že zamietneme nulovú hypotézu ked je pravdivá? (chyba typu I) Riešenie: Pravdepodobnosť zamietnutia nulovej hypotézy v prípade, že je pravdivá bude 0.121. Inými slovami, pravdepodobnosť urobiť chybu typu I je 0.121.

  32. Príklad - pokračovanie Nech v skutočnosti p=0.6. Aká je pravdepodobnosť , že testovacia procedúra nezamietne nulovú hypotézu (p=0.2)? Riešenie: Vychádzame z binomického rozdelenia p(y) pre p=0.6.

  33. Predikcia Máme náhodnú premennú Y - jej hodnota závisí na výsledku náhodného experimentu. Y má teda distribúciu závislú na náhodnom vektore Príklad: Ako závisí čakacia doba (Y) vykonania úlohy zadanej počítaču od počtu a veľkostí úloh (X ové hodnoty), ktoré boli submitnuté pred ňou? = lineárny regresný model

  34. Y Tréningová vzorka chyba x Testovacia vzorka

  35. Cieľ analýzy dát Máme tréningovú vzorku: na jej základe určíme model. Model slúži na predikciu strednej hodnoty náhodnej premenne Y .

  36. Jednoduchý lineárny regresný model: y - závislá premenná x - nezávislá premenná , - koeficienty - náhodná chyba Ak chceme model nafitovať na dáta, treba odhadnúť parametre a . - E(y) je stredná hodnota y, sú odhadnuté parametre

  37. Odhad parametrov regresného modelu metódou najm. štvorcov Toto minimalizujeme tak, že položíme a vyriešime.

  38. je priem. hodnota x je priem. hod y

  39. Zovšeobecnený lineárny model Predikcia strednej hodnoty

  40. Iné modely, ktoré môžeme na dáta nafitovať Kvadratický model Kubický model Odhady robíme metódou najmenších štvorcov. Nebezpečenstvo: overfitting, prefitovanie dát

  41. Predikčná chyba Stredná kvadratická chyba predikovaných a skutočných hodnôt na testovacej množine.

  42. Modely preveditelné na lineárny model 1. Polynomiálna závislosť 2. Allometrický model j = 1,2,…..,m 3. Mitscherlichov model

  43. Testy na rozdiel stredných hodnôt 1. Studentov t-test : Testuje , či stredné hodnoty dvoch populácií sú signifikantne rozdielne 2. ANOVA - analysis of variance: Testuje , či stredné hodnoty viacerých populácií sú signifikantne rozdielne.

  44. Studentov t-test Príklad: Máme dve skupiny pacientov. Jedným sa podával liek a druhým placebo. Je efekt lieku signifikantný, alebo nemá žiaden účinok? Inými slovami, sú stredné hodnoty meraných veličín v oboch skupinách rovnaké? Predpoklad pre t-test: Normálna distribúcia meraných hodnôt a rovnaká variácia v oboch skupinách.

  45. Stredná variabilita Velká variabilita Malá variabilita Čo znamená: “Str. hodnoty dvoch skupín sú štatisticky rozdielne?”

  46. 1. Rozdiel str. hodnôt je rovnaký na všetkých obrázkoch 2. Dve skupiny sa jedna od druhej viacej líšia v prípade malej variability 3. Dôležitá je veľkosť prekryvu v oboch skupinách Pre posúdenie rozdielu stredných hodnôt je dôležitý rozdiel stredných hodnôt vzhľadom k variácii!

  47. t-test signál rozdiel stredných hodnôt šum variabilita skupín

  48. Čo s vypočítanou t-hodnotou? 1.Položíme si hladinu t- testu (obyčajne na 0.05), t.j. pravdepodobnosť chyby, ktorú urobíme, ak prijmeme hypotézu, že str. hodnoty nie sú štatisticky rozdielne. 2. Určíme si počet stupňov voľnosti testu ako sumu prvkov v oboch grupách minus dva (df hodnota) 3.Ak máme tieto údaje a t hodnotu, môžeme nájsť v tabuľkách nakoľko je rozdiel str. hodnôt signifikantný. 4. Balíky štatistických programov toto robia samy.

  49. ANOVA ANOVA = analysis of variance, metóda pomocou ktorej možno zistiť, či je viacero stredných hodnôt rozdielnych. V podstate ide o to, ktorý z viacerých vplyvov má signifikantný účinok. Príklad: Na poli pestujeme dva druhy repy, Barkant a Marco. Chceme zistit, ako výnosy závisia od druhu, spôsobu pestovania repy, poprípade od iných parametrov. Predpokladáme lineárne závislosti.

  50. 1kg 2kg 1kg I II I II I II 2kg III IV III IV III Bar 21.8 IV A B F E E H C D G 4kg 8kg 4kg 8kg 1kg 2kg 1kg 2kg J N P K Mar 21.8 L M Q R 4kg 8kg 4kg 8kg Experimentálne repné pole Bar 28.8 Mar 28.8

More Related