620 likes | 811 Views
Inteligentná analýza dát. M ária Markošová FIIT STU. Analýza dát. Je to proces, ktorým získame z dát zmysluplné štatistické a iné výsledky 1: štatistické metódy (dôraz na matematickú presnosť, matematický dôkaz): model
E N D
Inteligentná analýza dát Mária Markošová FIIT STU
Analýza dát Je to proces, ktorým získame z dát zmysluplné štatistické a iné výsledky 1: štatistické metódy (dôraz na matematickú presnosť, matematický dôkaz): model 2: “machine learning” metódy (dôraz na počítačovú prax, na to, čo funguje, bez pýtania sa prečo): algoritmus Ideál: Kombinácia oboch prístupov
Dáta - numerické - textové - obrazové . .
Štatistické metódy 1. Opakovanie základných pojmov (pravdepodobnosť, distribúcie, vzorkovanie, odhady, predikcie) 2. Štatistické metódy (lineárne modely, regresia, testovanie hypotéz, Studentov test, ANOVA) 3. Analýza časových radov ( analýza sezónnych zmien, trendov)
Nelineárne metódy 4. Nelineárne dynamické systémy a časové rady (fraktálne štruktúry, fraktálna dimenzia, zovšeobecnené dimenzie, embedding teorém)
Machine learning 1. Indukcia zákonov (reprezentácie domén, znalostí, vytváranie hypotéz, klasifikácia ) 2. Neurónové siete (prehľad základných princípov) 3. Stochastické vyhľadávacie metódy (základné princípy simulovaného žíhania, evolučných stratégií, genetického programovania)
Pravdepodobnosť: Axióma pravdepodobnosti: Pravdepodobnosť je funkcia, ktorá priraďuje podmnožinám z priestoru možných výsledkov náhodného experimentu reálne číslo. Má tieto vlastnosti a) b) aditívnosť : ak potom c)
Stredná hodnota a variácia náhodnej premennej -pre diskrétnu náh. premennú -pre spojitú náh. premennú -variácia -smerodajná odchýlka
Distribúcia pravdepodobnosti Je to funkcia F(x), ktorá každej možnej realizácii x z R priradí pravdepodobnosť Niektoré dôležité distribúcie: a) binomická b) Poissonova c) rovnomerná d) gaussovská
Binomická distribúcia B(m, ) Experiment s dvoma možnými výsledkami (1, 0) = Bernoulliho experiment p(1) = p(0) = 1- Binomiálny experiment: identické opakovania Bernoulliho experimentu y= 0,1,2,…..,m je počet úspechov
Poissonova distribúcia Po( ) reálne y= 0,1,2,…… Poissonova distribúcia je aproximáciou binomickej distribúcia
Rovnomerná distribúcia Ak inde Stredná hodnota a variácia:
Gaussovská distribúcia y je reálne. Ak je náhodná premenná určovaná mnohými nezávislými vplyvmi, jej rozdelenie sa blíži k normálnemu rozdeleniu. --- Štandardná normálna distribúcia
Exponenciálna distribúcia Ak náhodná premenná T má takúto distribúciu, môžeme o nej uvažovať ako o náhodnom čase (napr. dobe života). Ak vieme, že objekt prežije do času t , šanca prežiť do času s je nezávislá od t.
Vzorkovanie Vzorka: výber z populácie, na jej základe robíme závery o štatistických vlastnostiach celej populácie. Problém: chyby a hlavne ich veľkosť a) jednoduchý náhodný výber: postupný výber kažého z m prvkov (veľkosť celej populácie je M)je rovnako pravdepodobný b) náhodný výber s nahradením: prvok sa m krát vyberá z celej populácie, po zaregistrovaní ho vrátime späť
Príklad Máme populáciu o veľkosti M=6, zloženú z týchto prvkov: 1,1,2,2,2,3. Vyberáme z nej vzorku o m=2 prvkoch, s nahradením.
Štatistika vzorky (sample statistics): stredná hodnota, variácia
Čo s veľkými vzorkami? 1. Distribúcia náhodnej premennej má nejakú štandardnú formu, pomocou ktorej odvodíme presnú distribúciu vzorky. 2.Aproximujeme distribúciu vzorky nejakou limitnou distribúciou, ktorá môže byť odvodená z distribúcie pôvodnej náhodnej premenne.
Charakteristiky vzorky Stredná hodnota a variácia Distribúcia X Distribúcia
Distribúcia zlomku úspešných pokusov vo vzorke (Fr štatistika) Nech náhodná premenná má hodnoty 0 alebo 1 (úspech, neúspech). Počet úspechov vo vzorke je daný m- veľkosť vzorky - zlomok počtu úspechov v populácii Stredná hodnota variácaia
Centrálny limitný teorém Nech je náhodná vzorka z ktorejkoľvek distribúcie s konečnou strednou hodnotou a variáciou a priemerom , potom bez ohľadu na to, aká bola pôvodná distribúcia
Aplikácia centrálneho limitného teorému Distribúcia úspešných pokusov vo vzorke (Fr štatistika). Ak úspech je kódovaný ako 1 a neúspech ako 0, zlomok úspechov vo vzorke je vlastne strednou hodnotou. Preto: a ak Ak je blízke 0 alebo 1, je lepšou aproximáciou Poissinova distribúcia
Bodový odhad Odhadujeme nejaký neznámy parameter populácie jedným číslom. G- odhad , (G- ) náhodná premenná -chyba bias odhadu variácia odhadu stredná kvadratická chyba Plug-in princíp: pre odhad populačných parametrov použite ich analóg pre vzorku. Least-square metóda
Intervalový odhad Odhad intervalu, v ktorom sa parameter danej populácie nachádza s danou pravdepodobnosťou očakávaná šírka intervalu pravdep. výskytu skutočnej hodnoty parametra v int. hladina vierohodnosti
Príklad Máme populáciu s distribúciou . Aká je distribúcia strednej hodnoty vzorky z danej populácie? 1.Vieme, že distr. str. hodnoty vzorky je . 2. Vieme, že má dist. . 3.Pravdepod., že je o viac ako väčšie ako neznáme je . 4. Pravdepodob., že je o viac ako menšie od neznámeho je
5. Pravdepodobnosť že interval obsahuje skutočnú strednú hodnotu je 0.8413 . 6. Ak má byť pravdepodobnosť nájdenia daná na percent ,interval spoľahlivosti bude . 7. Pravostranný interval spoľahlivosti v ktorom je s pradepodobnosťou percent je . 8. Obojstranný interval spoľahlivosti:
Testovanie hypotéz Test je štatistická procedúra, ktorá umožní rozhodnúť medzi dvoma hypotézami o parametre populácie . - nulová hypotéza - alternativna hypotéza Chyby: I) Zamietneme , keď je pravdivá (pravd. ) II) Akceptujeme keď je chybná (pravd ). G- testovacia štatistika oblasť zamietnutia - hodnoty G, ktoré vedú k zamietnutiu kvalita testu: - pravdepodobnosť zamietnutia vtedy, keď je skutočne chybná
Príklad Výrobca mikropočítačov verí, že viac ako 20 percent jeho zákazníkov si kúpi aj software. Vybrali vzorku 10 zákazníkov, z ktorých 4 povedali, že si software kúpia. Potvrdzuje vzorka predpoklad výrobcu? Riešenie: 1. : p = 0.2 : p > 0.2 2. Predpokladáme, že náh. premenná má binomické rozdelenie. je oblasť zamietnutia . 3. Takže máme: G je y, oblasť odmietnutia: 4. y=4 (pozorovanie) a teda zamietneme .
Príklad - pokračovanie Aká je pravdepodobnosť, že zamietneme nulovú hypotézu ked je pravdivá? (chyba typu I) Riešenie: Pravdepodobnosť zamietnutia nulovej hypotézy v prípade, že je pravdivá bude 0.121. Inými slovami, pravdepodobnosť urobiť chybu typu I je 0.121.
Príklad - pokračovanie Nech v skutočnosti p=0.6. Aká je pravdepodobnosť , že testovacia procedúra nezamietne nulovú hypotézu (p=0.2)? Riešenie: Vychádzame z binomického rozdelenia p(y) pre p=0.6.
Predikcia Máme náhodnú premennú Y - jej hodnota závisí na výsledku náhodného experimentu. Y má teda distribúciu závislú na náhodnom vektore Príklad: Ako závisí čakacia doba (Y) vykonania úlohy zadanej počítaču od počtu a veľkostí úloh (X ové hodnoty), ktoré boli submitnuté pred ňou? = lineárny regresný model
Y Tréningová vzorka chyba x Testovacia vzorka
Cieľ analýzy dát Máme tréningovú vzorku: na jej základe určíme model. Model slúži na predikciu strednej hodnoty náhodnej premenne Y .
Jednoduchý lineárny regresný model: y - závislá premenná x - nezávislá premenná , - koeficienty - náhodná chyba Ak chceme model nafitovať na dáta, treba odhadnúť parametre a . - E(y) je stredná hodnota y, sú odhadnuté parametre
Odhad parametrov regresného modelu metódou najm. štvorcov Toto minimalizujeme tak, že položíme a vyriešime.
je priem. hodnota x je priem. hod y
Zovšeobecnený lineárny model Predikcia strednej hodnoty
Iné modely, ktoré môžeme na dáta nafitovať Kvadratický model Kubický model Odhady robíme metódou najmenších štvorcov. Nebezpečenstvo: overfitting, prefitovanie dát
Predikčná chyba Stredná kvadratická chyba predikovaných a skutočných hodnôt na testovacej množine.
Modely preveditelné na lineárny model 1. Polynomiálna závislosť 2. Allometrický model j = 1,2,…..,m 3. Mitscherlichov model
Testy na rozdiel stredných hodnôt 1. Studentov t-test : Testuje , či stredné hodnoty dvoch populácií sú signifikantne rozdielne 2. ANOVA - analysis of variance: Testuje , či stredné hodnoty viacerých populácií sú signifikantne rozdielne.
Studentov t-test Príklad: Máme dve skupiny pacientov. Jedným sa podával liek a druhým placebo. Je efekt lieku signifikantný, alebo nemá žiaden účinok? Inými slovami, sú stredné hodnoty meraných veličín v oboch skupinách rovnaké? Predpoklad pre t-test: Normálna distribúcia meraných hodnôt a rovnaká variácia v oboch skupinách.
Stredná variabilita Velká variabilita Malá variabilita Čo znamená: “Str. hodnoty dvoch skupín sú štatisticky rozdielne?”
1. Rozdiel str. hodnôt je rovnaký na všetkých obrázkoch 2. Dve skupiny sa jedna od druhej viacej líšia v prípade malej variability 3. Dôležitá je veľkosť prekryvu v oboch skupinách Pre posúdenie rozdielu stredných hodnôt je dôležitý rozdiel stredných hodnôt vzhľadom k variácii!
t-test signál rozdiel stredných hodnôt šum variabilita skupín
Čo s vypočítanou t-hodnotou? 1.Položíme si hladinu t- testu (obyčajne na 0.05), t.j. pravdepodobnosť chyby, ktorú urobíme, ak prijmeme hypotézu, že str. hodnoty nie sú štatisticky rozdielne. 2. Určíme si počet stupňov voľnosti testu ako sumu prvkov v oboch grupách minus dva (df hodnota) 3.Ak máme tieto údaje a t hodnotu, môžeme nájsť v tabuľkách nakoľko je rozdiel str. hodnôt signifikantný. 4. Balíky štatistických programov toto robia samy.
ANOVA ANOVA = analysis of variance, metóda pomocou ktorej možno zistiť, či je viacero stredných hodnôt rozdielnych. V podstate ide o to, ktorý z viacerých vplyvov má signifikantný účinok. Príklad: Na poli pestujeme dva druhy repy, Barkant a Marco. Chceme zistit, ako výnosy závisia od druhu, spôsobu pestovania repy, poprípade od iných parametrov. Predpokladáme lineárne závislosti.
1kg 2kg 1kg I II I II I II 2kg III IV III IV III Bar 21.8 IV A B F E E H C D G 4kg 8kg 4kg 8kg 1kg 2kg 1kg 2kg J N P K Mar 21.8 L M Q R 4kg 8kg 4kg 8kg Experimentálne repné pole Bar 28.8 Mar 28.8