330 likes | 581 Views
DUOMENŲ GAVYBOS TECHN O LOGIJOS. Paskaita 3. Tikimybinio modeliavimo ir r obastin ės duomenų gavybos principai. Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>. Atsitiktiniai dydžiai ir skirstiniai.
E N D
DUOMENŲ GAVYBOS TECHNOLOGIJOS Paskaita 3.Tikimybinio modeliavimo ir robastinės duomenų gavybos principai Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>
Atsitiktiniai dydžiai ir skirstiniai Skaitinės reikšmės,siejamos su atsitiktiniais įvykiais, yra vadinamos atsitiktiniais dydžiais (a.d.). Atsitiktinis dydis yra atsitiktinio įvykio funkcija. Atsitiktinį dydį X apibūdina jo galimų reikšmių aibė ir skirstinys. Atstiktinio dydžio galimų reikšmių aibę sudaro visos skaitinės reikšmės, kurias jis gali įgyti su nenuline tikimybe.
Atsitiktiniai dydžiai ir skirstiniai Skirstinys yra funkcija, lygi tikimybei, kad atsitiktinio dydis X neviršyja reikšmės x: Taikomosiuose modeliuose dažniausiai pasitaiko diskretieji ir tolydieji a. d. Atsitiktinis dydis yra diskretusis, jeigu jo galimų reikšmių aibė baigtinė arba skaiti. Atsitiktinis dydis X vadinamas tolydžiuoju, jeigu jo galimų reikšmių aibė yra realiųjų skaičių intervalas arba tokių intervalų sąjunga.
Atsitiktiniai dydžiai ir skirstiniai Svarbio a.d. charakteristikos yra vidurkis (tikėtina reikšmė): ir dispersija: vadinama standartiniu nuokrypiu
Diskretieji dydžiai Discretusis a.d. aprašomas įgyjanų reikšmių tikimybėmis:
Diskretieji dydžiai Diskrečiojo a.d. vidurkis yra išreiškiamas suma:
Tolydieji a.d. Tolydusis a.d. yra nusakomas tikimybe tankio funkcija: Tokiu būdu:
Tolydieji a.d. Lygties vadinamas a.d. p-kvantiliu
Tolydieji a.d. Atsitiktinės funkcijos vidurkis:
Normalusis skirstinys Tolydusis a.d. Yyra pasiskirstęs normaliai (arba pagal Gauso dėsnį), paprastai Žymimą N(μ, σ2), jei jo tankio funkcija (μ – vidurkis, σ – st. nuokrypis):
Normalusis skirstinys Jei labai daug nepriklausomų atsitiktinių poveikių įtakoja kokį-nors parametrą, tai jo skirstinys būtinai yra normalusis. Tad normalusis ir su juo susiję skirstiniai dažnai taikomi tikimybiniam modeliavimui ir duomenų analizei.
Eksponentiniai a.d. Eksponentinio a.d. skirstinys ir tankio funkcija: (λ - intensyvumas):
Exponentinis a.d. Laiko trukmė tarp dviejų atsitiktinių įvykių dažnai pasiskirsčiusi pagal šį dėsnį, pvz., draudiminiai įvykiai, fiksuoto ryšio telefono skambučiai, ir pan. Kai trukmė tarp įvykių pasiskirsčiusi pagal eksponentinį dėsnį, įvykių skaičius intervale galima apskaičiuoti pagal Puasono dėsnį. Patikimumo uždaviniuose dažnai taikomi Gama ir Veibulo a.d., susiję su eksponentiniu a.d.
Pareto skirstinys ir Pareto savybė Pareto a. d. yra aprašomas skirstiniu: A.d. pasižymi Pareto savybe, jei Skirstinys turi sunkią uodegą, jei α<2
Atsitiktiniai vektoriai Atsitiktinio vektoriaus skirstinys: aprašomas daugiamačiu skirstiniu
Atsitiktiniai vektoriai Atsitiktinis vektorius gali būti apibūdinamas vidurkių vektoriumi (tikėtinų reikšmių): ir kovariacijų matrica: , čia ,
Atsitiktiniai vektoriai Sąryšiai tarp kintamųjų (komponenčių) aprašomi koreliacijomis:
Aprašomoji statistika(AS) AS leidžia apžvelgti duomenis ir teikia pagrindą gilesniam tyrimui. AS sudaro : • Pozicinės statistikos • Momentų statistikos
Aprašomoji statistika Tegul duota atsitiktinė imtis: - Imties tūris
Variacinė eilutė Imtis užrašyta didėjančia tvarka vadinama variacine eilute variacinės eilutės nariai vadinami pozicinėmis Statistikomis. Variacine eilute pasinaudojama vaizduojant histogramas, tikrinant hipotezes apie duomenų Skirstinius ir pan.
Momentųstatistikos imties vidurkis imties dispersija Trečias momentas Ketvirtas momentas
Momentų statistikos Variacijos koeficientas Asimetrijos koeficientas kurtosis
Robastinės duomenų analizės problemos Praktiniai duomenys dažnai pasižymi pliūpsniškumu, sunkiomis uodegomis, pvz: • finansinių rinkų indeksai; • informaciniai srautai kompiuterių tinkluose
Robastinės duomenų analyzės problemos Duomenys taip pat gali būti asimetriniai, leptokurtotiniai (daug mažų ir daug didelių reikšmių). Robastinė duomenų analizė (nuo Huber, 1964) tiria metodus, kurie lieka stabilus esant “sunkioms uodegoms”, asimetrijai, ir/arba leptokurtotiškumui.
Heavy-Tailed - Power Law where 0 < α < 2 and C > 0 are constants
Praktiniai patarimai robastinei DA • Palyginti momentų statistikas su pozicinėmis statistikomis • Pritaikyti adekvačiua skirstinius (alfa-stable or Student distributions instead normal one) • Tirti inžinerines prielaidas apie duomenų prigimtį (pliūpsniškumas, , etc.)
Praktiniai patarimai robustinei DA T.y., palyginkite imties vidurkį su mediana , Ir standartinį nuokrypį su absolučiu nuokrypiu . Jei skirtumų yra, reikalinga robustinė DA.
Praktiniai patarimai robustinei DA Daugiamatėje analyzėje palyginti Pirsono Koreliacijos koeficienta su Spirmeno koefficientu (kuris skaičiuojamas kaip Pirsono koreliacija tarp atsitiktinių vektorių rangų). Jei skirtumų yra, gilesnė analizė reikalinga, taip pat
Statistinis vertinimas Tarkime, reikia rasti skitrstinio su tankiu parametrus. Didžiausio tikėtinumo metodas leidžia rasti gerus parametrų įverčius:
The science should be done by young !!!