320 likes | 627 Views
DUOMENŲ GAVYBA. Paskaita 2 . Duomenys ( Duomenų , objekt ų ir atributų, imčių, duomenų priklausomumo sąvokos. Duomenų skalės, rinkinių tipai, duomenų bazės). Kęstutis Žilinskas Šiaulių universitetas, 2013. Duomen ų samprata. Plačiaja prasme duomenys tai: Faktai; Tekstas; Grafikai;
E N D
DUOMENŲ GAVYBA Paskaita2.Duomenys(Duomenų, objektų ir atributų, imčių, duomenų priklausomumo sąvokos. Duomenų skalės, rinkinių tipai, duomenų bazės) Kęstutis Žilinskas Šiaulių universitetas, 2013
Duomenų samprata • Plačiaja prasme duomenys tai: • Faktai; • Tekstas; • Grafikai; • Paveikslėliai; • Garsai; • Analoginiai ar skaitmeniniai video segmentai.
Duomenys gali būti gaunami: • Matuojant; • Atliekant eksperimentus; • Atliekant aritmetinius veiksmus; • Atliekant loginius veiksmus. • Duomenys turi būti pateikti forma, tinkama saugoti, perduoti ir apdoroti (pertvarkyti).
Duomenys • Duomenys – būtina duomenų gavybos prielaida. • Duomenis pateikia užsakovas arba saugyklos administratorius. • Duomenis naudoja vartotojas. Duomenių pagalba gali būti formuojama nauja informacija.
Objektai ir atributai • Objektas aprašomas atributų rinkiniu. • Objektas gali būti vadinamas: • Užrašu; • Įrašu, • Atveju; • Pavyzdžiu; • Lentelės eilute ir pan.
Objektai ir atributai • Atributas – objektą apibūdinanti savybė (pavyzdžiui): • Žmogaus akių spalva; • Vandens temperatūra ir pan. • Atributas gali būti vadinamas: • Kintamuoju; • Lentelės lauku; • Matmeniu (išmatavimu); • Charakteristika; • Požymiu.
Kintamasis • Kintamasis – bendra visiems nagrinėjamiems objektams savybė arba charakteristika, kuri reiškiasi skirtingai pereinant nuo vieno objekto prie kito. • Kintamojo reikšmė – požymio kokybinė arba kiekybinė išraiška.
Imtis • Analizuojant duomenis dažniausiai negalima nagrinėti visos objektų aibės (generalinės aibės). • Užtenka nagrinėti šios aibės dalį – imtį. • Imties dydis (ilgis, tūris) turi priklausyti nuo objektų įvairovės bei apimti skirtingus objektų aibės elementus ir jų kompinacijas.
Imtis • Generalinė aibė (population) – visa nagrinėjamų, tyrėją dominačių objektų aibė. • Imtis (sample) – specialiu būdu atrinkta generalinės aibės dalis, leidžianti daryti išvadas apie generalinės aibės savybes ir charakteristikas.
Imtis • Parametrai – skaitinės generalinės aibės charakteristikos. • Statistikos – skaitinės imties charakteristikos.
Hipotezės • Dažnai tyrimas remiasi hipotezėmis, kurios tikrinamos duomenų pagalba. • Hipotezė – prielaida apie objektų aibės parametrus, kuri gali būti patikrinta aibės daliai. • Hipotezė – dalinai pagrįstas žinių dėsningumas arba nurodantis ryšius tarp empirinių faktų, arba paaiškinantis faktus ar jų grupes.
Hipotezės pavyzdys: yra ryšys tarp gyvenimo trukmės ir maitinimosi kokybės rodiklių. • Tyrimo tikslas: konkretaus kintamojo (gyvenimo trukmės) kitimo paaiškinimas.
Hipotezės patikslinimas: • Priklausomas kintamasis (gyvenimo trukmė) keičiasi priklausomai nuo keleto priežasčių (maitinimosi kokybės, gyvenimo būdo, gyvenamosios vietos ir pan.), t.y. nuo nepriklausomų kintamųjų. • Kintamasis iš pradžių nėra nei priklausomas, nei nepriklausomas. • Priklausomumą nusako tik hipotezė.
Matavimai • Matavimas – skaičių priskyrimas nagrinėjamo objekto charakteristikoms pagal tam tikrą taisyklę. • Duomenų paruošimo procese matuojamas ne pats objektas, bet jo charakteristikos.
Skalės • Skalė – taisyklė, pagal kurią objektų charakteristikoms priskiriami skaičiai. • Duomenų gavyboje svarbu kintamojo skalė arba kintamųjų duomenų tipas. • Kintamieji būna skaitiniai arba simboliniai. • Skaitiniai duomenys būna diskretieji arba tolydieji.
Skalės • Duomenų gavyboje nagrinėjamos penkios matavimų skalės: • Nominalioji; • Sutvarkyta; • Intervalinė; • Santykinė; • Dichotominė.
Nominalinė skalė (nominalscale) • Skalę sudaro tik kategorijos. • Duomenų negalima surikiuoti. • Su duomenimis negalima atlikti aritmetinių veiksmų. • Nominalinė skalę nusako pavadinimai, vardai, skirti klasifikavimui ir grupavimui. • Pvz.: profesijos, miestai, šeimyninė padėtis. • Galimos operacijos: lygu(=), nelygu(≠).
Sutvarkyta skalė (ordinalscale) • Objektams priskiriami skaičiai, nurodantis objektų santykinę padėtį, bet ne jų skirtumus. • Leidžia sutvarkyti objektus, suteikti jiems rangus, bet neleidžia nustatyti, kiek vienas dydis didesnis už kitą.
Sutvarkyta skalė (ordinalscale • Pvz.: komandos vieta čempionate, mokinio vieta valstybinio egzamino reitinge (neaišku, kiek kiekvienas mokinys žino daugiau už kitą). • Galimos operacijos: lygu(=), nelygu(≠), daugiau(>), mažiau(<).
Intervalinė skalė (intervalscale) • Skalė, kurios reikšmių skirtumus galima apskaičiuoti, bet reikšmių santykiai neturi prasmės. • Intervalinė skalė leidžia rasti dydžių skirtumus, turi nominaliosios ir sutvarkytos skalės savybes. • Skalė leidžia nusakyti požymio kiekybinius pokyčius.
Intervalinė skalė (intervalscale) • Pvz.: vandens temperatūra jūroje: • 190C – ryte ir 240C – vakare, t.y. vakare 5laipsniais šilčiau, bet 1,26 kartošilčiau. • Intervalinė skalė – tolydžioji. • Galimos operacijos: lygu(=), nelygu(≠), daugiau(>), mažiau(<), sudėtis(+), atimtis(-).
Santykinė skalė • Skalė, kurioje nusakyta atskaitos pradžia ir galimi skalės reikšmių santykiai. • Pvz.: bulvių kaina prekybos centre 1,2 karto didesnė nei turguje. • Galimos operacijos: lygu(=), nelygu(≠), daugiau(>), mažiau(<), sudėtis(+), atimtis(-), dalyba(/).
Dichotominė skalė (dichotomous) • Skalė, turinti tik dvi kategorijas. • Pvz.: lytis (vyriška, moteriška). • Galimos operacijos: lygu(=), nelygu(≠).
Duomenų rinkinių tipai • Dažniausiai naudojami duomenys, pateikti įrašų forma. • Duomenų rinkinių pavyzdžiai: • Lentelės; • Matricos; • Dokumentai; • Transakcijų duomenys; • Operacijų duomenys.
Transakcijų duomenys • Duomenų tipas, kurio kiekvienas įrašas yra transakcija – reikšmių rinkinys.
Grafiniai duomenys • WWW duomenys; • Molekulinės struktūros; • Grafai; • Žemėlapiai.
Duomenų saugojimo formatai • Šiuolaikiniame pasaulyje duomenų labai daug. • Pagrindiniai veiksmai su jais: • Duomenų pateikimas; • Duomenų apskaičiavimas; • Manipuliavimas duomenimis; duomenų apdorojimas (surinkimas, perdavimas ir kt.). • Paprastai duomenys laikomi failuose ir duomenų bazėse.