410 likes | 588 Views
Preparing Data. What is Data?. Attributes. Kumpulan obyek data dan atributnya Atribut adalah property atau karakteristik suatu obyek Contoh : warna mata , temperature, dll Atribut dikenal sebagai variable, field, ataupun karakteristik Kumpulan dari atribut menggambarkan obyek
E N D
What is Data? Attributes • Kumpulan obyek data danatributnya • Atributadalahproperty ataukarakteristiksuatuobyek • Contoh: warnamata, temperature, dll • Atributdikenalsebagai variable, field, ataupunkarakteristik • Kumpulan dariatributmenggambarkanobyek • Obyekdikenaljugasebagai record, point, case, sample, entitas Objects
Attribute Values • Nilaiatributadalahangka-angkaatausimbol-simbolyang diassignkesuatuatribut • Perbedaanantaraatributdannilaiatribut • Atributygsamadapatdipetakkankenilaiatributyang beda • Misal: ketinggiandapatdiukurdalam feet atau meter • Atributygbedadapatdipetakankehimpunannilaiyang sama • Contoh: nilaiatributuntuk ID dan age adalah integer • Tetapi property nilaiatributdapatberbeda: • ID tidakmempunyaibatasannilaimaksimumdan minimum
Attribute Types • Adajenis-jenisatribut yang berbeda: • Nominal • Contoh: nomor ID, warnamata, kode pos • Ordinal • Rangking/ tingkatan (contoh rasa darikripikkentangdalamskala 1-10), grade, tinggidalam {tinggi, sedang, rendah} • Interval • Contoh: tanggalkalender, temperature dalam Celsius atau Fahrenheit • Ratio • Contoh: temperature dalam Kelvin, panjang, waktu, jumlah
Properties of Attribute Values /1 • Jenisatributtergantungpadapropertiberikut yang manadiamiliki • Distinctness: = • Order: < > • Addition: + - • Multiplication: * / • Nominal attribute: distinctness • Ordinal attribute: distinctness & order • Interval attribute: distinctness, order & addition • Ratio attribute: all 4 properties
Attribute Type Description Examples Operations Nominal The values of a nominal attribute are just different names, i.e., nominal attributes provide only enough information to distinguish one object from another. (=, ) zip codes, employee ID numbers, eye color, sex: {male, female} mode, entropy, contingency correlation, 2 test Ordinal The values of an ordinal attribute provide enough information to order objects. (<, >) hardness of minerals, {good, better, best}, grades, street numbers median, percentiles, rank correlation, run tests, sign tests Interval For interval attributes, the differences between values are meaningful, i.e., a unit of measurement exists. (+, - ) calendar dates, temperature in Celsius or Fahrenheit mean, standard deviation, Pearson's correlation, t and F tests Ratio For ratio variables, both differences and ratios are meaningful. (*, /) temperature in Kelvin, monetary quantities, counts, age, mass, length, electrical current geometric mean, harmonic mean, percent variation Properties of Attribute Values /2
Attribute Level Comments Transformation Nominal Any permutation of values If all employee ID numbers were reassigned, would it make any difference? Ordinal An order preserving change of values, i.e., new_value = f(old_value) where f is a monotonic function. An attribute encompassing the notion of good, better best can be represented equally well by the values {1, 2, 3} or by { 0.5, 1, 10}. Interval new_value =a * old_value + b where a and b are constants Thus, the Fahrenheit and Celsius temperature scales differ in terms of where their zero value is and the size of a unit (degree). Ratio new_value = a * old_value Length can be measured in meters or feet. Properties of Attribute Values / 3
Discrete and Continuous Attributes • Discrete Attribute • Mempunyaihimpunannilaiterbatasatautakterbatas • Contoh: zip codes, himpunankatadalamkumpulandokumen • Seringdirepresentasikansbg variable integer • Note: binary attributes special case • Continuos Attribute • Memilikiangka-angka real sebagainilaiatribut • Contoh: temperatur, tinggiatauberat • Dapatdiukurdandirepresentasikanmenggunakansejumlah digit terbatas • Cirikhasnyadirepresentasikansebagai variable pecahan
Asymmetric Attributes • Hanyakeberadaannya (non zero attribute value) diperhatikan • Contoh: • Kata-katamunculdidokumen • Item-item munculditransaksi customer
Types of data sets • Record • Data Matrix • Document Data • Transaction Data • Graph • World Wide Web • Molecular Structures • Ordered • Spatial Data • Temporal Data • Sequential Data • Genetic Sequence Data
Important characteristics of structured data • Dimensionality • Sparsity • Hanyamenghitungkemunculan • Resolution • Pola-polabergantungskala
Record Data • Data yang berisikumpulan record, yang manamasing-masingberisisuatuhimpunanatribut yang ditentukan.
Data Matrix • Jikaobjek data mempunyaikumpulanatributnumerikygditentukan , kemudian data objekdapatdipandangsebagaititikdalamruang multidimensional, dimanasetiapdimensimerepresentasiansuatuatribut yang berbeda. • Seperti data set dapatdirepresentasikandengansuatumatrikm denganndimanaadam baris, satudarisetiapobjekdann kolom, satuuntuksetiapatribut.
Document Data • Setiap document menjadisuatu ‘term’ vector, • Setiap term adalahkomponen (atribut) dari vector • Nilaisetiapkomponenadalahbanyaknyawaktuygberhubungan terms terdapatdalam document
Transaction Data • Jenisspesialdari data rekord , dimanasetiap record (transaksi) mencangkupkumpulan item-item • Contoh: Tokopenjualanbahanmakanan. Sejumlahprodukdibeli customer selamaperjalananpembelianmerupakansuatutransaksi, namunprodukygdibelimerupakan item
Graph Data • Contoh: Generic graph and HTML Links
Chemical Data • Benzene Molecule: C6H6
Ordered Data /1 • Sequence of transaction Items/Events An element of the sequence
Ordered Data /2 • Genomic sequence data
Ordered Data /3 • Spatio-Temporal data Average Monthly Temperature of land and ocean
Data Quality • Jenismasalahapakahkualitas data? • Bagaimanakitadapatmendeteksimasalahdengan data? • Apaygdapatkitalakukantentangmasalahini? • Contohmasalahkualitas data: • Noise & outliers • Missing Values • Duplicate data
Noise • Mengacupadamodifikasinilai original • Contoh: distorsisuaraseseorangketikaberbicara Two Sine Waves Two Sine Waves + Noise
Outliers /1 • Outliers adalahobyek data dengankarakteristikberbedadengankebanyakan data obyek lain dalam data set.
Outliers /2 • Contoh: suatu data set merepresentasikangambaranumurdengan 20 nilaiygberbeda, • Age = {3, 56, 23, 39, 156, 52, 41, 22, 9, 28, 139, 31, 55, 20, -67, 37, 11, 55, 45, 37} • Maka parameter statistikaygberhubungan: • Mean = 39.9 • Standard deviation = 45.65 Jikakitamemilihnilai threshold untukdistribusi normal data : Theshold= Mean ± 2 x Standard Deviation makaseluruh data ygdiluar range [-54.1, 131.2] adalah potential outliers. Dan olehkarena age >0, mungkinmengurangi range menjadi [0, 131.2]. Sehinggaada outlier berdasarkankriteriaygdiberikan: 156, 139dan -67 Dengankemungkinanygtinggi, dapatdisimpulkan 3 data tersebutadamistypo (data ygdimasukkandenganpenambahan digit atautanda ‘-’)
Missing Values • Beberapaalasan missing values: • Informasitidakterkumpul (misal: orang2 menolakmemberikan info umurdanberatmereka) • Atributmungkintidakdapatdiaplikasikankesemuakasus (misal: pendapatantidakdapatdiaplikasikanke anak2) • Mengatasi missing values: • Eliminasiobyek data • Mengestimasi missing value selamaanalisis • Menggantidengansemuanilaikemungkinan (pembobotanolehkemungkinannya)
Duplicate Data • Data set mungkinterdapatobyek data yang duplikat, atauhampirduplikasidariyg lain • Isuutamadenganmenggabungkansumberygberbeda-beda • Contoh: orangygsamadenganberbagai email address • Data cleaning • Prosesperlakuandenganisu data duplikasi
Data Preprocessing: Why is Needed? • Data diduniariilcenderungkotor • Incomplete: kekurangannilaiatribut, kurangatributtttygmenarik, atauhanyaberupakumpulan data • Noise: berisi errors atau outliers • Inconsistent: berisiberbeda format dalam code dannama • Data ygtidakberkualitas, tidakadahasil-hasil mining ygberkualitas • Keputusankualitasharusdidasarkanpada data kualitas • Data warehouse memerlukanintegritaskonsistendari data kualitas
Major task in Data Preprocessing • Data Cleaning • Data Integration • Data Transformation • Data Reduction • Data Discretization
Transformation of Raw Data • Normalization • Data smoothing • Differences and ratios
Normalizations • Nilaiygterukurdapatdiskalake range khusus, seperti [-1, 1], atau [0,1] denganalasanukuran-ukuranjarakakan overweight yang dimiliki, atas rata-rata, nilai-nilaiitulebihbesar. • Ada 3 tehniknormalisasi: • Decimal scalling • Min-max normalization • Standard deviation normalization
Decimal scalling (normalization) • Menggerakkantitikdesimaltetapimasihmemeliharakebanyakannilai digit asal. Skalakhususmemeliharanilaidalam range -1 sampai 1. Persamaanberikutmenggambarkanpenskalaandesimal, dimana v(i) adalahnilaidari feature v untukkasusidan v’(i) adalahnilaiygdiskala. v’(i)=v(i)/10k untuk k terkecilsehingga max (v’(i))< 1 Contoh: Jikanilaiterbesar data set 455 danterkecil -834, makanilaiabsolutmaksimummenjadi .834, danpembagiuntuksemua v(i) adalah 1000(k=3).
Min-max normalization • Andaikan data v dalamsuatu range antara 150 dan 250. Maka, metodenormalisasisebelumnyaakanmemberikan data ygdinormalisasiantara .15 dan .25; tetapidiaakanmengakumuladinilaidalam subinterval kecildalam range keseluruhan. Untukmencapaidistribusiyglebihbaikdarinilaiseluruhnya, intervalnyadinormalisasikan, seperti [0, 1] v’(i) =(v(i)-min(v(i))) / (max(vi))-min(v(i))) dimana, nilai minimum danmaksimum v dihitungsecaraotomatis, ataudiestimasiolehseorang expert memberikan domain. Transformasiygserupamungkindigunakanuntuk interval ygdinormalisasi [-1, 1].
Standard deviation normalization • Normalisasidengan standard deviasiseringbekerjabaikdenganukuranjarak, tetapitransformasi data tidakdapatdikenali data asalnya. v’(i)=(v(i)-mean(v))/sd(v) Contoh: Jikahimpunannilaiatributawal v={1, 2, 3}, maka mean(v)=2, sd(v)=1, danhimpunannilaiygdinormalisasikanadalah v* ={-1,0,1}
Data Smoothing • Suatu feature numerik, y, mungkinberkisaratasbanyaknilaiygberbeda, terkadangsebanyakjumlahkasuspelatihan. Banyakteknik data-mining, perbedaan minor antarnilai-nilaiinitidaksignifikandanmungkinmenurunkan performance metodedanhasilakhir. Olehkarenaitu, diaterkadangmenjadikeuntunganuntukmenghaluskannilai variable. • Sebagaicontoh, bilangan real denganbeberapaletakdesimal, pembulatannilaikepresisiygdiberikandapatmenjadialgoritma smoothing ygsederhanauntuksejumlahsampelygbesar, dimanasetiapsampelmempunyanilairealnyasendiri. • Jikadiberikan F = {0.93, 1.01, 1.001, 3.02, 2.99, 5.03, 5.01, 4.98}, kemudian, nilai2 di smooth secaranyatamenjadiFsmoothed = {1.0, 1.0, 1.0, 3.0, 3.0, 5.0, 5.0, 5.0}. • Tujuan : transformasisederhanatanpamenghilangkankualitas data set. • Contoh: diskritisasifiturkontinyumenujufiturnilaibiner true-false
Differences and ratios • Meskipunperubahankecil feature dapatmenghasilkanperbaikan yang signifikandalam performance data-mining. Dampaktransformasidari i/o yg relative minor adalahhalygpentingdalammenspesifikasitujuan data-mining. • Transformasikadangkalamenghasilkanhasilyglebihbagusdaritujualprediksisuatuangkasemula. • Contoh: tujuanmenggerakkan control untukprosesmanufakturpadasuatu setting optimal. Daripadamengoptimisasispesifikasibesaranygnyatauntuk output s(t-1), diaakanlebihefektive men-set tujuangerakanrelatifdarinilaisaatinike optimal akhir s(t+1)-s(t). • Rasioadalahtransformasisederhanaygkedua. Menggunakan s(t-1)/s(t) sebagai output dariproses data-mining, daripadanilainyata s(t+1) ygberarti level peningkatan/ penurunannilaidarisuatu feature ygmungkinmeningkatkan performance dariproses mining keseluruhan.
Transformasiperbedaandanrasiotidakhanyabergunauntukfitur output, tetapijugauntuk input. Merekadapatdigunakansebagaiperubahandalamwaktuuntuksatu feature atausebagaikomposisidariperbedaan feature input. • Contoh: data set medical, ada 2 feature daripasien, tinggidanberat, ygdiambilsebagai parameter input untukanalisisdiagnosaygberbeda. Beberapaaplikasimenunjukkanhasildiagnosadicapailebihbagusketikatransformasiawalditunjukkanmenggunakan feature baruygdisebut body-mass index (BMI), ygmanarasiopembobotanantaraberatdantinggi. Fiturkomposisilebihbaikdari parameter awaluntukmenggambarkanbeberapakarakteristikpasien, misalapakahpasien overweight atautidak.
Transforming Data • Centering • Mengurangisetiap data dengan rata2 darisetiapatribut • Normalization • Hasildari centering dibagidengan standard deviasi • Scaling • Merubah data sehinggaberasadalamskalatertentu