380 likes | 571 Views
DATA REDUCTION. DIMENSIONS OF LARGE DATA SETS. Pemilihan representasi data, seleksi , reduksi atau transformasi fitur kualitas solusi dalam data mining Menentukan masalah apakah dapat dipecahkan seluruhnya ? Bagaimana kekuatan model hasil dari data mining?
E N D
DIMENSIONS OF LARGE DATA SETS • Pemilihanrepresentasi data, seleksi, reduksiatautransformasifitur kualitassolusidalam data mining • Menentukanmasalahapakahdapatdipecahkanseluruhnya ? • Bagaimanakekuatan model hasildari data mining? • Jumlahfitur beberaparatus. • Diperlukanreduksi model untukpenggunaandalampraktek • Alasanlain beberapaalgoritma data-mining tidakdapatdiaplikasikan
Tigadimensiutamadari data set (plain files): • Kolom (fitur) • Baris (kasus/ contoh) • Nilaifitur • Tigaoperasidasardariprosesreduksi data: • Delete kolom, • Delete baris • Penguranganjumlahnilaikolom (penghalusansuatufitur).
Operasi lain: mereduksitetapi data barutidakdikenalilagi. • Pendekatan yang digunakanmenggantikansekumpulanfiturawaldenganfiturcampuranygbaru. • Sebagaicontoh, data set mempunyaiduafitur, tinggi-orangdanberat-orang digantihanyasatufitur, BMI (body-mass-index), merupakanproporsihasilbagidariduafiturawal.
Beberapa parameter yang digunakansebagaianalisadasaruntukpereduksian: • Computing time Data yang lebihsederhanadiharapkanmereduksiwaktu yang diambiluntuk data mining. • Predictive/ descriptive accuracy Ukuraninimendominasibagikebanyakan model data mining, olehkarenamengukurseberapabaik data disimpulkandandigeneralisirkedalamsuatu model. • Representation of the data mining model. Kesederhanaanrepresentasi model yang dapatdimengerti.
Hal yang ideal adalahjikadapatmereduksiwaktu, meningkatkanakurasidanrepresentasisederhanapadawaktuygsama, menggunakanreduksidimensi. Namuntidakadametodereduksi data ygtunggaldapat paling cocokuntuksemuaaplikasi. • Pemilihanmetodeseleksididasarkanataspengetahuanygadatentangsuatuaplikasi (relevansi data, noise data, meta-data, fiturygberhubungan), dan constraint waktuygdimintauntuksolusiakhir.
Feature Reduction Padadasarnya, kitamemilihfiturygrelevanpadaaplikasi data-mining agar supayamencapaihasil yang maksimumdenganukurandanusahapemrosesan minimum. Suatuprosesreduksifiturharusmenghasilkan: • Data yang lebihkecilsehinggaalgoritma data-mining dapatmempelajarilebihcepat • Akurasidariproses data-mining lebihtinggisehingga model dapatmengeneralisasilebihbaikdari data • Hasilsederhanadariproses data-mining sehinggamerekalebihmudahuntukmengertidanmenggunakan • Fiturlebihkecilsehinggarentetanberikutnyadarikumpulan data, suatupenghematandapatdibuatdenganmenghilangkanredundansiataufitur yang tidakrelevan
Duatugasstandardikaitkandenganproduksikumpulanfitur, danmerekadiklasifikasikansebagai: • Feature selection – human analyst mungkinmemilihbagiandarifiturygditemukandi data set awal. Prosesdariseleksifiturdapat manual ataudidukungolehbeberapaprosedureotomatis • Feature composition – komposisidarifituradalahfaktorpenentu yang lebihbesardalamkualitashasil data-mining dariteknik mining khusus.
Feature Selection • Perbedaaanmetoda-metodapemilihanfiturdiklasifikasikanmenjadidua: algoritmafeature-rangkingdanalgoritmasubsetminimum. • Algoritma feature-rangking. • Daftarfiturterurutygdisusunmenurutukuranevaluasiukurankhusus. • Suatuukurandapatdigunakanatasakurasi data ygtersedia, konsistensi, isiinformasi, jarakantarcontohdanterakhir, secarastatistikbergantungantarafitur-fitur. • Algoritmainitidakmemberitahukanapakahkumpulanfitur minimum untukanalisalebihlanjut; merekamengindikasikanrelevansifiturdibandingpada yang lainnya. • Algoritma subset minimum • Mendapatkansubset fitur minimum dantidakadaperbedaandibuatdiantarafitur-fiturdalam subset semuamampunyairangkingygsama. • Fitur-fiturdalam subset relevanditujukanuntukproses mining; yglainnyatidakrelevan. • Skemafitur-evaluasi: caradimanafiturdievaluasidankemudiandirangking, atauditambahkanke subset terpilih.
Seleksifitursecaraumumdapatdigambarkansebagaimasalahpencarian, dengansetiap state di area pencariankhusus subset darifiturygmungkin. Jika, suatu data set mempunyai 3 fitur {A1, A2, A3}, danprosesseleksifitur-fitur, keberadaanfiturdikodekan 1 dankeabsenannyadengan 0, sehinggaada 23 subset reduksifiturdikodekandengan {0, 0, 0},{1, 0, 0}, { 0,1, 0}, {0, 0, 1}, {1, 1, 0}, {1, 0, 1}, {0, 1, 1}, dan {1, 1, 1}. • Masalahseleksifituradalahrelatifsepelehjikaruangpencariankecil, olehkarenakitadapatmenganalisaseluruh subset dibeberapaperintahdansuatupencarianakanlengkapdalamwaktusingkat. • Namunpencarianbiasanya 2Ndimanajumlahdimensi N diaplikasi data-mining adalahbesar (N>20). Exhaustive search dariseluruh subset fiturseringdigantikandenganprosedur heuristic search. Penggunaanpengetahuanmasalah, prosedur-prosedurinimenemukan subset fitur yang memperbaikilebihlanjutmeningkatkankualitasproses data mining. • Tujuanseleksifituradalahmenemukan subset fiturdenganperforma data mining dapatdibandingkanpadakumpulanfiturutuh.
Aplikasiseleksifiturdanreduksidimensi data membantuseluruhfaseproses data mining untukpenemuanpengetahuan. • Dimulaipadafase preprocessing, meliputiseleksifiturdanreduksiadalahbagiandarialgoritma data-mining, meskipunkadangdiaplikasikandipostprocessinguntukevaluasidankonsulidasihasilygdicapailebihbaik.
Entropy Measure for Ranking Features • Suatumetodauntukseleksiunsupervisedfiturataumerangkingberdasarkanukuran entropy adalahteknikygrelatifsederhana • Asumsidasaradalahsemuacontohdiberikansebagaivektortanpaadanyaklasifikasidari output sample. • Pendekatandidasarkanatasobservasipembuanganfitur yang tidakrelevan, fiturredundan,ataukeduanyadarikemungkinanygtidakmengubahkarakteristik data set. • Algoritmadidasarkanatasukuransimilarity S yang berbandingterbalikdenganjarak D antaradua n-dimensional sample. Ukuranjarak D kecil, dekatdengancontoh, dan yang besaruntukperbedaanpasangan.
, namun sering digunakan konstanta • Ada 2 formula ygdipakaiuntukmengukur similarity terhadapfitur: data numerikdan non numerik (kategori). • Data numerik: Similarity (S) dimana: e=2.7183; Namunseringdigunakansebagaikonstanta Dan ukuranjarak D didapatkan:
Data non-numerik Di mana |xij=xjk| adalah 1 jikaxij=xjk, dansebaliknya 0. Jumlah variable adalah n. Data set dgn 3 fiturkategori Tabelukuran similarity Sijdiantara samples
Nilai Entropy yang digunakanuntukrangkingfituradalah: • Kedekatansuatufiturditunjukansemakinkecilnyaperbedaannilai entropy.
DATA REDUCTION METHODS: • Principal Component Analysis • Values Reduction • Feature Discretization
1. Principal Component Analysis (PCA) • Metodastatistik yang populeruntukmereduksidimensi data set yang besaradalahmetodeKarhunen-Loeve (K-L), disebutjuga Principal Component Analysis • Merupakanmetodapentranformasian data set awalygdirepresentasikan vector sample menjadikumpulan vector sample barudengandimensiygdidapatkan. • Tujuannyamemfokuskaninformasiterhadapperbedaan-perbedaandiantara sample menjadidimensiyang kecil.
Idedasar: sekumpulan vector sampelberdimensi n X={x1, x2, x3, …, xm} ditransformasikankehimpunan lain Y = {y1, y2, y3, …, ym} dengandimensiygsama, tetapi y ,memiliki property yg paling informatifisinyadisimpandalamdimensipertama. • Transformasididasarkanatasasumsibahwainformasiygtinggiberhubungandenganvarianygtinggi. Sehinggajikamereduksikesatudimensidarimatrik X kematrik Y dapatdituliskan: Y= A ∙ X, pemilihan A sehingga Y mempunyaivarianterbesardari data set ygdiberikan. Dimensitunggaldari Y diperolehdaritransformasiinidisebut first principal component.
Makauntukmenentukan matrix A, dihitungdahulu covariance matrix S sebagaitahapawaldaritransformasifitur. • Dimana:
Eigen values & Eigen vector • Eigenvaluesdari matrix covariance S : λ1 ≥ λ2 ≥… λn ≥0 • Eigenvectors v1,v2,… vnberhubungandenganeigenvalues λ1 ≥ λ2 ≥… λndandisebut principal axes. • Kriteriauntukseleksifiturdidasarkanatasrasiopenjumlahaneigenvalueterbesar S kenilaiseluruhS, sehinggadapatdituliskan: • Ketikanilairasio R cukupbesar (lebihbesardarinilai threshold), seluruhanalisadari subset atasfitur m merepresentasikanestimasiawalygbaikdari n dimensiruang.
Nilaieigen value diperolehdenganmengetahuinilai covariance sehinggadituliskan: det (S – λ) = 0 ; dimana S= matrix covariance • Sedangkannilaieigen vector (v) diperolehdenganrumusanberikut: λv = Sv
Contoh lain: Covariance Eigenvaluedari data
Dengannilai threshold R*=0.95, makadipilih 2 fiturpertama, sebab: R = (2.91082 + 0.92199)/(2.91082 + 0.92122 + 0.14735 + 0.02061) = 0.958 > 0.95, sehingga2 fiturtersebutcukupmendeskripsikankarakteristik data set.
2. Value Reduction • Suatureduksijumlahnilai-nilaidiskrituntuk figure ygdiberikandidasarkanatasteknikdiskritisasi. • Tujuannnya : mendiskritisasinilaifiturkontinumenujusejumlahkecil interval, ygmanasetiap interval dipetakkankesimboldiskrit. • Keuntungan: diskripsi data disederhanakansehingga data danhasil-hasil data-mining mudahdimengerti, jugakebanyakanteknikdata mining dapatdiaplikasikandengannilaifiturdiskrit.
Cut points? • Sebagaicontoh: suatuumurseseorang, diberikandiawalproses data-mining sebagainilaikontinu (antara 0 dan 150 tahun) mungkindiklasifikasikanmenjadi segmen2 kategori: anak, remaja, dewasa, setengahtua, tua. Titik2 batasdidefinisikansecarasubyektif. age 0 150 Child Adolescent Adult Middle-age Elderly
Pengelompokannilai-nilaifitur • Diberikansuatufiturmempunyaisuatujaraknilai-nilainumerik, dannilai-nilaiinidapatdiurutkandariygterkecilkeygterbesar. • penempatanpembagiannilai-nilaikedalamkelompok-kelompokdengannilai-nilaiygdekat. • Seluruhnilaidalamkelompokakandigabungkekonseptunggalygdirepresentasikandengannilaitunggal, biasanyamean ataumediandarinilai-nilaitersebut. • Nilaimean/ mode biasanyaefektifuntukjumlahnilaiyglumayanbesar. • Namunbilakecil/ sedikit, batasandarisetiapkelompokdapatmenjadikandidatuntukrepresentasinya.
Sebagaicontoh, jikadiberikanfitur f {3, 2, 1, 5, 4, 3, 1, 7, 5, 3} kemudiansetelah sorting didapatkan : {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} • Makasekarang, mungkindipecahjumlahkumpulannilaikedalam 3 bins {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} BIN1 BIN2 BIN3
{1, 1, 2, 3, 3, 3, 4, 5, 5, 7} BIN1 BIN2 BIN3 • Langkahberikutnya, perbedaanrepresentasidapatdipilihuntuksetiapbin. • Berdasarkan mode dalam bin, makanilai-nilaibaru: {1, 1, 1, 3, 3, 3, 5, 5, 5, 5} BIN1 BIN2 BIN3 • Berdasarkan mean {1.33, 1.33, 1.33, 3, 3, 3, 5.25, 5.25, 5.25, 5.25} BIN1 BIN2 BIN3 • Berdasarkankedekatandenganbatasannilaidalam bin: {1, 1, 2, 3, 3, 3, 4, 4, 4, 7} BIN1 BIN2 BIN3
Masalahutamadarimetodainiadalahmenemukanbatasanterbaikuntuk bin. Makaprosedurenyaterdirilangkah-langkahberikut: • Urutkanseluruhnilaibagifiturygdiberikan • Assign denganperkiraansejumlahnilai-nilaiygberdekatansetiap bin • Pindahkanelemenbatasdarisatu bin keberikutnya (atausebelumnya) ketikamereduksi error jarakkeseluruhan (ER)
Contoh: • Kumpulan nilaidarifitur f adalah {5, 1, 8, 2, 2, 9, 2, 1, 8, 6}. Split kedalam 3 bin (k=3), dimana bin2 akandirepresentasikandengan mode-nya. • Sorted nilai2 fitur f : { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9} • Inisialisasi bin (k=3) BIN1 BIN2 BIN3 (i) Modes untukketiga bin terpilih : {1, 2, 8}. Maka total error: ER = 0 + 0 + 1+ 0 + 0 + 3 + 2 + 0 + 0 + 1 = 7 (ii) Setelahmemindahkan 2 elemendari BIN2 ke BIN1 dan 1 elemendari BIN3 ke BIN2, makadiperoleh ER yglebihkecildandistribusiakhirmenjadi: Final bins f= { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9} BIN1 BIN2 BIN3 • Modesnya: {2, 5, 8}, dan total error ER diminimisasimenjadi 4. • Distribusiakhir, denganmedian-median sebagai representative akandidaptkanmasalahreduksinilai.
3. FEATURE DISCRETIZATION • ChiMerge: suatualgoritmadiskritisasi yang menganalisikualitas interval atasfiturygdiberikandenganmenggunakanstatistik X2. • Algoritmamenentukankesamaanantaradistribusi data dalam interval ygberdekatanberdasarkanklasifikasi output sample. • Jikakesimpulandari X2 test iniadalah class output ygindependenmaka interval harusdigabungkan, sebaliknyajikaperbedaannyaterlalubesarmakatidakdigabung.
AlgoritmaChiMergeberisi 3 tahapuntukdiskritisasi: • Sort data atasfiturygdiberikansecaraurutnaik • Definisikaninisialawal interval sehinggasetiapnilaidalam interval terpisah • Ulangihinggatidakada X2 dari 2 interval ygberdekatanlebihkecildarinilai threshold.
Dimana: • k= jumlahkelas • Aij=jumlahcontohdalam interval ke-i, kelaske-j • Eij =frekuensiygdiharapkandariAij, ygmanadihitung (Ri.Cj)/N • Ri= jumlahcontohdalam interval ke –i • Cj = jumlahcontohdalamkelaske –j • N= jumlah total daricontoh
Berdasarkantabeldiatasdidapatkan: E11 = 2/2 = 1 E12 0/2 ≈ 0.1 E21 = 2/2 = 1 dan E22 = 0/2 ≈ 0.1 X2 =(1-1)2/1+(0-0.1)2/0.1 +(1-1)2/1 +(0-0.1)2/0.1 = 0.2 Olehkarenalebihkecildari threshold (2.706 untukdistribusi dg α =0.1, makadilakukanpenggabungan
E11 = 12/5 = 2.4 E12 = 3/5 = 0.6 E21 = 8/5 = 1.6 E22 = 2/5 = 0.4 X2 = 0.834
E11 = 2.78, E12 = 2.22, E21 = 2.22, E22 = 1.78, danχ2 = 2.72 Olehkarenadihasilkan > dari threshold (2.706), makatidakdiperlukanlagipenggabungan