400 likes | 620 Views
DATA REDUCTION. DIMENSIONS OF LARGE DATA SETS. Pemilihan representasi data, seleksi , reduksi atau transformasi fitur adalah mungkin isu yang penting menentukan kualitas solusi data-mining.
E N D
DIMENSIONS OF LARGE DATA SETS • Pemilihanrepresentasi data, seleksi, reduksiatautransformasifituradalahmungkinisu yang pentingmenentukankualitassolusi data-mining. • Selainpengaruhalamidarialgoritma data-mining, diadapatmenentukanapakahmasalahdapatdipecahkanseluruhnya, ataubagaimanakekuatan model hasildari data mining. • Dalampraktek, jumlahfiturdapatsebanyakbeberaparatus. Jikakitamempunyaisedikitnyaratusancontohuntukanalisis, reduksidimensidibutuhkansupaya model dapatdiandalkanuntukdigaliataumenjadibeberapapenggunaandalampraktek. • Di lain pihak, data ygberlebih, sebabdimensiygtinggi , dapatmembuatbeberapaalgoritma data-mining tidakdapatdiaplikasikan, solusinyareduksidimensi data.
Tigadimensiutamadari data set ygdiprosesdiawal, biasanyadirepresentasikandalambentuk plain files yaitukolom (fitur), baris (kasusataucontoh-contoh), dannilaidarifitur. • Olehkarenaitu, tigaoperasidasardariprosesreduksi data yaitudelete kolom, delete baris, dankurangijumlahnilaidisuatukolom (penghalusansuatufitur). Operasi-operasiiniberusahamemeliharakarakteristik data asaldenganpenghapusan data ygnonesensial.
Adaoperasi lain ygmereduksidimensi-dimensi, tetapi data barutidakdapatmengenaliketikadibandingkanke data set asal. • Satupendekatanadalahmenggantikansekumpulanfiturawaldenganfiturcampuranygbaru. Sebagaicontoh, jikacontoh-contohdalam data set mempunyai 2 fitur, tinggi-orangdanberat-orang, memungkinkanuntukbeberapaaplikasidi domain kedokteranuntukmenggantikan 2 fiturini, denganhanyasatu, BMI (body-mass-index), ygmanaadalahproporsihasilbagidari 2 fiturawal.
Perbandingankeseluruhandidasarkanatas parameter-parameter berikutuntukanalisis: • Computing time Data yang lebihsederhanadiharapkanmereduksiwaktu yang diambiluntuk data mining. • Predictive/ descriptive accuracy Ukuraninimendominasibagikebanyakan model datamining, olehkarenamengukurseberapabaik data disimpulkandandigeneralisirkedalamsuatu model. • Representation of the data mining model. Kesederhanaanrepresentasi, biasanyadiperolehdenganreduksi data, seringberakibatbahwasannyasuatu model dapatlebihbaikdimengerti. Kesederhanaandaripemodelandanhasil lain bergantungpadarepresentasinya. Olehkarenaitu, jikakesederhanaandarirepresentasimeningkat, penurunanakurasirelatifkecilmungkindapatditoleransi.
Hal yang ideal adalahjikadapatmereduksiwaktu, meningkatkanakurasidanrepresentasisederhanapadawaktuygsama, menggunakanreduksidimensi. Namuntidakadametodereduksi data ygtunggaldapat paling cocokuntuksemuaaplikasi. • Keputusantentangpemilihanmetodeseleksididasarkanataspengetahuanygadatentangsuatuaplikasi (relevant data, noise data, meta-data, fiturygberhubungan), dan constraint waktuygdimintauntuksolusiakhir.
Feature Reduction • Padadasarnya, kitamemilihfiturygrelevanpadaaplikasi data-mining agar supayamencapaihasil yang maksimumdenganukurandanusahapemrosesan minimum. Suatuprosesreduksifiturharusmenghasilkan: • Data yang lebihkecilsehinggaalgoritma data-mining dapatmempelajarilebihcepat • Akurasidariproses data-mining lebihtinggisehingga model dapatmengeneralisasilebihbaikdari data • Hasilsederhanadariproses data-mining sehinggamerekalebihmudahuntukmengertidanmenggunakan • Fiturlebihkecilsehinggarentetanberikutnyadarikumpulan data, suatupenghematandapatdibuatdenganmenghilangkanredundansiataufitur yang tidakrelevan
Duatugasstandardikaitkandenganproduksikumpulanfitur, danmerekadiklasifikasikansebagai: • Feature selection – berdasarpadapengetahuandari domain aplikasidantujuan-tujuandariusaha mining, human analyst mungkinmemilihbagiandarifiturygditemukandi data set awal. Prosesdariseleksifiturdapat manual ataudidukungolehbeberapaprosedureotomatis • Feature composition – transformasi data ygdapatmempunyaipengaruhygkuatmengejutkanatashasilmetode data-mining. Dalampengertianini, komposisidarifituradalahfaktorpenentu yang lebihbesardalamkualitas hasil2 data-mining dariteknik mining khusus.
Feature Selection • Perbedaaanmetoda-metodapemilihanfiturakanmemberikanperbedaan data set tereduksi, dansecara global mengklasifikasikanseluruhmetodainimenjadi 2: algoritmafeature-rangkingdanalgoritmaminimum subset. • Algoritma feature-rangking. • Daftarfiturterurutygdisusunmenurutukuranevaluasiukurankhusus. Suatuukurandapatdigunakanatasakurasi data ygtersedia, konsistensi, isiinformasi, jarakantarcontohdanterakhir, secarastatistikbergantungantarafitur-fitur. • Algoritmainitidakmemberitahukanapakahkumpulanfitur minimum untukanalisalebihlanjut; merekamengindikasikanrelevansifiturdibandingpada yang lainnya. • Algoritma subset minimum • Mendapatkansubset fitur minimum dantidakadaperbedaandibuatdiantarafitur-fiturdalam subset semuamampunyairangkingygsama. • Fitur-fiturdalam subset relevanbagiproses mining; yglainnyatidakrelevan. • Di keduajenisalgoritmaini, pentinguntukmembangunskemafitur-evaluasi: caradimanafiturdievaluasidankemudiandirangking, atauditambahkanke subset terpilih.
Seleksifitursecaraumumdapatdigambarkansebagaimasalahpencarian, dengansetiap state di area pencariankhusus subset darifiturygmungkin. Jika, suatu data set mempunyai 3 fitur {A1, A2, A3}, danprosesseleksifitur-fitur, keberadaanfiturdikodekan 1 dankeabsenannyadengan 0, sehinggaada 23 subset reduksifiturdikodekandengan {0, 0, 0}. {1, 0, 0}, { 0,1, 0}, {0, 0, 1}, {1, 1, 0}, {1, 0, 1}, {0, 1, 1}, dan {1, 1, 1}. Masalahseleksifituradalahrelatifsepelehjikaruangpencariankecil, olehkarenakitadapatmenganalisaseluruh subset dibeberapaperintahdansuatupencarianakanlengkapdalamwaktusingkat. • Namunpencarianbiasanya 2Ndimanajumlahdimensi N diaplikasi data-mining adalahbesar (N>20). Exhaustive search dariseluruh subset fitursangatseringdigantikandenganprosedur heuristic search. Penggunaanpengetahuanmasalah, prosedur-prosedurinimenemukan subset fitur yang memperbaikilebihlanjutmeningkatkankualitasprosesdata mining. • Tujuanseleksifituradalahmenemukan subset fiturdenganperforma data mining dapatdibandingkanpadakumpulanfiturutuh.
Aplikasiseleksifiturdanreduksidimensi data membantuseluruhfaseproses data mining untukpenemuanpengetahuanygberhasildilakukan. • Dimulaipadafase preprocessing, tetapidibeberapakesempatan, seleksifiturdanreduksiadalahbagiandarialgoritma data-mining, meskipundiadiaplikasikandipostprocessinguntukevaluasidankonsulidasihasilygdicapailebihbaik.
Entropy Measure for Ranking Features • Suatumetodauntukseleksiunsupervisedfiturataumerangkingberdasarkanukuran entropy adalahteknikygrelatifsederhana; tapi dg jumlahfituryang besarmenambahkankekomplekannyasecarasignifikan . • Asumsidasaradalahsemuacontohdiberikansebagaivektortanpaadanyaklasifikasidari output sample. • Pendekatandidasarkanatasobservasipembuanganfitur yang tidakrelevan, fiturredundan,ataukeduanyadarikemungkinanygtidakmengubahkarakteristik data set. • Algoritmadidasarkanatasukuransimilarity S yang berbandingterbalikdenganjarak D antaradua n-dimensional sample. Ukuranjarak D kecil, dekatdengancontoh, danyang besaruntukperbedaanpasangan.
, namun sering digunakan konstanta • Ada 2 formula ygdipakaiuntukmengukur similarity terhadapfitur: data numerikdan non numerik (kategori). • Data numerik: Similarity (S) dimana: e=2.7183; Namunseringdigunakansebagaikonstanta Dan ukuranjarak D didapatkan:
Data non-numerik Di mana |xij=xjk| adalah 1 jikaxij=xjk, dansebaliknya 0. Jumlah variable adalah n. Data set dgn 3 fiturkategori Tabelukuran similarity Sijdiantara samples
Nilai Entropy yang digunakanuntukrangkingfituradalah: • Kedekatansuatufiturditunjukansemakinkecilnyaperbedaannilai entropy.
Agenda selanjutnya • Principal Component Analysis • Values Reduction • Feature Discretization
DATA REDUCTION PCA ,VALUES REDUCTION & FEATURE DISCRETIZATION
1. Principal Component Analysis (PCA) • Metodastatistik yang populeruntukmereduksidimensi data set yang besaradalahmetodeKarhunen-Loeve (K-L), disebutjuga Principal Component Analysis • Merupakanmetodapentranformasian data set awalygdirepresentasikan vector sample menjadikumpulan vector sample barudengandimensiygdidapatkan. • Tujuannyamemfokuskaninformasiterhadapperbedaan-perbedaandiantara sample menjadidimensiyang kecil.
Idedasar, dideskripsikansebagaiberikut: sekumpulan vector sampelberdimensi n X={x1, x2, x3, …, xm} ditransformasikankehimpunan lain Y = {y1, y2, y3, …, ym} dengandimensiygsama, tetapi y ,memiliki property yg paling informatifisinyadisimpandalamdimensipertama. • Transformasididasarkanatasasumsibahwainformasiygtinggiberhubungandenganvarianygtinggi. Sehinggajikamereduksikesatudimensidarimatrik X kematrik Y dapatdituliskan: Y= A ∙ X, pemilihan A sehingga Y mempunyaivarianterbesardari data set ygdiberikan. Dimensitunggaldari Y diperolehdaritransformasiinidisebut first principal component.
Makauntukmenentukan matrix A, dihitungdahulu covariance matrix S sebagaitahapawaldaritransformasifitur. • Dimana:
Eigen values & Eigen vector • Eigenvaluesdari matrix covariance S : λ1 ≥ λ2 ≥… λn ≥0 • Eigenvectors v1,v2,… vnberhubungandenganeigenvalues λ1 ≥ λ2 ≥… λndandisebut principal axes. • Kriteriauntukseleksifiturdidasarkanatasrasiopenjumlahaneigenvalueterbesar S kenilaiseluruhS, sehinggadapatdituliskan: • Ketikanilairasio R cukupbesar (lebihbesardarinilai threshold), seluruhanalisadari subset atasfitur m merepresentasikanestimasiawalygbaikdari n dimensiruang.
Nilaieigen value diperolehdenganmengetahuinilai covariance sehinggadituliskan: det (S – λ) = 0 ; dimana S= matrix covariance • Sedangkannilaieigen vector (v) diperolehdenganrumusanberikut: λv = Sv • Sebagaiilustrasicontohbisadilihatberikut.
Contoh lain: Covariance Eigenvaluedari data
Dengannilai threshold R*=0.95, makadipilih 2 fiturpertama, sebab: R = (2.91082 + 0.92199)/(2.91082 + 0.92122 + 0.14735 + 0.02061) = 0.958 > 0.95, sehingga2 fiturterseburcukupmendeskripsikankarakteristik data set.
2. Value Reduction • Suatureduksijumlahnilai-nilaidiskrituntuk figure ygdiberikandidasarkanatasteknikdiskritisasi. • Tujuannnya : mendiskritisasinilaifiturkontinumenujusejumlahkecil interval, ygmanasetiap interval dipetakkanke symbol diskrit. • Keuntungan: diskripsi data disederhanakansehingga data danhasil-hasil data-mining mudahdimengerti, jugakebanyakanteknikdata mining dapatdiaplikasikandengannilaifiturdiskrit.
Cut points? • Sebagaicontoh: suatuumurseseorang, diberikandiawalproses data-mining sebagainilaikontinu (antara 0 dan 150 tahun) mungkindiklasifikasikanmenjadi segmen2 kategori: anak, remaja, dewasa, setengahtua, tua. Titik2 batasdidefinisikansecarasubyektif. age 0 150 Child Adolescent Adult Middle-age Elderly
Pengelompokannilai-nilaifitur • Diberikansuatufiturmempunyaisuatujaraknilai-nilainumerik, dannilai-nilaiinidapatdiurutkandariygterkecilkeygterbesar. Hal inimenjadikankonseppenempatanpembagiannilai-nilaikedalamkelompok-kelompokdengannilai-nilaiygdekat. • Seluruhnilaidalamkelompokakandigabungkekonseptunggalygdirepresentasikandengannilaitunggal, biasanya mean atau median darinilai-nilaitersebut. • Nilaimean/ mode biasanyaefektifuntukjumlahnilaiyglumayanbesar. Namunbilakecil/ sedikit, batasandarisetiapkelompokdapatmenjadikandidatuntukrepresentasinya.
Sebagaicontoh, jikadiberikanfitur f {3, 2, 1, 5, 4, 3, 1, 7, 5, 3} kemudiansetelah sorting didapatkan : {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} • Makasekarang, mungkindipecahjumlahkumpulannilaikedalam 3 bins {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} BIN1 BIN2 BIN3
{1, 1, 2, 3, 3, 3, 4, 5, 5, 7} BIN1 BIN2 BIN3 • Langkahberikutnya, perbedaanrepresentasidapatdipilihuntuksetiapbin. • Berdasarkan mode dalam bin, makanilai-nilaibaru: {1, 1, 1, 3, 3, 3, 5, 5, 5, 5} BIN1 BIN2 BIN3 • Berdasarkan mean {1.33, 1.33, 1.33, 3, 3, 3, 5.25, 5.25, 5.25, 5.25} BIN1 BIN2 BIN3 • Berdasarkankedekatandenganbatasannilaidalam bin: {1, 1, 2, 3, 3, 3, 4, 4, 4, 7} BIN1 BIN2 BIN3
Masalahutamadarimetodainiadalahmenemukanbatasanterbaikuntuk bin. Makaprosedurenyaterdirilangkah-langkahberikut: • Urutkanseluruhnilaibagifiturygdiberikan • Assign denganperkiraansejumlahnilai-nilaiygberdekatansetiap bin • Pindahkanelemenbatasdarisatu bin keberikutnya (atausebelumnya) ketikamereduksi error jarakkeseluruhan (ER)
Contoh: • Kumpulan nilaidarifitur f adalah {5, 1, 8, 2, 2, 9, 2, 1, 8, 6}. Split kedalam 3 bin (k=3), dimana bin2 akandirepresentasikandengan mode-nya. • Sorted nilai2 fitur f : { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9} • Inisialisasi bin (k=3) BIN1 BIN2 BIN3 (i) Modes untukketiga bin terpilih : {1, 2, 8}. Maka total error: ER = 0 + 0 + 1+ 0 + 0 + 3 + 2 + 0 + 0 + 1 = 7 (ii) Setelahmemindahkan 2 elemendari BIN2 ke BIN1 dan 1 elemendari BIN3 ke BIN2, makadiperoleh ER yglebihkecildandistribusiakhirmenjadi: Final bins f= { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9} BIN1 BIN2 BIN3 • Modesnya: {2, 5, 8}, dan total error ER diminimisasimenjadi 4. • Distribusiakhir, denganmedian-median sebagai representative akandidaptkanmasalahreduksinilai.
3. FEATURE DISCRETIZATION • ChiMerge: suatualgoritmadiskritisasi yang menganalisikualitas interval atasfiturygdiberikandenganmenggunakanstatistik X2. • Algoritmamenentukankesamaanantaradistribusi data dalam interval ygberdekatanberdasarkanklasifikasi output sample. • Jikakesimpulandari X2 test iniadalah class output ygindependenmaka interval harusdigabungkan, sebaliknyajikaperbedaannyaterlalubesarmakatidakdigabung.
AlgoritmaChiMergeberisi 3 tahapuntukdiskritisasi: • Sort data atasfiturygdiberikansecaraurutnaik • Definisikaninisialawal interval sehinggasetiapnilaidalam interval terpisah • Ulangihinggatidakada x2 dari 2 interval ygberdekatanlebihkecildarinilai threshold.
Dimana: • k= jumlahkelas • Aij=jumlahcontohdalam interval ke-i, kelaske-j • Eij =frekuensiygdiharapkandariAij, ygmanadihitung (Ri.Cj)/N • Ri= jumlahcontohdalam interval ke –i • Cj = jumlahcontohdalamkelaske –j • N= jumlah total daricontoh
Berdasarkantabeldiatasdidapatkan: E11 = 2/2 = 1 E12 0/2 ≈ 0.1 E21 = 2/2 = 1 dan E22 = 0/2 ≈ 0.1 X2 =(1-1)2/1+(0-0.1)2/0.1 +(1-1)2/1 +(0-0.1)2/0.1 = 0.2 Olehkarenalebihkecildari threshold (2.706 untukdistribusi dg α =0.1, makadilakukanpenggabungan
E11 = 12/5 = 2.4 E12 = 3/5 = 0.6 E21 = 8/5 = 1.6 E22 = 2/5 = 0.4 X2 = 0.834
E11 = 2.78, E12 = 2.22, E21 = 2.22, E22 = 1.78, danχ2 = 2.72 Olehkarenadihasilkan > dari threshold (2.706), makatidakdiperlukanlagipenggabungan