1 / 39

DATA REDUCTION

DATA REDUCTION. DIMENSIONS OF LARGE DATA SETS. Pemilihan representasi data, seleksi , reduksi atau transformasi fitur adalah mungkin isu yang penting menentukan kualitas solusi data-mining.

kaelem
Download Presentation

DATA REDUCTION

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DATA REDUCTION

  2. DIMENSIONS OF LARGE DATA SETS • Pemilihanrepresentasi data, seleksi, reduksiatautransformasifituradalahmungkinisu yang pentingmenentukankualitassolusi data-mining. • Selainpengaruhalamidarialgoritma data-mining, diadapatmenentukanapakahmasalahdapatdipecahkanseluruhnya, ataubagaimanakekuatan model hasildari data mining. • Dalampraktek, jumlahfiturdapatsebanyakbeberaparatus. Jikakitamempunyaisedikitnyaratusancontohuntukanalisis, reduksidimensidibutuhkansupaya model dapatdiandalkanuntukdigaliataumenjadibeberapapenggunaandalampraktek. • Di lain pihak, data ygberlebih, sebabdimensiygtinggi , dapatmembuatbeberapaalgoritma data-mining tidakdapatdiaplikasikan,  solusinyareduksidimensi data.

  3. Tigadimensiutamadari data set ygdiprosesdiawal, biasanyadirepresentasikandalambentuk plain files yaitukolom (fitur), baris (kasusataucontoh-contoh), dannilaidarifitur. • Olehkarenaitu, tigaoperasidasardariprosesreduksi data yaitudelete kolom, delete baris, dankurangijumlahnilaidisuatukolom (penghalusansuatufitur). Operasi-operasiiniberusahamemeliharakarakteristik data asaldenganpenghapusan data ygnonesensial.

  4. Adaoperasi lain ygmereduksidimensi-dimensi, tetapi data barutidakdapatmengenaliketikadibandingkanke data set asal. • Satupendekatanadalahmenggantikansekumpulanfiturawaldenganfiturcampuranygbaru. Sebagaicontoh, jikacontoh-contohdalam data set mempunyai 2 fitur, tinggi-orangdanberat-orang, memungkinkanuntukbeberapaaplikasidi domain kedokteranuntukmenggantikan 2 fiturini, denganhanyasatu, BMI (body-mass-index), ygmanaadalahproporsihasilbagidari 2 fiturawal.

  5. Perbandingankeseluruhandidasarkanatas parameter-parameter berikutuntukanalisis: • Computing time Data yang lebihsederhanadiharapkanmereduksiwaktu yang diambiluntuk data mining. • Predictive/ descriptive accuracy Ukuraninimendominasibagikebanyakan model datamining, olehkarenamengukurseberapabaik data disimpulkandandigeneralisirkedalamsuatu model. • Representation of the data mining model. Kesederhanaanrepresentasi, biasanyadiperolehdenganreduksi data, seringberakibatbahwasannyasuatu model dapatlebihbaikdimengerti. Kesederhanaandaripemodelandanhasil lain bergantungpadarepresentasinya. Olehkarenaitu, jikakesederhanaandarirepresentasimeningkat, penurunanakurasirelatifkecilmungkindapatditoleransi.

  6. Hal yang ideal adalahjikadapatmereduksiwaktu, meningkatkanakurasidanrepresentasisederhanapadawaktuygsama, menggunakanreduksidimensi. Namuntidakadametodereduksi data ygtunggaldapat paling cocokuntuksemuaaplikasi. • Keputusantentangpemilihanmetodeseleksididasarkanataspengetahuanygadatentangsuatuaplikasi (relevant data, noise data, meta-data, fiturygberhubungan), dan constraint waktuygdimintauntuksolusiakhir.

  7. Feature Reduction • Padadasarnya, kitamemilihfiturygrelevanpadaaplikasi data-mining agar supayamencapaihasil yang maksimumdenganukurandanusahapemrosesan minimum. Suatuprosesreduksifiturharusmenghasilkan: • Data yang lebihkecilsehinggaalgoritma data-mining dapatmempelajarilebihcepat • Akurasidariproses data-mining lebihtinggisehingga model dapatmengeneralisasilebihbaikdari data • Hasilsederhanadariproses data-mining sehinggamerekalebihmudahuntukmengertidanmenggunakan • Fiturlebihkecilsehinggarentetanberikutnyadarikumpulan data, suatupenghematandapatdibuatdenganmenghilangkanredundansiataufitur yang tidakrelevan

  8. Duatugasstandardikaitkandenganproduksikumpulanfitur, danmerekadiklasifikasikansebagai: • Feature selection – berdasarpadapengetahuandari domain aplikasidantujuan-tujuandariusaha mining, human analyst mungkinmemilihbagiandarifiturygditemukandi data set awal. Prosesdariseleksifiturdapat manual ataudidukungolehbeberapaprosedureotomatis • Feature composition – transformasi data ygdapatmempunyaipengaruhygkuatmengejutkanatashasilmetode data-mining. Dalampengertianini, komposisidarifituradalahfaktorpenentu yang lebihbesardalamkualitas hasil2 data-mining dariteknik mining khusus.

  9. Feature Selection • Perbedaaanmetoda-metodapemilihanfiturakanmemberikanperbedaan data set tereduksi, dansecara global mengklasifikasikanseluruhmetodainimenjadi 2: algoritmafeature-rangkingdanalgoritmaminimum subset. • Algoritma feature-rangking. • Daftarfiturterurutygdisusunmenurutukuranevaluasiukurankhusus. Suatuukurandapatdigunakanatasakurasi data ygtersedia, konsistensi, isiinformasi, jarakantarcontohdanterakhir, secarastatistikbergantungantarafitur-fitur. • Algoritmainitidakmemberitahukanapakahkumpulanfitur minimum untukanalisalebihlanjut; merekamengindikasikanrelevansifiturdibandingpada yang lainnya. • Algoritma subset minimum • Mendapatkansubset fitur minimum dantidakadaperbedaandibuatdiantarafitur-fiturdalam subset semuamampunyairangkingygsama. • Fitur-fiturdalam subset relevanbagiproses mining; yglainnyatidakrelevan. • Di keduajenisalgoritmaini, pentinguntukmembangunskemafitur-evaluasi: caradimanafiturdievaluasidankemudiandirangking, atauditambahkanke subset terpilih.

  10. Seleksifitursecaraumumdapatdigambarkansebagaimasalahpencarian, dengansetiap state di area pencariankhusus subset darifiturygmungkin. Jika, suatu data set mempunyai 3 fitur {A1, A2, A3}, danprosesseleksifitur-fitur, keberadaanfiturdikodekan 1 dankeabsenannyadengan 0, sehinggaada 23 subset reduksifiturdikodekandengan {0, 0, 0}. {1, 0, 0}, { 0,1, 0}, {0, 0, 1}, {1, 1, 0}, {1, 0, 1}, {0, 1, 1}, dan {1, 1, 1}. Masalahseleksifituradalahrelatifsepelehjikaruangpencariankecil, olehkarenakitadapatmenganalisaseluruh subset dibeberapaperintahdansuatupencarianakanlengkapdalamwaktusingkat. • Namunpencarianbiasanya 2Ndimanajumlahdimensi N diaplikasi data-mining adalahbesar (N>20). Exhaustive search dariseluruh subset fitursangatseringdigantikandenganprosedur heuristic search. Penggunaanpengetahuanmasalah, prosedur-prosedurinimenemukan subset fitur yang memperbaikilebihlanjutmeningkatkankualitasprosesdata mining. • Tujuanseleksifituradalahmenemukan subset fiturdenganperforma data mining dapatdibandingkanpadakumpulanfiturutuh.

  11. Aplikasiseleksifiturdanreduksidimensi data membantuseluruhfaseproses data mining untukpenemuanpengetahuanygberhasildilakukan. • Dimulaipadafase preprocessing, tetapidibeberapakesempatan, seleksifiturdanreduksiadalahbagiandarialgoritma data-mining, meskipundiadiaplikasikandipostprocessinguntukevaluasidankonsulidasihasilygdicapailebihbaik.

  12. Entropy Measure for Ranking Features • Suatumetodauntukseleksiunsupervisedfiturataumerangkingberdasarkanukuran entropy adalahteknikygrelatifsederhana; tapi dg jumlahfituryang besarmenambahkankekomplekannyasecarasignifikan . • Asumsidasaradalahsemuacontohdiberikansebagaivektortanpaadanyaklasifikasidari output sample. • Pendekatandidasarkanatasobservasipembuanganfitur yang tidakrelevan, fiturredundan,ataukeduanyadarikemungkinanygtidakmengubahkarakteristik data set. • Algoritmadidasarkanatasukuransimilarity S yang berbandingterbalikdenganjarak D antaradua n-dimensional sample. Ukuranjarak D kecil, dekatdengancontoh, danyang besaruntukperbedaanpasangan.

  13. , namun sering digunakan konstanta • Ada 2 formula ygdipakaiuntukmengukur similarity terhadapfitur: data numerikdan non numerik (kategori). • Data numerik: Similarity (S) dimana: e=2.7183; Namunseringdigunakansebagaikonstanta Dan ukuranjarak D didapatkan:

  14. Data non-numerik Di mana |xij=xjk| adalah 1 jikaxij=xjk, dansebaliknya 0. Jumlah variable adalah n. Data set dgn 3 fiturkategori Tabelukuran similarity Sijdiantara samples

  15. Nilai Entropy yang digunakanuntukrangkingfituradalah: • Kedekatansuatufiturditunjukansemakinkecilnyaperbedaannilai entropy.

  16. Agenda selanjutnya • Principal Component Analysis • Values Reduction • Feature Discretization

  17. DATA REDUCTION PCA ,VALUES REDUCTION & FEATURE DISCRETIZATION

  18. 1. Principal Component Analysis (PCA) • Metodastatistik yang populeruntukmereduksidimensi data set yang besaradalahmetodeKarhunen-Loeve (K-L), disebutjuga Principal Component Analysis • Merupakanmetodapentranformasian data set awalygdirepresentasikan vector sample menjadikumpulan vector sample barudengandimensiygdidapatkan. • Tujuannyamemfokuskaninformasiterhadapperbedaan-perbedaandiantara sample menjadidimensiyang kecil.

  19. Idedasar, dideskripsikansebagaiberikut: sekumpulan vector sampelberdimensi n X={x1, x2, x3, …, xm} ditransformasikankehimpunan lain Y = {y1, y2, y3, …, ym} dengandimensiygsama, tetapi y ,memiliki property yg paling informatifisinyadisimpandalamdimensipertama. • Transformasididasarkanatasasumsibahwainformasiygtinggiberhubungandenganvarianygtinggi. Sehinggajikamereduksikesatudimensidarimatrik X kematrik Y dapatdituliskan: Y= A ∙ X, pemilihan A sehingga Y mempunyaivarianterbesardari data set ygdiberikan. Dimensitunggaldari Y diperolehdaritransformasiinidisebut first principal component.

  20. Makauntukmenentukan matrix A, dihitungdahulu covariance matrix S sebagaitahapawaldaritransformasifitur. • Dimana:

  21. Eigen values & Eigen vector • Eigenvaluesdari matrix covariance S : λ1 ≥ λ2 ≥… λn ≥0 • Eigenvectors v1,v2,… vnberhubungandenganeigenvalues λ1 ≥ λ2 ≥… λndandisebut principal axes. • Kriteriauntukseleksifiturdidasarkanatasrasiopenjumlahaneigenvalueterbesar S kenilaiseluruhS, sehinggadapatdituliskan: • Ketikanilairasio R cukupbesar (lebihbesardarinilai threshold), seluruhanalisadari subset atasfitur m merepresentasikanestimasiawalygbaikdari n dimensiruang.

  22. Nilaieigen value diperolehdenganmengetahuinilai covariance sehinggadituliskan: det (S – λ) = 0 ; dimana S= matrix covariance • Sedangkannilaieigen vector (v) diperolehdenganrumusanberikut: λv = Sv • Sebagaiilustrasicontohbisadilihatberikut.

  23. Contoh lain: Covariance Eigenvaluedari data

  24. Dengannilai threshold R*=0.95, makadipilih 2 fiturpertama, sebab: R = (2.91082 + 0.92199)/(2.91082 + 0.92122 + 0.14735 + 0.02061) = 0.958 > 0.95, sehingga2 fiturterseburcukupmendeskripsikankarakteristik data set.

  25. 2. Value Reduction • Suatureduksijumlahnilai-nilaidiskrituntuk figure ygdiberikandidasarkanatasteknikdiskritisasi. • Tujuannnya : mendiskritisasinilaifiturkontinumenujusejumlahkecil interval, ygmanasetiap interval dipetakkanke symbol diskrit. • Keuntungan: diskripsi data disederhanakansehingga data danhasil-hasil data-mining mudahdimengerti, jugakebanyakanteknikdata mining dapatdiaplikasikandengannilaifiturdiskrit.

  26. Cut points? • Sebagaicontoh: suatuumurseseorang, diberikandiawalproses data-mining sebagainilaikontinu (antara 0 dan 150 tahun) mungkindiklasifikasikanmenjadi segmen2 kategori: anak, remaja, dewasa, setengahtua, tua. Titik2 batasdidefinisikansecarasubyektif. age 0 150 Child Adolescent Adult Middle-age Elderly

  27. Pengelompokannilai-nilaifitur • Diberikansuatufiturmempunyaisuatujaraknilai-nilainumerik, dannilai-nilaiinidapatdiurutkandariygterkecilkeygterbesar. Hal inimenjadikankonseppenempatanpembagiannilai-nilaikedalamkelompok-kelompokdengannilai-nilaiygdekat. • Seluruhnilaidalamkelompokakandigabungkekonseptunggalygdirepresentasikandengannilaitunggal, biasanya mean atau median darinilai-nilaitersebut. • Nilaimean/ mode biasanyaefektifuntukjumlahnilaiyglumayanbesar. Namunbilakecil/ sedikit, batasandarisetiapkelompokdapatmenjadikandidatuntukrepresentasinya.

  28. Sebagaicontoh, jikadiberikanfitur f {3, 2, 1, 5, 4, 3, 1, 7, 5, 3} kemudiansetelah sorting didapatkan : {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} • Makasekarang, mungkindipecahjumlahkumpulannilaikedalam 3 bins {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} BIN1 BIN2 BIN3

  29. {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} BIN1 BIN2 BIN3 • Langkahberikutnya, perbedaanrepresentasidapatdipilihuntuksetiapbin. • Berdasarkan mode dalam bin, makanilai-nilaibaru: {1, 1, 1, 3, 3, 3, 5, 5, 5, 5} BIN1 BIN2 BIN3 • Berdasarkan mean {1.33, 1.33, 1.33, 3, 3, 3, 5.25, 5.25, 5.25, 5.25} BIN1 BIN2 BIN3 • Berdasarkankedekatandenganbatasannilaidalam bin: {1, 1, 2, 3, 3, 3, 4, 4, 4, 7} BIN1 BIN2 BIN3

  30. Masalahutamadarimetodainiadalahmenemukanbatasanterbaikuntuk bin. Makaprosedurenyaterdirilangkah-langkahberikut: • Urutkanseluruhnilaibagifiturygdiberikan • Assign denganperkiraansejumlahnilai-nilaiygberdekatansetiap bin • Pindahkanelemenbatasdarisatu bin keberikutnya (atausebelumnya) ketikamereduksi error jarakkeseluruhan (ER)

  31. Contoh: • Kumpulan nilaidarifitur f adalah {5, 1, 8, 2, 2, 9, 2, 1, 8, 6}. Split kedalam 3 bin (k=3), dimana bin2 akandirepresentasikandengan mode-nya. • Sorted nilai2 fitur f : { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9} • Inisialisasi bin (k=3) BIN1 BIN2 BIN3 (i) Modes untukketiga bin terpilih : {1, 2, 8}. Maka total error: ER = 0 + 0 + 1+ 0 + 0 + 3 + 2 + 0 + 0 + 1 = 7 (ii) Setelahmemindahkan 2 elemendari BIN2 ke BIN1 dan 1 elemendari BIN3 ke BIN2, makadiperoleh ER yglebihkecildandistribusiakhirmenjadi: Final bins  f= { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9} BIN1 BIN2 BIN3 • Modesnya: {2, 5, 8}, dan total error ER diminimisasimenjadi 4. • Distribusiakhir, denganmedian-median sebagai representative akandidaptkanmasalahreduksinilai.

  32. 3. FEATURE DISCRETIZATION • ChiMerge: suatualgoritmadiskritisasi yang menganalisikualitas interval atasfiturygdiberikandenganmenggunakanstatistik X2. • Algoritmamenentukankesamaanantaradistribusi data dalam interval ygberdekatanberdasarkanklasifikasi output sample. • Jikakesimpulandari X2 test iniadalah class output ygindependenmaka interval harusdigabungkan, sebaliknyajikaperbedaannyaterlalubesarmakatidakdigabung.

  33. AlgoritmaChiMergeberisi 3 tahapuntukdiskritisasi: • Sort data atasfiturygdiberikansecaraurutnaik • Definisikaninisialawal interval sehinggasetiapnilaidalam interval terpisah • Ulangihinggatidakada x2 dari 2 interval ygberdekatanlebihkecildarinilai threshold.

  34. Dimana: • k= jumlahkelas • Aij=jumlahcontohdalam interval ke-i, kelaske-j • Eij =frekuensiygdiharapkandariAij, ygmanadihitung (Ri.Cj)/N • Ri= jumlahcontohdalam interval ke –i • Cj = jumlahcontohdalamkelaske –j • N= jumlah total daricontoh

  35. Contohilustrasi

  36. Berdasarkantabeldiatasdidapatkan: E11 = 2/2 = 1 E12 0/2 ≈ 0.1 E21 = 2/2 = 1 dan E22 = 0/2 ≈ 0.1 X2 =(1-1)2/1+(0-0.1)2/0.1 +(1-1)2/1 +(0-0.1)2/0.1 = 0.2 Olehkarenalebihkecildari threshold (2.706 untukdistribusi dg α =0.1, makadilakukanpenggabungan

  37. E11 = 12/5 = 2.4 E12 = 3/5 = 0.6 E21 = 8/5 = 1.6 E22 = 2/5 = 0.4 X2 = 0.834

  38. E11 = 2.78, E12 = 2.22, E21 = 2.22, E22 = 1.78, danχ2 = 2.72 Olehkarenadihasilkan > dari threshold (2.706), makatidakdiperlukanlagipenggabungan

More Related