500 likes | 903 Views
Data Mining III Asosiasi. Mata Kuliah Data Warehouse Universitas Darma Persada Oleh Adam Arif B 2011. Data Mining - Asosiasi. Market basket analysis Tool untuk menemukan pengetahuan berdasarkan hubungan asosiasi dua set data. Data Mining - Asosiasi.
E N D
Data Mining IIIAsosiasi Mata Kuliah Data Warehouse Universitas Darma Persada Oleh Adam Arif B 2011 Data Mining-Aturan Asosiasi-AAB
Data Mining - Asosiasi • Market basket analysis • Tool untuk menemukan pengetahuan berdasarkan hubungan asosiasi dua set data Data Mining-Aturan Asosiasi-AAB
Data Mining - Asosiasi • Bila diberi data transaksi item belanja dari 14 pengunjung pada swalayan UNSADA Data Mining-Aturan Asosiasi-AAB
Data Mining - asosiasi • Informasi apa yang bisa diperoleh dari data tersebut? • Pengetahuan apa yang tersimpan dalam data di atas? Data Mining-Aturan Asosiasi-AAB
Istilah-istilah • Data di atas merupakan data historis, data masa lalu • data latihan/training data • data data pengalaman • Algoritma aturan asosiasi akan menggunakan data latihan ini untuk menemukan pengetahuan sesuai dengan definisi data mining • Pengetahuan yang dihasilkan adalah mengetahui item-item belanja yang sering dibeli secara bersamaan Data Mining-Aturan Asosiasi-AAB
Istilah-istilah (lanj) • Aturan asosiasi yang berbentuk “if….then….” atau “jika….maka”, merupakan pengetahuan yang dihasilkan dari fungsi aturan asosiasi. • Item barang yang dibeli atau barang yang menjadi objek kegiatan belanja. • Pada swalayan unsada terdapat 7 jenis item yaitu (urut abjad) asparagus, beans, brocolli, corn, green peppers, squash dan tomatoes. Data Mining-Aturan Asosiasi-AAB
Istilah-istilah (lanj) • Himpunan item dilambangkan dengan I merupakan himpunan dari semua jenis item yang akan dibahas. • Persamaan himpunan item Persamaan 1: I = {asparagus, beans, brocolli, corn, green peppers, squash, tomatoes} • Himpunan item yang dibeli pengunjung ke–i disebut transaksi ke – i • Dilambangkan Ti Data Mining-Aturan Asosiasi-AAB
Istilah-istilah (lanj) Persamaan 2: • T1 = {brocolli, green, peppers, corn} • T2 = {Asparagus, squash, corn} • ……… • T14 = {corn, green, peppers, tomatoes, beans, brocolli} Data Mining-Aturan Asosiasi-AAB
Persamaan 3: • Himpunan seluruh transaksi dilambangkan dengan D sehingga persamaan 3 ini menjadi: D = {T1, T2, ….., T14} Data Mining-Aturan Asosiasi-AAB
Istilah-istilah Persamaan 4 implikasi “jika A, maka B” atau “ A B ” • A disebut anteseden atau pendahulu • B disebut konsekuen atau pengikut Aturan asosiasi yang dihasilkan nanti harus memenuhi dua sifat • A maupun B adalah himpunan bagian murni dari I Persamaan 5 yaitu A,B I Data Mining-Aturan Asosiasi-AAB
Istilah-istilah 2. A dan B adalah dua himpunan yang saling lepas. Sehingga disimbolkan pada persamaan 6: A B = ø Salah satu ukuran kinerja bagi aturan asosiasi “A B ” adalah besaran support (dukungan) yang dilambangkan dengan s(A B). Dan didefinisikan sebagaimana di persamaan 7. Data Mining-Aturan Asosiasi-AAB
Istilah-istilah (lanj) • Persamaan 7 • Ukuran kinerja lain bagi aturan asosiasi “A B “ adalah besaran support yang dilambangkan dengan conf (A B ) dan didefinisikan sebagai Persamaan 8 Data Mining-Aturan Asosiasi-AAB
Jumlah transaksi yang mengandung A Jumlah transaksi yang mengandung B B A Istilah-istilah (lanj) • Persamaan 8 • Itemset suatu himpunan yang beranggotakan sebagian atau seluruh item yang menjadi anggota I. Data Mining-Aturan Asosiasi-AAB
Istilah-istilah (lanj) • Contoh dari itemset adalah {Asparagus} atau {Asparagus, Bean}, atau {Asparagus, Beans, Squash} • Itemset yang beranggotakan k buah item disebut k-itemset. Data Mining-Aturan Asosiasi-AAB
Istilah-istilah (lanj) • Himpunan {Asparagus} adalah suatu itemset. Lebih spesifik lagi 1-itemset karena hanya beranggotakan satu buah item saja • Himpunan {Asparagus, Beans} adalah suatu itemset. Lebih spesifik lagi 2-itemset karena hanya beranggotakan dua buah item saja • Himpunan {Asparagus, beans, squash} adalah suatu itemset. Lebih spesifik lagi 3-itemset karena beranggotakan tiga buah item saja Data Mining-Aturan Asosiasi-AAB
Istilah-istilah (lanj) • Besaran frekuensi itemset mengukur berapa kali sebuah itemset muncul sebagai bagian atau keseluruhan transaksi yang menjadi anggota daftar transaksi D. Contoh: 1. Frekuensi itemset {asparagus} adalah 6 karena himpunan ini menjadi bagian dari enam transaksi (lihat data transaksi slide 3), yaitu T2, T5, T6, T9, T12 dan T13 Data Mining-Aturan Asosiasi-AAB
Istilah-istilah (lanj) 2. Frekuensi itemset {asparagus, beans} adalah 5 karena himpunan ini menjadi bagian dari lima transaksi , yaitu T5, T6, T9, T12 dan T13 3. Frekuensi itemset {asparagus, beans, squash} adalah 4 karena himpunan ini menjadi bagian dari empat transaksi (slide 3), yaitu T6, T9, T12 dan T13 Data Mining-Aturan Asosiasi-AAB
Istilah-istilah (lanj) • Itemset sering/frequent itemset suatu itemset yang memiliki frekuensi itemset minimal sebesar bilangan yang ditetapkan. Contoh bila kita tetapkan = 4, maka: 1. Itemset {asparagus, beans, squash} termasuk itemset yang sering karena memiliki frekuensi itemset yang telah melebihi atau minimal sebesar = 4. Data Mining-Aturan Asosiasi-AAB
Istilah-istilah (lanj) 2. Itemset {squash, tomatoes} tidak termasuk itemset sering karena memiliki frekuensi itemset sebesar 3, artinya masih di bawah nilai yang ditetapkan Itemset sering yang memiliki k buah anggota disebut k-itemset sering. Misalnya itemset {asparagus, beans, squash} termasuk 3 itemset sering karena himpunan ini termasuk itemset sering dan memiliki 3 anggota. Himpunan dari seluruh k-itemset dilambangkan dengan Fk. Data Mining-Aturan Asosiasi-AAB
Istilah-istilah (lanj) • Aturan asosiasi secara ringkas digambarkan sbb: • Berawal dari data latihan yang tersedia (lihat slide 3) • Data latihan diolah dengan menggunakan algoritma atuan asosiasi. • Masalah aturan asosiasi berakhir dengan dihasilkannya pengetahuan yang direpresentasikan dalam bentuk diagram yang disebut aturan asosiasi. Data Mining-Aturan Asosiasi-AAB
Prototip masalah aturan asosiasi dan pengetahuan yang dihasilkan “jika membeli asparagus, maka membeli beans” Dapat diartikan: • Item asparagus mempunyai kecenderungan untuk dibeli bersama-sama dengan item beans, atau • Pengunjung toko unsada yang membeli asparagus mempunyai kecenderungan untuk juga membeli beans • Dan lain-lain. (misalnya…?) Data Mining-Aturan Asosiasi-AAB
Prototip masalah aturan asosiasi dan pengetahuan yang dihasilkan • Dengan adanya prototip ,masalah aturan asosiasi kita dapat mengetahui definisi masalah aturan asosiasi • Dengan pembahasan interpretasi pengetahuan yang dihasilkan oleh fungsi mayor aturan asosiasi, kita bisa mengetahui cara memaknai pengetahuan yang dihasilkan dari masalah ini. Data Mining-Aturan Asosiasi-AAB
Algoritma aturan asosiasiMarket Basket Analysis (MBA) Hasil pembahasan sebelumnya dapat disimpulkan menjadi: • Data historis merupakan data penting sebagai data latihan/training data • Data tersebut akan dijadikan input bagi suatu algoritma yang saat ini belum kita ketahui algoritmnya • Sebagai keluaran algoritma yang saat ini belum kita ketahui jenisnya , kita akan memperoleh pengetahuan yang secara sederhana dapat direpresentasikan dalam bentuk “jika…., maka….” Data Mining-Aturan Asosiasi-AAB
langkah umum Market Basket Analysis (MBA) • Menetapkan besaran (itemset sering), nilai minimum besaran support dan besaran confidence yang diinginkan untuk dipenuhi oleh aturan asosiasi yang ingin dihasilkan • Menetapkan semua itemset sering, yaitu itemset yang memiliki frekuensi itemset minimal sebesar bilangan yang telah ditetapkan sebelumnya • Dari semua itemset sering, hasilkan aturan asosiasi yang memenuhi nilai minimum support dan confidence (yang telah ditetapkan) Data Mining-Aturan Asosiasi-AAB
Langkah dalam MBA-1 • Langkah pertama menetapkan besaran dan nilai minimum support dan confidence , misalnya = 4, maka min (support) = 30% dan min (confidence) = 70% • Langkah kedua Menyusun semua itemset sering, yaitu itemset yang memiliki frekuensi itemset minimal sebesar bilangan = 4 yang telah ditetapkan di langkah pertama. Data Mining-Aturan Asosiasi-AAB
Langkah dalam MBA-2 • Kita mulai dari pembahasan setiap 1-itemset sbb: {asparagus}, {beans}, {brocolli}, {corn}, {green peppers}, {squash} dan {tomatoes} adalah 1-itemset sering, karena itemset ini berhasil muncul melebihi kali, atau 4 kali dalam daftar D, sehingga bisa dituliskan sebagai berikut: F1 ={{asparagus}, {beans}, {brocolli}, {corn}, {green peppers}, {squash} {tomatoes}} Data Mining-Aturan Asosiasi-AAB
Langkah dalam MBA-2 (lanj) • Dilanjutkan dengan 2-itemset 1. {asparagus,beans}, {asparagus,brocoli},{asparagus,corn},{asparagus, green peppers}, {asparagus, squash}, {asparagus, tomatoes}, {beans, corn},{beans, green peppers}, {beans, squash}, {beans, tomatoes},{brocoli, corn}, {brocoli, green peppers}, {brocoli, squash}, {brocoli, tomatoes}, {corn, green peppers}, {corn, squash}, {corn, squash},{corn, tomatoes}, {green peppers, squash}, {green peppers, tomatoes}, {squash, tomatoes} Data Mining-Aturan Asosiasi-AAB
Langkah dalam MBA-2 (lanj) 2. Kesimpulan hanya {asparagus, beans}, {asparagus, squash}, {bean, corn}, {bean, squash}, {bean, tomatoes}, {brocolli, greenpepper}, dan {corn, tomatoes} yang merupakan 2-itemset sering sehingga : F2 = {{asparagus, beans}, {asparagus, squash}, {bean, corn}, {bean, squash}, {bean, tomatoes}, {brocolli, greenpepper}, {corn, tomatoes} } Data Mining-Aturan Asosiasi-AAB
Langkah dalam MBA-2 (lanj) Untuk meringankan kita dalam mengkaji F3, F4, F5 dan seterusnya , gunakan aturan berikut: “jika Z bukan itemset sering, maka Z A pasti bukan itemset sering , untuk setiap A” Aturan ini disebut aturan apriori Data Mining-Aturan Asosiasi-AAB
Langkah dalam MBA-2 (lanj) Penggunaan aturan apriori Bila {asparagus, brocolli} bukan 2-itemset sering, maka menurut aturan apriori: {asparagus, brocoli, corn} merupakan gabungan dari 2-itemset {asparagus, brocolli} yang tidak termasuk kedalam 2-itemset sering, dengan 1-itemset sering {corn},maka {asparagus, brocolli, corn} tidak akan pernah 3-itemset sering. Data Mining-Aturan Asosiasi-AAB
Langkah dalam MBA-2 (lanj) • Penerapan aturan apriori terhadap seluruh anggota F2 hanya akan memberikan {asparagus, beans, squash} sebagai satu-satunya 3-itemset sering sehingga didapatkan: F3 = {{asparagus, beans, squash}} Selanjutnya akan diperoleh F4=F5=F6=F7= ø Singkatnya akan menghasilkan himpunan itemset sering F1, F2, F3 Data Mining-Aturan Asosiasi-AAB
Langkah dalam MBA-3 • Aturan asosiasi yang memenuhi nilai minimum support dan confidence (yang telah ditetapkan) dari semua itemset sering yang ada akan dibangun A. Dari semua itemset sering s yang ada di F2, F3 dan seterusnya, daftarkan semua himpunan bagian murni yang tak kosong dari s sebutlah ss. Sehingga….. Data Mining-Aturan Asosiasi-AAB
Langkah dalam MBA-3 (lanj) • Sehingga: • Untuk s = {asparagus,beans} didapatkan ss = {asparagus} atau ss = {beans} • Untuk s = {asparagus,squash} didapatkan ss = {asparagus} atau ss = {squash} • Untuk s = {beans,corn} didapatkan ss = {beans} atau ss = {corn} • Untuk s = {beans,squash} didapatkan ss = {beans} atau ss = {squash} Data Mining-Aturan Asosiasi-AAB
Langkah dalam MBA-3 (lanj) 5. Untuk s = {beans,tomatoes} didapatkan ss = {beans} atau ss = {tomatoes} 6. Untuk s = {brocolli, green pepper} didapatkan ss = {brocolli} atau ss = {greenpepper} 7. Untuk s = {corn, tomatoes} didapatkan ss = {corn} atau ss = {tomatoes} 8. Untuk s = {asparagus, beans, squash} didapatkan ss = {asparagus} atau ss = {beans} atau ss = {squash} atau ss = {asparagus, bean}, atau ss = {bean, squash} Data Mining-Aturan Asosiasi-AAB
Langkah dalam MBA-3 (lanj) B. Bentuk aturan asosiasi yang berpola “ jika ss, maka (s-ss) “ atau “s (s-ss)” Untuk mempermudah, pilihlah aturan yang hanya berkonsekuen sebuah item saja sehingga (s-ss) hanya beranggotakan sebuah item saja. Sehingga masalah toko unsada didapatkan calon aturan asosiasi pada tabel berikut. Data Mining-Aturan Asosiasi-AAB
Langkah dalam MBA-3 (lanj) keterangan: kolom support = 5/14 asosiasi terbanyak asparagus dan beans per banyaknya transaksi (14) Kolom confidence = 5/6 6 => jumlah banyaknya asparagus 5/10 10 => jumlah banyaknya beans Data Mining-Aturan Asosiasi-AAB
Langkah dalam MBA-3 (lanj) C. Pilih aturan asosiasi yang memenuhi nilai minimum (support) dan minimum (confidence) saja. Sebelumnya ditentukan batasan min (support) = 30% dan min (confidence) = 70% tampak pada tabel di bawah Data Mining-Aturan Asosiasi-AAB
Langkah dalam MBA-3 (lanj) Data Mining-Aturan Asosiasi-AAB
Capeeknya habis ngitung gituan…bobok dulu ah Data Mining-Aturan Asosiasi-AAB
Pengetahuan apa yang bisa diperoleh dari perhitungan tersebut? • Jika pelanggan membeli asparagus maka barang berikutnya yang dibeli adalah beans dan atau squash (yakin deeh) 83.3% • Jika pelanggan membeli squash, maka barang berikutnya yang dibeli adalah asparagus (rada yakin laah) 71.4% • Jika pelanggan membeli beans, maka barang berikutnya yang dibeli adalah squash (rada yakin laah) 60% • Jika pelanggan membeli corn, maka barang berikutnya yang dibeli adalah beans (rada yakin laah) 62.5% Data Mining-Aturan Asosiasi-AAB
Langkah selanjutnya? • Berdasarkan data tersebut bisa dilakukan penataan barang berdasarkan yang banyak dibeli • Pemberian discount pada hari tertentu • Dll • Dll • Stok asparagus dan beans diperbanyak sesuai permintaan pembelian salah satu barang Data Mining-Aturan Asosiasi-AAB
Algoritma lain? • Market basket Analysis bukan satu-satunya algoritma untuk mengetahui asosiasi • Terdapat algoritma lain untuk keperluan yang sama misalnya: • algoritma Generalized Association Rules • Algoritma Quantitative Association rule • Algoritma Asynchronous Parallel Mining Data Mining-Aturan Asosiasi-AAB
Pekerjaan Rumah(kumpulkan minggu depan) • Saya tinggal di pedesaan. Di desa ku sering ada pertunjukkan sirkus. Tidak setiap hari sirkus ini show di desaku. Saya pernah mengamati kapan saja mereka main ke sini. Dan data pengamatan saya , saya buatkan tabel sebagai berikut Data Mining-Aturan Asosiasi-AAB
Dengan data di atas perkirakan kapan rombongan sirkus tersebut show atau tidak di desa saya. Data Mining-Aturan Asosiasi-AAB
selamat mengerjakan Capeeek deeeh Data Mining-Aturan Asosiasi-AAB
referensi Data Mining-Aturan Asosiasi-AAB