270 likes | 490 Views
Introduction Datamining. Taufiq Hidayat, MCS (disampaikan dalam Seminar DATAMINING, 10 Mei 2008, FTI – UII). Datamining (Sudut Pandang Komersial). Banyak data : dikumpulkan dan di-‘gudang‘-kan Data web, e-commerce Data penjualan di supermarket, dept. Store Transaksi bank/kartu kredit
E N D
Introduction Datamining Taufiq Hidayat, MCS (disampaikan dalam Seminar DATAMINING, 10 Mei 2008, FTI – UII)
Datamining (Sudut Pandang Komersial) • Banyak data : dikumpulkan dan di-‘gudang‘-kan • Data web, e-commerce • Data penjualan di supermarket, dept. Store • Transaksi bank/kartu kredit • Data nilai mahasiswa dan alumni • Komputer : lebih murah dan lebih powerful • Tekanan persaingan yang kuat Taufiq Hidayat, MCS
Datamining (Sudut Pandang Sains) • Data dikumpulkan dan disimpan dg kecepatan tinggi (GB/jam) • Sensor dari satelit • Teleskop menangkap benda langit • Ekspresi gen manusia • Teknik-teknik tradisional tidak dapat diterapkan • Membantu saintis: • Klasifikasi dan segmentasi data • Membuat hipotesa Taufiq Hidayat, MCS
Datamining Data “besar” • Motivasi: • Informasi ‘tersembunyi’ dalam data, yang tidak terbaca • Analisa manual : butuh waktu • Banyak data yang tidak teranalisis. • Pertanyaan : Bagaimana melakukan analisis data? Taufiq Hidayat, MCS
Datamining dan Knowledge Discovery Taufiq Hidayat, MCS
Definisi Datamining • Pensarian informasi yg implisit, belum diketahui, dan kemungkinan berguna, yang diperoleh dari data • Penggalian dan analisis (dg alat otomatis atau semi-otomatis) terhadap himpunan data yg besar utk menemukan pola-pola yang bermakna. Taufiq Hidayat, MCS
Bukan Datamining: Melihat nomor telpon di buku telpon Query web dg Search Engine, dg kata kunci “amazon” Datamining: Beberapa nama pelanggan lebih banyak tinggal di propinsi tertentu Pengelompok web dari search engine berdasarkan konteks. (Mis. Sungai Amazon, hutan hujan Amazon, Amazon.com) Definisi Datamining Taufiq Hidayat, MCS
Asal-usul Datamining • Menggabungkan ide-ide dari Machine Learning, Pengenalan Pola, Statistik, dan Sistem Database • Teknik biasa tdk cocok karena: • Besarnya data • Dimensi data yg tinggi • Data tersebar dan heterogen Taufiq Hidayat, MCS
Tugas Datamining • Metode Prediksi: • Penggunaan beberapa variabel untuk memperkirakan nilai di masa depan atau tidak diketahui dari variabel lain • Menekankan kemampuan utk memprediksi nilai, dibanding “gambaran data” • Metode Deskripsi: • Penemuan pola-pola yg dapat ditafsirkan secara manusiawi yang menggambarkan data. • Lebih menekankan “gambaran data” Taufiq Hidayat, MCS
Tugas Datamining • Metode Prediksi: • Klasifikasi • Regresi • Deteksi Deviasi • Metode Deskripsi: • Clustering • Penemuan Association Rules • Penemuan Pola Sekuensial Taufiq Hidayat, MCS
Klasifikasi Taufiq Hidayat, MCS
Klasifikasi • Diberikan himpunan record (data pelatihan) • Setiap record berisi sekumpulan atribut, salah satu atribut disebut sebagai atribut Kelas • Mencari sebuah model untuk atribut kelas sebagai fungsi dari atribut-atribut yang lain • Tujuan : menentukan kelas dari record yang belum diketahui seakurat mungkin. Taufiq Hidayat, MCS
Klasifikasi (Penerapan) • Pemasaran • Tujuan : Mengurangi biaya pengiriman pos dengan sasaran adalah pelanggan-pelanggan yang akan kemungkinan membeli produk HP baru • Pendekatan: • Menggunakan data produk serupa yang diperkenalkan sebelumnya • Diketahui pelanggan yang beli dan yang tidak beli. Data ini dinyatakan sebagai atribut kelas. • Mengumpulkan data tentang pelanggan berkaitan dengan data kependudukan, gaya hidup, pekerjaan, dll. • Contoh: jenis bisnis, tempat tinggal, besar pendapatan, dll. • Informasi ini digunakan sebagai data pelatihan Taufiq Hidayat, MCS
Klasifikasi (Penerapan) • Deteksi Kecurangan • Tujuan : Memperkirakan kecurangan dalam transaksi dengan kartu kredit • Pendekatan: • Menggunakan transaksi yang pernah dilakukan dan informasi dari pemegang kartu kredit. • Contoh: kapan berbelanja, apa yang dibeli, ketepatan waktu pembayaran, dll. • Penentuan apakah setiap transaksi curang atau tidak curang atribut kelas • Data transaksi digunakan sebagai data pelatihan Taufiq Hidayat, MCS
Clustering (Definisi) • Diberikan himpunan titik (record) data, yang masing-masing mempunyai atribut-atribut dan pengukuran kesamaan utk setiap atribut. • Mencari cluster-cluster sehingga: • Titik data dalam satu cluster : lebih serupa. • Titik data di cluster berbeda : lebih tidak serupa Taufiq Hidayat, MCS
Clustering (Definisi) • Pengukuran Kesamaan, dapat berupa: • Jarak Euclidean, jika atribut bernilai kontinyu • Pengukuran lain, spesifik tergantung problem. Taufiq Hidayat, MCS
Clustering (Ilustrasi) • Clustering data 3 atribut, masing-masing atribut bernilai real. Taufiq Hidayat, MCS
Clustering (Contoh Aplikasi) • Clustering terhadap dokumen: • Tujuan: • Menemukan kelompok-kelompok dokumen yang serupa didasarkan pada istilah-istilah penting yang muncul di dalam dokumen-dokumen tersebut • Hasil: • Dapat digunakan untuk menentukan cluster dari sebuah dokumen baru. Taufiq Hidayat, MCS
Association Rules (Definisi) • Diberikan himpunan record yang masing-masing berisi sejumlah item. • Menghasilkan aturan ketergantungan yang memperkirakan kemunculan sebuah item didasarkan kemunculan dari item-item yang lain. Taufiq Hidayat, MCS
Association Rules (Contoh) • {Coke} {Milk} • {Diaper, Beer} {Milk} Taufiq Hidayat, MCS
Pola Sekuensial (Definisi) • Mirip dengan Association Rules • Perbedaan: • Association Rules: • Didasarkan pada kemunculan item • Pola Sekuensial: • Didasarkan pada urutan kejadian Taufiq Hidayat, MCS
Pola Sekuensial (Contoh) • Di sebuah toko buku: (“Introducation to Visual C++”) (“C++ Primer”) (“Perlu for Dummies”) • diartikan: Seseorang yang membeli buku “Introduction to Visual C++”, yang beberapa hari berikutnya membeli buku “C++ Primer”, maka nanti akan membeli juga buku “Perl for Dummies”. Taufiq Hidayat, MCS
Pola Sekuensial (Contoh) • Di sebuah toko alat-alat olahraga: (Sepatu) (Raket, Bola Tenis) (Jaket Olahraga) • diartikan: Seseorang yang membeli Sepatu, dan berikutnya membeli Raket dan Bola Tenis, maka dia akan membeli Jaket Olahraga Taufiq Hidayat, MCS
Regresi • Definisi: • Memperkirakan nilai sebuah variabel kontinyu berdasarkan pada nilai variabel-variabel yang lain. • Dipelajari dalam Statistik dan Neural Network. • Contoh: • Prediksi harga saham berdasarkan waktu • Prediksi jumlah penjualan produk baru berdasarkan biaya iklan • Prediksi kecepatan angin berdasarkan kelembaban, suhu, tekanan udara. Taufiq Hidayat, MCS
Deteksi Anomali/Kelainan • Definisi: • Menemukan kelainan yg signifikan dari perilaku yang normal. • Contoh: • Deteksi pencurian kartu kredit • Deteksi penyusup dalam jaringan komputer Taufiq Hidayat, MCS
Software Datamining • SAS Enterprises Miner • SPSS Clementine • Insightful Miner • Oracle Darwin • Angoss KnowledgeSTUDIO Taufiq Hidayat, MCS
Datamining di Database • Oracle 9i: Darwin • Microsoft SQL Server • IBM Intelligent Miner V7RI • Keuntungan: • Meminimumkan perpindahan data • One stop shopping • Negatifnya: • Terbatas pada fasilitas yg disediakan • Aplikasi lain berkendala mengakses Taufiq Hidayat, MCS