1 / 27

Introduction Datamining

Introduction Datamining. Taufiq Hidayat, MCS (disampaikan dalam Seminar DATAMINING, 10 Mei 2008, FTI – UII). Datamining (Sudut Pandang Komersial). Banyak data : dikumpulkan dan di-‘gudang‘-kan Data web, e-commerce Data penjualan di supermarket, dept. Store Transaksi bank/kartu kredit

helki
Download Presentation

Introduction Datamining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introduction Datamining Taufiq Hidayat, MCS (disampaikan dalam Seminar DATAMINING, 10 Mei 2008, FTI – UII)

  2. Datamining (Sudut Pandang Komersial) • Banyak data : dikumpulkan dan di-‘gudang‘-kan • Data web, e-commerce • Data penjualan di supermarket, dept. Store • Transaksi bank/kartu kredit • Data nilai mahasiswa dan alumni • Komputer : lebih murah dan lebih powerful • Tekanan persaingan yang kuat Taufiq Hidayat, MCS

  3. Datamining (Sudut Pandang Sains) • Data dikumpulkan dan disimpan dg kecepatan tinggi (GB/jam) • Sensor dari satelit • Teleskop menangkap benda langit • Ekspresi gen manusia • Teknik-teknik tradisional tidak dapat diterapkan • Membantu saintis: • Klasifikasi dan segmentasi data • Membuat hipotesa Taufiq Hidayat, MCS

  4. Datamining Data “besar” • Motivasi: • Informasi ‘tersembunyi’ dalam data, yang tidak terbaca • Analisa manual : butuh waktu • Banyak data yang tidak teranalisis. • Pertanyaan : Bagaimana melakukan analisis data? Taufiq Hidayat, MCS

  5. Datamining dan Knowledge Discovery Taufiq Hidayat, MCS

  6. Definisi Datamining • Pensarian informasi yg implisit, belum diketahui, dan kemungkinan berguna, yang diperoleh dari data • Penggalian dan analisis (dg alat otomatis atau semi-otomatis) terhadap himpunan data yg besar utk menemukan pola-pola yang bermakna. Taufiq Hidayat, MCS

  7. Bukan Datamining: Melihat nomor telpon di buku telpon Query web dg Search Engine, dg kata kunci “amazon” Datamining: Beberapa nama pelanggan lebih banyak tinggal di propinsi tertentu Pengelompok web dari search engine berdasarkan konteks. (Mis. Sungai Amazon, hutan hujan Amazon, Amazon.com) Definisi Datamining Taufiq Hidayat, MCS

  8. Asal-usul Datamining • Menggabungkan ide-ide dari Machine Learning, Pengenalan Pola, Statistik, dan Sistem Database • Teknik biasa tdk cocok karena: • Besarnya data • Dimensi data yg tinggi • Data tersebar dan heterogen Taufiq Hidayat, MCS

  9. Tugas Datamining • Metode Prediksi: • Penggunaan beberapa variabel untuk memperkirakan nilai di masa depan atau tidak diketahui dari variabel lain • Menekankan kemampuan utk memprediksi nilai, dibanding “gambaran data” • Metode Deskripsi: • Penemuan pola-pola yg dapat ditafsirkan secara manusiawi yang menggambarkan data. • Lebih menekankan “gambaran data” Taufiq Hidayat, MCS

  10. Tugas Datamining • Metode Prediksi: • Klasifikasi • Regresi • Deteksi Deviasi • Metode Deskripsi: • Clustering • Penemuan Association Rules • Penemuan Pola Sekuensial Taufiq Hidayat, MCS

  11. Klasifikasi Taufiq Hidayat, MCS

  12. Klasifikasi • Diberikan himpunan record (data pelatihan) • Setiap record berisi sekumpulan atribut, salah satu atribut disebut sebagai atribut Kelas • Mencari sebuah model untuk atribut kelas sebagai fungsi dari atribut-atribut yang lain • Tujuan : menentukan kelas dari record yang belum diketahui seakurat mungkin. Taufiq Hidayat, MCS

  13. Klasifikasi (Penerapan) • Pemasaran • Tujuan : Mengurangi biaya pengiriman pos dengan sasaran adalah pelanggan-pelanggan yang akan kemungkinan membeli produk HP baru • Pendekatan: • Menggunakan data produk serupa yang diperkenalkan sebelumnya • Diketahui pelanggan yang beli dan yang tidak beli. Data ini dinyatakan sebagai atribut kelas. • Mengumpulkan data tentang pelanggan berkaitan dengan data kependudukan, gaya hidup, pekerjaan, dll. • Contoh: jenis bisnis, tempat tinggal, besar pendapatan, dll. • Informasi ini digunakan sebagai data pelatihan Taufiq Hidayat, MCS

  14. Klasifikasi (Penerapan) • Deteksi Kecurangan • Tujuan : Memperkirakan kecurangan dalam transaksi dengan kartu kredit • Pendekatan: • Menggunakan transaksi yang pernah dilakukan dan informasi dari pemegang kartu kredit. • Contoh: kapan berbelanja, apa yang dibeli, ketepatan waktu pembayaran, dll. • Penentuan apakah setiap transaksi curang atau tidak curang atribut kelas • Data transaksi digunakan sebagai data pelatihan Taufiq Hidayat, MCS

  15. Clustering (Definisi) • Diberikan himpunan titik (record) data, yang masing-masing mempunyai atribut-atribut dan pengukuran kesamaan utk setiap atribut. • Mencari cluster-cluster sehingga: • Titik data dalam satu cluster : lebih serupa. • Titik data di cluster berbeda : lebih tidak serupa Taufiq Hidayat, MCS

  16. Clustering (Definisi) • Pengukuran Kesamaan, dapat berupa: • Jarak Euclidean, jika atribut bernilai kontinyu • Pengukuran lain, spesifik tergantung problem. Taufiq Hidayat, MCS

  17. Clustering (Ilustrasi) • Clustering data 3 atribut, masing-masing atribut bernilai real. Taufiq Hidayat, MCS

  18. Clustering (Contoh Aplikasi) • Clustering terhadap dokumen: • Tujuan: • Menemukan kelompok-kelompok dokumen yang serupa didasarkan pada istilah-istilah penting yang muncul di dalam dokumen-dokumen tersebut • Hasil: • Dapat digunakan untuk menentukan cluster dari sebuah dokumen baru. Taufiq Hidayat, MCS

  19. Association Rules (Definisi) • Diberikan himpunan record yang masing-masing berisi sejumlah item. • Menghasilkan aturan ketergantungan yang memperkirakan kemunculan sebuah item didasarkan kemunculan dari item-item yang lain. Taufiq Hidayat, MCS

  20. Association Rules (Contoh) • {Coke}  {Milk} • {Diaper, Beer}  {Milk} Taufiq Hidayat, MCS

  21. Pola Sekuensial (Definisi) • Mirip dengan Association Rules • Perbedaan: • Association Rules: • Didasarkan pada kemunculan item • Pola Sekuensial: • Didasarkan pada urutan kejadian Taufiq Hidayat, MCS

  22. Pola Sekuensial (Contoh) • Di sebuah toko buku: (“Introducation to Visual C++”) (“C++ Primer”)  (“Perlu for Dummies”) • diartikan: Seseorang yang membeli buku “Introduction to Visual C++”, yang beberapa hari berikutnya membeli buku “C++ Primer”, maka nanti akan membeli juga buku “Perl for Dummies”. Taufiq Hidayat, MCS

  23. Pola Sekuensial (Contoh) • Di sebuah toko alat-alat olahraga: (Sepatu) (Raket, Bola Tenis)  (Jaket Olahraga) • diartikan: Seseorang yang membeli Sepatu, dan berikutnya membeli Raket dan Bola Tenis, maka dia akan membeli Jaket Olahraga Taufiq Hidayat, MCS

  24. Regresi • Definisi: • Memperkirakan nilai sebuah variabel kontinyu berdasarkan pada nilai variabel-variabel yang lain. • Dipelajari dalam Statistik dan Neural Network. • Contoh: • Prediksi harga saham berdasarkan waktu • Prediksi jumlah penjualan produk baru berdasarkan biaya iklan • Prediksi kecepatan angin berdasarkan kelembaban, suhu, tekanan udara. Taufiq Hidayat, MCS

  25. Deteksi Anomali/Kelainan • Definisi: • Menemukan kelainan yg signifikan dari perilaku yang normal. • Contoh: • Deteksi pencurian kartu kredit • Deteksi penyusup dalam jaringan komputer Taufiq Hidayat, MCS

  26. Software Datamining • SAS Enterprises Miner • SPSS Clementine • Insightful Miner • Oracle Darwin • Angoss KnowledgeSTUDIO Taufiq Hidayat, MCS

  27. Datamining di Database • Oracle 9i: Darwin • Microsoft SQL Server • IBM Intelligent Miner V7RI • Keuntungan: • Meminimumkan perpindahan data • One stop shopping • Negatifnya: • Terbatas pada fasilitas yg disediakan • Aplikasi lain berkendala mengakses Taufiq Hidayat, MCS

More Related