260 likes | 441 Views
Mata Kuliah :Web Mining Dosen Nama : Mulaab, Ssi, M.Kom Ruang : Puskom Contact : 0857 3321 5507 SKS : 3. Materi Kuliah. Pengantar Web Mining Dasar-dasar data Mining Association Rules and Sequential Patterns Supervised Learning Unsupervised Learning Partially Supervised Learning
E N D
Mata Kuliah :Web Mining • Dosen • Nama : Mulaab, Ssi, M.Kom • Ruang : Puskom • Contact : 0857 3321 5507 • SKS : 3
Materi Kuliah • Pengantar Web Mining • Dasar-dasar data Mining • Association Rules and Sequential Patterns • Supervised Learning • Unsupervised Learning • Partially Supervised Learning • Information Retrieval and Web Search • Opinion Mining • Web Usage Mining
Pengantar • Tantangan Web Mining • Dasar dasar Web Mining • Klasifikasi Web Minin
Web Mining – The Idea • Banyaknya dokumen HTML, gambar dan file multimedia yang ada di internet, sehinggan menemukan content yang yang diinginkan adalah tugas yang sangat sulit
Web Mining • Web adalah salah satu sumber data yang sangat besar • Berbagai bidang yang dipersiapakan: • data mining, machine learning, natural language • processing, statistics, databases, information • retrieval, multimedia, .
Peluang dan Tantangan • Jumlah informasi di web sangat besar dan mudah diakses • Mencari informasi yang beragam. • Kita dapat menemukan berbagai macam informasi • Information/data dari berbagai bentuk tipe data., structured tables, texts, multimedia data, . • Ada banyak hyperlinks dalam website dan antar website • Banyak informasi Web information yang redundantis redundant.
Peluand dan Tantangan • The Web is noisy. Informasi dari web berisi banyak berbagai macam informasi , content utama, iklan, panel navigasi dll. • The Web juga ada services. • The Web is dynamic. • the Web is a virtual society.
Web Mining • Application dari data mining secara otomatis menemukan dan mengektrak informasi dari data web
Data Mining vs. Web Mining • Traditional data mining • data terstruktur • tabel • Web data • Semi-structured and unstructured • kaya fitur dan pola
Klasifikasi Teknik Web Mining • Web Content Mining • Web-Structure Mining • Web-Usage Mining
Web Mining Web Content Mining Web Usage Mining Web Structure Mining Web-Structure Mining Menemukan hirarki dari hiperlink dalam website dan strukturnya.
Web-Structure Mining cont… Menemukan informasi tentang relevansi dan kualitas dari web dari topik dan content
Web Mining Web Content Mining Web Usage Mining Web Structure Mining Web-Usage Mining Menemukan pola navigasi dari data web : memprediksi interaksi user dengan web, membantu memperbaiki resources.
Web-Usage Mining • Teknik Usage Mining Data Preparation Data Collection Data Selection Data Cleaning Data Mining Navigation Patterns Sequential Patterns
A E B C D Web-Usage Mining cont… • Data Mining Techniques – Navigation Patterns
Web-Usage Mining • Data Mining Techniques – Navigation Patterns Analysis:
Web-Usage Mining cont… • Data Mining Techniques – Sequential Patterns Customer Transaction Time Purchased Items John 6/21/05 5:30 pm Beer John 6/22/05 10:20 pm Brandy Frank 6/20/05 10:15 am Juice, Coke Frank 6/20/05 11:50 am Beer Frank 6/20/05 12:50 am Wine, Cider Mary 6/20/05 2:30 pm Beer Mary 6/21/05 6:17 pm Wine, Cider Mary 6/22/05 5:05 pm Brandy Example: Supermarket Cont…
Web-Usage Mining cont… • Data Mining Techniques – Sequential Patterns Contoh • In Google search, dalam minggu terakhir 30% pengguna telah mengunjungi /company/product/ had dengan ‘camera’ sebagai kunci pencarian
Web Content Mining • Meneumukan informasi dari jutaan content dari berbagai sumber informasi World Wide Web • Misalkan, Web data contents: text, Image, audio, video, metadata and hyperlinks
Web Content Mining • Pre-processing data sebelum web content mining: feature selection • Post-processing data untuk mengurangi kebingungan dari hasil pencarian • Search Engine Mining • Memperbaiki pencarian content.
Web Content Mining • Web content mining terkaita dengan datamining dan text mining • Terkait daengan data mining karena teknik datamining digunakan dalam web content mining. • Terkait dengan text mining karena sebagian besar konten adalah text • Web data adalah semi-structured dan atau unstructured, karena data mining adalah terstruktur dan text adalah unstructured.
Teknik untuk Web Content Mining • Classifications • Clustering • Association
Document Classification • Supervised Learning • Klasifikasi dokumen • Techniques used are • Nearest Neighbor Classifier • Feature Selection • Decision Tree
Feature Selection • Menghilang istilah-istilah dalam training documents which yang secara statistik tidak terkait dengan label kelas