1 / 17

WEB MINING

WEB MINING. Disusun Oleh : Anre Waluyo (17109051) Baldwin Gabe (17109105) Eko Setiawan (17109041) Fariz Marliansyah (17109038) Konsep Data Mining , 5 KA 15 , Avinanta Tarigan. Latar Belakang.

wyatt
Download Presentation

WEB MINING

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. WEB MINING DisusunOleh : AnreWaluyo (17109051) Baldwin Gabe (17109105) EkoSetiawan (17109041) FarizMarliansyah (17109038) Konsep Data Mining , 5 KA 15 , AvinantaTarigan

  2. LatarBelakang World Wide Web atau WWW merupakansalahsatufenomenateknologi yang berkembangsangatpesatsaatini. WWW menyediakanberbagailayananinformasimengenaiberita, iklan, pendidikan, e-commerce dansebagainya. Informasi yang tersediadalam WWW tersebutmemilikiukuran yang sangatbesardanterdistribusisecara global diseluruhdunia.Webjugamengandungkekayaaninformasidilihatdaristrukturdanpenggunaannya (web usage). Web merupakankumpulan data daninformasi yang sangatberpotensiuntukdilakukanpenggalian (mining) agar menghasilkanpengetahuan (knowledge) yang dapatbergunabagimasyarakatmaupunpihak-pihaktertentu.

  3. LatarBelakang • Data daninformasi yang tersimpandidalam web memilikikarakteristik yang berbedadengan data yang tersimpandalampenyimpanankonvensionalseperti DBMS. Dalam (Han, et al., 2006) disebutkanbeberapakarakteristik web sebagaiberikut: • Web memilikiukuran yang terlalubesarsehinggatidakterlaluefektifjikaditerapkandenganmenggunakan data warehouse dan data mining biasa. Ukuran data dalam web mencapairibuan terabyte danakanterusberkembang. Saatinibegitubanyakperusahaandanorganisasi yang mempublikasikanberbagaiinformasiperusahaandisebuah website. Denganukuran yang begitubesar, akansangatsulitjikaharusmembangunsebuah data warehouse yang akanmenyimpan data daninformasitersebut. • Tingkat komplektivitasdarihalaman-halaman web jauhlebihtinggidibandingdokumendalam format teksbiasa..Halaman web memilikistruktur yang sangatberagam. Apalagijikadilihatdariisiatau content yang disajikandihalaman web, memilikibahasa, gayapenulisan, strukturpenulisandantampilan yang beragam. • Informasi yang disajikandiwebbersifatdinamis. Informasisepertiberita, stock market, saham, dansebagainyadapatberkembangdanberubahsetiapsaat.

  4. LatarBelakang • Web memilikiragampengguna yang tersebardiseluruhdunia. Berdasarkan survey dariNetcraft, internet hinggabulan November 2009 memilikilebihdari 240 jutaalamatsitus, danmasihterusberkembang. Penggunadarisitus-situstersebutmemilikilatarbelakang, demografi, minat, dantujuan yang berbedadalammengakses web. • Hanyasedikitdariinformasi yang disajikandiwebbenar-benarbermanfaat (sesuai) denganpengguna. Faktatersebutmerupakantantanganuntukmenemukansuatumetodeatauteknikmenyajikaninformasi yang tepatbagi user yang tepat. • Untukmenggaliinformasi yang terdapatdidalam web, dapatdigunakanmesinpencari (search- engine) seperti Google, Yahoo dan MSN. Namunpenggunaanmesinpencaribelumcukupefektifuntukmendapatkaninformasi yang tepatdihalaman web karenamesinpencaripadaumumnyamenampilkanhasilpencariannyaberdasarkan keyword yang diberikan.

  5. LatarBelakang • Sebagaicontohpencariandenganmenggunakan keyword ‘data mining’, selainmenampilkaninformasitentang data mining dalamkonteksilmukomputer, informasimengenaiistilah mining dalamdisiplinilmu lain jugaditampilkan. • Karenaketerbatasankemampuandarimesinpencaritersebut, munculkonsepbarumengenai web mining yang pertama kali dikenalkanolehEtzioni Oren dalam (Oren, 1996). MenurutEtzioni Oren, web mining diartikansebagaisuatuusahamengaplikasikanteknik data mining untukmenggalidanmengekstrakinformasi yang bergunadaridokumen-dokumen yang tersimpandalamhalaman web secaraotomatis. Meskipunmemilikiakarterminologi yang samadengan data mining, namun web mining memilikiperbedaandari data mining, diantaranyaberhubungandengansifatdatanya yang tidakterstrukturdansumberdatanya yang tidakdisimpandisebuah data warehouse namuntersebardiberbagaisumber.

  6. TujuanAplikasi Web Mining Berdasarkan target analisisnya, web mining dibagimenjadi 3 (tiga) bagian, yaitu: • Web structure mining Web structure mining merupakanproses yang menggunakanteori graph untukmenganalisissimpul (node) danketerhubunganstrukturdarisitus. Menuruttipedaristruktur web, web structure mining terbagimenjadi 2 (dua). Jenispertamaadalahmengekstrakdaripola hyperlink di web. Sebuah hyperlink ataulebihdikenalsebagai link merupakansuatukomponendari web yang memungkinkansuatuhalamanterhubungdenganhalaman yang lainnya. Jeniskeduadari web structure mining adalah mining terhadapstrukturdokumen. Yang dimaksudsebagaistrukturdokumenadalahmenganalisastrukturdaribahasa yang digunakandalam web, yaitubahasa HTML (Hyper Text Markup Language), atau XML (eXtensibel Markup Language) didalamhalaman. • Web content mining Web content mining adalahprosesuntukmendapatkaninformasi yang bergunadariisi (content) di web. Isi (content) dapatberupatext, image, audio, dan video. Web content mining terkadangdisebutsebagai web text mining, karenateksmerupakanbagiandari web yang paling banyaktersedia. Teknologi yang umumnyadigunakandalam web content mining adalah NLP (Natural Language Processing), dan IR (Informational Retrieval). Secaraumum web content mining akanberusahamengubahkumpulan data diweb yang begitubesarmenjadipengetahuan (knowledge) yang bergunabagibanyakorang. • Web usage mining MenurutSrivastava, web usage mining merupakanteknik data mining yang berusahamengungkappolapenggunaandarihalaman web, dalamrangkacobauntukmemahamidanmeningkatkanpelayanankebutuhandariaplikasiberbasis web . Jadi web usage mining sedikitberbedadengankeduajenissebelumnya. Padajenisstrukturdan content mining, yang dianalisaataudigaliadalah data didalam web itusendiri, namunpada web usage mining yang dianalisaadalahpenggunaataupengunjungdarihalaman web. Sehinggakarena yang cobadianalisaadalahtingkahlakudaripengunjung (pengguna) dari web makahasildari web usage mining banyakdigunakandalam e-marketing dan e-commerce. Hasilanalisadapatdigunakanuntukmeningkatkanlayanandariaplikasi web.

  7. TujuanAplikasi Web Mining • Hasil web usage mining antara lain informasimengenaisegmentasipengunjungdarisitus (aplikasi web). Segmentasidapatdilihatberdasarkanlokasi (negara, kotaatauwilayah), waktuakses (pagi, siang, sore ataumalam), penggunaan browser dansebagainya. Dalamsitus e-commerce misalnyadapatdigunakanuntukmelihatpolapengunjungdalampembelianproduksepertiprodukapasaja yang paling banyakdibeli (diakses), pengunjungdarimanasaja yang banyakmelakukanpembelian, dansebagainya.

  8. TujuanAplikasi Web Mining Berdasarkantabeldiatas, sumber data utamadari web usage mining adalah server logs dan browser logs. Server logs merupakaninformasi yang dicatatdidalam server web setiap kali pengunjungmengaksessuatuhalaman web. Dari log server, didapatinformasiakseswebolehpengunjung yang terdiridariinformasiantara lain: • Informasinama domain dariaplikasisitus yang diakses, bisajugaberupaalamat IP • Waktuaksessitus. • HTTP Request Field yang berisijenisakses, halaman yang diaksesdanjenis browser yang digunakan. • Status aksesberisiinformasi status akses, misalnya 404 jikaakseshalamantidakditemukan. • Ukuran (byte) darihalaman yang diakses.

  9. TEHNIK & TEKNOLOGI YANG DIGUNAKAN • Proses Web Usage Mining Secaragarisbesar, proses web usage mining terbagimenjadi 3 (tiga) fase, yaitu preprocessing, pattern discovery dan pattern analysis. Dapatdigambarkanmengenaiproses web usage mining sepertiterlihatpadagambarberikutini.

  10. TEHNIK & TEKNOLOGI YANG DIGUNAKAN 1. Tahap Preprocessing Tahapaninimerupakanproses yang pertama kali dilakukandarikeseluruhanproses web usage mining. Tahapaninipentingdilakukanuntukmelakukanstandarisasi data danjugamenghilangkanbagian-bagian data tertentu yang tidakdiperlukandalamproses mining. Tahapan preprocessing dapatdibagimenjadi 3 (tiga) bagianyaitu content preprocessing, structure preprocessing dan usage preprocessing. Pembagiantersebutberdasarkanbentuk data yang akandiolah. Proses preprocessing dapatdibagimenjadi 5 tahap: - Data Cleaning. Tahapuntukmembersihkan file log dari data yang tidakrelevandenganproses mining, seperti data multimedia dan script CSS maupunjavascript. - User Identification. Karenabeberapausermungkinmenggunakankomputer (host) yang sama, makaperludilakukanprosesidentifikasi user. -Session identification. Setelah user diidentifikasi, halaman yang diakses pun harusdibagikedalamsesitertentu, umumnyaberdasarkanwaktutertentu agar didapatkansesi yang tunggaluntuksetiap user. - Path Completion. Tahapanmelengkapipath yang mungkinbelumlengkapkarenatidaktersimpandalam file log. - Transaction Identification. Mengidentifikasisejumlahsesitertentu yang menghasilkansatuprosestransaksi yang dilakukanoleh user.

  11. TEHNIK & TEKNOLOGI YANG DIGUNAKAN 2. Pattern Discovery Fase yang keduadari web usage mining adalahpencarianpolaakses yang dilakukanoleh user. Faseinimerupakanfase yang sangatpentingdansangatmenentukankeluarandariproses usage mining. Padafaseinidikenalbeberapaalgoritmadanteknik, antara lain : - Statistical analysis Teknikanalisastatistikmerupakanteknik yang paling banyakdigunakandalammendapatkan knowledge daripolaakses user. Analisisstatistikdapatdisajikandalamberbagaibentukanalisisdenganberagamvariabel yang menjadi parameter analisis. Contohanalisis yang dapatdihasilkanadalahpolaaksesuser yang dilihatdariwaktuaksesuntuksetiapharinya. - Association rules Algoritma association rules dalam data mining pertama kali diusulkanolehAgrawal, Imielinskidan Swami. Association rule jugadapatditerapkandalam web usage mining. Contohkeluaran yang dapatdihasilkanyaitumengenaipolaaksesterhadaphalaman-halamandalam web, dimanadapatdiketahuihalamanmanasaja yang selaludiaksessecarabersamaanoleh user. Hal tersebutdapatdigunakansebagaidasaruntukmerancangataumenyusunkembalihalaman web agar lebihefektif.

  12. TEHNIK & TEKNOLOGI YANG DIGUNAKAN - Clustering Clustering merupakanprosesmengelompokkansekumpulan object fisikmaupunabstrakkedalamkelastertentuberdasarkankesamaannya. Dalamkaitannyadengan web usage mining, teknik clustering seringdigunakanuntukmenentukansegmentasipasarpengunjungsuatusitus e-commerce berdasarkankesamaanpolaaksesmaupundemografinya. - Classification Classification merupakanprosespengelompokanberdasarkankelas yang sudahdidefinisikansebelumnya. Proses classification terbagimenjadidua, yaituprosesmembangun model sesuaidengankelas yang sudahditentukandanprosesmenerapkan model untukmengklasifikasikansekumpulan data. - Sequential Pattern Sequential Pattern digunakanuntukmenganalisapolaurutanakseshalaman web oleh user. Trenurutanpolaakses user dapatdigunakanuntukmemprediksikantrendimasamendatangatauuntukmengaturpenempataniklan. - Dependency Modeling Dependency modeling berusahamencariketergantunganantarasatuvariabeldenganvariabel yang lainnyadalamweb. Hal inibergunauntukmemprediksikanpoladimasamendatang.

  13. TEHNIK & TEKNOLOGI YANG DIGUNAKAN 3. Pattern Analysis Pattern analysis merupakanfaseterakhirdalam web usage mining. Padafaseini, dilakukanprosesvisualisasihasilanalisispola yang telahdilakukanpadalangkahsebelumnya. Penyajiandatamenjadihal yang pentingdalamlangkahini, dimanapenyajian data tentunyatergantungpadakebutuhanuserdanbisnis. Dari hasilvisualisasitersebut, dapatdilakukansuatukeputusan(action) misalnyakeputusanuntukmengubahtampilansuatuwebsite, melakukanoptimasinavigasi website, meningkatkankemampuan website denganmelakukan caching halaman-halamantertentu yang seringdikunjungi.

  14. KEUNTUNGAN / IMPLIKASI NYATA APLIKASI / IMPLEMENTASI WEB MINING Dalamkaitannyadengan Web Usage Mining, saatinibanyak tool danaplikasi yang tersediamulaidari yang berbayarhingga yang gratis. Berdasarkan survey yang dilakukanolehSrivastava, tool danaplikasi web usage mining dapatdibagimenjadibeberapakelompokpenggunaan yang digambarkandalamgambar 2. Kelompok yang pertamamerupakanaplikasi yang bersifatumumdalam web usage mining. ContohdariaplikasidalamkelompokiniadalahWebSIFT, WUM atau Web Utilization Miner, SpeedTracer, Web Log Miner danShahabi. Sedangkankelompokaplikasi yang keduaadalahaplikasi yang secarakhususditujukanuntukmenanganiprosestertentusesuaidenganmanfaatpenerapan web usage mining.

  15. KEUNTUNGAN / IMPLIKASI NYATA APLIKASI / IMPLEMENTASI WEB MINING Aplikasi WEB Usage Mining

  16. KEUNTUNGAN / IMPLIKASI NYATA APLIKASI / IMPLEMENTASI WEB MINING Adapunmanfaatpenerapan / penggunaan web usage mining tersebut, antara lain: 1. Personalization Personalisasimerupakansuatuusahauntukmenyajikanlayanan web sesuaidenganpreferensiataukenyamanantiap user ataupengunjung. Personalisasi yang dilakukandalamsitus e-commerce secaralangsungakanmeningkatkanpenjualanmaupuntingkatkepuasanpelanggan (user). Personalisasidalam e-commerce antara lain denganpenerapanstrategi cross-selling dan up-selling. Contohaplikasi yang bertujuanmelakukanpersonalisasi, adalahWebWatcher, SiteHelper, PWUM, KoinotitesdanLetizia. 2. System Improvement Performa darisuatu website danlayanandidalamnyamerupakanhal yang utamauntukmenjaminkenyamanan user (pengunjung). Berdasarkanpolaakses user yang dihasilkandariproses web usage mining, dapatdiambilsuatukeputusanterkaitdenganpeningkatanperformalayanan web. Misalnyajikaternyataditemukanpolabahwalayanantertentucukupseringdiakses, makadapatdilakukanmekanisme caching baikdi web server maupundiproxy. Langkahpeningkatanperformasistemlainnyaseperti load balancing, network transmission, data distribution, fraud detection, intrussion detection jugadapatdiambilberdasarkanhasildari web usage mining.

  17. KEUNTUNGAN / IMPLIKASI NYATA APLIKASI / IMPLEMENTASI WEB MINING 3. Site Modification Website yang adaptifsesuaidenganpolaperilaku user tentuakanmemberikenyamananlebihbagi user. Hasilanalisisterhadappolaperilaku user dalammengaksessuatuhalamandapatdigunakanuntukmenentukanapakahhalaman yang bersangkutansudahdisajikandenganbaikataubelum. 4. Bussiness Intelligence Berdasarkanhasil yang dikeluarkanoleh web usage mining beserta web mining yang lainnyaselanjutnyadapatdisusunsebuah business intelligence (BI). BI berbasis web mining dapatmempermudahpihakeksekutifdalammemonitorperforma website bisnisnya. BI akanberisirangkumandaribeberapasumberlaporan. Pemanfaatan web usage mining untukmembentuksuatu BI memangmasihterusdikembangkan, salahsatunyaadalahframework yang diusulkanolehAjithAbraha. Contohaplikasi web usage mining yang masukkategori BI adalahSurfAiddan Buchner. 5. Usage Characterization Karakter user dalammenggunakanwebberbedasatudengan yang lainnya. Berdasarkanhasildariproses web usage mining, karakteruserdapatdiidentifikasi. Informasikarakteruserdalammengakses web dapatdijadikandasaruntukmeningkatkanperformadari website maupunaplikasiterkaitlainnyaseperti browser dan web server.

More Related