210 likes | 370 Views
TIKLARIN DİLİ Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından nasıl yararlanılabilir? ozakar@likya.iyte.edu.tr. Giriş Web Madenciliği Sınıflandırması Patern Tespit Teknikleri Web Madenciliği Prosesi IYTE Web Kullanım Madenciliği Sistemi
E N D
TIKLARIN DİLİ Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş birveri tabanından nasıl yararlanılabilir? ozakar@likya.iyte.edu.tr Tıkların DiliBelgin ÖZAKAR
Giriş Web Madenciliği Sınıflandırması Patern Tespit Teknikleri Web Madenciliği Prosesi IYTE Web Kullanım Madenciliği Sistemi Veri Hazırlama İYTE Web Madenciliği Vertabanı Sorgu Mekanizması Sonuç Planlanan Çalışmalar İçerik Tıkların DiliBelgin ÖZAKAR
Giriş • Sınıflandırma • Teknikler “Web madenciliği,veri madenciliği teknikleri kullanarak, World Wide Web dökümanları ve servislerinden, otomatik olarak, anlamlı bilgi çıkarmaktır” Etzioni Tıkların DiliBelgin ÖZAKAR
Fazla karışık, değişik bilgi tipleri, standardizasyon yetersizliği Kısıtlı kapsam, ulaşılamayan veritabanları Kısıtlı sorgu arayüzleri (anahtar kelimeye göre) Kısıtlı kişiselleştirme Web üstündeki bilginin az bir bölümü gerçekten ilgili ve faydalı • Giriş • Sınıflandırma • Teknikler Problemler Tıkların DiliBelgin ÖZAKAR
Web Madenciliği Sınıflandırması • Sınıflandırma • Teknikler • IYTE WUM Sistemi Web Madenciliği Web Yapı Madenciliği Web İçerik Madenciliği Web Kullanım Madenciliği Erişilebilir web kaynaklarından faydalı bilgi bulmaya çalışır Web sitesi ve sayfalarının yapısal olarak özetini çıkarmaya çalışır Kullanıcı erişimleri esnasında oluşan hareket verisinden anlamlı ve faydalı paternler bulmaya çalışır Tıkların DiliBelgin ÖZAKAR
Web Madenciliği Web Yapı Madenciliği Web Kullanım Madenciliği Web İçerik Madenciliği • Sınıflandırma • Teknikler • IYTE WUM Sistemi Web Madenciliği Sınıflandırması • WebSIFT • WUM • Shahabi Kişiselleştirme • WebWatcher • WebPersonalizer • Analog Sistem İyileştirme • Schecher • Aggarval Site Güncelleme • PageGather Genel Kullanım (Business Intelligence & Usage Characterization) • Surfaid • WebLogMiner Tıkların DiliBelgin ÖZAKAR
Patern Tespit Teknikleri • Teknikler • Proses • IYTE WUM Sistemi • Tanımsal İstatistik • çeşitli değişkenlere dayalı analizler • İlişkilendirme Kuralları • veriler arasında önceden kestirilemeyen ilişkiler bulma • Gruplama/Kümeleme • benzer özellikteki verileri gruplama • Sınıflandırma • verileri tanımlı sınıflara atama • Sıralı Paternler • bağlantılar süresince oluşan paternleri bulma • Bağımlılık Modellemesi • farklı değişkenler arasındaki bağımlılıkları ortaya koyan modeller oluşturma Tıkların DiliBelgin ÖZAKAR
Web Madenciliği Prosesi • Teknikler • Proses • IYTE WUM Sistemi Anlamlı Bilgi Patern Değerlendirme Veri Madenciliği Patern Tespiti İlgili Veri Seçim Veri Tabanları Veri Temizleme Veri Entegrasyonu Web erişim verisi Tıkların DiliBelgin ÖZAKAR
Veri Temizleme (Java Classes) Veri Seçimi & Entegrasyonu (Java Classes, JDBC & MySQL DDL) İlişkilendirme Kuralları (Java Classes, JDBC & MySQL DDL & DML) Sunucu Erişim Verisi Temizlenen Sunucu Erişim Verisi Temizlenen Sunucu Hata Verisi Sunucu Hata Verisi Sunucu Kullanıcı Verisi Temizlenen Sunucu Kullanıcı Verisi IYTE WUM Sistem Mimarisi • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar Apriori Sorgu Mekanizması (Mysql DML) IYTE WUM VERİTABANI (Mysql) TanımsalSorgu Mekanizması (Mysql DML) IYTE Web Sitesi İçerik Verisi www.iyte.edu.tr Tıkların DiliBelgin ÖZAKAR
CLF Kayıt Yapısı • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar Remote Host – Ident and Authuser – [Date and Time] “Request” Status Bytes Bilgisayar ismi ya da bağlanan makinanın IP adresi Login ismi, gönderilmez, genellikle boş GET sayfa talepleri için, POST teslimler için pergamon.iyte.edu.tr [20/Jun/2000:15:13:05 +0300]''GET /courses.html HTTP/1.1 '' 304 pergamon.iyte.edu.tr [20/Jun/2000:15:13:05 +0300]''GET / will/courses/CS101/ HTTP/1.1'' 304 pergamon.iyte.edu.tr - - [20/Jun/2000:15:13:05 +0300]”GET / gif/geney.jpg HTTP/1.0 “ 304 - pergamon.iyte.edu.tr - - [20/Jun/2000: 15:13:05 +0300]” GET / gif/acad.gif HTTP/1.0 “ 304 - pergamon.iyte.edu.tr - - [20/Jun/2000:15:13:05| +0300]” GET / gif/ciz7.gif HTTP/1.0 “304 - +---------------------------+---------------+-----------+---------+-----------+--------+-------------------------------+--------+-------+ | user | ldate | ltime | rtime | demand | url_m| url | sts_m | status | +---------------------------+---------------+-----------+--------+------------+------------+-------------------------------+----+-------+ | pergamon.iyte.edu.tr | 2000-06-20| 15:13:05 | +0300 | GET | gif | gif/yazi.gif HTTP/1.0 | 304 | 304 -| | pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/zemin1.gif HTTP/1.0| 304 | 304 -| | pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/geney.jpgHTTP/1.0 | 304 | 304 -| | pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/acad.gif HTTP/1.0 | 304 | 304 -| | pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/living1.gif HTTP/1.0 | 304 | 304 -| +---------------------------+---------------+-----------+---------+-----------+--------+-------------------------------+--------+------+ Tıkların DiliBelgin ÖZAKAR
Hata Verisi • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar [Thu Aug 19 14:02:34 1999] Server configured -- resuming normal operations [Thu Aug 19 14:12:27 1999] accept: (client socket): Connection timed out [Thu Aug 19 14:12:27 1999] accept: (client socket): Connection timed out [Thu Aug 19 14:13:01 1999] accept: (client socket): Connection reset by peer [Thu Aug 19 14:17:05 1999] accept: (client socket): Connection timed out [Thu Aug 19 14:17:59 1999] accept: (client socket): Connection timed out [Thu Aug 19 14:18:52 1999] accept: (client socket): Connection timed out [Thu Aug 19 14:44:40 1999] accept: (client socket): No route to host [Thu Aug 19 14:44:43 1999] accept: (client socket): No route to host [Thu Aug 19 14:44:47 1999] accept: (client socket): No route to host +--------------+------------+------------------------------------------------------------+ | date | time | message | +--------------+-----------+-------------------------------------------------------------+ | 1999-08-19 | 14:02:34 | created shared memory segment #0 | | 1999-08-19 | 14:02:34 | Server configured -- resuming normal operations | | 1999-08-19 | 14:12:27 | accept: (client socket): Connection timed out | | 1999-08-19 | 14:12:27 | accept: (client socket): Connection timed out | | 1999-08-19 | 14:13:01 | accept: (client socket): Connection reset by peer | | 1999-08-19 | 14:17:05 | accept: (client socket): Connection timed out | | 1999-08-19 | 14:17:59 | accept: (client socket): Connection timed out | | 1999-08-19 | 14:18:52 | accept: (client socket): Connection timed out | | 1999-08-19 | 14:44:40 | accept: (client socket): No route to host | | 1999-08-19 | 14:44:43 | accept: (client socket): No route to host | +--------------+-----------+------------------------------------------------------------+ Tıkların DiliBelgin ÖZAKAR
Kullanıcı Verisi • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar +-------------------------------+-------------------+--------------------------------+-----------+ | user_name | type | user_ip | depcode | +-------------------------------+-------------------+--------------------------------+-----------+ | busra | MX 5 | busra.iyte.edu.tr. | 0 | | pergamon | MX 5 | pergamon.iyte.edu.tr. | 0 | | buamtest | MX 5 | buamtest.iyte.edu.tr. | 0 | | radyo-bahattin | CNAME | troya | 0 | | radyo-tolga | CNAME | troya | 0 | | sevgi-canlier | A | 193.140.248.37 | 0 | | edibe-ciftci | A | 193.140.248.38 | 0 | | bulent-kusev | A | 193.140.248.39 | 0 | | yasar-olmez | A | 193.140.248.40 | 0 | | haluk-yaren | A | 193.140.248.44 | 0 | +-------------------------------+-------------------+--------------------------------+-----------+ Tıkların DiliBelgin ÖZAKAR
Web Sitesi İçerik • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar crawlDepth = 0 0http://www.iyte.edu.tr/general.htm 0http://www.iyte.edu.tr/library/index-tr.html 0http://www.iyte.edu.tr/president.htm 0http://www.iyte.edu.tr/ar_fon_proje/research_project.htm 0http://www.iyte.edu.tr/academic.htm 0http://www.iyte.edu.tr/iyte-press.htm 0http://www.iyte.edu.tr/living.htm 0http://www.iyte.edu.tr/iyte-services.htm 0http://www.iyte.edu.tr/search.htm 0http://likya.iyte.edu.tr/announcements/2002-2003Takvim/2002- 2003AkademikTak.html Tıkların DiliBelgin ÖZAKAR
İYTE Web Madenciliği Veritabanı • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar logfile(user, date, time, rtime, demand, url, status) links(page_no, url, type, keyword, rank, status) pageviews(page_no,title,type,keyword,cr_date,upd_date,rank) users(user, type, user_ip, depcode) departments(depcode, dep_name, faculty, start_ip, end_ip) errors(date, time, message) Tıkların DiliBelgin ÖZAKAR
Günlük Erişim Grafiği (2000-06-20 ile 2002-01-31tarihleri arasında) • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar Minimum günlük erişim : 74 Toplam erişim : 10.740.138 Maximum günlük erişim : 46.552 Kayıtlı kullanıcı erişimleri : 85.353 Ortalama günlük erişim : 18.296 Tıkların DiliBelgin ÖZAKAR
Günlük Hata Grafiği (1999-08-19 ile 2002-01-31 tarihleri arasında) • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar Minimum günlük hata : 1 Maximumgünlük hata :223.210 Ortalama günlük hata :1.109 Tıkların DiliBelgin ÖZAKAR
Sorgu Çeşitleri • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar • Üniversite içi ve dışı kullanıcıların dağılımı • Kullanım sürelerinin günlere ve saatlere göre dağlımı • Sayfalara göre istemlerin dağılımı • Ulaşılmayan sayfalar • Ulaşılamayan linkler • Hataların günlere ve sürelere göre dağılımı • İstemlerin statülerine göre dağılımı Tıkların DiliBelgin ÖZAKAR
Sonuç • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar • IYTE WUM Sistemi genel web kullanım madenciliği konusunda veritabanı yaklaşımı getiren bir çalışma • Sistem veri madenciliği prosesinin tüm adımlarını içermekte • Web sorumlusu için faydalı bir araç Tıkların DiliBelgin ÖZAKAR
Planlanan Çalışmalar • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar • Kullanıcı Önyüzü • Veri Madenciliği Algoritmaları • IYTE Web Sunucusu ile Entegrasyon Tıkların DiliBelgin ÖZAKAR
Referanslar [1] Oren Etzioni, The World Wide Web: Quagmire or gold mine. Communications of the ACM, 39(11):6568, (1996) [2] S.K.Madria, S.S.Bhowmick, W.K.Ng, and E.P.Lim, Research issues in Web data mining. In Proceedings of Data Warehousing and Knowledge Discovery, First International Conference, DaWaK '99, sayfa 303312 , (1999) [3] R. Cooley, Web Usage Mining: Discovery and Application of Interesting Patterns from Web data. Ph.D. thesis, Dept. of Computer Science, University of Minnesota, (2000) [4] R. Agrawal and A. Srikant, Fast algorithms for mining association rules. Proc. VLDB'94, sayfa 487-499, (1994) [5] B. Özakar, Finding and evaluating patterns in Web Repositories using data mining algorithms and database technologies, Master Tezi, 2002, İzmir Yüksek Teknoloji Enstitüsü Bilgisayar Mühendisliği Bölümü Tıkların DiliBelgin ÖZAKAR
İlginize Teşekkürler Tıkların DiliBelgin ÖZAKAR