1 / 27

WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ

WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ. Işıl ÇINAR, Muhammet Serkan ÇINAR, Hasan Şakir BİLGE isil.cinar@gazi.edu.tr , mscinar@hacettepe.edu.tr , bilge@gazi.edu.tr. İÇERİK. Veri Madenciliği ve Web Madenciliği Kullanılan Teknikler Literatürdeki Yaklaşımlar

silver
Download Presentation

WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. WEB SUNUCU LOGLARININWEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ Işıl ÇINAR,Muhammet Serkan ÇINAR,Hasan Şakir BİLGE isil.cinar@gazi.edu.tr, mscinar@hacettepe.edu.tr, bilge@gazi.edu.tr

  2. İÇERİK • Veri Madenciliği ve Web Madenciliği • Kullanılan Teknikler • Literatürdeki Yaklaşımlar • Web Madenciliği Uygulama Sistem Mimarisi • Önişleme Adımları • Karşılaşılan Problemler • WEKA’da Analiz • Sonuç

  3. Veri Madenciliği ve Web Madenciliği • Veri madenciliği basit ve açık olmayan, önceden bilinmeyen ve yararlı olan örüntülerin ya da bilginin çok büyük miktarlardaki veriden çıkarılmasıdır. • Web madenciliği ise veri madenciliği tekniklerinin kullanılarak web belgelerinden ve servislerinden bilginin ayıklanması, ortaya çıkarılması ve tahlil edilmesidir.

  4. Web Madenciliği Sınıflandırması

  5. Kullanılan Teknikler • İstatistik • Sınıflandırma (Classification) • Kümeleme (Clustering) • Birliktelik (Association) • Regresyon(Regression) • Tahmin Etme (Forecasting) • Sıralı Desen

  6. Literatürdeki Yaklaşımlar Literatür çalışmaları 2 açıdan ele alınmıştır. • Web sunucu loglarının analizi, veri madenciliği ve web madenciliği uygulamaları, çıkarılan istatistiksel sonuçlar • Log analizinde saldırıların tespit edilmesi, saldırı çeşitleri ve kullanılan yöntemler

  7. Literatürdeki Yaklaşımlar Web log dosyalarının sınıflandırılması ve önişleme Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından yararlanma E-ticaret alanında web log madenciliği World Wide Web Sunucuları için Durum Tabanlı Saldırı Tespit Sistemi Web Uygulamalarında Güvenlik Modeli Kullanılarak Anomali Tespiti Web günlükleri aracılığıyla web kullanım desen analizi

  8. 5- “Web Uygulamalarında Güvenlik Modeli Kullanılarak Anomali Tespiti” Sistem mimarisi aşağıdaki gibidir :

  9. Web Madenciliği Uygulama Sistem Mimarisi Verinin Alanlara Ayrılması Veri Temizleme Veri Seçimi ve Entegrasyonu ExcelConvert Programı ile Arff formatına dönüşüm Temizlenen Sunucu Erişim Dosyası Sunucu Erişim Dosyası WEB MADENCİLİĞİ ALG. UYGULAMALARI Temizlenen Sunucu Hata Dosyası Sunucu Hata Dosyası WEKA

  10. Web Sunucusu Log Dosyaları Genel olarak kaydedilen verinin miktarına göre değişen iki format mevcuttur: “CommonLog Format” ve “CombinedLog Format”.

  11. Önişleme Adımları • Log dosyası Common Log Formatına Göre Excel’e aktarılmıştır. • Identity ve user alanlarında veri olmadığı için bu alanlar silinmiştir. • Zamanla ilgili alanlar birleştirilmiştir. • Önişlemeyi daha hassas gerçekleştirebilmek üzere veriler Access veritabanına aktarılmıştır.

  12. Önişleme Adımları • Resim ve diğer bağlı olan dosyalar olmadan kaç ziyaret olduğunu tespit etmek amacıyla .gif, .jpg, .css,.js, .png, javascript uzantılı dosyalar silinmiştir.

  13. Arff formatına dönüştürme

  14. Karşılaşılan Problemler • Arff Convertor programı ile dönüşüm yapıldığı sırada dosyanın içeriğine arff formatına uymayan yabancı karakterler eklendiği görülmüştür ve bu karakterler temizlenmiştir. Hataların diğer sebepleri arasında arff formatında tek tırnak (‘), noktalı virgül (;), boşluk( ) gibi karakterlerin bulunması yer almaktadır.

  15. Karşılaşılan Problemler • İşlenen verinin çok büyük olmasından kaynaklanan bellek yetersizliği hatası alınmıştır.

  16. Karşılaşılan Problemler Bu hatayı gidermek için Weka’nın kullandığı bellek miktarı artırılmıştır.

  17. Weka’da Analiz

  18. Weka’da Analiz

  19. K-Means ile kümeleme (durum alanı)

  20. Apriori ile oluşan birliktelikler

  21. IP numarası ve tarih arasındaki ilişki

  22. IP Numarası ve İstek Yapılan URL arasındaki ilişki

  23. Tarih ve İstek Yapılan URL arasındaki İlişki

  24. Diğer Sonuçlar • Sayfaya ait robots.txt dosyasında yasaklanmış olan url’ler aşağıdaki gibidir: • User-agent: *Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ ...

  25. Sonuç • Bu çalışma ile web günlük iz bilgileri üzerinde web madenciliği konusunda yapılabilecekler hakkında bilgi verilerek uygulama ile bir prototip oluşturulmuştur. • Veri madenciliğinde bulunan veri ön işleme, veri tanımlama, veri madenciliği teniklerinin uygulanması ve sonuçların sunulması adımlarından oluşan web madenciliği sistem mimarisi sunulmuştur.

  26. TEŞEKKÜRLER.

More Related