1 / 41

AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARININ KARŞILAŞTIRILMASI

AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARININ KARŞILAŞTIRILMASI. Arş. Gör. Mümine KAYA Adana Bilim ve Teknoloji Üniversitesi Bilgisayar Mühendisliği. Doç. Dr. Selma Ayşe ÖZEL Çukurova Üniversitesi Bilgisayar Mühendisliği. SUNUM AKIŞI. 1. Giriş 2. Çalışmanın Amacı

ninon
Download Presentation

AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARININ KARŞILAŞTIRILMASI

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARININ KARŞILAŞTIRILMASI Arş. Gör. Mümine KAYA Adana Bilim ve Teknoloji Üniversitesi Bilgisayar Mühendisliği Doç. Dr. Selma Ayşe ÖZEL Çukurova Üniversitesi Bilgisayar Mühendisliği Akademik Bilişim 2014 (AB'14)

  2. SUNUM AKIŞI 1.Giriş 2.Çalışmanın Amacı 3.Veri Madenciliği Süreci 4.Açık Kaynak Kodlu Veri Madenciliği Yazılımları 5.Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması 6.Sonuç ve Öneriler Akademik Bilişim 2014 (AB'14)

  3. GİRİŞ • Günümüzde bilişim teknolojisi, veri iletişim teknolojileri ve veri toplama araçları oldukça gelişmiş ve yaygınlaşmış; bu hızlı gelişim büyük boyutlu veri kaynaklarının oluşmasına neden olmuş ve beraberinde bazı problemlere yol açmıştır [1]: • Anlamlı bilginin ortaya çıkarılması • Yararlı bilginin ortaya çıkarılması Akademik Bilişim 2014 (AB'14)

  4. VERİ MADENCİLİĞİ • Daha önceden bilinmeyen, geçerli ve uygulanabilir bilgilerin geniş veri kaynaklarından elde edilmesi işlemidir [2]. • Büyük ölçekli veriler arasından yararlı ve anlaşılır olanların bulunup ortaya çıkarılması işlemidir [1]. Akademik Bilişim 2014 (AB'14)

  5. VERİ MADENCİLİĞİNİN GELENEKSEL VERİTABANI SORGULARINDAN FARKI Geleneksel Veri Tabanları SORGU SQL Sorgulama Dili Veri Madenciliği SORGU ??? Akademik Bilişim 2014 (AB'14)

  6. VERİ MADENCİLİĞİNİN AMACI • Ham veriyi anlamlı, etkin ve yararlı olan bilgiye dönüştürebilmektir [3]. Akademik Bilişim 2014 (AB'14)

  7. ÇALIŞMANIN AMACI • Bu çalışmada ise diğer çalışmalardan farklı olarak [4, 5 ve 6] : • 6 adet veri madenciliği yazılımı daha detaylı karşılaştırılmıştır. • Böylece ihtiyaca göre daha etkin bir şekilde kullanılacak olan yazılımlar belirlenmiştir. Akademik Bilişim 2014 (AB'14)

  8. VERİ MADENCİLİĞİ SÜRECİ Şekil 1. Bilgi Keşfi Süreci [7, 8] Akademik Bilişim 2014 (AB'14)

  9. VERİ MADENCİLİĞİNİN KULLANIM ALANLARI • Bankacılık, • Borsa, • Pazarlama Yönetimi, • Perakende Satış, • İşaret İşleme, • Sigortacılık, • Telekomünikasyon, • Elektronik Ticaret, • Sağlık, • Tıp, • Biyoloji, • Genetik, • Endüstri, • Eğitim, • İstihbarat, • Bilim ve Mühendislik gibi birçok dalda [1, 2]. Akademik Bilişim 2014 (AB'14)

  10. VERİ MADENCİLİĞİ YAZILIMLARI Ticari ve açık kaynak kodlu olmak üzere 2 gruba ayrılmaktadır [4, 5]. Akademik Bilişim 2014 (AB'14)

  11. ÇALIŞMADA KULLANILAN AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARI • KEEL • KNIME • ORANGE • R • RAPIDMINER (YALE) • WEKA Akademik Bilişim 2014 (AB'14)

  12. KEEL • Keel (http://www.keel.es/), • İspanya Ulusal Bilim Projeleri Kurumunun desteği • Granada Üniversitesi tarafından geliştirilme • Java dilinde • Kümeleme gibi klasik veri madenciliği algoritmaları açısından zengin olmama • Fuzzy sınıflandırıcılar, Yapay zekâ tabanlı sınıflandırma ve Kural tabanlı kümeleme algoritmalarının birçok çeşidini içerme [6]. • Veri görselleştirme açısından en zayıf Akademik Bilişim 2014 (AB'14)

  13. KNIME • Konstanz Information Miner (http://www.knime.org/) • Konstanz Üniversitesi görsel veri madenciliği araştırma grubu tarafından • Eclipse Rich Client Platform üzerinde geliştirilme • Genişletilebilme özellikleri ile ön planda • Kullanıcılara bir yazılım geliştirme kiti sunarak kullanıcıların kendi modüllerini yazabilmelerini sağlayan tek uygulama [6] • Kurulum şartı yok • .txt uzantılı metin dosyalarından veya .arff, .table formatından veri alabilme • En zengin görselleştirme araçları sunma Akademik Bilişim 2014 (AB'14)

  14. ORANGE • Orange (http://orange.biolab.si/), • Slovenya Ljubljana Üniversitesi Bilgisayar ve Enformatik Bilimleri Bölümü yapay zekâ araştırmaları ekibi tarafından [6] • C++ dili ile geliştirilme • Yazılımın ara yüzleri ve grafik ortamı  Qt3 kütüphanesi ve Python kullanılarak geliştirilme [6] • Görselleştirme açısından zayıf • Yalnızca metin dosyalarından veri alma Akademik Bilişim 2014 (AB'14)

  15. R • R (http://www.r-project.org/), • Robert Gentleman ve RossIhaka tarafından • Auckland Üniversitesi İstatistik Bölümü • Grafikler, istatistiksel hesaplamalar ve veri analizleri için geliştirilme[4]. • Unix makinelerde yaygın • Veri madenciliği yazılımı olarak çok fazla tercih edilmeme Akademik Bilişim 2014 (AB'14)

  16. RAPIDMINER (YALE) • RapidMiner (http://rapidminer.com/), • RalfKlinkenberg, IngoMierswa ve SimonFischer tarafından • Dortmund Teknoloji Üniversitesi Yapay Zeka Biriminde geliştirilme • Yale (http://yale.sourceforge.net/) ise, • Yale üniversitesi bilim adamları tarafından • Java dili kullanılarak geliştirilme. • Yale 2007 yılından itibaren RapidMiner (http://rapidminer.com/) adı altında yazılım olarak kullanılmaya devam etmektedir. Akademik Bilişim 2014 (AB'14)

  17. RAPIDMINER (YALE) • 22 adet dosya formatı • Veri Madenciliği ve Makine Öğrenme Algoritmalarını da kapsama • Weka gibi oldukça fazla algoritma • Veri Analizi, Önişleme, Sınıflama, Kümeleme, Birliktelik Kuralları Çıkarımı, Nitelik Seçimi işlemleri • Oracle, MS SQL Server, PostgreSQL, MySQL, JDBC, Sybase, Access, IBM DB2, Ingres veritabanlarını ve metin dosyalarını destekleme [6] • Excel dosyalarıyla bağlantı • MS Windows, GNU/Linux, Mac Os X işletim sistemlerinde kolayca ve hatasız olarak çalışabilme • Görselleştirme ve grafik ara yüzü açısından en zengin • İçerisinden script yazılabilme Akademik Bilişim 2014 (AB'14)

  18. WEKA • Weka (http://www.cs.waikato.ac.nz/ml/weka/), • Waikato Environment for Knowledge Analysis • Waikato Üniversitesinde geliştirilme • Java platformu üzerinde geliştirilme • GNU genel kamu lisansı altında • Java Database Connectivity (JDBC) kullanarak SQL veri tabanlarına erişim sağlama [16] • Makine öğrenmesi algoritmalarını içerme • Önişleme, sınıflandırma, kümeleme, birliktelik kuralı madenciliği, özellik seçimi ve görselleştirme • .arff (Attribute Relationship File Format) dosya formatı üzerinde çalışma Akademik Bilişim 2014 (AB'14)

  19. AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARININ KARŞILAŞTIRILMASI Akademik Bilişim 2014 (AB'14)

  20. AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARININ KARŞILAŞTIRILMASI Akademik Bilişim 2014 (AB'14)

  21. AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARININ KARŞILAŞTIRILMASI Akademik Bilişim 2014 (AB'14)

  22. AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARININ KARŞILAŞTIRILMASI Akademik Bilişim 2014 (AB'14)

  23. SINIFLANDIRMA ALGORİTMALARI AÇISINDAN KARŞILAŞTIRMA Akademik Bilişim 2014 (AB'14)

  24. KÜMELEME ALGORİTMALARI AÇISINDAN KARŞILAŞTIRMA Akademik Bilişim 2014 (AB'14)

  25. BİRLİKTELİK KURALLARI AÇISINDAN KARŞILAŞTIRMA Akademik Bilişim 2014 (AB'14)

  26. NİTELİK SEÇİMİ AÇISINDAN KARŞILAŞTIRMA Akademik Bilişim 2014 (AB'14)

  27. VERİ ÖN İŞLEME AÇISINDAN KARŞILAŞTIRMA Akademik Bilişim 2014 (AB'14)

  28. SONUÇ VE ÖNERİLER • Bu çalışmada açık kaynak kodlu ve popüler olan 6 adet veri madenciliği yazılımı birçok açıdan incelenmiştir: • Kullanıcı dostluğu, • Desteklediği dosya formatları, • İçerdikleri algoritmalar ve • İçerdikleri makine öğrenmesi paketleri Akademik Bilişim 2014 (AB'14)

  29. SONUÇ VE ÖNERİLER • Tarafımızca en kullanışlı bulunan yazılımlar: • Weka, • RapidMiner (Yale), • Keel olmuştur. • Bu 3 yazılım arasından da öğrenim ve kullanım kolaylığı açısından en başarılı yazılım tarafımızca Weka yazılımı olarak belirlenmiştir. Akademik Bilişim 2014 (AB'14)

  30. SONUÇ VE ÖNERİLERKEEL Akademik Bilişim 2014 (AB'14)

  31. SONUÇ VE ÖNERİLERKEEL Akademik Bilişim 2014 (AB'14)

  32. SONUÇ VE ÖNERİLERRAPIDMINER Akademik Bilişim 2014 (AB'14)

  33. SONUÇ VE ÖNERİLERRAPIDMINER Akademik Bilişim 2014 (AB'14)

  34. SONUÇ VE ÖNERİLERRAPIDMINER Akademik Bilişim 2014 (AB'14)

  35. SONUÇ VE ÖNERİLERRAPIDMINER Akademik Bilişim 2014 (AB'14)

  36. SONUÇ VE ÖNERİLERWEKA Akademik Bilişim 2014 (AB'14)

  37. SONUÇ VE ÖNERİLERWEKA Akademik Bilişim 2014 (AB'14)

  38. KAYNAKLAR [1] Özkan, Y., "Veri Madenciliği Yöntemleri", Papatya Yayıncılık Eğitim, İstanbul, (2008). [2] Silahtaroğlu, G., "Kavram ve Algoritmalarıyla Temel Veri Madenciliği", Papatya Yayıncılık Eğitim, İstanbul, (2008). [3] Akgöbek, Ö. ve Çakır, F., “Veri Madenciliğinde Bir Uzman Sistem Tasarımı”, Akademik Bilişim’09 - XI. Akademik Bilişim Konferansı Bildirileri, Şanlıurfa, 801-806 (2009). [4] Tekerek, A., “Veri Madenciliği Süreçleri ve Açık Kaynak Kodlu Veri Madenciliği Araçları”, Akademik Bilişim’11 - XIII. Akademik Bilişim Konferansı Bildirileri, 2-4 Şubat, İnönü Üniversitesi, Malatya, 161-169 (2011). [5] Dener, M., Dörterler, M., Orman, A., “Açık Kaynak Kodlu Veri Madenciliği Programları: Weka’da Örnek Uygulama”, Akademik Bilişim’09 - XI. Akademik Bilişim Konferansı Bildirileri, 11-13 Şubat Harran Üniversitesi, Şanlıurfa, 787-796 (2009). [6] Bilgin, T.T., “Veri Akışı Diyagramları Tabanlı Veri Madenciliği Araçları ve Yazılım Geliştirme Ortamları”, Akademik Bilişim’09 - XI. Akademik Bilişim Konferansı Bildirileri, Şanlıurfa, 807-814 (2009). [7] Han, J., Kamber, M., “Data Mining Concepts and Techniques”, Morgan Kaufmann Publishers, (2001). [8] Delen, D., Walker, G., Kadam, A., “Predicting breast cancer survivability: a comparison of three data mining methods”, Artificial Intelligence in Medicine, vol 34, pp113-127 (2005). Akademik Bilişim 2014 (AB'14)

  39. KAYNAKLAR [9] KEEL, http://www.keel.es/, (Erişim Tarihi: 2013). [10] KNIME, http://www.knime.org/, (Erişim Tarihi: 2013). [11] ORANGE, http://orange.biolab.si/, (Erişim Tarihi: 2013). [12] R, http://www.r-project.org/, (Erişim Tarihi: 2013). [13] RAPIDMINER, http://rapidminer.com/, (Erişim Tarihi: 2013). [14] YALE, http://yale.sourceforge.net/, (Erişim Tarihi: 2013). [15] WEKA, http://www.cs.waikato.ac.nz/ml/weka/, (Erişim Tarihi: 2013). [16] Witten, I. H., Frank, E., "Datamining Practical Machine Learning Tools and Techniques," Morgan Kaufmann, Second Edition, San Fransisco, (2005). [17] Chen X., Ye Y., Williams G. , Xu X., “A Survey of Open Source Data Mining Systems”, Proceeding PAKDD'07 Proceedings of the 2007 international conference on Emerging technologies in knowledge discovery and data mining, Pages 3-14 (2007). [18] Zupan B., “Demsar J., Open-source tools for data mining”, Clinics in Laboratory Medicine, 28(1):37-54, (2008). [19] Konjevoda P., Štambuk N., “Open-Source Tools for Data Mining in Social Science”, Theoretical and Methodological Approaches to Social Sciences and Knowledge Management, Asunción López-Varela (Ed.), (2012). [20] Alcalá-Fdez J., Sánchez L., García S., del Jesus M. J., Ventura S., Garrell J. M., Otero J., Romero C., Bacardit J., Rivas V. M., Fernández J. C., Herrera F.. “KEEL: A Software Tool to Assess Evolutionary Algorithms to Data Mining Problems”, Soft Computing, 13(3):307-318 (2009). Akademik Bilişim 2014 (AB'14)

  40. DİNLEDİĞİNİZ İÇİN TEŞEKKÜR EDERİZ… Akademik Bilişim 2014 (AB'14)

  41. SORULAR? Akademik Bilişim 2014 (AB'14)

More Related