1 / 23

Veri Madenciliğinde Sınıflandırma Algoritmalarının Bir Örnek üzerinde Karşılaştırılması

Veri Madenciliğinde Sınıflandırma Algoritmalarının Bir Örnek üzerinde Karşılaştırılması. Yrd. Doç. Dr. Abdullah BAYKAL Uzman Cengiz COŞKUN Konu şmacı : Cengiz Coşkun 02.02.2011. Kullanılan Araçlar. WEKA (Waikato Environment for Knowledge Analysis)

dorit
Download Presentation

Veri Madenciliğinde Sınıflandırma Algoritmalarının Bir Örnek üzerinde Karşılaştırılması

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Veri Madenciliğinde Sınıflandırma Algoritmalarının Bir Örnek üzerinde Karşılaştırılması Yrd. Doç. Dr. Abdullah BAYKAL UzmanCengiz COŞKUN Konuşmacı : Cengiz Coşkun 02.02.2011

  2. Kullanılan Araçlar • WEKA (Waikato Environment for Knowledge Analysis) • SEER (Surveillance Epidomology and End Results)

  3. WEKA • Ücretsiz • Açık Kaynak Kodlu • Geniş bir Veri Madenciliği Yöntemleri yelpazesi • Kullanıcı dostu arayüzü • Metin tabanlı dosyalarına, jdbc sürücüsü bulunan veri tabanlarına ve http protokolü kullanarak web üzerinde dosyalara erişim imkanı

  4. SEER Veri Kaynağı • NCI (National Cancer Institute) tarafından sağlanan akademik kullanıma açık veri kaynağı • 1973 tarihi itibarı ile başlanmış • Farklı Kanser Hastalıklarına ilişkin veriler • Metin tabanlı veri dosyaları • Dokümante edilmiş • İnternet üzerinden erişimi bir sözleşme ile kullanıma açık

  5. Çalışmada Kullanılan SEER veri Kaynağı • 2000-2006 yıllarına ait Greater California, Kentucky, Louisiana ve New Jersey bölgelerindeki Göğüs kanseri hastalıkları verisi (2008 yılı versiyonu) • Metin Tabanlı (ayıraçsız) • 204,949 kayıt • 118 Nitelik • 264 karakterli satırlardan oluşmaktadır

  6. Model Başarımı - I • Karışıklık Matrisi

  7. Model Başarımı - II • Ölçütler • Hata Oranı • Kesinlik • Duyarlılık • F-ölçütü

  8. Karşılaştırma Öncesi İşlemler • Kaynak Araştırması • Veri Önişleme • Nitelik seçilmesi (Uzman yardımı ile) • Veri Kaynağının Arff formatına çevrilmesi (C programlama ile) • Eksik verilerin doldurulması • Sınıfların belirlenmesi • Nitelik azaltma • Veri azaltma ile Kayıt sayısı 60,948’a indirgendi

  9. Sınıf Tayini • Hasta savaşı kazandı mı? • Kazandı - 1 • Kazanamadı – 2 • Sınıfı Belirlemede kullanılan nitelikler • VSR – Vital Status recode (Hasta hayatta mı?) • STR – Survival Time recode (Hayatta kalma süresi - ay) • COD – Cause of Death (Ölüm Sebebi)

  10. Sınıf Tayininde Kullanılan Metod • if (VSR ==1) /* Hayatta mı? VSR=1 ise hayatta*/ { /* Hayatta ve 5 yıldan fazla ise 1 sınıfına ata */ if (STR >60) Sınıf =1 } else { /* Hayatta Değil ve kanser sebepli ölüm ise 2 sınıfına ata */ if (COD == “KANSER”) Sınıf =2 }

  11. Karşılaştırılan Algoritmalar • Karşılaştırılacak Sınıflandırma Algoritmalarının seçimi • Literatürdeki benzer çalışmalar • Popülerlik • Karar Ağaçları – J48 • Bayes – NaiveBayes • Regresyon – Lojistik Regresyon • Örnek Tabanlı Sınıflandırma - KStar

  12. Karar Ağaçları – J48 • Karışıklık Matrisi a b <-- Öngörülen Sınıf 40629 1459 | a = 1 6849 12011 | b = 2 • Karşılaştırma Ölçütleri

  13. İstatistiksel Sınıflandırma - NaiveBayes • Karışıklık Matrisi a b <-- classified as 39627 2461 | a = 1 6555 12305 | b = 2 • Karşılaştırma Ölçütleri

  14. Regresyon – LojistikRegresyon • Karışıklık Matrisi a b <-- classified as 39420 2668 | a = 1 6255 12605 | b = 2 • Karşılaştırma Ölçütleri

  15. Örnek Tabanlı Sınıflandırma- KStar • Karışıklık Matrisi a b <-- classified as 41247 841 | a = 1 8031 10829 | b = 2 • Karşılaştırma Ölçütleri

  16. Modellerin Karşılaştırılması • Karşılaştırma Tablosu • Sıralma : J48, Kstar, LojistikRegresyon ve NaiveBayes

  17. Bulgular ve Tartışma-I • Birbirine yakın doğruluk derecesinde sonuçlar • J48 algoritması en iyi doğruluk derecesine sahip • SEER göğüs kanseri üzerinde yapılan diğer akademik çalışmalarla aynı sonucu vermiştir. (C4.5, J48) • Diğer çalışmalarda doğruluk dereceleri daha iyi • Farklı veri kullanılmış olması • Önişleme prosedürü • Uygulama aşamasındaki parametre seçimi

  18. Bulgular ve Tartışma - II • Veri Madenciliği Algoritma Karşılaştırmalarına yönelik eleştiriler • Prof. Dr. D.J. Hand; Institute of Mathematical Science “Classifier Technology and the Illusion of Progress” • Başarım kullanılan veriye bağlıdır. • Başarım veri önişleme basamağına bağlıdır • Başarım kullanıcıya bağlıdır • Literatürdeki pekçok çalışma illuzyon yaratmaktadır • Aslında, klasik istatistiksel metotlar yeni kompleks algoritmalardan daha başarılı olabilirler.

  19. Bulgular ve Tartışma - III • Eleştirilerde haklılık payı büyüktür • Ancak, • Karşılaştırma yöntemi Veri madenciliği uygulamalarında başarımı arttıracak bir metot olarak kullanılmalıdır. • Yeni geliştirilen metotların başarım derecesinin ve geçerliliğinin testinde büyük önem arz edecektir.

  20. İleriye Dönük Çalışmalar - I • Bu çalışma farklı kategorilerdeki veri grupları üzerinde yapılabilir • Daha geniş sayıda algoritmalar kullanılarak farklı algoritmalar karşılaştırılabilir • Bu çalışmada Weka Aracı kullanılmıştır. Farklı Veri Madenciliği Araçları kullanılarak çalışma genişletilebilir.

  21. İleriye Dönük Çalışmalar - II • Her Algoritmanın başarımını maximize edecek parametreler bulunarak karşılaştırma bu şekilde yapılabilir. • Algoritmaların başarımı dışında, hızı ve hafıza kullanımı gibi diğer metrikler üzerinde bir karşılaştırma da ayrı bir çalışma konusu olarak ele alınabilir.

  22. Dinlediğiniz için Teşekkürler…

More Related