240 likes | 1.01k Views
Veri Madenciliğinde Sınıflandırma Algoritmalarının Bir Örnek üzerinde Karşılaştırılması. Yrd. Doç. Dr. Abdullah BAYKAL Uzman Cengiz COŞKUN Konu şmacı : Cengiz Coşkun 02.02.2011. Kullanılan Araçlar. WEKA (Waikato Environment for Knowledge Analysis)
E N D
Veri Madenciliğinde Sınıflandırma Algoritmalarının Bir Örnek üzerinde Karşılaştırılması Yrd. Doç. Dr. Abdullah BAYKAL UzmanCengiz COŞKUN Konuşmacı : Cengiz Coşkun 02.02.2011
Kullanılan Araçlar • WEKA (Waikato Environment for Knowledge Analysis) • SEER (Surveillance Epidomology and End Results)
WEKA • Ücretsiz • Açık Kaynak Kodlu • Geniş bir Veri Madenciliği Yöntemleri yelpazesi • Kullanıcı dostu arayüzü • Metin tabanlı dosyalarına, jdbc sürücüsü bulunan veri tabanlarına ve http protokolü kullanarak web üzerinde dosyalara erişim imkanı
SEER Veri Kaynağı • NCI (National Cancer Institute) tarafından sağlanan akademik kullanıma açık veri kaynağı • 1973 tarihi itibarı ile başlanmış • Farklı Kanser Hastalıklarına ilişkin veriler • Metin tabanlı veri dosyaları • Dokümante edilmiş • İnternet üzerinden erişimi bir sözleşme ile kullanıma açık
Çalışmada Kullanılan SEER veri Kaynağı • 2000-2006 yıllarına ait Greater California, Kentucky, Louisiana ve New Jersey bölgelerindeki Göğüs kanseri hastalıkları verisi (2008 yılı versiyonu) • Metin Tabanlı (ayıraçsız) • 204,949 kayıt • 118 Nitelik • 264 karakterli satırlardan oluşmaktadır
Model Başarımı - I • Karışıklık Matrisi
Model Başarımı - II • Ölçütler • Hata Oranı • Kesinlik • Duyarlılık • F-ölçütü
Karşılaştırma Öncesi İşlemler • Kaynak Araştırması • Veri Önişleme • Nitelik seçilmesi (Uzman yardımı ile) • Veri Kaynağının Arff formatına çevrilmesi (C programlama ile) • Eksik verilerin doldurulması • Sınıfların belirlenmesi • Nitelik azaltma • Veri azaltma ile Kayıt sayısı 60,948’a indirgendi
Sınıf Tayini • Hasta savaşı kazandı mı? • Kazandı - 1 • Kazanamadı – 2 • Sınıfı Belirlemede kullanılan nitelikler • VSR – Vital Status recode (Hasta hayatta mı?) • STR – Survival Time recode (Hayatta kalma süresi - ay) • COD – Cause of Death (Ölüm Sebebi)
Sınıf Tayininde Kullanılan Metod • if (VSR ==1) /* Hayatta mı? VSR=1 ise hayatta*/ { /* Hayatta ve 5 yıldan fazla ise 1 sınıfına ata */ if (STR >60) Sınıf =1 } else { /* Hayatta Değil ve kanser sebepli ölüm ise 2 sınıfına ata */ if (COD == “KANSER”) Sınıf =2 }
Karşılaştırılan Algoritmalar • Karşılaştırılacak Sınıflandırma Algoritmalarının seçimi • Literatürdeki benzer çalışmalar • Popülerlik • Karar Ağaçları – J48 • Bayes – NaiveBayes • Regresyon – Lojistik Regresyon • Örnek Tabanlı Sınıflandırma - KStar
Karar Ağaçları – J48 • Karışıklık Matrisi a b <-- Öngörülen Sınıf 40629 1459 | a = 1 6849 12011 | b = 2 • Karşılaştırma Ölçütleri
İstatistiksel Sınıflandırma - NaiveBayes • Karışıklık Matrisi a b <-- classified as 39627 2461 | a = 1 6555 12305 | b = 2 • Karşılaştırma Ölçütleri
Regresyon – LojistikRegresyon • Karışıklık Matrisi a b <-- classified as 39420 2668 | a = 1 6255 12605 | b = 2 • Karşılaştırma Ölçütleri
Örnek Tabanlı Sınıflandırma- KStar • Karışıklık Matrisi a b <-- classified as 41247 841 | a = 1 8031 10829 | b = 2 • Karşılaştırma Ölçütleri
Modellerin Karşılaştırılması • Karşılaştırma Tablosu • Sıralma : J48, Kstar, LojistikRegresyon ve NaiveBayes
Bulgular ve Tartışma-I • Birbirine yakın doğruluk derecesinde sonuçlar • J48 algoritması en iyi doğruluk derecesine sahip • SEER göğüs kanseri üzerinde yapılan diğer akademik çalışmalarla aynı sonucu vermiştir. (C4.5, J48) • Diğer çalışmalarda doğruluk dereceleri daha iyi • Farklı veri kullanılmış olması • Önişleme prosedürü • Uygulama aşamasındaki parametre seçimi
Bulgular ve Tartışma - II • Veri Madenciliği Algoritma Karşılaştırmalarına yönelik eleştiriler • Prof. Dr. D.J. Hand; Institute of Mathematical Science “Classifier Technology and the Illusion of Progress” • Başarım kullanılan veriye bağlıdır. • Başarım veri önişleme basamağına bağlıdır • Başarım kullanıcıya bağlıdır • Literatürdeki pekçok çalışma illuzyon yaratmaktadır • Aslında, klasik istatistiksel metotlar yeni kompleks algoritmalardan daha başarılı olabilirler.
Bulgular ve Tartışma - III • Eleştirilerde haklılık payı büyüktür • Ancak, • Karşılaştırma yöntemi Veri madenciliği uygulamalarında başarımı arttıracak bir metot olarak kullanılmalıdır. • Yeni geliştirilen metotların başarım derecesinin ve geçerliliğinin testinde büyük önem arz edecektir.
İleriye Dönük Çalışmalar - I • Bu çalışma farklı kategorilerdeki veri grupları üzerinde yapılabilir • Daha geniş sayıda algoritmalar kullanılarak farklı algoritmalar karşılaştırılabilir • Bu çalışmada Weka Aracı kullanılmıştır. Farklı Veri Madenciliği Araçları kullanılarak çalışma genişletilebilir.
İleriye Dönük Çalışmalar - II • Her Algoritmanın başarımını maximize edecek parametreler bulunarak karşılaştırma bu şekilde yapılabilir. • Algoritmaların başarımı dışında, hızı ve hafıza kullanımı gibi diğer metrikler üzerinde bir karşılaştırma da ayrı bir çalışma konusu olarak ele alınabilir.