280 likes | 637 Views
Doğrudan Pazarlama Modellerİ İçİn SInIflandIrma Yöntemlerİnİn KarşIlaştIrIlmasI. YAEM 2010 . 30/06/2010. Ekrem Duman 1 , Yeliz Ekinci 1 , Aydın Tanrıverdi 1 , Natali Maya Kan 1 , Ferhat Yücel 2 1 Dogus Universit esi , Acıbadem, Istanbul 2 Intertech A.Ş., Gayrettepe, Istanbul. İçerik. Amaç
E N D
Doğrudan Pazarlama ModellerİİçİnSInIflandIrmaYöntemlerİnİnKarşIlaştIrIlmasI YAEM 2010 30/06/2010 Ekrem Duman1, Yeliz Ekinci1, Aydın Tanrıverdi1, Natali Maya Kan1, Ferhat Yücel2 1Dogus Universitesi, Acıbadem, Istanbul 2Intertech A.Ş., Gayrettepe, Istanbul
İçerik Amaç GİRİŞ İKİLİ SINIFLANDIRMA İÇİN ALGORİTMALAR Lojistik Regresyon Yapay Sinir Ağları Chaid (otomatik ki-kare etkileşim belirleyicisi ) İKİLİ SINIFLANDIRMALAR İÇİN PERFORMANS KRİTERLERİ DENEYSEL SONUÇLAR SONUÇLAR VE İLERİKİ ARAŞTIRMALAR YAEM 2010 30/06/2010
Amaç Belirli bir ürünü alan ya da almayan banka müşterilerinin sınıflandırılması için uygun metotlar
Giriş • Müşterileri alıcı ve alıcı olmayan diye sınıflara ayırma problemi, düşük yanıt oranı nedeniyle, doğrudan pazarlama verileri toplam veri sayısına oranla çok az pozitif örnek içerirlerverideki sınıflar arası farklılık problemi • Lojistik regresyon, Yapay sinir ağları, CHAID yöntemleri değişik derecelerde veriler arası sınıf farklılıklarına sahip; aynı zamana ait öğrenme, test kümelerine ve farklı bir zamana ait veri kümesine uygulanmıştır.
Giriş Bankacılık endüstrisinde, bankalar müşterilerinin işlemleriyle ilgili çok yüksek sayıda veri tutmakla Bu durum bankaların müşterilerinin gelecekteki davranışlarıyla ilgili tahminde bulunmalarına olanak sağlamaktadır.
Giriş Modellerin performansları doğruluk(accuracy), AUC (eğri altındaki alan), isabet oranı (hit ratio), kaldıraç oranı (lift), ve yakalama oranı (capture) ile değerlendirilmiştir. Literatürde modelleri değerlendirmek için genel olarak AUC ve accuracy performans ölçüleri kullanılmaktadır. Biz bu çalışmada, başka bir zamana ait veri seti için alma ihtimali yüksek olarak tahmin edilen üst yüzdelikler için isabet oranının ve dolayısıyla kaldıraç oranı ve yakalama oranının kullanılmasını öneriyoruz.
İKİLİ SINIFLANDIRMA İÇİN ALGORİTMALAR. Lojistik regresyon. Lojistik regresyon modellerinde bağımlı değişken iki ya da ikiden fazla düzeye sahip kategorik değişkenlerdir. Bağımsız değişken ise kategorik ya da nümerik olabilir. Lojistik regresyon sınıflandırma problemi için risk tahmin modellerinde, finansal sınıflandırma modellerinde ve özellikle doğrudan pazarlama modellerinde oldukça popülerdir.
İKİLİ SINIFLANDIRMA İÇİN ALGORİTMALAR Yapay Sinir Ağları YSA insan beyninden esinlenerek geliştirilmiş, ağırlıklı bağlantılar aracılığı ile birbirine bağlanan işlem elemanlarından oluşan paralel ve dağıtılmış bilgi işleme yapılarıdır. En önemli özelliği, deneyimlerden (tecrübe) yararlanarak öğrenebilmesidir. Böylece, öğrenen yapay sinir ağı, yeni değerlerle karşılaştığında, öğrenme sırasında girdilere atanan ağırlıkları kullanarak çıktı değerlerini bulur.
x1 y … xn İKİLİ SINIFLANDIRMA İÇİN ALGORİTMALAR bir saklı katmana sahip yapay sinir ağı yapısı.
İKİLİ SINIFLANDIRMA İÇİN ALGORİTMALAR CHAID CHAID bir karar ağacı yapısıdır. Tüm veri setinden başlayarak alt kümeler arka arkaya iki ya da daha fazla alt düğüme ayrılır. CHAID her altbölüm için, hangi değişkenin sonuç değişkenini en iyi şekilde tahmin ettiğine ve hangi değişkene göre ayrım yapacağına dair kararı ki-kare testi kullanarak yapar. Chaid algoritmasının doğrudan pazarlama konusundaki performansı kanıtlandığı için biz de Chaid algoritmasını uyguladık.
İKİLİ SINIFLANDIRMA İÇİN PERFORMANS ÖLÇÜTLERİ Table 1- The confusion matrix (karışıklık matrisi)
İKİLİ SINIFLANDIRMA İÇİN PERFORMANS ÖLÇÜTLERİ Hit rate, doğru olarak pozitif etiketlenmiş örnek sayısının toplam pozitif olarak etiketlenmiş örnek sayısına oranıdır. Hit rate: TP/(TP+FP)
İKİLİ SINIFLANDIRMA İÇİN PERFORMANS ÖLÇÜTLERİ Accuracybir sınıflandırıcının tüm veri için doğru tahmin oranını gösterir. Accuracy: (TP+TN)/(TP+FN+FP+TN) Accuracy, pozitif olan bir örneğe negatif demekle, negatif olan bir örneğe pozitif demenin maliyetini aynı aldığı için bazı durumlarda uygun bir performans ölçütü olmayabilir. Capture rate,doğru olarak tahmin edilen pozitif örneklerin sayısının veri içindeki gerçek pozitif örnek sayısına oranıdır. Capture rate: TP / (TP+FN)
İKİLİ SINIFLANDIRMA İÇİN PERFORMANS ÖLÇÜTLERİ Eğri altındaki alan(AUC) sınıflandırıcının yanlış sınıflandırma yapmamadaki yeteneğini gösterir. AUC, rassal olarak seçilen pozitif bir örneğin rassal seçilen negatif bir örneğe göre daha üstte sıralanma olasılığını tahmin etmeyi sağlar. Sınıflandırmayı mükemmel yapabilen bir modelin alan indexi 1.0 iken, Ayırma gücü hiç olmayan bir model 0.5 alan indexine sahiptir. Daha yüksek AUC’ ye sahip olan model diğerlerine göre daha iyi bir performans göstermiş olur. Lift rate, Verilen bir ondalık dilim için, sınıflandırıcının belirlediği TP sayısının hiç model olmadığında o dilime düşmesi beklenen pozitif örnek sayısına oranıdır.
Deney sonuçları Doğrudan pazarlamada, bütçe kısıtlarından dolayı bütün müşterilere değil sadece alma olasılığı üst sıralarda olan müşterilere ulaşılır. Modelin tüm verideki performansı, modelin bu amaca yönelik başarısını göstermeyebilir. Bu çalışmada modellerin performansları üst yüzde bir, yüzde beş ve yüzde onluk dilimlerde ölçülmüştür.
Deney sonuçları Orijinal örneklem veri, 897 pozitif örnek (ürünü alan) ve 4486 negatif örnek (ürünü almayan) içermektedir. Bu veri setini, eğitim kümesi(yüzde 70) ve test kümesi (yüzde 30) olarak ikiye ayırdık. Değişik sınıflar arası veri farklılığı durumlarında en başarılı modeli bulmak için değişik farklılık durumları oluşturduk.
Deney sonuçları Table 2 - Number of positive and negative records for different imbalance cases.
Deney sonuçları Modellerin performansları tüm veri setinde doğruluk oranı ve AUC ile ölçülürken, yüksek alma olasılığına sahip dilimler için hit ratio, lift ve capture kullanılmıştır. Üst % 1, % 5ve% 10’ luk sonuçlar değişik algoritmaların verdiği değişik satınalma olasılıklarının azalan olarak sıralanması sonucu oluşturulmuştur.
Deney sonuçları • En üst % 1 lik dilimde her denge durumunda logistic regresyonun en iyi sonucu verdiği görülmektedir. • Üst yüzde beş dilimde 1:1,1:2,1:3,1:5 sınıflar arası veri farklılığı için lojistik regresyon en yüksek performans değerlerine sahiptir, fakat yapay sinir ağları 1:6 ve 1:10 durumlarında daha iyi sonuç vermiştir. • % 10 luk veri için , YSA üç defa en iyi sonucu vermiştir. • Bütün veri setinde, 1:1, 1:2, 1:3, durumları için AUC ve doğruluk oranı aynı algoritmayı en iyi olarak seçmiştir. Sınıflar arası farklar arttıkça, iki performans ölçütüne göre sonuçlar da değişmiştir.
Deney sonuçları Literatürde doğruluğun, sınıflandırma için en uygun performans ölçütü olduğu belirtilse de, bu genelleme, en üst % 1, 5 ve 10’luk dilimlerdeki başarım sonuçlarıyla çatışmaktadır. Örneğin, 1:1 durumunda CHAID en iyi sonucu vermiş gibi gözükmektedir (AUC’ye göre) ancak ilk 17 müşterinin tahminine baktığımızda, (1%) lojistik regresyon ve YSAnın daha iyi sonuç verdiği görülmüştür (17/17 ve 16/17).
Deney sonuçları • Bu çalışma öğrenme kümesi ve test kümesinin dışında model başarısının ayrı bir veri kümesinde ölçülmesi gerektiğini vurgulamaktadır. • Bu sebeple, modelin başarısı bu veri seti için üst yüzde 1, 5 ve 10luk dilimlerde ölçülmüştür (1702, 8509, 17019 ). Veri seti 169777 negatif ve 412 pozitif durum içermektedir. • Ayrıca pazarlama kampanyasının alan kişi sayısının 10 katı kadarına yöneltilebileceği düşünülerek, üst 4120 kişi için de performanslar ölçülmüştür.
YSA, %1lik kısımda 5 durumda ve %5lik kısımda 4 durumda en iyi performansa sahiptir. • % 10 için CHAID en iyi (1:5 durumu hariç) • 4120 müşteri için de CHAID en iyi • Lojistik regresyon oldukça kötü sonuçlar vermiştir • Yapılan deneylerde, test verisi ve diğer veri setinde model başarımları farklı çıkmaktadır
SONUÇ • Test kümesi dışında başka bir veri kümesinde başarımı ölçmek ve ikisinde de en iyi sonucu veren modeli kullanmak • Üst yüzdeliklerde başarım ölçmek • Bunun için isabet, kaldıraç ve yakalama oranlarının kullanılması
İleriki Çalışmalar • Başka sınıflandırma metotları, • Farklı yüzdelik dilimlerdeki performanslar • Üst yüzdelikler için AUC ölçüm yöntemi geliştirilmesi
References • References • [1] Cui, G. 2008. Model selection for direct marketing: performance criteria and validation methods. Marketing Intelligence & Planning 26(3): 75-292. • [2] Japkowicz, N. 2000. The Class Imbalance Problem: Significance and Strategies. In Proceedings of the 2000 International Conference on Artificial Intelligence (IC-AI'2000): 111-117. • [3] Japkowicz, N and Stephen, S. 2002. The class imbalance problem: A systematic study. Intelligent Data Analysis 6: 429–449. • [4] Baesens, et.al. 2003. Benchmarking state-of-the-art classification algorithms for credit scoring. Journal of the Operational Research Society 54: 627–635. • [5] Camdeviren H. A.;Yazıcı A.C.; Akkus Z.; and Sungur M. A. 2007. Comparison of logistic regression model and classification tree:An application to postpartum depression data. Expert Systems with Applications 32: 987–994. • [6] Fadlalla, A. 2005. An experimental investigation of the impact of aggregation on the performance of data mining with logistic regression. Information & Management 42: 695–707. • [7] Hecht-Nielsen, Robert. 1988. Theory of the Backpropagation Neural Network, 1-593. • [8] Hinton, G. E. (1987). Connectionist learning procedures, (Tech.Rep. No. CS-87-115). Carnegie-Mellon University, Pittsburgh,PA. • [9] Lippmann, R. P. 1987. An introduction to computing with neural nets. IEEE ASSP Magazine 4: 4-22. • [10] Kass, G.V. 1980. An Exploratory Technique for Investigating Large Quantities of Categorical Data. Journal of Applied Statistics 29 (2): 119-127. • [11] Michael, J. A. and Gordon, S. L. 1997. Data mining technique: For marketing, sales and customer support. New York: Wiley. • [12] Chan, F.; Cheing, G.; Chung Chan, J. Y.; Rosenthal, D. A.; and Chronister, J. 2006. Predicting employment outcomes of rehabilitation clients with orthopedic disabilities: A CHAID analysis. Disability and Rehabilitation 28: 257−270. • [13] Ture, M.; Tokatli, F.; and Kurt, I. 2009. Using Kaplan–Meier analysis together with decision tree methods (C&RT, CHAID, QUEST, C4.5 and ID3) in determining recurrence-free survival of breast cancer patients. Expert Systems with Applications 36: 2017–2026. • [14] Duman, E. 2006. Comparison of decision tree algorithms in identifying bank customers who are likely to buy credit cards. In Proceedings of the Workshop on Information technologies for Business, Seventh International Baltic Conference on Databases and Information Systems. Kaunas, Lithuania, 3-6 July. • [15] Sokolova, M and Lapalme, G. 2009. A systematic analysis of performance measures for classification tasks. Information Processing and Management 45: 427–437. • [16] Zahavi, J. and Levin, N. 1997. Applying neural computing to target marketing. Journal of Direct Marketing 11(4): 76-93.
teşekkürler, yelizekinci