1 / 14

İstatistiksel Sınıflandırma

İstatistiksel Sınıflandırma. Yrd. Doç. Dr. Ayhan Demiriz 7 Mart 2006. Sınıflandırma Problemi. Verilen birden fazla kategoriye (sınıfa) ait verileri (datayı) birbirinden ayırarak önceden bilinen farklı gruplara atama

amena
Download Presentation

İstatistiksel Sınıflandırma

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. İstatistiksel Sınıflandırma Yrd. Doç. Dr. Ayhan Demiriz 7 Mart 2006

  2. Sınıflandırma Problemi • Verilen birden fazla kategoriye (sınıfa) ait verileri (datayı) birbirinden ayırarak önceden bilinen farklı gruplara atama • Eğitici yardımıyla yapılan bu atama yardımıyla yeni karşılaşılan verilerin hangi sınıfa ait olduklarını tahmin etmek • Örnek Uygulamalar: • Kredi Kartı Başvuru Değerlendirme • Kredi Başvurusu Değerlendirme • Hedef Pazarlama • Hastalık Teşhisi • Okul Başvuruları Değerlendirme

  3. Sınıflandırma: İki Adımlı Bir Süreç • Model Oluşturma Ayağı: Önceden bilinen sınıfların tanımlanması • Verilen her örneğin bilinen bir sınıfa ait olduğu kabul edilir • Bu örnek seti “Öğrenme Kümesi (Seti)” olarak adlandırılır • Bulunan model “Karar Ağacı”, “Sınıflandırma Kuralları” veya “Matematiksel Formül” olarak ifade edilir • Modeli Kullanma: Sınıfları bilinmeyen verilerin sınıf tahmini • Modelin doğruluk derecesini kestir • Test kümesinin bilinen sınıf etiketleri tahmin sonucu elde edilen sınıflandırma sonuçları ile karşılaştırılır • Doğruluk derecesi test setindeki tahmin başarı oranıdır • Test kümesi öğrenme kümesinden bağımsızdır fakat aynı dağılımdan geldiği kabul edilir • Eğer modelin doğruluk derecesi kabul edilebilir ise modeli kabullen ve yeni noktaları (verileri) sınıflandırmak için uygula

  4. İstatistiksel Öğrenme ŷ Örnek Oluşturucu Öğrenme Makinası Kayıp fonskiyonu L(y, f(x, ω) ) olarak tanımlanır O zaman öğrenme ile alınan risk (beklenen kayıp) olarak hesaplanır İkili sınıflandırma için kayıp fonsiyonu aşağıdaki gibi verilebilir x Sistem y Örnek oluşturucu, p(x) dağılımına göre x’i (girdi değişkenleri) belirler Sistem, verilen x değerlerine karşı gelen y (çıktı - etiket) değerlerini belirler Öğrenme makinası, f(x, ω) fonksiyonunu öğrenerek verilen x için ŷ değerlerini hesaplar

  5. Diskriminant (Ayrım) Analizi

  6. Bayesci Sınıflandırma • İhtimale Dayalı Öğrenme: Hipotezler için ihtimaller hesaplanır. Bazı öğrenme problemleri için en pratik yöntemdir. • Artan: Önceden bilinenler gözlemlenen veri ile birleştirilebilir. Her örnek bir hipotezin doğruluk olasılığını artırıp azaltabilir. • İhtimale Dayalı Tahmin: Birden fazla hipotez tahmin edilir ve ihtimallerine göre ağırlandırılır. • Temel Karşılaştırma Yöntemi: Bazı durumlarda Bayesci öğrenme yöntemlerinin uygulanması sayısal olarak mümkün olmasa da diğer yöntemlerin optimal karar yüzeylerini karşılaştırmak için en önemli temel yaklaşımdır.

  7. Bayes Teoremi • X, ait olduğu sınıf belli olmayan veri olsun • H hipotezi, X’in C sınıfına ait olduğunu kabul etsin • Sınıflandırma problemi için gözlemlenen X’in verildiği varsayılırsa, P(H|X), yani X verildiğinde hipotezin kabul edilebilir (doğru) olma ihtimali • P(H) ise H hipotezinin gözlem yapılmadan önceki ilk haldeki ihtimali • P(X) ise örnek datanın gözlemlenmesi ihtimali • P(X|H) ise hipotezin doğru olduğu verildiğinde X’in gözlemlenme ihtimali

  8. Bayes Teoremi • Öğrenme kümesi X verildiğinde, H hipotezinin sonsal (posterior) ihtimali, P(H|X) Bayes teoremine göre • Başkabir ifadeyle Sonsal İhtimal =Olabilirlik x Öncel İhtimal / Kanıt • Enbüyük Sonsal (MAP (maximum posteriori) ) hipotezi • Zorluk: İlk hale ait birçok ihtimalin bilinmesini gerektiriyor

  9. Naiv Bayes Sınıflandırıcı • Değişkenlerin koşullu olarak bağımsız oluşu basitleştirilmiş bir varsayımdır • Örneğin x1ve x2 gibi 2 elemanın, verilen C sınıfı için ortak olasılık dağılımı herbirinin ayrı ayrı olasılık dağılımlarının çarpımına eşittir. Yani P([x1,x2],C) = P(x1,C) * P(x2,C) • Hesaplamaları büyük oranda azaltıyor • P(X|Ci) ihtimali bilindiğinde, X’i, maksimum P(X|Ci)*P(Ci) değerini veren sınıfa ata

  10. Ögrenme veri seti Sınıflar: C1:Bilgisayar Alır?= ‘evet’ C2: Bilgisayar Alır? = ‘hayır’ Örnek veri X =(yaş≤30, gelir=orta, öğrenci=evet Kredi durumu= vasat)

  11. Naiv Bayes Sınıflandırıcı: Örnek Her sınıf için P(X/Ci)’ihesaplaP(yaş=“<30” | Bilgisayar Alır?=“evet”) = 2/9=0.222P(yaş=“<30” | Bilgisayar Alır?=“hayır”) = 3/5 =0.6P(gelir=“orta” | Bilgisayar Alır?=“evet”)= 4/9 =0.444P(gelir=“orta” | Bilgisayar Alır?=“hayır”) = 2/5 = 0.4P(öğrenci=“evet” | Bilgisayar Alır?=“evet)= 6/9 =0.667P(öğrenci=“evet” | Bilgisayar Alır?=“hayır”)= 1/5=0.2P(kredi durumu=“vasat” | Bilgisayar Alır?=“evet”)=6/9=0.667P(kredi durumu=“vasat” | Bilgisayar Alır?=“hayır”)=2/5=0.4 X=(yaş<=30 ,gelir =orta, öğrenci=evet,kredi durumu=vasat) P(X|Ci) : P(X|Bilgisayar Alır?=“evet”)= 0.222 x 0.444 x 0.667 x 0.0.667 =0.044 P(X|Bilgisayar Alır?=“hayır”)= 0.6 x 0.4 x 0.2 x 0.4 =0.019 P(X|Ci)*P(Ci ) : P(X|Bilgisayar Alır?=“evet”) * P(Bilgisayar Alır?=“evet”)=0.028 P(X|Bilgisayar Alır?=“hayır”) * P(Bilgisayar Alır?=“hayır”)=0.007 X,“Bilgisayar Alır?=evet”sınıfına aittir

  12. Naiv Bayes Sınıflandırıcı: Yorumlar • Faydaları: • Uygulama için çok kolay • Birçok durumda iyi sonuçlar verir • Mahzurları • Sınıflar arası koşullu bağımsızlık varsayımından ötürü doğruluğundaki azalma • Gerçekte değişkenler arasında bağımlılık vardır • Practically, dependencies exist among variables • Bu bağımlılıklar naiv bayes yöntemi ile modellenemez • Bu bağımlılıklarla nasıl modelleme yapabiliriz? • Bayesian Belief Networks – Bayesci İnanç Ağları

  13. Y Z P Bayesci Ağlar • Bayesci İnanç Ağları, değişkenlerin bir altkümesinin koşullu olarak bağımsız olmasına izin verir • Nedensel ilişkilerin grafiksel bir modelidir • Değişkenler arasında bağımlılığı gösterir • Ortak olasılık dağılımları için spesifikasyonları belirler • Düğüm: rassal değişkenler • Bağlantılar: bağımlılık • X,YZ’nin ebeveynleridir, Y ise P’nin ebeveynidir • Z ve P arasında herhangi bir bağımlılık yoktur • Hiç bir çevrim ve döngüye izin vermez X

  14. Bayesci İnanç Ağı: Bir Örnek Aile Tarihçesi Sigara İçer (AT, ~S) (~AT, S) (~AT, ~S) (AT, S) AK 0.7 0.8 0.5 0.1 ~AK Akciğer Kanseri Emphysema 0.3 0.2 0.5 0.9 Akciğer Kanseri değişkeninin koşullu olasılık tablosu, bu değişkenin her ebeveyn kombinasyonu için koşullu olasılığını gösterir Positif Röntgen Dyspnea Bayesci İnanç Ağı

More Related