280 likes | 861 Views
Neden Veri Madenciligi?. Veri patlamasi veya seli: Otomatik veri toplama ara?lari, olgun veri tabani ve bilgi teknolojileri, yaygin bilgi teknolojileri kullanimi, veri tabanlari, veri anbarlari ve diger veri depolarinda ?ok b?y?k miktarlarda veri ve bilgilerin toplanmasini saglamakta ve veri miktari
E N D
2. Neden Veri Madenciligi? Veri patlamasi veya seli: Otomatik veri toplama aralari, olgun veri tabani ve bilgi teknolojileri, yaygin bilgi teknolojileri kullanimi, veri tabanlari, veri anbarlari ve diger veri depolarinda ok byk miktarlarda veri ve bilgilerin toplanmasini saglamakta ve veri miktari srekli artmaktadir.
Magazalardaki satis/alis islemleri
Banka ve Kredi karti islemleri
Bir ok sektrdeki veri ve islemler
Bilimsel veriler, uydu ve radarlardaki algilayicilar gelen veriler
Web verileri
Bilgi sistemleri birok aik olmayan ve geleneksel yntemlerle anlasilamayan bilgileri iermektedir.
3. Veri Madenciligi Nedir? Veriler arasinda boguluyoruz, ancak gerek bilgi iin alik ekiyoruz.
Data (Veri) Information (bilgi)Knowledge (bilgi)Wisdom (Bilgelik)Vision (uzgrs)
zm: Veri Madenciligi (Gereksinim buluslarin temel nedenidir.)
Veri Madenciligi: verilerden st kapali, ok net olmayan, nceden bilinmeyen ancak potansiyel olarak kullanisli bilgi ve rntlerin ikarilmasi olarak tanimlanmaktadir.
Diger esdeger isimler: Veri tabanlarinda bilgi madenciligi (knowledge mining from databases), Bilgi ikarimi (knowledge extraction), data/pattern anaysis (veri ve rnt analizi), veri arkeolojisi,
4. Birok Disipilini Ieren Bir Alan
5. Veri Madenciligi (Bilgi Kesfi) Srei
6. CRISP-DMe gre Veri Madenciligi Sreci
7. CRISP-DM Asama ve Grevleri
8. Veri Madenciligi Yntemleri Genel olarak veri madenciligi yntemleri iki sinifa ayrilabilir:
ngr Yntemleri (Prediction Methods)
ngr amaci ile var olan verilerden yorum ikarilmasi
Tanimlayici Yntemler (Description Methods)
Veriyi tanimlayan yorumlanabilir rntlerin bulunmasi
9. Veri Madenciligi Yntemleri
10. Siniflandirma Girdi: Kayitlar kmesi (grenme Kmesi )
Her bir kayit zellikler (Attribute-Bir tablodaki stunlar) ierir. Bu zelliklerden bir tanesi siniftir (Class).
Diger zelliklerden sinif zelligini ngrebilecek bir model fonksiyon gelistirilir.
Ama: Yeni bir kayit geldiginde, bu kayit gelistirilen model kullanilarak mmkn oldugunca dogru bir sinifa atanir.
Bir deneme kmesi modelin dogrulugunu belirlemek iin kullanilir. Genellikle verilen veri kmesi grenme ve deneme kmesi olarak ikiye ayrilir. grenme kmesi modeli olusturulmasinda, deneme kmesi modelin dogrulanmasinda kullanilir.
11. Siniflandirma Sreci: (1) Model Olustirma
12. Siniflandirma Sreci: (2) Modelin ngr iin kullanilmasi
13. Karar Agaci Karar Agaci
Yaygin kullanilan ngr yntemlerinden bir tanesidir
Agataki her dgm bir zellikteki testi gsterir.
Dgm dallari testin sonucunu belirtir.
Aga yapraklari sinif etiketlerini ierir.
Karar agaci ikarimi iki asamadan olusur
Aga insasi
Baslangita btn grenme rnekleri kk dgmdedir.
rnekler seilmis zelliklere tekrarlamali olarak gre blnr.
Aga Temizleme (Tree pruning)
Grlt ve istisna kararlari ieren dallar belirlenir ve kaldirilir.
Karar agaci kullanimi: Yeni bilinmeyen rnegin siniflandirilmasi
Bilinmeyen rnegin zellikleri karar agacinda test edilerek sinifi bulunur.
14. Bir Kredi Karti Kampanyasinda Yeni Bir rnegin Siniflandirilmasi
15. Bayes Siniflandirmasi Istatistiksel bir siniflandiricidir. Sinif yelik olasiliklarini ngrr.
Istatistikteki bayes teoremine dayanir.
Basit bir yntemdir.
16. Basit Bayes Siniflandirma Yntemi Girdi : grenme seti
C1, C2, , Cm adli m sinifimiz olsun .
Siniflandirma maksimum posteriori olasiligini bulmaya dayanir.
P(X) is btn siniflar iin sabittir.
olasiliginin maksimum degeri bulunmalidir.
Yeni bir rnek X, maximum P(X|Ci)*P(Ci) degerine sahip olan sinifa atanir.
17. Tenis oynama rnegi: P(xi|C) degerlerinin bulunmasi
18. Tenis oynama rnegi: Yeni X rneginin Siniflandirilmasi Yeni rnek X = <rain, hot, high, false>
P(X|p)P(p) = P(rain|p)P(hot|p)P(high|p)P(false|p)P(p) = 3/92/93/96/99/14 = 0.010582
P(X|n)P(n) = P(rain|n)P(hot|n)P(high|n)P(false|n)P(n) = 2/52/54/52/55/14 = 0.018286
rnek Xin sinifi n (dont play) olarak ngrlr.
19. Zaman Serisi Analizi rnek: Borsa
Gelecek menkul kiymet degerlerinin ngrlr.
Zaman iinde benzer rntler belirlenir,
ve ngr yapilir.
20. Egri Uydurma (Regression) Srekli degiskenlerin ngrs regrasyon (egri uydurma) olarak adlandirilan bir istatistiksel yntemle tespit edilebilir.
Regresyon analizinin amaci degisik girdi degiskenlerini ikti degiskeni ile iliskilendirecek en iyi modelin ikarilmasidir.
Regresyon analizi bir Y degiskeninin diger bir veya daha ok X1, X2, , Xn degiskenleri ile iliskisinin belirlenmesi srecidir.
Y, yanit iktisi veya bagimli degisken olarak adlandirilir. Xi degiskenleri girdi veya bagimsiz degiskenler olarak adlandirilir.
Bir veri kmesindeki bulunan iliski regrasyon denklemi (modeli) ile karakterize edilir.
En ok yaygin regrasyon modeli denklemi
21. rnek: Lineer regrasyon (egri uydurma)
22. Kmeleme (Demetleme) Kmeleme, veriyi siniflara veya kmelere ayirma islemidir.
Birbirlerine benzeyen elemanlardan olusan gruba kme denir.
Farkli kmelere ait elemanlar arasinda benzerlik azdir.
Bir benzerlik lt belirlenir. Degerler sreli ise klid uzakligidir.
Kmeleme algoritmalari
kme iin benzerligin maksimize edilmesi
Kmeler arasi benzerligin minimize edilmesi
kavramina dayanir.
23. Kmeleme rnegi
24. K-Ortalama(Means) Kmeleme Yntemi
25. Birliktelik Analizi (Association Analysis) Birliktelik analizi byk veri kmeleri arasinda birliktelik iliskilerini bulur. Market-Basket analizi ve islem (transaction) veri analizi olarakta adlandirilir.
Birliktelik analizi, belirli bir veri kmesinde yksek siklikta birlikte grlen zellik degerlerine ait iliskisel kurallarin kesfidir.
Sonuclar birliktelik kurallari (A ?B) olarak sunulur.
Birliktelik kurallarinin kullanildigi en yaygin rnek market sepeti uygulamasidir.
Market sepet analizi, msterilerin yaptiklari alisverislerdeki rnler arasindaki birliktelikleri bularak msterilerin satin alma aliskanliklarini belirlemeye alisir .
26. Basket veri analizi
27. Marketlerde Birliktelik Kurali Kesfi rnek
28. Istisna Analizi (Outlier Analizi) Normal davranislardan ve egilimlerden ok farkli sapmalari belirlemede kullanilir.
Uygulamalar:
Kredi Karti YolsuzluguTesbiti
Ag Saldiri (Intrusion)Tesbiti