790 likes | 1.65k Views
VERİ MADENCİLİĞİ. Veri, Enformasyon, Bilgi ve Bilgelik. VERİ:Kavramsal anlamda veri, kayıt altına alınmış her türlü olay, durum, fikirdir.
E N D
VERİ MADENCİLİĞİ
Veri, Enformasyon, Bilgi ve Bilgelik • VERİ:Kavramsal anlamda veri, kayıt altına alınmış her türlü olay, durum, fikirdir. • Veri, oldukça esnek bir yapıdadır. Temel olarak varlığı bilinen, işlenmemiş,ham haldeki kayıtlar olarak adlandırılırlar. Bu kayıtlar ilişkilendirilmemiş,düzenlenmemiş yani anlamlandırılmamışlardır.
Enformasyon (Information): verilerin ilişkilendirilmiş, düzenlenmiş, anlamlandırılmış, işlenmiş halidir. • Bu haliyle enformasyon, potansiyel olarak içinde bilgi barından bir veri halindedir. • Enformasyonun, bilgiye dönüşmesi, bireyin onu algılaması, özümsemesi ve sonuç çıkarmasıyla gerçekleşir.
Bilgelik; bu kavramların zirvesinde yer alır. Bilgilerin kişi tarafından toplanıp bir sentez haline getirilmesiyle ortaya çıkan bir olgudur. Yetenek, tecrübe gibi kişisel nitelikler birer bilgelik elemanıdır. BİLGELİK BİLGİ ENFORMASYON VERİ
Günümüzde bilgelik en değerli varlıktır. • Bilginin bu denli değerli olması, bilişim teknolojilerinin gelişmesine ön ayak olmuştur. • Bilgisayarların bilgi yönetiminde ve üretimde faal olarak yer almaya başlaması kaçınılmaz bir durum haline gelmiştir.
Günümüze bakıldığında bir bilgi patlaması söz konusudur. Çevremizin verilerle dolu olması peşi sıra enformasyon ve bilgiyi beraberinde getirmektedir. • Internet gibi etkili bir iletişim ortamının varlığı bu durumu körüklemektedir. • Makro düzeyde bakıldığında hemen hemen herkes bu veri dağına bir katkıda bulunmakta ve de bundan yararlanmaktadır. • Ancak bunun yanında bazı sorunlar da getirmektedir
Bu kadar çok veri arasından gereken bilgiyi çıkartabilmek gerekmektedir. • Bu aşamada yeni bir kavram karşımıza çıkmaktadır; VERİ MADENCİLİĞİ
Günümüzde sadece bilgiye ulaşmak değil, gerekli koşullarda bilgi üretmek de önemli bir konu halini almıştır. • Çığ gibi büyüyen sayısal veri ortamları arasından yararlı ve de gerekli olan bilgiye ulaşmayı sağlamak gerçek bir çaba haline gelmiştir. • Veri madenciliği bu safhada göze çarpan bir olgudur.
Frawley veri madenciliğini “Daha önceden bilinmeyen ve potansiyel olarak yararlı olma durumuna sahip verinin keşfedilmesi” olarak tanımlamıştır. • Berry ve Linoff bu kavrama “Anlamlı kuralların ve örüntülerin bulunması için geniş veri yığınları üzerine yapılan keşif ve analiz işlemleri” şeklinde bir açıklama getirmiş.
Sever ve Oğuz çalışmalarında veri madenciliği hakkında “Önceden bilinmeyen, veri içinde gizli, anlamlı ve yararlı örüntülerin büyük ölçekli veritabanlarından otomatik biçimde elde edilmesini sağlayan veri tabanlarında bilgi keşfi süreci içerisinde bir adımdır.” tanımını kullanmışlardır.
Nihayetinde amaç bilgiyi keşfederek ona ulaşmak ve bu yolla fayda sağlamaktır. Bilgi Keşfi sürecinde veri madenciliğinin yeri
TEMEL KAVRAMLAR Geleneksel veri saklama yöntemleri a)Klasik Dosya Yapıları b)Kayıt ve Alan c)Sıralı dosyalar d)Dizinli dosyalar e)Hesaba dayalı dosyalar
VERİ TABANI SİSTEMLERİ • Karmaşık dosya yapıları,çok sayıda dosya arası ilişki ve kullanıcıların dosyalara erişimi söz konusu olduğunda geleneksel dosya sisteminin yetersiz kaldığı görülmektedir.Bu sorunu çözmek üzere veriyi saklama ve erişim konusunda yeni yazılım teknolojilerine yönelme başlamış ve veri tabanı sistemlerini oluşturmak ve veriyi yönetmek üzere veri tabanı yönetim sistemleri(VYS) ortaya çıkmıştır.
Veri tabanı yönetim sistemleri, birbiriyle ilişkili veri ve programlar topluluğundan oluşmaktadır.Veri topluluğu bir veritabanı olarak değerlendirilir. • Veritabanı bir kuruluşa ilişkin bilgilerin yer aldığı ortamdır. • Veritabanı sistemlerini, veri kümelerinin düzenli biçimde tutulduğu ve bu verinin çeşitli yazılımlar aracılığıyla yönetildiği bir ortam olarak düşünebiliriz.
Veri tabanı ile kullanıcı arasındaki ilişki VERİ TABANI KULLANICI
Veritabanı Sistemlerinin Üstünlükleri • Verinin tekrarlanmasını önler • Verinin tutarlı olmasını sağlar • Aynı andaki erişimlerde tutarsızlıkların ortaya çıkmasını önler • Verinin güvenliğini sağlar
VERİ MODELLERİ • VYS belirli bir veri modeline dayanır.Bir veri tabanı yapısının temelini veri modeli kavramı oluşturmaktadır. • Veriyi mantıksal düzeyde düzenlemek için kullanılan kavramlar, yapılar ve işlemler topluluğuna veri modeli denir.
Veri modellerini 4 ana grupta toplamak mümkündür; a)Sıradüzensel (Hiyerarşik) veri modeli b)Ağ (Network) veri modeli c) İlişkisel veri modeli d) Nesneye yönelik veri modelidir Günümüzde en yaygın biçimde kullanılanı ilişkisel modeldir.
İLİŞKİSEL MODEL • İlişkisel model, varlıklar arasındaki bağlantının, içerdiği değerlere göre sağlanması esasına dayanır. • İlişkisel model, varlıklar arasında oluşan karmaşık ilişkileri basite indirgemek amacıyla geliştirilmiştir. • Bu yaklaşımda, veritabanındaki tüm ilişkiler tablolar biçiminde tanımlanmaktadır.
İlişkisel veritabanlarında tablolar birbiriyle ilişkilendirilmiştir Veritabanı Tablolar
İLİŞKİSEL VERİTABANI • İlişkisel veritabanı, her biri özel isimlere sahip tablolardan oluşur.Burada her tablo bir varlığa veya bir ilişkiye karşılık gelmektedir. • Tablonun sütunları nitelikleri; satırlar ise bu niteliklerin değerlerini ifade eder.Herbir satır ‘kayıt’ olarak da düşünülebilir. • Anahtar alan tablonun tamamlayıcısıdır.
Sütunlar (nitelikler) Satırlar (Kayıtlar) ANAHTAR
TABLOLARIN ÖZELLİKLERİ • Tablolar sütunlardan oluşur • Her bir sütunun ayrı bir adı vardır • Her bir sütun, aynı etki alanının belirlediği değerleri içerir • Her bir satır birbirinden farklıdır • Satırların sırası önemsizdir • Sütunların sırası önemsizdir
VERİ TABANI ŞEMASI • Veritabanının mantıksal tasarımına ‘veritabanı şeması’ adı verilir. • Tablolar ve onların nitelikleri veritabanı şemasını oluşturur. • Veritabanı şemalarını iki ana grup altında incelenir. -Fiziksel şema -Kavramsal şema
Fiziksel şema; veritabanının fiziksel çevresi ile ilgili tanımları içerir. • Örneğin:veritabanı bilgisayarda bir disk dosyası biçiminde yer alacaktır.Bu dosyanın disk üzerindeki adresi ve özellikleri ile ilgili tanımlar fiziksel şemayı oluşturur. • Kavramsal şema ise tüm veritabanının mantıksal tasarımıdır.Veritabanına kaydedilmesine karar verilen veriler arasındaki mantıksal ilişkilerin belirlenebilmesi için veritabanı şeması oluşturulur. • Bu şemada veri alanları,kayıtlar dosyalar vb. gibi ne tür veri elemanlarının bulunacağı, veri elemanları arasındaki ilişkiler ve veritabanının yapısı hakkında bilgiler yer alır.
Fiziksel veritabanı Veri tabanı dosyası Veri tabanı dosyası Veri tabanı dosyası Fiziksel şema Veritabanı Şeması ve Alt şemalar Kavramsal şema Alt Şema A Alt Şema B Kullanıcılar Uygulama Programı 1 Uygulama Programı 2 Uygulama Programı 3 Uygulama Programı 4
Veri Ambarları ve Veri Madenciliği • Veri madenciliği büyük miktarda veri inceleme amacı üzerine kurulmuş olduğu için veri tabanları ile yakından ilişkilidir. • Gerekli verinin hızla ulaşılabilecek şekilde amaca uygun bir şekilde saklanması ve gerektiğinde hızla ulaşılabilmesi gerekir. • Normal bir veritabanındaki veriler bir çok ayrıntıyı içermektedir ve analiz işlemleri normal bir veritabanı üzerinde uygulandığı takdirde bir takım zorluklar ortaya çıkacaktır.
Günümüzdeki veritabanlarının çok farklı kaynaklarda bulunması, çok büyük hacimlerde veriler içermesi ve farklı yapılara sahip olması dikkate alınırsa; • Veri Ambarları, bu zorlukların üstesinden gelmek amacıyla normal veritabanından farklı olarak, analiz ve raporlama işlemlerinde kullanılmak üzere hazırlanmış verileri içermektedir. • Günümüzde yaygın olarak kullanılmaya başlanan veri ambarları günlük kullanılan veri tabanlarının birleştirilmiş ve işlemeye daha uygun bir özetini saklamayı amaçlar.
OLTP Sistemler • Bir kurumun verilerinin işlendiği ortamlara OLTP (Online Transaction Processing) sistemler adı verilmektedir. • Örneğin bir işletmenin sahip olduğu stok sistemi ile depoya giren ve çıkan ürünleri ve ödemeleri izlenebilir. • OLTP sistemlerine ilişkin veritabanlarına veri kaydedilebilir,veriye erişilerek raporlanabilir ve istendiğinde veri silinebilir.
Kayıt ekleme Güncelleştirme OLTP Veri tabanı Kayıt okuma Kayıt silme Bir OLTP veritabanında yapılabilecek işlemler
Karar Destek Sistemleri • 1990’ lı yıllara değin bilgisayarın karar alma süreci üzerindeki etkisini arttırmak üzere çok çaba harcanmıştır.Karar Destek Sistemleri ve Üst Yönetici Sistemleri bu amaçla ortaya atılmıştır. • Karar Destek Sistemleri, yöneticilerin programlanamayan türden karar verme işlemlerine yardımcı olmak üzere geliştirilmiştir. • Yöneticinin herhangi bir anda, daha önceden öngörülmemiş bir bilgiye aniden gereksinimi olabilir.Karar ve destek sisitemleri bu gibi durumlar için tasarlanır.
Üst yönetici sistemleri temel olarak karar destek sistemlerine benzer.Ancak bu tür sistemler sadece stratejik düzeydeki yönetici personel için tasarlanır.Bu sistemler yapısal olmayan, yani önceden programlanamayan karar türlerine destek veren sistemlerdir. • Karar destek sistemleri çoğunlukla model bazlı olarak tanımlanır.Bunlar basit karar modellerinin yanı sıra,karmaşık matematiksel yada istatiksel modelleri de içerir.Üst yönetici sistemlerinde ise karmaşık modellere yer verilmez.Çoğunlukla sistemin sorgulama olanaklarından yararlanılır.
VERİ AMBARI NEDİR? • Veri ambarı, bir zaman boyutu içinde analitik işlemlerin yapılması için ihtiyaç duyulan bilgi temelini sağlar. • Veri ambarı, karar verme sürecinde yöneticilere destek vermek üzere hazırlanmış; a)konuya yönelik b)bütünleşik c)zaman boyutu olan d)sadece okunabilen veri topluluğudur.
Karar Destek Sistemi Kullanıcısı Şirket içi veriler Karar Destek Sistemi VERİ AMBARI Dış kaynaklı veriler Karar Destek Sistemi Kullanıcısı Veri ambarı,karar destek sistemleri ve üst yönetici sistemleri arasındaki ilişki
a) Konuya yöneliktir • Veri ambarının konuya yönelik olmasının anlamı, veri ambarının işletmedeki yüksek seviyeli varlıklar üzerinde odaklanmış olmasıdır.Bu varlıklar bir okul ortamı için öğrenciler, dersler,notlar vb. olabilir. OLTP VERİ AMBARI Perakende satışlar sistemi Satışlar konu alanı Seri sonu satışlar sistemi Katalog satışlar sistemi Uygulama alanlarına yöneliktir. İşletme konularına yöneliktir.
b) bütünleşiktir • Veri ambarı ortamındaki verinin en belirgin görünümü, bütünleşik durumda olmasıdır.Verinin kodlanmasında görüş birliğine varılması, ölçü birimlerinin seçiminde tutarlılık,sayısal değerlerin fiziksel gösterimindeki tutarlılık vb gibi bütünleştirme kavramlarından söz edilir. • Bazı uygulamalarda uzunluk ölçüsü olarak cm,bazılarında inç,bazılarında ise metre kullanılmış olabilir.Bu tür verinin veri ambarına taşınması esnasında birimlerin ortak bir uzunluk ölçüsü birimine dönüştürülmesi söz konusu olacaktır.
OLTP VERİ AMBARI Ürün kodu 99999999 Perakende Satışlar sistemi Satışlar Konu alanı Ürün kodu 000009999 Seri sonu Satışlar sistemi Ürün kodu XXXXXXXX Katalog Satışlar sistemi Ürün kodu XXXX9999 Aynı bilgi farklı sistemlerde farklı biçimde kodlanmış olabilir Farklı biçimde kodlanmış alanlar ortak kodlama biçimine dönüştürülür.
c) Zaman boyutu vardır VERİ AMBARI OLTP 2004 Perakende satışlar Ocak 2007 Perakende satışlar 2005 Perakende satışlar 2006 Perakende satışlar 2007 Perakende satışlar Veri tabanında o döneme ilişkin Verilere yer verilir. Veri ambarında önceki dönemlere ait Verilere de yer verilir.
d) Sadece okunabilirdir • Veri ambarındaki veri sadece okunabilir yapıdadır. Veri ambarındaki veri yönetimin gereksinimlerine yanıt vermek üzere tasarlandığı için günlük işlemlere tabi tutulmaz; yani silinemez veya güncelleştirilemez. OLTP Veri ambarı KULLANICI KULLANICI okuma güncelleştirme yazma Okuma VERİ TABANI VERİ TABANI
Veri Ambarının Özellikleri • Veri ambarına aktarılan yeni veriler, veri ambarında mevcut bulunan verilerin güncellenmesi için kullanılmazlar. Bu yüzden veri ambarındaki veriler değiştirilmemeli, güncellenmemelidir . • Operasyonel sistemlerdeki veriler güncellenip, temizlenip, entegre edildikten ve toplulaştırıldıktan sonra veri ambarına aktarılırlar. Veriler son şekillerini almadan veri ambarına aktarılmazlar.
Veri Ambarının Özellikleri • Veri ambarına uygun bir şekilde aktarılan veri, operasyonel sistemlerde bulunan ve değişime sıklıkla uğrayan veriden farklı olarak daha sonra herhangi bir değişime konu değildir • Veri ambarına giren veriler burada kronolojik olarak saklanırlar. • Operasyonel sistemlerde tutulan veri çoğunlukla 60 gün ile 90 gün arasındaki zaman dilimini kapsarken veri ambarlarında veri genellikle 3 ile 10 yıllık zaman dilimini kapsamaktadır
Veri Modelleme • Veri ambarlarının kurulmasında, çalışmasında en önemli hususlardan birisi veri modelinin oluşturulmasıdır • Gerçeğin soyutlanmış hali olan modelleme ile verilerin analizler için en etkin şekilde veri ambarlarında yerlerini alması hedeflenmektedir. • Veri modellemenin amacı; verinin taşıdığı anlamı, veriler arasındaki ilişkileri, verilerin niteliklerini ve verilerin net tanımlarını açıkça belirlemektir.
ZAMAN BOYUTU ANA TABLO MAĞAZA BOYUTU Zaman Gün Ay Yıl Zaman Mağaza Mağaza adı Bölge Ürün Mağaza ÜRÜN BOYUTU Ürün Sınıf Marka Tipik bir çok-boyutlu model
VERİ AMBARI MİMARİSİ • Veri mabarı mimarisinin genel karakteristikleri şu şekilde sıralanabilir. a)Kaynaklardan alınan veri dönüştürülür b) Veri ambarı oluşturulur c)Kullanıcıların veri ambarına erişimi sağlanır. Kullanıcı Kaynak Kaynak Veri Bütünleştirme Kullanıcı VERİ AMBARI Kaynak Kullanıcı
VERİ MADENCİLİĞİ • Kurumlarda biriken veri içerisinden kurum için yararlı olanlarını bulup ortaya çıkarma işine veri madenciliği adı verilir. • Veri madenciliği büyük ölçekli veriler arasından ‘değeri olan’ bir bilgiyi elde etme işidir.Bu sayede veriler arasındaki ilişkileri ortaya koymak ve gerektiğinde de ileriye yönelik kestirimlerde bulunmak mümkün görülmektedir. • Veri madenciliği bir kurumda üretilen tüm verilerin belirli yöntemler kullanarak var olan yada gelecekte ortaya çıkabilecek gizli bilgiyi su yüzüne çıkarma süreci olarak değerlendirilebilir. • Bu açıdan bakıldığında veri madenciliği, kurumların karar destek sistemleri için önemli bir yere sahip olabilmektedir.
Veri Madenciliğinin Kullanım Alanları • Pazarlama • Bankacılık • Sigortacılık • Elektronik Ticaret • Eğitim-Öğretim • Taşımacılık-Ulaşım-Konaklama • Finansal servisler
Veri Madenciliği Süreci • A) Veri temizleme • B)Veri bütünleştirme • C) Veri indirgeme • D)Veri dönüştürme • E)Veri madenciliği algoritmasını uygulama • F)Sonuçları sunum ve değerlendirme
A) Veri temizleme • Bazı uygulamalarda, üzerinde çözümleme yapılacak verilerin istenen özelliklere sahip olmadığı görülebilir.Örneğin;eksik verilerle ve uygun olmayan verilerin oluşturduğu tutarsız verilerle karşılaşılabilir. • Veritabanında yer alan tutarsız ve hatalı veriler gürültü olarak değerlendirilir.Bu gibi durumlarda verinin söz konusu sorunlardan temizlenmesi gerekir. • Eksik verilerin yerine yenileri belirlenerek konulmalıdır.
B) Veri bütünleştirme • Farklı veri tabanlarından yada veri kaynaklarından elde edilen verilerin birlikte değerlendirilmeye alınabilmesi için farklı türdeki verilerin tek türe dönüştürülmesi yani bütünleştirilmesi söz konusu olacaktır.
C) Veri İndirgeme • Veri madenciliği uygulamalarında bazen çözümleme işlemi uzun süre alabilir.Eğer çözümlemeden elde edilecek sonucun değişmeyeceğine inanılıyorsa veri sayısı ya da değişkenlerin sayısı azaltılabilir. • Veri indirgeme değişik boyutlarda yapılabilir; a)Veriyi birleştirme veya veri küpü b)Boyut indirgeme c)Veri sıkıştırma d)Örnekleme e)Genelleme