390 likes | 692 Views
Veri Madenciliğine Giriş. Öğr.Gör.Dr. Hüseyin TOROS İTÜ Uçak ve Uzay Bilimleri Fakültesi Meteoroloji Mühendisliği Bölümü http://atlas.cc.itu.edu.tr/~toros. Gerekçe. Veri patlaması Son yıllarda ölçüm cihazlarının artmasına paralel olarak veri sayısı ve türleri artmaktadır.
E N D
Veri Madenciliğine Giriş Öğr.Gör.Dr. Hüseyin TOROS İTÜ Uçak ve Uzay Bilimleri Fakültesi Meteoroloji Mühendisliği Bölümü http://atlas.cc.itu.edu.tr/~toros
Gerekçe • Veri patlaması Son yıllarda ölçüm cihazlarının artmasına paralel olarak veri sayısı ve türleri artmaktadır. Veri toplama araçları ve veri tabanı teknolojilerindeki gelişmeler, bilgi depolarında çok miktarda bilginin depolanmasını ve çözümlenmesini gerektirmektedir. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Çözüm • Veri madenciliği Bilgisayar teknolojilerindeki gelişmeler veri madenciliği yöntemleri ve programları büyük miktarlardaki verileri etkin ve verimli hale getirmektedir. Bilgi ve tecrübeyi birleştirmek için veri madenciliği konusunda geliştirilmiş yazılımların kullanılması gerekmektedir. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Provides both theoretical and practical coverage of all data mining topics. • Includes extensive number of integrated examples and figures. • Offers instructor resources including solutions for exercises and complete set of lecture slides. • Assumes only a modest statistics or mathematics background, and no database knowledge is needed. • Topics covered include; predictive modeling, association analysis, clustering, anomaly detection, visualization. Pang-Ning Tan, Michigan State University, Michael Steinbach, University of Minnesota Vipin Kumar, University of Minnesota İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Niçin Veri Madenciliği?(Bilimsel) • Hızla artan veri kayıtları (GB/saat). • Otomatik istasyonlar, • Uydu ve uzaktan algılama sistemleri, • Teleskopla uzay taramaları, • Gen teknolojisindeki gelişmeler, • Bilimsel hesaplamalar, benzetimler, modeller • Geleneksel eski tekniklerin ham verileri işlemede yetersiz kalması. • Veri madenciliği bilim insanlarına yardım eder. • Veri sınıflandırması ve gruplandırılması, • Hipotezler oluşturma ve karar verme, İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Niçin Veri Madenciliği? (Ticari) • Çok fazla verinin depolanması(veri ambarı=warehouse) • Web veri, e-ticaret, • Büyük marketler, holdingler, … • Bankalar, kredi kartları, • Etkin ve ucuz bilgisayarların hızla gelişimi, • Rekabet ve gücün önem arz etmesi, • Asgari maliyetle azami kalitede müşteri hizmetleri, • Müşteri memnuniyeti, İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Veri Madenciliğine Giriş • Veri depolanması, • Veri seçimi, • Veri hazırlanması, • İşleme ve bütünleştirme, • Yorumlama ve bilgiye dönüşüm, • Fayda ve verimlilik. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Veri Nedir? • Sayılar, metinler, sesler, görüntülerdir, • Rasat parkında kayıt cihazında depolananlardır, • Otomasyonda öğrenci kayıtlarıdır, • Karar vermeye yarayan soyut simge dizileridir, • …. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Veritabanı Nedir? • Birbiriyle ilişkili verilerin toplanması, depolanmasıdır, • Belli bir amaç için verilerin toplanması ve tasarımıdır, • Sistematik erişim imkanı olan, yönetilebilir, güncellenebilir, taşınabilir, birbirleri arasında tanımlı ilişkiler bulunabilen verilerdir, • Hayatın bir göstergesidir, • …. • Veritabanının büyüklüğü ve karmaşıklığı değişebilir, İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Bilgi (Malumat) Nedir? • Öğrenerek, deneyerek, araştırarak elde edilen her türlü sonuçlardır, • Önceden belirlenen bir dizi sistematik kural ve işleyişe uygun bir biçimde elde edilen verilerdir, • Sosyal varlık olan insanlar arasındaki iletişim sırasında paylaşılan, aktarılan ve yeniden şekillendirilen tecrübelerdir, • Belirli bir durum, sorun, ilişki, teori veya kurala ait verilerdir, • İçinde yaşadığımız dünyayı ve olayları yorumlamak ve yönetmek için uyguladığımız bir dizi anlayış, kavrayış ve genellemeler ile bize güçlü bir kavrayış ve bakış açısı kazandıran her türlü zihni faaliyettir, • Sosyal olaylarda karşımıza çıkan eylem ve olayları anlamamıza yardım eden işaret ve kodlamalardır, İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Kaynak: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications” Bilgi Nedir? • Kurumlar terabyte büyüklüğünde veri depolarına sahiptirler • Bunların çok azını amaçlarına uygun çözümleyebiliyorlar ??? Verilerimizin ne kadarını bilgiye dönüştürebiliyoruz ??? İncelenecek veri aralığı Toplam Bilgi deposu TB 1995 yılından itibaren depolanan veri Çözümlenen veri değişimi İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Yorumlar, Değerlendirmeler Veri Madenciliği • Önceden bilinemeyen, verilerden potansiyel etkin bilgilerin çıkarılmasıdır, • Çok büyük veri tabanlarındaki ya da veri ambarlarındaki veriler arasında bulunan ilişkiler, değişiklikler, sapma ve eğilimler, belirli yapılar gibi ilginç bilgilerin ortaya çıkarılması ve keşfedilmesidir. VERİ MADENCİLİĞİBİLGİSAYAR DESTEKLİ BİLGİ ÇÖZÜMLEME İŞLEMİDİR. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Veri madenciliği değişik aşamaları İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Veri Madenciliği Nedir/Ne Değildir? • Veri Madenciliği değildir? • Yıllıktan iklim değerlerine bakmak • Telefon defterinden birinin telefonuna bakmak, • Birinin internetten iklim hakkında bilgi alması, • Veri Madenciliğidir? • İstanbul’da hakim rüzgarın kuzey doğulu olduğunun bulunması, • Meteoroloji öğrencilerinin internetten aynı kelimeyi aramaları, (Kuraklık, asit yağışları) İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Veri Madenciliğine Bakış • Veri madenciliğinin üç farklı bakış açısı vardır: • Veri tabanı bakış açısı, • Makine öğrenim bakış açısı, • İstatistiksel bakış açısı. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Veri Madenciliğinin Kaynağı • Öğrenen makinelerle gidişat algılama, istatistik ve veritabanı sistemleri, • Eski tekniklerin yetersizliği, • Aşırı veri, • Verilerde çok boyutluluk, • Ham verilerdeki heterojen yapı, Öğrenen makineler / Eğilimleri algılama İstatistik Veri madenciliği Veri tabanları İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Öğrenen makine Veri Madenciliği Çok disiplinlilik Veri madenciliğinin, birçok disiplinle çakışma noktaları vardır. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Veri Madenciliğin işlevleri • Öngörme yöntemleri • Bazı değişkenleri kullanarak, önceden bilinmeyen değerleri veya değişkenleri tahmin. • Tanımlayıcı yöntemler • Veriyi tanımlayan uzman görüşleri, yorumları. Kaynak: [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Veri Madenciliğin işlevleri • Sınıflama • Gruplama • Eşleme • Eğilimler • İlişkiler • Sapmalar İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Sınıflama • Yeni bir nesnenin, belirli sınıflar içinde hangi sınıfa ait olup olmadığını belirleyecek bir sınıflayıcı oluşturmaktır. • Daha önceden sınıflandırılmış örnek takımları kullanarak, geniş çaplı olarak eldeki kayıtları sınıflayabilecek bir model geliştirmek yoluyla gerçekleştirilir. • Bir defa etkin bir sınıflayıcı oluşturulunca, veriler kestirim modunda daha önceden oluşturulan bu sınıflara göre ayırılabilir. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Sınıflama İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
NO Sınıflama categorical categorical continuous class Single, Divorced MarSt Married NO Refund No Yes TaxInc < 80K > 80K YES NO There could be more than one tree that fits the same data! İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Sınıflama • Sky Survey Cataloging • Goal: To predict class (star or galaxy) of sky objects, especially visually faint ones, based on the telescopic survey images (from Palomar Observatory). • 3000 images with 23,040 x 23,040 pixels per image. • Approach: • Segment the image. • Measure image attributes (features) - 40 of them per object. • Model the class based on these features. • Success Story: Could find 16 new high red-shift quasars, some of the farthest objects that are difficult to find! From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Sınıflama Courtesy: http://aps.umn.edu • Attributes: • Image features, • Characteristics of light waves received, etc. Early • Class: • Stages of Formation Intermediate Late • Data Size: • 72 million stars, 20 million galaxies • Object Catalog: 9 GB • Image Database: 150 GB İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
GOES Cumulus Cloud Classification: Sample Result Original GLRL Association Rules GLCM Expert Labeled Sobel Sobel + Laplacian Laplacian İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Gruplama, Kümeleme • Genellikle bölümleme sorunlarını çözmekte kullanılır. • Bu yaklaşımla, birçok özellikleriyle varolan veri kayıtları, nispi olarak küçük gruplara ya da kümelere atanır. • Bu süreç, otomatik olarak veri takımlarının ayırdedici karakteristiklerini tanımlayan ve bu özellikleriyle ortaya çıkan çok boyutlu uzay içinde ince bölmelerle birbirinden ayıran kümeleme algoritmaları ile gerçekleştirilir. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Gruplama • Euclidean Distance Based Clustering in 3-D space. Intracluster distances are minimized Intercluster distances are maximized İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Eşleme • Given a set of records each of which contain some number of items from a given collection; • Produce dependency rules which will predict occurrence of an item based on occurrences of other items. Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Fruit juice} İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
(A B) (C) (D E) (A B) (C) (D E) <= xg >ng <= ws <= ms Eğilimler • Given is a set of objects, with each object associated with its own timeline of events, find rules that predict strong sequential dependencies among different events. • Rules are formed by first discovering patterns. • Event occurrences in the patterns are governed by timing constraints. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
İlişkiler • Bir değişkenin diğer değişkenle olan ilişkisini doğrusal veya doğrusal modelleri kullanarak bulmak. • Yapar ağ çalışmaları ve istatistik çalışmaları. • Örnekler: • Yıllara bağlı olarak meteorolojik parametrelerin ilişkisi • Rüzgar hızlarını, sıcaklık, nem ve basınca bağlı olarak tahmin etmek. • Piyasaya yeni çıkan bir ürünün reklam kampanyası ile olan ilişkisi. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Sapmalar • Normal davranışlardan olan sapmaları bulmak • Uygulama: • Afetler • Kredi kartı sahteciliğini tespit • Şebekeye giren korsanları tespit Typical network traffic at University level may reach over 100 million connections per day İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Veri Madenciliğinin Başarıları • Ölçeklenebilirlik • Boyutluluk • Karmaşık ve heterojen veri • Veri kalitesi • Veri sahipliği ve dağıtımı • Veri korumacılığı • Veri yayımcılığı İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Yazılımlar Veri madenciliği konusunda bol yazılım vardır… İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Introduction to data mining İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Meteorolojide veri madenciliği uygulamaları İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Possibilities for future improvements in meteorology • With model output approaching observational data (e.g. from satellite soundings) in resolution, the sheer size of the datasets means that data mining and data management will become equally important considerations in meteorological computing. In light of the decrease in density of surface and rawinsonde observations, new algorithms have to be developed to extract similarly accurate information from satellite data, for example about cloud type and distribution. Data management will become more global in nature, with some central archives storing a large number of numerical experiments from various institutions. These data need to have a sufficient amount of metadata attached and can then be conveniently retrieved by a WWW interface from anywhere. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr
Reasons for Data Mining of Earth Science Data • Greatly increased data volume due to improvements in data collection/access/availability/storage technology (instruments, computational resources, internet…) • Terra are about 1 terabyte per day - more than can be analyzed by conventional means • High variability in data formats and content • Need for high returns on expensive data investments • Need for improved access/availability of data, information and knowledge • Need for higher level products for the non-specialist and interdisciplinary/cross-domain researchers • Questions/queries are getting more complex due, in part, to heterogeneous nature of the data İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr