150 likes | 443 Views
HADOOP (HDFS). 09011049-Doğancan TOPEL 09011003-Orçun ÜLGEN. HADOOP NEDİR?. Sıradan sunucular üzerinde çok büyük verileri işlemek amacıyla oluşturulmuş uygulamaları çalıştıran java tabanlı açık kaynak kodlu bir yazılım katmanıdır. İki temel bileşeni vardır: HDFS ve MapReduce.
E N D
HADOOP(HDFS) 09011049-Doğancan TOPEL 09011003-Orçun ÜLGEN
HADOOP NEDİR? • Sıradan sunucular üzerinde çok büyük verileri işlemek amacıyla oluşturulmuş uygulamaları çalıştıran java tabanlı açık kaynak kodlu bir yazılım katmanıdır. • İki temel bileşeni vardır: HDFS ve MapReduce.
MAPREDUCE NEDİR? • MapReduce çok büyük çaplı verileri işlemek için kullanılan bir yöntemdir. • Map fonksiyonu ve verilerden sonuçları çıkarmayı sağlayan reduce fonksiyonlarından oluşur. • Bu fonksiyonlar yazıldıktan sonra HADOOP üzerinde çalıştırılır. • HADOOP’unMap ver Reduce fonksiyonlarını kümelere ayırır ve paralel olarak işler. • HADOOP veriye her zaman işlenen dosyanın ilgili düğümünü ilgili yerel diskten hızlı bir şekilde okur. HADOOP’un gücü buradan gelir.
MapReducejobTracker ve TaskTracker süreçlerinden oluşur. • JobTracker oluşturulan MapReduce fonksiyonunun dağıtılarak çalıştırılmasından sorumludur. • Ayrıca çalışma sırasında sorunla karşılan jobların devam etmesi ya da sonlandırılması da JobTrackerın sorumluluğundadır. • TaskTrackerDataNodelar üzerinde çalışır ve JobTrackerdan tamamlanmak üzere işler talep eder.
JobTrackerNameNode yardımıyla DataNode için en uygun Map fonksiyonunu TaskTracker’a verir. • Bu şekilde verilen iş parçacıkları devamlı olarak işlenir ve tamamlanarak HDFS üzerinde bir dosyaya yazılır.
HDFS NEDİR? • Açılımı HADOOP Distributed File System. • Pek çok donanım üzerinde çalışan ve yazılımlara ortak bir arayüz sağlayan yazılımsal bir yapıdır. • Pek çok serverdaki diski bir araya getirerek tek bir sanal disk oluşturur. • Pek çok dosya bu sistemde saklanabilir. • Her dosya için varsayılan blok boyutu 64MB ve 3 kopyadır. • Bu kopyalar sayesinde veri kaybının önüne geçilir. • Hızlı veri erişimi sağlanır.
Hadoop iki farklı yapıdan oluşur: • DataNode • NameNode
NameNode • HDFS için bir master olarak kabul edilebilir. • Görevleri: • Blokların sunucular üzerindeki dağılımından, • Yaratılmasından, • Silinmesinden, • Bir sorun yaşadığında bloğun tekrar geri getirilmesinden sorumludur. • Tüm dosyalarla ilgili tüm bilgileri(metadata)saklar . • Her küme üzerinde yalnızca bir NameNode bulunur.
DataNode • HDFS için slave olarak kabul edilir. • Her DataNode kendi yerel diskindeki veriden sorumludur. • Ayrıca DataNodelar verilerin yedeklerini de barındırır. • Bu özellik sayesinde donanımsal ya da yazılımsal arızalara karşı sistemin toleransı artmış olur ve veri kayıplarının önüne geçilir.
HDFS AMAÇLARI • Donanım Hatalarından Etkilenmeme • Yüksek Veri Erişim Hızı. • Büyük Veri Setlerinde Çalışılması. • Basit Tutarlılık Modeli.
HDFS PROTOKOLLERİ • Protokol olarak TCP/IP protokolü kullanılmıştır. DataNodelarClientNode Protokolü sayesinde iletişim kurarlar. • NameNodelar ise NameNode Protokolü sayesinde DataNodelarla haberleşirler.
HDFS SAĞLAMLIK FAKTÖRLERİ • Data disk sorunları, Heartbeat ve Re-Replication • NameNode periyodik aralıklarla NameNodelaraheartbeat adı verilen sinyaller yollar. Bu sinyallerle ölü durumdaki DataNodelar tespit edilir ve kopyalardan bu verilere erişim sağlanır, geri getirilebilecek veriler geri getirilir.
Küme Yenilenmesi • DataNodelarda sorun olduğunda HDFS sistemi bu DataNodeları kurtarmak için otomatik olarak veri yenilemesi yapmaya ve kümelerin buna göre yeniden şekillenmesine uyumludur.
MetaData Disk Hataları • Her kümede tek bir NameNode olduğundan bu NameNodeların bulunduğu disklerin her hangi bir sebepten zarar görmesi durumunda sisteme ait bilgilerin kaybolmaması için metadata bilgileri değişik kopyalarla saklanır.