1 / 14

HADOOP (HDFS)

HADOOP (HDFS). 09011049-Doğancan TOPEL 09011003-Orçun ÜLGEN. HADOOP NEDİR?. Sıradan sunucular üzerinde çok büyük verileri işlemek amacıyla oluşturulmuş uygulamaları çalıştıran java tabanlı açık kaynak kodlu bir yazılım katmanıdır. İki temel bileşeni vardır: HDFS ve MapReduce.

dessa
Download Presentation

HADOOP (HDFS)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. HADOOP(HDFS) 09011049-Doğancan TOPEL 09011003-Orçun ÜLGEN

  2. HADOOP NEDİR? • Sıradan sunucular üzerinde çok büyük verileri işlemek amacıyla oluşturulmuş uygulamaları çalıştıran java tabanlı açık kaynak kodlu bir yazılım katmanıdır. • İki temel bileşeni vardır: HDFS ve MapReduce.

  3. MAPREDUCE NEDİR? • MapReduce çok büyük çaplı verileri işlemek için kullanılan bir yöntemdir. • Map fonksiyonu ve verilerden sonuçları çıkarmayı sağlayan reduce fonksiyonlarından oluşur. • Bu fonksiyonlar yazıldıktan sonra HADOOP üzerinde çalıştırılır. • HADOOP’unMap ver Reduce fonksiyonlarını kümelere ayırır ve paralel olarak işler. • HADOOP veriye her zaman işlenen dosyanın ilgili düğümünü ilgili yerel diskten hızlı bir şekilde okur. HADOOP’un gücü buradan gelir.

  4. MapReducejobTracker ve TaskTracker süreçlerinden oluşur. • JobTracker oluşturulan MapReduce fonksiyonunun dağıtılarak çalıştırılmasından sorumludur. • Ayrıca çalışma sırasında sorunla karşılan jobların devam etmesi ya da sonlandırılması da JobTrackerın sorumluluğundadır. • TaskTrackerDataNodelar üzerinde çalışır ve JobTrackerdan tamamlanmak üzere işler talep eder.

  5. JobTrackerNameNode yardımıyla DataNode için en uygun Map fonksiyonunu TaskTracker’a verir. • Bu şekilde verilen iş parçacıkları devamlı olarak işlenir ve tamamlanarak HDFS üzerinde bir dosyaya yazılır.

  6. HDFS NEDİR? • Açılımı HADOOP Distributed File System. • Pek çok donanım üzerinde çalışan ve yazılımlara ortak bir arayüz sağlayan yazılımsal bir yapıdır. • Pek çok serverdaki diski bir araya getirerek tek bir sanal disk oluşturur. • Pek çok dosya bu sistemde saklanabilir. • Her dosya için varsayılan blok boyutu 64MB ve 3 kopyadır. • Bu kopyalar sayesinde veri kaybının önüne geçilir. • Hızlı veri erişimi sağlanır.

  7. Hadoop iki farklı yapıdan oluşur: • DataNode • NameNode

  8. NameNode • HDFS için bir master olarak kabul edilebilir. • Görevleri: • Blokların sunucular üzerindeki dağılımından, • Yaratılmasından, • Silinmesinden, • Bir sorun yaşadığında bloğun tekrar geri getirilmesinden sorumludur. • Tüm dosyalarla ilgili tüm bilgileri(metadata)saklar . • Her küme üzerinde yalnızca bir NameNode bulunur.

  9. DataNode • HDFS için slave olarak kabul edilir. • Her DataNode kendi yerel diskindeki veriden sorumludur. • Ayrıca DataNodelar verilerin yedeklerini de barındırır. • Bu özellik sayesinde donanımsal ya da yazılımsal arızalara karşı sistemin toleransı artmış olur ve veri kayıplarının önüne geçilir.

  10. HDFS AMAÇLARI • Donanım Hatalarından Etkilenmeme • Yüksek Veri Erişim Hızı. • Büyük Veri Setlerinde Çalışılması. • Basit Tutarlılık Modeli.

  11. HDFS PROTOKOLLERİ • Protokol olarak TCP/IP protokolü kullanılmıştır. DataNodelarClientNode Protokolü sayesinde iletişim kurarlar. • NameNodelar ise NameNode Protokolü sayesinde DataNodelarla haberleşirler.

  12. HDFS SAĞLAMLIK FAKTÖRLERİ • Data disk sorunları, Heartbeat ve Re-Replication • NameNode periyodik aralıklarla NameNodelaraheartbeat adı verilen sinyaller yollar. Bu sinyallerle ölü durumdaki DataNodelar tespit edilir ve kopyalardan bu verilere erişim sağlanır, geri getirilebilecek veriler geri getirilir.

  13. Küme Yenilenmesi • DataNodelarda sorun olduğunda HDFS sistemi bu DataNodeları kurtarmak için otomatik olarak veri yenilemesi yapmaya ve kümelerin buna göre yeniden şekillenmesine uyumludur.

  14. MetaData Disk Hataları • Her kümede tek bir NameNode olduğundan bu NameNodeların bulunduğu disklerin her hangi bir sebepten zarar görmesi durumunda sisteme ait bilgilerin kaybolmaması için metadata bilgileri değişik kopyalarla saklanır.

More Related