1 / 21

Agenda

Agenda. ¿Qué es Big Data? ¿Por qué usar Big Data? ¿Quién usa Big Data? Hadoop Arquitectura de Hadoop. Big Data. ¿Qué es Big Data?

nia
Download Presentation

Agenda

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Agenda • ¿Qué es Big Data? • ¿Por qué usar Big Data? • ¿Quién usa Big Data? • Hadoop • Arquitectura de Hadoop

  2. Big Data • ¿Qué es Big Data? Big Data es un concepto que se aplica a toda aquella información que no puede ser procesada o analizada usando procesos o herramientas convencionales debido al enorme volumen de datos sobre el cual hay que trabajar. • ¿Por qué usar Big Data? • ¿Quién usa Big Data?

  3. Hadoop Características Generales • Open Source • Desarrollado originalmente por Yahoo • Administrado por Apache Software Foundation • Diseñado para trabajar con petabytes de datos • Pensado para implementarse con hardware económico • Ofrece alta disponibilidad • Escala horizontalmente • Muchas tecnologías de desarrollo están basadas en Hadoop • Bueno aceptación en el mercado • Curva de aprendizaje elevada • No es una base de datos • No es real time The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple programming model

  4. Hadoop Componentes Principales Hadoop se compone por tres elementos principales HDFS MapReduce Hadoop Common

  5. Hadoop MapReduce Creado por Doug Cutting Google lo introdujo en 2004 Consiste en la ejecución de dos procesos separados, Map y Reduce Paralelismo Escalabilidad Tolerancia a fallos Curva de aprendizaje elevada

  6. Hadoop MapReduce - Map Recibe como entrada un par (clave, valor) y recupera como salida uno o varios pares (clave-i, valor-i) k1 v1 Map C1 vi1 k2 v2 k1 v3 k3 v4 Map C2 vi2 k1 v5 k2 v6 k3 v7 Map C3 vi3 k1 v8 k4 v9

  7. Hadoop MapReduce - Map Para cada (clave1, valor1) de entrada recupera una lista de (clave2, valor2) MEZCLAR Y ORDENAR k1 v1 k1 v1 v3 v5 v8 k2 v2 k1 v3 k3 v4 k2 v2 v6 k1 v5 k2 v6 k3 v4 v7 k3 v7 k1 v8 k4 v9 k4 v9

  8. Hadoop MapReduce - Reduce Recibe como entrada un par (clave, lista de valores) y recupera como salida un único par (clave, valor) Reduce k1 v1 v3 v5 v8 k1 vf1 Reduce k2 v2 v6 k2 vf2 Reduce k3 v4 v7 k3 vf3 Reduce k4 v9 k4 vf4

  9. Hadoop MapReduce - Arquitectura Es un componente de Hadoop Lee y escribe sobre el sistema de archivos de Hadoop (HDFS) Input Job (Map, Reduce, Input) JobTracker Assign Task Assign Task Assign Task TaskTracker TaskTracker TaskTracker Data transfer Data transfer

  10. Hadoop MapReduce - Arquitectura • JobTracker: Planificador de tareas • Registra los trabajos pendientes • Asigna las tareas a los nodos • Mantiene los trabajos cerca de los nodos • Si falla el JobTracker los trabajos pendientes de ejecución se pierden Input Job (Map, Reduce, Input) JobTracker Assign Task

  11. Hadoop MapReduce - Arquitectura • TaskTracker • Se llaman TaskTrackers a los nodos • Atienden operaciones de Map y Reduce • Tienen slots asignados para Map y para Reduce • Controla las tareas en ejecución • Notifica al JobTracker acerca del estado del nodo y las tareas • Si un TaskTracker falla o se produce un timeout, esa parte del trabajo ese re planifica Assign Task Assign Task TaskTracker TaskTracker Data transfer

  12. Hadoop HDFS Significa Hadoop Distributed File System Es el sistema de archivos por defecto de Hadoop Inspirado en GFS Estructurado en bloques (típicamente 64 MB o 128 MB por bloque) Rebalanceo de bloques Escalabilidad Disponibilidad Modelo de seguridad POSIX

  13. Hadoop HDFS - Arquitectura Client TCP/IP Networking NameNode Metadata DataNode DataNode DataNode DataNode Replicated data blocks

  14. Hadoop HDFS - Arquitectura • NameNode • Es la pieza central del HDFS • Administra el almacenamiento de datos • No almacena datos en si mismo • Las operaciones de Entrada/Salida no pasan a través de él • Hace de intermediario entre el cliente y los DataNodes • Es un Single Point of Failure

  15. Hadoop HDFS - Arquitectura • DataNode • Cientos o miles de DataNodes por cluster • Organizados en racks • Operaciones de Entrada/Salida ocurren sobre el DataNode • Contienen información replicada • Alta tolerancia a fallas

  16. Hadoop HDFS - Arquitectura Master JobTracker NameNode Slave Slave Slave TaskTracker TaskTracker TaskTracker DataNode DataNode DataNode

  17. Hadoop HDFS - API • Permite interactuar con el HDFS a través de CLI • Ej: $ hadoop fs –copyFromLocal miArchivo /miHDFSDir • Algunos comandos son: • cat • copyFromLocal • copyToLocal • du • dus • cp • rmr • mkdir

  18. Hadoop ¿Quiénes usan Hadoop?

More Related