230 likes | 258 Views
Hadoop is an Apache open source framework written in java that allows distributed processing of large datasets across clusters of computers using simple programming models. A Hadoop frame- worked application works in an environment that provides distributed storage and computation.
E N D
HADOOPINTRODUCTION By Professionalguru
Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com
Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com
INTRODUCCIÓN Actualmente el crecimiento exponencial de datos como las nuevas las nuevas tecnologías de almacenamiento de ellas, están cambiando la arquitectura de los nuevos sistemas y el modo con el cual se está acelerando el proceso de esta información. Motivo a esto, es la aparición de varias herramientas de código libre que permiten manejar enormes cantidades de datos en sistemasdistribuidos. http://professional-guru.com
Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com
HADOOP Hadoop es un framework de software basado en Java y está orientado a aplicaciones distribuidas con un uso extensivo de datos y de altaescalabilidad. Se presenta como una solución para los programadores sin experiencia en el desarrollo de aplicaciones para entornos distribuidos, dado que oculta la implementación de detalles propios de estos sistemas: paralelización de tareas, administración de procesos, balanceo de carga y tolerancia a fallos. http://professional-guru.com
Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com
VISIÓNACTUAL Hoy en día, el análisis de estos enormes volúmenes de datos de distintos formatos, se están extendiendo paulatinamente en el mundo de las Empresas, Redes Sociales yWeblogs. Este fenómeno ha creado una nueva organización sin fronteras a la que llamamos… “Big McData” http://professional-guru.com
Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com
MAPREDUCE Hadoop proporciona un entorno de ejecución orientado a • aplicaciones desarrolladas bajo el modelo de programación MapReduce. Bajo este modelo, la ejecución de una aplicación presenta dosetapas: • Map: donde se realiza la ingestión y la transformación de los datos de entrada, en la cual los registros de entrada pueden ser son procesados enparalelo. • Reduce: fase de agregación o resumen, donde todos los registros asociados entre sí deben ser procesados juntos por una mismaentidad. http://professional-guru.com
Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com
HDFS Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido, escalable y portátil escrito en Java para el framework Hadoop, pensado para almacenar grandes cantidades de información, del orden Terabytes o Petabytes tolerante a fallos y diseñado para ser instalado en máquinas de bajocosto. http://professional-guru.com
Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com
ARQUITECTURA • fundamentales: • Sistema de Archivos : Denominado HDFS. • HadoopMapReduce: Planificador de trabajos, así como una serie de nodos encargados para llevarlos acabo. La arquitectura de Hadoop se sustenta sobre 3 pilares • HadoopCommon : Conjunto de utilidades que posibiliten la integración de subproyectos deHadoop. http://professional-guru.com
Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com
FUNCIONAMIENTO Sobre el sistema de archivos se ubica el motor de MapReduce, que consiste en un planificador de trabajos denominado JobTracker, a través del que las aplicaciones cliente envían trabajos MapReduce. Este planificador envía el flujo de trabajo entrante a los nodos TaskTracker disponibles en el clúster, que se ocuparán de ejecutar las funciones map y reduce en cadanodo. http://professional-guru.com
Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com
MODOS DEEJECUCIÓN • Hadoop se puede ejecutar de tres formasdistintas: • Modo Local/Standalone : Por defecto, Hadoopestá • configurado para ejecutarse en este modo como un proceso de Java aislado. Esto es útil paradepuración. • ModoPseudo-distribuido : Hadoop puede ejecutarse en este modo,endondecadatareaseejecutaenprocesoJavadiferente. • ModoDistribuido : Esta es la forma de aprovechar toda la potencia de Hadoop, ya que se maximiza el paralelismo de procesos y se utilizan todos los recursos disponibles del clúster en el que se va a configurarHadoop. http://professional-guru.com
Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com
EJEMPLOS DEUSO • Existe un gran número de aplicaciones y empresas que utilizan Hadoop en sus clústers. Entre los más relevantes podemos mencionar lossiguientes: • Facebook • Google • Twitter • Yahoo! http://professional-guru.com
Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com
DESVENTAJAS • La curva de aprendizaje de Hadoop esAlta • Hadoop no permite hacerlookups • Hadoop reprocesa todosiempre • Latencia http://professional-guru.com
Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com