1 / 23

introduction to hadoop

Hadoop is an Apache open source framework written in java that allows distributed processing of large datasets across clusters of computers using simple programming models. A Hadoop frame- worked application works in an environment that provides distributed storage and computation.

Download Presentation

introduction to hadoop

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. HADOOPINTRODUCTION By Professionalguru

  2. Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com

  3. Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com

  4. INTRODUCCIÓN Actualmente el crecimiento exponencial de datos como las nuevas las nuevas tecnologías de almacenamiento de ellas, están cambiando la arquitectura de los nuevos sistemas y el modo con el cual se está acelerando el proceso de esta información. Motivo a esto, es la aparición de varias herramientas de código libre que permiten manejar enormes cantidades de datos en sistemasdistribuidos. http://professional-guru.com

  5. Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com

  6. HADOOP Hadoop es un framework de software basado en Java y está orientado a aplicaciones distribuidas con un uso extensivo de datos y de altaescalabilidad. Se presenta como una solución para los programadores sin experiencia en el desarrollo de aplicaciones para entornos distribuidos, dado que oculta la implementación de detalles propios de estos sistemas: paralelización de tareas, administración de procesos, balanceo de carga y tolerancia a fallos. http://professional-guru.com

  7. Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com

  8. VISIÓNACTUAL Hoy en día, el análisis de estos enormes volúmenes de datos de distintos formatos, se están extendiendo paulatinamente en el mundo de las Empresas, Redes Sociales yWeblogs. Este fenómeno ha creado una nueva organización sin fronteras a la que llamamos… “Big McData” http://professional-guru.com

  9. Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com

  10. MAPREDUCE Hadoop proporciona un entorno de ejecución orientado a • aplicaciones desarrolladas bajo el modelo de programación MapReduce. Bajo este modelo, la ejecución de una aplicación presenta dosetapas: • Map: donde se realiza la ingestión y la transformación de los datos de entrada, en la cual los registros de entrada pueden ser son procesados enparalelo. • Reduce: fase de agregación o resumen, donde todos los registros asociados entre sí deben ser procesados juntos por una mismaentidad. http://professional-guru.com

  11. Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com

  12. HDFS Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido, escalable y portátil escrito en Java para el framework Hadoop, pensado para almacenar grandes cantidades de información, del orden Terabytes o Petabytes tolerante a fallos y diseñado para ser instalado en máquinas de bajocosto. http://professional-guru.com

  13. Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com

  14. ARQUITECTURA • fundamentales: • Sistema de Archivos : Denominado HDFS. • HadoopMapReduce: Planificador de trabajos, así como una serie de nodos encargados para llevarlos acabo. La arquitectura de Hadoop se sustenta sobre 3 pilares • HadoopCommon : Conjunto de utilidades que posibiliten la integración de subproyectos deHadoop. http://professional-guru.com

  15. Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com

  16. FUNCIONAMIENTO Sobre el sistema de archivos se ubica el motor de MapReduce, que consiste en un planificador de trabajos denominado JobTracker, a través del que las aplicaciones cliente envían trabajos MapReduce. Este planificador envía el flujo de trabajo entrante a los nodos TaskTracker disponibles en el clúster, que se ocuparán de ejecutar las funciones map y reduce en cadanodo. http://professional-guru.com

  17. Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com

  18. MODOS DEEJECUCIÓN • Hadoop se puede ejecutar de tres formasdistintas: • Modo Local/Standalone : Por defecto, Hadoopestá • configurado para ejecutarse en este modo como un proceso de Java aislado. Esto es útil paradepuración. • ModoPseudo-distribuido : Hadoop puede ejecutarse en este modo,endondecadatareaseejecutaenprocesoJavadiferente. • ModoDistribuido : Esta es la forma de aprovechar toda la potencia de Hadoop, ya que se maximiza el paralelismo de procesos y se utilizan todos los recursos disponibles del clúster en el que se va a configurarHadoop. http://professional-guru.com

  19. Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com

  20. EJEMPLOS DEUSO • Existe un gran número de aplicaciones y empresas que utilizan Hadoop en sus clústers. Entre los más relevantes podemos mencionar lossiguientes: • Facebook • Google • Twitter • Yahoo! http://professional-guru.com

  21. Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com

  22. DESVENTAJAS • La curva de aprendizaje de Hadoop esAlta • Hadoop no permite hacerlookups • Hadoop reprocesa todosiempre • Latencia http://professional-guru.com

  23. Introducción • Hadoop • VisiónActual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos deEjecución • Ejemplos deUso • Desventajas • Alternativas http://professional-guru.com

More Related