Búsquedas optimizadas en la página de la ESPOL utilizando Hadoop

Búsquedas optimizadas en la página de la ESPOL utilizando Hadoop Integrantes: Jorge Herrera M. Carlos Rodríguez R.

Índice: • Resumen • Objetivos • Descripción del Problema • Fundamentos Teóricos • Diseño e implementación • Conclusiones y Recomendaciones

Resumen • Actualmente el sitio web de la universidad no cuenta con un proceso de búsqueda propio que permita obtener resultados de contenidos referentes del sitio de la ESPOL, para lo cual se ha desarrollado un módulo que permita realizar búsquedas en los diferentes contenidos que están publicados en el sitio web de la universidad.

Objetivos • Implementar una opción de búsqueda de calidad con los contenidos de la página de la ESPOL usando Hadoop como plataforma de procesamiento masivo y escalable de datos. • Optimizar el tiempo de búsqueda utilizando los nodos del cluster de hadoop.

Objetivos • Comparar los tiempos de respuesta de las búsquedas realizadas con Hadoop y el buscador actual que contiene el sitio de ESPOL. • Realizar recomendaciones y sugerencias en la opción de búsqueda a futuro dentro del sitio de ESPOL.

Descripción del Problema • La opción de búsqueda de la página de la ESPOL a pesar de que realiza su función gracias al API de Google, no optimiza sus resultados en las preferencias ni la presenta organizada por algún parámetro implícito como fecha u orden alfabético de las páginas coincidentes con la búsqueda.

FUNDAMENTOS TEÓRICOS • Qué es Hadoop? • HDFS (HadoopDistributed File System) • Map/Reduce

Hadoop • Plataforma que permite desarrollar y ejecutar aplicaciones que procesan grandes cantidades de datos. • Modelo distribuido. • Alta disponibilidad. • Hardware de bajo costo. • Alto rendimiento.

Esquema Hadoop • Modelo distribuido

Hadoop Commons • Conjunto de librerías y utilidades .jar y scripts. • Interactúa con el sistema de archivos distribuidos. • Gestiona el control de acceso a los nodos del FS.

HDFS • Sistema de archivos distribuido, escalable y tolerante a fallos. • Escrito en Java. • Reduce el impacto de un corte de energía. • Nodo primario o "NameNode" que controla los "DataNodes", donde finalmente se almacenan los datos.

HDFS Namenode Metadata(Name, replicas..) (/home/foo/data,6. .. Metadata ops Client Block ops Read Datanodes Datanodes B replication Blocks Rack2 Rack1 Write Client

MapReduce • framework que nos permite desarrollar las aplicaciones que son capaces de procesar en paralelo los datos. • Separan los datos de entrada • Los datos de entrada son Tareas MAP • Los datos de salida del map son enviados como entradas de Tareas REDUCE.

Map/Reduce

Diseño e Implementación • Herramientas: • Entorno de desarrollo:NetBeans IDE 6.9.1 • Lenguaje: Java • Lenguajes de Páginas Web: JSP • Lenguaje de Scripts:JavaScript

Arquitectura

Diseño e Implementación

Resultados

Conclusiones • Hadoop es un frameworkmuy potente y realmente sencillo de utilizar, sin embargo, debemos tener muy claro que se quiere resolver y no intentar resolver todos nuestros problemas con él. • Se requiere mayor cantidad de nodos y datos para que hadoop pueda ser utilizado de manera eficiente.

Recomendaciones • Se recomienda que para futuras pruebas, se debe extraer la información completa de cada uno de los sitios web de ESPOL y realizar búsquedas más exhaustivas. • También se debe realizar una actualización de las versiones de hadoop para ver las mejoras en el análisis escalable de datos en los diferentes nodos del cluster. • Se recomienda incorporar la opción de búsqueda personalizada de hadoop dentro del sitio web de ESPOL para que los usuarios puedan ver los resultados de su búsqueda más detallada y precisa. Y posiblemente la creación de sesiones para personalizar aun más las búsquedas.

Gracias

Búsquedas optimizadas en la página de la ESPOL utilizando Hadoop

Búsquedas optimizadas en la página de la ESPOL utilizando Hadoop

Presentation Transcript

El secreto para ganar dinero Adwords y Clickbank:

CoHadoop : Flexible Data Placement and Its Exploitation in Hadoop

Formulación y Evaluación de Proyectos Turísticos – Clase 3

2.2 La épica. El cantar de Mio Cid Mapa conceptual 1

Planificación y Comercialización – Clase 2

Инструменты обработки Big Data . Hadoop . NoSQL .

Unidad 1, LecciÓn 1 página 51

VALORACIÓN DELA MADURACIÓN ÓSEA UTILIZANDO LAS VERTEBRAS CERVICALES

Organización

La Decisión 583 de la CAN Instrumento Andino de Seguridad Social Gina Magnolia Riaño Barón

Unidad 4, Lecci ó n 1 página 213

雲端運算虛擬技術 -- 雲端計算資料處理技術 -- Hadoop -- MapReduce

Vista Plus...

基于 Hadoop 的大数据应用分析

L A TAREA

Estudio estadístico de una cohorte de estudiantes

ESPOL - 2004

GWT: 網頁前端設計

Clasificación de documentos web utilizando marcadores sociales

Hadoop 入门

빅데이터

雲端計算 Cloud Computing