170 likes | 296 Views
Seminario de Extracción de Información. DAPPER: The Data Mapper. Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es. INDICE. Problemática ¿ Qué es DAPPER ¿ Cómo crear un Dapp ? ¿ Cómo usar un Dapp ? Dos ejemplos prácticos
E N D
Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es
INDICE • Problemática • ¿ Qué es DAPPER • ¿ Cómo crear un Dapp? • ¿ Cómo usar un Dapp? • Dos ejemplos prácticos • Características Interesantes • Algunos problemas de DAPPER
Problemática • En 2008, alrededor de 160 millones de webs • Estructura heterogénea y dinámica • Datos semi-estructurados • Desarrollo manual de wrappers • Especializado por web • Muy costoso de desarrollar • Todavía más de mantener
¿Qué es DAPPER? • Herramienta de Extracción de Información desde Internet
¿Qué es DAPPER? • Servicio web, gratuito (registro) • No es necesario programar (entorno visual) • Fases: • 1 desarrollo del Dapppara una web • ∞ usos del Dappsobre diferentes webs • Nos permitirá: • Extraer la información requerida de una web • Utilizarla de diferentes modos
¿Cómo crear un DAPP? • Varias muestras de webs con la misma estructura
¿Cómo crear un DAPP? • Varias muestras de webs con la misma estructura • Definir información que queremos
¿Cómo funciona DAPPER? TITULAR SUBTITULAR CUERPO
¿Cómo crear un DAPP? • Varias muestras de webs con la misma estructura • Definir información que queremos • DAPPER aprende y propone automáticamente • Información estática / dinámica • Estructura y etiquetas HTML (XPATH) • Refinamos el Dapp • Guardamos el Dapp
¿Cómo usar un DAPP? • Suscribirnos mediante un lector • RSS Feed(formato de redifusión de fuentes web) • AtomFeed • Ponerlo en nuestra página web • Gadget Google • Módulo Netvibes • Widget en flash
¿Cómo usar un DAPP? • Usarlo desde un lenguaje de programación • XML • JSON • YAML, XSL, CSV … • Otros • iCal • Google Map
Ejemplo Práctico I • Extraer información de noticias del diario MARCA • Titular • Subtitular • Cuerpo • Crear un widget para mi página web
Ejemplo Práctico II • Crear un buscador que use yahoo • Crear un gadget para iGoogle
Características Interesantes • Uso de variables de entrada • Query para un buscador • Creación de alertas • Email cuando en cuerpo de noticia aparezca “Rubén Izquierdo” • Enlazar varios Dapp • Dapp buscador inglés Dapp traductor • Explotación de Dapp’s • API JAVA • Python…
Algunos problemas de DAPPER • No funciona con flash • Algunas web bloquean al robot de DAPPER • Limitación hits/segundo • Se ejecuta en el servidor de Yahoo • Dependencia de Yahoo • Dependencia de la carga de la red
¿Sugerencias? ¿Preguntas? DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es