1 / 17

Seminario de Extracción de Información

Seminario de Extracción de Información. DAPPER: The Data Mapper. Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es. INDICE. Problemática ¿ Qué es DAPPER ¿ Cómo crear un Dapp ? ¿ Cómo usar un Dapp ? Dos ejemplos prácticos

ondrea
Download Presentation

Seminario de Extracción de Información

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es

  2. INDICE • Problemática • ¿ Qué es DAPPER • ¿ Cómo crear un Dapp? • ¿ Cómo usar un Dapp? • Dos ejemplos prácticos • Características Interesantes • Algunos problemas de DAPPER

  3. Problemática • En 2008, alrededor de 160 millones de webs • Estructura heterogénea y dinámica • Datos semi-estructurados • Desarrollo manual de wrappers • Especializado por web • Muy costoso de desarrollar • Todavía más de mantener

  4. ¿Qué es DAPPER? • Herramienta de Extracción de Información desde Internet

  5. ¿Qué es DAPPER? • Servicio web, gratuito (registro) • No es necesario programar (entorno visual) • Fases: • 1 desarrollo del Dapppara una web • ∞ usos del Dappsobre diferentes webs • Nos permitirá: • Extraer la información requerida de una web • Utilizarla de diferentes modos

  6. ¿Cómo crear un DAPP? • Varias muestras de webs con la misma estructura

  7. ¿Cómo crear un DAPP?

  8. ¿Cómo crear un DAPP? • Varias muestras de webs con la misma estructura • Definir información que queremos

  9. ¿Cómo funciona DAPPER? TITULAR SUBTITULAR CUERPO

  10. ¿Cómo crear un DAPP? • Varias muestras de webs con la misma estructura • Definir información que queremos • DAPPER aprende y propone automáticamente • Información estática / dinámica • Estructura y etiquetas HTML (XPATH) • Refinamos el Dapp • Guardamos el Dapp

  11. ¿Cómo usar un DAPP? • Suscribirnos mediante un lector • RSS Feed(formato de redifusión de fuentes web) • AtomFeed • Ponerlo en nuestra página web • Gadget Google • Módulo Netvibes • Widget en flash

  12. ¿Cómo usar un DAPP? • Usarlo desde un lenguaje de programación • XML • JSON • YAML, XSL, CSV … • Otros • iCal • Google Map

  13. Ejemplo Práctico I • Extraer información de noticias del diario MARCA • Titular • Subtitular • Cuerpo • Crear un widget para mi página web

  14. Ejemplo Práctico II • Crear un buscador que use yahoo • Crear un gadget para iGoogle

  15. Características Interesantes • Uso de variables de entrada • Query para un buscador • Creación de alertas • Email cuando en cuerpo de noticia aparezca “Rubén Izquierdo” • Enlazar varios Dapp • Dapp buscador inglés  Dapp traductor • Explotación de Dapp’s • API JAVA • Python…

  16. Algunos problemas de DAPPER • No funciona con flash • Algunas web bloquean al robot de DAPPER • Limitación hits/segundo • Se ejecuta en el servidor de Yahoo • Dependencia de Yahoo • Dependencia de la carga de la red

  17. ¿Sugerencias? ¿Preguntas? DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es

More Related