1 / 15

Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti

Università degli Studi di Modena e Reggio Emilia. Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica. Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti. Integrazione di Sorgenti HTML in MOMIS:

hidalgo
Download Presentation

Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Relatore Chiar.mo Prof. Sonia Bergamaschi Correlatore Dott. Maurizio Vincini Tesi di Laurea Lorenzo Lugli Controrelatore Prof. Domenico Beneventano Anno Accademico 2001 - 2002

  2. Introduzione Ritrovamento dei dati ad un punto critico Indicizzazione di tutte le pagine presenti sul Web Crescita mole dati disponibili Soluzione adottata dai motori di ricerca tradizionali Problemi: • Velocità di crescita del Web • I contenuti delle pagine dinamiche vengono ignorati • Max accuratezza raggiungibile pagina Web

  3. Introduzione Human Readable HTML wrapper Machine Readable XML Soluzione adottata: Generatore di wrapper HTML XML Wrapper XML MOMIS (Mediator EnvirOnment for Multiple Information Sources) www.dbgroup.unimo.it/Momis

  4. Obiettivo della tesi • Analisi dei generatori di wrapper HTML XML • Test • Generazione di wrapper per siti di esempio • Utilizzo dei wrapper per trasformare le pagine HTML in XML • Individuazione di uno strumento per MOMIS Robustezza:capacità dei wrapper di fornire un’estrazione efficace anche in seguito a cambiamenti nelle pagine sulle quali sono stati messi a punto.

  5. Generatori di Wrappers • XWRAP Elite Georgia Institute of Technology • RoadRunner Università di Roma Tre • Andes IBM Almaden Research Center • Lixto Lixto Software DBAI University of Technology Vienna • Lapis Carnegie Mellon University Pittsburgh

  6. XWRAP Elite Obiettivo:Pagine Web data-intensive Contributo Primario:Euristiche ed algoritmi per sopperire alla necessità di input semantici da parte del progettista Processo di generazione del wrapper: • Individuazione dei dati • e separazione in data object • Decomposizione degli oggetti • in elementi • Marcatura di oggetti ed elementi

  7. XWRAP Elite Fase di Test: Problemi • Immagini, Javascript • Sottoalbero minimo • HTTPS • Frame • Tabelle complesse

  8. Il sistema RoadRunner Raggiungere completa automatizzazione Obiettivo Principale intuizione: Studio di analogie e differenze Scoperta di modelli di estrazione

  9. Il sistema RoadRunner Architettura Classifier Input Punto di Accesso al sito • Classifier • Aligner • Expander • Labeler Classi di Pagine Pagine Singole Aligner Dati Estratti Expander Wrapper con campi non etichettati Labeler XML

  10. Il sistema RoadRunner <TABLE> <TR> + <TR> <TD> <TD> <TD> <TD> Nome Telefono $A $B Labeler …<table> <tr> <td>Nome</td> <td>Telefono</td> </tr> (<tr><td>$A</td> <td>$B</td> </tr>)+ </table>…

  11. Il sistema Andes della IBM Estrattori XSLT Set URL Estrattore XSLT 1 XSLT n XHTML XML XML Output XML … XSL Processor XSL Processor Processo di conversione HTML - XML XPath HTML XML

  12. Il sistema Andes FiltriHTML XSLT HTML con JavaScript e FORM HTML HTML con Hyperlink Sintetici Filtro XHTML Deposito URL Navigatore URLs HTML Sintesi degli hyperlink Ancore: punti di riferimento per individuare concetti di interesse Salti: percorso che porta al dato di interesse partendo dall’ancora più vicina

  13. Il sistema Lixto Principale caratteristica:Interfaccia visuale e interattiva Modelli: • Specificano come estrarre sezioni di dati da pagine Web • Ogni modello viene mappato in un tag XML Filtri:Forniscono una rappresentazione alternativa dei dati che devono essere estratti Condizioni:Servono a restringere il numero di data-object restituiti da un filtro

  14. Il sistema Lixto Struttura della pagina HTML Struttura dei dati Risultati dei test: problemi • Frame • Concetti aventi differenti significati innestati allo stesso livello di una struttura dati • Ricostruzione simple element • Estrazione multipagina • Browser interno Risultati dei test: successo

  15. Conclusioni Data-intensive RoadRunner XWRAPElite Lixto Individuali Andes IBM

More Related