150 likes | 290 Views
Università degli Studi di Modena e Reggio Emilia. Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica. Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti. Integrazione di Sorgenti HTML in MOMIS:
E N D
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Relatore Chiar.mo Prof. Sonia Bergamaschi Correlatore Dott. Maurizio Vincini Tesi di Laurea Lorenzo Lugli Controrelatore Prof. Domenico Beneventano Anno Accademico 2001 - 2002
Introduzione Ritrovamento dei dati ad un punto critico Indicizzazione di tutte le pagine presenti sul Web Crescita mole dati disponibili Soluzione adottata dai motori di ricerca tradizionali Problemi: • Velocità di crescita del Web • I contenuti delle pagine dinamiche vengono ignorati • Max accuratezza raggiungibile pagina Web
Introduzione Human Readable HTML wrapper Machine Readable XML Soluzione adottata: Generatore di wrapper HTML XML Wrapper XML MOMIS (Mediator EnvirOnment for Multiple Information Sources) www.dbgroup.unimo.it/Momis
Obiettivo della tesi • Analisi dei generatori di wrapper HTML XML • Test • Generazione di wrapper per siti di esempio • Utilizzo dei wrapper per trasformare le pagine HTML in XML • Individuazione di uno strumento per MOMIS Robustezza:capacità dei wrapper di fornire un’estrazione efficace anche in seguito a cambiamenti nelle pagine sulle quali sono stati messi a punto.
Generatori di Wrappers • XWRAP Elite Georgia Institute of Technology • RoadRunner Università di Roma Tre • Andes IBM Almaden Research Center • Lixto Lixto Software DBAI University of Technology Vienna • Lapis Carnegie Mellon University Pittsburgh
XWRAP Elite Obiettivo:Pagine Web data-intensive Contributo Primario:Euristiche ed algoritmi per sopperire alla necessità di input semantici da parte del progettista Processo di generazione del wrapper: • Individuazione dei dati • e separazione in data object • Decomposizione degli oggetti • in elementi • Marcatura di oggetti ed elementi
XWRAP Elite Fase di Test: Problemi • Immagini, Javascript • Sottoalbero minimo • HTTPS • Frame • Tabelle complesse
Il sistema RoadRunner Raggiungere completa automatizzazione Obiettivo Principale intuizione: Studio di analogie e differenze Scoperta di modelli di estrazione
Il sistema RoadRunner Architettura Classifier Input Punto di Accesso al sito • Classifier • Aligner • Expander • Labeler Classi di Pagine Pagine Singole Aligner Dati Estratti Expander Wrapper con campi non etichettati Labeler XML
Il sistema RoadRunner <TABLE> <TR> + <TR> <TD> <TD> <TD> <TD> Nome Telefono $A $B Labeler …<table> <tr> <td>Nome</td> <td>Telefono</td> </tr> (<tr><td>$A</td> <td>$B</td> </tr>)+ </table>…
Il sistema Andes della IBM Estrattori XSLT Set URL Estrattore XSLT 1 XSLT n XHTML XML XML Output XML … XSL Processor XSL Processor Processo di conversione HTML - XML XPath HTML XML
Il sistema Andes FiltriHTML XSLT HTML con JavaScript e FORM HTML HTML con Hyperlink Sintetici Filtro XHTML Deposito URL Navigatore URLs HTML Sintesi degli hyperlink Ancore: punti di riferimento per individuare concetti di interesse Salti: percorso che porta al dato di interesse partendo dall’ancora più vicina
Il sistema Lixto Principale caratteristica:Interfaccia visuale e interattiva Modelli: • Specificano come estrarre sezioni di dati da pagine Web • Ogni modello viene mappato in un tag XML Filtri:Forniscono una rappresentazione alternativa dei dati che devono essere estratti Condizioni:Servono a restringere il numero di data-object restituiti da un filtro
Il sistema Lixto Struttura della pagina HTML Struttura dei dati Risultati dei test: problemi • Frame • Concetti aventi differenti significati innestati allo stesso livello di una struttura dati • Ricostruzione simple element • Estrazione multipagina • Browser interno Risultati dei test: successo
Conclusioni Data-intensive RoadRunner XWRAPElite Lixto Individuali Andes IBM