DAL WEB AL SEMANTIC WEB. Aspetti teorici e tecnologici Carmagnola Francesca

DAL WEB AL SEMANTIC WEB. • Aspetti teorici e tecnologici • Carmagnola Francesca • Dipartimento Informatica • C.so Svizzera 185, Torino • carmagnola@di.unito.it

Lezioni • 26/02 (15-18) aula 1.2 (teoria) • 05/03 (15-18) aula 1.2 (teoria) • 09/03 (15-18) aula 1.7 (teoria) • 19/03 (15-18) aula 1.2 (pratica) • 26/03 (15-18) aula 1.2 ESAME • Assenze possibili: 1 • Esame • Esaminare l’architettura dell’informazione di un portale a scelta/testo libero, definirne l’ontologia di dominio e implementarla in Protege.

Programma -Introduzione sul Semantic Web, obiettivi, architettura -Rappresentazione della conoscenza per il SW -Semantic Web e Knowledge Management -Servizi Web e Servizi Web semantici -Problematiche e tematiche relative al Semantic Web -Semantic Web e Web 2.0 -Il Semantic Web in pratica: Protege

“Ho un sogno per il Web … ed esso è diviso in due parti. Nella prima parte, il Web diventa un mezzo molto più potente per la collaborazione tra le persone. Ho sempre immaginato lo spazio delle informazioni come qualcosa cui chiunque potesse avere accesso immediato ed intuitivo, e non solo di consultarlo, ma di crearlo. […] Inoltre, il sogno della comunicazione tra le persone, attraverso la condivisione della conoscenza, deve essere possibile per gruppi di ogni dimensione, interagenti elettronicamente con la facilità con la quale essi comunicano di persona”. Tim Berners – Lee, Weaving the Web

IL WORLD WIDE WEB • • Il WWW é uno spazio di informazioni (base di conoscenza) interrogabili che utilizza Internet come infrastruttura fisica e di protocolli • Se fosse solo questo non ci sarebbe differenza tra Internet ed una grossa biblioteca. La grande novità di Internet sta nel fatto che questi testi possono richiamarsi l’uno con l’altro, in modo molto rapido Ipertesto • Medium di informazioni non “lineare” : contenuti ipermediali = ipertesti + risorse multimediali • • I principali elementi che caratterizzano il WWW sono: • il meccanismo degli Uniform Resource Identifier (URI) • il protocollo Hypertext Transfer Protocol (HTTP) • il linguaggio HyperText Markup Language (HTML) • il linguaggio eXtensible Markup Language (XML)

L’EVOLUZIONE DEL WORLD WIDE WEB • All’inizio: WWW come insieme di testi e indici ipertestuali di testi • Poi: motori di ricerca tentano di accedere direttamente al contenuto dei testi • strutture dei siti differite su più livelli, prevedendo la possibilità di distinguere fra la struttura del documento e il suo apparire (fogli di stile)

I LIMITI DEL WORLD WIDE WEB Ricerca di documenti Due strade: i) seguire i link da una pagina all’altra fino a trovare quello che cercavamo, ii) servirci di un motore di ricerca i) Vantaggio: processo cognitivamente ricco Svantaggio: Non si sa da dove partire Svantaggio: Time-consuming ii) Vantaggio: Si sa da dove partire (interrogazione significativa) Svantaggio: I motori di di ricerca non copriono tutti i documenti esistenti Svantaggio: Falsi positivi e falsi negativi (I motori di ricerca restituiscono infatti risultati basati su ricerca sintattica)

I LIMITI DEL WORLD WIDE WEB Ricerca di informazioni La ricerca, comunque sia effettuata, restituisce sempre documenti e non esattamente l’informazione che stiamo cercando. Segue un certo lavoro manuale per creare la lista che ci interessa. Nel caso del motore di ricerca qualsiasi query attivata è sempre soggetta al rischio della ambiguità. Cercando la parola "albero" potrei trovare contenuti legati all'informatica alla botanica alla nautica. Users want information simply and quickly, but are satisfied only one time in seven [Delphi Group, 2006]

ESEMPIO: Ricerche su Internet Voglio sapere chi è il direttore dell’ M.I.T. Apro Google (http://www.google.com) e inserisco MIT Chair Risultati: 815.000 documenti che riguardano: 􀂅Massachussets Institute of Technology 􀂅mit (Tedesco) prep. Con 􀂅Chair (Inglese) n. sedia

Jaguar Cars [www.jaguar.co.uk/ - 17k] ….. Jaguar General information and facts from Big Cats Online.[www.abf90.dial.pipex.com/jaguar.htm] …..

I LIMITI DEL WORLD WIDE WEB Integrazione di informazioni Informazioni di interesse contenute in diversi documenti, magari disponibili su siti diversi. Per esempio, se volessimo sapere quali autobus sono disponibili dall’aeroporto di Genova verso il centro città in coincidenza con un certo volo, dovremmo consultare separatamente il sito della compagnia aerea per sapere gli orari dei voli, poi quello della compagnia di trasporto terrestre per gli orari dei bus, e infine combinare manualmente le due cose in un piano di viaggio. Ancora una volta, nulla ci permette di descrivere concetti come “prima”, “dopo”, “coincidenza”, “percorso”, né di combinare informazione proveniente da fonti diverse in un piano che risolva il nostro problema.

I LIMITI DEL WORLD WIDE WEB Cooperazione Il Web attuale non permette la cooperazione tra programmi e tra programmi e utenti umani per risolvere problemi complessi. La maggior parte dei siti web non sono progettati per fornire servizi ad altri servizi, ma semplicemente come contenitori di informazioni che possono essere estratte a richiesta. Per contro, molte applicazioni (per esempio, l’organizzazione di un viaggio) richiederebbero da un lato che i siti Web di varie organizzazioni potessero interagire in modo flessibile e dinamico e dall’altro che gli utenti potessero intervenire nel processo interagendo con i programmi dei vari siti (per esempio, verificare interattivamente che il risultato sia conforme alle esigenze del potenziale viaggiatore, permettendogli di richiedere modifiche o proposte alternative nel corso del processo di definizione).

I LIMITI DEL WORLD WIDE WEB • Fonti di informazione su uno stesso argomento spesso non sono connesse tra loro • L’interscambio di contenuti tra applicazioni web è ancora molto difficile • Le informazioni sono “leggibili” dai computer ma non ad essi “comprensibili” • Nessun ragionamento (v.sinonimia) • • Il volume delle informazioni disponibili è diventato ingestibile manualmente • • I servizi di intermediazione automatizzata e gli agenti software dipendono dalla struttura dei siti e dei database su cui operano

COME SI ARRIVA AL SEMANTIC WEB TENTANDO DI RISOLVERE QUESTI LIMITI

Semantics allows better search Jaguar Cars [www.jaguar.co.uk/ - 17k] AU - Jaguar Cars Information on new, preowned, services and news on models.[www.jaguar.com.au/ - 17k] ……. Do you mean jaguar the car or jaguar the cat? I mean Jaguar the Car!

Integration of information Interoperability: [Two applications can be considered as interoperable if they can exchange data and services in a efficient and consistent way, allowing The communication among hardware and software heterogeneous Platforms]

ESEMPIO

ESEMPIO • Domanda semplice per gli umani ma non comprensibile per le macchine • Tuttavia richesta time consuming anche per gli umani • Sarebbe opportuno che il processo fosse eseguibile da una • macchina! • MA COME?

COSA CAPISCE LA MACCHINA

IL SEMANTIC WEB

“Nella seconda parte del sogno, le collaborazioni si estendono ai computer. Le macchine diventano capaci di analizzare tutti i dati sul Web – il contenuto, i link e le transazioni tra le persone ed i computer. Un “Web Semantico”, che dovrebbe rendere questo possibile, deve ancora emergere, ma quando lo farà, i meccanismi quotidiani del commercio, della burocrazia, e delle nostre vite quotidiane saranno gestiti da macchine che interagiscono con macchine, lasciando agli umani il compito di fornire l’ispirazione e l’intuizione. Compariranno quegli “agenti intelligenti” sui quali la gente ha fantasticato per anni. Questo Web in grado di essere compreso dalle macchine nascerà dall’implementazione di una serie di progressi tecnici e accordi sociali che stanno cominciando già a manifestarsi” Tim Berners – Lee, Weaving the Web

COSA E’ IL SEMANTIC WEB • si configura come estensione dell’attuale WWW • piattaforma universale di dati condivisi • utilizzabili da applicazioni automatiche e da persone • in cui le informazioni hanno un significato ben definito, ossia hanno una SEMANTICA • permettendo una migliore cooperazione tra computer e persone

Web vs. Semantic Web • Semantic Web • associa alle risorseuna struttura semantica • caratterizza le risorse e le relazioni associandogli un significato particolare • Web attuale • le informazioni non hannostruttura semantica • la semantica è human understandable • le applicazioni possono ‘comprendere’ solo la sintassi

SEMANTIC WEB: COME? • Affinché le macchine comunichino tra loro scambiandosi dati aventi un preciso significato, occorre che la semantica sia chiara e la sintassi condivisa • Semantica: • Inserimento di meta-informazione sulle risorse web: Informazione sull’informazione • Strutturazione e Ragionamento su metadati • Sintassi: • Formalismo Standard per rappresentare i metadati

SEMANTIC WEB:COME? • Semantic Web significa un Web comprensibile per le macchine • Esse sono in grado di comunicare tra loro scambiandosi dati aventi un preciso significato: non semplici dati ma informazioni • Presupposto per lo scambio di dati fra le applicazioni è che le macchine comprendano i dati del Web • Ma come è possibile questo? • Strutturando le informazioni almomento della loro archiviazione

OBIETTIVI DEL SEMANTIC WEB Secondo il gruppo di ricerca sul Semantic Web del W3C, il Web semantico ha essenzialmente lo scopo di creare una piattaforma per la condivisione e il riuso della conoscenza. “The Semantic Web provides a common framework that allows data to be shared and reused across application, enterprise, and community boundaries.” [1] [1] SemanticWeb Activity, W3C http://www.w3.org/2001/sw/

OBIETTIVI DEL SEMANTIC WEB • Come si è detto, il Semantic Web cerca di porre un rimedio ai limiti evidenziati • Ottenere da una ricerca sul Web più risultati interessanti creando correlazioni semantiche tra pagine appartenenti a domini diversi; • • Favorire l’integrazione dei contenuti da sorgenti diverse • • Permettere l’automazione di operazioni rendere l’informazione accessibile in maniera automatica ad agenti software • • Usare la potenza analitica dei computer per “capire” i contenuti del Web

APPLICAZIONI DEL SEMANTIC WEB • Information retrieval • Knowledge Management • Business-to-Consumer Electronic Commerce • Business-to-Business Electronic Commerce • Agents

APPLICAZIONI CONNESSE DA CONCETTI

TIRIAMO LE FILA DEL DISCORSO • Al momento molti degli sforzi del WWW hanno uno scopo: generare informazioni che non siano soltanto destinati alla lettura, ma che possano essere riutilizzati per applicazioni automatiche • Non c’è niente in un documento HTML che indichi l’argomento trattato o la fonte delle informazioni. L’unico tipo di ricerca che si può fare su un documento è la ricerca manuale sul contenuto • Il W3C considera l’ideale, futura evoluzione del Web quella dal machine-representable al machine-understandable • Le metainformazioni permettono agli autori di specificare informazioni sui loro documenti (informazioni su informazioni) che siano non soltanto leggibili, ma anche interpretabili in maniera intelligente dalle applicazioni di rielaborazione, (es. dai motori di ricerca). • L'utilizzo di meta-informazioni porta al Web di seconda generazione: il Web Semantico

SEMANTIC WEB • L’idea è di generare documenti che possano al tempo stesso essere letti ed apprezzati da esseri umani, ma anche acceduti ed interpretati da agenti automatici che potranno agire come agenti di ricerca, filtri di informazioni o intermediari (brokers) nelle comunicazioni • Il Web si deve dunque dotare di una sovrastruttura per l’interoperabilità semantica tra le applicazioni, in modo da poter svolgere quelle funzioni che oggi debbono essere fatte a mano o codificate dentro ai programmi • Questo porta al web semantico, in cui non esprimo testi (all'interno dei quali le informazioni stanno nascoste e richiedono un umano), ma affermazioni (informazioni non ambigue, che esprimono relazioni tra oggetti, risorse, esseri umani, fatti del mondo reale, e che possono essere utilizzate anche da applicazioni automatiche) • Il Semantic Web NON risulta separato e distinto del Web odierno, ma è piuttosto una sua estensione

OBIETTIVI DEL SEMANTIC WEB Le pagine HTML contengono informazioni che possono essere lette dalle persone Occorre navigare manualmente, leggere diverse pagine prima di trovare le informazioni che interessano

OBIETTIVI DEL SEMANTIC WEB • Supportare tecnologie che consentano lo scambio globale di informazione • Condividere dati e metadati • Realizzare appieno le potenzialità del Web • Rendere efficiente e conveniente la memorizzazione della conoscenza • Rendere l’informazione accessibile in maniera automatica ad agenti software • Favorire il riuso dell’informazione • Integrare contenuti esistenti sul Web

Ottimizzare la ricerca di informazioni da parte degli utenti coi motori di ricerca • Creare correlazioni semantiche tra pagine appartenenti a domini diversi • Rendere possibile l’automazione di transazioni commerciali • Garantire un livello di fiducia nella bontà delle risposte ottenute

DAL WEB AL SEMANTIC WEB. Aspetti teorici e tecnologici Carmagnola Francesca