270 likes | 407 Views
Italian IA Summit. La classificazione e la struttura relazionale nel Thesaurus: l’esperienza di EARTh. Fulvio MAZZOCCHI, Paolo PLINI, Sabina DI FRANCO. 24 febbraio 2006. Premessa. Consiglio Nazionale delle Ricerche. Environmental Knowledge Organisation Laboratory.
E N D
Italian IA Summit La classificazione e la struttura relazionale nel Thesaurus: l’esperienza di EARTh Fulvio MAZZOCCHI, Paolo PLINI, Sabina DI FRANCO 24 febbraio 2006
Premessa Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory • Aspetti generali della terminologia ambientale • Il progetto del CNR relativo allo sviluppo di un thesaurus generale per l’ambiente (EARTh) • La struttura di classificazione e il modello semantico di EARTh • La struttura delle relazioni di EARTh • Il contenuto terminologico di EARTh • SuperThes: il software utilizzato per la gestione del thesaurus
Alcune considerazioni generali sulla terminologia ambientale Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory Nella società attuale “l’ambiente” riveste un’importanza cruciale: • la nascita continua di nuove tematiche (es. l’inquinamento biologico) • la rapida evoluzione delle conoscenze nel settore ambientale • la creazione e l’utilizzo di nuove tecnologie La dinamicità di questo dominio si riflette anche nello sviluppo della terminologia ambientale
Alcune considerazioni generali sulla terminologia ambientale (2) Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory L’ambiente è un dominio multidisciplinare. Ogni termine può essere definito in modi differenti a seconda del contesto in cui viene considerato. Per esempio il termine “benzene”: • un esperto di pianificazione ambientale può considerarlo come una sostanza inquinante che entra nel ciclo biologico creando danni potenziali all’ambiente • un biologo può considerarne la tossicità e i differenti percorsi attraverso i quali può entrare in un organismo. • un ingegnere lo considererà come un combustibile per un motore a combustione • un chimico potrà vederlo come un appartenente a una certa classe di composti chimici • ecc.
Alcune considerazioni generali sulla terminologia ambientale (3) Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory Problemi di sovrapposizione semantica Ad esempio: conservazione ambientale, protezione ambientale, salvaguardia ambientale Fattori bioculturali L’ambiente può essere concettualizzato in modi differenti a seconda dei diversi punti di vista culturali. Esiste una forte relazione tra il linguaggio, la conoscenza e l’ambiente (vedi come es. le iniziative di Terralingua, http://www.terralingua.org).
ECOTerm Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory Il bisogno di un sistema capace di razionalizzare la gestione dell’informazione ambientale è un argomento molto dibattuto. Un’iniziativa importante sulla terminologia ambientale è rappresentata da ECOinformatics/ECOTerm (http://ecoinfo.eionet.eu.int/). Questa iniziativa nasce per “mettere insieme i maggiori fornitori di terminologia ambientale per discutere sullo status delle loro terminologie, come vengano applicate le nuove tecnologie e come queste risorse possano essere rese più valide dalla comunità attraverso l’integrazione e la collaborazione reciproche”. Vede coinvolte le seguenti istituzioni (UNEP, FAO, EEA, US EPA, USGS, JRC, CCLRC, CNR, UBA). Si sono già tenuti due incontri a Ginevra and Berlino, il prossimo sarà quest’anno a Roma.
Il contributo del CNR nella terminologia ambientale/la nascita di EARTh EU Multilingual Descriptor System 1983 Livello Thesauri ambientali UNEP Thesaurus Infoterra 1990 NBOI/CNR/UBA Quadrilingual Thesaurus 1995 UNEP EnVoc 1997 NBOIper EU-EEA TF MET 1998 CNR/UBAper EEA GEMET 1999 CNR EARTh 2002-2005 Consiglio Nazionale delle Ricerche contenuto aggiornato e rivisto nuova struttura Environmental Knowledge Organisation Laboratory
L’idea Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory Stiamo lavorando a un nuovo modello di thesaurus che possa essere applicato al dominio ambientale. Il thesaurus dovrà: • essere uno strumento ben strutturato e rifinito, capace di combinare una solida base concettuale alla flessibilità richiesta dalle diverse applicazioni; • rappresentare una mappa semantica e terminologica aggiornata del dominio ambientale; • tenere conto della dimensione culturale dell’organizzazione della conoscenza; • permettere vari livelli di comprensione e applicazione per utenti con differenti caratteristiche ed esperienza; • assicurare l’esportazione del thesaurus in differenti applicazioni tecnologiche.
L’architettura di EARTh Consiglio Nazionale delle Ricerche • Software • SQL, Unicode, Client/Server Environmental Knowledge Organisation Laboratory • Struttura a matrice semantica • struttura verticale basata su un sistema di categorie • organizzazione tematica da sviluppare per applicazioni specifiche • Relazioni del thesaurus • differenziazione e migliore espressione semantica delle relazioni • in particolare verrà rinforzata, la struttura trasversale delle RT (il thesaurus come connettore semantico)
Lo schema di classificazione di EARTh Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory Lo schema di classificazione di EARTh è basato su un sistema di categorie. Seguendo una prospettiva dal basso verso l’alto, i termini possono essere analizzati secondo una scala progressiva gerarchica. In questa scala le caratteristiche concettuali sono via via abbandonate a favore di una prospettiva “intensionale” (mentre in una prospettiva “estensionale” il numero di cose associate all’intensione aumenta). Si raggiunge così il massimo livello di genericità. Le categorie rappresentano il vertice di questa struttura verticale. EARTh: categorie di primo e secondo livello
Lo schema di classificazione di EARTh:perché adottare un approccio per categorie? Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory • L’approccio per categorie assicura: • una base concettuale stabile per l’organizzazione della conoscenza; • uno strumento per classificare i concetti partendo dal loro significato di base, riferito alla logica inerente al sistema; • un forte controllo sulla disposizione semantica; • applicabilità ai differenti domini, enfatizzando l’interdisciplinarietà.
Il modello a matrice di EARTh la struttura verticale Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory La struttura verticale La struttura verticale di EARTh è basata su differenti livelli classificatori e gerarchici. La struttura verticale è uno strumento operativo che, fornendo un interpretazione categoriale al significato del termine e posizionandolo in un albero semantico, mira a orientare l’utente verso le caratteristiche “essenziali” della semantica del termine. Questo, però, non limita l’analisi concettuale dei termini in una visione statica e univoca.
Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory Il modello a matrice di EARTh Temi L’organizzazione tematica per le applicazioni Il modello consente la possibilità di sviluppare una ulteriore organizzazione della terminologia. La struttura verticale può essere completata da un “micro-mondo” di termini connessi tematicamente (temi). Mentre la struttura ad albero tende a spargere i termini nelle loro categorie di riferimento, i temi accorpano i termini secondo la loro prospettiva espressa dai temi stessi. Questo modello deve anche permettere la rappresentazione di un significato secondo accezioni secondarie. suolo - soil
La rappresentazione del significato: il caso del “Benzene” Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory “Il benzene è una sostanza organica aromatica”. aromatica, organica, sostanza sembrano essere i tratti semantici “essenziali”, che non possono essere ignorati (nella concettualizzazione occidentale attuale) “il benzene è tossico” “il benzene è inquinante” “il benzene è pericoloso” tossico, inquinante, pericoloso sono tre tratti “tipici”. Hanno un peso minore nella rappresentazione del significato, anche se rappresentano proprietà importanti nel contesto ambientale. I temi in EARTh forniscono una prospettiva aggiuntiva per l’interpretazione del termine e agiscono come strumenti per rappresentare altri tratti semantici. Tema SALUTE benzene come sostanza tossica. Tema INQUINAMENTObenzene come inquinante. Tema SICUREZZAbenzene come sostanza pericolosa.
Il modello a matrice di EARTh – il caso “Benzene” Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory
Relazioni semantiche nei thesauri tradizionali: alcune limitazioni Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory I thesauri tradizionali forniscono una serie limitata di relazioni fra i termini, distinguendo solo tra relazioni gerarchiche, relazioni associative e relazioni di equivalenza. Inoltre le relazioni nel thesaurus sono spesso applicate in modo incongruo. Questo causa ambiguità nell’interpretazione e può dare luogo a strutture semantiche imprevedibili. Forse la relazione gerarchica generica è la più abusata. Molti thesauri esistenti forniscono relazioni targate come BT/NT ma potrebbero essere interpretate più come relazioni di tipo associativo. MonitoraggioRiciclaggio NT Tecnica di monitoraggio NT Percentuale di riciclaggio (GEMET, 1999)(GEMET, 1999) Molte relazioni sono indicate come associative, ma la loro natura non viene specificata. TelerilevamentoGestione della qualità dell’ariaEutrofizzazione RT Cartografia RT Qualità dell’aria RT Reflui (EnVoc, 1997) (EnVoc, 1997) (EnVoc, 1997)
Perfezionamento della struttura relazionale del thesaurus Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory • Una delle soluzioni comunemente proposte per superare le limitazioni, prevede la reingegnerizzazione dei thesauri tradizionali in sistemi provvisti di un network esteso di relazioni ben definite. • L’incremento delle relazioni del thesaurus: • supporta un controllo semantico migliore • mostra nuove possibilità per il recupero delle informazioni • può essere usato per il processamento automatico. • In EARTh, la realizzazione di un insieme di relazioni semantiche è attualmente in costruzione. Le relazioni standard saranno arricchite con sottotipi, di cui sarà specificato il contenuto semantico. Le strutture linguistiche esprimeranno le relazioni semantiche.
Relazioni gerarchiche Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory Gli standard per i thesauri e la letteratura scientifica includono tre tipologie di relazioni gerarchiche: “Genere-specie”, “Parte-tutto” e “Esemplificativa”, che convergono in una generica “relazione gerarchica”. In EARTh le relazioni genere-specie, parte-tutto ed esemplificativa saranno differenziate. Si cercherà anche di identificare per ognuna di esse differenti sottotipi.
Applicazione delle etichette di snodo Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory Le etichette di snodo indicheranno l’uso dei diversi criteri di suddivisione nelle relazioni gerarchiche generiche.
Relazioni associative Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory Le relazioni associative coprono un insieme di relazioni eterogeneo e indifferenziato. Possono esprimere molti tipi di associazione di carattere non gerarchico tra i termini. Le ISO 704 definiscono come relazioni che “esistono quando un collegamento tematico può essere stabilito tra concetti in virtù dell’esperienza”. In questo lavoro si proverà a specificare la natura delle relazioni e a differenziare le RT in sottotipi. Specificare e incrementare relazioni associative permetterà di sviluppare una struttura a rete che enfatizzi il sistema di interrelazioni, i legami “connettivi” che limitino il grado di separazione dal campo concettuale e che non possono essere rappresentati dal modello ad albero tassonomico-gerarchico (fondamentale nel dominio ambientale).
Relazioni di equivalenza Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory Le relazioni di equivalenza coprono almeno le tipologie di base seguenti: sinonimi, varianti lessicali e quasi-sinonimi. “Veri” sinonimi e varianti lessicali saranno distiniti r verranno identificati i diversi sottotipi. La sinonimia si riferisce a una somiglianza nel significato. È stata anche definita come una interscambiabilità fra termini, nonostante sia molto difficile pensare all’esistenza di una sinonimia assoluta o perfetta in presenza di interscambiabilità in tutti i contesti. Le varianti lessicali sono parole differenti utilizzate per la stessa espressione e derivano dalle variazioni morfologiche e grammaticali. La categoria dei quasi-sinonimi non verrà inclusa per adesso nel sistema.
Portabilità per differenti utenti Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory Un altro obiettivo da raggiungere è assicurare una alta modularità del sistema. Non tutti gli utenti sono interessati nelle sottili distinzioni delle relazioni del thesaurus. Sarà possibile navigare nella struttura del thesaurus per differenti livelli, a partire dalla versione tradizionale della struttura relazionale del thesaurus.
La raccolta e la selezione dei termini di EARTh Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory • Il nostro obiettivo è quello di produrre una mappa semantica del dominio ambientale aggiornata e valida. • La fonte principale (circa 4000 termini selezionati) of termini relativi all’ambiente è GEMET-General European Multilingual Environmental Thesaurus (1999) sviluppato da CNR-EKOLab e UBA-Umweltbundesamt per l’Agenzia Ambientale Europea. • Altre fonti sono (la base terminologica è di circa 20.000 termini). • fonti di terminologia ambientale generale • UN Environment and Development (1992) • fonti di terminologia di domini specifici • Thesaurus Italiano of Scienze della Terra (2000) • Terminologia Inland Water (2001) • Terminologia Snow and Ice (2003) • Thesaurus for Emergency and Disasters (1998/2003) • Terminologia Remote Sensing (2004) • Altri documenti di riferimento in campi specifici o relativi alla scienza contemporanea (teoria del caos, complessità) o relativi alla diversità bioculturale.
Il contenuto terminologico di EARTh Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory Al momento EARTh contiene circa 7.500 termini già selezionati e organizzati ~ 1.500 termini sono relativi alla pressione ambientale (es. attività industriali e agricole). ~ 2.500 termini descrivono lo stato dell’ambiente (es. i componenti e i processi naturali). ~ 1.000 termini sono relativi all’impatto ambientale (es. rifiuti, inquinamento, perdita di biodiversità). ~ 2.500 termini riguardanti temi sociali (es. misure legislative, educazione ambientale, ricerca).
Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory • SuperThes è un software di gestione del thesaurus; realizzato da TBHS e finanziato nel quadro di una cooperazione internazionale tra CNR, UBA-A, UBA-D e TBHS. • Si basa su una tecnologia per basi dati open source client-server DB (Interbase-Firebird) • Per piccole istallazioni, client e server possono risiedere nello stesso computer. • Supporta l’Unicode e immagazzina i dati in formato UCS-2. • Vi sono predefiniti tutti I linguaggi delle ISO 639-1. • Prospettive e attività in corso: • Visualizzatore per thesauri SuperThes-based • Interfaccia web per thesauri SuperThes-based • Ulteriore espansione delle capacità multilingue (selezione, codifiche UTF8 e UTF32)
Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory Caratteristiche principali • Un interfaccia grafica utilizzabile in modalità “drag and drop” e menu contestuali che permettono una gestione dei dati veloce ed efficiente • Un potente plug-in per il word processor • supporta tavole e immagini • legge e scrive in formato RTF e HTML • legge e scrive documenti di MS Word • Editor multimediale di suoni e immagini: • supporta file in formati (jpg, bmp, ico, emf, wmf) • possibilità di scambio data exchange con le altre applicazioni attraverso file, clipboard e drag & drop • SuperThes supporta un’ampia gamma di tipi di dati: • booleani, decimali, liste, memo, short & long text, coordinate geografiche, altri (adattabili)
Grazie! Consiglio Nazionale delle Ricerche Environmental Knowledge Organisation Laboratory • http://uta.iia.cnr.it • uta@iia.cnr.it • +39 06 90672 712/270 • +39 06 90672 660 Informazioni su SuperThes: rudolf.legat@umweltbundesamt.at