330 likes | 488 Views
Informatica Umanistica. LM - Scienze del Testo Docente Alessia Scacchi. Analisi automatica di un testo. Metodi e strumenti. Lezione 6. XML. È un sottoinsieme di SGML
E N D
Informatica Umanistica LM - Scienze del Testo Docente Alessia Scacchi
Analisi automatica di un testo. Metodi e strumenti Lezione 6
XML • È un sottoinsieme di SGML • Obiettivo: consentire a un documento SGML generico di essere servito, ricevuto ed elaborato sul Web nel modo in cui ora è possibile con HTML. • È stato progettato per facilità di implementazione e per l'interoperabilità sia con SGML e HTML
XML • I documenti XML sono costituiti da: • unità di memoria chiamate entità, che contengono dati analizzati o non analizzati. • i dati analizzati sono costituiti da caratteri • alcuni sotto forma di dati carattere • alcuni sotto forma di markup
Markup XML • Markup è la codifica che consente una descrizione di: • il layout del documento • lo storage • la struttura logica • XML fornisce un meccanismo per imporre dei vincoli sul tracciato di stoccaggio e sulla struttura logica del documento
Obiettivi XML_1 • deve essere direttamente utilizzabile su Internet. • deve supportare una vasta gamma di applicazioni. • deve essere compatibile con SGML. • deve essere facile da scrivere, i programmi che elaborano documenti XML devono essere di semplice lettura/scrittura. • Il numero di caratteristiche opzionali in XML deve essere mantenuto al minimo assoluto, idealmente a zero.
Obiettivi XML_2 • I documenti XML dovrebbero essere leggibili da ogni essere umano e ragionevolmente chiari. • La progettazione di un documento XML dovrebbe essere preparata in fretta. • La progettazione di XML deve essere formale e concisa. • La concisione del markup XML è di minima importanza.
Documento XML • Un oggetto testo è un documento XML • se è ben formato • è valido se soddisfa taluni ulteriori vincoli • Ogni documento XML ha: • una logica • una struttura fisica.
Entità_1 • 1. Struttura logica: il documento è composto di • dichiarazioni • elementi • commenti • riferimenti a caratteri • istruzioni di elaborazione • Tutti gli elementi sono indicati nel documento con un markup esplicito.
Entità_2 2. Struttura fisica: il documento è composto da unità chiamate entità • L'entità può riferirsi ad altre entità • L’entità può determinare la loro inclusione nel documento • Un documento inizia da una entità detta "radice" o entità documento.
Documento ben formato Un oggetto testuale è un documento XML ben formato se: • Nel suo insieme, esso corrisponde alla produzione marcata del documento • Se riunisce tutti i vincoli di buona-formazione proposti dall’XML. • Ciascuno dei soggetti analizzati, che fa riferimento direttamente o indirettamente all'interno del documento, è ben formato
TEI - Text Encoding Initiative • Una organizzazione no-profit composta da: • Istituzioni accademiche • Centri di ricerca • Studenti di tutto il mondo • http://www.tei-c.org/index.xml
TEI-Lite • Nome che hanno scelto gli editori TEI per uno schema che soddisfacesse il 90% delle esigenze di codifica del 90% degli utenti • Es: Oxford Text Archive http://ota.ahds.ac.uk/catalogue/index-id.html “develops, collects, catalogues and preserves electronic literary and linguistic resources for use in Higher Education, in research”
Guidelines_1 • Essere semplici e chiare • Di semplice utilizzo per i ricercatori senza software specializzati • Definizioni rigorose ed efficiente elaborazione testi • Consentire estensioni definite dall’utente • Conformi a standard esistenti o in procinto di essere adottati
Guidelines_2 • Nucleo comune delle caratteristiche testuali facilmente condiviso • Caratteristiche supplementari facili da emendare • Molteplici codifiche parallele della stessa caratteristica • Livello di profondità della codifica definito dall’utente • Adeguata documentazione del testo e sua codifica
Guidelines_3 • Obiettivi: • Includere la maggior parte dell’insieme fondamentale dei marcatori TEI • In grado di trattare molte tipologie testuali • Utile per l’elaborazione di nuovi testi come di già esistenti • Utilizzabile con un ampio spettro di software XML già esistenti • Derivabile dalla DTD TEI completa • Essere conciso e semplice
Elementi testuali • Proviamo a lavorare su un testo…
Elementi testuali e dubbi • Numeri di pagina e titoli correnti sono inframmezzati al testo • Difficile riconoscimento per un programma • Nessuna distinzione tra segni di sillabazione e segni che introducono il discorso diretto • difficile distinguere il discorso diretto • Lettere accentate non seguono uno standard • Le divisioni di paragrafo sono segnalate dall’utilizzo di uno spazio bianco • Se dovesse cambiare la dimensione del foglio o il supporto di visualizzazione ci sarebbero problemi
Elementi per le partizioni testuali • Il corpo di un testo in prosa può essere costituito solamente da • una serie di paragrafi • oppure tali paragrafi possono essere raggruppati insieme in • capitoli, • sezioni, • sottosezioni, • etc.
<p>Codifica i paragrafi in prosa. • <div>Contiene una sezione del peritesto o del corpo di un testo. • <div1>Contiene una sezione di primo livello del peritesto o del corpo di un testo (la più ampia, se <div0> non è usato, altrimenti la seconda in ordine gerarchico). • Qualora siano necessarie partizioni strutturali inferiori a una <div1> , quest'ultima può essere divisa in elementi<div2> , una <div2> in elementi inferiori <div3> , etc., fino al livello <div7>. • Se sono presenti più di sette livelli nella divisione strutturale, è necessario o modificare la DTD TEI
Intertitoli e chiusure • Ogni elemento <div> , <div1> , <div2> , etc., può avere un titolo o un'intestazione al suo inizio, e (meno comunemente) una formula di chiusura quale "Fine del capitolo 1". • I seguenti elementi possono essere usati per trascriverli:
<head>contiene ogni tipo di titolazione, per esempio, il titolo di una sezione, oppure l'intestazione di una lista o di un glossario. • <trailer>contiene una formula di chiusura o un elemento a pié di pagina che compare alla fine di una sezione di testo.
Numeri di pagina e di riga • Le interruzioni di pagina e di linea possono essere marcate con elementi vuoti • Ovvero elementi che non hanno apertura e chiusura, non contengono nulla, informano su un determinato fenomeno testuale
<pb>segnala i confini tra una pagina di un testo e la successiva in un sistema di riferimento standard. • <lb>segnala l'inizio di una nuova riga (tipografica) in una certa edizione o versione di un testo. • Questi elementi marcano un punto singolo nel testo, non una sua porzione.
<body> ... <p>A seguitare, non ci saremmo mai intesi; perché se a me stava a cuore la tigre, a lei il cacciatore. </p> <p>Difatti il cacciatore designato a ucciderla è Carlo Ferro. La Nestoroff ne dev'essere molto costernata; e forse non viene qua, come vogliono i maligni, per studiare la sua parte, ma per misurare il pericolo che il suo amante affronterà.</p> ... </body> (Il brano è tratto da Quaderni di Serafino Gubbio operatore di Luigi Pirandello) Esempio_1
Esempio_2 <lg> <l>S'i' fosse foco, ardere' il mondo;</l> <l>s'i' fosse vento, lo tempestarei;</l> <l>s'i' fosse acqua, i' l'annegherei;</l> <l>s'i' fosse Dio, mandereil en profondo;</l> <lg> <l>s'i' fosse papa, serei allor giocondo,</l> <l>ché tutti ' cristiani embrigarei;</l> <l>s'i' fosse 'mperator, sa' che farei?</l> <l>a tutti mozzarei lo capo a tondo.</l> (Il brano è tratto dal sonetto LXXXII delle Rime di Cecco Angiolieri)