1 / 32

Informatica Umanistica

Informatica Umanistica. LM - Scienze del Testo Docente Alessia Scacchi. Analisi automatica di un testo. Metodi e strumenti. Lezione 6. XML. È un sottoinsieme di SGML

darci
Download Presentation

Informatica Umanistica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Informatica Umanistica LM - Scienze del Testo Docente Alessia Scacchi

  2. Analisi automatica di un testo. Metodi e strumenti Lezione 6

  3. XML • È un sottoinsieme di SGML • Obiettivo: consentire a un documento SGML generico di essere servito, ricevuto ed elaborato sul Web nel modo in cui ora è possibile con HTML. • È stato progettato per facilità di implementazione e per l'interoperabilità sia con SGML e HTML

  4. XML • I documenti XML sono costituiti da: • unità di memoria chiamate entità, che contengono dati analizzati o non analizzati. • i dati analizzati sono costituiti da caratteri • alcuni sotto forma di dati carattere • alcuni sotto forma di markup

  5. Markup XML • Markup è la codifica che consente una descrizione di: • il layout del documento • lo storage • la struttura logica • XML fornisce un meccanismo per imporre dei vincoli sul tracciato di stoccaggio e sulla struttura logica del documento

  6. Obiettivi XML_1 • deve essere direttamente utilizzabile su Internet. • deve supportare una vasta gamma di applicazioni. • deve essere compatibile con SGML. • deve essere facile da scrivere, i programmi che elaborano documenti XML devono essere di semplice lettura/scrittura. • Il numero di caratteristiche opzionali in XML deve essere mantenuto al minimo assoluto, idealmente a zero.

  7. Obiettivi XML_2 • I documenti XML dovrebbero essere leggibili da ogni essere umano e ragionevolmente chiari. • La progettazione di un documento XML dovrebbe essere preparata in fretta. • La progettazione di XML deve essere formale e concisa. • La concisione del markup XML è di minima importanza.

  8. Documento XML • Un oggetto testo è un documento XML • se è ben formato • è valido se soddisfa taluni ulteriori vincoli • Ogni documento XML ha: • una logica • una struttura fisica.

  9. Entità_1 • 1. Struttura logica: il documento è composto di • dichiarazioni • elementi • commenti • riferimenti a caratteri • istruzioni di elaborazione • Tutti gli elementi sono indicati nel documento con un markup esplicito.

  10. Entità_2 2. Struttura fisica: il documento è composto da unità chiamate entità • L'entità può riferirsi ad altre entità • L’entità può determinare la loro inclusione nel documento • Un documento inizia da una entità detta "radice" o entità documento.

  11. Documento ben formato Un oggetto testuale è un documento XML ben formato se: • Nel suo insieme, esso corrisponde alla produzione marcata del documento • Se riunisce tutti i vincoli di buona-formazione proposti dall’XML. • Ciascuno dei soggetti analizzati, che fa riferimento direttamente o indirettamente all'interno del documento, è ben formato

  12. TEI - Text Encoding Initiative • Una organizzazione no-profit composta da: • Istituzioni accademiche • Centri di ricerca • Studenti di tutto il mondo • http://www.tei-c.org/index.xml

  13. TEI-Lite • Nome che hanno scelto gli editori TEI per uno schema che soddisfacesse il 90% delle esigenze di codifica del 90% degli utenti • Es: Oxford Text Archive http://ota.ahds.ac.uk/catalogue/index-id.html “develops, collects, catalogues and preserves electronic literary and linguistic resources for use in Higher Education, in research”

  14. Guidelines_1 • Essere semplici e chiare • Di semplice utilizzo per i ricercatori senza software specializzati • Definizioni rigorose ed efficiente elaborazione testi • Consentire estensioni definite dall’utente • Conformi a standard esistenti o in procinto di essere adottati

  15. Guidelines_2 • Nucleo comune delle caratteristiche testuali facilmente condiviso • Caratteristiche supplementari facili da emendare • Molteplici codifiche parallele della stessa caratteristica • Livello di profondità della codifica definito dall’utente • Adeguata documentazione del testo e sua codifica

  16. Guidelines_3 • Obiettivi: • Includere la maggior parte dell’insieme fondamentale dei marcatori TEI • In grado di trattare molte tipologie testuali • Utile per l’elaborazione di nuovi testi come di già esistenti • Utilizzabile con un ampio spettro di software XML già esistenti • Derivabile dalla DTD TEI completa • Essere conciso e semplice

  17. Elementi testuali • Proviamo a lavorare su un testo…

  18. Elementi testuali e dubbi • Numeri di pagina e titoli correnti sono inframmezzati al testo • Difficile riconoscimento per un programma • Nessuna distinzione tra segni di sillabazione e segni che introducono il discorso diretto • difficile distinguere il discorso diretto • Lettere accentate non seguono uno standard • Le divisioni di paragrafo sono segnalate dall’utilizzo di uno spazio bianco • Se dovesse cambiare la dimensione del foglio o il supporto di visualizzazione ci sarebbero problemi

  19. DocumentoTEIcodificato

  20. Codifica del testoElementi fondamentali

  21. Elementi_base

  22. Struttura di un testo TEI

  23. Elementi per le partizioni testuali • Il corpo di un testo in prosa può essere costituito solamente da • una serie di paragrafi • oppure tali paragrafi possono essere raggruppati insieme in • capitoli, • sezioni, • sottosezioni, • etc.

  24. <p>Codifica i paragrafi in prosa. • <div>Contiene una sezione del peritesto o del corpo di un testo. • <div1>Contiene una sezione di primo livello del peritesto o del corpo di un testo (la più ampia, se <div0> non è usato, altrimenti la seconda in ordine gerarchico). • Qualora siano necessarie partizioni strutturali inferiori a una <div1> , quest'ultima può essere divisa in elementi<div2> , una <div2> in elementi inferiori <div3> , etc., fino al livello <div7>. • Se sono presenti più di sette livelli nella divisione strutturale, è necessario o modificare la DTD TEI

  25. Intertitoli e chiusure • Ogni elemento <div> , <div1> , <div2> , etc., può avere un titolo o un'intestazione al suo inizio, e (meno comunemente) una formula di chiusura quale "Fine del capitolo 1". • I seguenti elementi possono essere usati per trascriverli:

  26. <head>contiene ogni tipo di titolazione, per esempio, il titolo di una sezione, oppure l'intestazione di una lista o di un glossario. • <trailer>contiene una formula di chiusura o un elemento a pié di pagina che compare alla fine di una sezione di testo.

  27. Numeri di pagina e di riga • Le interruzioni di pagina e di linea possono essere marcate con elementi vuoti • Ovvero elementi che non hanno apertura e chiusura, non contengono nulla, informano su un determinato fenomeno testuale

  28. <pb>segnala i confini tra una pagina di un testo e la successiva in un sistema di riferimento standard. • <lb>segnala l'inizio di una nuova riga (tipografica) in una certa edizione o versione di un testo. • Questi elementi marcano un punto singolo nel testo, non una sua porzione.

  29. <body> ... <p>A seguitare, non ci saremmo mai intesi; perché se a me stava a cuore la tigre, a lei il cacciatore. </p> <p>Difatti il cacciatore designato a ucciderla è Carlo Ferro. La Nestoroff ne dev'essere molto costernata; e forse non viene qua, come vogliono i maligni, per studiare la sua parte, ma per misurare il pericolo che il suo amante affronterà.</p> ... </body> (Il brano è tratto da Quaderni di Serafino Gubbio operatore di Luigi Pirandello) Esempio_1

  30. http://www.archive.org/details/texts

  31. Esempio_2 <lg> <l>S'i' fosse foco, ardere' il mondo;</l> <l>s'i' fosse vento, lo tempestarei;</l> <l>s'i' fosse acqua, i' l'annegherei;</l> <l>s'i' fosse Dio, mandereil en profondo;</l> <lg> <l>s'i' fosse papa, serei allor giocondo,</l> <l>ché tutti ' cristiani embrigarei;</l> <l>s'i' fosse 'mperator, sa' che farei?</l> <l>a tutti mozzarei lo capo a tondo.</l> (Il brano è tratto dal sonetto LXXXII delle Rime di Cecco Angiolieri)

More Related