170 likes | 306 Views
La rappresentazione dell’informazione testuale e i linguaggi di codifica. Capitolo V. Le forme della rappresentazione digitale. La rappresentazione livello zero: codifica ASCII – stringhe di caratteri non interpretate
E N D
La rappresentazione dell’informazione testuale e i linguaggi di codifica Capitolo V.
Le forme della rappresentazione digitale • La rappresentazione livello zero: codifica ASCII – stringhe di caratteri non interpretate • L’aggiunta di informazioni sul testo e sul documento: i linguaggi di codifica – dati informazionali sulle istanze di contenuto tradite dalle fonti testuali
Testo e documento • Il documento come rappresentazione MATERICA e MATERIALE della fonte • Il testo come fonte di contenuto, trasmissione di DATI INFORMAZIONALI Es. Rappresentazione logica del contenuto veicolato da una fonte testuale, il contenuto dell’opera, che è il testo VS una specifica rappresentazione fisica, cioè una particolare edizione del testo, che è il documento, vale a dire l’attestazione fisica del testo, lo specifico esemplare.
I linguaggi dichiarativi e procedurali • Sistemi di tipo WYSIWYG (What You See Is What You Get) – a interfaccia grafica • Sistemi basati sui markup language: 1. PROCEDURALI (specificmarkup), che istruiscono il device di output sull’aspetto del documento; 2. DICHIARATIVI (genericmarkup) che consentono di aggiungere informazioni sul testo
SGML Standard Generalized Markup Language • Linguaggio di markup dichiarativo per la codifica della struttura logica delle fonti testuali. • Metalinguaggio che consente l’elaborazione di linguaggi di codifica fornendo principi sintattici. • Markup: aggiunta di informazioni a ogni partizione logica della fonte tramite tag • Aspetto tag: delimitatori che contengono l’informazione utile a descrivere la porzione di testo, nella forma: <elemento> • Concetto di DTD come luogo utile a specificare il valore di ogni elemento che si intende utilizzare in fase di markup
HTML Hyper Text Markup Language • DTD SGML: set di marcatori ad hoc per la codifica di costrutti ipertestuali • Principi sintattici basati su SGML • Struttura del codice: <ISTRUZIONE ATTRIBUTO=“valore dell’attributo”> testo a cui si riferisce il marcatore </ISTRUZIONE> • Limiti HTML: linguaggio non modificabile, scarsamente strutturato, predilezione marcatori stilistici
Un file HTML <HTML> <HEAD> <TITLE>Le Stanze di Poliziano</TITLE> </HEAD> <BODY> <H1><I>Stanze</I></H1> <H2>Angelo Poliziano</H2> <H3>LIBRO PRIMO</H3> <DIV> <H4>1</H4> <FONT SIZE=+1>Preposizione</FONT> <P>Le gloriose pompe e' fieri ludi<BR> della città che 'l freno ..<BR> </P> </DIV> <DIV> <H4>2</H4> <FONT SIZE=+1>Invocazione ad Amore</FONT>. <P>O bello idio ch'al cor per gli occhi ..<BR> dolce disir d'amaro pensier ..<BR> </P> </DIV> </BODY> </HTML>
XML Extensible Markup Language • Sottoinsieme SGML (non DTD!) semplificato e ottimizzato specificamente per applicazioni in ambiente Word Wide Web • Propensione per la descrizione della struttura logica della fonte rispetto alla resa grafica in layout • Aspetto del documento delegato ad altri linguaggi (come XSL) • Utilizzo di DTD esistenti o creazione dei marcatori ad hoc per la tipologia documentaria • Documenti XML validi (che si rifanno a una DTD) e “ben-formati” (well-formed), ossia che si limitano ad aderire alle norme sintattiche XML
File per lavorare con XML • Documento XML (file.xml): struttura gerarchica ad albero dei marcatori – concetto di elemento, attributo ed entità • DTD (file.dtd): specificazione dei nomi degli elementi e delle mutue relazioni gerarchiche, degli attributi e dei riferimenti di entità utilizzati nel documento XML • Foglio di stile (file.xsl): descrizione del layout, di come appariranno in fase di visualizzazione le porzioni di testo codificate nel file XML
Un documento XML <?xml version="1.0"?> <?xml-stylesheet href="poesie.xsl" type="text/xsl"?> <!DOCTYPE Poesie SYSTEM "poesie.dtd"> <POEMA> <TITOLO>Stanze</TITOLO> <AUTORE>Angelo Poiliziano</AUTORE> <CANTO n="1"> <INTESTAZIONE>LIBRO PRIMO</INTESTAZIONE> <OTTAVA n="1"> <TITOLO tipo="numerico">1</TITOLO> <TITOLO tipo="tematico">Preposizione</TITOLO> <VERSO>Le gloriose pompe e' fieri ludi</VERSO> <VERSO>della città che 'l freno ..</VERSO> ... </OTTAVA> <OTTAVA n="2"> <TITOLO tipo="numerico">2</TITOLO> <TITOLO tipo="tematico">Invocazione ad Amore</TITOLO> <VERSO>O bello idio ch'al cor per gli occhi ..</VERSO> <VERSO>dolce disir d'amaro pensier ..</VERSO> ... </CANTO> </POEMA>
Schema ad albero POEMA TITOLO AUTORE CANTO CANTO INTESTAZIONE OTTAVA OTTAVA … TITOLO VERSO VERSO VERSO …
Porzione di DTD <!ELEMENT poema (titolo, autore, canto*)> <!ELEMENT titolo (#PCDATA)> <!ELEMENT autore (#PCDATA)> <!ELEMENT canto (intestazione?, ottava*)> <!ATTLIST canto n ID #REQUIRED> <!ELEMENT ottava (titolo?,verso*)> <!ATTLIST ottava n ID #REQUIRED> <!ELEMENT verso (#PCDATA)>
Porzione di file XSL <xsl:template match="/"> <HTML> <BODY BGCOLOR="#fff000"> <font face="Verdana" size="2"> <xsl:apply-templates/> </font> </BODY> </HTML> </xsl:template> <xsl:template match="titolo"> <font color="#cccccc"><i><xsl:apply-templates/></i></font> </xsl:template> <xsl:template match="autore"> <font size="+1"><b><xsl:apply-templates/></b></font> </xsl:template>
Alcuni standard correlati a XML • Gestione dei fogli di stile: XSL (Extensible Stylesheet Language) • Gestione dei link ipertestuali: XML Linking Language (Xlink e Xpointer) • Gestione dei metadati: RDF (Resource Description Format )
La DTD per i testi umanistici: Text Encoding Initiative (TEI) • DTD elaborata per la gestione dei testi letterari • Nasce per SGML e ora è compatibile anche con XML • Prevede la codifica di ogni fenomeno letterario (conta oltre 400 elementi) • TEILite – versione ridotta dello schema di codifica • Pizza Chef – per la creazione del set di marcatori ad hoc per la tipologia testuale o gli scopi della ricerca
Struttura TEI Divisa in sezioni: • elementi utilizzabili in ogni tipo di testo • elementi specifici per tipologia testuale (testo in prosa, in versi, testo drammatico, dizionario, trascrizione di registrazioni verbali) • elementi legati agli obiettivi della resa computazionale (codifica di fonti primarie e predisposizione dell’apparato delle varianti, codifica di strutture morfosintattiche, rappresentazione di strutture interpretative profonde, rappresentazione di costrutti ipertestuali)
Schema base della DTD TEI <Tei.2>[start tag della TEI] <teiHeader> [informazioni relative all’esemplare cartaceo di riferimento e alla versione elettronica - metadati] </teiHeader> <text>[start tag del testo] <front>[dati che precedono il corpo del documento]</front> <body> [corpo del testo] </body> <back> [dati che seguono il corpo del documento] </back> </text>[end tag del testo] </Tei.2>[end tag della Tei]