330 likes | 520 Views
Informatica Umanistica. LM - Scienze del Testo Docente Alessia Scacchi. Analisi automatica di un testo. Metodi e strumenti. Informatica e Analisi del testo letterario: un binomio, non un paradosso Lezione 7. Il testo. Questa è la domanda…. Poi che, tacendo, si mostrò spedita
E N D
Informatica Umanistica LM - Scienze del Testo Docente Alessia Scacchi CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Analisi automatica di un testo. Metodi e strumenti Informatica e Analisi del testo letterario: un binomio, non un paradosso Lezione 7 CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Il testo.Questa è la domanda… Poi che, tacendo, si mostrò spedita l’anima santa di metter la trama in quella tela ch’io le porsi ordita. Dante Alighieri, Paradiso, XVII, vv. 100-2 Definizione: Dal latino textus, il cui uso in relazione al discorso linguistico viene sperimentato con Quintiliano E… il punto di vista? CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Segre: il testo Il testo è • serie di collegamenti, contenutistici e grammaticali Il testo letterario è: • Comunicazione sui generis • facile delimitazione (suggerita o esplicitamente indicata nella trascrizione o stampa) • indeterminazione di contesto (l’emittente ignora per lo più le condizioni in cui il testo sarà letto) • mancanza di tratti soprasegmentali CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Corti: il testo il testo è • enunciato di natura polisemica; • ipersegno (complesso di segni verbali con Eco, “super-funzione segnica”) • unità semiotica superiore al testo = macrotesto. il testo letterario è • per sua natura costruito, più che tutti gli altri testi verbali, in maniera da offrire diversi percorsi significativi e comunicativi CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Il testo di riferimento: tradizione • il percorso dei testi dall’originale all’edizione a stampa è la tradizione < traditio < trado, consegna, insegnamento, lezione. Analisi della tradizione Scelta della fonte CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Il testo di riferimento: fonte • il testo su supporto cartaceo (stampato, manoscritto…) • memorizzato su supporto magnetico • acquisito (tramite lo scanner o “a mano”) • Codificato è la fonte CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Esempio di testo di riferimento • Il nostro esempio, scegliere il tipo di edizione: • originale Vaticano Latino 3195: fonte diretta • del Vat 3195: edizioni meccaniche, diplomatiche, interpretative • scelta dell’edizione secondo i criteri: • a) valore scientifico edizione • b) autorevolezza e diffusione dell’edizione • Contini 1964 (a voler essere pignoli riedizione Parigi, Tallone, 1949!) CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Storia della tradizione • [abbozzi e stesure precedenti alla sistemazione] • [raccolta di testi non definitivi (Vaticano latino 3196)] • Vaticano latino 3195 • edizione Contini del 1949 • edizione Contini del 1964 • testo elettronico CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Conservazione o Perdita? • ogni passaggio prevede una perdita di informazioni: • la lezione del testo, ovvero errori di copia nelle parole (per chi ha fatto filologia, varianti sostanziali e varianti formali) • gli elementi grafici che indicano la struttura del testo: titolo, sottotitolo, capitolo, paragrafo ecc. Ad esempio, l’andata a capo indica la fine di un verso; anticamente si usava un punto… noi useremo <l></l> CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Edizione elettronica di un testo letterario CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Processo di scansione • Fotocopie del testo di riferimento • Lo scanner digitalizza il testo come immagine • L’OCR (Optical Character Recognize) tramite algoritmi tenta di identificare e trasformare l’immagine in carattere • Prima scansione: errori di impostazione dell’OCR. • Seconda scansione con impostazioni ad hoc • Individuazione degli errori e correzione del testo. CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Edizione di un testo:techné • Scansione e riconoscimento caratteri tramite OCR: CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Edizione di un testo:techné • Controllo e correzione su eventuali errori di trascrizione: CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Altri esempi di errori di riconoscimento CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Dichiarazione di responsabilità: TEI-HEADER • E la responsabilità del testo? Viene dichiarata nella TEI-HEADER • Individuazione del testo elettronico attraverso indicazioni bibliografiche (titolo, autore, luogo e data di edizione, etc.) • Certificazione della responsabilità editoriale del testo (anche nel caso in cui la codifica ha avuto diversi responsabili) • Indicazione della fonte del testo elettronico (edizioni di testi già editi su stampa o trascrizioni di manoscritti) • Documentazione accurata delle metodologie di rappresentazione dei vari fenomeni testuali, • Documentazione delle scelte di approcci disciplinari o teorici che permettano di interpretare correttamente i simboli usati nella codifica del testo • Documentazione delle eventuali correzioni e modifiche introdotte rispetto alla fonte. CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Le parti della TEI-Header CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Le parti della TEI-Header CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
1. TEI-Header del 268 <!DOCTYPE TEI.2 PUBLIC "-//TIL//DTD TIL 1.0//EN"> <tei.2> <teiHeader type="ISBD"> <fileDesc> <titleStmt> <title>Il canzoniere</title> <author> <persName> <surname>Francesco</surname> <forename>Petrarca</forename> </persName> </author> <respStmt> <resp>Prima edizione elettronica TIL a cura di </resp><name>Liber Liber</name> <resp>Codifica a cura di </resp><name>Maria Mataluno</name> </respStmt> </titleStmt> <editionStmt> <edition>Prima Edizione TIL</edition> </editionStmt> CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
2. TEI-Header del 268 <publicationStmt> <publisher>Progetto Testi Italiani in Linea (TIL)</publisher> <pubPlace>Roma</pubPlace> <idno type="TIL">%numero di serie%</idno> <availability>&libero;</availability> <date value="%YYYY%">%data di edizione%</date> </publicationStmt> <seriesStmt> <title>&liber-til;</title> </seriesStmt> <sourceDesc> <biblFull> <titleStmt> <title>Il canzoniere</title> <author> <persName> <surname>Petrarca </surname> <forename>Francesco</forename> </persName> </author> <editor><name>Gianfranco Contini</name></editor> </titleStmt> <editionStmt> <edition></edition> </editionStmt> <publicationStmt> <publisher>Einaudi</publisher> <pubPlace>Torino</pubPlace> <date value="$AAAA$">1964</date> </publicationStmt> <seriesStmt> <title></title> </seriesStmt> </biblFull> </sourceDesc> </fileDesc> CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
3. TEI-Header del 268 <encodingDesc> <projectDesc>&progTIL;</projectDesc> <editorialDecl>&liv1EdDec;</editorialDecl> </encodingDesc> <revisionDesc> <change> <date>19 gennaio 1997</date> <respStmt> <resp>Digitalizzazione e correzione</resp><name>Giovanna Surace</name> </respStmt> <item>Digitalizzazione e correzione del testo in base alla edizione di riferimento</item> </change> <change> <date></date> <respStmt> <resp>Codifica TIL livello 1</resp><name></name> </respStmt> <item>Codifica SGML del testo in base al livello 1 del Progetto TIL</item> </change> <change> <date>19/12/2000</date> <respStmt> <resp>Revisione testo</resp><name>Rita Pancaldo</name> </respStmt> <item>Revisione testo in base alla edizione critica di Contini</item> </change> </revisionDesc> </teiHeader> <text> CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Potenzialità del testo elettronico • Cdrom LIZ (Letteratura Italiana Zanichelli) • CDrom LIE (Letteratura Italiana Einaudi) • BIBIT (www.bibliotecaitaliana.it) • LIBER LIBER (www.liberliber.it) CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
La codifica: prassi CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Elementi comuni: <front> Avantesto: serie di documenti che introducono un testo nelle edizioni a stampa (pagina del titolo, frontespizio, introduzioni e prefazioni) • <front> contiene i materiali di avantesto che precede il testo vero e proprio </front> CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Elementi comuni: <body> Corpo del testo: è il testo così come presumibilmente è stato concepito dall’autore • <body> contiene l’intero corpo del testo </body> composto di capitoli (<div></div>), paragrafi (<div></div>), capoversi (<p></p>), testo CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Elementi comuni: <head> Titolo: ogni titolo di ogni suddivisione strutturale del testo • <head>contiene il titolo di una suddivisione strutturale</head> Possono essere presenti nel testo titolazioni complesse allo stesso livello strutturale possono essere utilizzati differenti elementi <head> CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Elementi specifici dellacodifica dei testi - PROSA Capoverso: (paragraph) unità testuale di tipo testuale; è la porzione di testo di senso compiuto delimitato da indentazioni e/o salti di linea • <p> Contiene e delimita il testo vero e proprio in blocco distinto </p> CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Elementi specifici dellacodifica dei testi - PROSA Citazione: è parte integrante di un capoverso sia come testo delimitato da caporali sia come parte distinta organizzata in blocco di testo • <q> contiene una citazione di qualunque tipo </q> Per specificare la natura della citazione si utilizzano gli attributi: • <q rend=‘block’> contiene una citazione organizzata in blocco di testo</q> CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Elementi specifici dellacodifica dei testi - PROSA Enfasi: alcune porzioni di testo possono essere evidenziate dall’autore del testo con il corsivo • <hi rend=‘italic’>contiene la porzione di testo in corsivo</hi> • <emph>contiene la porzione di testo enfatizzato dall’autore</emph> CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Elementi specifici dellacodifica dei TESTI DRAMMATICI Battuta: in un testo drammatico è la porzione di testo pronunciata da uno dei personaggi • <sp> contiene la battuta pronunciata da un personaggio del testo drammatico </sp> questo elemento può contenere <speaker></speaker>; <p></p> CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Elementi specifici dellacodifica dei TESTI DRAMMATICI Personaggio: il protagonista della porzione di dialogo rappresentata dalla battuta • <speaker>contiene il nome del personaggio che pronuncia la battuta</speaker> Questo elemento può contenere indicazioni sul font utilizzato per la rappresentazione es: <hi rend=‘italic’></hi> CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
Elementi specifici dellacodifica dei TESTI DRAMMATICI Didascalie: Indicazioni di scena fornite dall’autore <stage>contiene le indicazioni di scena e le didascalie fornite dall’autore</stage> CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura
DUBBI? http://crilet.wordpress.com alessia.scacchi@uniroma1.it Ricevimento studenti ed esercitazioni: Martedì ore 14-16 Studio “210” DSFLL - Vetrerie Sciarra CRILet di Giuseppe Gigliozzi - Centro Ricerche Informatica e Letteratura