1 / 45

La codifica e la standardizzazione dei testi in formato digitale

La codifica e la standardizzazione dei testi in formato digitale. La codifica. Definizione. Codifica Informatica la rappresentazione di un testo su un supporto digitale in un formato comprensibile da un elaboratore elettronico. Problemi. Rappresentazione del testo Comprensione del testo

Download Presentation

La codifica e la standardizzazione dei testi in formato digitale

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. La codifica e la standardizzazione dei testi in formato digitale La codifica

  2. Definizione Codifica Informatica la rappresentazione di un testo su un supporto digitale in un formato comprensibile da un elaboratore elettronico

  3. Problemi • Rappresentazione del testo • Comprensione del testo • Codice condiviso

  4. Comunicazione MESSAGGIO CODICE - - - - - - - - - - - - - - - - CODICE’ Codifica Decodifica EMITTENTECANALERICEVENTE

  5. Diasistema CODICE ≠CODICE’ S1 S2 Comunicazione = S1 ~ S2

  6. Modelizzazione e rappresentazione • Selezione dell’informazione • Organizzazione dell’informazione

  7. Codificare un testo • Il testo è già codificato • Decodificare il testo • Ricodificare il testo Codificare = interpretare

  8. Isomorfismo • a un elemento del sistema di A (CODICE) deve corrispondere un solo elemento del sistema B (CODICE’); • data una relazione fra due elementi del sistema A, la stessa relazione deve essere mantenuta anche fra i corrispondenti elementi del sistema

  9. CODICE • Maiuscole, spazi, interpunzione • Corsivo, maiuscoletto, grassetto • Struttura grammaticale • Struttura retorica • Semantica • …

  10. CODICE’ ? Modello di codifica

  11. Definizione Codifica informatica • rappresentazione di un testo su un supporto digitale • in funzione di un determinato punto di vista • secondo un codice condiviso in modo sostanziale dall’uomo e dall’elaboratore elettronico cui tale codifica è destinata.

  12. Testo o Documento? Che cos’è un testo? • Supporto fisico? • Sequenza di caratteri ivi contenuta? • Contenuto?

  13. Dov’è il testo? Canto Secondo 1. Ingiustissimo amor, perché sì raro corrispondenti fai nostri desiri? Onde, perfido, avvien che t’è sì caro il discorde voler ch’in duo cor miri? Gir non mi lasci al facil guado e chiaro, e nel più cieco e maggior fondo tiri: da chi disia il mio amor tu mi richiami, e chi m’ha in odio vuoi ch’adori et ami.

  14. I testi sono astrazioni I testi sono delle astrazioniistintivamente e collettivamente generate dai lettori e si possono intendere come successioni di monemi rappresentabili graficamente tramite dei grafemi. Dalla lettura dei grafemi o dalla percezione uditiva dei monemi si sviluppano i significati cui noi diamo il nome di testo.

  15. I documenti no… • supporti materiali in cui il testo viene conservato (un libro, un foglio di carta, una lapide) si può parlare di documenti cartacei e di documenti digitali, ma non di testi cartacei o digitali.

  16. Oggetto della codifica • I testi • A volte i documenti … ma l’importante è capirsi!

  17. MRF – Machine Readable Form Il testo trasmesso deve essere stato codificato dall’emittente in modo che la macchina sia in grado di non disperdere nessuno dei livelli di informazioni presente nell’intenzionalità dell’emittente Standardizzazione e portabilità dei dati

  18. Ortografia MRF • Maiuscole (nomi e inizio periodo) • Segni diacritici • Spazi • Corsivi • …

  19. Caratteristiche minime? • No. • Ciò che qualifica la MRF è la sua capacità di trasmettere ciò che il codificatore ha ritenuto fosse sematicamente rilevante

  20. Documenti digitali: problemi • Legati alla disponibilità di dispositivi hardware e software • Elevata obsolescenza • Difficile portabilità su piattaforme diverse • Proliferazione dei sistemi di codifica • Difficile condivisione dei dati e dei risultati

  21. Standard • Formali: ISO et al. • Di fatto: es. MS Word

  22. Standard portabile • Indipendenza dall’hardware • Indipendenza dal software • Indipendenza dal sistema di codifica dei caratteri • Indipendenza logica dalle tipologie di elaborazione

  23. Set dei Caratteri • Codice ASCII: ISO 646 • 7 bit (27= 128) • 128 caratteri • Codice Latin-1: ISO 8859-1 – 256 caratteri • 8 bit (28= 256) • 256 caratteri • Comprende ISO 646

  24. Set dei Caratteri • Codice Unicode: sincronizzato a ISO 10646 • 16 bit (216= 65.536) • 65.536 caratteri • Comprende ISO 646 e ISO 8859-1 • UTF-8: versione a 8 bit di Unicode, char set predefinito per XML (noi lo useremo)

  25. Modello di codifica • Un modello è il risultato di un procedimento di astrazione necessario per sfuggire all’imprendibilità del continuo. • Un modello deve essere qualcosa di “più piccolo” dell’oggetto che si vuole analizzare • Un modello deve essere isomorfo • Deve essere operata un scelta delle caratteristiche da codificare

  26. Modellizzazione – Macro categorie Per quale scopo si codifica? • Struttura • Formato • Contenuto

  27. Analisi logico-strutturale dei testi L’individuazione delle componenti logico-formali dei testi così come si sono venute a conformare nella tradizione scritta occidentale

  28. Livello strutturale Tutti i testi possono avere: • un titolo (opzionale) • un contenuto. Il contenuto può essere: • unitario • diviso in parti (parti, capitoli, libri), ciascuna della quali può avere: • un titolo (opzionale) • un contenuto.

  29. Livello contenutistico I testi possono essere classificati in due grandi macro-categorie che conoscono però numerose contaminazioni: • prosa • poesia

  30. Andamento Poesia e prosa possono avere un andamento: • continuo • dialogico

  31. Andamento continuo • la prosa è costituita di una sequenza di • paragrafi • elenchi, a loro volta costituiti di • entrate, in cui si distinguono • numero (opzionale) • topic (argomento, soggetto; opzionale) • descrizione • tabelle • righe • celle • la poesia è costituita di una sequenza di • divisioni metriche (opzionali) che contengono • versi • versi

  32. Un esempio: poesia

  33. Andamento dialogico i testi possono essere: • unitari • divisi in parti quali: • atti • scene In entrambi i casi sono costituiti di una sequenza di battute, divise al loro interno in: • nome dell’interlocutore • contenuto.

  34. Un esempio: prosa

  35. Markup & tagging • In epoca pre-computer: caratterizzazione editoriale esplicitava la formattazione dei documenti • Caratterizzazione editoriale in inglese: markup • Annotazioni editoriali in inglese: tag

  36. Con i word processor… • Formattazione incorporata • Tag invisibili • Caratterizzazione migrata nei documenti

  37. Sistemi WYSIWYG • Programmi presentazionali • Codifica invisibile all’utente • Documenti difficilmente gestibili • Formati proprietari

  38. Markup Languages • Linguaggi procedurali o specifici • Linguaggi dichiarativi o generici

  39. Linguaggi procedurali • Orientati al documento • Istruzioni che specificano caratteristiche come: • Font • Dimensione carattere • Posizionamento • Stile • Disposizione sulla pagina

  40. Un esempio: LaTeX \documentclass[a4paper,12pt]{article} \usepackage[latin1]{inputenc} \usepackage[italian]{babel} \usepackage{indentfirst} \pagestyle{plain} \topmargin-1cm \evensidemargin0.5cm \textwidth14cm \textheight23cm \setlength{\parindent}{1,25cm} \begin{document} \pagestyle{plain} \section{Introduzione} \vskip 1cm Questo è un esempio di documento \emph{LaTeX}. \end{document}

  41. Sintassi \nomeTag[argomenti]{contenutoTag} Output standard

  42. Linguaggi procedurali: problemi • Codifica orientata all’output • Difficilmente può essere utilizzata per scopi diversi

  43. Linguaggi dichiarativi • Orientati al testo • Istruzioni per annotare il significato degli elementi costitutivi • Trascurano l’aspetto che assumeranno nell’output • Se un output strutturato si rende necessario, servirà un ulteriore livello procedurale (es. fogli di stile)

  44. Un esempio: SGML <!DOCTYPE testo [ <!ELEMENT testo - - (titolo?, paragrafo+)> <!ELEMENT titolo - O (#PCDATA)> <!ELEMENT paragrafo - O (#PCDATA)> ]> <testo> <titolo>Esempio di documento SGML</> <paragrafo>Benvenuti nel mondo dei linguaggi dichiarativi standardizzati</> </testo>

  45. Caratteristiche • Markup definito dall’utente • Cattura della semantica del testo • Assenza di indicazioni circa l’output • Flessibilità e possibilità di essere usato per molteplici scopi

More Related