1 / 19

informatica di base per le discipline umanistiche

informatica di base per le discipline umanistiche. vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia. quinta lezione: la matematica delle parole. vito pirrelli Istituto di Linguistica Computazionale CNR Pisa

kolton
Download Presentation

informatica di base per le discipline umanistiche

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 5

  2. quinta lezione: la matematica delle parole vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 5

  3. livelli di analisi del testo Le LE#PQ@FP3@FS3# LO#RD@FP# LE#SP@NN# ricerche RICERCA#S@FP# di DI#E@# Gabriella GABRIELLA#SP@FS@MS# GABRIELLA#SP@NN# sono ESSERE#V@P3IP@S1IP# SONARE#V@S1IP# proseguite PROSEGUIRE#V@FPPR# PROSEGUIRE#V@P2IP@P2MP# per PER#E@# tutta TUTTO#A@FS# TUTTO#D@FS# TUTTO#P@FS# la LO#RD@FS# LA#PQ@FS3# LA#S@MP@MS# mattinata MATTINARE#V@FSPR# MATTINATA#S@FS# , ,#@@# con CON#E@# elicotteri ELICOTTERO#S@MP# , ,#@@# posti PORRE#V@MPPR# POSTO#S@MP# POSTARE#V@S1CP@S2CP@S2IP@S3CP# di DI#E@# blocco BLOCCARE#V@S1IP# BLOCCO#S@MS# e E#CC@# E#S@FP@FS# perquisizioni PERQUISIZIONE#S@FP# . .#@@# Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. lezione 5

  4. ascii e unicode lezione 5

  5. ascii e unicode • consente la codifica di tutti i caratteri scritti esistenti al mondo; • non ricorre a combinazioni di più tasti battuti in sequenza; • tratta tutti i caratteri, siano essi alfabetici che ideografici, allo stesso modo; • per identificare ciascun carattere Unicode usa una sequenza di 16 bit; • in questo modo si possono codificare direttamente più di 65.000 caratteri diversi lezione 5

  6. ascii e unicode • universale • semplice e diretto • univoco • uniforme (codifica a numero fisso di bit) • in questo modo si possono codificare direttamente più di 65.000 caratteri diversi • Unicode si occupa di caratteri in quanto entità astratte (ad es. lettera latina maiuscola), ma non si occupa della loro resa grafica sullo schermo • Unicode codifica anche simboli diacritici (tilde, umlaut, cediglia etc.) ed è in grado di combinare caratteri e simboli diacritici, così da poter codificare oltre un milione di grafemi distinti lezione 5

  7. la struttura di una parola codifica ASCII lezione 5

  8. ordinamento alfabetico adriatico ionio mediterraneo tirreno ionio adriatico tirreno mediterraneo lezione 5

  9. ordinamento alfabetico (II) <? <? <? min la stringa che “precede” alfabeticamente è il risultato di una “funzione di minino” lezione 5

  10. diagramma di ordinamento inizializzazione lista non ordinata di N stringhe i = 0; SI’ NO i = N-1? lista ordinata metti all’i-esimo posto lastringa più piccola tra le ultime N-i stringhe test istruzione i = i+1; (per saperne di più clicca sul box “istruzione”!) lezione 5 (fai click per far apparire gli altri passi)

  11. passo di ordinamento inizializzazione k = i; incremento k = k+1; SI’ NO k = N? lista nuova SI’ stringa i-esima < stringa k-esima? test 1 NO test 2 stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; istruzioni lezione 5 (fai click per far apparire gli altri passi)

  12. esempio stringa i-esima < stringa k-esima? ionio adriatico tirreno mediterraneo i = 0 adriatico adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo k = 1 NO stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; temp = ionio stringa i-esima = stringa k-esima stringa k-esima = temp lezione 5 (fai click per far apparire gli altri passi)

  13. esempio stringa i-esima < stringa k-esima? ionio adriatico tirreno mediterraneo i = 0 adriatico adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo SI’ NO k = 2 stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; NO temp = ionio k = k+1 k = N? lezione 5

  14. esempio stringa i-esima < stringa k-esima? ionio adriatico tirreno mediterraneo i = 0 adriatico adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo SI’ NO stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; k = 3 NO temp = ionio k = k+1 k = N? SI’ lezione 5

  15. esempio Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. • lunghezza frase 1: 14 “parole” • lunghezza frase 2: 25 “parole” • lunghezza media: (14+25)/2 = 19.5 “parole” • deviazione standard: 7.78 lezione 5

  16. quant’è ricco il lessico di un testo?il rapporto “type/token” Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. • “type/token ratio”: rapporto tra cardinalità del lessico e frequenza globale del testo • |V| / N • 39/44 = 0.89 • 0 < ( |V| / N )< 1 lezione 5

  17. quant’è ricco il lessico di un testo?il numero di “hapax legomena” Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. • un hapax legomenon è una parola con frequenza 1, cioè un membro della classe di frequenza V1 • |V1|/ N • 40/44 = 0.91 lezione 5

  18. laboratorio in linea • http://foxdrake.ilc.cnr.it/webtools/ lezione 5

  19. quinta lezione la matematica delle parole fine quinta lezione (lezione 6) lezione 5

More Related