190 likes | 332 Views
informatica di base per le discipline umanistiche. vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia. quinta lezione: la matematica delle parole. vito pirrelli Istituto di Linguistica Computazionale CNR Pisa
E N D
informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 5
quinta lezione: la matematica delle parole vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 5
livelli di analisi del testo Le LE#PQ@FP3@FS3# LO#RD@FP# LE#SP@NN# ricerche RICERCA#S@FP# di DI#E@# Gabriella GABRIELLA#SP@FS@MS# GABRIELLA#SP@NN# sono ESSERE#V@P3IP@S1IP# SONARE#V@S1IP# proseguite PROSEGUIRE#V@FPPR# PROSEGUIRE#V@P2IP@P2MP# per PER#E@# tutta TUTTO#A@FS# TUTTO#D@FS# TUTTO#P@FS# la LO#RD@FS# LA#PQ@FS3# LA#S@MP@MS# mattinata MATTINARE#V@FSPR# MATTINATA#S@FS# , ,#@@# con CON#E@# elicotteri ELICOTTERO#S@MP# , ,#@@# posti PORRE#V@MPPR# POSTO#S@MP# POSTARE#V@S1CP@S2CP@S2IP@S3CP# di DI#E@# blocco BLOCCARE#V@S1IP# BLOCCO#S@MS# e E#CC@# E#S@FP@FS# perquisizioni PERQUISIZIONE#S@FP# . .#@@# Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. lezione 5
ascii e unicode lezione 5
ascii e unicode • consente la codifica di tutti i caratteri scritti esistenti al mondo; • non ricorre a combinazioni di più tasti battuti in sequenza; • tratta tutti i caratteri, siano essi alfabetici che ideografici, allo stesso modo; • per identificare ciascun carattere Unicode usa una sequenza di 16 bit; • in questo modo si possono codificare direttamente più di 65.000 caratteri diversi lezione 5
ascii e unicode • universale • semplice e diretto • univoco • uniforme (codifica a numero fisso di bit) • in questo modo si possono codificare direttamente più di 65.000 caratteri diversi • Unicode si occupa di caratteri in quanto entità astratte (ad es. lettera latina maiuscola), ma non si occupa della loro resa grafica sullo schermo • Unicode codifica anche simboli diacritici (tilde, umlaut, cediglia etc.) ed è in grado di combinare caratteri e simboli diacritici, così da poter codificare oltre un milione di grafemi distinti lezione 5
la struttura di una parola codifica ASCII lezione 5
ordinamento alfabetico adriatico ionio mediterraneo tirreno ionio adriatico tirreno mediterraneo lezione 5
ordinamento alfabetico (II) <? <? <? min la stringa che “precede” alfabeticamente è il risultato di una “funzione di minino” lezione 5
diagramma di ordinamento inizializzazione lista non ordinata di N stringhe i = 0; SI’ NO i = N-1? lista ordinata metti all’i-esimo posto lastringa più piccola tra le ultime N-i stringhe test istruzione i = i+1; (per saperne di più clicca sul box “istruzione”!) lezione 5 (fai click per far apparire gli altri passi)
passo di ordinamento inizializzazione k = i; incremento k = k+1; SI’ NO k = N? lista nuova SI’ stringa i-esima < stringa k-esima? test 1 NO test 2 stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; istruzioni lezione 5 (fai click per far apparire gli altri passi)
esempio stringa i-esima < stringa k-esima? ionio adriatico tirreno mediterraneo i = 0 adriatico adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo k = 1 NO stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; temp = ionio stringa i-esima = stringa k-esima stringa k-esima = temp lezione 5 (fai click per far apparire gli altri passi)
esempio stringa i-esima < stringa k-esima? ionio adriatico tirreno mediterraneo i = 0 adriatico adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo SI’ NO k = 2 stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; NO temp = ionio k = k+1 k = N? lezione 5
esempio stringa i-esima < stringa k-esima? ionio adriatico tirreno mediterraneo i = 0 adriatico adriatico tirreno mediterraneo adriatico ionio tirreno mediterraneo SI’ NO stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; k = 3 NO temp = ionio k = k+1 k = N? SI’ lezione 5
esempio Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. • lunghezza frase 1: 14 “parole” • lunghezza frase 2: 25 “parole” • lunghezza media: (14+25)/2 = 19.5 “parole” • deviazione standard: 7.78 lezione 5
quant’è ricco il lessico di un testo?il rapporto “type/token” Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. • “type/token ratio”: rapporto tra cardinalità del lessico e frequenza globale del testo • |V| / N • 39/44 = 0.89 • 0 < ( |V| / N )< 1 lezione 5
quant’è ricco il lessico di un testo?il numero di “hapax legomena” Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. • un hapax legomenon è una parola con frequenza 1, cioè un membro della classe di frequenza V1 • |V1|/ N • 40/44 = 0.91 lezione 5
laboratorio in linea • http://foxdrake.ilc.cnr.it/webtools/ lezione 5
quinta lezione la matematica delle parole fine quinta lezione (lezione 6) lezione 5