1 / 72

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER. Cosa si intende per ‘parola’? Informazioni lessicali: parti del discorso Informazioni lessicali: morfologia. LESSICOGRAFIA E COMPUTER: ARGOMENTI DEL CORSO. I dizionari e la loro storia Conoscenza lessicale: parole morfologia

brook
Download Presentation

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Cosa si intende per ‘parola’? Informazioni lessicali: parti del discorso Informazioni lessicali: morfologia

  2. LESSICOGRAFIA E COMPUTER: ARGOMENTI DEL CORSO • I dizionari e la loro storia • Conoscenza lessicale: • parole • morfologia • collocazioni • semantica • Lessicografia • Dizionari elettronici • Lessici elettronici: WordNet

  3. LESSICO E DIZIONARIO • LESSICO: insieme di parole di una lingua e delle informazioni lessicali su queste parole • DIZIONARIO: una descrizione di questo lessico • (Differenza simile a quella tra struttura di una lingua e grammatica)

  4. INFORMAZIONI LESSICALI • Proprieta’ foniche / grafiche • Informazioni sintattiche (parti del discorso) • Informazioni morfologiche • Significato

  5. QUALI SONO LE ‘PAROLE’ DI UNA LINGUA? = quante parole ha una lingua? = che lemmi ci devono essere in un dizionario?

  6. QUALI SONO LE PAROLE DI UNA LINGUA? • 25 lemmi dal Concise Oxford Dictionary: • wannabe, • want, wanting, wanton, wapentake, wapiti, • War., • war, waratah, • war baby, • warble1, warble2, • warble fly, warbler, warby, war chest, war crime, war cry, ward, • -ward

  7. JACKSON: TRE SENSI DI ‘WORD’ (‘PAROLA’) • ORTHOGRAPHIC WORD: una sequenza di lettere circondata da spazi • PHONEMIC WORD: una sequenza di suoni (fonemi) • LEXEME: una unita’ del lessico, a cui puo’ corrispondere una voce distinta in un dizionario

  8. DEFINIZIONE TRADIZIONALE DI PAROLA La parola e’ “cio che si trova tra due spazi bianchi”

  9. QUALI SONO LE PAROLE DI UNA LINGUA? • 25 lemmi dal Concise Oxford Dictionary: • wannabe, • want, wanting, wanton, wapentake, wapiti, • War., • war, waratah, • war baby, • warble1, warble2, • warble fly, warbler, warby, war chest, war crime, war cry, ward, • -ward

  10. PAROLE E FORME DI PAROLA • want (ma non wanted) • sings, sang, sung  sing • Italiano: • mangerò, mangeresti, mangerai mangiare • nero, nera, neri, nere  nero • = 7 forme di parola, 2 parole

  11. FORME DI CITAZIONE • Un dizionario riporta le FORME DI CITAZIONE (= LEMMI) delle parole • Convenzioni diverse a seconda della lingua: • Italiano: infinito (AMARE) • Inglese: TO LOVE • Latino: prima persona presente singolare (AMO)

  12. OMONIMI • warble1, warble2: due PAROLE, stessa FORMA (OMONIMI) • Italiano: diligenza, tara, (botte, pesca …)

  13. PRIMO CRITERIO DI IDENTIFICAZIONE : • Si hanno parole distinte quando si abbiano CONCETTI diversi • Vedi sotto, morfemi

  14. PAROLE: FORME FONEMICHE E GRAFICHE • La definizione di parola “cio’ che si trova tra due spazi bianchi” e’ puramente ORTOGRAFICA • Ogni parola ha DUE forme: • i SUONI (FONEMI) che la compongono • e il modo in cui viene rappresentata graficamente (GRAFIA)

  15. PAROLE E LA LORO GRAFIA • La nostra `immagine’ delle parole (e la loro posizione in un dizionario, cartaceo od elettronico) spesso dipende dalla grafia usata • La grafia pero’ cambia di continuo: lengaio linguaggio, dinaro  denaro • Occorre anche ricordare che lo scritto segue il parlato, e che non sempre la corrispondenza e’ perfetta

  16. INGLESE: • HOMOGRAPHS • read, read, read • tear / tear • bow, refuse, wind • HOMOPHONES: • bare / bear, pale / pail, stake / steak • Mary / merry / marry (alcuni dialetti Americani)

  17. ITALIANO • La grafia delle parole Italiane non e’ cambiata molto dagli inizi del Cinquecento (prime edizioni a stampa, e.g., edizione del Petrarca curata da Bembo e stampata da Manuzio nel 1515) • Ma per secoli l’ortografia non corrispondeva alla pronuncia

  18. DUE ESEMPI DI CAMBIAMENTO DI GRAFIA • V = U • Vocabolario della Crusca, 1612: • VATICINARE • VBBIA • VDITORE • (Crusca 1738: V  U, ordine invariato) • H • Vocabolario della Crusca, 1612: • HUMILE

  19. GRAFEMI E FONEMI In Italiano ci sono 21 grafemi (+ 5) ma 30 fonemi

  20. QUALI SONO LE PAROLE DI UNA LINGUA? • 25 lemmi dal Concise Oxford Dictionary: • wannabe, • want, wanting, wanton, wapentake, wapiti, • War., • war, waratah, • war baby, • warble1, warble2, • warble fly, warbler, warby, war chest, war crime, war cry, ward, • -ward

  21. UNA FORMA, DUE PAROLE • CONTRAZIONI: • Wannabe • gonna, gimme … • CLITICI: • COMPRALO • SCRIVIMI

  22. DUE FORME, UNA PAROLA • Parole POLIREMATICHE o COMPLESSE (Inglese: MULTIWORDS) • RIFLESSIVI: • sedersi (Mario si sedette) • Inglese  sit (Mario sat) • PAROLE IDIOMATICHE • palla al piede, vuotare il sacco, tavola rotonda • ‘WEAK VERBS’ • avere paura • COMPOSTI: sci alpinismo, fuori servizio

  23. PAROLE POLIREMATICHE IN INGLESE • PHRASAL VERBS: break up, calm down, find out, give in, look over, pass out, show up, take off ….. • COMPOUNDS: • war baby, war chest, war crime, war cry, war dance • bell and whistles, rock and roll, bow and scrape, nip and tuck …. • IN TEDESCO: Donaudampfschiffahrtgesellschaftkapitänwitwe

  24. DA FORME POLIREMATICHE A COMPOSTI • salvavita / tritacarne / dopolavoro / benestante

  25. PAROLA = LESSEMA • Marello: • “il termine PAROLA … [indica una] unita’ linguistica a cui sono associati una funzione grammaticale ed un significato, separata graficamente dalle altre da spazi e dotata di coesione interna, per cui non si possono inserire altri elementi al suo interno, ne’ si puo’ mutare l’ordine degli elementi che la costituiscono”

  26. RICORDIAMO ALCUNE DEFINIZIONI • PAROLA (Inglese WORD): elemento linguistico (= unita’ del ‘lessico mentale’, LESSEMA) • FORME DI PAROLA (Inglese WORD-FORM): • Ortografica • Fonetica • LEMMA • La FORMA DI CITAZIONE di una parola in un dizionario, associata con una VOCE (Inglese LEXICAL ENTRY) • Spesso si usa il termine lemma per indicare la parola (rapporto 1:1)

  27. USO DI CORPORA PER L’IDENTIFICAZIONE DELLE PAROLE Where did the Encarta Concise English Dictionary’s editors find the information on which to base their definitions? The Bloomsbury Corpus of World English, which now has over 150 million words, provided the main evidence. We amplified this with a tailored reading programme in science, technology, business, and other key areas in order to find evidence of word use in varied fields. Lastly we used the Internet as a research source. Introduzione a ECED (citata da Jackson, p. 167)

  28. ANALISI LESSICOGRAFICA DI TESTI • Identificazione dei LEMMI • e delle loro parti del discorso • Calcolo delle loro frequenze • Costruzione di CONCORDANZE • liste ordinate di parole che si trovano in un testo con il contesto • Identificazione di COLLOCAZIONI • “broken twig”

  29. L’IDENTIFICAZIONE DEI LEMMI NEI TESTI VIA COMPUTER • TOKENIZZAZIONE • LEMMATIZZAZIONE • CLASSIFICAZIONE GRAMMATICALE

  30. TOKENIZZAZIONE C’ERA UNA VOLTA UN PEZZO DI LEGNO. C’ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO. | C’ | ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO | . |

  31. ALCUNI PROBLEMI CON IL PUNTO C’ERA UNA VOLTA UN PEZZO DI LEGNO. IL SIG. ROSSI TELEFONÓ A CASA. U.S.A. 9.45 WWW.GOOGLE.IT

  32. MAIUSCOLE E MINUSCOLE Rossi / rossi Ciliegia / ciliegia

  33. FORME POLIREMATICHE(= TOKEN COMPLESSI) • Vuotare il sacco, tagliare la corda, di rado, fuori servizio, ad hoc • War baby • Los Angeles, La Spezia • GU L 161 del 26.6.1999

  34. LA CLASSIFICAZIONE DELLE PAROLE • Jackson, 1.5 • Per saperne di piu’: • Jezek, capitolo 4 • Graffi / Scalise, capitolo 2

  35. RESTRIZIONI SULLE POSIZIONI DELLE PAROLE • La ragazza lesse rapidamente il libro • *Ragazza la lesse rapidamente il libro • *La ragazza lesse il rapidamente libro • Inglese: *The Sue quickly read the book • Sottocategorie: • *La ragazza arrivo’ il libro • conigliera, baleniera, teiera, ma: *virtuiera, *pazienzera

  36. CATEGORIE LESSICALI (PARTI DEL DISCORSO) • NOMI (tavolo, Simona) • VERBI (camminare, mangiare, colpire) • AGGETTIVI (rosso, rapido) • AVVERBI (probabilmente, subito) • PRONOMI (io, lui, ci) • ARTICOLI (il, la, un) • PREPOSIZIONI (di, a, con) • CONGIUNZIONI (e, ma, o) • [Italiano]: INTERIEZIONI (ahi! )

  37. ALCUNE DISTINZIONI • PARTI DEL DISCORSO VARIABILI / INVARIABILI • L’uomo cammina / camminava • PARTI DEL DISCORSO APERTE / CHIUSE • Aperte: nomi, verbi, aggettivi, avverbi • Chiuse: articoli, pronomi, preposizioni, congiunzioni

  38. CATEGORIE UNIVERSALI? • Il nome ed il verbo non mancano in nessuna lingua • L’articolo manca in molte lingue (Latino, lingue slave, Cinese) • Avverbio?

  39. CATEGORIE LESSICALI E DIZIONARI • Un dizionario tipicamente identifica tutte le parti del discorso che una certa forma di parola puo’ essere usata per esprimere, e solitamente associa voci diverse con ogni parte • warble1, warble2 • Italiano: legge, letto, affetto, porto, pianta …

  40. ZINGARELLI INTERATTIVO: LEGGE1 1 Norma, espressa dagli organi legislativi dello Stato, che stabilisce diritti e doveri dei cittadini Legge delega, che viene emessa dal potere esecutivo su delega del potere legislativo entro un ambito ben precisato Legge ponte, emessa in attesa di un'altra più organica A norma, a termini di legge, secondo ciò che la legge prescrive. 2 (est.) Complesso delle norme costituenti l'ordinamento giuridico di uno Stato: la legge è uguale per tutti Essere fuori della legge, non essere garantito dalla legge o non sentirsi a essa soggetto Dettar legge, imporre a tutti la propria volontà. 3 Scienza giuridica: laurea in legge; dottore in legge; facoltà di legge Uomo di legge, specialista nella scienza giuridica.4 Autorità giudiziaria: ricorrere alla legge In nome della legge, formula con cui i rappresentanti dell'autorità giudiziaria intimano a qc. di obbedire a un comando della stessa: in nome della legge, aprite! 5 (est.) Ogni norma che regola la condotta individuale o sociale degli uomini: le leggi della società. 6 (est.) Regola fondamentale di una tecnica, di un'arte e sim.: le leggi della pittura. 7 Relazione determinata e costante fra le quantità variabili che entrano in un fenomeno: le leggi della matematica, della fisica.

  41. ZINGARELLI INTERATTIVO: LEGGE2 leggere v. tr. (pres. io lèggo, tu lèggi; pass. rem. io lèssi, tu leggésti; part. pass. lètto) 1 Riconoscere dai segni della scrittura le parole e comprenderne il significato: imparare, insegnare a leggere; leggere a voce alta (ass.) Fare lettura, dedicarsi alla lettura: trascorro gran parte della giornata leggendo. 2 Interpretare certi segni convenzionali o naturali: i ciechi leggono con le dita; leggere un diagramma (fig.) Leggere la mano, ricavare dati sul carattere e sul destino di qc. basandosi sulle linee della mano. 3 (lett.) Interpretare uno scritto, un passo: i critici dell'Ottocento leggevano erroneamente questa strofa (est.) Interpretare, valutare scritti, eventi e sim. secondo particolari criteri: leggere un film in chiave ironica. 4 (fig.) Intuire i pensieri e le intenzioni di qc.: gli si legge il terrore sul volto.

  42. USO DI CORPORA PER LA CLASSIFICAZIONE GRAMMATICALE • In molti dei corpora piu’ recenti (a partire dal Brown corpus), e particolarmente in quelli usati per la lessicografia, i token vengono classificati con la loro parte di discorso • Brown corpus: fatto a mano • BNC, LIP: fatto automaticamente • Queste informazioni possono essere usate per associare parti del discorso ai lemmi

  43. IL BROWN CORPUS • Il primo corpus in formato elettronico moderno (Francis and Kucera, 1961) • 500 testi, ognuno 2 000 parole • Analisi SINCRONICA dell’Inglese Americano: testi di 15 generi (fantascienza, romanzi, articoli scientifici, reportage a stampa) • Annotata la parte del discorso di tutte le parole (87 classi)

  44. IL British National Corpus (BNC) • Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press • Circa 100 milioni di parole • Classificazione grammaticale automatica usando il classificatore CLAWS (parti corrette a mano successivamente) • http://www.hcu.ox.ac.uk/BNC

  45. CLASSIFICAZIONE GRAMMATICALE: BROWN CORPUS Television/NN has/HVZ yet/RB to/TO work/VB out/RP a/AT living/RBG arrangement/NN with/IN jazz/NN ,/, which/VDT comes/VBZ to/IN the/AT medium/NN more/QL as/CS an/AT uneasy/JJ guest/NN than/CS as/CS a/AT relaxed/VBN member/NN of/IN the/AT family/NN ./.

  46. AMBIGUITA’ NELLA CLASSIFICAZIONE GRAMMATICALE • Molte forme di parola possono essere associate con parti del discorso diverse: • STATO sia sostantivo (LO STATO ITALIANO) che verbo (NON SONO STATO IO)

  47. AMBIGUITA’ NELLA CLASSIFICAZIONE GRAMMATICALE The ATman NN VBstill NN VB RBsaw NN VBDher PPO PP$

  48. STATISTICHE SULL’AMBIGUITA’ NEL B.C. Unambiguous (1tag) 35,340Ambiguous (2-7 tags) 4,100 2 tags 3,760 3 tags 264 4 tags 61 5 tags 12 6 tags 2 7 tags 1 (“still”)

  49. METODI PER LA CLASSIFICAZIONE GRAMMATICALE AUTOMATICA • Prevalentemente STATISTICI • Combinano: • Informazioni sulla FREQUENZA di una parola • Con informazioni sul CONTESTO (specialmente parole precedenti) • E sulla sua MORFOLOGIA (specialmente per parole sconosciute) • POBILARE

  50. STRUMENTI INFORMATICI PER LA CLASSIFICAZIONE GRAMMATICALE • INGLESE: • LTG Edinburgh (LT-POS) http://www.ltg.ed.ac.uk/software/pos/index.html • QTAG • Brill Tagger • TEDESCO: • TreeTagger: http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html • ITALIANO: versione italiana di TreeTagger • A PAGAMENTO: • Xelda (Italiano, Inglese, Francese, Tedesco, Chinese, Russo, etc)

More Related