90 likes | 212 Views
Laboratorio di analisi di risorse linguistiche Laurea Specialistica in Linguistica. Digressione: il linguaggio di query CQP. CQP. Operatori booleani: & (and) | (or) ! (not) Variabili numeriche: ? (0 or 1) * (0 or more) + (1 or more) {n} (exactly n ) {n,m} ( n…m interval ). CQP.
E N D
Laboratorio di analisi di risorse linguisticheLaurea Specialistica in Linguistica Digressione: il linguaggio di query CQP
CQP Operatori booleani: &(and) |(or) !(not) Variabili numeriche: ?(0 or 1) *(0 or more) +(1 or more) {n}(exactly n) {n,m}(n…m interval)
CQP Ricerca semplice: "parola"; Ricerca di una stringa: "parola1" "parola2" … "parolan"; Due stringhe con due ordini di parole diversi: "parola1" "parola2" … "parolan" | "parolan" … "parola2" "parola1"; Ricerche case-insensitive: "baffo" %c; Per ignorare accenti e diacritici: "elite" %d;
CQP Ricerca combinata parola + categoria: "parola" [pos="label"]; Ricerca di un lemma: [lem="parola"]; Wildcards: "parol.*"; ".*arola"; ".*arol.*"; Per specificare un insieme chiuso di alternative: "parol(a|e|aio|iere)"; Per ignorare una lettera o un segno: "pic-?nic"; Per ampliare il contesto: "baffo"; set Context 30 oppure "baffo"; set Context 5 words oppure "baffo"; set Context 2 s
CQP Per cercare segmenti di qualsiasi lunghezza contenuti tra una parola e un’altra: "parola1" []* "parola2"; Per cercare segmenti di lunghezza pari a una parola contenuti fra una parola e un'altra: "parola1" [] "parola2"; Per cercare tutte le occorrenze di un lemma in una data forma all'interno della stessa frase: [lemma = "volere"][]+ [pos = ".*inf.*"] within s; Attenzione alle etichette diverse in ciascun corpus (es. il Corpus Taurinense usa lemmamentre il corpus della Repubblica utilizza lem)!
CQP Per cercare segmenti di lunghezza prestabilita contenuti tra una parola e un’altra: "parola1" []* "parola2" within 10; Per cercare segmenti di lunghezza variabile contenuti fra una parola e un’altra all'interno della stessa frase: "parola1" [] "parola2" within s; Per cercare tutte le occorrenze di una parola seguita da una preposizione o da un pronome personale: "parola" [pos="IN" | pos="PP"];
CQP Per cercare una sequenza aggettivo + nome + congiunzione + nome: [pos="JJ.*"] [pos="N.*"] "and|or" [pos="N.*"]; Per cercare una sequenza nome + is/was + verbo che termina in -ed: [pos="N.*"] "is|was" [pos="V.*" & word=".*ed"]; Per cercare una sequenza catch/caught + un determinatore + un numero qualsiasi di aggettivi + un nome oppure una sequenza nome + was/were + caught: "catch|caught" [pos="DT"] [pos="JJ"]* [pos="N.*"] | [pos="N.*"] "was|were" "caught";
CQP Per cercare una sequenza look/bring + una sequenza di max 10 parole che non siano verbi + up/down: "look|bring" [pos != "VB.*"]{0,10} "up|down"; Per cercare le parole che cominciano con sott- e non siano né verbi né aggettivi: [word="sott.*" & !(pos="V.*" | pos="ADJ")];
CQP: un esempio concreto • Corpus La Repubblica: • Attributi strutturali – permettono di restringere il campo della ricerca per generi: • article_id: a single id assigned to each article (not very interesting). - article_author: the author of the article. - article_gen: the genre of the article (two values: news and commento). - article_top: the topic of an article (chiesa, cronaca, cultura, economia, meteo, politica, scienze, scuola, società, sport, NOCAT). - article_year: the year of an article (1985-2000). • Esempio: a:"opportunista" :: a.article_top="politica"