1 / 9

Laboratorio di analisi di risorse linguistiche Laurea Specialistica in Linguistica

Laboratorio di analisi di risorse linguistiche Laurea Specialistica in Linguistica. Digressione: il linguaggio di query CQP. CQP. Operatori booleani: & (and) | (or) ! (not) Variabili numeriche: ? (0 or 1) * (0 or more) + (1 or more) {n} (exactly n ) {n,m} ( n…m interval ). CQP.

kylar
Download Presentation

Laboratorio di analisi di risorse linguistiche Laurea Specialistica in Linguistica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Laboratorio di analisi di risorse linguisticheLaurea Specialistica in Linguistica Digressione: il linguaggio di query CQP

  2. CQP Operatori booleani: &(and) |(or) !(not) Variabili numeriche: ?(0 or 1) *(0 or more) +(1 or more) {n}(exactly n) {n,m}(n…m interval)

  3. CQP Ricerca semplice: "parola"; Ricerca di una stringa: "parola1" "parola2" … "parolan"; Due stringhe con due ordini di parole diversi: "parola1" "parola2" … "parolan" | "parolan" … "parola2" "parola1"; Ricerche case-insensitive: "baffo" %c; Per ignorare accenti e diacritici: "elite" %d;

  4. CQP Ricerca combinata parola + categoria: "parola" [pos="label"]; Ricerca di un lemma: [lem="parola"]; Wildcards: "parol.*"; ".*arola"; ".*arol.*"; Per specificare un insieme chiuso di alternative: "parol(a|e|aio|iere)"; Per ignorare una lettera o un segno: "pic-?nic"; Per ampliare il contesto: "baffo"; set Context 30 oppure "baffo"; set Context 5 words oppure "baffo"; set Context 2 s

  5. CQP Per cercare segmenti di qualsiasi lunghezza contenuti tra una parola e un’altra: "parola1" []* "parola2"; Per cercare segmenti di lunghezza pari a una parola contenuti fra una parola e un'altra: "parola1" [] "parola2"; Per cercare tutte le occorrenze di un lemma in una data forma all'interno della stessa frase: [lemma = "volere"][]+ [pos = ".*inf.*"] within s; Attenzione alle etichette diverse in ciascun corpus (es. il Corpus Taurinense usa lemmamentre il corpus della Repubblica utilizza lem)!

  6. CQP Per cercare segmenti di lunghezza prestabilita contenuti tra una parola e un’altra: "parola1" []* "parola2" within 10; Per cercare segmenti di lunghezza variabile contenuti fra una parola e un’altra all'interno della stessa frase: "parola1" [] "parola2" within s; Per cercare tutte le occorrenze di una parola seguita da una preposizione o da un pronome personale: "parola" [pos="IN" | pos="PP"];

  7. CQP Per cercare una sequenza aggettivo + nome + congiunzione + nome: [pos="JJ.*"] [pos="N.*"] "and|or" [pos="N.*"]; Per cercare una sequenza nome + is/was + verbo che termina in -ed: [pos="N.*"] "is|was" [pos="V.*" & word=".*ed"]; Per cercare una sequenza catch/caught + un determinatore + un numero qualsiasi di aggettivi + un nome oppure una sequenza nome + was/were + caught: "catch|caught" [pos="DT"] [pos="JJ"]* [pos="N.*"] | [pos="N.*"] "was|were" "caught";

  8. CQP Per cercare una sequenza look/bring + una sequenza di max 10 parole che non siano verbi + up/down: "look|bring" [pos != "VB.*"]{0,10} "up|down"; Per cercare le parole che cominciano con sott- e non siano né verbi né aggettivi: [word="sott.*" & !(pos="V.*" | pos="ADJ")];

  9. CQP: un esempio concreto • Corpus La Repubblica: • Attributi strutturali – permettono di restringere il campo della ricerca per generi: • article_id: a single id assigned to each article (not very interesting). - article_author: the author of the article. - article_gen: the genre of the article (two values: news and commento). - article_top: the topic of an article (chiesa, cronaca, cultura, economia, meteo, politica, scienze, scuola, società, sport, NOCAT). - article_year: the year of an article (1985-2000). • Esempio: a:"opportunista" :: a.article_top="politica"

More Related