290 likes | 543 Views
Uvod - kolokacije. riječi/pojavnice nisu nasumično raspoređene u tekstu moguće je uočiti da neke riječi imaju tendenciju pojavljivanja u “sličnom” društvu karakteristične kombinacije riječi prilično su učestale u tekstu. Uvod - kolokacije.
E N D
Uvod - kolokacije • riječi/pojavnice nisu nasumično raspoređene u tekstu • moguće je uočiti da neke riječi imaju tendenciju pojavljivanja u “sličnom” društvu • karakteristične kombinacije riječi prilično su učestale u tekstu
Uvod - kolokacije • Altenberg: oko 70 % pojavnica iz korpusa tvori rekurentne kombinacije riječi neke vrste (proučavao je korpus engleskoga) • npr. daljinski upravljač, odlučno opovrgnuti, oružje za masovno uništenje, drvo za ogrjev, uzeti mjeru, ispod stola, kick the bucket, weiß wein, ... • takve se kombinacije riječi u lingvistici nazivajukolokacijama
Kolokacije • veći dio definicija oslanja se na statističke pojmove poput čestote ili supojavljivanja • kolokacija je kombinacija riječi koje se supojavljuju značajno češće nego što bi se moglo predvidjeti iz njihovih zasebnih frekvencija u promatranom uzorku (Kilgarriff 1992)
Kolokacije • knjiške definicije određuju “susljedne” riječi kao kolokacije preko tri osobine koje one moraju zadovoljavati: • nedjeljivost (non-compositionality) • nezamjenljivost (non-substitutability) • nepromjenljivost (non-modifiability)
Nedjeljivost • značenje kolokacije ne može biti izvedeno iz značenja pojedinih komponenti (riječi) • Na primjer: • “ispod stola”; “topli brat” • u strojnom bi prevođenju prijevod riječ-za-riječ mogao predstavljati pogrešku (npr. eng. red tape)
Nezamjenljivost • bilo koju riječ iz kolokacije nije moguće zamijeniti sinonimom ili bilo kojom drugom sličnom riječi • Na primjer: • “ispod stola”; “topli brat” • nije moguće:“podno stola”*; “mlaki brat”*
Nepromjenljivost • kolokacije nije moguće mijenjati čak i kad nam gramatika to dopušta • “ispod stola”; “topli brat” • nije moguće:“ispod drvenog stola”*; “topli Ivanov polubrat”*
Identifikacija kolokacija • [msd="A.*"][lemma="glava"] > Sortna Node • dobili smo dobre potencijalne kandidate za kolokacije!
Uzajamna obavijesnost, UO (Mutual Information, MI ) • brojčana vrijednost koja se izračunava uspoređivanjem vjerojatnosti supojavljivanja dviju pojavnica zajedno s vjerojatnošću da se pojave odvojeno:
Uzajamna obavijesnost, UO (Mutual Information, MI ) • govori o tome koliko jedna riječ govori o drugoj: • vjerojatnost unigrama • vjerojatnost bigrama
Uzajamna obavijesnost - primjer • U 1 M (1.000.000 pojavnica) korpusu: • <okrugao>se javlja 29 puta • <stol> se javlja 196 puta • <okrugao><stol> se javlja 15 puta • možemo li tvrditi da je “okrugli stol” kolokacija prema UO?
Uzajamna obavijesnost • Wlofram Alpha http://www.wolframalpha.com • ld(x) > računa logaritam po bazi 2 broja x • ld(8) =3 ili • log_2(x) upisati x bez decimala u W.A.
Uzajamna obavijesnost – primjer 2 • U 1 M korpusu: • <slobodan>se javlja 297 puta • <trgovina>se javlja 134 puta • <slobodan> <trgovina>se javlja 24 puta • možemo li tvrditi da je “slobodna trgovina” kolokacija prema UO?
Uzajamna obavijesnost • u izloženom primjeru, UO pokazuje koliko jedna pojavnica govori o drugoj, odnosno • broj koji nam kazuje koliko se povećava sigurnost da će slijediti riječ trgovina nakon što smo vidjeli riječ slobodna • ta se sigurnost izražava u bitovima i u prethodnom primjeru iznosi 9,23 bita
T-test Razlika između promatrane i očekivane aritm. sredine je aritmetička sredina uzorka je pretpostavljena vrijednost aritmetičke sredine osnovnog skupa s2je varijanca uzorka N je veličina uzorka promatrana vrijednost pretpostavljena vrijednost varijanca se uzima aproksimativnokao
T-test: 1. primjer • U 1 M korpusu: • <okrugao>se javlja 29 puta • <stol> se javlja 196 puta • <okrugao><stol> se javlja 15 puta • možemo li tvrditi da je okrugli stol kolokacija?
T-test: 1. primjer • promatrana aritmetička sredina je: • pretpostavljena vrijednost aritmetičke sredine osnovnog skupaje:
T-test: 1. primjer • vrijednosti uvrštene u formulu izgledaju: • za prihvaćanje H0 sa sigurnošću od 99% (α=0,005) kritična vrijednost t treba iznositi najmanje 2,576 H0 se odbacuje jer je 3,871 > 2,576 možemo tvrditi da okrugliistol tvorekolokaciju
T-test • ukoliko je vrijednost veličine t veća od2,576 hipoteza H0 se odbacuje s 99 % pouzdanosti (∞ stupnjeva slobode) • α=0,0005 (99,9 %); t ≥ 3,291 • α=0,005 (99 %); t ≥ 2,576 • α=0,01 (98 %); t ≥ 2,326 • α=0,05 (90 %); t ≥ 1,645
Supojavljvanja „riječi” • stručno nazivlje • periferna memorija, višestanični organizam • leksičke kolokacije • daljinski upravljač, mobilni uređaj • vlastita imena • Ruđer Bošković, Leo Messi • frazemi • dolijevati ulje na vatru, čovjek od riječi • ustaljene fraze i klišeji • plan i program, dobar dan
Statistički rezultati • statistička metodologija od iznimne je pomoći kod pronalaženja kolokacija • frekvencije same po sebi ne govore da su dvije riječi u posebnom odnosu • ALI: statističke mjere daju dobru procjenu koliko je vjerojatno da se radi o kombinaciji dvije riječi, a ne slučajnosti