430 likes | 715 Views
Uvod. Uvod u računalnu metodologiju za jezično istraživanje dr. sc. Božo Bekavac. Osnovne obavijesti. dr. sc. Bo ž o Bekavac Uvod u računalnu metodologiju za jezično istraživanje Računalna učionica, subotom u 11 h Konzultacije: bbekavac@ffzg.hr. Literatura - (obavezna).
E N D
Uvod Uvod u računalnu metodologiju za jezično istraživanje dr. sc. Božo Bekavac
Osnovne obavijesti • dr. sc. Božo Bekavac • Uvod u računalnu metodologiju za jezično istraživanje • Računalna učionica, subotom u 11 h • Konzultacije: bbekavac@ffzg.hr
Literatura -(obavezna) 1. McEnery, Tony & Wilson, Andrew (1996), Corpus Linguistics, Edinburgh University Press, na www: http://bowland-files.lancs.ac.uk/monkey/ihe/linguistics/contents.htm 2. Jurafsky Daniel, James H. Martin (2000), An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Prentice Hall, drugo izdanje, poglavlja 2., 12. i 13. na www: http://www.cs.colorado.edu/~martin/slp2.html
Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition • http://www.hnk.ffzg.hr/Jurafsky/2.pdf • http://www.hnk.ffzg.hr/Jurafsky/11.pdf • http://www.hnk.ffzg.hr/Jurafsky/12.pdf (samo Ambiguity 12.2 i 12.5.1. Finite-State Rule-Based Chunking)
Literatura -(dodatna) 3. Emmanuel Roche, Yves Schabes (ur.) (1997), Finite State Devices for Natural Language Processing, MIT Press, Cambridge, Massachusetts 4. Mitkov, Ruslan (ur.) (2003), The Oxford Handbook of Computational Linguistics, Oxford University Press 5. Silberztein, Max (2000), INTEX Manual. ASSTRIL, Pariz, na www: http://msh.univ-fcomte.fr/intex/downloads/Manual.pdf
Literatura -(preporuka) • nema na jednom mjestu > dolaziti na predavanja • Koristiti WWW! • Ispit: pismeni
Gdje se nalazi jezik? • Što je jezik? Gdje se nalazi, u umu govornika ili negdje drugdje? • Chomsky: “jezik je sustav predstavljen u umu/mozgu određenog pojedinca” • Chomsky mijenja smjer lingvistike od empirizma prema racionalizmu • Nastoji odbaciti svaku potrebu za korpusom
Chomsky: sposobnost/uporaba • Sposobnost (competence) – prešutno, interno znanje o jeziku; nesvjesno znanje svih gramatičkih struktura idealiziranog govornika • Uporaba (performance) – vanjski dokaz jezične sposobnosti; stvarna proizvodnja i razumijevanje jezika u konkretnim iskazima • Chomsky: Performance, however, is a poor mirror of competence.
Chomsky - korpus • Konkretni jezični ostvaraji manje su važni jer se na njih može utjecati faktorima koji su izvan jezične kompetencije: • "I live in New York." • "I live in Dayton Ohio.“ • Imaju li veze frekvencija pojavljivanja u korpusu i gramatičnost?
Što je korpus ? • Korpus - zbir tekstova prirodnoga jezika sastavljen po stanovitu kriteriju • Corpus (plural corpora) • Tekstovi koji čine korpus zasnovani su na konkretnim jezičnim ostvarajima • Korpusna lingvistika - istraživanje jezika na osnovi korpusa tekstova, pri čemu se danas obično podrazumijeva – strojno (podržanih) izrađenih korpusa.
Evidence/introspection • Fillmore: I don't think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that I want to explore… [but] every corpus I have had the chance to examine, however small, has taught me facts I couldn't imagine finding out any other way. My conclusion is that the two types of linguists need one another
Računalna lingvistika • Računalna lingvistika, RL (Computational Linguistics, CL) je dio znanosti o jeziku koja koristi računala kao pomoćna sredstva u istraživanju jezika ili eksperimentiranju nad njim • RL: interdisciplinarnog karaktera, s uporištima u lingvistici i informatici
Brown korpus • Prvi je računalno sastavljen i podržan korpus Brown korpus • dovršen je 1963-4. godine na temelju tekstova na američkom engleskom jeziku • Kučera i Francis sa Odsjeka za lingvistiku Sveučilišta Brown • sastoji se od oko milijun pojavnica (1M) • Pojavnica??? - METAJEZIK
Pojavnica - različnica • Riječ? Koliko “riječi” ima rečenica: I see a cat and a dog. • Pojavnica (token) - sve ono što se nalazi između dva znaka koja služe kao graničnici (svako individualno pojavljivanje). • Različnica (type) - jedinstveni oblik pojavnice iz korpusa. • Pojavnica (tokens) ima 7. • Različnica (types) ima 6.
British National Corpus (BNC) • Prvi nacionalni korpus koji je ponio takav naziv i postao referentan za neki jezik • 100 M pojavnica • Pisani (90 %) i govoreni (10 %) jezik (written and spoken language) • Gramatički obilježen (part of speech, POS) • http://www.natcorp.ox.ac.uk/
Istopisnost (homography) • VANJSKA ISTOPISNOST – slučaj pripadanja istog oblika riječi dvjema ili više lema. Npr. can = limenka i can = moći, hr. šumemože pripadati četirima lemama, dvije imenice (leme šum i šuma), a dvije glagoli (leme šumiti i šumjeti) • UNUTARNJA ISTOPISNOST - slučaj postojanja više morfosintaktičkih interpretacija koje pripadaju istoj lemi: povijesti,povijest.N:cfpa:cfpg:cfpn:cfpv:cfsd:cfsg:cfsi:cfsl:cfsv
CQL • CQL (pronounced “sequel”) is short for the corpus query language • Primjeri upita: • cat _ dog • cat*dog/10 • {s[iau]ng} • <head type=main>man
Ostali korpusi engleskog jezika • Oxford Text Archive (kolekcije tekstova) http://www.ota.ox.ac.uk/ • American National Corpushttp://americannationalcorpus.org/ • The Bank of English • http://www.mycobuild.com/about-collins-corpus.aspx • Mnogi drugi…
Ostali korpusi engleskog jezika • Corpus of Contemporary American English (COCA) • largest freely-available corpus of English, and the only large and balanced corpus of American English • more than 450 million words of text and is equally divided among spoken, fiction, popular magazines, newspapers, and academic texts • 1990-2012 y • http://corpus.byu.edu/coca/
Corpus of Contemporary American English (COCA) • eyes – eyes • blue eyes – blueeyes • [nn*] - imenica • [np*] – vlastita imenica • [j*] eyes – preidjev eyes • [sing] – lema sing • [=strong] – sinonimi, !!! • can.[n*] – can gdje can je imenica
Hrvatski nacionalni korpus (HNK) • 101,3 M pojavnica suvremenog HJ • POS obilježen • Sastavlja se u Zavodu za lingvistiku FFZG • Pristup s pomoću programa za pretraživanje Bonito • http://www.hnk.ffzg.hr/default_en.htm
Hrvatska jezična mrežna riznica • http://riznica.ihjj.hr/en/
Vrste korpusa • Opći korpus • Specijalizirani korpus – ponekad postoji potreba za sastavljanjem vlastitog korpusa, npr. korpus tekstova iz određene domene
Veličina korpusa? • John Sinclair: “The bigger the better.” • Monitor korpus(monitor corpus)- nije ograničen standardnim korpusnim parametrima (veličinom i vremenskim rasponom tekstova u korpusu) • Koji je danas najveći izvor digitaliziranih tekstova? • WWW!
Web as corpus • Google as corpus: www.google.com • Velika (najveća ?) kolekcija tekstova danas • Nedostatak: kako kontrolirati izvore koje se pretražuje? • Do određene mjere ipak je moguće!
Konkordancije (1) • današnji korpusi prevelikog su opsega da bi se mogli pretraživati bez pomoći računala • alat za konkordancije nalazi u samom središtu korpusne lingvistike i osnovni je alat korpusnoga jezikoslovca • osnovni je cilj alata za konkordancije omogućiti uvid u mnoštvo primjera određene pojavnice ili fraze u okolinama u kojima se pojavljuju
Konkordancije (2) • KWIC (Key-Word In Context) • KWAL (Key-Word And Line)
Označavanje (tagging) • Označavanje (tagging, mark-up) je pridodavanje eksplicitnih informacija tekstu za računalnu obradu tamo gdje su one implicitno prisutne osobi koja čita tekst • Oznake (tags) – umeću se u tekst • U nekom kontekstu: obilježavanje (annotation) • Pri obilježavanju korpusa oznake se ubacuju iz određenoga skupa oznaka • Skupoznaka (tagset, tag list) je popis svih mogućih oznaka kojima se može obilježavati tekst: http://www.natcorp.ox.ac.uk/docs/bnc2guide.htm
Označavanje vrsta riječi(Part-of-speech (POS) tagging) • Part-of-speech (POS) označavanje je postupak pridruživanja gramatičkih kategorija svakoj pojavnici u tekstu (ponekad se naziva gramatičko označavanje ili morfosintaktičko obilježavanje). • spada u osnovne vrsta lingvističkog označavanja i služi kao osnova za više razine analize teksta kao što je sintaktički parsing.
POS tagging (2) • Točnost automatskog označavanja danas: do 96-97 % • POS oznake prvi su korak u razrješavanju istopisnica (homografa), tj. pojavnica koje imaju isti lik a različite gramatičke kategorije i/ili značenje
POS označivač (tagger) • Alat s pomoću kojega se obavlja automatsko POS označavanje naziva se POS označivač (tagger). • Osnovna podjela prema načinu rada na: • One koji se zasnivaju na pravilima (Rule based) • Vjerojatnosne (Probabilistic)