490 likes | 720 Views
Osnovni pojmovi. Uvod u računalnu metodologiju za jezično istraživanje Božo Bekavac. Osnovne obavijesti. dr. sc. Bo ž o Bekavac Uvod u računalnu metodologiju za jezično istraživanje Računalna učionica, subotom u 11 h Konzultacije: bbekavac@ffzg.hr. Literatura - (obavezna).
E N D
Osnovni pojmovi Uvod u računalnu metodologiju za jezično istraživanje Božo Bekavac
Osnovne obavijesti • dr. sc. Božo Bekavac • Uvod u računalnu metodologiju za jezično istraživanje • Računalna učionica, subotom u 11 h • Konzultacije: bbekavac@ffzg.hr
Literatura -(obavezna) • McEnery, Tony & Wilson, Andrew (1996), Corpus Linguistics, Edinburgh University Press, na www: http://www.lancs.ac.uk/fss/courses/ling/corpus/ 2. Jurafsky Daniel, James H. Martin (2000), An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Prentice Hall, drugo izdanje, poglavlja 2., 12. i 13. na www
Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition http://www.hnk.ffzg.hr/Jurafsky/11.pdf (sve do 11.8) http://www.hnk.ffzg.hr/Jurafsky/12.pdf (samo Ambiguity 12.2 i 12.5.1. Finite-State Rule-Based Chunking)
Literatura -(dodatna) 3. Emmanuel Roche, Yves Schabes (ur.) (1997), Finite State Devices for Natural Language Processing, MIT Press, Cambridge, Massachusetts 4. Mitkov, Ruslan (ur.) (2003), The Oxford Handbook of Computational Linguistics, Oxford University Press 5. Silberztein, Max (2000), INTEX Manual. ASSTRIL, Pariz
Literatura -(preporuka) • nema na jednom mjestu > dolaziti na predavanja • Koristiti i WWW!
Materijali sa nastave • http://www.hnk.ffzg.hr/download/urmj/materijali.zip
Gdje se nalazi jezik? • Što je jezik? Gdje se nalazi, u umu govornika ili negdje drugdje? • Chomsky: “jezik je sustav predstavljen u umu/mozgu određenog pojedinca” • Chomsky mijenja smjer lingvistike od empirizma prema racionalizmu • Nastoji odbaciti svaku potrebu za korpusom
Chomsky: sposobnost/uporaba • Sposobnost (competence) – prešutno, interno znanje o jeziku; nesvjesno znanje svih gramatičkih struktura idealiziranog govornika • Uporaba (performance) – vanjski dokaz jezične sposobnosti; stvarna proizvodnja i razumijevanje jezika u konkretnim iskazima • Chomsky: Performance, however, is a poor mirror of competence.
Chomsky - korpus • Konkretni jezični ostvaraji manje su važni jer se na njih može utjecati faktorima koji su izvan jezične kompetencije: • "I live in New York." • "I live in Dayton Ohio.“ • Imaju li veze frekvencija pojavljivanja u korpusu i gramatičnost?
Što je korpus ? • Korpus - zbir tekstova prirodnoga jezika sastavljen po stanovitu kriteriju • Corpus (plural corpora) • Tekstovi koji čine korpus zasnovani su na konkretnim jezičnim ostvarajima • Korpusna lingvistika - istraživanje jezika na osnovi korpusa tekstova, pri čemu se danas obično podrazumijeva – strojno (podržanih) izrađenih korpusa.
Evidence/introspection • Fillmore: I don't think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that I want to explore… [but] every corpus I have had the chance to examine, however small, has taught me facts I couldn't imagine finding out any other way. My conclusion is that the two types of linguists need one another
Računalna lingvistika • Računalna lingvistika, RL (Computational Linguistics, CL) je dio znanosti o jeziku koja koristi računala kao pomoćna sredstva u istraživanju jezika ili eksperimentiranju nad njim • RL: interdisciplinarnog karaktera, s uporištima u lingvistici i informatici
Brown korpus • Prvi je računalno sastavljen i podržan korpus Brown korpus • dovršen je 1963-4. godine na temelju tekstova na američkom engleskom jeziku • Kučera i Francis sa Odsjeka za lingvistiku Sveučilišta Brown • sastoji se od oko milijun pojavnica (1M) • Pojavnica??? - METAJEZIK
Pojavnica - različnica • Riječ? Koliko “riječi” ima rečenica: I see a cat and a dog. • Pojavnica (token) - sve ono što se nalazi između dva znaka koja služe kao graničnici (svako individualno pojavljivanje). • Različnica (type) - jedinstveni oblik pojavnice iz korpusa. • Pojavnica (tokens) ima 7. • Različnica (types) ima 6.
British National Corpus (BNC) • Prvi nacionalni korpus koji je ponio takav naziv i postao referentan za neki jezik • 100 M pojavnica • Pisani (90 %) i govoreni (10 %) jezik (written and spoken language) • Gramatički obilježen (part of speech, POS) • http://www.natcorp.ox.ac.uk/
Istopisnost (homography) • VANJSKA ISTOPISNOST – slučaj pripadanja istog oblika riječi dvjema ili više lema. Npr. can = limenka i can = moći, hr. šumemože pripadati četirima lemama, dvije imenice (leme šum i šuma), a dvije glagoli (leme šumiti i šumjeti) • UNUTARNJA ISTOPISNOST - slučaj postojanja više morfosintaktičkih interpretacija koje pripadaju istoj lemi: povijesti,povijest.N:cfpa:cfpg:cfpn:cfpv:cfsd:cfsg:cfsi:cfsl:cfsv
CQL • CQL (pronounced “sequel”) is short for the corpus query language • Primjeri upita: • cat _ dog • cat*dog/10 • {s[iau]ng} • <head type=main>man • http://www.natcorp.ox.ac.uk/tools/chapter4.xml.ID=FIMNU#CQL
Ostali korpusi engleskog jezika • The Bank of English (524 M): http://www.collins.co.uk/books.aspx?group=153 • http://www.titania.bham.ac.uk/docs/ • Oxford Text Archive (kolekcije tekstova) http://www.ota.ox.ac.uk/ • American National Corpus (100 M) http://americannationalcorpus.org/ • Mnogi drugi…
Hrvatski nacionalni korpus (HNK) • 101,3 M pojavnica suvremenog HJ • Dijelom POS obilježen • Sastavlja se u Zavodu za lingvistiku FFZG • Pristup s pomoću programa za pretraživanje Bonito • http://www.hnk.ffzg.hr/default_en.htm
Hrvatska jezična mrežna riznica • http://riznica.ihjj.hr/en/
Veličina korpusa? • John Sinclair: “The bigger the better.” • Monitor korpus(monitor corpus)- nije ograničen standardnim korpusnim parametrima (veličinom i vremenskim rasponom tekstova u korpusu) • Koji je danas najveći izvor digitaliziranih tekstova? • WWW!
Web as corpus • Google as corpus: www.google.com • Velika (najveća ?) kolekcija tekstova danas • Nedostatak: kako kontrolirati izvore koje se pretražuje? • Do određene mjere ipak je moguće!
Gateway to corpus linguistics • http://www.corpus-linguistics.com/
Konkordancije (1) • današnji korpusi prevelikog su opsega da bi se mogli pretraživati bez pomoći računala • alat za konkordancije nalazi u samom središtu korpusne lingvistike i osnovni je alat korpusnoga jezikoslovca • osnovni je cilj alata za konkordancije omogućiti uvid u mnoštvo primjera određene pojavnice ili fraze u okolinama u kojima se pojavljuju
Konkordancije (2) • KWIC (Key-Word In Context) • KWAL (Key-Word And Line)
Leksikon (lexicon) - 1 • sinonim za rječničku bazu koja sadrži informacije o leksičkim kategorijama riječi • sadrži sve potencijalne interpretacije leksičkih unosaka(lexical entries), npr. "pig" N V A • ("pig" is familiar as a N, but also occurs as a verb ("Jane pigged herself on pizza") and an adjective, in the phrase "pig iron", for example.)
Leksikon (lexicon): primjer - 2 apart,apart.A apart,apart.ADV apartment,apartment.N:s apartments,apartment.N:p • word-form lemma POS MSD • MSD - morfosinataktički opis (morphosyntactic description)
Leksikon (lexicon) • U leksikonu se često nalazi širi raspon informacija o pojedinoj riječi, npr. • koju ulogu riječi ima – podatak o tranzitivnosti glagola (transitive, intransitive, bitransitive, etc.) • semantičke osobine – može li se riječ odnositi na ljudsko: analysis,analysis.N:s analysts,analyst.N+Hum:p
Označavanje (tagging) • Označavanje (tagging, mark-up) je pridodavanje eksplicitnih informacija tekstu za računalnu obradu tamo gdje su one implicitno prisutne osobi koja čita tekst • Oznake (tags) – umeću se u tekst • U nekom kontekstu: obilježavanje (annotation) • Pri obilježavanju korpusa oznake se ubacuju iz određenoga skupa oznaka • Skupoznaka (tagset, tag list) je popis svih mogućih oznaka kojima se može obilježavati tekst: http://www.natcorp.ox.ac.uk/docs/bnc2guide.htm
Označavanje vrsta riječi(Part-of-speech (POS) tagging) • Part-of-speech (POS) označavanje je postupak pridruživanja gramatičkih kategorija svakoj pojavnici u tekstu (ponekad se naziva gramatičko označavanje ili morfosintaktičko obilježavanje). • spada u osnovne vrsta lingvističkog označavanja i služi kao osnova za više razine analize teksta kao što je sintaktički parsing.
POS tagging (2) • Točnost automatskog označavanja danas: do 96-97 % • POS oznake prvi su korak u razrješavanju istopisnica (homografa), tj. pojavnica koje imaju isti lik a različite gramatičke kategorije i/ili značenje
POS označivač (tagger) • Alat s pomoću kojega se obavlja automatsko POS označavanje naziva se POS označivač (tagger). • Osnovna podjela prema načinu rada na: • One koji se zasnivaju na pravilima (Rule based) • Vjerojatnosne (Probabilistic)
Označivač • Alembic POS Tagger online: http://complingone.georgetown.edu/%7Elinguist/postagger.html • Qtag (C:\Qtag) • Qtag TAGSET na: D:\BBpredavanja\Split\Qtag_tagset\QTAG 3_0.htm
Vrste korpusa • Opći korpus • Specijalizirani korpus – ponekad postoji potreba za sastavljanjem vlastitog korpusa, npr. korpus tekstova iz određene domene