1 / 43

Uvod

Uvod. Uvod u računalnu metodologiju za jezično istraživanje dr. sc. Božo Bekavac. Osnovne obavijesti. dr. sc. Bo ž o Bekavac Uvod u računalnu metodologiju za jezično istraživanje Računalna učionica, subotom u 11 h Konzultacije: bbekavac@ffzg.hr. Literatura - (obavezna).

eytan
Download Presentation

Uvod

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Uvod Uvod u računalnu metodologiju za jezično istraživanje dr. sc. Božo Bekavac

  2. Osnovne obavijesti • dr. sc. Božo Bekavac • Uvod u računalnu metodologiju za jezično istraživanje • Računalna učionica, subotom u 11 h • Konzultacije: bbekavac@ffzg.hr

  3. Literatura -(obavezna) 1. McEnery, Tony & Wilson, Andrew (1996), Corpus Linguistics, Edinburgh University Press, na www: http://bowland-files.lancs.ac.uk/monkey/ihe/linguistics/contents.htm 2. Jurafsky Daniel, James H. Martin (2000), An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Prentice Hall, drugo izdanje, poglavlja 2., 12. i 13. na www: http://www.cs.colorado.edu/~martin/slp2.html

  4. Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition • http://www.hnk.ffzg.hr/Jurafsky/2.pdf • http://www.hnk.ffzg.hr/Jurafsky/11.pdf • http://www.hnk.ffzg.hr/Jurafsky/12.pdf (samo Ambiguity 12.2 i 12.5.1. Finite-State Rule-Based Chunking)

  5. Literatura -(dodatna) 3. Emmanuel Roche, Yves Schabes (ur.) (1997), Finite State Devices for Natural Language Processing, MIT Press, Cambridge, Massachusetts 4. Mitkov, Ruslan (ur.) (2003), The Oxford Handbook of Computational Linguistics, Oxford University Press 5. Silberztein, Max (2000), INTEX Manual. ASSTRIL, Pariz, na www: http://msh.univ-fcomte.fr/intex/downloads/Manual.pdf

  6. Literatura -(preporuka) • nema na jednom mjestu > dolaziti na predavanja • Koristiti WWW! • Ispit: pismeni

  7. Gdje se nalazi jezik? • Što je jezik? Gdje se nalazi, u umu govornika ili negdje drugdje? • Chomsky: “jezik je sustav predstavljen u umu/mozgu određenog pojedinca” • Chomsky mijenja smjer lingvistike od empirizma prema racionalizmu • Nastoji odbaciti svaku potrebu za korpusom

  8. Chomsky: sposobnost/uporaba • Sposobnost (competence) – prešutno, interno znanje o jeziku; nesvjesno znanje svih gramatičkih struktura idealiziranog govornika • Uporaba (performance) – vanjski dokaz jezične sposobnosti; stvarna proizvodnja i razumijevanje jezika u konkretnim iskazima • Chomsky: Performance, however, is a poor mirror of competence.

  9. Chomsky - korpus • Konkretni jezični ostvaraji manje su važni jer se na njih može utjecati faktorima koji su izvan jezične kompetencije: • "I live in New York." • "I live in Dayton Ohio.“ • Imaju li veze frekvencija pojavljivanja u korpusu i gramatičnost?

  10. Što je korpus ? • Korpus - zbir tekstova prirodnoga jezika sastavljen po stanovitu kriteriju • Corpus (plural corpora) • Tekstovi koji čine korpus zasnovani su na konkretnim jezičnim ostvarajima • Korpusna lingvistika - istraživanje jezika na osnovi korpusa tekstova, pri čemu se danas obično podrazumijeva – strojno (podržanih) izrađenih korpusa.

  11. Evidence/introspection • Fillmore: I don't think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that I want to explore… [but] every corpus I have had the chance to examine, however small, has taught me facts I couldn't imagine finding out any other way. My conclusion is that the two types of linguists need one another

  12. Računalna lingvistika • Računalna lingvistika, RL (Computational Linguistics, CL) je dio znanosti o jeziku koja koristi računala kao pomoćna sredstva u istraživanju jezika ili eksperimentiranju nad njim • RL: interdisciplinarnog karaktera, s uporištima u lingvistici i informatici

  13. Brown korpus • Prvi je računalno sastavljen i podržan korpus Brown korpus • dovršen je 1963-4. godine na temelju tekstova na američkom engleskom jeziku • Kučera i Francis sa Odsjeka za lingvistiku Sveučilišta Brown • sastoji se od oko milijun pojavnica (1M) • Pojavnica??? - METAJEZIK

  14. Pojavnica - različnica • Riječ? Koliko “riječi” ima rečenica: I see a cat and a dog. • Pojavnica (token) - sve ono što se nalazi između dva znaka koja služe kao graničnici (svako individualno pojavljivanje). • Različnica (type) - jedinstveni oblik pojavnice iz korpusa. • Pojavnica (tokens) ima 7. • Različnica (types) ima 6.

  15. British National Corpus (BNC) • Prvi nacionalni korpus koji je ponio takav naziv i postao referentan za neki jezik • 100 M pojavnica • Pisani (90 %) i govoreni (10 %) jezik (written and spoken language) • Gramatički obilježen (part of speech, POS) • http://www.natcorp.ox.ac.uk/

  16. British National Corpus (BNC)

  17. Unos: can

  18. Istopisnost (homography) • VANJSKA ISTOPISNOST – slučaj pripadanja istog oblika riječi dvjema ili više lema. Npr. can = limenka i can = moći, hr. šumemože pripadati četirima lemama, dvije imenice (leme šum i šuma), a dvije glagoli (leme šumiti i šumjeti) • UNUTARNJA ISTOPISNOST - slučaj postojanja više morfosintaktičkih interpretacija koje pripadaju istoj lemi: povijesti,povijest.N:cfpa:cfpg:cfpn:cfpv:cfsd:cfsg:cfsi:cfsl:cfsv

  19. Unos: "can"=NN1 (Singular common noun)

  20. Unos: "can"=VM0 (Modal auxiliary verb)

  21. CQL • CQL (pronounced “sequel”) is short for the corpus query language • Primjeri upita: • cat _ dog • cat*dog/10 • {s[iau]ng} • <head type=main>man

  22. Ostali korpusi engleskog jezika • Oxford Text Archive (kolekcije tekstova) http://www.ota.ox.ac.uk/ • American National Corpushttp://americannationalcorpus.org/ • The Bank of English • http://www.mycobuild.com/about-collins-corpus.aspx • Mnogi drugi…

  23. Ostali korpusi engleskog jezika • Corpus of Contemporary American English (COCA) • largest freely-available corpus of English, and the only large and balanced corpus of American English • more than 450 million words of text and is equally divided among spoken, fiction, popular magazines, newspapers, and academic texts • 1990-2012 y • http://corpus.byu.edu/coca/

  24. Corpus of Contemporary American English (COCA)

  25. Corpus of Contemporary American English (COCA) • eyes – eyes • blue eyes – blueeyes • [nn*] - imenica • [np*] – vlastita imenica • [j*] eyes – preidjev eyes • [sing] – lema sing • [=strong] – sinonimi, !!! • can.[n*] – can gdje can je imenica

  26. Hrvatski nacionalni korpus (HNK) • 101,3 M pojavnica suvremenog HJ • POS obilježen • Sastavlja se u Zavodu za lingvistiku FFZG • Pristup s pomoću programa za pretraživanje Bonito • http://www.hnk.ffzg.hr/default_en.htm

  27. HNK - Homepage

  28. HNK – rezultat pretrage: [msd="A.*"] [lemma="čovjek"]

  29. Hrvatska jezična mrežna riznica • http://riznica.ihjj.hr/en/

  30. Hrvatska jezična mrežna riznica

  31. Vrste korpusa • Opći korpus • Specijalizirani korpus – ponekad postoji potreba za sastavljanjem vlastitog korpusa, npr. korpus tekstova iz određene domene

  32. Veličina korpusa? • John Sinclair: “The bigger the better.” • Monitor korpus(monitor corpus)- nije ograničen standardnim korpusnim parametrima (veličinom i vremenskim rasponom tekstova u korpusu) • Koji je danas najveći izvor digitaliziranih tekstova? • WWW!

  33. Web as corpus • Google as corpus: www.google.com • Velika (najveća ?) kolekcija tekstova danas • Nedostatak: kako kontrolirati izvore koje se pretražuje? • Do određene mjere ipak je moguće!

  34. Google as corpus (1)

  35. Google as corpus (2)

  36. Web as corpus – WebCorp (1) http://www.webcorp.org.uk/

  37. Web as corpus – WebCorp (2) http://www.webcorp.org.uk/

  38. Konkordancije (1) • današnji korpusi prevelikog su opsega da bi se mogli pretraživati bez pomoći računala • alat za konkordancije nalazi u samom središtu korpusne lingvistike i osnovni je alat korpusnoga jezikoslovca • osnovni je cilj alata za konkordancije omogućiti uvid u mnoštvo primjera određene pojavnice ili fraze u okolinama u kojima se pojavljuju

  39. Konkordancije (2) • KWIC (Key-Word In Context) • KWAL (Key-Word And Line)

  40. Označavanje (tagging) • Označavanje (tagging, mark-up) je pridodavanje eksplicitnih informacija tekstu za računalnu obradu tamo gdje su one implicitno prisutne osobi koja čita tekst • Oznake (tags) – umeću se u tekst • U nekom kontekstu: obilježavanje (annotation) • Pri obilježavanju korpusa oznake se ubacuju iz određenoga skupa oznaka • Skupoznaka (tagset, tag list) je popis svih mogućih oznaka kojima se može obilježavati tekst: http://www.natcorp.ox.ac.uk/docs/bnc2guide.htm

  41. Označavanje vrsta riječi(Part-of-speech (POS) tagging) • Part-of-speech (POS) označavanje je postupak pridruživanja gramatičkih kategorija svakoj pojavnici u tekstu (ponekad se naziva gramatičko označavanje ili morfosintaktičko obilježavanje). • spada u osnovne vrsta lingvističkog označavanja i služi kao osnova za više razine analize teksta kao što je sintaktički parsing.

  42. POS tagging (2) • Točnost automatskog označavanja danas: do 96-97 % • POS oznake prvi su korak u razrješavanju istopisnica (homografa), tj. pojavnica koje imaju isti lik a različite gramatičke kategorije i/ili značenje

  43. POS označivač (tagger) • Alat s pomoću kojega se obavlja automatsko POS označavanje naziva se POS označivač (tagger). • Osnovna podjela prema načinu rada na: • One koji se zasnivaju na pravilima (Rule based) • Vjerojatnosne (Probabilistic)

More Related