150 likes | 310 Views
Vzporedni slovensko-angleški korpusi IJS-ELAN, IJS-SVEZ in TRANS. Korpusi in baze podatkov 2007/2008. Kaj je vzporedni korpus?. dvo- ali večjezični vsebuje besedilo v izvirniku in prevodu vzporedni primerljivi korpus stavčna poravnava. Stavčna poravnava. izvirnik. prevod.
E N D
Vzporedni slovensko-angleški korpusi IJS-ELAN, IJS-SVEZ in TRANS Korpusi in baze podatkov 2007/2008
Kaj je vzporedni korpus? • dvo- ali večjezični • vsebuje besedilo v izvirniku in prevodu • vzporedni primerljivi korpus • stavčna poravnava
Stavčna poravnava izvirnik prevod
Stavčna poravnava • segmentacija izvirnik prevod
Stavčna poravnava • segmentacija • poravnava izvirnik prevod
Zakaj uporabljamo vzporedne korpuse? • prevajanje • izdelava slovarjev • razvoj jezikovnih tehnologij: • strojno prevajanje • avtomatsko iskanje terminologije • spletne tehnologije • ...
Slovensko-angleški vzporedni korpus IJS-ELAN • zgrajen na Institutu Jožefa Stefana, projekt ELAN • 15 vzporednih besedil, 1 milijon besed • besedila s področij: • zakonodaja EU (kmetijstvo, ekologija, strategija za vključevanje itd.) • gospodarstvo • računalništvo • farmakologija • leposlovje (Orwell: 1984)
Slovensko-angleški vzporedni korpus IJS-ELAN • prosto dostopen na internetu:http://nl.ijs.si/elan/ • iskanje po korpusu:http://nl2.ijs.si/corpus/index-bi.html
Korpus IJS-SVEZ • se v veliki meri prekriva z Evrokorpusom, • nastal na podlagi pomnilnikov prevodov, • vsebuje 10 M besed, • lematiziran in morfološko označen, • prav tako dostopen na http://nl2.ijs.si/index-bi.html
SLovensko-angleški vzporedni korpus TRANS • ustvarjen na Oddelku za prevajalstvo 2001/2002, 2002/2003, 2003/2004 • vsebuje preko 100 besedil s številnih strokovnih oz. poljudno-strokovnih področij, velikost ca. 2 M • dostopen za iskanje na istem naslovu kot IJS-ELAN • opis korpusa (zastarel): http://www-ai.ijs.si/~spela/trans-index.html
Iskanje po lemah in oblikoskladenjskih oznakah • na voljo le pri korpusu IJS-SVEZ, • poizvedba v oglatih oklepajih • msd = oblikoskladenjska oznaka • lemma = lema • primer: [msd=“A.*”] [lemma=“riba”] • podrobnosti o oznakah tule
Regularni izrazi • Nadomestni znaki: . ?del. = delo, deli, dela, ...del? = del, delo, deli, dela, ... • Množilni operatorji: +, *, {x,y}ko+ = ko, koo, kooo, ...ko* = k, ko, koo, kooo, ...ko{1,4} = ko, koo, kooo, koooo, .....k.* = krava, kolo, kot, k, ..... • Skupine znakov: [fgm]iga = figa, giga, miga
Naloge iz regularnih izrazov Napišite naslednje iskalne pogoje: • besede, ki se začnejo na “miš” • besede, ki vsebujejo “miš” • besede, ki vsebujejo najmanj tri a-je • sedanjiške oblike glagola “delati” • besede, ki vsebujejo najmanj 4 soglasnike • besede, ki vsebujejo dva zaporedna šumnika • kratice iz najmanj treh velikih črk
Naloge iz iskanja po lemah in oblikoskladenjskih oznakah • Poiščite vse pridevnike, ki se pojavljajo ob samostalniku z lemo oseba. Kateri je najpogostejši? • Ali se pojavljajo trije pridevniki zaporedno? Kaj pa štirje? Kateri? • Zdaj poiščite vse kombinacije leme država in lastnega imena (namig: oznaka za lastno ime se prične z Np)