130 likes | 339 Views
Vzporedn i slovensko-anglešk i korpus i SVEZ, IJS-ELAN in TRANS. Špela Vintar Korpusi in baze podatkov 2004/2005. Kaj je vzporedni korpus?. dvo- ali večjezični vsebuje besedilo v izvirniku in prevodu vzporedni primerljivi korpus stavčna poravnava. Kako nastane vzporedni korpus?.
E N D
Vzporedni slovensko-angleški korpusi SVEZ,IJS-ELAN in TRANS Špela Vintar Korpusi in baze podatkov 2004/2005
Kaj je vzporedni korpus? • dvo- ali večjezični • vsebuje besedilo v izvirniku in prevodu • vzporedni primerljivi korpus • stavčna poravnava
Kako nastane vzporedni korpus? • zbiranje besedil • namen korpusa / kriteriji za izbiro besedil • avtorstvo • kakovost prevodov • zagotovitev besedila v elektronski obliki • stavčna poravnava • pretvorba v enoten zapis (npr. SGML, XML) • zagotovitev iskalnika
Stavčna poravnava izvirnik prevod
Stavčna poravnava • segmentacija izvirnik prevod
Stavčna poravnava • segmentacija • poravnava izvirnik prevod
Zakaj uporabljamo vzporedne korpuse? • prevajanje • izdelava slovarjev • razvoj jezikovnih tehnologij: • strojno prevajanje • avtomatsko iskanje terminologije • spletne tehnologije • ...
Slovensko-angleški vzporedni korpus IJS-ELAN • zgrajen na Institutu Jožefa Stefana, projekt ELAN • 15 vzporednih besedil, 1 milijon besed • besedila s področij: • zakonodaja EU (kmetijstvo, ekologija, strategija za vključevanje itd.) • gospodarstvo • računalništvo • farmakologija • leposlovje (Orwell: 1984) • opis korpusa:http://nl.ijs.si/elan/
SLovensko-angleški vzporedni korpus TRANS • ustvarjen na Oddelku za prevajalstvo 2001/2002 • vsebuje 41 besedil s petih strokovnih oz. poljudno-strokovnih področij: • medicina • jedrska tehnika/strojništvo • zakonodaja/pravo • turizem • geologija • dostopen za iskanje na istem naslovu kot IJS-ELAN • Opis korpusa: http://www-ai.ijs.si/~spela/trans-index.html
Slovensko-angleški vzporedni korpus zakonodaje IJS SVEZ ACQUIS • vsebuje 10 milijonov besed stavčno poravnanih in oblikoskladenjsko označenih besedil, ki so nastala na Sektorju za prevajanje SVEZ • možnost iskanja po lemi • korpus sicer bolj znan kot Evrokorpus • opis korpusa: http://nl.ijs.si/svez/
Skupni iskalni vmesnik • nl2.ijs.si/index-bi.html
Napredno iskanje:regularni izrazi • Nadomestni znaki: . ?del. = delo, deli, dela, ...del? = del, delo, deli, dela, ... • Množilni operatorji: +, *, {x,y}ko+ = ko, koo, kooo, ...ko* = k, ko, koo, kooo, ...ko{1,4} = ko, koo, kooo, koooo • Skupine znakov: [fgm]iga = figa, giga, miga
Naloge iz regularnih izrazov Napišite naslednje iskalne pogoje: • besede, ki se začnejo na “miš” • besede, ki vsebujejo “miš” • besede, ki vsebujejo najmanj tri a-je • sedanjiške oblike glagola “delati” • besede, ki vsebujejo najmanj 4 soglasnike • besede, ki vsebujejo dva zaporedna šumnika • kratice iz najmanj treh velikih črk