250 likes | 385 Views
Hrvatski paralelni korpusi ( Kroatische Parallelkorpora ). Seminar: „ Slawische Korpuslinguistik “ Ernedina Muminović (erni.muminovic@gmx.at) & Silvije Beus (beus_s@yahoo.de) o . Univ.-Prof. Mag. Dr. Branko Tošović, SS 2006 4. April 2006. Pojmovi ( Begriffe ). Korpus
E N D
Hrvatski paralelni korpusi(Kroatische Parallelkorpora) Seminar: „Slawische Korpuslinguistik“ Ernedina Muminović (erni.muminovic@gmx.at) & Silvije Beus(beus_s@yahoo.de) o.Univ.-Prof. Mag. Dr. Branko Tošović, SS 2006 4. April 2006
Pojmovi(Begriffe) • Korpus • Paralelni korpus (Parallelkorpus) • Računalni korpus (Elektronisches Korpus) • Sravnjivanje (Alignement) • Pojavnice (Wörter) Slawische Korpuslinguistik
Hrvatski korpusi(Kroatische Korpora) http://www.hnk.ffzg.hr/http://riznica.ihjj.hr/ Slawische Korpuslinguistik
Hrvatski nacionalni korpus(Kroatisches Nationalkorpus) Slawische Korpuslinguistik
Korpus suvremenoga hrv. jezika(Korpus kro. Gegenwartssprache) • 30mil. • 30 milijunski korpus suvremenog hrvatskog jezika (30 Mio. Wörter) • Tekstovi od 1990. do danas (Texte ab 1990 bis heute) • Različita područja i žanrovi (Verschiedene Gebiete und Genres) • Reprezentativan za hrv. suvremeni standardni jezik (Representativ für die kro. Standardsprache) Slawische Korpuslinguistik
Zbirka hrvatskih tekstova(Kroatische Textsammlung) • HETA • hrvatski elektronski tekstovni arhiv: (Kroatisches elektronisches Textarchiv) • Tekstovi stariji od 1990. godine (Texte vor 1990) • I neki tekstovi nakon 1990. godine (wenige Texte ab 1990) Slawische Korpuslinguistik
Hrvatska jezična mrežna riznica(Kroatische Netzquelle) • Početak (Beginn): 2005. godine • Tekstovi iz druge polovice XIX. st. (Texte aus der 2. Hälfte des 19. Jh.) • Djela hrv. književnosti (Werke kro. Literatur) • Publicistička djela (Werke aus der Publizistik) • Znanstvena djela (Wissenschaftliche Werke) • Literarna djela prevedena na hrvatski (Literarische Werke übersetzt auf Kroatisch) • Tisak (Presse) • Djela iz predstandardnoga razdoblja (Werke vor der Standardisierung der kroatischen Sprache) Slawische Korpuslinguistik
Ciljevi (Ziele) • Dostupnost materijala preko Interneta (Internetzugang) • Informacije o hrvatskoj jezičnoj normi (Informationen über die kro. Sprachnorm) • Izrada Velikoga rječnika hrvatskoga jezika (Verfassen des Großen Wörterbuches der kro. Sprache) • Opća jezikoslovna istraživanja (Allgemeine Sprachuntersuchungen) Slawische Korpuslinguistik
Hrv.-slo. paralelni korpus(Kroatisch-slowenisches Parallelkorpus) • Početak (Beginn): 1999. godine • Sporazum o dvostranoj znanstvenoj suradnji Hrvatske i Slovenije (Abkommen) • Trajanje (Dauer): 2 godine • Učesnici (Teilnehmer): Filozofski fakulteti u Zagrebu i Ljubljani Slawische Korpuslinguistik
Ciljevi(Ziele) • Stvaranje usporednog korpusa (Schaffen des Parallelkorpus) • Skupljanje hrvatskih i slovenskih originala i odgovarajućih prijevoda (Sammeln) • Sravnjivanje korpusa na razini rečeničnih prijevodnih ekvivalenata (Korpusalignement) • Slobodan pristup korpusu putem Interneta (Internetzugang) Slawische Korpuslinguistik
Primjena rezulatata(Verwendung der Resultate) • Pomoć pri učenju jezika (Hilfe bei Fremdsprachenerlernung) • Stvaranje kontrastivne gramatike i udžbenika (Kontrastive Grammatik und Lehrbücher) • Sastavljane dvojezičnih rječnika (zweisprachige Wörterbücher) Slawische Korpuslinguistik
Primjena rezulatata(Verwendung der Resultate) • Leksikografska i leksikološka istraživanje (lexikograpische und lexikographische Untersuchungen) • Mogućnost slobodnog korištenja npr. pri prevođenju, studiranju… (Korpus als Hilfestellung bei Translationen, beim Studieren...) Slawische Korpuslinguistik
Građa(Aufbau) • 500.000 pojavnica po jeziku (Wörter) • Vremenski raspon tekstova: 1990.-2001. (Texte von 1990-2001) Slawische Korpuslinguistik
Podjela korpusa(Korpusgliederung) Slawische Korpuslinguistik
Obrada korpusa(Korpusbearbeitung) • Pretvaranje teksta u XML format (XML-Formatierung) • Program 2XML • Segmentacija (Satzsegmentierung) • Obilježavanje rečenica ID oznakama (Satzkennzeichnung) • Usklađivanje odlomaka (Absatzangleichung) • Sravnjivanje teksta pomoću programa Vanilla Aligner (Alignement) Slawische Korpuslinguistik
Hrv.-engl. paralelni korpus(Kroatisch-englisches Parallelkorpus) • Početak (Beginn): • 1. hrv.-engl. korpus (kro.-engl. Korpus) • 1968.-1971. “Srpskohrvatsko-engleski kontrastivni projekt”(serbokro.-engl. kontrastives Projekt) • Skupljanje i obrada materijala (Sammeln und Verarbeiten) • Izdavanje velikog broja naučnih publikacija (Publikationen) Slawische Korpuslinguistik
Hrv.-engl. paralelni korpus(Kroatisch-englisches Parallelkorpus) • 2. hrv.-engl. korpus (kro.-engl. Korpus) • Prijevod Platonove “Države” (Plato‘s “Republik”) • Prilično malog opsega (relativ klein) • Nije mjerodavan (nicht aussagekräftig) • 3. hrv.-engl. korpus (kro.-engl. Korpus) • Cilj mu je testirati(Ziel): • Organizaciju paralelnih korpusa (Organisation) • Sravnjivanje (Alignement) Slawische Korpuslinguistik
Hrv.-engl. paralelni korpus(Kroatisch-englisches Parallelkorpus) • Početak (Beginn): 1998.-2001. • Skupljanje materijala na FF u Zagrebu (Materialsammlung) Slawische Korpuslinguistik
Izvor(Quelle) • Tjednik “Croatia Weekly” (Wochenzeitung) • Članci s hrvatskog prevođeni na engleski jezik (Übersetzungen Kroatisch-Englisch) • Vremenski raspon članaka 1998.-2000. (Artikel von 1998-2000) • Područja proučavanja(Forschungsgebiete): • Politika, gospodarstvo i financije, turizam, ekologija, umjetnost, sport, zbivanja Slawische Korpuslinguistik
Korpusni parametri(Korpusparameter) Slawische Korpuslinguistik
Obrada teksta(Textverarbeitung) • Pretvaranje teksta u XML format (XML-Formatierung) • Usklađivanje odlomaka (Absatzangleichung) • Obilježavanje rečenica ID oznakama (Identifikation) • Sravnjivanje teksta pomoću programa Vanilla Aligner(Alignement) Slawische Korpuslinguistik
Sravnjeni hrv.-engl. Korpus(Aligntes Kro.-Engl. Korpus) Slawische Korpuslinguistik
Literatura(Literaturverzeichnis) Tadić, M. (1996): Računalna obradba hrvatskoga i nacionalni korpus, in:Suvremena lingvistika41-42; 603-612. Tadić, M. (1998): Raspon, opseg i sastav korpusa suvremenoga hrvatskoga jezika, in:Filologija 30-31; 337-347. Tadić, M. (2000): Building the Croatian-English Parallel Corpus, in: Zbornik, 1; 523-530. Tadić, M., Požgaj-Hadži, V. (2000): Hrvatsko-slovenski paralelni korpus, Jezikovne tehnologije / Language Technologies, Ljubljana, 70-74. Tadić, M. (2001): Procedures in Building the Croatian-English Parallel Corpus, in:International Journal of Corpus Linguistics, 107-123. Slawische Korpuslinguistik
Literatura(Literaturverzeichnis) Tadić, M., Šojat, K. (2002): Identifikacija prijevodnih ekvivalenata u hrvatsko-engleskom paralelnom korpusu, in:Filologija 38-39; 247-262. Tadić, M. et al. (2004): Making Monolingual Corpora Comparable: a Case Study of Bulgarian and Croatian, in:Zbornik, 4; 1187-1190. Internet: http://www.hnk.ffzg.hr/ http://www.hnk.ffzg.hr/mt/ http://riznica.ihjj.hr/ http://www-gewi.kfunigraz.ac.at/gralis/ Slawische Korpuslinguistik