140 likes | 298 Views
Deutsche einsprachige Korpora Njema čki jednojezični korpusi. Christine Karabai ć Silke Gierer Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošovi ć. IDS – Korpora IDS - Korpus. Umfangreichste Sammlung deutscher Korpora Najopse čnija zbirka njemačkog korpusa
E N D
Deutsche einsprachige KorporaNjemački jednojezični korpusi Christine Karabaić Silke Gierer Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović
IDS – KorporaIDS - Korpus • Umfangreichste Sammlung deutscher Korpora • Najopsečnija zbirka njemačkog korpusa • Gesamtumfang ca. 73,5 Millionen laufende Wortformen • Cijelokupni opseg otprilike 73,5 mil. Tekućih oblika riječi • Zugriff über System COSMAS • Pristup preko sistema COSMAS http://www.ids-mannheim.de/kl/projekte/korpora/ SE: Slawische Korpuslinguistik, SS 2006
Korpora der geschriebenen deutschen Sprache des IDSKorpus Njemačkog pisanog jezika IDSa • Mannheimer Korpora Korpus Mannheimer • Bonner Zeitungskorpus Bonski novinarski korpus • Handbuchkorpora Priručni korpus • LIMAS – Korpus LIMAS - korpus • Etliche kleinere Korpora Nekoliko manjih korpusa SE: Slawische Korpuslinguistik, SS 2006
Mannheimer KorporaKorpus Mannheimer • Umfang: 293 Texte; ca. 2,2 Mill. laufende Wortformen • Opseg: 293 teksta; otprilike 2,2 mil. Tekućih oblika riječi • Zeitraum: 1950 – 1967 • Razdoblje: 1950 - 1967 Mannheimer Korpus I SE: Slawische Korpuslinguistik, SS 2006
Mannheimer KorporaKorpus Mannheimer • Inhalt Sadržaj - Belletristik Beletristika - Memoiren Zapisi - Wissenschaftliche Literatur Znanstvena književnost - Trivialliteratur Trivijalna literatura - Artikel aus Zeitungen Članci novina i časopisa und Zeitschriften Mannheimer Korpus I SE: Slawische Korpuslinguistik, SS 2006
Mannheimer KorporaKorpus Mannheimer • Umfang: 52 Texte; ca. 0,3 Mill. laufende Wortformen • Opseg: 52 teksta; otprilike 0,3 mil. tekućih oblika riječi • Zeitraum: 1949, 1952, 1960 – 1974 • Razdoblje: 1949, 1952, 1960 - 1974 Mannheimer Korpus II SE: Slawische Korpuslinguistik, SS 2006
Mannheimer KorporaKorpus Mannheimer • Inhalt Sadržaj - Beschlüsse Odluke - Lehrbücher Udžbenici - Nachrichten Vijesti - wissenschaftliche Literatur Znanstvena književnost Mannheimer Korpus II SE: Slawische Korpuslinguistik, SS 2006
Bonner ZeitungskorpusBonski novinarski korpus • Umfang: 10 840 Texte; ca. 3,1 Mill. laufende Wortformen • Opseg: 10840 tekstova; otprilike 3,1 mil. tekućih oblika riječi • Inhalt: - Artikel aus den Tageszeitungen: Neues Deutschland, Die Welt • Sadržaj: Članci dnevnih novina: “Neues Deutschland”, “Die Welt” SE: Slawische Korpuslinguistik, SS 2006
HandbuchkorporaPriručni korpus • Umfang: 17 330 Texte, ca. 11 Mill. laufende Wortformen • Opseg: 17330 tekstova, otprilike 11. mil. tekućih oblika riječi • Zeitraum: 1985 – 1988 • Razdoblje: 1985 - 1988 • Inhalt: Zeitungs- und Zeitschriftenartikel aus Stern, Zeit,… • Sadržaj: novinski i časopisni članci iz “Stern”, “Zeit”, itd. SE: Slawische Korpuslinguistik, SS 2006
LIMAS-KorpusLIMAS - korpus • Umfang: 500 Textstücke mit je 2 000 Textwörtern; 1 Mill. laufende Wortformen • Opseg: 500 djelove teksta sa po 2000 riječi • Zeitraum: 1970 und 1971 • Razdoblje: 1970 i 1971 • Inhalt: verschiedene Publikationen, 33 Themenbereiche • Sadržaj: različite publikacije, 33 različitih tematskih područja SE: Slawische Korpuslinguistik, SS 2006
Kleinere KorporaManji korpusi • Berliner Morgenpost, COMPUTER ZEITUNG, Die Presse, Frankfurter Rundschau, Goethe-Korpus, Grammatik-Korpus, GRIMM-Korpus, Kleine Zeitung, Marx-Engels-Korpora, Wendekorpus,… • Berliner Morgenpost, COMPUTER ZEITUNG, Die Presse, Frankfurter Rundschau, Goethea korpus, Gramatički - korpus, GRIMM – korpus, Kleine Zeitung, Marx – Engels- korpus, Wendekorpus, … SE: Slawische Korpuslinguistik, SS 2006
VerfügbarkeitRaspoloživost • Keine freie Abgabe der Korpora • Nemoguće slobodno korištenje korpusa • Für wissenschaftliche Nutzung gegen Bezahlung zugänglich • Za znanstvene svrhe pristupačan uz plačenje - Mannheimer Korpus 1 (1856,- EUR) - Mannheimer Korpus 2 (169,- EUR) - Bonner Zeitungskorpus (2250,- EUR) SE: Slawische Korpuslinguistik, SS 2006
TIGER Corpus • Umfang: 50 000 Sätze • Opseg: 50 000 rečenica • Quelle: Frankfurter Rundschau • Izvor: Frankfurter Rundschau • Nutzung: für wissenschaftliche Zwecke frei • Korištenje: za znanstvene svrhe http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/ SE: Slawische Korpuslinguistik, SS 2006
Kiel Corpus • Sprachdatensammlung • Jezična zbirka • Deutsche Lese- und Spontansprache • Njemački čitalački i spontani jezik • Umfang der CD-ROMs: ca. 8 Stunden • Opseg CD – ROM otprilike 8 sati • Kosten pro CD: 50 – 75 Euro • Cijena po CD –u: 50 – 75 Evro http://www.ipds.uni-kiel.de/forschung/kielcorpus.de.html SE: Slawische Korpuslinguistik, SS 2006