170 likes | 311 Views
Български национален корпу с Bulgarisches nationales Korpus. Petya Dimitrova und Iwa Hristova. Електронн ен архив ИБЕ 50 милиона думи 1998 г. започва създаването на електронен корпус на българския език художествена литература Публицистика и научна научно-популярна, религия
E N D
Български национален корпус Bulgarisches nationales Korpus Petya Dimitrova und Iwa Hristova
Електроннен архив ИБЕ 50 милиона думи 1998 г. започва създаването на електронен корпус на българския език художествена литература Публицистикаинаучна научно-популярна, религия моралиетика Elektronisches Archiv IBE 50 Mio Wörter 1998 beginnt die Erstellung des elektronischen bulgarischen Korpus‘ Texte aus der Literatur Publizistische und wissenschaftliche Texte Religiöse Texte Moral und Ethik
17 милиона словоупотреби: архив от журналистически текстове (1996-2002) малък триезичен корпус с преводни текстове – английско-български, българско-английски, френско-български, българско-френски от регистъра на художествената проза. 17 Millionen Wortwendungen: Archiv für journalistische Texte (1996-2002) Kleines dreisprachiges Korpus mit übersetzten Texten in engl-bulg., bulg-engl, franz.-bulg, bulg-franz. Sprache aus einem Prosaregister
учебен английско-български речник 8-13 години 5000 статии над 600 бележки за употребата на английските думи и превода им на български език, както и за типични грешки. Schulisches englisch-bulgarisches Wörterbuch für 8-13 Jahre 5000 Artikel Über 600 Anmerkungen zum Gebrauch der englischen Wörter und deren Übersetzung ins Bulgarische, sowie Bemerkungen zu typischen Fehlern
най-големият корпусен лексикографски проект 100 000 статии актуализирани дефиниции нов илюстративен материал Das größte lexikographische Korpusprojekt 100 000 Artikel Aktuelle Definitionen Neue illustrative Materialien Нов български тълковен речникNeues bulgarisches Bedeutungswörterbuch
ЕЛЕКТРОНЕН АРХИВ НА БЪЛГАРСКИТЕ ДИАЛЕКТИ Цел на проекта: за проучването на диалектното богатство на българския език със средствата на компютърната лингвистика Работата по създаването на подобни архиви в България е започнала отскоро. ELEKTRONISCHES ARCHIV für BULGARISCHE DIALEKTE Ziel des Projektes: Die Erforschung des dialektalen Reichtums in der bulgarischen Sprache mit computerlinguistischen Verfahren Die Entwicklung dieser Archive in Bulgarien hat vor kurzem angefangen.
народно творчество два типа програмни продукти: 1) SORT BUILD LEM/POS CONC TREE Volksdichtung Zwei Arten von Programmen:
2) CLaRK-XML XML технология Unicode Регулярни каскадни граматики Ограничения (Constraints) върху документи CLaRK-XML XML Technologie Unicode Reguläre Grammatiken Dokument= beschränkungen
Лингвистични ресурси Morphological analyzer – Slovnik Neural Network MorphoSyntactic disambiguator: BTB-POS Corpus I (324 011 bytes) ISO 8879:1986 BTB-POS Corpus I (306 966 bytes) MS Windows BTB-POS Corpus I (246 964 bytes) Unicode Linguistische Ressourcen Morphological analyzer – Slovnik Neural Network MorphoSyntactic disambiguator: BTB-POS Corpus I (324 011 bytes) ISO 8879:1986 BTB-POS Corpus I (306 966 bytes) MS Windows BTB-POS Corpus I (246 964 bytes) Unicode
Frequency list. A frequency list of the first 100 000 Cyrillic tokens in the archive are available here: BTB-FreqList in UTF-16. Free for research purposes.
Stopword list. A stopword list based on the archive are available here: BTB StopWordList in UTF-16. Free for research purposes.
Архив от текстове 72 000 000 думи Наука и искуство София Новинар Стандарт Светлоструй Archiv von journalistischen Texten 72 000 000 Wörter Nauka i Iskustvo Verlag Sofia Novinar Standart Svetlostruj
Корпус от разговорен български език Korpus der bulgarischen Umgangssprache
Красимира Алексова Факултет по славянски филологии http://www.hf.uio.no/ilos/studier/st udenttjenester/Nettressurser/bulg/ mat/Aleksova/ като материал за дисертация Езикови процеси в смейството публикувана в 2000 г. като Езикът и семейството. Krasimira Aleksova Fakultät der slawischen Philologie Dissertationsmaterial Sprachliche Prozesse in der Familie 2000 veröffentlicht als „ Ezikat i semejstvoto“.
КОРПУС ОТ ТРАНСКРИБИРАНА УСТНА РЕЧ Korpus der transkribierten Mundsprache
Автор: ст. Преподавателд-р Павлина Кънчева Езиков терен: гр. София Информатори: преселници в София от териториите на пограничните говори (белоградчишко-трънски диалект) Белоградчишко, Трънско, Брезнишко, Годечко, Царибродско, Босилеградско Включено наблюдение: магнетофонни записи http://www.slav.uni-sofia.bg/bgspeech/sites/bg/publ/CorpusInternet2.htm Autor: Dr. Pavlina Kančeva Sprachgebiet: Sofija Informanten: Umsiedler nach Sofija aus den Gebieten an der Grenze- Ein Belogradčiško - transki Dialekt Belogradčiško, Tranksko, Brezniško, Godečko, Caribrodsko, Bosilegradsko Aufnahmen mit einem Tonbandgerät
http://www.larflast.bas.bg/balric/index/index.htm http://www.bgspeech.org/ http://www.ibl.bas.bg/index_bg.htm http://www.slav.uni-sofia.bg/bgspeech/sites/indexbg.htm http://www.bultreebank.org/veda/indexeng.hml http://www.hf.uio.no/ilos/studier/studenttjenester/Nettressurser/bulg/mat/Aleksova/index.htm Danke für Ihre Aufmerksamkeit!