1 / 60

Галя Ангелова Секция за Лингвистично Моделиране

Езиковите технологии днес и утре. Галя Ангелова Секция за Лингвистично Моделиране Институт по информационни и комуникационни технологии (ИИКТ) - БАН galia@lml.bas.bg , http://www.lml.bas.bg/~galja. Благодаря за поканата!. Причини да я приема: ..... ..... ..... ......

Download Presentation

Галя Ангелова Секция за Лингвистично Моделиране

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Езиковите технологии днес и утре Галя Ангелова Секция за Лингвистично Моделиране Институт по информационни и комуникационни технологии (ИИКТ) - БАН galia@lml.bas.bg, http://www.lml.bas.bg/~galja

  2. Благодаря за поканата! Причини да я приема: • ..... ..... ..... ...... • Принципните постановки на дисциплината не са широко известни – те самногоспецифични • Хората (вкл. потребителите) не знаят защо системите за автоматична обработка на естествения език имат ограниченияипредел на възможностите си • Не се разбира добре необходимостта от инвестиции както в разработката на компютърни модели и софтуер, така и в създаването на лингвистични ресурси

  3. Опит да обозрем полето - 1

  4. Опит да обозрем полето - 2

  5. Кратка история на комп. лингвистика • Ветеран на 50+ години – започва с англ.-руски машинен превод в началото на студената война • Абсорбира и интегрира бързо резултатите на: • Структурната лингвистика (Чомски) • Теорията на автоматите (крайни и стекови автомати) • През 70те години на 20ти век е 'сестра' на приложната лингвистика; през 80те – дял от ИзкИнт • През 90те години на преден план излизат статистическите методи • След появата на Интернет финансирането се фокусира върху приложните подходи • Езикова технология – софтуерно решение /модул/ за обработка на естествен език, ориентирано към крайния потребител. Част от Информ. Технологии

  6. Съдържание на изложението • Методи за авт. обработка на естествения език чрез правила (rule-basedapproach) • Няколко думи за генерацията на ЕЕ • Статистически методи (statistical, data-driven, machine learningmethods) (1) и (2) са разгледани отделно, в 'чист вид ‘ • Развитие на езиковите технологии в България • Текущ проект – извличане на информация от медицински текстове • Заключение

  7. 1. Обработка чрез правила – дял от Изкуствения Интелект (ИИ) • Основава се на множество правила за разпознаване на структурата и функционирането на ЕЕ, както и върху лингвистичниресурси • Като замисъл, моделира (симулира) човешкото поведение при анализ на ЕЕ • Доминиращ метод в компютърната лингвистика през 70-те и 80-те години • Очертава принципните постановки, основните езикови нива за обработка, главните възможности и непреодолимите затруднения

  8. Обработка на ЕЕ чрез правила

  9. Морфологичен анализ – фокус върху думите • Цел: да се разпознаят думите в текста, който за компютъра е низ от символи • Реализация: чрез налагане на всички низове между два интервала върху единиците на предварително зададен речник от думи • Пример в Интернет (там е показан и речникът заедно с 241 морфологични характеристики: http://www.larflast.bas.bg/balric/index/index.htm ) • Демо-текст1:Зад сините планини на изток, из едно море от светлина и слава, се показваше пламналото лице на майското слънце и събуденото зелено поле широко и весело се къпеше в лъчите му и празнуваше.

  10. Роля на речника – “подава” думи и морфологични характеристики • Компютърът не знае, че има същ-прил-... и че ‘къщите’ е словоформа на ‘къща’ • Речникът се изработва ръчно за десетки години (дума по дума) • Анализът е възможен благодарение на лингвистичните категории в речника • За всеки входен текст, компютърът строи вътрешно представяне от думи и техни лингвистични характеристики

  11. Многозначност • Низовете са форми на много думи, напр. Плевен е причастие на глаголя плевя (на английски език многозначността е типична) • Ръчно се задават правила заразрешаване на многозначността (чрез категориите от речника): • Ако след форма Х, която е прилагателно или наречие в речника, следва съществително Y,и Х и Y са съгласувани по род и число, приеми Х за прилагателно • Пример: .... събуденото зелено поле широко и весело се къпеше ....

  12. Анализ на текста в комп. лингвистика • Цел: да се строят вътрешни представяния и структури от граматически категории, в чиито термини да се постигне пълно разпознаване на входните единици и да се реши поставената задача • Теориите на компютърната лингвистика обясняват структурата и функционирането на ЕЕ чрез тези вътрешни представяния и предлагат алгоритми за тяхната обработка • Алгортимите, компютърните модели и софтуерната реализация са много важни ...но без ресурси няма как да работят!

  13. От думите към изреченията

  14. Безконтекстни пораждащи граматики на Чомски • Синтактичното знание се задава фрагментирано на правила, организирани около “безконтекстен скелет”. Примери: S(sentence)  NP (noun phrase) VP (verb phrase) NP DETerminer NOUN NP N-MOD NOUN NP NOUN PP(prepositional phrase)  PREPosition NP (nounph) и т.н. – стотици правила • Синтактичният анализ (разбор/parsing) се състои в изчерпващо търсене на комбинациите от правила, покриващи цялото входно изречение • Алгоритъмът за анализ е сравнително прост и ефективен, извежда “дърво на разбора” с възли- синтактични конституенти

  15. Пример за синтактичен разбор / ЧомскиTime flies like an arrow

  16. Дървета от конституенти /тухлички

  17. Преход към предикатно-аргументни структури за всяко изречение • Строят се композиционно/унифицирано в процеса на композиционния синтактичен анализ • ‘Значещите’ думи се превръщат в предикати. Те се композират в логически форми. Примери: човек  xЧОВЕК(x)(семантика на думата ЧОВЕК).умен човек  xЧОВЕК(x) & УМЕН(x) (с правило за конюнкцията на едноместни предикати) Глаголите n-местни предикати, като n е броят на задължителните за запълване семантични валенции на глагола. обичамОБИЧА(x,y),където x е агентът, а y - обектът.

  18. Композиция на логическа формав процеса на синтактичния анализ

  19. Логическа проверка на коректността:“Зелените идеи яростно спят”/Чомски

  20. Преходът към лог. форми е най-дълбокото ниво на алгоритмично третиране на ЕЕ • По принцип това е достижение: днес има (лабораторни) прототипи, които го правят за повечето английски изречения • Но след това следват: • А) Интерпретация в контекста на знанието за света – и всички проблеми на ИИ • Б) Текста със специфичните си особености – и всички проблеми на лингвистиката, психо-лингвистиката, когнитивните науки и т.н. • Човекът се справя с лекота там, където компютърът не успява(и обратно)

  21. Засега няма (компютърни) модели за по-сложните езикови явления • На 'по-дълбоките' езикови нива се сблъскваме с лингвистични явления, които не са изучени добре и засега няма психолингвистични и когнитивни теории за тяхното обяснение и моделиране • Ще споменем три от тях: • Прагматика • Обхват на значенията • Референция

  22. Прагматика • Изучава значенията и тяхното функциониране в зависимост от контекста • Пример: • Един студент трябва да учи много. • Студентът трябва да учи много. • Студентите трябва да учат много. Могат да реферират към конкретни обекти или към всички възможни (т.нар. обобщено четене) • Засега няма компютърно-приложима семантична теория, която да обяснява как се построява значението на изреченията в рамките на модел на контекста

  23. Обхват на значенията на думите • Значенията на думите се преплитат по сложен начин – има явни и неявни квантори, отрицания, темпорални наречия и т.н. • Трябва да разположим скобите в логическата форма по съответен начин – но нямаме алгоритъм как да го направим. Примери: • Портиерът беше любезен във всеки хотел • Утре той ще нахрани най-гладното куче • Едно гладно куче винаги чака на вратата • Всеки мислеше, че България или Румъния ще влязат в ЕС. • Ние не видяхме всички деца

  24. Референция • ЕЕ функционира като последователност от линейно-наредени клаузи. Говорителят/ писателят фрагментира значението на ‘порции’, организирани около думите, фразите и изреченията. Слушателят възстановява смисъла • Единно ли е значението на даден свързан текст в главата ни? Не знаем, но то се дискретизира при комуникация (в не-концептуални единици) • Свързаният текст дискутира едни и същи обекти, изказани с различни думи. Пример: • МВР залови хакерите, сринали сайта за детските градини на 4/02/2008. Те са И.П. и Б.Б. на 3 години от град С., които не искат да ходят на детска градина.

  25. Автоматична обработка на референцията • Функционира в съседни изречения • Местоименията са явни сигнали за референция и по-лесно се обработват • Днес се обработва анафората с лични местоимения (задължително при машинен превод, примерна точност – 75% за англ.) • Някои референции са много сложни за алгоритмично третиране. Пример: • Иван и Мария намериха свещеник и се ожениха. За медения месец те заминаха на Хавай. • Дискурсът е плетеница от сложни явления

  26. Идея за структурата на текста според компютърната лингвистика • Свързаният текст е организиран като дърво от йерархично-вложени сегменти • Сегментите са групи от локално-свързани изречения, които обсъждат една тема • Сегментите се сигнализират чрез вметнати изрази, смяна на темата, на глаголното време, на контекста ... Няма дефиниция на сегмент, но човекът ги разпознава по някакъв начин • Реферира се винаги към обекти в по-горен сегмент. Тази структура на текста прави референцията възможна

  27. Сегментация на дискурса: дърво от локално-групирани клаузи

  28. При изброените трудности, какво изобщо работи на практика?

  29. Има две групи практически технологии, използващи правила: • За много думи – на малко езикови нива. Тези продукти са на пазара. Правописните коректори работят с думи и правила за линейна съчетаемост. Машинният превод от 90-те години (Систран) се гради върху • морфологичен и солиден синтактичен анализ • частично разрешаване на местоименната референция • За малко думи – на повече езикови нива. (IE)Технологии за напр. 1000-2000 думи с елементи на семантичен анализ (само около познатите думи) – такава система се настройва за отделни клиенти

  30. Машинен превод в пазарен вид • Systran (за десетки езици), БулТра – с много големи речници • Прехвърлят многозначността на другия език (понеже човекът-читател ще я разреши): • John sees the girl with the telescope • Джон гледа девойката с телескопа. • Има типични грешки: • All rooms have ocean and garden view. • Всички стаи имат океан и градински изглед. • Местоименията са типичен проблем: • John takes the cup from the table. It was repaired by Jane. • Джон взема чашката от масата. Това бе поправено от Джейн.

  31. Извличане на информация • Разпознава се дадено събитие – напр. терористични актове в полицейски сводки • Системата следи само “важните думи” и прави семантичен анализ около тях. Фази: • Разпознаване и класификация на имена: до 96% точност за англ. език • Разпознаване на референция: около 50% се разпознават, до 75% се разрешават коректно • Разпознаване на описания на събитието: до 70-80%, хората го правят с точност 93% • Запълване на сценария на събитието: с точност 49-56%, а хората постигат 81%

  32. 2. Няколко думи за генерацията на ЕЕNLU ↓ - броене от 1 към безкрайност;NLG↑ - броене от безкрайност към 1

  33. Генерация на ЕЕ според компютърната лингвистика Съчленяването на фиксирани текстови низове и запълването на шаблони не е генерация Генерация: произвеждане на текст от динамично подаден неезиков вход с определена семантика, чрез обработка на връзки между текстови единици съгласно някаква лингвистична теория за строежа на дискурса и компютърен модел на тази теория. Генерацията на кохерентен дискурс е трудна задача. Засега няма психолингвистични теории за това, как човекът генерира естествен език: как подбира релевантната информация, как планира подредбата на изреченията едно след друго, как изгражда референцията между свързаните изречения и т.н.

  34. Етапи на генерацията Подбор на релевантните факти – според контекста и според слушателя Решение как да се разположат клаузите последователно – план на текста Избор на граматически шаблони и думи за вербализация на избраните факти Решение колко дълга да бъде атомарната клауза и генерация на подходящи местоименни анафори и други референции между клаузите Повърхнинна реализация – напр. членуване, съгласуване по род и число, препинателни знаци и др. под.

  35. Важност на плана на текста Текстът не е механична композиция от изречения, той носи повече информация от сумата на съставящите го клаузи Един дискурс е кохерентен, ако слушателят разбира комуникативната роля на всеки негов фрагмент, тоест, ако слушателят разбира как говорителят възнамерява да свърже отделните клаузи с всяка друга клауза Планът на текста позволявадобавяне на вметнати изрази, които подсилват или блокират заключения у слушателя Засега динамично построяване на планове е невъзможно. Използват се “замразени рецепти”

  36. Схеми от риторични релации Хората също ги ползват. Примери в детска енциклопедия: Братовчед на коня, зебрата е единственият голям бозайник с козина на ивици от бяло и черно. Има буйна грива и добре окосмена опашка. Тя е най-красива от сродниците си. Дължината на тялото й е 2 метра и 20 см (плюс 75 см опашка). Височината при плешките 1,25 до 1,35 см. Тегло 225 до 420 кг. Продължителността на живот е от 20 до 40 години (в плен). Щраусът е най-голямата птица в света. Той не може да лети, но има дълги и силни крака. Има малка глава, издължена гола шия и огромни очи. На височина достига 2,75 метра, което му дава възможност да вижда хищниците отдалече.

  37. Примерна (неформална) схема Въведи името на обекта, неговия клас и най-важните характеристики на обекта и класа; Опиши дължината на обекта; Опиши височината на обекта; Опиши теглото на обекта; Опиши продължителността на живота на обекта; Опиши скоростта на движение на обекта, Опиши други характеристики: зона на разпространение, цвят на козината Не се ограничава броят на клаузите, а само видът и наредбата им. Пълнят се с наличното знание. Чрез една схема се произвеждат различни текстове, но те имат досадно-еднотипен вид

  38. EGEN – обяснения на два езика Максимално независим от предметната област и лесно може да се прехвърли към друга база знание, ако връзките между речника и концептуални ресурси са зададени в определен формат. Дефект – говори еднотипно за всичко Класическите схеми извличат знанието, което могат да разкажат; ЕГЕН търси релевантно знание по предварително зададени концептуални шаблони (чрез проекция в базата от знание) и пълни избраната схема Предлага решения на някои структурни въпроси, напр. модел на грануларността на термините на български и немски език

  39. Примери (1) Ölphasen (Ölpartikel1) gehören zu Partikeln2. Die3Ölphasen sind gekennzeichnet durch Dichte4. Die ausschwimmenden5 und grobdispersen6Ölphasen, welche leichter als Wasser sind7, sind enthalten in Abwasser8. Маслените9 частици са частици. Маслените частици се характеризират с плътност. Маслени частици10, които се съдържат в отпадъчна вода10, са изплуващи, грубодиспергирани и по-леки от водата. 1 е синоним от лексикона; 2 е надтип от концептуалната йерархия; 3 е определителен член, поставен поради предишното споменаване на обекта Ölphasen; 4 е характеристиката плътност; 5 и 6 са характеристиките изплуващ и грубодиспергиран в съответното съгласуване;

  40. Примери (2) Ölphasen (Ölpartikel1) gehören zu Partikeln2. Die3Ölphasen sind gekennzeichnet durch Dichte4. Die ausschwimmenden5 und grobdispersen6Ölphasen, welche leichter als Wasser sind7, sind enthalten in Abwasser8. Маслените9 частици са частици. Маслените частици се характеризират с плътност. Маслени частици10, които се съдържат в отпадъчна вода10, са изплуващи, грубодиспергирани и по-леки от водата. 7 е реализирано като подчинено изречение, тъй като в лексикона не е намерено единично прилагателно; 8 е повърхнинна реализация в страдателен залог, тъй като фактът ‘отпадъчната вода съдържа ....” се вербализира в изречение, където Ölphasen са заели ролята на подлог и поради това граматиката предлага само възможност за изказване на конкретния факт в страдателен залог; 9 е членуване на български, което не се среща на немски; 10 е пример за неудачно членуване на български

  41. Практически приложения Генерацията се използва при многобройни повтарящи се обяснения с еднотипен характер Пример от проект на ЕК (завършил през 2007 в програмата eContent): следи се нивото на замърсяване във въздуха и при нужда се изпращат динамично-генерирани съобщения до клиенти: астматици, хора с кожни заболявания и т.н. В (северна) Европа такъв продукт е много перспективен за комерсиализация

  42. 3. Статистически методи • Използват се отдавна, но доказват предим-ствата си през последните 10-12 години – понеже много явления са регулярни • Машинният превод е много модерен и много търсен на пазара, за нови/други езици • В момента лидер е Гугъл • Обучението се извършва над паралелни корпуси, подравнени по изречения, и не използва други ресурси (речници, правила) • Наблюдават се учебните данни - как се превеждат фразите (с % вероятност) - и научените преводи се сглобяват върху непознати текстове

  43. Примери от системата на Преслав Наков,най-добра (2007)/втора (2008) за англ.-испански

  44. 4. Състояние в България • 1964 год. в И-та по Математика на БАН (проф. Ал. Людсканов), руско-български маш. превод • Типично за флективен език, КЛ остава много години фокусирана върху морфологията и ресурсите, организирани около думите • През 80-те и 90-те години се разработват 4-5 независими големи морфологични речника, с над 60000 основни думи • Днес КЛ е изненадващо активна, с десетки групи и фирми (за сведение, 2% от индустриалния софтуер в света интегрира езикови технологии)

  45. По-важни научни звена • БАН • Институт по информационни и комуникационни технологии, • Институт по математика и информатика, и • Институт за български език • Пловдивски университет • Софийски университет • Напоследък има групи/изследователи в • Нов български университет • Търновски университет

  46. Фирми / Частни организации Най-активните разработчици на езикови технологии за българския език: • ОнтоТекст Лаб / Сирма, • Българската асоциация по компютърна лингвистика БАКЛ • АПИС, • ПроЛангс (разработчиците на БулТра), • BMG (от ACT Soft), • Сиела, • dir.bg, • netinfo,

  47. Прототипи, ресурси, продукти • 5-10 много големи морфологични речници и съответни анализатори към тях • Няколко програми за корекции на правописни грешки (почти свободни) • Поне три прототипни разработки на синтактични анализатори на български изречения • Поне две системи за машинен превод + Гугъл • Системи за търсене на документи • БАКЛ предлага синтезатор на българска реч по зададен входен текст, като продукт ориентиран към граждани с нарушено зрение. • Впечатляващо количество лингвистични ресурси от различен вид, разработени главно в академичните среди.

  48. Секция по лингв. моделиране на ИИКТ-БАН национален координатор на БГ-КЛАРИН По-главни ресурси: • Текстов архив от 72 млн. словоформи, • Няколко вида текстови корпуси с анотация на различно ниво, • Банка от ръчно създадени синтактични дървета за 15000 български изречения, една от петте най-големи в света, • Многобройни лексически ресурси за българския и руски език, както и двуезични лексикони, • 10 млн. словоформи многоезични подравнени паралелни корпуси за междуезикова обработка - български, английски и други славянски езици, • Частична формална граматика на българския език, създадена във връзка с банката синтактични дървета (3-4-5-6 са създадени по международни проекти)

More Related