140 likes | 279 Views
ИКТ Работна програма 20 11 -12 Тема 4.2: Езикови технологии. Галя Ангелова ( galia@lml.bas.bg, тел . 9796607) (по материали на ЕК). Мотивация за T ема 4.2. Целта е да се научат компютрите да разбират и обработват текст и реч на естествен език
E N D
ИКТ Работна програма 2011-12Тема 4.2:Езикови технологии Галя Ангелова (galia@lml.bas.bg, тел. 9796607) (по материали на ЕК)
Мотивация за Tема 4.2 Целта е да се научат компютрите да разбират и обработват текст и реч на естествен език Освен това трябва да се отчита и многоезиковия аспект • ТерминътHLT (Human Language Technology) обобщава • natural language processing • speech technology • machine translation • information extraction • computational linguistics…
Многоезиковото предизвикателство • 60+ езика в Европаи 23 официални езика в ЕС • Съдържанието на интернет на английски е 29%,а потребителите на интернет с английски като роден език са 27%... ... Но тези показатели за другите езици растат много бързо • В Европа се реализира около 50% от световния пазар на езикови технологии(превод & локализация)... ... Но все още потребителите и професионалистите не могат да овладеят съдържанието на Web 2.0 • Данни от електронната търговия: 2/3 от потребителите в ЕС купуват само чрез интерфейси на техния език • “Европа е все още смесица от национални виртуални пазари и европейците не могат да се възползват от предимствата на унифициран дигитален пазар. Търговското и културно съдържание и услуги трябва да се реализират без граници”
Конкурси в Работната програма 2011-2012 • Езиковите технологии са част от Предизвикателство4 “Technologies forDigital Content & Languages” • 2 теми, на 2 конкурса: • Тема 4.2. Езикови технологии -> Конкурс 7 краен срок януари 2011, 50 М евро • Тема 4.1. Инициатива за малкия бизнес за дигитално съдържание и езикова обрботка -> Конкурс FP7-ICT-2011-SME-DCL отваря сефевруари 2011, краен сроксептември 2011, 35M
Тема 4.2 Езикови технологии - 1 • Проекти в 3 направления • Обработка на многоезиковосъдържание • Достъп до информация и добиването й • Взаимодействие с реч на естествен език • Балансирано използване на инструменти за финансиране • 50% STREP (21 M) • 30% IP (13 M) • 20% засега свободни (8 M) • Няма предварително разпределение на бюджета по направления
Тема 4.2 Езикови технологии - 2 Основни изисквания: Да се адресират текст & реч Да се разглежда многоезиков вход/изход(а където е релевантно, и cross-lingual) Да се работи с различни жанрове (по-специалноразговорен език) Прототипите да работят над големи масиви от данни и различни източници Да имаконтекстуализация & персонализация: технологиите да са адаптивни (относно езика, предметната област, задачата)...новградени и тествани вспецифични (важни) сценарии
Тема 4.2 Езикови технологии - 3 а) Обработка на многоезиково съдържание: • Да се обхване цикъла на съществуване на дигитално съдържание(авторство, превод & публикуване) • Проекти в две направления: • Развитие на машинния превод в различни насоки • качество, приложимост, самообучение & адаптация … • Разговорен език, многоезикови ресурси … • Да се тества & и подобри използваемостта(приложимост, поведение на системата, цена..) на нови технологии в многоезикови приложения в реални условия Инструменти: IP + STREP
Тема 4.2 Езикови технологии - 4 b. Достъп до информация & добиването й Да се идентифицира, интерпретира, свързва, категоризира…online-достъпно дигитално (текстово) съдържание Да се прилагат подходи от различни дисциплини, за да се постигне широко покритие интегрирано с дълбок анализ на текста в едно или няколко от следните направления: • cross-lingual information retrieval • Добиване на информация от аудио & видео • Добиване на информация от многоезикови текстове Инструменти: STREP
Тема 4.2 Езикови технологии - 5 c. Комуникация чрез реч на ест. език Напредък към по-свободно, богато, спонтанно и приложимо взаимодействие човек-компютър Да се създадат “говорящи социални агенти”които • се справят в речев вход и изход • се прилагат в социалната сфера • се учат от взаимодействието, да реагират на нова ситуация … Да се ползват преносими, надеждни технологии за обработка в реално време Да се създадат или технологии за компоненти или proof-of-concept демонстратори, които се интегрират в по-големи системи Инструменти: IP + STREP
Тема 4.2 Езикови технологии - 6 d. Координационни и поддържащи дейности • Пътна картаза изработка на визия и технология как да се унифицира полето като цяло • Да се предложи начин за по-тясно коопериране с индустрията, по-добро разбиране на нуждите на потребителите и търсенето, по-активно интегриране на потребителите • Да се покаже как да се разшири приложимостта, интероперабилността, многократната използваемост … чрез езикови ресурси по пътя на обмен или покупко-продажби • Да се предложат гъвкави и координирани рамки за оценка на постиженията Инструменти: SA + CA
Тема 4.1 – Инициатива за МСП Все още намирането на данни е трудно и скъпо за нови и/или малки играчи Да се улесни добиването на даннизаhigh-tech SMEs • Чрез създаване & повторно използване на масиви от данни & съответни софтуерни приложения • Езикови данни, тема 4.2 • (взаимно-свързани) данни за знание/съдържание, тема 4.4 Поканват се проекти в 3 взаимно-обвързани направления: • Бързо и ефективно извличане & агрегация • Създаване на места за обмен или търговия с данни • Изработка на прототипи и експериментално доказване на нови и по-добри услуги, получени чрез комбиниране, разширение, и промяна на предназначението на ресурси Инструменти: STREP + CSA
Финансиране и оценка на тема 4.1 • Бюджет: 35 Meuro за 2 области (Know, Lng) • Отваряне на конкурса: 1 февруари 2011 • 2-стъпковоподаване & оценка: • Кратко резюме (5 страници), до 28 април • Ако е успешно, пълно предложение до 28 септ. • Компактни консорциуми: • До около ~6 частни/публичниорганизации • поне 2 МСП, за тях да е 30% от общото ЕК финансиране • Фокусирани проекти: с продължителност до 24 месеца, финансиране до 2 Meuro
...в резюме • 4.2 подкрепя създаване на нови прототипи и сътрудничество, като свързва дисциплини и различни естествени езици • 4.1 подкрепя производството на данни, обмена им и многократното използване • Кажете на академичните участници да привлекат индустрията & потребителите!
Допълнителна информация Работна програма ИКТ 2011-2012 Сайт за актуална информация: http://cordis.europa.eu/fp7/ict/language-technologies/upcoming_en.html Презентация на ICT event (ще бъде качена): http://ec.europa.eu/information_society/events/cf/ict2010/item-display.cfm?id=3651 Сесии на 11/11 в Lux и 17/11 вБрюксел Контакт по е-майл: INFSO-E1@ec.europa.eu