80 likes | 266 Views
Natural Language Processing. Motivační přehled problémů, řešení a aplikací. Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu. … zpracování přirozeného jazyka. Natural Language Processing (NLP) oblast témat a úloh, spojení mnoha vědních oborů
E N D
Natural Language Processing Motivační přehled problémů, řešení a aplikací Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu
… zpracování přirozeného jazyka • Natural Language Processing (NLP) • oblast témat a úloh, spojení mnoha vědních oborů • moderní, nutné, mimořádně složité • rozšíření a aplikace dnešní IT, její původní motivace • Computer/Computational Linguistics(CL) • počítačová/komputační lingvistika • teoretická/formální lingvistika, korpusová lingvistika … • Artificial Intelligence (AI) • umělá inteligence, automatické učení, strojové vnímání Natural Language Processing: Motivační přehled problémů, řešení a aplikací
Proč je jazyk složitý? • Systém a jeho projevy (langue vs. parole) • přístupy pravidlové, korpusové, rozumové, statistické • Nekonečnost, produktivita, Zipfův zákon • omezený počet hodně častých/očekávaných jevů • nekonečně výčtem nepopsatelných řídkých jevů • Homonymie, synonymie, elipsa, aktuální kontext • May I watch TV? – It’s bath time, honey. • Znalost světa, neverbální komunikace, humor • čas, společenské zvyklosti, vlastní jména … Natural Language Processing: Motivační přehled problémů, řešení a aplikací
Hlavní oblasti výzkumu • Speech recognition and synthesis • rozpoznávání/generování mluvené řeči • Information retrieval (IR) • vyhledávání informací, nikoli jen textu • Sémantika, konstrukce ontologií, logika • modelování významu, reprezentace znalostí • Machine translation (MT) • automatický překlad, analýza a syntéza jazyků Natural Language Processing: Motivační přehled problémů, řešení a aplikací
Jazyková data a jejich anotace • Model jazyka podle zvoleného kritéria • psané x mluvené, obecné x oborové, paralelní, historické • popis struktury jazyka x popis informací, binární x fuzzy • Reprezentace jazyka závislá na teorii popisu • (ne)úplnost, různý detail, sledovaný cíl • závislostní syntax vs. složková syntax, morfologie, TFA • Jazykové zdroje jsou přesto široce využitelné pro všechny zmiňované výzkumné oblasti • Linguistic Data Consortium, University of Pennsylvania • ÚFAL &CKL, ÚJČ, ÚSJ, projekty EU, MALACH Natural Language Processing: Motivační přehled problémů, řešení a aplikací
Prague … Dependency Treebank • Morfologická rovina (r. slovních druhů) • analýza slovních forem v textu, určení základního slovního tvaru a způsobu jeho odvození z/do formy • Analytická rovina (r. povrchové syntaxe) • popis struktury věty a nalezení funkcí větných členů, vyjádření vlastní gramatiky jazyka • Tektogramatická rovina (r. jazykového významu) • zachycení významu promluvy (vět v celém kontextu) a jeho reprezentace tak, že je do jisté míry popisem myšlenky a lze jej využít k porozumění textu, tj. i k překladu mezi jazyky Natural Language Processing: Motivační přehled problémů, řešení a aplikací
Když mám treebank, co umím? • Morfologická analýza (a vymezení jednotek řeči) • slovník aktuálního jazyka, algoritmus odvozování forem, jejich verifikace a rekonstrukce, lemmatizace slov textu • Tagging, disambiguace (nejen morpho) • automatický výběr správných anotací v daném kontextu, strojové učení, rozhodovací modely • Syntaktická analýza (itecto) • rozbor textu a jejího členů, redukce vět, interpretace • Jazykový model (různé úrovně) • identifikace jazyků, třídy slov/struktur, rozpoznávání Natural Language Processing: Motivační přehled problémů, řešení a aplikací
Pro skutečný svět … • … existuje zřejmé využití ;) • vysoce organizované slovníky a lexikální sítě, studijní pomůcky • automatické kontroly pravopisu a gramatiky, odhad srozumitelnosti • doplňování textu v průběhu psaní, víceznačné klávesnice (mini-přístroje, usnadnění komunikace pro handicapované) • komprese dat (rychlost, kapacita), užitečný signál • interpretace textu, IR, zjišťování informací z internetu i jiných DB • dialogové systémy, obchod, služby, interview (i v lékařství) • hlasová komunikace s počítačem (rozuměj obecně, např. navigace) • úplný automatický překlad, machine-assisted translation, orientační překlad, interaktivní překlad • Mnoho vedlejších efektů (od modelování živých organizmů ke čtení DNA, rozpoznávání obrazu, ...) Natural Language Processing: Motivační přehled problémů, řešení a aplikací