360 likes | 561 Views
Inżynieria lingwistyczna. Agnieszka Mykowiecka Instytut Podstaw Informatyki, PAN agn@pjwstk.edu.pl materiały z wykładów na stronie: http:\www.ipipan.waw.pl~agninl.htm. Tematyka wykładów.
E N D
Inżynieria lingwistyczna Agnieszka Mykowiecka Instytut Podstaw Informatyki, PAN agn@pjwstk.edu.pl materiały z wykładów na stronie: http:\\www.ipipan.waw.pl\~agn\inl.htm
Tematyka wykładów • czego dotyczą terminy: inżynieria lingwistyczna, lingwistyka komputerowa przetwarzanie języka naturalnego, • dziedziny NLP: fonetyka/ortografia, fonologia, morfologia, składnia, semantyka, pragmatyka, • rodzaje danych lingwistycznych i możliwość ich wykorzystania (słowniki, korpusy), • tradycyjne (formalne i proceduralne) podejście do analizy i syntezy języka, • statystyczne metody przetwarzania języka, • zastosowania: wyszukiwanie informacji tekstowych, organizacja danych tekstowych, automatyczne streszczanie tekstów, systemy pytań i odpowiedzi, tłumaczenie, wspomaganie tłumaczenia.
Literatura Jurafsky Daniel, Martin James H. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Upper Saddle River 2000 Prentice Hall.http://www.cs.colorado.edu/~martin/slp.html Manning Christopher D., Schutze Hinrich. Foundations of Statistical Natural Language Processing. Cambridge 1999 The MIT Press. Inderjeet Mani, Mark T. Maybury (eds) Advances in Automatic Text Summarization. Cambridge 1999 MIT Press. Winograd, T., Understanding Natural Language, Academic Press, New York, 1972. Jelinek Frederick. Statistical Methods for Speech Recognition. Cambridge 1999 MIT Press. Mykowiecka, A. Inżynieria Lingwistyczna. Wydawnictwo PJWSTK 2007
Przetwarzanie języka naturalnego -różne perspektywy • lingwistyka formalna i komputerowa(Computational Linguistics) • przetwarzanie języka naturalnego(Natural Language Processing) • INżynieria Lingwistyczna(Linguistic Engineering; LE; Human Language Technology, HLT) • psycholingwistyka komputerowa(Computational Psycholinguistics) • rozpoznawanie sygnału mowy (automaticspeech recognition, ASR) • synteza sygnału mowy (speech synthesis)
Trochę historii (1) Podstawy (lata 40-te, 50-te) • automaty; ( Turing, 1936; model obliczeń), • automaty skończone, wyrażenia regularne; Kleene, 1951, 1956 • zastosowanie modeliMarkova do analizy języka; Shanon, 1948 • formalny opis języka, gramatyki bezkontekstowe, Chomsky 1956 (niezależnie Backus i Naur, 1959 i 1960) • zdefiniowanie entropii jako miary pojemności informacyjnej, wyniki dla języka angielskiego, Shanon, • spektrograf dźwiękowy (Koenig, 1946) i pierwszy system analizy mowy (cyfry), Bell Labs, Davis, 1952
Trochę historii (2) • Dwa obozy, 1957-1970 • przetwarzanie symboliczne (formalne), • gramatyka generatywna • Chomsky • kompletny system parsujący dla angielskiego- TDAP (Z. Haris, University of Pennsylvania) • sztuczna inteligencja (AI), McCarthy, Minsky ... • metody statystyczne • pierwsze prace korpusowe (Brown corpus of American English, Brown University, 1mln słów)
Trochę historii (3) • Cztery podejścia, 1970-1983 • metody statystyczne (HMM) IBM Thomas J. Watson Research Center, Carnegie Mellon University, AT&T Bell Laboratories • metody oparte o logiki formalne (Prolog, DCG, LFG) • natural-language-understanding field, • system SHRUDLU, Winograd, 1972, • sieci semantyczne Shank („Yale School”), • wykorzystanie logiki predykatów do reprezentacji semantycznej - system LUNAR, Woods 1963-73; • modelowanie dyskursu, Grosz, 1977, Perrault & Allen
Trochę historii (4) • Ponowne „odkrycie”: metody empiryczne i automaty stanów skończonych, 1983-1993 • wykorzystanie automatów do analizy morfologicznej (Kaplan, Kay, 1981) • metody analizy statystycznej mowy (IBM Research Centre) • ... • Połączenie wysiłków od 1994 • włączenie metod statystycznych do wszystkich dziedzin NLP All scientific discoveries are in principle multiplies, including those that on the surface appear to be singletons, Robert K. Merton (1961)
Co chcemy osiągnąć? • Test Turinga: maszyna naśladuje człowieka w sposób nieodróżnialny dla słuchacza (czytelnika) , • „przepowiednia” Turinga: pod koniec XX w. maszyna dysponująca pamięcią 10GB będzie miała 30% szans na „oszukanie”, że jest człowiekiem w ciągu 5-minutowej rozmowy • NIESTETY? NIE, ale np. zaskakująco sprawna ELIZA,Weizenbaum, 1966(przykład rozmowy z oryginalnej wersji, ale jest też ``odmłodzona'' wersja w sieci (http://www-ai.ijs.si/eliza/eliza.html). User: Men are all alike. Eliza: In what way? U: There're always bugging us about something or other. E: Can you think of a specific example? U: Well, my boyfriend made me come here. E: Your boyfriend made you come here? U: He says I'm depressed much of the time. E: I am sorry to hear you are depressed
Linguboty • Lingubot (bot, chater bot) wirtualny rozmówca na stronach WWW, program tworzony do pełnienia zadań automatycznej i dobrze poinformowanej pomocy klientom dużych firm (banków, firm telekomunikacyjnych, ubezpieczeniowych, finansowych; z technologii Lingubot (Kiwilogic.com AG) korzystają między innymi SAP, DaimlerChrysler, IKEA, Alfa Romeo, Novartis, Schering, Volkswagen, grupa Zurich; • Polski przedstawiciel fidointeractive (www.fido.pl), wdrożenie m.in. w Hestia SA Cześć! Cieszę się, że się znowu spotykamy, A. Czy wiesz, że w "Twoim Stylu" pojawiła się wzmianka o Hubercie – naszym nowym Lingubocie™? Może chcesz dowiedzieć się czegoś o Lingubotach™ i ofercie fido interactive czy też wolisz sobie ze mną luźno pogawędzić? Witaj, A.!Jestem doradcą klientów Grupy Ergo Hestia. W czym mogę pomóc?
Co musimy zrobić? We can only see a short distance ahead, but we can see plenty there that needs to be done. Alan Turing • Ogromna przepaść między możliwościami człowieka, a możliwościami systemów komputerowych (w odróżnieniu od operowania na liczbach czy dużych zbiorach informacji strukturalnych gdzie widać dużą przewagę systemów komputerowych) • Rozumienie i prawidłowe reagowanie na wypowiedzi (teksty) w języku naturalnym wymaga udziału wiedzy spoza tekstu (z nieograniczonego praktycznie zakresu) i skomplikowanych (nie poznanych do końca, nieklasycznych) metod wnioskowania.
Czym zajmuje się inżynieria lingwistyczna ? Inżynieria lingwistyczna to opracowywanie metod i konstruowanie narzędzi umożliwiających automatyczne przetwarzanie języka naturalnego. Etapy przetwarzania: ( wypowiedź ) tekst w języku naturalnym reprezentacja semantyczna(np. logiczna) reakcja (wykonanie operacji, sformułowanie odpowiedzi) ( synteza mowy )
Cele NLP • poznawcze(jak jest zbudowany język, na czym polega posługiwanie się językiem jego rozumienie nauka ...), • gromadzenie danych lingwistycznych(słowniki ogólne i specjalistyczne, korpusy tekstów, gramatyki, ...) • wykorzystywanie języka naturalnego w systemach komputerowych: • wyszukiwanie informacji, • automatyczne streszczanie tekstów, • systemy pytań i odpowiedzi, • organizacja danych tekstowych, • wspomaganie tłumaczenia
Zadania inżynierii lingwistycznej • rozpoznawanie mowy • rozpoznawanie sygnału mowy w otoczeniu szumu • korekcja błędów wymowy • czytanie z ust(?) • rozumienie języka • generowanie wypowiedzi w języku naturalnym • wyszukiwanie informacji (Information Retrieval IR) • selekcja informacji(Information Extraction IE) • wnioskowanie
Wybrane aplikacje • dużo aplikacji dotyczących syntezy i analizy mowy • RealSpeak (Text-To-Speach system, 19 języków, w tym polski) http:/www.scansoft.com/realspeak • Dragon NaturallySpeaking (rozpoznawanie mowy, zamiana na tekst, wspomaganie tworzenia dokumentów biurowych) • Nuance USA http:/www.nuance.com (m.in. voice-driven systems, synteza mowy Nuance Vocalizer - UK and US English; inne języki w połączeniu z modułami np. ScanSoft, Voice Authentication (rozpoznanie użytkownika po głosie) • Telisma, France: telco-grade speech modules, • philsoft: rozpoznawanie mowy (ASR) • ScanSoft Inc., US, tradycyjna specjalność cyfryzacja obrazu/tekstu pisanego
Wybrane aplikacje, 2 • tłumaczenia • Lingtech A/S, DaniaPaTrans (efekt projektu EURORTA): tłumaczenie w dziedzinie medycyny i farmacji • PROject MT Ltd, Rosja - PROMPT; system tłumaczący • Polskie programy: Translatica, English Translator • korektory pisowni, analizatory morfologiczne, np. Morphologics, Węgry • ekstrakcja informacji ze swobodnego tekstu • Temis, France http:/www.temis-group.com/temis/sx.htm (7 języków)
Przykład tłum. angielski -> francuski • But while Hollywood smashes come in the summertime, the games business rolls out its big guns for year-end holiday shopping when about half of all game software gets sold. SYSTRANS • Mais tandis que les fracas de Hollywood viennent dans l'été, les affaires de jeux roulent hors de ses grands pistolets pour des achats de fin d'année de vacances quand environ la moitié de tout le jeu le logiciel obtient vendu. PROMT • Mais tandis que les coups violents de Hollywood entrent dans l'été, l'affaire de jeux étire ses grandes armes a feu pour des achats de jour férié(de congé) de fin d'année quand environ moitié de tout le logiciel de jeu est vendue.
Przykład tłum. angielski -> niemiecki • But while Hollywood smashes come in the summertime, the games business rolls out its big guns for year-end holiday shopping when about half of all game software gets sold. -> SYSTRANS angielski -> niemiecki • Aber, während Hollywood Smashes in den Summertime kommen, rollt das Spielgeschäft aus seinen grossen Gewehren für das year-end Feiertageinkaufen, wenn über Hälfte alles Spiels Software verkauft erhält. -> SYSTRANS niemiecki -> angielski • But, while Hollywood Smashes come into the buzzer time, rolls the play business from its large rifles for year ends to holiday buying, if over half of all play software keeps sold.
Przykład tłum.polski -> angielski To jedyne zmiany w podatkach, które zostaną przeprowadzone w najbliższym czasie -> translatica (translatica.pwn.pl) These are only changes in taxes which will be taken in the closest time -> trnaslate (Ectaco, translate.pl) These sole changes in taxes, which (who) will be carried in the nearest future -> These are the only changes in taxes which will be introduced in the nearest future.
Przykład tłum.angielski -> polski • But while Hollywood smashes come in the summertime, the games business rolls out its big guns for year-end holiday shopping when about half of all game software gets sold. -> translatica • Ale podczas gdy hollywoodzkie brzęki nadchodzą letnią porą, bułki służbowe z grami na zewnątrz jego ciężkie działa przez koniec roku finansowego zakupy turystyczne kiedy około połowy ze wszystkich gra oprogramowanie dostaje sprzedany. -> trnaslate Ale podczas gdy uderzenia Hollywoodu przybył (przybywać; wchodzić; wszedł) w *summertime*, gry interes (handlowy) zwija (toczy się; zwój) poza swoimi wielkimi działami dla roku kończą zakupy Święta kiedy o połowie całego programu komputerowego gry otrzymuje (dostaje; rozumie) sprzedawany.
Wiedza o języku a realizacja wyznaczonego celu • Open the pod bay doors, HAL. • I'm sorry Dave, I’m afraid I can’t do that. • zrozumienie polecenia • analiza językowa (identyfikacja słów, form, związków między nimi) • odniesienie do rzeczywistości • wybór odpowiedzi (odrzucenie polecenia mimo możliwości wykonania go) • sformułowanie odpowiedzi • wybór słów, ich form, porządku • pragmatyka: uprzejma odmowa (I’m sorry...) • odniesienie do poprzedniej części dialogu (that) Stanley Kubrick i Arthur C. Clarke, 2001: A Space Odyssey
Wiedza o języku naturalnym nazwa dziedziny obszar zainteresowania fonetyka dźwięki fonologia dźwięki należące do języka ortografia zasady pisowni morfologia struktura/formy wyrazów składnia zależności strukturalne między słowami (budowa fraz) semantyka znaczenie pojedynczego zdania pragmatyka znaczenie w kontekście zależności międzyzdaniowe(discourse)
Fonetyka i fonologia • Rozpoznanie sygnału mowy • wydzielenie fonemów • rozpoznanie słów • Synteza mowy: • zamiana tekstu na ciąg powiązanych fonemów • nadanie odpowiedniej intonacji całości wypowiedzi • standaryzacja zapisu fonologii, np. IPA (International Phonetic Alphabet) i ARPAbet (który wykorzystuje tylko oznaki ASCII) parsley [‘parsli] (IPA) [p aa r s l iy] (ARPAbet)
Fonetyka i fonologia, problemy • Rozpoznanie sygnału mowy: • fonemy odpowiadające tym samym dźwiękom - fragmentom słów, wypowiadane przez różne osoby, w różnym czasie, różnym otoczeniu są inne • z powodu różnorodności trudno wyznaczyć ścisłe granice między poszczególnymi fonemami • praktycznie zawsze otrzymujemy sieć możliwych interpretacji • rozpoznanie słów - potrzebujemy słownika • problemy, np. kwiat -> [ k f i a t] • niejednoznaczności fonologiczne, np. [m o rz e] -> może, morze
Fonetyka i fonologia, problemy • Synteza mowy: • łatwo wybrać fonemy, ale trudno je połączyć, tak by do siebie pasowały • dla dobrego zaakcentowania potrzebujemy informacji o strukturze składniowej (i nie tylko...) • praktyczne rozwiązania: gromadzenie nagrań i sklejanie możliwie długich kawałków
Morfologia • nauka o budowie słów z morfemów: a) temat (stem): nośnik znaczenia b) przed- i przyrostki (affixes): nośniki cech gramatycznych, zmiany znaczenia • rozpoznawanie słów po ich formach fleksyjnych • psem -> pies (l.poj, narzędnik) • ciem -> ćma (l. mnoga. dopełniacz) • generowanie form • iść, czas przeszły, 3osoba l.poj., rodzaj żeński -> szła
Niejednoznaczności morfologiczne Analiza morfologiczna: rozpoznanie form podstawowych i wartości cech gramatycznych Często jest wiele możliwości: • szafy -> szafa (l. poj, dopełniaczczy l. mnoga, mianownik) • chłopca -> chłopiec (l. poj. dopełniacz czy l. poj. biernik) • mam -> mieć (1 osoba, l. poj., czas teraźniejszy) czy mamić (tryb rozkazujący) czy mama (l.mnoga, dopełniacz)
Składnia wiedza o sposobie łączenia słów we frazy, a fraz w zdania Analiza składniowa: rozpoznanie fraz i ich powiązań składniowych (zbudowanie rozbioru syntaktycznego) maładziewczynka dała bukiet fiołków mamie -> [mała mod dziewczynka] podmiot dać [bukiet fiołkówmod] dopełnienie [mama] dopełnienie
Składnia • rozpoznanie fraz i ich powiązań składniowych pozwala na ustalenie wartości cech gramatycznych dla generowanego tekstu, a więc rozstrzygnięcie wielu niejednoznaczności morfologicznych np. dał słonia mamie -> [dać] 3os,cz. przeszły [słoń]dopełniacz lub biernik [mama]celownik [dać] 3os,cz. przeszły [słoń]biernik [mama]celownik
Składnia, problemy • Dwa typy fraz: wymagania składniowe (mogą być opisane w słownikach) i modyfikatory, które są praktycznie dowolne • Jan widzi kota. • Mój starszy brat Jan, który od niedawna mieszka w Krakowie, idąc rano do pracy zwykle widzi czarnego kota siedzącego na murku naprzeciwko okna kuchni sąsiada. • Niejednoznaczności składniowe, np. pokazała siostrze Jana kwiaty • [pokazać] [siostra Jana]dopełnienie [kwiaty]dopełnienie • [pokazać] [siostra]dopełnienie [Jana kwiaty]dopełnienie
Semantyka ustalenie co jest znaczeniem konkretnego wyrażenia w języku naturalnym (rozpoznanie obiektów, relacji między nimi, ...) czyli „kolejny etap analizy”: maładziewczyka dała bukiet fiołków mamie --> [mała mod dziewczynka] podmiot dać [ bukiet fiołkówmod] dopełnienie [ mama ] dopełnienie --> [małamody dziewczynka]aktor daćakcja [ bukietfiołkówel.skladowy]obiekt [ mama ] odbiorca
Semantyka, problemy • Co to właściwie jestznaczenie wyrażenia w języku naturalnym ? • Jak budować znaczenie zdania ze znaczenia fraz • Niepełność wszystkich dostępnych sposbów opisu znaczenia (zawsze spotkamy sytuację, dla której nie mamy dobrej reguły) • Kłopoty obliczeniowe, jeśli chcemy korzystać z bardziej zaawansowanych sposobów reprezentacji (logiki) • I jak zawsze niejednoznaczności
Semantyka, niejednoznaczności • Piła!okrzyk radości ma widok zgubionej piły, niezbyt pochlebna ocena nauczyciela, wyraz zdegustowania nadużyciem alkoholu (pierwsze dwie interpretacje semantyczne mają taką samą interpretację morfologiczną i syntaktyczną (‘piła’ jest tu rzeczownikiem w mianowniku), trzecia inną (‘piła’ to czasownik) • Uszył jej buty - wyrażenie idiomatyczne lub opis efektu pracy szewca • „nawiasowanie” negacji • Nie zrobisz tego? Nie(nie zrobię albo właśnie, że zrobię) • wiązane zaimków • Jan kazał Piotrowi wyczyścić swoje buty.
Pragmatyka interpretacja wypowiedzi w konkretnym kontekście, w odniesieniu do wiedzy o świecie Informacje zewnętrzne pozwalają człowiekowi poprawnie rozstrzygać wiele niejednoznaczności, np. Pacjent opuścił salę operacyjną w dobrym stanie 1 pacjent opuścił [salę operacyjną] [w dobrym stanie] mod_pacjenta 2 pacjent opuścił [salę operacyjną [w dobrym stanie] mod_sali] (doświadczenie przemawia za interpretacją 1)