150 likes | 290 Views
Napredne metode u pronalaženju informacija. Cvetana Krstev čas 1. Šta je NLP – Natural Language Processing ?.
E N D
Napredne metode u pronalaženju informacija Cvetana Krstev čas 1
Šta je NLP – Natural Language Processing? • Termin NLP - Natural Language Processing, odnosno obrada prirodnih jezika se obično koristi da označi funkcije hardverskih ili softverskih komponenata u računarskom sistemu koje analiziraju ili sintetizuju govorni ili pisani jezik. • Atribut ‘prirodni’ treba da ukaže da se radi o jeziku kojim ljudi komuniciraju u uobičajenom smislu, a ne o formalnim jezicima, kakvisu jezici matematičkih izraza ili kakvi su programski jezici.
Šta je NLU – Natural Language Understanding? • Predmet oblasti NLU - Natural Language Understanding, odnosno razumevanje prirodnih jezika je ambiciozniji jer se od sistema koji podržavaju NLU očekuje da ‘razumeju’ prirodni jezik na sličan način kao ljudi. • Za polje IR – Information Retrieval, odnosno Pronalaženje informacija – funkcije NLU nisu od tolikog interesa kao funkcije NLP.
Problemi realizacije sistema sa NLP funkcijama • Očigledno je da se računari mogu programirati da ‘razumeju’, npr. Java kod, u smislu da se može napisati interpreter koji će omogućiti da se program ispravno izvršava u prozoru veb prelistača. • Takođe se mogu napisati računarski programi koji rešavaju mnoge matematičke probleme i logičke zagonetke, koji dokazuju teoreme. • Ali računarska analiza ljudskog govora i pisanog teksta je opterećena mnogim problemima, koji su, šta više veoma zanimljivi za rešavanje.
Jedan od problema u NLP – višeznačnost (ambiguity) • Lingvistička višeznačnost je često izvor zabave jer je opštepoznato da se mnoge sasvim obične reči (pa i rečenice) mogu interpretirati na više načina, što ljudima često prolazi neopaženo. • npr. reč bank u engleskom može da znači: banka, obala, klupa, ulog pri klađenju itd. • npr. reč šarka u srpskom može da znači: držač vrata, vrsta zmije • Ljude ovakve pojave retko zbunjuju jer uvek postoji kontekst u kome se reč pojavljuje koji razjašnjava značenje, kao i opšte znanje o svetu. • npr. čitalac engleskih novina će iz “the West Bank of Jordan” lako zaključiti da se radi o zapadnoj obali reke Jordan, a ne o banci. • npr. čitalac srpskih oglasa će iz “šarke za vrata i prozor” odmah zaključiti da se ne radi o zmiji.
Neki smešni primeri na engleskom • Visiting aunts can be a nuisance • da li je dosadno posećivati tetke, ili su dosadne tetke koje dolaze u posetu? • John saw the man in the park with the telescope • da li je Džon video čoveka u parku pomoću teleskopa ili je čovek koga je Džon video imao teleskop? (čemu se pridružuju predloške fraze?)
Razmljivo čoveku – problem za računar • She boarded the airplane with two suitcases. • She boarded the airplane with two engines. • čoveku je jasno da se predloška fraza u prvom slučaju odnosi na ‘Ona’, a u drugom slučaju na ‘avion’. Ali kako računar može to da zna? • Stigla odeća za bebe iz uvoza • čoveku je jasno da se predloška fraza ‘iz uvoza’ odnosi na ‘odeću’, a ne na ‘bebe’. Ali kako računar može to da zna? • To što čovek koji govori engleski i srpski može sasvim lako da razume ovakve rečenice se uopšte ne smatra dokazom neke njegove izvanredne inteligencije, ali to je za računar ipak veliki problem.
Zašto je ovo zanimljivo? • Ovakvi problemi su svakako izazov za naučnike i istraživače, ali bi bili komercijalno nezanimljivi kada potražnja za informacijama ne bi predstavljala tržište sa najvećim rastom na planeti. • Više nije u pitanju manjak informacija (kao u ne tako davnoj prošlosti), već je problem u preopterećenosti informacijama i manjku alata za njihovo organizovanje, skladištenje i pronalaženje. • Većina informacija se i dalje izražava prirodnim jezikom, iako su na raspolaganju i slike, grafikoni, zvučni zapisi, tabele, filmske sekvence, matematičke jednačine.
Odnos NLP i lingvistike • Sintaksa i semantika • U svojoj začetnoj knjizi iz 1957. godine Syntactic Structures, američki lingvista Noam Čomski je uočio razliku između rečenica koje su sintaksički neisparvne, kao • Furiously sleep ideas green colorless. • i rečenica koje su dobro formirane, ali su semantički neispravne, kao • Colorless green ideas sleep furiously. • Šta više, kasnije se mnogo govorilo o tome koliko je, i da li je, ova druga rečenica semantički neispravna, dok se neispravnost prve rečenice ne dovodi u pitanje.
Sintaksa prema semantici • Ovakvo razdvajanje sintakse od semantike uticalo je na NLP tako da se uvrežilo verovanje da se sintaksička struktura rečenice može prvo analizirati – ne ulazeći u značenje – a tek zatim da se izvrši semantička analiza. • Primer sa avionom sa slajda 7 pokazuje da je ovakvo polazište dosta nategnuto, ali alternativna rešenja se teško formulišu i neefikasna su za primenu. • U formalnim jezicima, kakvi su prirodni jezici, odvajanje forme od značenja je uobičajeno; na primer, značenje programskog iskaza se može u potpunosti odrediti na osnovu njegove forme, što znači da za određivanje značenja izvanlingvistički i kontekstualni faktori nisu od značaja. • To nije slučaj sa prirodnim jezicima – da nije tako ne bi postojala poezija, metafora, igre reči, itd (kao najmanje).
Pragmatika i kontekst • Pragmatika se obično definiše kao skup pravila koja rukovode time kako se jezik koristi. Na primer, • You owe me five dollars bi se pre moglo shvatiti kao zahtev da se dug vrati nego kao tvrđenje koje utvrđuje neke činjenice. • S druge strane, ako mašini za pretragu postavimo upit rečima • natural language processing šta mi zapravo tražimo: definiciju, reference na literaturu, stručnjake iz oblasti NLP, kurseve o NLP? “Inteligentna” mašina za pretragu bi možda to mogla da zaključi na osnovu prethodnih upita. Na primer, svaki od navedenih prethodnih upita bi mogao da uputi u drugom smeru: • what is NLP • AI textbook • Rochester University
Kontekst i (prethodno) znanje o svetu • Upotreba i kontekst su isprepletani. Ponekad kontekst drastično menja nameru koja stoji iza nekog iskaza ili menja njegovo značenje. • Šta je potrebno znati o srpskom jeziku da bi se razmelo: • Bolje plata u ruci nego otpremnina na grani • (naslov iz Danasa, 1. IV 2009) • Od racionalizacije Gradske uprave po programu koji je sačinilo Ministarstvo za državnu upravu i lokalnu samoupravu neće biti ništa, pošto se za napuštanje posla uz otpremninu od oko 800.000 dinara prijavilo samo šestoro radnika uprave, ... • Onaj kome nije poznata poslovica teško da će tazumeti o čemu se radi.
Dva pogleda na NLP • Mogu se razlikovati dva opšta pristupa rešavanju problema na koje se nailazi u NLP aplikacijama: • Jedan pristup se zasniva na vrsti lingvističke analize o kojoj je bilo govora. Taj pristup se nekad naziva simbolički jer se sastoji uglavnom od pravila za manipulaciju simbolima, tj. od gramatičkih pravila koja govore koji iskazi su dobro formirani, a koji ne. • Drugi pristup, koji je dobio zamah od 1990. godine, zasniva se na statističkoj obradi jezika, i ponekad se naziva i empirijskijer podrazumeva izvođenje jezičkih podataka iz relativno velikih jezičkih korpusa, kakvi su novinske vesti i veb stranice.
Metodološko razlikovanje dva pristupa obradi prirodnih jezika • Obrada prirodnih jezika zasnovana na simboličkom pristupu koristi pristuo odozgo nadole (top-down) jer se poznati gramatički obrasci i veze između značenja primenjuju na tekst. • Empirijska obrada prirodnih jezika radi odozdo nagore (bottom-up) tražeći u samom tekstu obrasce i veze koji bi se mogli modelirati, pri čemu dobijeni rezultat ne mora obavezno da odgovara čistoj sintaksičkoj ili semantičkoj vezi.
Razlikovanje dva problema po načinu rešavanja problema složenosti • Ova dva pristupa na različite načine rešavaju problem složenosti, odnosno neizvesnosti, kakav se pojavljuje, npr. kod višeznačnosti. • simbolički pristup rešava problem neizvesnosti uvođenjem novih pravila, ili kontekstualnih faktora, koja se na neki način moraju formalizovati. To je metodologija zasnovana na znanju(knowledge-based methodology) koja se zasniva na jezičkim stručnjacima koji treba da indentifikuju i opišu neke pravilnosti koje se javljaju u okviru nekog domena. • empirijski pristup, koji je kvantitativan, pripisuje verovatnoće alternativnim analizama teksta, i odlučuje se između njih koristeći statističke metode. • U praksi, retko se primenjuje samo jedan ili drugi pristup – postoje mnogi uspešni alati koji spajaju oba pristupa.