320 likes | 424 Views
Nyelvtechnológiai problémák. Farkas Richárd PhD hallgató. 2009. március 10. Áttekintés. Információ visszakeresés Dokumentum klasszifikáció Információ kinyerés Gépi fordítás Kivonatolás Kérdés megválaszolás Dialógus rendszerek. Számítógép vs. emberi agy.
E N D
Nyelvtechnológiai problémák Farkas Richárd PhD hallgató 2009. március 10.
Áttekintés Információ visszakeresés Dokumentum klasszifikáció Információ kinyerés Gépi fordítás Kivonatolás Kérdés megválaszolás Dialógus rendszerek
Számítógép vs. emberi agy A számítógép képes lehet-e az emberi nyelv megértésére? Villanyirógép
Információ visszakeresés(Information Retrieval) • Feladat: • Adott dokumentumok egy halmaza, • a cél a felhasználó által megfogalmazott lekérdezésnek leginkább megfelelő dokumentumok megtalálása.
Vektor Tér Modell (VTM) • Minden dokumentumot egy vektorral írunk le, ahol a vektor elemei az egyes term-ek előfordulási gyakoriságát jelzik • Azokat a term-eket vizsgáljuk amelyek legalább egyszer előfordulnak legalább egy dokumentumban • bag-of-words
Vektor Tér Modell Lekérdezés: „Brutus” AND „Caesar”
Információ visszakeresés problémái • Adatbáziskezelés • Yahoo ~25 milliárd oldalt indexel (deep web?) • Google 5PB RAMot használ • Indexelés, Folyamatos frissítés • Többtagú és logikai kifejezések • Egyéb problémák • Rangsorolás (PageRank) • Szótövesítés • Összefoglaló elkészítése (kivonatolás?)
Dokumentum klasszifikáció • Feladat: • Adott dokumentumok egy felcímkézett halmaza, a cél olyan modell megalkotása ami új, korábban nem látott dokumentumokat automatikusan felcímkéz.
Dokumentum klasszifikációs alkalmazások • Spam detektálás • e-mail irányítás • hírfigyelés (üzleti, sport stb) • Vélemény detektálás • Szerző azonosítás • Dolgozat javítás
Dokumentum klasszifikációs megoldások • TFIDF-VTM • Minél többször fordul elő a term a dokumentumban annál reprezentatívabb (tf) • Minél több dokumentumban fordul elő a term annál kevésbé segít az egyes dokumentum-osztályok szétválasztásában (inverse df)
Dokumentum klasszifikáció problémái • Dimenzió csökkentés • Szűrések, egyesítések • Bizonyos típusú szavak (pl. igék) • Tulajdonnevek (SZEMÉLYNÉV a „Kovács” helyett) • Elírások kezelése • Egyéb jellemzők kiaknázása • Dokumentumon belüli pozíció • Dokumentum jellemzők (pl. hossza)
Információ kinyerés(Information Extraction) • Feladat: • A feladat szempontjából fontos információ automatikus kigyűjtése a szöveg mélyelemzésével. Az információ kinyerés inputja egy szöveg (strukturálatlan adat), az outputja pedig strukturált információ.
IE vs IR • Az output gépileg is feldolgozható • Jóval nehezebb feladat (domain-függő)
IE alkalmazások • Automatikus adatbázis és tudásbázis generálás (field search, range based queries) • Sajtófigyelő szolgáltatás (pl. egy cég ügyleteinek nyomon követése) • Orvosi zárójelentésekből betegséghez kapcsolódó statisztikák gyűjtése • Szabadalmak figyelése (pl. fehérje interakciók)
Gondolatébresztő alkalmazások • Álláshirdetések összegyűjtése cégek honlapjairól (flipdog.com) • Személyek adatainak (végzettségek, munkahelyek stb.) gyűjtése a Web-ről (zoominfo.com) • Citeseer.org • Automatikus címlista gyűjtés e-mailekből (Carnegie Mellon University) • E-mailekből naptár bejegyzések generálása (Fair Isaac Corporation)
Információ kinyerés főbb problémái • Szemantikai elemzés „Ford” autó vagy cég vagy „Henry Ford” • Említés feloldás, normalizálás „a 3.-os Kovács István” … „Pistike” • Predikátum-argumentum szerkezetek „A Nagyhal kft. megvásárolta a Kishal Bt-t” „A Nagyhal kft.-t megvásárolta a Kishal Bt.” • Domain adaptáció a modell ami kigyűjti a cégek igazgatóit nem fogja az országok fővárosait megtalálni
Gépi fordítás Feladat: Teljes, természetes nyelvű szövegek automatikus fordítása forrásnyelvről célnyelvre. Például angolról magyarra. www.babelfish.com www.google.com/translate www.webforditas.hu
Problémák a Gépi fordításban • Szintaktikai többértelműség • Szemantikai többértelműség • Többszavas kifejezések knightly gymnastics • Idiómákas happy as dog with two tails • Összetett szavak cross dad, snow vomit • Stílus, Szakterületek winchester • Szabad szórend • Hogyan mérhetjük egy gépi fordítás jóságát? pl. BLUE-score
Statisztikai fordítás • Párhuzamos korpuszok • Ha átlagosan egy szónak 3 fordítási lehetősége van és 10 szóból áll egy mondat akkor 310 lehetőségünk van *szórend *hiányzó/bejövő szavak • Fordítási modell: bag-of-words fordítás • Nyelvi modell: értelmes mondatok argmax P(m|a)=argmax P(m)*P(a|m)
Kivonatolás(Summarisation) Feladat: Rövid, de pontos reprezentálása a dokumentum tartalmának. • hírek, tudományos publikációk • mobil, PDA
Kivonatolási megközelítések • Mondat kivonatolás • Legfontosabb mondatok • kohézió, következetesség, teljesség • Absztrakt kivonatolás • Főcím generálás • Kivonatolás dokumentum halmazokból
Kérdés megválaszolás Feladat: Egy természetes nyelven megfogalmazott kérdésre a dokumentumhalmazban megtalálható válasz megtalálása. pl. Melyik a leghosszabb folyó Európában? Következő generációs kereső rendszerek? www.ask.com
Q&A részproblémái • Kérdés típus azonosítás • A kérés fókuszának behatárolása • Válasz típusának meghatározása • Irreleváns dokumentumok kiszűrése • Lehetséges válaszok megtalálása • Normalizáció
Dialógus rendszerek Feladat: Ember-gép interakció megvalósítása természetes nyelvi beszélgetéssel. • Döntés-támogató, navigációs rendszerek • Adatbázis lekérdezések • Ügyfélszolgálatok • e-learning www.nemtom.hu
Trendek • Megközelítések: • ’90 szabályalapú rendszerek • 2000- gépi tanulási megközelítések • Ipari alkalmazások: • Információ visszakeresés • Dokumentum klaszterezés • Információ kinyerés • Gépi fordítás
Folytatás… !? „Nyelvtechnológiai problémák” speckoll. Diplomamunka/TDK rfarkas@inf.u-szeged.hu