Nyelvtechnológiai problémák

Nyelvtechnológiai problémák Farkas Richárd PhD hallgató 2009. március 10.

Áttekintés Információ visszakeresés Dokumentum klasszifikáció Információ kinyerés Gépi fordítás Kivonatolás Kérdés megválaszolás Dialógus rendszerek

Számítógép vs. emberi agy A számítógép képes lehet-e az emberi nyelv megértésére? Villanyirógép

Információ visszakeresés(Information Retrieval) • Feladat: • Adott dokumentumok egy halmaza, • a cél a felhasználó által megfogalmazott lekérdezésnek leginkább megfelelő dokumentumok megtalálása.

Vektor Tér Modell (VTM) • Minden dokumentumot egy vektorral írunk le, ahol a vektor elemei az egyes term-ek előfordulási gyakoriságát jelzik • Azokat a term-eket vizsgáljuk amelyek legalább egyszer előfordulnak legalább egy dokumentumban • bag-of-words

Vektor Tér Modell Lekérdezés: „Brutus” AND „Caesar”

Információ visszakeresés problémái • Adatbáziskezelés • Yahoo ~25 milliárd oldalt indexel (deep web?) • Google 5PB RAMot használ • Indexelés, Folyamatos frissítés • Többtagú és logikai kifejezések • Egyéb problémák • Rangsorolás (PageRank) • Szótövesítés • Összefoglaló elkészítése (kivonatolás?)

Dokumentum klasszifikáció • Feladat: • Adott dokumentumok egy felcímkézett halmaza, a cél olyan modell megalkotása ami új, korábban nem látott dokumentumokat automatikusan felcímkéz.

Dokumentum klasszifikációs alkalmazások • Spam detektálás • e-mail irányítás • hírfigyelés (üzleti, sport stb) • Vélemény detektálás • Szerző azonosítás • Dolgozat javítás 

Dokumentum klasszifikációs megoldások • TFIDF-VTM • Minél többször fordul elő a term a dokumentumban annál reprezentatívabb (tf) • Minél több dokumentumban fordul elő a term annál kevésbé segít az egyes dokumentum-osztályok szétválasztásában (inverse df)

Dokumentum klasszifikáció problémái • Dimenzió csökkentés • Szűrések, egyesítések • Bizonyos típusú szavak (pl. igék) • Tulajdonnevek (SZEMÉLYNÉV a „Kovács” helyett) • Elírások kezelése • Egyéb jellemzők kiaknázása • Dokumentumon belüli pozíció • Dokumentum jellemzők (pl. hossza)

Információ kinyerés(Information Extraction) • Feladat: • A feladat szempontjából fontos információ automatikus kigyűjtése a szöveg mélyelemzésével. Az információ kinyerés inputja egy szöveg (strukturálatlan adat), az outputja pedig strukturált információ.

Információ kinyerés példa

IE vs IR • Az output gépileg is feldolgozható • Jóval nehezebb feladat (domain-függő)

IE alkalmazások • Automatikus adatbázis és tudásbázis generálás (field search, range based queries) • Sajtófigyelő szolgáltatás (pl. egy cég ügyleteinek nyomon követése) • Orvosi zárójelentésekből betegséghez kapcsolódó statisztikák gyűjtése • Szabadalmak figyelése (pl. fehérje interakciók)

Gondolatébresztő alkalmazások • Álláshirdetések összegyűjtése cégek honlapjairól (flipdog.com) • Személyek adatainak (végzettségek, munkahelyek stb.) gyűjtése a Web-ről (zoominfo.com) • Citeseer.org • Automatikus címlista gyűjtés e-mailekből (Carnegie Mellon University) • E-mailekből naptár bejegyzések generálása (Fair Isaac Corporation)

Információ típusok

Információ kinyerés főbb problémái • Szemantikai elemzés „Ford” autó vagy cég vagy „Henry Ford” • Említés feloldás, normalizálás „a 3.-os Kovács István” … „Pistike” • Predikátum-argumentum szerkezetek „A Nagyhal kft. megvásárolta a Kishal Bt-t” „A Nagyhal kft.-t megvásárolta a Kishal Bt.” • Domain adaptáció a modell ami kigyűjti a cégek igazgatóit nem fogja az országok fővárosait megtalálni

Gépi fordítás Feladat: Teljes, természetes nyelvű szövegek automatikus fordítása forrásnyelvről célnyelvre. Például angolról magyarra. www.babelfish.com www.google.com/translate www.webforditas.hu

Problémák a Gépi fordításban • Szintaktikai többértelműség • Szemantikai többértelműség • Többszavas kifejezések knightly gymnastics • Idiómákas happy as dog with two tails • Összetett szavak cross dad, snow vomit • Stílus, Szakterületek winchester • Szabad szórend • Hogyan mérhetjük egy gépi fordítás jóságát? pl. BLUE-score

Szabályalapú rendszerek

Statisztikai fordítás • Párhuzamos korpuszok • Ha átlagosan egy szónak 3 fordítási lehetősége van és 10 szóból áll egy mondat akkor 310 lehetőségünk van *szórend *hiányzó/bejövő szavak • Fordítási modell: bag-of-words fordítás • Nyelvi modell: értelmes mondatok argmax P(m|a)=argmax P(m)*P(a|m)

Kivonatolás(Summarisation) Feladat: Rövid, de pontos reprezentálása a dokumentum tartalmának. • hírek, tudományos publikációk • mobil, PDA

Kivonatolási megközelítések • Mondat kivonatolás • Legfontosabb mondatok • kohézió, következetesség, teljesség • Absztrakt kivonatolás • Főcím generálás • Kivonatolás dokumentum halmazokból

Kérdés megválaszolás Feladat: Egy természetes nyelven megfogalmazott kérdésre a dokumentumhalmazban megtalálható válasz megtalálása. pl. Melyik a leghosszabb folyó Európában? Következő generációs kereső rendszerek? www.ask.com

Q&A részproblémái • Kérdés típus azonosítás • A kérés fókuszának behatárolása • Válasz típusának meghatározása • Irreleváns dokumentumok kiszűrése • Lehetséges válaszok megtalálása • Normalizáció

Dialógus rendszerek Feladat: Ember-gép interakció megvalósítása természetes nyelvi beszélgetéssel. • Döntés-támogató, navigációs rendszerek • Adatbázis lekérdezések • Ügyfélszolgálatok • e-learning www.nemtom.hu

Trendek • Megközelítések: • ’90 szabályalapú rendszerek • 2000- gépi tanulási megközelítések • Ipari alkalmazások: • Információ visszakeresés • Dokumentum klaszterezés • Információ kinyerés • Gépi fordítás

Folytatás… !? „Nyelvtechnológiai problémák” speckoll. Diplomamunka/TDK rfarkas@inf.u-szeged.hu

Nyelvtechnológiai problémák

Nyelvtechnológiai problémák

Presentation Transcript

Stratégiai menedzsment

AZ IMMUNOLÓGIAI LABORATÓRIUM DIAGNOSZTIKAI LEHETŐSÉGEI

Analyse des algorithmes: une introduction

Module de la langue é crite Ewa Półtorak Département d'Enseignement à Distance Université de Silésie

Báo cáo kết quả hoạt động v à định h ướng cho 6 th áng ti ếp theo

Syndrome douloureux pelvien chronique SDPC: prostatites chroniques et cystalgies urines claires. Bilan et prise en cha

A BIOTECHNOLÓGIA TUDOMÁNYTERÜLETI KAPCSOLATAI

VIÊM HỆ THỐNG XOANG TRƯỚC: GIẢI PHẪU LÂM SÀNG, CẬN LÂM SÀNG, CHẨN ĐOÁN VÀ HƯỚNG XỬ TRÍ

GIỚI THIỆU MÔN GIẢI PHẪU BỆNH

NÖVÉNYFÖLDRAJZ ÉS TÁRSULÁSTAN 1. előadás Dr. Bartha Dénes

Module de la langue é crite Ewa Półtorak Département d'Enseignement à Distance

PHÂN TÍCH THIẾT KẾ HƯỚNG ĐỐI TƯỢNG VỚI UML

GIỚI THIỆU MÔN GIẢI PHẪU BỆNH

HOÏC VIEÄN HAØNH CHÍNH

PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG

Kis- és középvállalkozói pályázati lehetőségek

Phần 2 Các giai đoạn của Quản lý dự án

ĐẠI CƯƠNG VỀ DỊCH TỄ HỌC

NGHỊ QUYẾT về định hướng chiến lược sản phẩm công nghiệp giai đoạn 2011- 2015 và đến năm 2020

CẤU TRÚC DỮ LIỆU VÀ GIẢI THUẬT (501040)

(Số 04 - NQ/TU , ngày 07/11/2011)

GIỚI THIỆU GIẢI PHÁP Lotus Contact Center