280 likes | 423 Views
Adatbiztonság és tartalom alapú információkezelés. 2. előadás. Tartalom alap ú inform ációkezelés : adott adattípusokon belül rejtett kapcsolatok és „minták”, függőségek …stb. feltárása. Multimédiás adatok:
E N D
Adatbiztonság és tartalom alapú információkezelés 2. előadás
Tartalom alapú információkezelés : adott adattípusokon belül rejtett kapcsolatok és „minták”, függőségek …stb. feltárása Multimédiás adatok: Bármilyen információ ami tárolható, processzálható és átvihető digitális médiumon keresztül (pl. video, hang, szöveg, grafikus információk, …stb.)
kép szöveg hang Információelőhívás és kezelés tartalom alapján ??? Melyik biztonsági kamerás felvételen szerepelt álarcos ember ? Melyik e-mail-ben szerepel a szó Bin Laden ?_ Melyik híradóban hangzott el a szó ‘elnökválasztás”
Text: 1 0 3 4 3 4 3 4 2 0 1 AND 98 98 98 98 98 98 98 98 Karp – Rabin algoritmus Pattern: d e d Text: b a d e d e d c a b Text: 1 0 3 4 3 4 3 2 0 1 Transzf: 28 19 98 119 98 117 85 51 0 0 1 0 1 0 0 0
Előhívás tömörített file-ban Text: a b a c b b a a b c a b c Pattern: ac Huffman kódolás 11 = c 10 = b 0 =a Pattern:011 Text: 010011101000101101011 NEMOK OK
Algoritmusok + morfológiai megfontolások Alkalmazás: pl. www keresés (több mint egy trillió dokumentum) Általánosítás – string matching helyett kulcsszavak felismerése természetes nyelvekben Természetes nyelv: magyar, angol, kínai, héber, arab …
kulcsszavak Homonimák: Előhívhat irreleváns dokumentumokat (pl. nap vs. Nap fogas vs fogas Hatvan vs hatvan) Szinonimák: Elmulaszt releváns dokumentumokat (pl. autó vs. kocsi, gépjármű USA vs. Amerika ) Példa Melyik Shakespeare dráma tartalmazza a szavakat: Ceasar AND Brutus AND Calpurnia A kulcsszavas keresés problémái:
Kulcsszó szerinti keresés Brutus AND Caesar AND Calpurnia (bitwise AND) 110100 AND 110111 AND 101111 = 100100.
Probléma Hatalmas adatmező, nem tudjuk reprezentálni Nagyon ritkás kitöltésű Van-e ügyesebb reprezentáció ?
Komplexitás: Kulcsszó: Brutus AND Caesar
Skip pointers 8 31 SKIP Tudunk-e gyorsítani ? 16 128 8 31
Optimalizálás ? Sok rövid skip: kisebb ugrások, sok pointer összehasonlítás, de nagyobb valószínűséggel ugrunk Kevés hosszú skip: nagyobb ugrások, kevés pointer összehasonlítás, de kisebb valószínűséggel ugrunk
További optimalizálás Brutus AND Calpurnia AND Ceasar ??? Caesar AND Brutus AND Calpurnia Műveletvégrehajtás: Frekvencia szerinti sorbarendezés Növekvő frekvenciák szerinti sorrendben
Általános megoldás Kulcsszó Tokenizálás (szótövekre bontás, morfológia) Indexelés (adatbázis) Matching (algoritmus) végeredmény
DOC 1. DOC 2. Indexelés (invertált indexek)
West Law adatbázis Előfizethető jogi adatbázis (precedencia típusú igazságszolgáltatási rendszerben fontos) ADATMENNYISÉG: 7 terrabyte, appr. 700,000 felhasználó Tipikus keresés: Gondatlanságból elkövetett AND felmentő ítélet AND állammal szemben
TOKENIZÁLÓ (nyelvi műveletek, természetes nyelvprocesszálás) Kimenet: fiú, kerékpár, pedál, hajt Tokenizálás Bemenet: fiú aki éppen egy biciklin pedálozik
Problémák Hewlett-Packard: egy szó, két szó ? Nyelvek szóelválasztás nélkül (pl. Japán és Kínai) Balról jobbra (magyar, angol) vagy jobbról balra (héber, arab), vagy fel le (kínai) Rövidítések: holnap MIT tanul MIT vagy mit ? Dátumok: 3/21/12; March 21, 1912; BC 55 Kis, vagy nagybetű: FED vs. fed
Redukálás • The boy’s cars are different in colours • The boy car be different colour Standard forma Sokfajta előfordulás Pl. Porter algoritmus (nyelvészeti szabályok segítségével minden szót 65 lépésben szabványosít)
Kifejezés alapú keresések Pl. „ .. A szegedi egyetemen tanultam …” Bigramok: „szegedi egyetem”, „egyetem tanulás” … Porbléma: nagyon növelődik a keresendő objektumok száma
N M F F Indexelt bigramok kifejezés alapú kereséshez A kőszívű ember fiai Az egész szöveg testet indexeljük az {N,M,F} halmazzal (pl. MNMMFFFNN…) Algoritmus: String matching a BM algoritmussal megkeresvén a szövegben az NMFF stringeket, ezek között szó alapú keresés
Folytonos szöveg keresése Be:1:17,19; 4:17,191,291,430,434;5:14,19,101; ... Ugyanez közelségi keresésre is !!!
A pozicionális keresés ára • Appr. 4x-es indexadat halmaz • Az indextáblázat a szöveg méretének appr. 35-40%-a • Ez angol nylevű szövegek esetén igaz