1 / 28

Adatbiztonság és tartalom alapú információkezelés

Adatbiztonság és tartalom alapú információkezelés. 2. előadás. Tartalom alap ú inform ációkezelés : adott adattípusokon belül rejtett kapcsolatok és „minták”, függőségek …stb. feltárása. Multimédiás adatok:

garson
Download Presentation

Adatbiztonság és tartalom alapú információkezelés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Adatbiztonság és tartalom alapú információkezelés 2. előadás

  2. Tartalom alapú információkezelés : adott adattípusokon belül rejtett kapcsolatok és „minták”, függőségek …stb. feltárása Multimédiás adatok: Bármilyen információ ami tárolható, processzálható és átvihető digitális médiumon keresztül (pl. video, hang, szöveg, grafikus információk, …stb.)

  3. kép szöveg hang Információelőhívás és kezelés tartalom alapján ??? Melyik biztonsági kamerás felvételen szerepelt álarcos ember ? Melyik e-mail-ben szerepel a szó Bin Laden ?_ Melyik híradóban hangzott el a szó ‘elnökválasztás”

  4. String matching

  5. Text: 1 0 3 4 3 4 3 4 2 0 1 AND 98 98 98 98 98 98 98 98 Karp – Rabin algoritmus Pattern: d e d Text: b a d e d e d c a b Text: 1 0 3 4 3 4 3 2 0 1 Transzf: 28 19 98 119 98 117 85 51 0 0 1 0 1 0 0 0

  6. Előhívás tömörített file-ban Text: a b a c b b a a b c a b c Pattern: ac Huffman kódolás 11 = c 10 = b 0 =a Pattern:011 Text: 010011101000101101011 NEMOK OK

  7. Algoritmusok + morfológiai megfontolások Alkalmazás: pl. www keresés (több mint egy trillió dokumentum) Általánosítás – string matching helyett kulcsszavak felismerése természetes nyelvekben Természetes nyelv: magyar, angol, kínai, héber, arab …

  8. kulcsszavak Homonimák: Előhívhat irreleváns dokumentumokat (pl. nap vs. Nap fogas vs fogas Hatvan vs hatvan) Szinonimák: Elmulaszt releváns dokumentumokat (pl. autó vs. kocsi, gépjármű USA vs. Amerika ) Példa Melyik Shakespeare dráma tartalmazza a szavakat: Ceasar AND Brutus AND Calpurnia A kulcsszavas keresés problémái:

  9. Kulcsszó szerinti keresés Brutus AND Caesar AND Calpurnia (bitwise AND) 110100 AND 110111 AND 101111 = 100100.

  10. Probléma Hatalmas adatmező, nem tudjuk reprezentálni Nagyon ritkás kitöltésű Van-e ügyesebb reprezentáció ?

  11. Invertált indexek

  12. Komplexitás: Kulcsszó: Brutus AND Caesar

  13. Skip pointers 8 31 SKIP Tudunk-e gyorsítani ? 16 128 8 31

  14. Optimalizálás ? Sok rövid skip: kisebb ugrások, sok pointer összehasonlítás, de nagyobb valószínűséggel ugrunk Kevés hosszú skip: nagyobb ugrások, kevés pointer összehasonlítás, de kisebb valószínűséggel ugrunk

  15. További optimalizálás Brutus AND Calpurnia AND Ceasar ??? Caesar AND Brutus AND Calpurnia Műveletvégrehajtás: Frekvencia szerinti sorbarendezés Növekvő frekvenciák szerinti sorrendben

  16. Általános megoldás Kulcsszó Tokenizálás (szótövekre bontás, morfológia) Indexelés (adatbázis) Matching (algoritmus) végeredmény

  17. DOC 1. DOC 2. Indexelés (invertált indexek)

  18. Sokszoros előfordulás kiszűrése

  19. Invertált index

  20. West Law adatbázis Előfizethető jogi adatbázis (precedencia típusú igazságszolgáltatási rendszerben fontos) ADATMENNYISÉG: 7 terrabyte, appr. 700,000 felhasználó Tipikus keresés: Gondatlanságból elkövetett AND felmentő ítélet AND állammal szemben

  21. TOKENIZÁLÓ (nyelvi műveletek, természetes nyelvprocesszálás) Kimenet: fiú, kerékpár, pedál, hajt Tokenizálás Bemenet: fiú aki éppen egy biciklin pedálozik

  22. Problémák Hewlett-Packard: egy szó, két szó ? Nyelvek szóelválasztás nélkül (pl. Japán és Kínai) Balról jobbra (magyar, angol) vagy jobbról balra (héber, arab), vagy fel le (kínai) Rövidítések: holnap MIT tanul MIT vagy mit ? Dátumok: 3/21/12; March 21, 1912; BC 55 Kis, vagy nagybetű: FED vs. fed

  23. Redukálás • The boy’s cars are different in colours • The boy car be different colour Standard forma Sokfajta előfordulás Pl. Porter algoritmus (nyelvészeti szabályok segítségével minden szót 65 lépésben szabványosít)

  24. Kifejezés alapú keresések Pl. „ .. A szegedi egyetemen tanultam …” Bigramok: „szegedi egyetem”, „egyetem tanulás” … Porbléma: nagyon növelődik a keresendő objektumok száma

  25. N M F F Indexelt bigramok kifejezés alapú kereséshez A kőszívű ember fiai Az egész szöveg testet indexeljük az {N,M,F} halmazzal (pl. MNMMFFFNN…) Algoritmus: String matching a BM algoritmussal megkeresvén a szövegben az NMFF stringeket, ezek között szó alapú keresés

  26. Folytonos szöveg keresése Be:1:17,19; 4:17,191,291,430,434;5:14,19,101; ... Ugyanez közelségi keresésre is !!!

  27. A pozicionális keresés ára • Appr. 4x-es indexadat halmaz • Az indextáblázat a szöveg méretének appr. 35-40%-a • Ez angol nylevű szövegek esetén igaz

More Related