390 likes | 618 Views
Adatbiztonság és tartalom alapú információkezelés. Dr. Levendovszky János, e gyetemi tan ár BME, Híradástechnikai Tanszék el érhetőség + kurzusinfo : bonusz@octopus.hit.bme.hu , H áttéranyagok, h i rdetmények : http :// neural.hit.bme.hu/ tartalom
E N D
Adatbiztonság és tartalom alapú információkezelés Dr. Levendovszky János, egyetemi tanár BME, Híradástechnikai Tanszék elérhetőség+ kurzusinfo : bonusz@octopus.hit.bme.hu, Háttéranyagok, hirdetmények: http://neural.hit.bme.hu/tartalom fogadóóra (konz. időpont): csütörtök 4h (IL 118)
Számonkérés • Félévközben 1 db. Zh (illetve PZh) • Projektfeladat (szorgalmi időszak végén) • Vizsga dolgozat leadás + előadás • A számonkérés anyaga csak az előadásokon elhangzottakat érinti
Ajánlott irodalom • S. Mitra, T. Acharya: “Data mining multimeida, soft computing and bioinformatics”, Wiley, 2003 • S. Haykin: “Neural networks, a comprehensive foundation”, Prentice Hall, 1999 • J. Han, M. Kamber: “Adatbányászat”, PANEM, 2004, • Előadásjegyzetek
Tartalom alapú információkezelés : adott adattípusokon belül rejtett kapcsolatok és „minták”, függőségek …stb. feltárása Multimédiás adatok: Bármilyen információ ami tárolható, processzálható és átvihető digitális médiumon keresztül (pl. video, hang, szöveg, grafikus információk, …stb.)
kép szöveg hang Információelőhívás és kezelés tartalom alapján ??? Melyik biztonsági kamerás felvételen szerepelt álarcos ember ? Melyik e-mail-ben szerepel a szó Bin Laden ?_ Melyik híradóban hangzott el a szó ‘elnökválasztás”
Általános modell Feature extraction, transformation, compression Asszociatív leképezés, osztályozó algoritmus Relevancia rangsor végeredmény Query Klaszterezés, indexelés (redukált dimenziójú térben) Feature extraction, transformation, compression MULTIMEDIA adat korpusz
Prototípus: a NAP Indexelés – asszociatív leképezések Instances (egyedi megvalósulások)
Prototípusok objektumok (indexek) Megfigyelt objektum (képrészlet): megfigyelési tér metrikával (pl. Hamming távolság) Asszociáció: Asszociatív leképezés (formális definíció)
1-es prototípus 3-as prototípus 2-es prototípus Klaszterezés Objects (e.g. texts, or sound FFTs, or images)
Adott úgy, hogy és Formális leírás
1-es prototípus 3-as prototípus query 2-es prototípus Klaszterezés – indexing (osztályozás) Objects (e.g. texts, or sound FFTs, or images)
Csak az információ fele kell Lényegkiemelés, dimenzió csökkentés
Így is csak fele sávszélesség kell !!! Egy kicsit jobb megoldás
Dimenzióredukció Lényegtelen és lényeges részek szétválasztása 1. térbeli frekvenciák alapján 2. statisztikai függetlenség alapján 3. Időbeli változások alapján
„prioritezált” kép Transzformáció a fontossági sorrend felállítására „Vágás”(a nem fontos info. eldobása) Tömörített kép Inverz transzformáció Veszteséges visszaállítás a vágás után A képtömörítés algoritmusa Alapgondolat: A nem fontos részek eldobása. Azt hogy mi a fontos egy transzformáció mondja meg, amely a képet “fontossági sorrendbe állítja”. Ere-deti kép
Transzformációk • Karhunen - Loéve Transzformáció (KLT): a fontossági sorrendet a “főkomponen-sek” határozzák meg, amelyek lineár kombinációjából létrejön a korelált videojel. • Discrete Cosine Transform (DCT): A magasabb térbeli periodicitású komponensek elhagyása
Eredmények II Mi releváns, mi nem ?
Történeti áttekintés • 1960-70 „String matching” probléma, Boyer-Moore algoritmus, Knuth-Morris-Pratt algoritmus, Karp- Rabin algoritmus Tartalomalapú információkezelés természetes nyelveken (kis tudományos szövegkorpuszok, Boolean és vektortéralapú modellek, Salton, Cornell University)
Történeti áttekintés (folyt.) • 1980-as évek Nagy dokumentum adathalmazok, vállalati tulajdonban • Lexis – Nexis • Dialog • MEDLINE
Történeti áttekintés (folyt.) • 1990-as évek FTP letölthető dokumentumok keresése az interneten • Archie • WAIS Keresés a világhálón • Lycos • Yahoo • Altavista Automated text categorization and clustering Érzékelő és felügyelő rendszerek multimédiás adathalmazai
Történeti áttekintés (folyt.) • 2000 - as évek Link analízis web-es keresésre - Google Automatikus információ kinyerés – Whizbang, Fetch, Burning Glass Kérdés felelet típusú információkinyerés – TREC Q/A track Multimedia IR Cross language IR – DARPA tides Dokumentum összefoglalók
Állapotgráf: a a 3 0 1 2 4 b a b b a b a a b a Pattern: b b a b Text:abbba ba babba b b a b bbba a b ba b
a b a b b a b 3 0 4 2 1 a a b a Pattern: b b a b Text:abbba ba babba b b a b bbba a b ba b Állapotgráf:
Komplexitás: Pattern: b b a b Előhívás Text: a b b b a b a b a b b a bb a b b b b a a b b a b 0 0 1 2 2 3 4 0 1 0 1 2 3 4 2 3 4 2 2 2 3 0 1 2 3 4
Pattern: b a b a b c a Eltolt pattern: b a b a b c a b a b a b b a b Knuth- Morris- Pratt algoritmus Text: c b b a b a b b a b a b a c a b a Nincs szükség visszamenőleges összehasonlításra !
Next(1)=0 b a b a b b a b a b Next(2)=1 b a b a b b a b a b Next(3)=1 b a b a b b a b a b Next(4)=2 b a b a b Next(5)=3 b a b a b Next táblázat
Skip 5 Skip 3 Boyer – Moore algoritmus Text: … a b b a d b a b a c b d a Pattern: b c b a b b c b a b b c b a b Skip tábla
Példa Text: …one of them matches and other mismatch from Pattern: match Skip tábla
5 5 match 1 match 5 match 5 5 match 5 match match No skip match match match match Példa (folyt.) …one of them matches and other mismatch from
Boyer – Moore – Horspool algoritmus Text: …one of them matches and other mismatch from Pattern: match Skip tábla
5 5 match 1 match 5 5 match 5 5 match 1 match 5 match No skip match match match match BMH (folyt.) …one of them matches and other mismatch from
Text: 1 0 3 4 3 4 3 4 2 0 1 AND 98 98 98 98 98 98 98 98 Karp – Rabin algoritmus Pattern: d e d Text: b a d e d e d c a b Text: 1 0 3 4 3 4 3 2 0 1 Transzf: 28 19 98 119 98 117 85 51 0 0 1 0 1 0 0 0
Előhívás tömörített file-ban Text: a b a c b b a a b c a b c Pattern: ac Huffman kódolás 11 = c 10 = b 0 =a Pattern:011 Text: 010011101000101101011 NEMOK OK