250 likes | 349 Views
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK. 1. Úvod. Organizační záležitosti. a lespo ň 50 % účast na cvičeních i přednáškách obsah cvičení = prezentované referáty 2 referáty (studenti) na 1 cvičení – 2x 45 minut
E N D
Vyhledávání v multimediálních databázíchTomáš SkopalKSI MFF UK 1. Úvod
Organizační záležitosti • alespoň50% účast na cvičeních i přednáškách • obsah cvičení = prezentované referáty • 2 referáty (studenti) na 1 cvičení – 2x 45 minut • účel: rozpracování výkladu z přednášky nebo příklady aplikací • 30 min. prezentace v PowerPointu nebo PDF + 10 min. diskuse • úroveň referátu zohledněna u zkoušky (ta je ústní) • 11. a 18.10. výběr/konzultace témat, od 8.11. prezentování • pro zájemce: témata diplomových, příp. i dizertačních prací (PhD) • sledujte stránky předmětu DBI030 na urtax.ms.mff.cuni.cz/skopal
Rozsah kurzu • vyhledávání v multimediálníchdatabázích(similarity search in multimedia databases) computer graphics database systems data mining MDB pattern matching information retrieval
O čem to bude • podobnostní vyhledávání (content-based similarity retrieval) • query-by-example dotazy • extrakce vlastností • základní metody rychlého a kvalitního vyhledávání • některé aplikace
O čem to nebude • správa multimediálních souborů • využívání relačních databází pro správu MM objektů • distribuované a P2P systémy • hybridní a text-based systémy, filtrovací služby • komunikace a síťování pro MDB služby (např. VoIP, internetová televize, streamování)
Motivace (1) • klasické (relační, objektové) databáze • pevně daná struktura i sémantika (schéma databáze, tj. typované atributy, tabulky, integritní omezení, funkční závislosti, dědičnost, atd.) • „umělá“ povaha dat (člověkem vytvářené atributy a jednoznačně interpretovatelné atributy) • víme co hledáme = stačí dotazy na úplnou shodu • multimediální databáze • kolekce obrázků, audia, videa, časových řad, textů, XML, atd. • obecně kolekce nestrukturovaných dat (dokument) • vnitřní struktura i sémantika je skrytá a nejednoznačná - závislá na aplikaci, datech, i subjektivitě uživatele • „analogová“ povaha dat (digitalizace signálů/senzorových dat) • nevíme pořádně co hledáme ani jak se ptát = nestačí dotazy na úplnou shodu
Příklady multimediálních dat (1) obrazové databáze - biometrické databáze (otisky prstů, oční duhovky, obličejové rysy) - medicínské snímky (rentgen, tomografie, ultrazvuk, atd.) - satelitní snímky, meteorologický radar - snímky materiálových řezů - heterogenní kolekce (web) a mnoho dalších... video kolekce - TV zpravodajství - filmové kolekce, domácí video - záznamy z bezpečnostních kamer (letiště, supermarkety, centra měst, atd.) - „netradiční“ sekvence (medicínské, průmyslové, atd.) geometrické kolekce - CAD modely - opět biometrické databáze - geografická, kartografická a GIS data
Příklady multimediálních dat (2) časové řady, audio, (obecně diskrétní signály) - vývoj kurzů akcií, měn, atd. - medicínská data - EEG, EKG, atd. - řeč (obecně zvuk) atd. biologické databáze - chemické látky (molekuly, sloučeniny, atd.) - sekvence DNA, bílkovin melodie - notové partitury - MIDI soubory
Příklady multimediálních dat (3) text, hyper-text - digitální knihovny, archivy, e-mail - web atd. „document-centric“ XML data, semi-strukturovaná data
Motivace (2) • klasické (relační, objektové) databáze • dotaz lze jednoduše formulovat, např. pomocí SQL • dotaz na úplnou shodu přesně určuje jak vypadá plně relevantní a plně nerelevantní možný výstup • výsledek dotazu není dále strukturován (všechno je stejně relevantní) • propracované přístupové metody = rychlé vykonávání dotazu SELECT * FROM zamestnanec WHERE vek BETWEEN 25 AND 35 • multimediální databáze • jak vůbec formulovat dotaz? • jak dopředu kvantifikovat co pro mně (ještě) je a co (už) není relevantní? • co je to vlastně relevance dokumentu k dotazu? • jak dotaz provést efektivně (rychle)?
Náplň kurzu (osnova) První část (obecné aspekty, architektury, modelování): • struktura MDB systémů, modality vyhledávání, dotazy na podobnost • extrakce vlastností, míry podobnosti, kvalita a rychlost vyhledávání • mapování a redukce dimenze • aplikace, ukázky existujících systémů (důraz na kvalitu vyhledávání) Druhá část (implementace, indexování): • metrické přístupové metody (MAM) vs. prostorové přístupové metody (SAM) • principy indexování pomocí MAM • statické MAM, dynamické MAM • přibližné a pravděpodobnostní vyhledávání • ostatní... (důraz na rychlost vyhledávání)
Typy MDB systémů • text-based retrieval systémy • vyhledávání pouze podle textové anotace (meta-informace) • automatické anotování (např. images.google.com využívá textu na stránce, kde je na obrázek odkaz, případně název souboru obrázku) • ruční anotace – většinou kvalitnější, anotuje expert, který ví, jak anotovat • dotazy podobně jako u fulltextových vyhledávačů, tj. množina klíčových slov • výhoda – využití stávající implementace fulltextových vyhledávačů • nevýhody • nelze aplikovat na neanotované kolekce, ruční anotování je drahé • anotace je vždy nějak nepřesná (subjektivní, neúplná, zavádějící, atd.) • získané dokumenty můžou být úplně irelevantní • nezískali jsme dokumenty, které jsou relevantní - „netrefili“ jsme se do anotace • content-based retrieval systémy • vyhledávání pouze podle obsahu • různé metody popisu obsahu • výhody • vyhledávání podle skutečného obsahu • nezávislost na anotaci, • nevýhody – mnoho různých metod modelování struktury a sémantiky obsahu, kterou vybrat? • hybridní systémy • kombinují výše zmíněné dva
Ukázka text-retrieval systému • images.google.com, klíčové slovo „sun“
Modality vyhledávání • dotazování (querying) • dotaz v kontextu dokumentu • dokument chápán jako databáze, kde hledáme dílčí fragment • rozpoznávání/analýza obrazu, vyhledávání v DNA sekvencích, řetězcích, apod. • dotaz v kontextu kolekce • celý dokument představuje sémantickou jednotku • databázový přístup • prohlížení (browsing) • navigace v celé kolekci • hierarchická struktura kolekce • okolí (web, ontologie) • vhodné pro interaktivní hledání formou zpřesňování
s( , ) = 100 Potřeby pro modelování relevance • vícehodnotová relevance (ne pouze binární) dokumentu k dotazu, zavedení pojmu „hodně“ nebo „málo“ relevantní • věrná aproximace lidského posuzování relevance • jednoduchost modelování relevance pro různé aplikační domény a uživatele, podpora alternativních relevancí • jednoduchost modelování samotného dotazu • potřeba obecně použitelného formalismu míra podobnosti jako funkce přiřazující dvěma dokumentům skóre jejich podobnosti – vzájemná relevance s(Di, Dj)=číslo
Formalizace • potřeba reprezentace dokumentu D modelovým objektem O • potřebujeme zjednodušit a uchopit problém, proto formalizace • objekt O je popsán těmi vlastnosti dokumentu D, které jsou využívány danou mírou podobnosti • souhrn těchto vlastností generují universum U všech možných modelových objektů, tj. OU, universum konečné i nekonečné • tzv. extrakce vlastností – zjednodušení problému popisu obsahu dokumentu • databáze je reprezentována datovou sadou SU • míra podobnosti je potom definována jako s: U×UR • vyšší skóre objektů se interpretuje jako vyšší podobnost dokumentů • často je praktičtější používat míru odlišnosti d (vzdálenost) • vyšší skóre objektů se interpretuje jako nižší podobnost dokumentů • k míře podobnosti lze vždy najít ekvivalentní míru odlišnosti (např. d() = – s() )
Reprezentace dokumentů • různé typy extrakce vlastností, tj. tvorba reprezentací dokumentů • objekt je nejčastěji vektor – universum je diskrétní vektorový prostor konečné dimenze • objekt je posloupnost prvků – universum je uzávěr na prvcích • spec. případ je řetězec, universum uzávěr na abecedě • objekt je množina prvků – universum je potenční množina na prvcích • objekt je graf • objekt je 2D/3D geometrie • a další reprezentace, např. spojité funkce • míra podobnosti/odlišnosti „rozumí“ dané reprezentaci, resp. pracuje s její extrahovanou strukturou a sémantikou • nelze oddělit volbu metody extrakce a volbu míry • konkrétní význam extrakce a míry je silně závislý na aplikační doméně • metody redukce dimenze • mechanismy jak u vektorových reprezentací snížit dimenzi (a tím prostorové náklady) • redukované vektory by měly dobře zachovávat distribuci podobnosti, tj. zachovávat podobnosti mezi starými a mezi novými vektory
Dotazování podle podobnosti • k closest pairs • similarity join • a další • query-by-example typy dotazů • ptáme se přímo nějakým dokumentem (ať dokumentem z databáze ve které hledáme, nebo z jiným) • navíc specifikujeme rozsah dotazu nebo výsledku • bodový dotaz • rozsahový dotaz – práh r • k nejbližších sousedů - k • reverzních k nejbližších sousedů – k a další...
Vlastnosti měr podobnosti • topologické vlastnosti • metrické axiomy • reflexivita d(Oi, Oi) = 0 • pozitivitad(Oi, Oj) > 0 Oi ≠ Oj • symetried(Oi, Oj) = d(Oj, Oi) • trojúhelníková nerovnostd(Oi, Oj) + d(Oj, Ok) ≥ d(Oi, Ok) • ostatní vlastnosti • adaptabilita (učení, zpětná vazba) • závislost na kontextu (na množství dat, okolí, čase)
0 50 50 80 30 20 200 Kritika metrických vlastností ad reflexivita: objekt nemusí být sám sobě podobný ad pozitivita: objekt je maximálně podobný (totožný) jinému objektu ad symetrie: objekt 1 je podobný objektu 2 jinak, než je tomu naopak (záleží na směru porovnávání) ad trojúhelníková nerovnost: obecně neplatí tranzitivita
kolekce odpověďOdp RelOdp relevantníRel Kvalita vyhledávání vs. efektivita vyhledávání • kvalita vyhledávání(retrieval effectiveness) je úspěšnost vyhledání dokumentů vzhledem k očekávání uživatele • vždy subjektivní, nelze dosáhnout dokonalosti • měření na základě subjektivně ohodnocené kolekce • nejčastěji přesnost P = |RelOdp|/|Odp| a úplnost R = |RelOdp|/|Rel| • rychlost vyhledávání (retrieval efficiency) ovlivňuje reálnou použitelnost a škálovatelnost • I/O operace, množství výpočtů podobností/vzdáleností, ostatní CPU náklady • potřeba speciálních přístupových metod, resp. indexování, sekvenční průchod je u velkých databází nereálný
Indexování • minimalizace výpočtů vzdáleností • obecně 2 strategie vyhledávání • využití trojúhelníkové nerovnosti, resp. metrických axiomů – metrické přístupové metody • nalezení levně spočitatelné náhrady za původní vzdálenost, pak lze hledat i sekvenčně • ohraničující metrika nebo i nemetrika • mapování do vektorového prostoru, pak aplikace Lp metrik • využití prostorových i metrických přístupových metod • minimalizace I/O operací • konstrukce indexu jako pomocné externí struktury pro rychlé vyhledávání • perzistentní, dynamické (škálovatelné), vyvážené (robustní) struktury • stromové (ala B-strom) • hašovací • logaritmické nebo lepší složitosti přístupu, lineární složitosti konstrukce • metody přibližného vyhledávání • paralelizace, distribuované indexy, P2P vyhledávání
Prostorové přístupové metody • použitelné pokud objekty jsou vektory a používáme Lp metriky • R*-strom, X-strom, UB-strom, atd. • problém prokletí dimenzionality • u dimenzí větších 10~20 tyto metody selhávají • výhody • indexace nezávislá na metrice, lze používat různé metriky během dotazování • nevýhody • pouze vektorová data • indexace nezávislá na metrice, struktura není „šitá na míru“, nekopíruje optimálně distribuci vzdáleností v sadě • použití omezeno na jednoduché metriky, např. Lp
Metrické přístupové metody • obecně použitelné pro objekty libovolného metrického prostoru • M-strom, D-index, atd. • problém vysoké vnitřní dimenze • zobecnění prokletí dimenzionality do metrických prostorů • výhody • indexace „šitá na míru“ dané metrice, lepší výkonnost než prostorové metody • libovolná metrická data • nevýhody • pro vyhledávání nelze použít (výrazně) jiné metriky (během dotazování) aniž by byl vytvořen jiný index
Další témata • přibližné a pravděpodobnostní vyhledávání • nemetrické vyhledávání • otevřené problémy