1 / 25

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK. 1. Úvod. Organizační záležitosti. a lespo ň 50 % účast na cvičeních i přednáškách obsah cvičení = prezentované referáty 2 referáty (studenti) na 1 cvičení – 2x 45 minut

monita
Download Presentation

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vyhledávání v multimediálních databázíchTomáš SkopalKSI MFF UK 1. Úvod

  2. Organizační záležitosti • alespoň50% účast na cvičeních i přednáškách • obsah cvičení = prezentované referáty • 2 referáty (studenti) na 1 cvičení – 2x 45 minut • účel: rozpracování výkladu z přednášky nebo příklady aplikací • 30 min. prezentace v PowerPointu nebo PDF + 10 min. diskuse • úroveň referátu zohledněna u zkoušky (ta je ústní) • 11. a 18.10. výběr/konzultace témat, od 8.11. prezentování • pro zájemce: témata diplomových, příp. i dizertačních prací (PhD) • sledujte stránky předmětu DBI030 na urtax.ms.mff.cuni.cz/skopal

  3. Rozsah kurzu • vyhledávání v multimediálníchdatabázích(similarity search in multimedia databases) computer graphics database systems data mining MDB pattern matching information retrieval

  4. O čem to bude • podobnostní vyhledávání (content-based similarity retrieval) • query-by-example dotazy • extrakce vlastností • základní metody rychlého a kvalitního vyhledávání • některé aplikace

  5. O čem to nebude • správa multimediálních souborů • využívání relačních databází pro správu MM objektů • distribuované a P2P systémy • hybridní a text-based systémy, filtrovací služby • komunikace a síťování pro MDB služby (např. VoIP, internetová televize, streamování)

  6. Motivace (1) • klasické (relační, objektové) databáze • pevně daná struktura i sémantika (schéma databáze, tj. typované atributy, tabulky, integritní omezení, funkční závislosti, dědičnost, atd.) • „umělá“ povaha dat (člověkem vytvářené atributy a jednoznačně interpretovatelné atributy) • víme co hledáme = stačí dotazy na úplnou shodu • multimediální databáze • kolekce obrázků, audia, videa, časových řad, textů, XML, atd. • obecně kolekce nestrukturovaných dat (dokument) • vnitřní struktura i sémantika je skrytá a nejednoznačná - závislá na aplikaci, datech, i subjektivitě uživatele • „analogová“ povaha dat (digitalizace signálů/senzorových dat) • nevíme pořádně co hledáme ani jak se ptát = nestačí dotazy na úplnou shodu

  7. Příklady multimediálních dat (1) obrazové databáze - biometrické databáze (otisky prstů, oční duhovky, obličejové rysy) - medicínské snímky (rentgen, tomografie, ultrazvuk, atd.) - satelitní snímky, meteorologický radar - snímky materiálových řezů - heterogenní kolekce (web) a mnoho dalších... video kolekce - TV zpravodajství - filmové kolekce, domácí video - záznamy z bezpečnostních kamer (letiště, supermarkety, centra měst, atd.) - „netradiční“ sekvence (medicínské, průmyslové, atd.) geometrické kolekce - CAD modely - opět biometrické databáze - geografická, kartografická a GIS data

  8. Příklady multimediálních dat (2) časové řady, audio, (obecně diskrétní signály) - vývoj kurzů akcií, měn, atd. - medicínská data - EEG, EKG, atd. - řeč (obecně zvuk) atd. biologické databáze - chemické látky (molekuly, sloučeniny, atd.) - sekvence DNA, bílkovin melodie - notové partitury - MIDI soubory

  9. Příklady multimediálních dat (3) text, hyper-text - digitální knihovny, archivy, e-mail - web atd. „document-centric“ XML data, semi-strukturovaná data

  10. Motivace (2) • klasické (relační, objektové) databáze • dotaz lze jednoduše formulovat, např. pomocí SQL • dotaz na úplnou shodu přesně určuje jak vypadá plně relevantní a plně nerelevantní možný výstup • výsledek dotazu není dále strukturován (všechno je stejně relevantní) • propracované přístupové metody = rychlé vykonávání dotazu SELECT * FROM zamestnanec WHERE vek BETWEEN 25 AND 35 • multimediální databáze • jak vůbec formulovat dotaz? • jak dopředu kvantifikovat co pro mně (ještě) je a co (už) není relevantní? • co je to vlastně relevance dokumentu k dotazu? • jak dotaz provést efektivně (rychle)?

  11. Náplň kurzu (osnova) První část (obecné aspekty, architektury, modelování): • struktura MDB systémů, modality vyhledávání, dotazy na podobnost • extrakce vlastností, míry podobnosti, kvalita a rychlost vyhledávání • mapování a redukce dimenze • aplikace, ukázky existujících systémů (důraz na kvalitu vyhledávání) Druhá část (implementace, indexování): • metrické přístupové metody (MAM) vs. prostorové přístupové metody (SAM) • principy indexování pomocí MAM • statické MAM, dynamické MAM • přibližné a pravděpodobnostní vyhledávání • ostatní... (důraz na rychlost vyhledávání)

  12. Typy MDB systémů • text-based retrieval systémy • vyhledávání pouze podle textové anotace (meta-informace) • automatické anotování (např. images.google.com využívá textu na stránce, kde je na obrázek odkaz, případně název souboru obrázku) • ruční anotace – většinou kvalitnější, anotuje expert, který ví, jak anotovat • dotazy podobně jako u fulltextových vyhledávačů, tj. množina klíčových slov • výhoda – využití stávající implementace fulltextových vyhledávačů • nevýhody • nelze aplikovat na neanotované kolekce, ruční anotování je drahé • anotace je vždy nějak nepřesná (subjektivní, neúplná, zavádějící, atd.) • získané dokumenty můžou být úplně irelevantní • nezískali jsme dokumenty, které jsou relevantní - „netrefili“ jsme se do anotace • content-based retrieval systémy • vyhledávání pouze podle obsahu • různé metody popisu obsahu • výhody • vyhledávání podle skutečného obsahu • nezávislost na anotaci, • nevýhody – mnoho různých metod modelování struktury a sémantiky obsahu, kterou vybrat? • hybridní systémy • kombinují výše zmíněné dva

  13. Ukázka text-retrieval systému • images.google.com, klíčové slovo „sun“

  14. Modality vyhledávání • dotazování (querying) • dotaz v kontextu dokumentu • dokument chápán jako databáze, kde hledáme dílčí fragment • rozpoznávání/analýza obrazu, vyhledávání v DNA sekvencích, řetězcích, apod. • dotaz v kontextu kolekce • celý dokument představuje sémantickou jednotku • databázový přístup • prohlížení (browsing) • navigace v celé kolekci • hierarchická struktura kolekce • okolí (web, ontologie) • vhodné pro interaktivní hledání formou zpřesňování

  15. s( , ) = 100 Potřeby pro modelování relevance • vícehodnotová relevance (ne pouze binární) dokumentu k dotazu, zavedení pojmu „hodně“ nebo „málo“ relevantní • věrná aproximace lidského posuzování relevance • jednoduchost modelování relevance pro různé aplikační domény a uživatele, podpora alternativních relevancí • jednoduchost modelování samotného dotazu • potřeba obecně použitelného formalismu  míra podobnosti jako funkce přiřazující dvěma dokumentům skóre jejich podobnosti – vzájemná relevance s(Di, Dj)=číslo

  16. Formalizace • potřeba reprezentace dokumentu D modelovým objektem O • potřebujeme zjednodušit a uchopit problém, proto formalizace • objekt O je popsán těmi vlastnosti dokumentu D, které jsou využívány danou mírou podobnosti • souhrn těchto vlastností generují universum U všech možných modelových objektů, tj. OU, universum konečné i nekonečné • tzv. extrakce vlastností – zjednodušení problému popisu obsahu dokumentu • databáze je reprezentována datovou sadou SU • míra podobnosti je potom definována jako s: U×UR • vyšší skóre objektů se interpretuje jako vyšší podobnost dokumentů • často je praktičtější používat míru odlišnosti d (vzdálenost) • vyšší skóre objektů se interpretuje jako nižší podobnost dokumentů • k míře podobnosti lze vždy najít ekvivalentní míru odlišnosti (např. d() = – s() )

  17. Reprezentace dokumentů • různé typy extrakce vlastností, tj. tvorba reprezentací dokumentů • objekt je nejčastěji vektor – universum je diskrétní vektorový prostor konečné dimenze • objekt je posloupnost prvků – universum je uzávěr na prvcích • spec. případ je řetězec, universum uzávěr na abecedě • objekt je množina prvků – universum je potenční množina na prvcích • objekt je graf • objekt je 2D/3D geometrie • a další reprezentace, např. spojité funkce • míra podobnosti/odlišnosti „rozumí“ dané reprezentaci, resp. pracuje s její extrahovanou strukturou a sémantikou • nelze oddělit volbu metody extrakce a volbu míry • konkrétní význam extrakce a míry je silně závislý na aplikační doméně • metody redukce dimenze • mechanismy jak u vektorových reprezentací snížit dimenzi (a tím prostorové náklady) • redukované vektory by měly dobře zachovávat distribuci podobnosti, tj. zachovávat podobnosti mezi starými a mezi novými vektory

  18. Dotazování podle podobnosti • k closest pairs • similarity join • a další • query-by-example typy dotazů • ptáme se přímo nějakým dokumentem (ať dokumentem z databáze ve které hledáme, nebo z jiným) • navíc specifikujeme rozsah dotazu nebo výsledku • bodový dotaz • rozsahový dotaz – práh r • k nejbližších sousedů - k • reverzních k nejbližších sousedů – k a další...

  19. Vlastnosti měr podobnosti • topologické vlastnosti • metrické axiomy • reflexivita d(Oi, Oi) = 0 • pozitivitad(Oi, Oj) > 0  Oi ≠ Oj • symetried(Oi, Oj) = d(Oj, Oi) • trojúhelníková nerovnostd(Oi, Oj) + d(Oj, Ok) ≥ d(Oi, Ok) • ostatní vlastnosti • adaptabilita (učení, zpětná vazba) • závislost na kontextu (na množství dat, okolí, čase)

  20. 0 50 50 80 30 20 200 Kritika metrických vlastností ad reflexivita: objekt nemusí být sám sobě podobný ad pozitivita: objekt je maximálně podobný (totožný) jinému objektu ad symetrie: objekt 1 je podobný objektu 2 jinak, než je tomu naopak (záleží na směru porovnávání) ad trojúhelníková nerovnost: obecně neplatí tranzitivita

  21. kolekce odpověďOdp RelOdp relevantníRel Kvalita vyhledávání vs. efektivita vyhledávání • kvalita vyhledávání(retrieval effectiveness) je úspěšnost vyhledání dokumentů vzhledem k očekávání uživatele • vždy subjektivní, nelze dosáhnout dokonalosti • měření na základě subjektivně ohodnocené kolekce • nejčastěji přesnost P = |RelOdp|/|Odp| a úplnost R = |RelOdp|/|Rel| • rychlost vyhledávání (retrieval efficiency) ovlivňuje reálnou použitelnost a škálovatelnost • I/O operace, množství výpočtů podobností/vzdáleností, ostatní CPU náklady • potřeba speciálních přístupových metod, resp. indexování, sekvenční průchod je u velkých databází nereálný

  22. Indexování • minimalizace výpočtů vzdáleností • obecně 2 strategie vyhledávání • využití trojúhelníkové nerovnosti, resp. metrických axiomů – metrické přístupové metody • nalezení levně spočitatelné náhrady za původní vzdálenost, pak lze hledat i sekvenčně • ohraničující metrika nebo i nemetrika • mapování do vektorového prostoru, pak aplikace Lp metrik • využití prostorových i metrických přístupových metod • minimalizace I/O operací • konstrukce indexu jako pomocné externí struktury pro rychlé vyhledávání • perzistentní, dynamické (škálovatelné), vyvážené (robustní) struktury • stromové (ala B-strom) • hašovací • logaritmické nebo lepší složitosti přístupu, lineární složitosti konstrukce • metody přibližného vyhledávání • paralelizace, distribuované indexy, P2P vyhledávání

  23. Prostorové přístupové metody • použitelné pokud objekty jsou vektory a používáme Lp metriky • R*-strom, X-strom, UB-strom, atd. • problém prokletí dimenzionality • u dimenzí větších 10~20 tyto metody selhávají • výhody • indexace nezávislá na metrice, lze používat různé metriky během dotazování • nevýhody • pouze vektorová data • indexace nezávislá na metrice, struktura není „šitá na míru“, nekopíruje optimálně distribuci vzdáleností v sadě • použití omezeno na jednoduché metriky, např. Lp

  24. Metrické přístupové metody • obecně použitelné pro objekty libovolného metrického prostoru • M-strom, D-index, atd. • problém vysoké vnitřní dimenze • zobecnění prokletí dimenzionality do metrických prostorů • výhody • indexace „šitá na míru“ dané metrice, lepší výkonnost než prostorové metody • libovolná metrická data • nevýhody • pro vyhledávání nelze použít (výrazně) jiné metriky (během dotazování) aniž by byl vytvořen jiný index

  25. Další témata • přibližné a pravděpodobnostní vyhledávání • nemetrické vyhledávání • otevřené problémy

More Related