230 likes | 371 Views
Vyhledávání informací a multimediální aplikace. Information Retrieval and Multimedia Applications [ http://www.fit.vutbr.cz/~chmelarp/pdb/ ] [ http://www.dcs.gla.ac.uk/ssms07/material.html ]. Vědecké paradigma. psaní. myšlení. čtení. Teorie. Top-down approach. Věda. Experiment.
E N D
Vyhledávání informacía multimediální aplikace Information Retrievaland Multimedia Applications [ http://www.fit.vutbr.cz/~chmelarp/pdb/ ] [http://www.dcs.gla.ac.uk/ssms07/material.html]
Vědecké paradigma psaní myšlení čtení Teorie Top-down approach Věda Experiment Bottom-up approach Realita
Konceptuální úroveň Geometrickálogická úroveň Obraz fyzická úroveň Vnímání Semantic Gap Vidění Binární reprezentace Reprezentace
Teorie! Vyhledávání informací je činnost, jejímž cílem je identifikacerelevantníchdokumentůneboinformací v informačních zdrojích (např. fulltextových databázích), souvisí s reprezentací, skladováním, organizací a přístupem k informacím. IRje vyhledávání v nestrukturovaných datech. [ TDKIV, Keith, RBY-MIR ]
Objekt IR • Vstupy / výstupy • Dokument • Novinové články, web… • Fotografie • Řeč a zvuk • Video • Dotaz • Cokoliv ▲ • Relevance? • za následující odbočkou …
Data Strukturovaná Čísla Písmena Slova Informace Rozdíl?▲ Relevance? … Pozadí přisoudíme význam smysl v daný okamžik
Modely • Modely IR odpovídají na otázky relevance dotazu k dokumentům v DB: • Jaké dokumenty mají být výsledkem dotazu? • Jaké bude jejich uspořádání pro prezentaci uživateli? • Klasické modely • Booleovský model • Pravděpodobnostní modely • Vektorové modely • Alternativní modely… Fuzzy set, neural network, belief network, SVM, latent semantic indexing, hypertext model, … Model Document Query Evaluation
Klasický booleovský model • Klasický model předpokládá, že dokument d je popsán množinou reprezentativních klíčových slov – indexační termíny k. • Termy jsou obvykle podstatná jména (bez některých vybraných). • Binární rozhodovací kritérium je založené na přítomnosti, resp. absenci daného klíčového slova a neuvažuje jeho váhu (pravdivost, dokazatelnost). • Dotazy jsou tvořeny termy a logickými spojkami and, or,nota závorkami. • Striktní formalizmus, efektivní (index „invertovaný soubor“), používá se pro dotazování; výsledkem příliš (málo) dokumentů, neřeší uspořádání… • Binární porovnávání • Jednoduché • Jaccardovo Diceovo Kosinové
Teorie informace • Term frequency • četnost výskytu klíčového slova nebo jiné lingvistické jednotky v … dokumentu váha termínu - důležitost • Inverse document frequency • inverzní log četnosti dokumentů, ve kterých se tem vyskytujeinformační hodnota termínu • [ Shannon, Keith ]
Vektorový model • Váhový vektor přiřazen dotazu q i dokumentům dj … • pak vzdálenost (kosinová) je • ale může být i Eukleidovská, nebo dokonce Manhattan. • O vzdálenosti platí: • dist(x, y) ≥ 0 • dist(x, x) = 0 • dist(x, y) = dist(y, x) • dist(x, y) ≤ dist(x, z) + dist(z, y) • → navazující přednáška dj q
Pravděpodobnostní model • Relevance v IR nejistá → pravděpodobnost a teorie rozhodování! • Idea: Pokud se na daný dotaz podaří vrátit dokumenty v pořadí s klesající pravděpodobností relevance, bude efektivita systému nejlepší možná. • Řešení: Bayesem likehood priorinformation posteriorprobability marginal probability AP(B | ai)P(ai)
Probability ranking principle • Princip ohodnocení dle pravděpodobnosti • Potřebujeme zjistitrelevanci (True / False) daného dokumentu P(T |d): • Základem je, že minimalizujeme průměrnou (celkovou) chybu: pravď. že při získání nerelevantníhodokumentu to bude d. je relevantní
Taxonomie • Úplnost • Přesnost
Experiment. Funguje teorie? Text TRECevaluace a porovnání … relevance systémů WWW Google, Yahoo, Altavista, Jyxo, Seznam, … Multimedia?TRECvid… PETS Performance Evaluation of Tracking and Surveillance CLEAR, VACE, ETISEO, … http://trec.nist.gov/tracks.html http://pets2007.net/ http://www.clear-evaluation.org/
Fulltextové databáze • Fulltextové vyhledávací funkce v databázích • Oracle • create index docs_index on docs(text) indextype is ctxsys.context; • select id, title, text, ctxsys.score(1) score from docs where ctxsys.contains(text, ‘inrmation retrieval’, 1) > 0order by ctxsys.score(1) desc; • MySQL • ALTER TABLE Clanky ADD FULLTEXT (nazev, anotace, text); • SELECT * FROM Clanky WHEREMATCH(nazev, anotace, text)AGAINST (‘vyhledávání informací’IN BOOLEAN MODE); • http://en.wikipedia.org/wiki/Special:Search?search=information+retrieval&fulltext=Search
TRECVid • Video data100h(2007)+ 156h (2006) + 140h (2005)+ 150 (předtím)Shot detection,ASR, MT, … Annotations • Tasks • Shot boundary detection • Detecting semantic concepts/features (39) [ Alan Smeaton ] • Searching based on topics • Automatic • Manual • Interactive • Automatic summarization LSCOM Large Scale Concept Ontology for Mmhttp://www.lscom.org/ http://www-nlpir.nist.gov/projects/tv2007/tv2007.html#2.3
Koncepty [ Cees Noek]
Multimodalita • Kombinace více způsobů… • [ Alex Hauptmann ]
Demonstrace • Přísně tajné, neveřejné, … • CuVid Columbia Video Search System http://apollo.ee.columbia.edu/cuvidsearch/ • MediaMillhttp://mediamill.nl/ • Informedia (dočasně nefunkční demo)http://www.informedia.cs.cmu.edu/ • ESP Gamehttp://www.espgame.org/ • Flickr & Tiltomo http://flickr.com/ & http://www.tiltomo.com/ • MultimediaN N9C Eculture projecthttp://e-culture.multimedian.nl/ • LTU Visual Search on Royalty-Free imageshttp://corbis.ltutech.com/
Software • Finding Out Abouthttp://www.cse.ucsd.edu/~rik/foa/ • BRISC Image Retrieval System http://sourceforge.net/projects/brisc • Octagon - content based image retrieval softwarehttp://octagon.viitala.eu/ • Chuckwalla (MediaWay)http://www.chuckwallainc.com/ • IBM DB2 AIV Extendershttp://www-306.ibm.com/software/data/db2/extenders/aiv/ • interMediahttp://www.oracle.com/technology/ • Váš projekt :)
Praxe? Experimenty prokázaly, že teorie nefungujea že nic lepšího neexistuje.[ Churchill ] Multimodální? Sémantické?
Literatura • CHMELAŘ, Petr. Multimediální databáze. 2006. http://www.fit.vutbr.cz/~chmelarp/pdb/ • Teaching Material @ SSMS 2007http://www.dcs.gla.ac.uk/ssms07/material.html • Rijsbergen, van C.J., Keith. Information Retrieval. 1999. http://www.dcs.gla.ac.uk/ssms07/teaching-material/ir/index.htm • Baeza-Yates, R. - Ribeiro-Neto, B. Modern information retrieval. New York : ACM Press, 1999. 513 s. ISBN 978-0-201-39829-8. • TDKIV - Česká terminologická databáze z oblasti knihovnictví a informační vědyhttp://www.nkp.cz/o_knihovnach/Slovnik/index.htm
Díky Otázky?