1 / 23

Vyhledávání informací a multimediální aplikace

Vyhledávání informací a multimediální aplikace. Information Retrieval and Multimedia Applications [ http://www.fit.vutbr.cz/~chmelarp/pdb/ ] [ http://www.dcs.gla.ac.uk/ssms07/material.html ]. Vědecké paradigma. psaní. myšlení. čtení. Teorie. Top-down approach. Věda. Experiment.

sileas
Download Presentation

Vyhledávání informací a multimediální aplikace

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vyhledávání informacía multimediální aplikace Information Retrievaland Multimedia Applications [ http://www.fit.vutbr.cz/~chmelarp/pdb/ ] [http://www.dcs.gla.ac.uk/ssms07/material.html]

  2. Vědecké paradigma psaní myšlení čtení Teorie Top-down approach Věda Experiment Bottom-up approach Realita

  3. Konceptuální úroveň Geometrickálogická úroveň Obraz fyzická úroveň Vnímání Semantic Gap Vidění Binární reprezentace Reprezentace

  4. Teorie! Vyhledávání informací je činnost, jejímž cílem je identifikacerelevantníchdokumentůneboinformací v informačních zdrojích (např. fulltextových databázích), souvisí s reprezentací, skladováním, organizací a přístupem k informacím. IRje vyhledávání v nestrukturovaných datech. [ TDKIV, Keith, RBY-MIR ]

  5. Objekt IR • Vstupy / výstupy • Dokument • Novinové články, web… • Fotografie • Řeč a zvuk • Video • Dotaz • Cokoliv ▲ • Relevance? • za následující odbočkou …

  6. Data Strukturovaná Čísla Písmena Slova Informace Rozdíl?▲ Relevance? … Pozadí přisoudíme význam smysl v daný okamžik

  7. Modely • Modely IR odpovídají na otázky relevance dotazu k dokumentům v DB: • Jaké dokumenty mají být výsledkem dotazu? • Jaké bude jejich uspořádání pro prezentaci uživateli? • Klasické modely • Booleovský model • Pravděpodobnostní modely • Vektorové modely • Alternativní modely… Fuzzy set, neural network, belief network, SVM, latent semantic indexing, hypertext model, … Model Document Query Evaluation

  8. Klasický booleovský model • Klasický model předpokládá, že dokument d je popsán množinou reprezentativních klíčových slov – indexační termíny k. • Termy jsou obvykle podstatná jména (bez některých vybraných). • Binární rozhodovací kritérium je založené na přítomnosti, resp. absenci daného klíčového slova a neuvažuje jeho váhu (pravdivost, dokazatelnost). • Dotazy jsou tvořeny termy a logickými spojkami and, or,nota závorkami. • Striktní formalizmus, efektivní (index „invertovaný soubor“), používá se pro dotazování; výsledkem příliš (málo) dokumentů, neřeší uspořádání… • Binární porovnávání • Jednoduché • Jaccardovo Diceovo Kosinové

  9. Teorie informace • Term frequency • četnost výskytu klíčového slova nebo jiné lingvistické jednotky v … dokumentu váha termínu - důležitost • Inverse document frequency • inverzní log četnosti dokumentů, ve kterých se tem vyskytujeinformační hodnota termínu • [ Shannon, Keith ]

  10. Vektorový model • Váhový vektor přiřazen dotazu q i dokumentům dj … • pak vzdálenost (kosinová) je • ale může být i Eukleidovská, nebo dokonce Manhattan. • O vzdálenosti platí: • dist(x, y) ≥ 0 • dist(x, x) = 0 • dist(x, y) = dist(y, x) • dist(x, y) ≤ dist(x, z) + dist(z, y) • → navazující přednáška dj q 

  11. Pravděpodobnostní model • Relevance v IR nejistá → pravděpodobnost a teorie rozhodování! • Idea: Pokud se na daný dotaz podaří vrátit dokumenty v pořadí s klesající pravděpodobností relevance, bude efektivita systému nejlepší možná. • Řešení: Bayesem likehood priorinformation posteriorprobability marginal probability AP(B | ai)P(ai)

  12. Probability ranking principle • Princip ohodnocení dle pravděpodobnosti • Potřebujeme zjistitrelevanci (True / False) daného dokumentu P(T |d): • Základem je, že minimalizujeme průměrnou (celkovou) chybu: pravď. že při získání nerelevantníhodokumentu to bude d.   je relevantní

  13. Taxonomie • Úplnost • Přesnost

  14. Experiment. Funguje teorie? Text TRECevaluace a porovnání … relevance systémů WWW Google, Yahoo, Altavista, Jyxo, Seznam, … Multimedia?TRECvid… PETS Performance Evaluation of Tracking and Surveillance CLEAR, VACE, ETISEO, … http://trec.nist.gov/tracks.html http://pets2007.net/ http://www.clear-evaluation.org/

  15. Fulltextové databáze • Fulltextové vyhledávací funkce v databázích • Oracle • create index docs_index on docs(text) indextype is ctxsys.context; • select id, title, text, ctxsys.score(1) score from docs where ctxsys.contains(text, ‘inrmation retrieval’, 1) > 0order by ctxsys.score(1) desc; • MySQL • ALTER TABLE Clanky ADD FULLTEXT (nazev, anotace, text); • SELECT * FROM Clanky WHEREMATCH(nazev, anotace, text)AGAINST (‘vyhledávání informací’IN BOOLEAN MODE); • http://en.wikipedia.org/wiki/Special:Search?search=information+retrieval&fulltext=Search

  16. TRECVid • Video data100h(2007)+ 156h (2006) + 140h (2005)+ 150 (předtím)Shot detection,ASR, MT, … Annotations • Tasks • Shot boundary detection • Detecting semantic concepts/features (39) [ Alan Smeaton ] • Searching based on topics • Automatic • Manual • Interactive • Automatic summarization LSCOM Large Scale Concept Ontology for Mmhttp://www.lscom.org/ http://www-nlpir.nist.gov/projects/tv2007/tv2007.html#2.3

  17. Koncepty [ Cees Noek]

  18. Multimodalita • Kombinace více způsobů… • [ Alex Hauptmann ]

  19. Demonstrace • Přísně tajné, neveřejné, … • CuVid Columbia Video Search System http://apollo.ee.columbia.edu/cuvidsearch/ • MediaMillhttp://mediamill.nl/ • Informedia (dočasně nefunkční demo)http://www.informedia.cs.cmu.edu/ • ESP Gamehttp://www.espgame.org/ • Flickr & Tiltomo http://flickr.com/ & http://www.tiltomo.com/ • MultimediaN N9C Eculture projecthttp://e-culture.multimedian.nl/ • LTU Visual Search on Royalty-Free imageshttp://corbis.ltutech.com/

  20. Software • Finding Out Abouthttp://www.cse.ucsd.edu/~rik/foa/ • BRISC Image Retrieval System http://sourceforge.net/projects/brisc • Octagon - content based image retrieval softwarehttp://octagon.viitala.eu/ • Chuckwalla (MediaWay)http://www.chuckwallainc.com/ • IBM DB2 AIV Extendershttp://www-306.ibm.com/software/data/db2/extenders/aiv/ • interMediahttp://www.oracle.com/technology/ • Váš projekt :)

  21. Praxe? Experimenty prokázaly, že teorie nefungujea že nic lepšího neexistuje.[ Churchill ] Multimodální? Sémantické?

  22. Literatura • CHMELAŘ, Petr. Multimediální databáze. 2006. http://www.fit.vutbr.cz/~chmelarp/pdb/ • Teaching Material @ SSMS 2007http://www.dcs.gla.ac.uk/ssms07/material.html • Rijsbergen, van C.J., Keith. Information Retrieval. 1999. http://www.dcs.gla.ac.uk/ssms07/teaching-material/ir/index.htm • Baeza-Yates, R. - Ribeiro-Neto, B. Modern information retrieval. New York : ACM Press, 1999. 513 s. ISBN 978-0-201-39829-8. • TDKIV - Česká terminologická databáze z oblasti knihovnictví a informační vědyhttp://www.nkp.cz/o_knihovnach/Slovnik/index.htm

  23. Díky Otázky?

More Related