240 likes | 419 Views
Multimedia -uvod -. Prof. dr Milorad Banjanin April, 2011. Koristimo izraz multimedija za označavanje podataka koji sadrže kombinaciju teksta, grafike, audia i videa . Od teksta do multimedije
E N D
Multimedia-uvod- Prof. dr Milorad Banjanin April, 2011
Koristimo izraz multimedija za označavanje podataka koji sadrže kombinaciju teksta, grafike, audia i videa. • Od teksta do multimedije • Vrsta podataka koji se šalju preko Interneta se promenila sa teksta na grafiku, video klipove, i pune filmove. • Sličan prelaz se desio kod zvuka, omogućavajući Internetu da prenosi multimedijalne dokumente
Multimedijalni dokumenti • Veći deo sadržaja dostupnog na Internetu danas sadrži multimedijalne dokumente. • Pored toga, kvalitet je poboljšan jer veći opseg omogućava • prenos videa visoke rezolucije i • prenos audia visokog kvaliteta.
DokumentPojam dokument obuhvata • tradicionalne papirne dokumente • računarski obrađene informacije kojima se rukuje kao osnovnom jedinicom obrade Primeri: • tekstualni dokumenti, npr. tekstualni opisi ili poruke • grafički dokumenti, npr. slike, crteži, dijagrami, grafikoni • hipertekst dokumenti, npr. HTML i XML+XLink • dokumenti mediji sa vremenskom dimenzijom: zvuk, video • kompozitni multimedijalni dokumenti: sastavljeni od teksta, slike, zvuka, ili videa
TEKSTili dokument je "informacija namenjena ljudskom sporazumevanju koja može biti prikazana u dvodimenzionalnom obliku... • Tekst se sastoji od grafičkih elemenata kao što su karakteri, geometrijski ili fotografski elementi ili njihove kombinacije, koji čine sadržaj dokumenta." (ISO-definicija)U svakom tekstu se razlikuju dve osnovne formalne strukture: • logička struktura ili logički izgled (engl. logical layout) opisuje organizaciju sadržaja teksta. Tipični elementi logičke strukture su jedinice kao što su naslovi ili, pak, pasusi. • grafička struktura ili grafička izgled (engl. graphical layout) opisuje organizaciju teksta u "štampanom" obliku. Tipični elementi grafičke strukture su jedinice kao što su strana ili red. • Logička struktura ne zavisi od grafičke strukture dokumenta.
Hipertekst ... ili web-dokument je, pojednostavljeno, tekst koji sadrže veze ili uputnice (engl. link) ka drugim dokumentima ili na samog sebe. • Preciznije, hipertekst je skup stranica (engl. page), u obliku datoteka, međusobno povezanih vezama koje su insertovane u stranice. Ove uputnice se obično vide kao veze (hiperveze) na koje se može kliknuti (od engl. to click). • Za razliku od običnog teksta, koji se čita linearno (sleva na desno, odozgo naniže), hipertekst se čita prateći hiper-veze u tekstu, dakle, ne nužno na linearan način.
NAVIGATOR • Navigator • ... ili razgledač (engl. browser) je interpretator jezika za prikazivanje hipertekstualnih dokumenata: on omogućava njihov vizuelni prikaz na ekranu.
Jezici za opisivanje dokumenta • ... su jezici koji omogućavaju da se precizno opiše izgled i sadržaj jednog teksta. • Od posebnog su značaja: • SGML (skr. od Standard General Markup Language), • TeX i LaTeX (za matematičke tekstove), • PostScript (jezik laserskih štampača), • RTF (skr. od Rich Text Format), ...
Jezici za opisivanje hiperteksta... su jezici koji omogućavaju da se precizno opiše hipertekstuelna struktura jednog teksta (uputnice na druge tekstove, itd). • Ovi jezici dopuštaju da se eksplicitno opiše logička struktura teksta i različiti tipovi veza u tekstu. • Veze mogu biti unutrašnje (kada veza upućuje na drugi deo istog teksta), spoljašnje (kada veza upućuje na neki drugi teksta) i izvršne (kada se unutar teksta aktivira veza na neku izvršnu proceduru). Najznačajniji jezici ove vrste su: • SGML, • HTML (HyperText Markup Language), pojednostavljena verzija SGML-a, • XHTML (Expandable HTML) i • XML (Extensible Markup Language, "kompromis" između preterane složenosti SGML-a i jednostavnosti HTML-a; njegova standardizacija je u toku).
Pretraživanje teksta –IR-Information Retrivial • Reč_ Ograničen niz znakova koji se pojavljuje u tekstu • Term _ _Normalizovana_ reč (padež, morfologija, itd); klasa ekvivalencije reči • Token_ Instanca reči ili terma koja se pojavljuje u dokumentu • Tip _ U većini slučajeva isto što i term: klasa ekvivalencije reči Mere za kvalitet pretraživača • Svi prethodni kriterijumi su merljivi: možemo kvantifikovati brzinu / prostor / novac • Međutim, ključna mera za pretraživač jezadovoljstvokorisnika
Kako da kvantifikujemo zadovoljstvo korisnika? • Koje KORISNIK? • Web pretražvači: tragač. Tragač pronalazi ono što traži. Mera: stepen vraćanja na ovaj pretraživač • Web pretraživači: zakupac reklama. Da li tragači klikć¢u na moje reklame? Mera: clickthrough rate • E-poslovanje: kupac. Kupac kupuje ono zbog čega je došao na sajt. Mere: vreme do kupovine, procenat konvertovanih tragača u kupce • E-poslovanje:prodavac. Prodavac može da prodaje svoju robu (jer je pretraživač uputio kupce na prave sadržaje). Mera: profit po prodatom artiklu • Firma:direktor. Zaposleni su produktivniji jer brzo pronalaze ono što im treba. Mera: profit firme
Relevantnost • Zadovoljstvo korisnika se izjednačava sa relevantnošću rezultata pretrage • Kako meriti relevantnost? • Standardna metodologija u IR ima tri elementa • test-kolekciju dokumenata • skup test-upita • binarnu (ili, ređe, ne-binarnu) ocenu relevatnosti svakog para upit-dokument Ovakvo vrednovanje (veštački scenariji) se često kritikuje. Ali je vrlo uspešno u IR
Šta je zadovoljstvo korisnika? Faktori zadovoljstva uključuju: • Brzinu dobijanja odgovora • Veličinu indeksa • Nezatrpan korisnički interfejs • Najvažnije: relevantnost • (Možda najvažnije: besplatan pristup) • Nijedan faktor pojedinačno nije dovoljan: fantastično brzi ali beskorisni odgovori neće korisnika učiniti zadovoljnim
Informaciona potreba i, Upit q • Relevantnost u odnosu na šta? • Proba 1: relevantnost u odnosu na upit • _Relevantnost u odnosu na upit je vrlo problematična • Informaciona potreba i : Tražimo informacije o tome da li je crno vino bolje za smanjenje rizika od infarkta nego belo vino. • Ovo je informaciona potreba, a ne upit • Upit q: wine and red and white and heart and attack • Razmotrimo dokument d0: He then launched into the heart of his speech and attacked the wine industry lobby for downplaying the role of red and white wine in drunk driving. • d0 je relevantan za upit q . . . • d0 nije relevantan za informacionu potrebui . Najčešća definicija • Zadovoljstvo korisnika se može meriti samo prema relevantnosti u odnosu na informacione potrebe, a ne upite-
Preciznost-povrat • Pecision/Recall _ preciznost/povrat • PRECIZNOST P je deo pronađenih dokumenata koji su relevantni • Preciznost = #(pronađeni relevantni)/ #(svi pronađeni)= P(relevantanIpronađen) • Povrat R je deo relevantnih dokumenata koji su pronađeni • Povrat =#(pronađeni relevatni)/#(svi relevantni) = P(pronađenIrelevantan) • Precision/recall • Relevantan Nerelevantan • Pronađen true positives (TP) false positives (FP) • nije pronađen false negatives (FN) true negatives (TN) • P = TP/(TP + FP) • R = TP/(TP + FN)
TAČNOST • Zašto koristimo složene mere kao preciznost i povrat? • Zašto ne nešto jednostavno, npr. tačnost? • Tačnost je deo odluka (relevantan/irelevantan) koje su ispravne. • U smislu prethodne tabele, • Tačnost = (TP + TN)/(TP + FP + FN + TN). • Zašto tačnost nije korisna mera za web IR? • Ako u Google ukucamo reč tačno, pretraga daje 0 pogodaka • Jednostavan štos za maksimizaciju tačnosti u IR: uvek kaži ne i vrati prazan skup • Imaćete 99.99% tačnost za većinu upita • Tragači na webu (i u IR uopšte) žele da pronađu nešto i imaju određeni stepen • tolerancije na žubre • Tačnost nije dobra mera zadovoljstva korisnika, pa ćemo koristiti preciznost i povrat
Moramo računati prosek za veliki broj upita • Ne postoji “tipični” ili “reprezentativni” upit • Treba nam ocena relevantnosti za paroveinformaciona potreba-dokument ali je njih teško/skupo napraviti • Može se povećati povrat vraćanjem više dokumenata • Povrat je neopadajuća funkcija broja pronađenih dokumenata • Sistem koji vraća sve dokumente ima 100% povrat! • Suprotno je takođe tačno (često): lako je imati veliku preciznost za mali povrat
Neka je najbolje rangirani dokument relevantan. • Kako moćemo maksimizovati preciznost? • F omogućava da merimo kompromis između preciznosti i povrata • F = 1/ α1/β + (1 -α)1/R =(β² + 1)PR/ β²P + R, gde β² =(1 –α)/ α • α € [0; 1] pa prema tome β² € [0;1] • Najčešće koriščen: balansirani F sa • β = 1 ili α = 0:5 • Ovo je harmonijska sredina P i R: • 1/F = 1/2 ( 1/P + 1/R )
Koji opseg vrednosti za β da izaberemo da povrat vrednujemo više nego preciznost?P • PreciznostP/povrat/F su mere nerangiranih skupova. • Lako ih možemo pretvoriti u mere rangiranih lista. • Izračunaćemo mere za svaki “prefiks”: najbolji 1, najboljih 2,najboljih 3, najboljih 4 itd. pogodaka • Izračunavanje na ovaj način za preciznost i povrat daje precision/recall krivu.
Benchmark-ing • Šta je potrebno za benchmark • Kolekcija dokumenata • dokumenti moraju reprezentovati dokumente koje očekujemo da imamo i u stvarnom slučaju • Kolekcija informacionih potreba • . . . koje ćmo često neispravno nazivati upitima • Informacione potrebe moraju reprezentovati one koje očkujemo i u stvarnom slučaju • Čovekove ocene relevantnosti • moramo angažovati ocenjivače za ovaj posao, • skupo, troši puno vremena • ocenjivaći moraju reprezentovati one koje očekujemo i u stvarnom slučaju
Konzistentnost • Ocene relevantnosti su korisne samo ako su konzistentne. • Kako možemo meriti konzistentnost među ocenjivačima? • Kapa mera P • Kapa je mera koliko se međusobno ocenjivači slažu • Dizajnirana za kategorične ocene • P(A) = koji deo od ukupnog broja slučajeva se ocenjivači slažu • P(E) = koji deo slaganja bismo dobili slučajno • ҝ=P(A) - P(E) / (1 - P(E)) • ҝ =? za • (i) slučajno slaganje (ii) totalno slaganje • IR (Information Retrivial)-Pretraživanje/Pronalaženje
Akronimi • IR (Information Retrivial)-Pretraživanje/Pronalaženje informacija • NIC - (Network Interface Card) – Mrežna interfejs karta • AUI - (Attachment Unit Interface) - Interfejs priključne jedinice • 3E (Effective, Efficient, i Enjoyable) • -Efektivnost, Efikasnost, Zadovoljstvo • RL- (Reinforcement Learning) -Pojačano učenje • MARL-(Multi-Agent Reinforcement Learning)-Multi-agentno pojačano učenje • BR (Best- Response)-Najbolja reakcija • IT (Information Technology-) Informacione tehnologije se odnose na upotrebu kompjutera i različitih vrsta softvera za konvertovanje, skladištenje, zaštitu i procesiranje informacija • CT (Communications Technology-)Komunikacione tehnologije se bave prenosom informacija s kraja na kraj u procesu komunikacije ( tehnike kodiranja i modulacije- koderi, dekoderi, modulatori, demodulatori, ruteri itd.). • CNL(Collaborative Networked Learning)-Kolaborativno mrežno učenje
Dve paradigme koje Internet aplikacije koriste Dve osnovne Internet komunikacione paradigme su : Paradigma toka ((stream)Paradigma poruke (message) • Orijentisano na konekcijuBez konekcije • 1-na-1 komunikacijaM:N komunikacija • Sekvenca pojedinač.bajtovaSekvenca pojedinačnih poruka • Proizvoljna dužina prenosaPoruke ograničena na 64 KB • Upotrebljava većina aplikacijaKoristi se za MM aplikacije • Izgrađeno na TCP protokoluIzgrađeno na UDP protokolu .