210 likes | 361 Views
O METAPODATKIH. Jernej Južna. Poletna Å¡ola COLOS 1. julij 200 8. MOTIV. KoliÄina mojih podatkov v letu in pol 58 GB podatkov 156 000 datotek 70 000 slikovnih “ le†10 000 fotografij 55 000 tekstovnih “le†2 000 uporabnih 1 000 zvoÄnih 300 video Kako se znajti v tej množici?.
E N D
O METAPODATKIH Jernej Južna Poletna šola COLOS 1. julij 2008
MOTIV • Količina mojih podatkov v letu in pol • 58 GB podatkov • 156 000 datotek • 70 000 slikovnih • “le” 10 000 fotografij • 55 000 tekstovnih • “le” 2 000 uporabnih • 1 000 zvočnih • 300 video Kako se znajti v tej množici?
MOTIV (II) • So direktoriji in poimenovanje dovoj? • Primer: zbirka fotografij • po datumu nastanka • imenu dogodka • po avtorju • Problemi • Katere slike so dobre? • Kaj prikazuje slika img_5043.jpg? • Drugačna klasifikacija vodi v podvajanje
MOŽNA REŠITEV • Uporaba metapodatkov • podpora na nivoju datotečnega sistema • trenutno le delno realizirano (najbljižje je MacOS) • podpora na nivoju datoteke • različni metapodatki za različne podatke • uporaba namenskih programov • zgradijo digitalno knjižnico
KAJ SO METAPODATKI? • podatki o podatkih oz. informacije o vsebini • dajejo pomen podatkom • opisujejo/razvrščajo vsebino 1234 46,044739 Franc car
KAJ SO METAPODATKI? • podatki o podatkih oz. informacije o vsebini • dajejo pomen podatkom • opisujejo/razvrščajo vsebino • poštna številka Mengša • letnica 1234 geografska širina fakultete 46,044739 najpogostejše ime v Sloveniji Franc • angleška beseda za avto • ruski vladar car
UPORABA METAPODATKOV • lažje/boljše/hitrejše iskanje • lažje definiranje kriterijev • boljše filtriranje • klasifikacija/taksonomija (predalčkanje) • zmanševanje semantičnega prepada • računalniku omogočajo »razumevanje« vsebine • računalniška forenzika • (skriti) metapodatki kot dokaz
PRIDOBIVANJE METAPODATKOV Delitev glede na “kdo jih ustvarja” avtorji in strokovnjaki za indeksiranje strojno pridobivanje folksonomija in družbeno označevanje Delitev glede na “kdaj se ustvarjajo” pred uporabo (a priori) po uporabi (a posteriori)
PRIDOBIVANJE METAPODATKOV (II) Avtorji najbolj poznajo vsebino lahko dodajajo sproti običajno ne poznajo klasifikacije Strokovnjaki za indeksiranje poznajo klasifikacijo in sistem lahko preverijo že vpisane metapodatke dragi in počasni
PRIDOBIVANJE METAPODATKOV (III) Strojno pridobivanje hitro in poceni natančen za tehnične podatke še ni primerno za področja, kjer je potrebno “razumevanje”
PRIDOBIVANJE METAPODATKOV (IV) Folksonomija (folksonomy) in družbeno označevanje (social tagging) taksonomija, ki jo ustvarijo uporabniki uporaba prostih oznak (tag) uporabniki si jih delijo med seboj ni nadomestilo za klasično taksonomijo problem končnic, sopomenk potrebna kritična masa uporabnikov
METAPODATKI DOKUMENTOV • naslov, avtor, ključne besede, opis, ... • datum zadnjega urejanja, št. sprememb, ... • MS office, Adobe pdf, OO odf, ... meta:generator dc:title dc:description dc:subject meta:keyword meta:initial-creator dc:creator meta:printed-by meta:creation-date dc:date meta:print-date dc:language meta:editing-cycles meta:editing-duration
METAPODATKI WEB STRANI • omogoča že sam standard HTML • značke: <title>,<meta>,<h1>, ... • atributi: alt, rel, ... • RDF (Resource Description Framework) (1999) • oznaka vsebine s posebnimi značkami • RSS (really simple syndication/RDF site summary)
METAPODATKI WEB STRANI (II) sistem del.icio.us (2003) uporabniki si ustvarjajo svoje zaznamke zaznamke opišejo s (poljubnimi) tagi sistem družbenih zaznamkov lažje iskanje strani s podobno tematiko iskanje ljudi s podobnimi interesi
METAPODATKI SLIK JPEG - EXIF (1998) • velikost, način zapisa, dpi, ... • čas zajema, model fotoaparata, thumbnail, ...
METAPODATKI SLIK (II) • sistem flickr (2004) • uporabniki objavljajo svoje fotografije • fotografije opišejo s (poljubnimi) tagi • podobna funkcionalnost kot del.icio.us • sistem Panoramio (2005) • opremljanje fotografij z geo-podatki • uporaba v Google Earth
METAPODATKI ZVOKA • standard CD ne podpira metapodatkov • razširitev CD-Text (1996) • sistem CDDB (1993) • podatki o (praktično vseh izdanih) CD-jih • izvajalec, naslov, leto, ... • ID3 zapis • uporaba pri mp3 • izvajalec, naslov, album, ...
PRIHODNOST • Eksplozija digitalnih podatkov • v letu 2007 ocenjena velikost digitalnega vesolja: 281 exabajtov (1 exabyte = 1 milijon terabytov) • exponentna rast predvidena rast količine podatkov
PRIHODNOST (II) • Podpora metapodatkom na nivoju OS • koncept enega direktorija • Razvoj sistemov za razumevanje • avtomatski opisni metapodatki • ključne besede, opisi, ... • razpoznavanje motivov na sliki • iskanje po melodiji
ZA KONEC • Zaključek • iskanje zelo pomembno (podatkovna džungla) • format sam naj podpira zapis metapodatkov • čimveč metapodatkov naj se ustvari samodejno • Viri http://en.wikipedia.org/wiki/...(poljubna kratica ) http://en.wikipedia.org/wiki/Category:Metadata