390 likes | 597 Views
Standardi za zapisovanje dokumentov v d-knjižnici. Standardi za besedila, slike in video, zvok. Pomen standardov za zapisovanje e-dok. Pri gradnji d-knj. si nasprotujeta dve načeli:
E N D
Standardi za zapisovanje dokumentov v d-knjižnici Standardi za besedila, slike in video, zvok.
Pomen standardov za zapisovanje e-dok. • Pri gradnji d-knj. si nasprotujeta dve načeli: • hiter razvoj tehnologije povzroča hitre spremembe pri produkciji in lastnostih e-dokumentov, ki jim mora d-knj. slediti; • vsaka pomembna odločitev v d-knj.ima dolgoročne posledice. • Odločitev o uporabljenih standardih za zapisovanje e-dok. je fundamentalna odločitev. • Standardni načini zapisovanja e-dok. • omogočajo njihovo rabo danes in • povečujejo možnost dolgoročnega ohranjanja.
Pomen standardov za zapisovanje e-dok. • Standardizacija je potrebna na dveh nivojih: • standardi za zapisovanje znakov (standardno poimenovanje – oštevilčenje – znakov), ki omogočajo uporabo različnih pisav, • standardi za zapisovanje dokumentov (standardni formati), ki omogočajo predvidljivo rabo dokumentov.
Pomen standardov za zapisovanje e-dok. • Od načina zapisovanja dokumentov v d-knj je odvisna tudi uporabnost uporabnikove programske opreme za rabo dokumentov. • Za d-knjižnico je enostavneje, da se omeji na en standard zapisovanja znakov in nekaj standardnih formatov zapisovanja dokumentov. • S tem si poenostavi najpomembnejše postopke gradnje zbirk, posredovanja dokumentov in njihovega ohranjanja. • Najbrž je ceneje, če dokumente v ostalih “pisavah” in formatih pretvori v izbrane standarde.
Pomen standardov za zapisovanje e-dok. • Mednarodne org. za standardizacijo podpirajo standarde in standardne postopke, ki ne vključujejo programske kode s komercialnimi licencami. • To ne gre vedno; standardi GIF, JPEG in MPEG vključujejo tudi lastniško programsko kodo, česar pa lastniki licenc zaenkrat ne izkoriščajo.
Standardi za zapis besedil • V d-knj. lahko funkcionira le besedilo, ki je enako berljivo v poljubnem računalniškem okolju. • Na začetku razvoja ni bilo standarda, ki bi urejal zapisovanje besedil, ki zato niso bila prenosljiva med različnimi operacijskimi sistemi. • Standard določa predvsem kateri znaki sodijo v pisavo in katere kode (zaporedne številke) jih določajo. • Standard za zapis besedila ne določa oblike črk.
Standardi za zapis besedil • Prva standarda: ASCII in EBCDIC. ASCII prevladal (standard iz 1963). • Osnovni ASCII: 128 kod za znake angleške pisave, interpunkcije in kontrolne znake. • ASCII je bil velik napredek z nesluteno dolgoročnimi posledicami, vendar je omejeval neangleške pisce. • Razširitev ASCII na 256 kod je omogočila kodiranje precejšnjega števila neangleških znakov.
Standardi za zapis besedil Razširjen ASCII: • ISO-8859-1: zahodnoevropske pisave, • ISO-8859-2 srednje in vzhodnoevropske latinične pisave. • Problem ISO-8859-n je v tem, da iste kode v podstandardih kodirajo različne znake . • Besedila je sicer mogoče zapisati z vsemi znaki, pravilno berljivo pa je le v okolju, ki uporablja isti podstandard.
Standardi za zapis besedil • Za slovenska besedila so obstajali do sedaj vsaj 3 načini: • “YUSCII” – prilagoditev izvornega 7-bitnega ASCII, ki je nadomestil z našimi znaki nekatere manj uporabljane znake v ASCII: • WIN-1250 – Microsoftov “standard” • ISO-8859-2 (latin-2) - mednarodni standard. ~ = č ^ = Č } = ć ] = Ć { = š [ = Š | = đ \ = Đ ´ = ž @ = Ž
Standardi za zapis besedil • Neevropske pisave imajo druge, popolnoma različne standarde, ali pa so brez njih. • D-knjižnica bi morala biti neodvisna od načinov zapisovanja besedil. • Naravno stanje zbirk dokumentov je večjezičnost, ki lahko pomeni tudi različne pisave. • Neobstoj globalnega standarda za zapisovanje besedil je otežkočal gradnjo mednarodnih d-knjižnic.
Unicode • Idealen standard bi kodiral vse svetovne pisave – problem zapisovanja besedil bi s tem izginil. • Od 1988 razvoj takega standarda– Unicode. • Na začetku konzorcij Apple in Xerox, kasneje velik konzorcij komercialnih in vladnih organizacij. • L. 1993 standard – ISO-10646.
Unicode • Trenutno Unicode pokriva vse svetovne jezike, ki so zdaj v rabi. • Poteka vključevanje zgodovinskih pisav (egipčanski hieroglifi...), znakov glasbene notacije in zelo redkih kitajskih ideogramov. • Zaenkrat Unicode kodira 94.000 različnih znakov.
Unicode Unicode podpirajo • vse zadnje verzije pomembnih OS, • vsi pomembnejši programski jeziki (vsaj kot dodatne knjižnice funkcij) in, zelo pomembno, • zadnje verzije spletnih brskalnikov. Unicode je privzet nabor v zadnjih verzijah HTML in XML.
Unicode • Sodobna d-knj bi morala imeti dokumente zapisane v Unicode. • To seveda pomeni, da mora biti vsa programska oprema, ki dela z dokumenti (zbirke, iskalniki, uporabniški vmesniki, klasifikacijski sistemi...), prilagojena Unicode. • Unicode omogoča tudi svobodno mešanje zelo različnih pisav v istem dokumentu.
Mešanje pisav: testni dokument http://www.windspun.com/unicode-test/unicode.xml
Formati za zapis dokumentov • V široki rabi so številni formati, le redke med njimi so standardizirale mednarodne inštitucije: • Bolj standardno se obnašajo formati, ki določajo strukturo dokumenta, kot tisti, ki določajo obliko. • Skrajno nestandarden: Word za Windows, • Bolj standardni: RTF, LaTeχ, Postscript, PDF, • Standardni: HTML, XML. • O standardnih formatih več v predavanju o označevalnih jezikih.
Standardi za zapisovanje mirujočih slik • Standardi za zapisovanje nebesedilnih podatkov združujejo zapisovanje podatkovnih elementov in formatiranje (nebesedilnih) dokumentov. • Zapis slike na zaslonu ali papirju je sestavljen iz opisov posameznih slikovnih elementov (picture elements, pixels). • Kvaliteta slike odvisna predvsem od dveh parametrov: • ločljivosti ali števila pikslov na dolžinsko enoto (običajno na colo – dots per inch – dpi) in • števila bitov, porabljenih za opis posameznega piksla.
Standardi za zapisovanje mirujočih slik Tipične ločljivosti • Rač. zaslon s slabo ločljivostjo: 72*72 dpi, • rač. zaslon z običajno ločljivostjo: 92*92 dpi, • fax: 200*200 dpi, • skener: 300*300 dpi do 600*600 dpi, • laserski tiskalnik: 600*600 dpi, • zadovoljiva kvaliteta tiska: 1200*1200 dpi, • fotostavčni stroj: 4800*4800 dpi.
Standardi za zapisovanje mirujočih slik Število bitov na piksel: • za črno-bele slike brez sivin: 1, • za črno-bele slike s sivinami: 8, • za barvne slike: 8 – 32.
Standardi za zapisovanje mirujočih slik Velikosti datotek: • Slika velikosti A4, ločljivost 300 dpi: • 1 bit/piksel:>1 Mb, • 8 bit/piksel: 9 Mb, • 24 bit/piksel: 28 Mb. • Slika velikosti A4, ločljivost600 dpi: • 24 bit/piksel:>100 Mb (šele to je solidna kvaliteta slike za resnejše aplikacije). • Te velikosti veljajo za nestisnjene slike.
Stiskanje datotek s slikami • Slike so vedno shranjene v stisnjeni (komprimirani) obliki. • Dva načina stiskanja: • brez izgube in • z izgubo informacije. • Izbira načina bi morala biti odvisna le od načina rabe slike; v praksi je velikokrat odvisna od kapacitete pomnilnika, ki je na voljo.
Stiskanje datotek s slikami • Stiskanje brez izgube: raztegnjenje (dekomprimiranje) vedno da originalno sliko, piksel za pikslom. • Vedno uporabljeno za stiskanje besedila. • Vedno uporabljeno kadar mora biti vsaka kopija enaka originalu: • medicinske aplikacije, • pomembni dokumenti, • pravno veljavni dokumenti, • arhiviranje...
Stiskanje datotek s slikami • Stiskanje z izgubo: prihranki prostora so lahko zelo veliki, vendar raztegnjena slika nikoli ni enaka originalu. • Uporablja se pri aplikacijah, kjer manjše spremembe niso usodne; sem sodi tudi večina načinov rabe dokumentov v d-knj. • Če pričakujemo rabo slik tudi v bodočnosti, stiskanje z izgubo ni upravičeno. • Stiskanje najuspešnejše pri fotografskih sivih in barvnih slikah.
Kaj je stiskanje Načelo stiskanja: • če si je več zaporednih pikslov dovolj podobnih, jih lahko predstavimo kot eno vrednost. • Naenostavnejša varianta: piksle primerjamo kot zaporeden bitni niz – tako kot so v datoteki. • Boljši rezultati: piksle primerjamo dvodimenzionalno – kot površine dovolj podobnih pikslov.
Kaj je stiskanje • Pogosto uporabljan algoritem pri stiskanju je LZW (Lempel, Ziv, Welch). • V osnovi je bil razvit za besedila. • Med branjem besedila poišče vzorce, ki se pogosto ponavljajo – zaporedja črk ali besed. • Vzorce uvrsti v tabelo, ponavljajoč se niz v besedilu pa predstavi le kot indeks celice tabele. • Tudi ponavljajoče se zaporedje pikslov je vzorec.
Stiskanje brez izgube: GIF, PNG, TIFF GIF (Graphical Interchange Format), 1987. • V prvih letih spleta zelo razširjen za omrežno izmenjavo slik, ki jih lahko prikaže poljubna programska in strojna oprema. • Primeren za slike, pri katerih je vsak piksel opisan z 8 ali manj biti (sive ali barvne slike z manjšim številom različnih barv).
Stiskanje brez izgube: GIF, PNG, TIFF GIF (nadaljevanje) • Vsaka slika ima tabelo z identifikacijami 256 različnih barv • V sliki je vsak piksel opisan z indeksom celice v tej tabeli. • Zaporedje indeksov je stisnjeno z algoritmom LZW.
Stiskanje brez izgube: GIF, PNG, TIFF PNG (Portable Network Graphics). • Boljši od GIF, ker lahko kodira in stiska slike s piksli, opisanimi z 48 biti (ali manj). • Stiska površine pikslov in ne linearnih zaporedij z algoritmom gzip (varianta algoritma LZ77). • Manj razširjen, ker ga stare verzije spletnih brskalnikov ne znajo prikazati.
Stiskanje z izgubo: JPEG • JPEG (Joint Photographic Expert Group). • Namenjen stiskanju slik s postopnimi prehodi vrednosti. Take so običajno fotografije. • Slabo se obnese (malo stisne) pri slikah s ponavljajočim se vzorcem (opečnat zid, travne bilke...). • Daleč najbolj razširjen format na katerem temelji večina spletnih in ne-spletnih aplikacij za vizualne informacije. • Je tudi osnovni format večine strojne opreme, ki producira slike (digitalne kamere...).
Stiskanje z izgubo: JPEG • Zelo učinkovito stiskanje: piksel, opisan z 32 biti, zasede 1 bit. • Kvaliteta slike odlična za človeško oko. • Izgube so izbrane tako, da se pojavljajo predvsem pri lastnostih slik, ki jih človeški možgani najmanj zaznajo. • Subjektivno izguba informacije pogosto ni zaznavna, objektivno pa taka slika seveda ni enaka originalu. • Algoritem za kodiranje in stiskanje zapleten.
Standardi za zapisovanje zvokov in gibljivih slik • Podatkovni tipi s časovno komponento zahtevajo še za nekaj redov velikosti večje datotekeod statičnih slik. • Kvaliteta podatkov (in velikost datotek) odvisna od gostote vzorčenja in števila bitov, porabljenih za en vzorec. • Absolutno nujno je stiskanje datotek, večinoma z izgubo.
Standardi za zapisovanje zvokov in gibljivih slik Vzorčenje: • telefonski pogovor – 8000 vzorcev/sek., 8 bitov/vzorec; • Zvok na CD – 44.000 vzorcev/sek., 16 bitov/vzorec; • video posnetek: najmanj 24 slik/sek.
Standardi za zapisovanje zvokov in gibljivih slik • Program, namenjen kodiranju in dekodiranju, se imenuje codec. • Codec je lahko standarden za nek tip podatkov, ali pa nestandarden in se prenese skupaj s podatki. • Uporabnikova oprema lahko prikaže podatke, le če ima ustrezen codec, sicer ga mora dobiti in instalirati.
MPEG-1 • Prevladujoči standardi za zvočne in video posnetke sodijo v družino MPEG (Moving Picture Experts Group). • MPEG-1 je nastal 1988 z namenom, da bi standardizirali odprt digitalen format, primerljiv z VHS. • Kodira slike 352*240 pikslov, po 30/s. • Stisnjen tok slik zasede 1,5 Mb/s, mogoče pa ga je raztegniti v realnem času z opremo, ki ima le 512 Kb pomnilnika.
MPEG-1 • MPEG-1 lahko kodira avdio in video skupaj ali posamič. • Del standarda za avdio zapis ima več nivojev, odvisnih od kvalitete in tipa posnetka (govor, glasba različnih kvalitet...). • Tretji nivo, MP3, je splošno razširjen za zapisovanje digitalizirane glasbe.
MPEG-2 • MPEG-2 zapisuje video posnetke visoke kvalitete. • Uporablja se za zapisovanje na DVD. • Način zapisa je zelo primeren tudi za predvajanje na TV s prenosom podatkov v realnem času, zato bo uporabljen tudi pri HDTV (High Definition TV).
MPEG-4, -7 • MPEG-4 je namenjen prenosu zvokov in slik po komunikacijskih kanalih z majhno prepustnostjo, npr. mobilnih telefonih. • MPEG-7 je namenjen standardnemu zapisu metapodatkov o podatkih, kodiranih z MPEG-1, 2 ali 4.
Nestandardni formati • Nestandardni načini zapisovanja slik, zvoka in videaizvirajo iz časov, ko interoperabilnost (in s tem standardizacija) ni bila tako pomembna. • Še vedno se precej uporabljajo ker jih zna dekodirati večina predvajalnikov in kodirati večina programov za oblikovanje multimedijskih dokumentov. • AVI (Audio Video Interleave) – Microsoft, • QuickTime – Apple: zelo zmogljiv sistem, soroden MPEG.
Predvajanje s prenosom v realnem času • Prepustnejše komunikacijske linije omogočajo predvajanje multimedijskih podatkov v realnem času – streaming delivery. • Najbolj znan je RealSystems, uporabljan tudi ločeno kot RealAudio in RealVideo. • Podatke predvajalnik dobiva preko omrežja, dekodira in predvaja sproti, z manjšo vmesno shrambozaradi morebitnih zakasnitev prenosa. • RealSystems vključuje codece za večino obstoječih formatov, tudi MPEG.