460 likes | 625 Views
Vēsturisko materiālu digitalizācija LNB. Artūrs Žogla, Aigars Staks Rāmava, 06.10.2010. Digitalizācijas vēsture LNB. ~1998.g statēģiskie lēmumi – mikrofilmas vs. skenētie attēli 2006. maijs digitālās bibliotēkas attīstības pāns.
E N D
Vēsturiskomateriālu digitalizācija LNB Artūrs Žogla, Aigars Staks Rāmava, 06.10.2010.
Digitalizācijas vēsture LNB • ~1998.g statēģiskie lēmumi – • mikrofilmas vs. skenētie attēli • 2006. maijs digitālās bibliotēkas attīstības pāns DiBi misija ir organizēt Latvijas valsts un latviešu tautas kultūrvēsturiskā mantojuma saglabāšanu digitalizētā formā un nodrošināt tā pieejamību sabiedrībai.
Digitizējamo datu tipi, problēmas • Grāmatas un avīzes • Milzīgs apjoms, reizēm slikta kvalitāte, dažadas valodas • Mikrofilmas • Mehāniski bojājumi, zemas kvalitātes darbs • Audio ieraksti • Bojājumi, lēns apstrādes process • Fotogrāfijas • Metadatu atklāšana • Citi – Kartes, Plakāti utt. • Lietojamības izaicinājumi
Lielākie projekti • Periodika.lv - 2008 • DOM - 2009 • “Zudusī Latvija” (Europeana Local) - 2010 • ERAF – digitālās bibliotēkas 2.kārta -2011 • ERAF – e-pakalpojumi - 2012 • ...
DiBI 2.kārtas projektamērķis • Digitalizēt: • ~2.1 milj. periodisko izdevumu lpp. (~700 nosaukumi) • ~1.4 milj. grāmatu lpp. (~7000 grāmatas) • Izveidot vēsturisko tekstu portālu • Iesaistīt lietotājus satura uzlabošanā
Materiālu atlase [1] • Periodiskie izdevumi • Laika periods: 1760.-1995. • Tipi: avīzes, žurnāli, zinātniskie raksti • Valodas: latviešu, vācu, krievu • Grāmatas • Laika periods: 19.gs. vidus – 2009. • Valodas: latviešu, vācu, krievu, latgaliešu, franču, zviedru, u.c.
Materiālu atlase [2] • LNB galvenā grāmatu krātuve • LNB periodisko izdevumu nod. • LNB restaurācijas nod. • Latvijas Akadēmiskā bibliotēka • LU bibliotēka • LNB Silakroga depozitārijs
Skenēšana [1] • Projekta periods: 2010. feb. – 2011. jūn. • Kopējais lapu skaits: ~3.5 milj. • Viens sūtījums reizi 2 nedēļās • Periodika: ~46 000 lappušu • Grāmatas: ~55 000 lappušu • Skenētājs:
Skenēšana [6] • Materiālu atlases principi • Pieprasītākie • Fiziski sabrūkošie (laikraksti) • Kultūrvēsturiski nozīmīgie • Vairāku izdevumu gadījumā – pirmizdevumi • Vairāku eksemplāru gadījumā – labākās kvalitātes eksemplārs
Skenēšana [7] • Pavaddokuments – katram sūtījumam
Skenēšana [10] • JPEG 2000 datne katrai lappusei • Grāmatām, žurnāliem – krāsainas (RGB) • Laikrakstiem – melnbaltas (Greyscale) • Izšķirtspēja: 400 dpi • Datnes izmērs: 3-100 MB
Skenēšana [11] Katrā mapē – viena grāmata
Skenēšana [12] Katrā datnē – viena lpp
Skenēšana [13] • Sūtījumu izsekošanas rīks
Skenēšana [14] Tipisks epasts digitalizēšanas gaitā
Skenēšana [15] • “Latviešu avīzes”, 1828. g.
Skenēšana [16] ~1.4 cm
Segmentēšana [1] • Izdevuma loģisko daļu identificēšana • Raksti/rakstu virsraksti • Attēli/attēlu paraksti • Autori • Tabulas • Reklāmas • Teksta atpazīšana (OCR)
Segmentēšana [2] OCR Maksims Gorkijs Rīgas jūrmalā 1905. gada rudenī ievērojamais krievu proletariāta rakstnieks M a k s i m s G o r k i j s pavadīja dažas nedēļas Rīgas jūrmalā...
Segmentēšana [3] • Valodas: • LV, GE, RU, LA, LG, SE, LT, FR, .... • Druka: • Jaunā druka • Vecā druka • Jauktā druka (jaunā+vecā) • Mašīnraksts • Rokraksts
Segmentēšana [4] • Vecā druka
Segmentēšana [5] • Jauktā druka Vecā druka Jaunā druka
Segmentēšana [6] • Mašīnraksts
Segmentēšana [7] • Vecā krievu rakstība
Segmentēšana [8] • Latgaliešu
Segmentēšana [9] • Franču
Segmentēšana [10] • Senprūšu
Segmentēšana [11] • OCR kvalitāte (pa simboliem) • Mūsdienu tekstiem – tuvu 100% • Vecai drukai – 80% • Visblāvākajam mašīnrakstam - <50% • Virsrakstus un attēlu parakstus labo manuāli
Segmentēšana [12] • Mūsdienu teksta OCR kvalitāte OCR Simboli pareizi/kopā: 396/403 (~98%) Oriģināls
Segmentēšana [13] • Vecās drukas teksta OCR kvalitāte OCR Simboli pareizi/kopā: 685/739 (~92.7%) Oriģināls
Segmentēšana [14] • Gala rezultāts: • 1 METS datne – katram izdevumam • 1 ALTO datne – katrai lappusei • 1 JPG datne – katrai lappusei • 1 OCR datne – katram rakstam • 1 PDF datne – katram izdevumam Nepieciešami saskarnei
Segmentēšana [15] PDF datne ar satura rādītāju
Segmentēšana [16] Atpazīts, iezīmējams un kopējams teksts
Saskarne [1] • Mantojums-1 http://data.lnb.lv/digitala_biblioteka/laikraksti/
Saskarne [2] http://www.periodika.lv
Saskarne [3] • Mantojums-1 • Avīzes digitalizētas un pieejamas Internetā • Periodika.lv • Atpazīts avīžu teksts (OCR) un padarīts meklējams • Nākotnes saskarne • Lietotāju līdzdalība satura pilnveidošanā • Interaktivitāte
Saskarne [4] • Austrālijas pieredze • Austrālijas NB avīžu digitalizācijas projekts http://newspapers.nla.gov.au/ndp/del/home
Saskarne [5] • Austrālijas pieredze • Lietotāju iesaiste satura pilnveidošanā OCR kļūdu labošana Komentāri Birkas
Saskarne [6] • Austrālijas pieredze • Lietotāju iesaiste satura pilnveidošanā
Saskarne [7] • “Gudrā” personu identificēšana Andris Bērziņš politiķis Andris Bērziņš politiķis Andris Bērziņš ? Andris Bērziņš aktieris
Saskarne [8] • “Gudrā” vietu identificēšana “Mežciems”? Latvijas Ģeotelpiskās informācijas aģentūras dati
Saskarne [9] • “Gudrā” vietu identificēšana “Ogre”? Ogre – pilsēta Ogre – upe “Ogre” – trikotāžas kombināts
Paldies par uzmanību! arturs.zogla@lnb.lv aigars.staks@lnb.lv