1 / 46

Vēsturisko materiālu digitalizācija LNB

Vēsturisko materiālu digitalizācija LNB. Artūrs Žogla, Aigars Staks Rāmava, 06.10.2010. Digitalizācijas vēsture LNB. ~1998.g statēģiskie lēmumi – mikrofilmas vs. skenētie attēli 2006. maijs digitālās bibliotēkas attīstības pāns.

barry-colon
Download Presentation

Vēsturisko materiālu digitalizācija LNB

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vēsturiskomateriālu digitalizācija LNB Artūrs Žogla, Aigars Staks Rāmava, 06.10.2010.

  2. Digitalizācijas vēsture LNB • ~1998.g statēģiskie lēmumi – • mikrofilmas vs. skenētie attēli • 2006. maijs digitālās bibliotēkas attīstības pāns DiBi misija ir organizēt Latvijas valsts un latviešu tautas kultūrvēsturiskā mantojuma saglabāšanu digitalizētā formā un nodrošināt tā pieejamību sabiedrībai.

  3. Digitizējamo datu tipi, problēmas • Grāmatas un avīzes • Milzīgs apjoms, reizēm slikta kvalitāte, dažadas valodas • Mikrofilmas • Mehāniski bojājumi, zemas kvalitātes darbs • Audio ieraksti • Bojājumi, lēns apstrādes process • Fotogrāfijas • Metadatu atklāšana • Citi – Kartes, Plakāti utt. • Lietojamības izaicinājumi

  4. Lielākie projekti • Periodika.lv - 2008 • DOM - 2009 • “Zudusī Latvija” (Europeana Local) - 2010 • ERAF – digitālās bibliotēkas 2.kārta -2011 • ERAF – e-pakalpojumi - 2012 • ...

  5. DiBI 2.kārtas projektamērķis • Digitalizēt: • ~2.1 milj. periodisko izdevumu lpp. (~700 nosaukumi) • ~1.4 milj. grāmatu lpp. (~7000 grāmatas) • Izveidot vēsturisko tekstu portālu • Iesaistīt lietotājus satura uzlabošanā

  6. Digitalizācijas process

  7. Materiālu atlase [1] • Periodiskie izdevumi • Laika periods: 1760.-1995. • Tipi: avīzes, žurnāli, zinātniskie raksti • Valodas: latviešu, vācu, krievu • Grāmatas • Laika periods: 19.gs. vidus – 2009. • Valodas: latviešu, vācu, krievu, latgaliešu, franču, zviedru, u.c.

  8. Materiālu atlase [2] • LNB galvenā grāmatu krātuve • LNB periodisko izdevumu nod. • LNB restaurācijas nod. • Latvijas Akadēmiskā bibliotēka • LU bibliotēka • LNB Silakroga depozitārijs

  9. Skenēšana [1] • Projekta periods: 2010. feb. – 2011. jūn. • Kopējais lapu skaits: ~3.5 milj. • Viens sūtījums reizi 2 nedēļās • Periodika: ~46 000 lappušu • Grāmatas: ~55 000 lappušu • Skenētājs:

  10. Skenēšana [6] • Materiālu atlases principi • Pieprasītākie • Fiziski sabrūkošie (laikraksti) • Kultūrvēsturiski nozīmīgie • Vairāku izdevumu gadījumā – pirmizdevumi • Vairāku eksemplāru gadījumā – labākās kvalitātes eksemplārs

  11. Skenēšana [7] • Pavaddokuments – katram sūtījumam

  12. Skenēšana [8]

  13. Skenēšana [9]

  14. Skenēšana [10] • JPEG 2000 datne katrai lappusei • Grāmatām, žurnāliem – krāsainas (RGB) • Laikrakstiem – melnbaltas (Greyscale) • Izšķirtspēja: 400 dpi • Datnes izmērs: 3-100 MB

  15. Skenēšana [11] Katrā mapē – viena grāmata

  16. Skenēšana [12] Katrā datnē – viena lpp

  17. Skenēšana [13] • Sūtījumu izsekošanas rīks

  18. Skenēšana [14] Tipisks epasts digitalizēšanas gaitā

  19. Skenēšana [15] • “Latviešu avīzes”, 1828. g.

  20. Skenēšana [16] ~1.4 cm

  21. Segmentēšana [1] • Izdevuma loģisko daļu identificēšana • Raksti/rakstu virsraksti • Attēli/attēlu paraksti • Autori • Tabulas • Reklāmas • Teksta atpazīšana (OCR)

  22. Segmentēšana [2] OCR Maksims Gorkijs Rīgas jūrmalā 1905. gada rudenī ievērojamais krievu proletariāta rakstnieks M a k s i m s G o r k i j s pavadīja dažas nedēļas Rīgas jūrmalā...

  23. Segmentēšana [3] • Valodas: • LV, GE, RU, LA, LG, SE, LT, FR, .... • Druka: • Jaunā druka • Vecā druka • Jauktā druka (jaunā+vecā) • Mašīnraksts • Rokraksts

  24. Segmentēšana [4] • Vecā druka

  25. Segmentēšana [5] • Jauktā druka Vecā druka Jaunā druka

  26. Segmentēšana [6] • Mašīnraksts

  27. Segmentēšana [7] • Vecā krievu rakstība

  28. Segmentēšana [8] • Latgaliešu

  29. Segmentēšana [9] • Franču

  30. Segmentēšana [10] • Senprūšu

  31. Segmentēšana [11] • OCR kvalitāte (pa simboliem) • Mūsdienu tekstiem – tuvu 100% • Vecai drukai – 80% • Visblāvākajam mašīnrakstam - <50% • Virsrakstus un attēlu parakstus labo manuāli

  32. Segmentēšana [12] • Mūsdienu teksta OCR kvalitāte OCR Simboli pareizi/kopā: 396/403 (~98%) Oriģināls

  33. Segmentēšana [13] • Vecās drukas teksta OCR kvalitāte OCR Simboli pareizi/kopā: 685/739 (~92.7%) Oriģināls

  34. Segmentēšana [14] • Gala rezultāts: • 1 METS datne – katram izdevumam • 1 ALTO datne – katrai lappusei • 1 JPG datne – katrai lappusei • 1 OCR datne – katram rakstam • 1 PDF datne – katram izdevumam Nepieciešami saskarnei

  35. Segmentēšana [15] PDF datne ar satura rādītāju

  36. Segmentēšana [16] Atpazīts, iezīmējams un kopējams teksts

  37. Saskarne [1] • Mantojums-1 http://data.lnb.lv/digitala_biblioteka/laikraksti/

  38. Saskarne [2] http://www.periodika.lv

  39. Saskarne [3] • Mantojums-1 • Avīzes digitalizētas un pieejamas Internetā • Periodika.lv • Atpazīts avīžu teksts (OCR) un padarīts meklējams • Nākotnes saskarne • Lietotāju līdzdalība satura pilnveidošanā • Interaktivitāte

  40. Saskarne [4] • Austrālijas pieredze • Austrālijas NB avīžu digitalizācijas projekts http://newspapers.nla.gov.au/ndp/del/home

  41. Saskarne [5] • Austrālijas pieredze • Lietotāju iesaiste satura pilnveidošanā OCR kļūdu labošana Komentāri Birkas

  42. Saskarne [6] • Austrālijas pieredze • Lietotāju iesaiste satura pilnveidošanā

  43. Saskarne [7] • “Gudrā” personu identificēšana Andris Bērziņš politiķis Andris Bērziņš politiķis Andris Bērziņš ? Andris Bērziņš aktieris

  44. Saskarne [8] • “Gudrā” vietu identificēšana “Mežciems”? Latvijas Ģeotelpiskās informācijas aģentūras dati

  45. Saskarne [9] • “Gudrā” vietu identificēšana “Ogre”? Ogre – pilsēta Ogre – upe “Ogre” – trikotāžas kombināts

  46. Paldies par uzmanību! arturs.zogla@lnb.lv aigars.staks@lnb.lv

More Related