1 / 20

Projekt reduplikacji bazy katalogu głównego DZB

Projekt reduplikacji bazy katalogu głównego DZB. Mariusz Gabrysiak kwiecień/maj 2010’.

nora
Download Presentation

Projekt reduplikacji bazy katalogu głównego DZB

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Projekt reduplikacji bazy katalogu głównego DZB Mariusz Gabrysiak kwiecień/maj 2010’

  2. Reduplikacja (tj. wtórna deduplikacja) jest procesem polegającym na porównaniu ze sobą rekordów bibliograficznych bazy katalogowej i wyszukaniu wśród nich, w oparciu o ustalone wcześniej kryteria, rekordów uznanych za duplikujące (tj. mające swoje powtórzenia wśród innych rekordów bazy), oraz nieduplikujące (tj. niemające takich powtórzeń). Celem reduplikacji jest rozpoznanie i opracowanie rekordów wzajemnie się duplikujących. Wśród rekordów duplikujących jeden zostaje uznany za oryginał, a pozostałe za kopie, które następnie mogą zostać usunięte z bazy danych Reduplikacja

  3. Klucz reduplikacji - Kryteria reduplikacji obejmują głównie wybrane elementy danych typowego rekordu bibliograficznego, tj. tzw. klucz reduplikacji. Im bardziej ogólne kryteria (a tym samym miej warunków) tym większa wydajność reduplikacji. Im więcej kryteriów tym większe bezpieczeństwo danych. Proponowany klucz reduplikacji: 020/a Numer ISBN; 100/a Hasło autorskie; 245/a Tytuł właściwy; 250/a Numer wydania; 260/c Rok wydania. Klucz

  4. Zagrożenia - w przypadku reduplikacji, wykonywanej w bazie danych, której część została już poddana ręcznej korekcie, istnieje konieczność ochrony już istniejących rekordów, przed jej negatywnymi skutkami. Standardowo program porównujący przegląda bazę sekwencyjnie (co „miej więcej” odpowiada kolejności zapisania dokumentów w bazie) i dla każdego „klucza reduplikacji” wyszukuje – w kolejnych dokumentach – jego odpowiedniki. Ten mechanizm rodzi ryzyko powstania błędów polegających na wskazaniu jako nadrzędnych opisów niskiej jakości bibliograficznej a w konsekwencji usunięciu odpowiadających im opisów wysokiej jakości. Zagrożenia

  5. Wykorzystując mechanizmy kontroli danych systemu Aleph, można dokonać podziału bazy bibliograficznej na dokumenty podlegające i wyłączone z reduplikacji, oraz na trzy grupy jakości bibliograficznej: wysoka, średnia, niska. Dokumenty wyłączone, grupy wysoka, oraz niezawierające żadnego z przewidzianych oznaczeń będą chronione w dalszych pracach nad bazą, nie mogą być modyfikowane ani usuwane przez procedury reduplikacji. Przynależność do grupy jakości zostanie zarejestrowana w dokumentach bazy w utworzonym dla tego celu polu bibliograficznym DPL w podpolach \a i \b iwykorzystana do kierowania procesem reduplikacji. Kontrola danych

  6. 1. Podział dokumentów na podlegające i niepodlegające reduplikacji. 2. Podział dokumentów na trzy grupy jakości bibliograficznej. 3. Reduplikacja - wyznaczenie listy powiązań między dokumentami. a. Dokumenty grupy średnia i niska w relacji do grupy wysoka => lista powiązań_1 b. Pozostałe dokumenty grupy niska w relacji do pozostałych dokumentów grupy średnia => lista powiązań_2 4. Przenoszenie egzemplarzy na podstawie list powiązań. 5. Usuwanie zreduplikowanych dokumentów z bazy WBP01. Kolejność działań:

  7. DPL WSKAŻNIK REDUPLIKACJI (NP) Wskaźniki - Nie zdefiniowane (#) Identyfikatory podpól a\ wskaźnik reduplikacji (NP) TAK – podlega reduplikacji NIE – wyłączone z reduplikacji b\ wskaźnik jakości bibliograficznej (NP) WYSOKA – Grupa dokumentów ŚREDNIEJ jakości bibliograficznej SREDNIA – Grupa dokumentów ŚREDNIEJ jakości bibliograficznej NISKA – Grupa dokumentów NISKIEJ jakości bibliograficznej Struktura pola DPL

  8. Krok 1. Podział dokumentów na podlegające i niepodlegające reduplikacji

  9. Krok 1. • Mimo, iż baza WBP01 zawiera różne typy dokumentów, proponuję ograniczyć prace wyłącznie do dokumentów zwartych, które stanowią obecnie ponad 93% bazy, • tj. 784 556 dokumentów. • Dokumenty te zostaną wybrane na podstawie zawartości pola FMT opisu bibliograficznego w korelacji z typem materiału związanych z nimi egzemplarzy. Dokumenty zwarte

  10. Krok 1. Dowolne dokumenty można wyszukać i wyłączyć na podstawie zadeklarowanego kryterium np.: „OPIS DO UZUPENIENIA” W bazie istnieje 102 000 dokumentów „usuniętych”, które również zostaną pominięte. Dokumenty wyłączone

  11. Krok 2. Ważenie dokumentów Podział dokumentów na trzy grupy jakości bibliograficznej

  12. Krok 2. Ważenie dokumentów

  13. Krok 2. Dokumenty „wysokiej” jakości - Brak błędów - Zgodność z KHW w polach 1XX, 6XX, 7XX

  14. Krok 2. Jakość średnia - dopuszczalne błędy w polach 700. - zawartość pola 700 nie odpowiada KHW Dokumenty „średniej” jakości

  15. Krok 2. Dokumenty „niskiej” jakości • Jakość niska • niedopuszczalne błędy pola 040 • - dopuszczalne błędy w polach • 246 i 521.

  16. Krok 2. Wiele opisów dobrej jakości ma wadliwe pola LDR i 008. Pominięcie tych pól w testowaniu pozwoli zwiększyć ilość opisów zaliczonych do grupy „wysoka”. Pola LDR i 008

  17. Krok 3. Reduplikacja - wyznaczenie listy powiązań między dokumentami

  18. Krok 3. Na podstawie ustalonych kryteriów zostanie wykonane porównanie i reduplikacja w dwu krokach: 1 - Dokumenty grup ŚREDNIA i NISKA w relacji do dokumentów grupy WYSOKA. Ponieważ dokumenty grupy WYSOKA nie podlegają zmianie, reduplikacja ogranicza się do przeniesienia egzemplarzy i związanych z nimi rekordów z dokumentów grup ŚREDNIA i NISKA oraz ich usunięciu. W tym kroku, grupy ŚREDNIA i NISKA są traktowane równoważnie. 2 – Pozostałych dokumentów między sobą. Na tym etapie dokumenty grupy ŚREDNIA są traktowane jako wzorcowe w stosunku do dokumentów grupy NISKA. Zakłada się, że dokumenty grupy NISKA mogą nie przejść reduplikacji (pozostaną samodzielnymi rekordami), ale nie mogą stać się dokumentami bazowymi dla innych rekordów, z wyjątkiem rekordów tej samej grupy. Reduplikacja

  19. Krok 4. Przenoszenie egzemplarzy Przenoszenie egzemplarzy i rekordów związanych wykorzystuje mechanizm znany z modułu katalogowania

  20. Krok 5. Wyniki • Szacujemy, że reduplikacja obejmie: • ………….. Dokumentów • ………….. Dokumentów duplikujących • ………….. Dokumentów przeznaczonych do usunięcia

More Related