200 likes | 284 Views
Projekt reduplikacji bazy katalogu głównego DZB. Mariusz Gabrysiak kwiecień/maj 2010’.
E N D
Projekt reduplikacji bazy katalogu głównego DZB Mariusz Gabrysiak kwiecień/maj 2010’
Reduplikacja (tj. wtórna deduplikacja) jest procesem polegającym na porównaniu ze sobą rekordów bibliograficznych bazy katalogowej i wyszukaniu wśród nich, w oparciu o ustalone wcześniej kryteria, rekordów uznanych za duplikujące (tj. mające swoje powtórzenia wśród innych rekordów bazy), oraz nieduplikujące (tj. niemające takich powtórzeń). Celem reduplikacji jest rozpoznanie i opracowanie rekordów wzajemnie się duplikujących. Wśród rekordów duplikujących jeden zostaje uznany za oryginał, a pozostałe za kopie, które następnie mogą zostać usunięte z bazy danych Reduplikacja
Klucz reduplikacji - Kryteria reduplikacji obejmują głównie wybrane elementy danych typowego rekordu bibliograficznego, tj. tzw. klucz reduplikacji. Im bardziej ogólne kryteria (a tym samym miej warunków) tym większa wydajność reduplikacji. Im więcej kryteriów tym większe bezpieczeństwo danych. Proponowany klucz reduplikacji: 020/a Numer ISBN; 100/a Hasło autorskie; 245/a Tytuł właściwy; 250/a Numer wydania; 260/c Rok wydania. Klucz
Zagrożenia - w przypadku reduplikacji, wykonywanej w bazie danych, której część została już poddana ręcznej korekcie, istnieje konieczność ochrony już istniejących rekordów, przed jej negatywnymi skutkami. Standardowo program porównujący przegląda bazę sekwencyjnie (co „miej więcej” odpowiada kolejności zapisania dokumentów w bazie) i dla każdego „klucza reduplikacji” wyszukuje – w kolejnych dokumentach – jego odpowiedniki. Ten mechanizm rodzi ryzyko powstania błędów polegających na wskazaniu jako nadrzędnych opisów niskiej jakości bibliograficznej a w konsekwencji usunięciu odpowiadających im opisów wysokiej jakości. Zagrożenia
Wykorzystując mechanizmy kontroli danych systemu Aleph, można dokonać podziału bazy bibliograficznej na dokumenty podlegające i wyłączone z reduplikacji, oraz na trzy grupy jakości bibliograficznej: wysoka, średnia, niska. Dokumenty wyłączone, grupy wysoka, oraz niezawierające żadnego z przewidzianych oznaczeń będą chronione w dalszych pracach nad bazą, nie mogą być modyfikowane ani usuwane przez procedury reduplikacji. Przynależność do grupy jakości zostanie zarejestrowana w dokumentach bazy w utworzonym dla tego celu polu bibliograficznym DPL w podpolach \a i \b iwykorzystana do kierowania procesem reduplikacji. Kontrola danych
1. Podział dokumentów na podlegające i niepodlegające reduplikacji. 2. Podział dokumentów na trzy grupy jakości bibliograficznej. 3. Reduplikacja - wyznaczenie listy powiązań między dokumentami. a. Dokumenty grupy średnia i niska w relacji do grupy wysoka => lista powiązań_1 b. Pozostałe dokumenty grupy niska w relacji do pozostałych dokumentów grupy średnia => lista powiązań_2 4. Przenoszenie egzemplarzy na podstawie list powiązań. 5. Usuwanie zreduplikowanych dokumentów z bazy WBP01. Kolejność działań:
DPL WSKAŻNIK REDUPLIKACJI (NP) Wskaźniki - Nie zdefiniowane (#) Identyfikatory podpól a\ wskaźnik reduplikacji (NP) TAK – podlega reduplikacji NIE – wyłączone z reduplikacji b\ wskaźnik jakości bibliograficznej (NP) WYSOKA – Grupa dokumentów ŚREDNIEJ jakości bibliograficznej SREDNIA – Grupa dokumentów ŚREDNIEJ jakości bibliograficznej NISKA – Grupa dokumentów NISKIEJ jakości bibliograficznej Struktura pola DPL
Krok 1. Podział dokumentów na podlegające i niepodlegające reduplikacji
Krok 1. • Mimo, iż baza WBP01 zawiera różne typy dokumentów, proponuję ograniczyć prace wyłącznie do dokumentów zwartych, które stanowią obecnie ponad 93% bazy, • tj. 784 556 dokumentów. • Dokumenty te zostaną wybrane na podstawie zawartości pola FMT opisu bibliograficznego w korelacji z typem materiału związanych z nimi egzemplarzy. Dokumenty zwarte
Krok 1. Dowolne dokumenty można wyszukać i wyłączyć na podstawie zadeklarowanego kryterium np.: „OPIS DO UZUPENIENIA” W bazie istnieje 102 000 dokumentów „usuniętych”, które również zostaną pominięte. Dokumenty wyłączone
Krok 2. Ważenie dokumentów Podział dokumentów na trzy grupy jakości bibliograficznej
Krok 2. Ważenie dokumentów
Krok 2. Dokumenty „wysokiej” jakości - Brak błędów - Zgodność z KHW w polach 1XX, 6XX, 7XX
Krok 2. Jakość średnia - dopuszczalne błędy w polach 700. - zawartość pola 700 nie odpowiada KHW Dokumenty „średniej” jakości
Krok 2. Dokumenty „niskiej” jakości • Jakość niska • niedopuszczalne błędy pola 040 • - dopuszczalne błędy w polach • 246 i 521.
Krok 2. Wiele opisów dobrej jakości ma wadliwe pola LDR i 008. Pominięcie tych pól w testowaniu pozwoli zwiększyć ilość opisów zaliczonych do grupy „wysoka”. Pola LDR i 008
Krok 3. Reduplikacja - wyznaczenie listy powiązań między dokumentami
Krok 3. Na podstawie ustalonych kryteriów zostanie wykonane porównanie i reduplikacja w dwu krokach: 1 - Dokumenty grup ŚREDNIA i NISKA w relacji do dokumentów grupy WYSOKA. Ponieważ dokumenty grupy WYSOKA nie podlegają zmianie, reduplikacja ogranicza się do przeniesienia egzemplarzy i związanych z nimi rekordów z dokumentów grup ŚREDNIA i NISKA oraz ich usunięciu. W tym kroku, grupy ŚREDNIA i NISKA są traktowane równoważnie. 2 – Pozostałych dokumentów między sobą. Na tym etapie dokumenty grupy ŚREDNIA są traktowane jako wzorcowe w stosunku do dokumentów grupy NISKA. Zakłada się, że dokumenty grupy NISKA mogą nie przejść reduplikacji (pozostaną samodzielnymi rekordami), ale nie mogą stać się dokumentami bazowymi dla innych rekordów, z wyjątkiem rekordów tej samej grupy. Reduplikacja
Krok 4. Przenoszenie egzemplarzy Przenoszenie egzemplarzy i rekordów związanych wykorzystuje mechanizm znany z modułu katalogowania
Krok 5. Wyniki • Szacujemy, że reduplikacja obejmie: • ………….. Dokumentów • ………….. Dokumentów duplikujących • ………….. Dokumentów przeznaczonych do usunięcia