250 likes | 391 Views
http://www.itale.it A cura di Stefano Bonanni Servizio Automazione Biblioteche Area Sistema delle Biblioteche Università degli Studi di Siena bonanni3@unisi.it. Associazione Italiana Utenti Aleph. Il PROGETTO ITALE-ACNP e
E N D
http://www.itale.it A cura di Stefano Bonanni Servizio Automazione Biblioteche Area Sistema delle Biblioteche Università degli Studi di Siena bonanni3@unisi.it Associazione Italiana Utenti Aleph Il PROGETTO ITALE-ACNP e “L’elaborazione automatica delle stringhe di posseduto e delle lacune” Università degli Studi di Udine 20 aprile 2006
Contenuto • Il Gruppo di lavoro • Sedi interessate al progetto • Descrizione e schema del progetto • Normalizzazione delle stringhe di posseduto e delle lacune dei cataloghi ALEPH nel formato previsto da ACNP • Stringhe monoblocco • Casistiche monoblocco trattate • Stringhe pluriblocco • Trattamento delle stringhe pluriblocco • Conclusioni • Problemi aperti e tempistica Progetto ITALE-ACNP
Il Gruppo di lavoro Sedi che, avendo aderito al progetto, compongono il Gruppo di Lavoro ITALE - ACNP • Università degli Studi di Siena • Biblioteca della Banca d’Italia • Università degli Studi dell’Insubria • Università della Calabria • Università degli Studi di Camerino • Università degli Studi Roma Tre • Università degli Studi di Milano Bicocca Progetto ITALE-ACNP
Sedi interessate al progetto • Università degli Studi di Napoli “Parthenope” • Stazione Zoologica “Anton Dohrn” – Napoli • Università degli Studi di Bergamo • Università IULM – Milano • Università degli Studi di Palermo • Università degli Studi di Salerno • Università degli Studi di Perugia • Università degli Studi della Basilicata Progetto ITALE-ACNP
Schema del progetto (1) Il progetto si propone la gestione della migrazione in batch delle consistenze e delle lacune dei cataloghi Aleph in ACNP. Fasi del progetto: • Assegnazione ISSN o codice ACNP ai seriali cartacei dei cataloghi ALEPH • Elaborazione di una procedura automatica per la normalizzazione delle stringhe di posseduto e lacune nella sintassi “Posseduto” di ACNP • Gestione manuale delle stringhe di posseduto non processate ma segnalate dalla procedura automatica • Match con l’ISSN o con il codice ACNP sulla base dei files trasmessi dai gestori di ACNP • Caricamento batch secondo le specifiche del formato di conversione ACNP attraverso files distinti per singola sottobiblioteca di ogni sede Progetto ITALE-ACNP
Schema del progetto (2) La fase successiva dovrà assicurare un progressivo allineamento tra i dati dei cataloghi ALEPH e ACNP tenendo conto che le migrazioni offline saranno effettuate con una periodicità annuale. Essa si articolerà nelle seguenti fasi: • Inserimento online tramite gestionale ACNP dei seriali senza ISSN o codice ACNP per le sedi interessate ad un caricamento integrale in breve tempo dei propri dati • Analisi dei dati contenuti nel file di rigetto del caricamento batch e gestione online (sui cataloghi ALEPH quando opportuno o direttamente in ACNP) nei casi in cui il match realizzatosi con il caricamento offline abbia significato la perdita o l’incongruenza di alcune informazioni • Feedback e contro-feedback tra l’ultimo file di rigetto, il file di migrazione successivo e le modifiche effettuate direttamente in ACNP per il fatto che prima di ogni caricamento saranno completamente eliminati i dati che si riferiscono alla specifica istituzione Progetto ITALE-ACNP
Normalizzazione delle stringhe ALEPH nel formato “Posseduto” di ACNP (1) • La stringa delle annate dei campi “posseduto” e “lacune” deve essere composta da:anno di 4 cifre numeriche, più punteggiatura, più 4 cifre numeriche, più punteggiatura, etc., ovvero non devono essere indicati i numeri di volume, annata, fascicolo, etc. Es: 1950-1952;1954;1956; • La stringa deve sempre terminare con la punteggiatura • La punteggiatura ammessa è “.”, “;”, “-”. Poichè la procedura automatica non distingue la differenza convenzionalmente attribuita da ACNP al “;” ed al “.” finali, essa conclude sempre le stringhe di posseduto e lacune con il “;” • La punteggiatura finale delle Lacune può essere solo “.”, “;”. La procedura però fa terminare le lacune sempre con il “;” • All’interno della stringa (pluriblocco) non è consentito inserire annate consecutive divise dal “;”. Es: 1950;1951- Progetto ITALE-ACNP
Normalizzazione delle stringhe ALEPH nel formato “Posseduto” di ACNP (2) • Dopo aver richiesto alle sedi interessate un file campione sulla struttura del campo “Posseduto” sono state analizzate le consistenze delle seguenti sedi ITALE che per adesso hanno inviato il file esemplificativo: Università degli Studi di Siena Biblioteca Banca d’Italia Università degli Studi di Roma tre Università della Calabria Università degli Studi dell’Insubria Università degli Studi di Perugia Università degli Studi di Palermo Univesità degli Studi di Bergamo Università degli Studi di Salerno Stazione Zoologica “Anton Dohrn” - Napoli • Sono state processate le stringhe di posseduto del catalogo dell’Università di Siena, ma la flessibilità della procedura la rende adattabile ed applicabile anche alle consistenze di altri cataloghi ALEPH • Le istruzioni che la procedura automatica applica al campo “Posseduto” saranno applicate anche al campo “Lacune” essendo questo strutturato nel formato ACNP come il primo Progetto ITALE-ACNP
Stringhe Aleph monoblocco • Possono essere considerate come le unità di base sulle quali deve lavorare la procedura automatica per normalizzare le consistenze e le lacune dei cataloghi Aleph nel formato previsto da ACNP • Possono essere strutturate in diverso modo, ma sono accomunate dal fatto di riportare nella punteggiatura un solo “;” o di non riportarne affatto Es. : 17(1951)-33(1967); Es. : (1977)- Es. : 1990/91; Es. : 1990/1991 Progetto ITALE-ACNP
Casistiche monoblocco trattate (1) Singola annata inserita tra parentesi tonde seguita da “;”, “.”, “-”, o senza punteggiatura finale, indipendentemente dalle indicazioni di serie, volume, fascicolo riportate prima della parentesi aperta. Es.: Stringa Aleph formato ACNP 13 (1977)- 1977- (1977); 1977; (1977). 1977; (1977) 1977; Progetto ITALE-ACNP
Casistiche monoblocco trattate (2) Annate inserite entro parentesi tonde. La condizione prevista dalla routine è che ci siano nella stringa due parentesi tonde dello stesso tipo. La punteggiatura finale della stringa può essere il “;”, il “.”, ma la stringa può terminare anche senza punteggiatura. Es.: Stringa Aleph formato ACNP 17(1951)-33(1967); 1951-1967; 17(1951)-33(1967). 1951-1967; 17(1951)-33(1967) 1951-1967; Progetto ITALE-ACNP
Casistiche monoblocco trattate (3) Singola annata di quattro cifre consecutive fuori parentesi. Le consistenze sono processate quando la stringa finisce con il “;”, con il “.”, con il “-”, o senza punteggiatura. Es.: Stringa Aleph formato ACNP 1980; 1980; 1980. 1980; 1980 1980; 1980- 1980- Progetto ITALE-ACNP
Casistiche monoblocco trattate (4) Annate di quattro cifre consecutive fuori parentesi. Le consistenze sono processate quando la stringa finisce con il “;”, il “.”, o senza punteggiatura”. Es.: Stringa Aleph formato ACNP 1980-1990; 1980-1990; 1980-1990. 1980-1990; 1980-1990 1980-1990; Progetto ITALE-ACNP
Casistiche monoblocco trattate (5) Annate a cavallo divise da / entro parentesi tonde con secondo blocco composto di solo due cifre. Le consistenze sono processate quando la stringa finisce con il “;”, con il “.”, con il “-”, o senza punteggiatura”. Es.: Stringa Aleph formato ACNP (1992/93); 1992-1993; (1992/93)- 1992- (1992/93 1992-1993; (1992/93). 1992-1993; Progetto ITALE-ACNP
Casistiche monoblocco trattate (6) Annate a cavallo divise da - entro parentesi tonde con secondo blocco di due cifre. Le consistenze sono processate quando la stringa finisce con il “;”, con il “-”, con il “.”, o senza punteggiatura”. Es.: Stringa Aleph formato ACNP (1992-93); 1992-1993; (1992-93)- 1992- (1992-93) 1992-1993; (1992-93). 1992-1993; Progetto ITALE-ACNP
Casistiche monoblocco trattate (7) Annate a cavallo divise da / entro parentesi tonde con secondo blocco di quattro cifre. Le consistenze sono processate quando la stringa finisce con il “;”, con il “.”, con il “-”, o senza punteggiatura. Es.: Stringa Aleph formato ACNP (1992/1993); 1992-1993; (1992/1993)- 1992- (1992/1993) 1992-1993; (1992/1993). 1992-1993; Progetto ITALE-ACNP
Casistiche monoblocco trattate (7) Annate a cavallo fuori parentesi divise da / con secondo blocco di due cifre. Le consistenze sono processate quando la stringa finisce con il “;”, con il “.”, con il “-”, o senza punteggiatura”. Es.: Stringa Aleph formato ACNP 1992/93; 1992-1993; 1992/93- 1992- 1992/93 1992-1993; 1992/93. 1992-1993; Progetto ITALE-ACNP
Casistiche monoblocco trattate (8) Annate a cavallo fuori parentesi divise da / con secondo blocco di quattro cifre. Le consistenze sono processate quando la stringa finisce con il “;”, con il “.”, con il “-”, o senza punteggiatura Es.: Stringa Aleph formato ACNP 1992/1993; 1992-1993; 1992/1993- 1992- 1992/1993 1992-1993; 1992/1993. 1992-1993; Progetto ITALE-ACNP
Casistiche monoblocco trattate (9) Annate a cavallo fuori parentesi divise da - con secondo blocco di due cifre. Le consistenze sono processate quando la stringa finisce con il “;”, con il “.”, con il “-”, o senza punteggiatura”. Es.: Stringa Aleph formato ACNP 1992-93; 1992-1993; 1992-93- 1992- 1992-93 1992-1993; 1992-93. 1992-1993; Progetto ITALE-ACNP
Casistiche monoblocco trattate (10) Annate di quattro cifre inserite entro parentesi tonde separate da - . Le consistenze sono processate quando la stringa finisce con il “;”, con il “.”, con il “-”, o senza punteggiatura”. Es.: Stringa Aleph formato ACNP 18(1992-1993); 1992-1993; 18(1992-1993)- 1992- 18(1992-1993) 1992-1993; 18(1992-1993). 1992-1993; Progetto ITALE-ACNP
Stringhe pluriblocco • Possono essere considerate come un insieme costituito da più stringhe monoblocco separate dal “;”. Es. : 14(1938); 19(1947)-21(1948);24(1950)-29(1951); 32(1953); • La procedura deve scomporre la stringa in singoli monoblocchi, applicare le condizioni a ciascun di questi normalizzandoli, ricomporre la stringa normalizzata nella sua interezza • La procedura deve poi gestire, in base alla punteggiatura interna e finale della stringa, i legami tra annate consecutive divise dal “;”. Es. di stringa normalizzata: 1970;1971;1972;1974;1976;1977;1986;1987;2004- Stringa convertita nel formato ACNP: 1970-1972;1974;1976-1977;1986-1987;2004- Progetto ITALE-ACNP
Conclusioni • Su un totale di circa 32.000 stringhe di posseduto relative ai dati dell’Università di Siena ne sono state processate al momento ben 22.700. Il resto è composto prevalentemente dalle stringhe pluriblocco • La procedura dovrà essere parametrizzata in base alle specificità delle “Consistenze” e delle “Lacune” di ciascuna sede • Le stringhe di posseduto che non saranno trattate automaticamente dalla routine saranno indicate e recuperabili grazie ad uno specifico indicatore del Tag. • Esse dovranno essere gestite manualmente o intervenendo direttamente sul campo, modificandole per essere riconosciute e processabili dalla procedura (opzione preferibile), oppure duplicando l’intero Tag ed inserendo in esso la consistenza già nel formato ACNP • In prospettiva si renderà necessario garantire una maggiore uniformità nella descrizione del “Posseduto” comunicando agli stessi catalogatori i formati delle casistiche che, riconosciute e trattate dalla procedura automatica, potranno utilizzare in “Catalogazione corrente” per l’inserimento delle “Consistenze” Progetto ITALE-ACNP
Problemi aperti e tempistica • Ridurre il fenomeno dei “Falsi positivi”, ossia il trattamento di quelle stringhe che la procedura riconosce e processa quando invece essa non appartiene ad alcuna delle casistiche individuate. Es.: 1980 – (1990); In uscita nel formato ACNP dovrebbe essere 1980-1990; La procedura, senza le opportune istruzioni, avrebbe però trattato la stringa riconducendola al caso di singola annata entro parentesi tonda e l’output, ossia “1990;”, sarebbe stato di conseguenza sbagliato • La procedura è nella sua architettura completata. Resta da sviluppare la parte relativa alla gestione dei legami tra annate consecutive divise dal “;” nelle stringhe pluriblocco. • Entro la fine di giugno 2006 dovrà essere completata la sperimentazione relativa all’intero flusso lavorativo sui dati dell’Università di Siena, dal caricamento batch alla analisi del file di rigetto, etc. e nel contempo avviata la parametrizzazione della procedura per il caricamento dati delle altre sedi. Progetto ITALE-ACNP
http://www.itale.it A cura di Stefano Bonanni Servizio Automazione Biblioteche Area Sistema delle Biblioteche Università degli Studi di Siena bonanni3@unisi.it Associazione Italiana Utenti Aleph Il PROGETTO ITALE-ACNP e “L’elaborazione automatica delle stringhe di posseduto e delle lacune” Università degli Studi di Udine 20 aprile 2006