740 likes | 850 Views
SAPERI STORICI E NUOVE TECNOLOGIE Università degli Studi di Napoli “Federico II” Dipartimento di discipline storiche “Ettore Lepore”. NICOLA MADONNA Il formato di scambio Unimarc. Definizioni.
E N D
SAPERI STORICI E NUOVE TECNOLOGIEUniversità degli Studi di Napoli “Federico II”Dipartimento di discipline storiche “Ettore Lepore” NICOLA MADONNA Il formato di scambio Unimarc
Definizioni • Documento: «Qualsiasi oggetto utilizzabile a fini di consultazione, ricerca, informazione»(Devoto-Oli) • Biblioteca: «una raccolta di documenti ordinata per il loro reperimento» (Guerrini) • Catalogo: costituisce il mezzo che consente l’incontro tra i documenti di una biblioteca e i bisogni informativi dell’utenza Il formato di scambio Unimarc
Documenti = fonti d’informazione • Secondo il contenuto informativo, i documenti si distinguono in fonti: • Primarie documenti consultabili per sé, che non rimandano necessariamente o esclusivamente ad altri documenti (es.: enciclopedie, saggi, opere letterarie, musicali, teatrali, cinematografiche, figurative, rapporti tecnici, progetti, statistiche) • Secondarie Documenti che rinviano ad altri documenti (Es.: bibliografie, cataloghi, indici e abstract di riviste) Il formato di scambio Unimarc
Fonti secondarie e repertori bibliografici • Una citazione bibliografica, un abstract o un sommario di un articolo, l’indice di un’annata di un periodico sono descrizioni sintetiche di documenti finalizzate a facilitarne l’identificazione. Esse consistono nell’estrapolazione, dai documenti descritti, di alcune informazioni essenziali, che poi vengono registrate secondo determinate convenzioni, in modo da risultare facilmente identificabili da parte dei destinatari del messaggio • Fonti secondarie possono essere pubblicate con la stessa fonte primaria descritta, oppure autonomamente: in tal caso, sono raggruppate e ordinate in appositi repertori bibliografici Il formato di scambio Unimarc
Repertori bibliografici in ambiente elettronico • Un repertorio bibliografico in ambiente elettronico può consistere in: • una semplice lista precoordinata di citazioni, consultabile in maniera sequenziale (es.: un elenco di citazioni in una pagina web) • un vero e proprio database, o un sistema integrato di databases Il formato di scambio Unimarc
Database bibliografici • Un data-base è un archivio elettronico di documenti (o comunque di dati omogenei tra loro). Gli archivi (file) raccolgono e indicizzano le singole registrazioni (record). • Un data-base bibliografico è un archivio di fonti secondarie a carattere testuale Il formato di scambio Unimarc
Cos’è un “formato” • Si definisce “formato” la struttura logica degli oggetti digitali. • Perché un software possa riconoscere e gestire un oggetto digitale, deve identificarne la struttura come corrispondente a una categoria astratta di strutture o formati ad esso noti. • I “formati di scambio” dei dati sono dedicati allo scambio di dati fra sistemi differenti. Il formato di scambio Unimarc
Formati strutturati • Un formato si dice strutturato (o complesso) se in uno stesso documento, insieme ai dati informativi, sono presenti diverse tipologie di metadati strutturali (descrittivi, amministrativi, ecc.). • Più è analitico un formato strutturato, più indici se ne potranno ricavare. • I record bibliografici sono oggetti digitali a formato molto strutturato. Il formato di scambio Unimarc
ISBD Tra gli scopi con cui erano nate le ISBD, oltre a «fornire norme per la catalogazione descrittiva compatibili in tutto il mondo allo scopo di facilitare lo scambio internazionale delle registrazioni bibliografiche», vi era anche quello di «favorire la conversione delle registrazioni bibliografiche in forma leggibile dalla macchina». Per questo secondo scopo sono nati formati di gran lunga più analitici: i MARC. Il formato di scambio Unimarc
Lo standard ISO 2709 • L’International Organization for Standardization ha pubblicato nel 1996 la terza edizione della norma ISO 2709 per la standardizzazione del formato scambio su nastro magnetico dei record bibliografici (Format for bibliographic information interchange on magnetic tape). • La norma, agilissima, serve unicamente ad impostare la struttura astratta del formato. Il formato di scambio Unimarc
Conformità a ISO 2709 Elementi necessari ad una registrazione per essere conforme a ISO2709: • Etichetta del record (guida o leader): 24 caratteri con informazioni codificate sul record. • Indice (directory): riporta un numero di occorrenze uguale al numero dei campi presenti nella registrazione. • Campi di dati (datafields): indicatori, identificatori di sottocampo, codici di sottocampo, dati (max. 9999 car. per campo e 99999 car. per record). • Separatore di registrazione (field terminator): codice di fine record (%). Il formato di scambio Unimarc
Caratteristiche di un record ISO 2709 • Un record ISO 2709 è dunque un file lineare di testo. • Ciò consente la sua esportabilità e lo scambio tra database gestiti da software diversi. Il formato di scambio Unimarc
Il formato Unimarc Definizione: Unimarc è un formato macchina standardizzato per lo scambio di record bibliografici. Unimarc è: • Conforme a ISO 2709. • Conforme alle ISBD. • Flessibile rispetto a livelli di analiticità differenziati. • Ridondante (sono previsti campi e modalità diversi per una stessa tipologia di informazione). • Gerarchico (ha campi e sottocampi). Il formato di scambio Unimarc
Origini di MARC • Anni ’60: la Library of Congress pensa di convertire il catalogo cartaceo in un catalogo su elaboratore; si sviluppa il primo formato MARC (MAchine Readable Cataloguing), da cui nel 1973 deriverà la prima edizione di ISO 2709. • Nel 1968 LC in cooperazione con la British Library sperimenta MARC II, prototipo di tutti i MARC successivi. • Anni ’70: nei vari Paesi nascono e si diffondono MARC nazionali fondati su ISO 2709. Il formato di scambio Unimarc
Nascita di UNIMARC • Nel ’75 fu pubblicato UKMARC (per la Gran Bretagna) e INTERMARC (per paesi francofoni e slavi); in Italia si diffuse ANNAMARC (Automazione Nella NAzionale). • A partire dal ’77 appaiono a cura dell’IFLA le prime edizioni di UNIMARC • Negli Stati Uniti si passò invece da MARC II a USMARC; nel 1999 è stato pubblicato MARC 21. Il formato di scambio Unimarc
Prime edizioni di UNIMARC • La prima edizione (1977) conteneva solo il trattamento dei materiali per cui si era già pubblicato il corrispondente ISBD (cioè monografie e periodici). • La seconda edizione (1980) armonizzava lo standard alle revisioni di ISBD, ma comprendeva anche materiale cartografico e non librario • Nel 1983 esce l’UNIMARChandbook, indispensabile guida all’utilizzo del formato. Il formato di scambio Unimarc
Aggiornamenti e Raccomandazioni • Negli anni ’90 l’IFLA costituisce il PUC (Permanent Uniamrc Committee) con il compito di seguire la costante evoluzione del formato, ma anche di promuoverne la diffusione. • Il PUC ha pubblicato tre aggiornamenti del manuale (1996, 1998, 2000) e numerose Guideline (raccomadazioni) dedicate alle registrazioni analitiche, alle microforme, al libro antico, alla catalogazione a più livelli e alle risorse elettroniche. Il formato di scambio Unimarc
Evoluzione di Unimarc • Negli anni ’90 si moltiplicano i progetti europei per la conversione in Unimarc dai Marc nazionali. • In Italia già dal 1985 la BNI aveva adottato Unimarc come formato di scambio delle registrazioni; in Unimarc sono anche i dati del catalogo della Biblioteca nazionale centrale di Firenze. • Unimarc tende ad affermarsi non solo come formato di scambio, ma anche come formato di gestione “interno”. Il formato di scambio Unimarc
La catalogazione con Unimarc Unimarc è sviluppato sulla base delle ISBD, prevede pertanto campi e codici specifici per record catalografici relativi a: monografie, periodici, parti componenti, libri antichi, partiture musicali, documenti cartografici, immagini, registrazioni audio e video, materiali museali, risorse lettroniche. Il formato di scambio Unimarc
I quattro formati Unimarc Unimarc prevede a tutt’oggi 4 formati: • Unimarc Bibliographic Format • Unimarc Authority Format (1991, poi 1996) • Unimarc Classification Format (2000) • Unimarc Holdings Format (in programmazione) Il formato di scambio Unimarc
Analisi del formato Unimarc Bibliographic, come tutti i formati scambio, ha tre componenti base: • la struttura fisica • gli identificatori del contenuto • il contenuto della registrazione Il formato di scambio Unimarc
La struttura fisica La struttura fisica definisce le regole di costruzione della registrazione, indicando la tipologia dei campi di cui si compone, se cioè di lunghezza fissa o variabile, e la possibile ripetibilità dei campi stessi. Il formato di scambio Unimarc
Gli identificatori del contenuto Vi sono tre tipi di identificatori: • etichette (stringa di tre caratteri che identifica il tipo di campo che la segue); • indicatori (sono al massimo due per campo, sono numerici e hanno valore diverso a seconda dei campi utilizzati) • codici di sottocampo (introducono all’interno di un campo gli elementi che costituiscono un sottocampo) Il formato di scambio Unimarc
Il contenuto della registrazione Il contenuto della registrazione è costituito dai dati contenuti in ciascun campo e sottocampo. Anche se le problematiche relative a questo aspetto sono di pertinenza delle regole di catalogazione e degli standard applicati, tuttavia il passaggio dalla catalogazione manuale a quella automatizzata rende sempre più stretti i rapporti fra il formato e il contenuto. Il formato di scambio Unimarc
Tipologie di campi In Unimarc troviamo: • campi di dati codificati e di dati descrittivi (sono sempre dati testuali, ma i primi sono in codice, i secondi in linguaggio naturale) • campi a lunghezza fissa e a lunghezza variabile(i primi sono di dati codificati) • campi obbligatori, raccomandati e facoltativi(sono obbligatori solo i campi: 001, 100, 101, 200, 801 e, in presenza del dato, 120, 123 e 206) • campi ripetibili e non ripetibili(ma attenzione a non confondere campi e sottocampi: la casistica è oltremodo varia) Il formato di scambio Unimarc
I Campi di dati (1) • I campi di dati sono la parte del record in cui vengono riportate generalmente le vere e proprie informazioni bibliografiche, in alcuni tipi di campi in forma testuale, in altri in forma codificata • All’interno di un campo, i dati sono generalmente articolati in sottocampi e possono essere introdotti da un massimo di due indicatori, che ne specificano il contenuto o il trattamento Il formato di scambio Unimarc
I Campi di dati (2) • I campi delle informazioni descrittive corrispondono alle aree ISBD e al loro interno i sottocampi corrispondono alla punteggiatura ISBD • L’ISBD viene in tal modo (non sostituito ma) disambiguato e tradotto in un formato macchina Il formato di scambio Unimarc
Pausaaa! Ci rivediamo tra dieci minuti
L’etichetta del record: Leader • È una stringa di 24 caratteri contenenti informazioni generali sul record espresse in codice. • È obbligatoria: è necessaria per le macchine ai fini della corretta decodifica della registrazione • È il primo elemento della registrazione; non ha etichetta, né indicatori, né sottocampi. • Ogni informazione occupa una posizione fissa all’interno della stringa (ciò la rende più facilmente individuabile dai software). Il formato di scambio Unimarc
I dati codificati presenti nel Leader Il formato di scambio Unimarc
Esempio di Leader LDR: 00515nam0#2200193###|450# nuovo record, di 515 caratteri, dove il carattere iniziale del primo campo occupa la posizione 193esima. Il record è relativo a un testo a stampa monografico, non è collegato gerarchicamente ad altri records, è pienamente codificato secondo UNIMARC e la catalogazione è pienamente conforme a ISBD Il formato di scambio Unimarc
I blocchi Unimarc Il formato di scambio Unimarc
Blocco 0 - Identificazione I campi contrassegnati da un tag che comincia per “0” contengono numeri o stringhe alfanumeriche che identificano univocamente: • il record. Esempi: • 001 numero di sistema del record nel proprio archivio (obbligatorio); • 005 data e ora dell'ultima modifica • 035, numero di sistema dell'archivio da cui il record è stato importato • Il documento catalogato. Esempi: • 010 ISBN • 011 ISSN • 020 numero di bibliografia nazionale Il formato di scambio Unimarc
Blocco 1 Informazioni codificate I campi contrassegnati da un tag che comincia per "1" contengono sequenze di informazioni espresse in linguaggio codificato, utile a disambiguare l'informazione e a facilitare operazioni di filtering su archivi estesi. Ogni elemento della sequenza è identificabile ed enucleabile dalla sua posizione, che è predefinita. Esempi: Il formato di scambio Unimarc
Blocco 2 Informazioni descrittive I campi il cui tag comincia per "2" contengono le informazioni prescritte dall'ISBD, espresse -come in ISBD- in termini tratti dal linguaggio naturale. La differenza sta solo nella punteggiatura, che in UNIMARC si omette ed è sostituita dal sistema dei campi e sottocampi (eccetto il segno "=" per i titoli paralleli, che permane). Esempio: 200 1 $a Titolo proprio $b Indicazione generica del materiale $c Titolo proprio di altro autore $d= Titolo parallelo $e complemento del titolo $f Prima formulazione di responsabilità $g Seconda formulazione di responsabilità Il formato di scambio Unimarc
I campi più importanti del blocco 2 Il formato di scambio Unimarc
Blocco 3 - Note I campi il cui tag comincia per "3" contengono le informazioni che in un record ISBD sono fornite in nota. Per diverse tipologie di nota esiste un apposito campo 3xx. Alcuni ess.: Il formato di scambio Unimarc
Blocco 4 - Legami I campi il cui tag comincia per "4" contengono informazioni su altri record collegati a quello in esame. Sono previste due tecniche: • Quella dell'incapsulamento, fondata appunto sull'incapsulamento nel campo 4xx $1 di interi campi dell'altro record, inclusi i tag, gli indicatori e gli identificatori di sottocampo. Esempio: 410 1$1001005678 • Quella per sottocampi standard, fondata sulla citazione in appositi sottocampi del campo 4xx delle informazioni presenti nell'altro record Esempio: 410 1$tTitolo della serie$0numero di sistema del record collegato Il formato di scambio Unimarc
Blocco 5 Titoli in relazione I campi il cui tag comincia per "5" contengono titoli associati alla pubblicazione catalogata. Ess.: Il formato di scambio Unimarc
Blocco 6Analisi semantica I campi il cui tag comincia per "6" contengono le formulazioni di soggetto, secondo sistemi che utilizzano termini del linguaggio naturale o codici alfanumerici. Ess.: Il formato di scambio Unimarc
Blocco 7Responsabilità intellettuale I campi il cui tag comincia per "7" contengono le intestazioni per autori ed enti, ossia i nomi di persone o enti cui è associata una responsabilità intellettuale rispetto alla pubblicazione catalogata. Sono previsti campi per vari livelli di responsabilità (700, 710 principale; 701, 711, alternativa; 702, 712 secondaria; 730, livello non specificato), e sottocampi ("$4") in cui specificare in codice il tipo di relazione del soggetto con l'opera . Se l'intestazione è tratta da un authority file, si raccomanda di citare il corrispondente record di authority (nel sottocampo "$3") Non essendo standardizzate le forme delle intestazioni, vanno specificati l'ordine di citazione delle parti del nome (mediante indicatori appositi) e la punteggiatura (che va apposta dal catalogatore). Il formato di scambio Unimarc
I campi del blocco 7 Il formato di scambio Unimarc
Blocco 8Dati internazionali I campi il cui tag comincia per "8" contengono informazioni di genere vario: • sul record Esempi: 801 fonte della registrazione (i.e.: chi l'ha prodotta) 886 dati non convertiti dal formato fonte • o sulla pubblicazione Esempio: 856 localizzazione e accesso elettronici (URL) Il formato di scambio Unimarc
I campi "9xx", "x9x", "xx9" • I campi con un "9" nel tag contengono dati di tipo non previsto dal formato UNIMARC ma appartenenti a convenzioni descrittive nazionali. • Tali dati, a meno di accordi espressi, non vengono esportati. • In assenza di un formato UNIMARC per dati gestionali sulle copie fisiche, spesso un campo "9xx" viene utilizzato per registrare tali dati. • Si ricorre al "9" nel tag anche per registrare soggetti o classificazioni tratti da sistemi non riconosciuti ufficialmente sul piano internazionale. • La BNI utilizza i campi 900 e 910 per registrare forme non preferite di nomi di persone o di enti. Il formato di scambio Unimarc
I set di caratteri • I primi calcolatori sono nati con set di caratteri minimali (numeri e caratteri del solo alfabeto latino), dovendo rispondere unicamente a esigenze di calcolo. • Ciò costituì un regresso rispetto alle schede cartacee, venendo meno i caratteri diacritici e i segni speciali Il formato di scambio Unimarc
I caratteri ASCII • Da tempo c’è convergenza sul set di caratteri base sullo standard ISO 646, 7-bit coded character set for information processing interchange, meglio noto come set di caratteri ASCII (American standard code for information interchange). • Il set comprende 128 caratteri: i primi 32 riservati a funzioni di controllo, 94 ai caratteri grafici, 1 allo spazio, 1 alla cancellazione. • Anche in questo modo però i caratteri e i segni speciali rappresentabili non bastano a rispondere alle esigenze del trattamento dei dati bibliografici. Il formato di scambio Unimarc
I set di caratteri estesi • La Library of Congress ha sviluppato un set di caratteri esteso (ANSEL, Extended latin alphabet coded character set for bibliographic use), poi utilizzato per la codifica delle registrazioni USMARC. • Unimarc ha invece adottato la norma ISO 5426, Extended latin set. • Ciò significa che per transcodificare una registrazione da un Marc all’altro è necessario anche tradurre i caratteri speciali da un set all’altro. Il formato di scambio Unimarc
I set di caratteri per alfabeti non latini Unimarc prevede anche la possibilità di trattare registrazioni in alfabeti non latini. Ecco i set attualmente previsti: • ISO Registration #37 = cirillico di base • ISO DIS 5427 = cirillico esteso • ISO 5428 = greco antico • ISO 6438 = africano • ISO 10586 = georgiano Il formato di scambio Unimarc
Unicode • Anche i set appena visti sono tuttavia ben lontani dall’esaurire le esigenze della catalogazione; essi sono inoltre di spiccata impronta europea. • Una risposta infinitamente più ricca alle esigenze espresse, è stata data da Unicode (norma ISO 10646 livello 3). • Unicod è basato su una codifica a 16 bits ed è in grado di gestire fino a 65.000 caratteri. • È prevista una sua ulteriore estensione, l’UTF-16, che consentirebbe la codifica di oltre un miliione di dati. • Unimarc prevede già la possibilità di utilizzare Unicode; tutti i principali produttori di hardware e software per l’automazione bibliotecaria si stanno orientando verso questo standard. Il formato di scambio Unimarc
Pausaaa! Ci rivediamo tra dieci minuti