340 likes | 469 Views
Kooperační systém článkové bibliografie a báze ANL, ANL FULL INFOS´ 2003 Knižnice - mosty informačnej spoločnosti Stará Lesná, 7.-10.4. Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS.
E N D
Kooperační systém článkové bibliografie a báze ANL, ANL FULLINFOS´ 2003Knižnice - mosty informačnej spoločnostiStará Lesná, 7.-10.4. Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS
Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu -1 • Nutnost nových modelů získávání, zpracování a zpřístupňování bibliografických informací, nutnost změn v chování uživatele (human computer interaction) s rozvojem elektronického publikování • Typy elektronických dokumentů: podle původu - digitalizované, současně tištěné i elektronické, doplňky k tištěným, pouze elektronické; podle obsahu– různá hlediska dělení;způsob a úroveň vydávání/popisu - monografie, pokračující zdroje (seriály, integrující zdroje - např. webovská sídla), jednotlivé části. • Získávání - zdroje plných textů : plné texty přístupné na Internetu (elektronické časopisy, elektronická vydavatelství /nakladatelství/informační agentury - archivy a databáze), plné texty získané od autora/ vydavatele/nakladatele/distributora, povinný výtisk, automatický sběr dat (harvesting). • Zpracování bibliografických záznamů a plných textů - způsoby : tradiční v integrovaném knihovnickém systému (ALEPH apod.), v lince automatické indexace bibliografických záznamů z plných textů (spíše extrakce či poloautomatická indexace doplněna ručně než zcela automatická)za současné tvorby URL a metadat ve formě UNIMARC/perspektivně v MARC 21, DC, XHTML, XML/RDF - nástroje pro extrakci, editaci, generování a indexaci dat (www vyhledávač, SW).
Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu -2 • Metadata : bibliografický záznam (MARC), DC - metadatový formát pro www zdroje s jednoduchou syntaxí a sémantikou, specifikováno 15 prvků , kvalifikované atributem či nekvalifikované. • Značkovací jazyky: značky určují způsob interpretace textu, značky určují význam (deskripce) a prezentaci (zobrazení) - HTML (kombinace obou typů, nedostatky), XML (pouze význam) + XSL (zobrazení) + Xlink, XPointer,XPath (odkazy). • Implementace metadat: MARC, DC a HTML, XHTML, XML/RDF v kvalifikované a nekvalifikované formě. • XML/RDF:popis systému značekDTD (Document Type Description)tvoří tzv.RDF (Resource Description Framework) - Rámec pro popis zdrojů v XML, definována syntax a sémantika - odkaz na definici RDF a metadatové schéma, tzv. jmenný prostor, prvek identifikován popisem (jmenným prostorem) a jeho názvem, možnost vkládat vnořené prvky. • Identifikace plných textů:URL , PURL (databáze, PURL je přiřazeno danému URL), URN ,SICI(pro tištěné i elektronické seriály, články), DOI (ochrana autorských práv). • Propojení: ruční/automatické, on-line/off-line, statické/dynamické, uzavřené/otevřené.
Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu - 3 • Vyhledání a zpřístupnění plných textů: internetové vyhledávače, protokol HTTP, XML, Z 39.50, SFX; brány a portály; "subjects gateways",konspekt, předmětové kategorie, témata; OPAC - bibliografické záznamy (UNIMARC/MARC 21) s URL adresou nebo dynamicky, pojmové vyhledávání a fulltextové vyhledávání (TOPIC) v kombinaci s rejstříky, interaktivní využití topiků při vyhledávání a zpětná vazba relevance (relevance feedback);metatagy DC v HTML, XHTML, XML/RDF. • Uložení plných textů: archivy, databáze - servery (nakladatelé/vydavatelé, informačních agentury, knihovny). • Výstupy:seznam článků (řazení dle relevance, do skupin - clustering aj.), formáty (citace/abstrakt/plný text, UNIMARC, DC, HTML, XHTML, XML/RDF). Stahování, export a tisk metadat a plných textů(formát text, RTF, HTML, XML, též UNICODE). • Uživatelé: lokální/interní, externí, registrovaní, neregistrovaní, zkušební registrace.
Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu - 4 • Zpřístupnění plných textů z hlediska formy: přes bibliografie a soupisy, obsahy časopisů, plnotextové databáze, digitální knihovny. • Zpřístupnění plných textů z hlediska institucionálního (zdroje):autoři, prostřednictvím nakladatelství/vydavatelství, distributorský firem, knihoven/informačních institucí. • Zpřístupnění plných textů z hlediska organizačního, ekonomického, technického: konzorcia, licence, zdarma, placené (předplatné – fixed-fee, platby za uskutečněné operace – pay-as-you-go), přes IP, login, heslo, volně. • Standardy: Metodika popisu článků ve formátu UNIMARC - vychází z AACR2R, ISBD /CP; harmonizace AACR2R a ISBD, ISBD (ER), ISBD(S) - ISBD (CR), FRBR – Funkční požadavky na bibliografické záznamy (Functional Requirements for Bibliographic Records) – 4 úrovňový model manifestace díla.
Článková bibliografie a zpřístupnění plných textů - některé projekty řešené v NKČR • Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (VaV, MKČR, 2000-2004). • Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, MKČR, 1999-2003).
Bibliografické zpracování článků v ČR. KOSABI. Báze ANL. Báze ANL FULL. SKAT (Lanius) • Kooperační systém článkové bibliografie - „užší“(NKČR, MZK, krajské knihovny) a „širší“(plus oborové, resp. specializované knihovny) - NKČR, zatím reálně 8 krajských knihoven + kontakty a spolupráce v teoretické rovině se 4 nově konstituovanými krajskými knihovnami, MZK, STK, SPKK-ÚIV, ÚZPI, experiment s Českým geologickým ústavem. • Součástí „širšího“ kooperačního systému je i Národní lékařská knihovna, záznamy však nejsou součástí báze ANL. • Kooperace po linii regionální a oborové. • Smluvní zajištění: Smlouva o sdružení pro Českou národní bibliografii (r. 1998), Dodatek č. 3 (r. 2001) zajišťuje pokračování článkové bibliografie v přechodném období související se změnou státoprávního uspořádání ČR. • Souborná bibliografická databáze KOSABI - ANL (vychází jako řada ČNB) a lokální databáze spolupracujících institucí, plnotextová báze ANL FULL s metadaty. • Systém Lanius, resp. Clavius - kooperační systém na úrovni menších knihoven a jeho produkt SKAT (Souborný katalog článků) - v současné době se řeší spolupráce s KOSABI.
KOSABI odborná knihovna krajská knihovna ANL, ANL FULL MZK ???? NKČR SKAT (LANIUS) městské/okresní knihovny
Excerpční základna KOSABI • Výběr zpracovávaných dokumentů je orientován na širší odbornou veřejnost: • A: seriály (časopisy, sborníky, ročenky) vydávané AVČR a vysokými školami v ČR • B: seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR • C:noviny (ústřední, regionální) a kulturně politické časopisy • D: populárně naučné časopisy • Vyloučena periodika místní, závodní a zábavného charakteru, časopisy pro děti event. mládež
Úplnost excerpce a kategorie titulů • A: 1 (100-80%) • B: 1 (sborníky, ročenky), 1-2 (odborné časopisy) (100-80-25 %) • C: 2, 3 (80-25, někdy méně) %) • D: 3 (25 – méně %)
Výběr typů článků • Faktograficky přínosné články. • Články odborné, články s dokumentární a uměleckou hodnotou. • Oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení). • Zprávy a informace o kulturních, sportovních, politických, vědeckých aj. akcích (konferencích, seminářích, festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních inscenacích, besedách, sportovních soutěžích). • Souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře. • Reportáže, biografické články (životopisné, jubilejní, nekrology, rozhovory, profily osobností, vzpomínky). • Literární texty (básně, povídky aj. ještě nepublikované, nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné). • Recenze publikací různého zaměření, gramofonových desek, kompaktních desek, filmů apod.
Profil ANL a ANL FULL • Výběrové článkové databáze. • Obory: všechny (lékařství a sport okrajově, technika posílila). • Typy seriálů: ANL – kategorie A,B,C,D (omezeně); ANL FULL zatím převažuje kategorie C . • Úplnost excerpce (výběr článků vzhledem k typům seriálů). • Popis a formáty: ANL a ANL FULL - UNIMARC, AACR2, MDT-MRF, předmětové kategorie, hesla, klíčová slova; ANL FULL navíc DC, XHTML, XML. • ANL/ALEPH (cca 765 000 záznamů, 537 titulů, r. 1991-). • ANL FULL/linka zpracování bibliografických záznamů z plných textu/TOPIC (107 000 plných textů s metadaty, 16 titulů, r. 1997-). • Aplikace pro periodikum Národní knihovna (r. 1999-), do r. 2001 v bázi ANL FULL, v budoucnu společné interface
MNG KOSABI – bibliografická báze ANL, plnotextová báze ANL FULL Akvizice dokumentů - ANL Lokální pracovní stanice systémů Aplikační, datové OPAC Web servery (lokální) servery (lokální) Server ANL ALEPH MNGKOSABI (Oracle, Linux) OPAC Web server – báze ANL ANL Server full.nkp.cz Akvizice plných textů (pro ANL FULL z báze TamTam) Internet Information Server – báze ANL FULL (Dell, TOPIC, WinNT), ANL FULL Linka TTDE
Management báze ANL • Aplikace pro příjem a automatizované zpracování dat od kooperujících institucí (konverze, globální úpravy, formálně logické kontorly - test na UNIMARC, test na duplicitu záznamů, aplikace pro evidenci excerpční základny) - dílčí aplikace: • upload předávání dat od kooperujících institucí do KOSABI; • import dat na server ANL, export dat do báze ANL- ALEPH); • kontrola na duplicity vně ALEPHu - klíče; • báze titulů.
Management ANL FULL • Linka zpracování bibliografických záznamů z plných textů - linka automatické indexace/extrakce ve spolupráci s Anopressem (akvizice plných textů z báze TamTam). • Báze ANL FULL v systému TOPIC. • Strukturovaný portál Periodika na WWW.
Linka zpracování bibliografických záznamů z plných textů - lokální stanice TamTam dokumenty TTSNK
Doplnění dat do formuláře – 1. strana ze 3. Po doplnění dat odeslání dat do ANL a ANL FULL
Bibliografická báze ANL. Zobrazení plného textu přes bibliografický záznam ANL
Plnotextová báze ANL FULL. Systém TOPIC - principy • Produkt americké firmy Verity, v současné verzi Portal One.V ČR TOPIC a další produkty založené na stejné technologii dodává firma TOVEK, s.r.o. • Fulltextový pojmově orientovaný vyhledávací systém, pojmové vyhledávání (concept retrieval) pomocí strukturovaných dotazů (topiků), využívá poznatků z oboru sémiotiky. • Hodnocení důležitosti, relevance vyhledaných dokumentů vzhledem k dotazu (relevance ranking), váhy. • Kvantifikace obsahu dokumentů. • Shlukování dokumentů podle společného kontextu (clustering) a vytváření automatické anotace - sumarizace (summarization). • Interaktivní vyhledávací systém - hledání dokumentů s podobným obsahem - volný dotaz (Free Text Query), dotaz příkladem (Query By Example).
Topik=dotaz • Dotaz - výraz složený ze slov a frází, který hledáme v dané databázi. • Topik - je předem definovaný uložený strukturovaný dotaz, resp. téma, které je tvořeno slovy, frázemi, operátory (významný fuzzy operátor ACCRUE) a modifikátory; obsahuje informace o předmětu hledání. • Topik má podobu pojmového stromu, na jeho nižších úrovních (větvích) jsou množiny dalších pojmů, resp. témat, která jsou tvořena dále nedělitelnými klíčovými slovy (listy). • Pojmový strom tvoří vyhledávací podmínku pro dokumenty týkající se určitého tématu. • Topik je konceptuální popis znalosti o dané problematice ve formě znalostního stromu. • Definice topiků tvoří tzv. znalostní bázi.
Čtyři způsoby hledání: pole dotaz, pomocí formulářů, pomocí topiků, resp. témat (předem strukturovaných dotazů), pomocí rejstříků. Tři druhy dotazů: prostý dotaz, formulářový dotaz, tematický dotaz. Tři druhy formulářů: základní, rozšířený, rozšířený s tématy. Seznam výsledků: jednoduchý, se souhrnem, seskupený. Třídění seznamu: skóre, výsl./str., vlastní třídění. Zobrazení metadat: uživatelské formáty, pracovní formáty. Rejstříky - nadefinováno 17 rejstříků. Jak vyhledávat. Druhy dotazů. Třídění a zobrazení výsledků vyhledávání
Dotaz v rozšířeném formuláři s tématy - topik ekologie, životní prostředí, dotaz krajina
Vyhledaný článek na základě topiku ekologie, životní prostředí
Budoucnost linky? Vyhledávání a zobrazení záznamů s propojením na plný text v ALEPHu - báze ANL Soubor bibliografických záznamů pro ANL ALEPH s propojením na plný text a báze ANL Vyhledávání, zobrazení metadat a plných textů - báze ANL FULL v NK na serveru FULL.NKP.CZ Soubor metadat a plných textů pro ANLFULL v NK na serveru FULL.NKP.CZ Zpracování plných textů - TTDE Stažení plných textů - TTSNK - - - Majitel plného textu/vlastník autorských práv (nakladatel, vydavatel, inf. agentura aj.) Soubor metadat (plných textů) pro prostor mezi NK aj. inst. (nakladatelství, vydavatelství, inf. agentury aj.) Export metadat, plných textů
Perspektivy KOSABI • Organizace • Začlenění nových krajských knihoven v Pardubicích, Karlových Varech, Havlíčkově Brodě, Zlíně. • Přerozdělení titulů, kde bude potřeba • KOSABI a SKAT - koordinace zpracování titulů v budoucnu. • Spolupráce s dalšími knihovnami a informačními institucemi. • Spolupráce se společností Anopress, event. navázání spolupráce s dalšími institucemi (nakladatelé, vydavatelé aj.).
Metody zpracování, standardizace • Doladitpřevod z některých systémů do standardního UNIMARCu a báze ANL. • Harmonizace popisu článků v rámci KOSABI se soubory autorit zejména v oblasti věcného zpracování (předmětová hesla, předmětové kategorie, metoda konspektu). • Konverze UNIMARC-MARC 21, pravidla pro popis článků vzhledem k tomuto formátu. • Testovat a event. postupně aplikovat linku zpracování bibliografických záznamů z plných textů (TTDE, automatická či poloautomatická extrakce a indexace dat) v rámci KOSABI. • Napojení linky zpracování na autority • Spolupráce s projektem Webarchiv?
KOSABI a jeho výstupy • Báze ANL a ANAL (Olomouc) zpřístupněna v JIB jako zdroj. • Báze ANL FULL zpřístupněna v JIB jako odkaz. • Plné texty báze ANL FULL a přes bázi ANL přístupné v JIB pro externí uživatele zatím na 7 dnů po registraci a přihlášení, pro uživatele NKČR běžně. Export a stahovaní článků v testovací fázi. • Báze ANL (jejíž část vzniká v lince TTDE) je vydávána jako řada ČNB Články v českých novinách, časopisech a sbornících.
Některé paralely a odlišnosti na Slovensku a v Česku • Obdobný vývoj zpracování článkové bibliografie na Slovensku a v Česku. • Vydávání SNB, ČNB - stejný SW (Tornádo) – AiP,AiB. • Súborný katalog knižníc SR, Souborný katalog ČR, Caslin. • Systém ALEPH v obou národních knihovnách. • Slovensko – BBB, systém LIBRIS, BIBLIS, Súborná databáza regionálnej bibliografie Košice, Rožňava, Trebišov. • Česko - JIB CASLIN, různé systémy, KOSABI, SKAT (Lanius). • Česko - fy Anopress, Slovensko fy Slovakia Online a Siac. • Slovensko - poskytování povinných kopií elektronických publikací UK v Bratislavě a SNK, Česko - nikoli ?
Prezentované informace včetně použité literatury jsou přístupné na adresách: http://full.nkp.cz, http://full.nkp.cz/nkkr/NKKR.html (periodikum Národní knihovna) http:// www.nkp.cz (z Katalogy a databáze, báze ANL aj.) http://www.anopress.cz (báze TamTam) Ivana Anděrová, NKČR, oddělení analytického zpracováníIvana.Anderova@nkp.cz