1 / 34

Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Kooperační systém článkové bibliografie a báze ANL, ANL FULL INFOS´ 2003 Knižnice - mosty informačnej spoločnosti Stará Lesná, 7.-10.4. Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS.

Download Presentation

Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kooperační systém článkové bibliografie a báze ANL, ANL FULLINFOS´ 2003Knižnice - mosty informačnej spoločnostiStará Lesná, 7.-10.4. Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

  2. Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu -1 • Nutnost nových modelů získávání, zpracování a zpřístupňování bibliografických informací, nutnost změn v chování uživatele (human computer interaction) s rozvojem elektronického publikování • Typy elektronických dokumentů: podle původu - digitalizované, současně tištěné i elektronické, doplňky k tištěným, pouze elektronické; podle obsahu– různá hlediska dělení;způsob a úroveň vydávání/popisu - monografie, pokračující zdroje (seriály, integrující zdroje - např. webovská sídla), jednotlivé části. • Získávání - zdroje plných textů : plné texty přístupné na Internetu (elektronické časopisy, elektronická vydavatelství /nakladatelství/informační agentury - archivy a databáze), plné texty získané od autora/ vydavatele/nakladatele/distributora, povinný výtisk, automatický sběr dat (harvesting). • Zpracování bibliografických záznamů a plných textů - způsoby : tradiční v integrovaném knihovnickém systému (ALEPH apod.), v lince automatické indexace bibliografických záznamů z plných textů (spíše extrakce či poloautomatická indexace doplněna ručně než zcela automatická)za současné tvorby URL a metadat ve formě UNIMARC/perspektivně v MARC 21, DC, XHTML, XML/RDF - nástroje pro extrakci, editaci, generování a indexaci dat (www vyhledávač, SW).

  3. Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu -2 • Metadata : bibliografický záznam (MARC), DC - metadatový formát pro www zdroje s jednoduchou syntaxí a sémantikou, specifikováno 15 prvků , kvalifikované atributem či nekvalifikované. • Značkovací jazyky: značky určují způsob interpretace textu, značky určují význam (deskripce) a prezentaci (zobrazení) - HTML (kombinace obou typů, nedostatky), XML (pouze význam) + XSL (zobrazení) + Xlink, XPointer,XPath (odkazy). • Implementace metadat: MARC, DC a HTML, XHTML, XML/RDF v kvalifikované a nekvalifikované formě. • XML/RDF:popis systému značekDTD (Document Type Description)tvoří tzv.RDF (Resource Description Framework) - Rámec pro popis zdrojů v XML, definována syntax a sémantika - odkaz na definici RDF a metadatové schéma, tzv. jmenný prostor, prvek identifikován popisem (jmenným prostorem) a jeho názvem, možnost vkládat vnořené prvky. • Identifikace plných textů:URL , PURL (databáze, PURL je přiřazeno danému URL), URN ,SICI(pro tištěné i elektronické seriály, články), DOI (ochrana autorských práv). • Propojení: ruční/automatické, on-line/off-line, statické/dynamické, uzavřené/otevřené.

  4. Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu - 3 • Vyhledání a zpřístupnění plných textů: internetové vyhledávače, protokol HTTP, XML, Z 39.50, SFX; brány a portály; "subjects gateways",konspekt, předmětové kategorie, témata; OPAC - bibliografické záznamy (UNIMARC/MARC 21) s URL adresou nebo dynamicky, pojmové vyhledávání a fulltextové vyhledávání (TOPIC) v kombinaci s rejstříky, interaktivní využití topiků při vyhledávání a zpětná vazba relevance (relevance feedback);metatagy DC v HTML, XHTML, XML/RDF. • Uložení plných textů: archivy, databáze - servery (nakladatelé/vydavatelé, informačních agentury, knihovny). • Výstupy:seznam článků (řazení dle relevance, do skupin - clustering aj.), formáty (citace/abstrakt/plný text, UNIMARC, DC, HTML, XHTML, XML/RDF). Stahování, export a tisk metadat a plných textů(formát text, RTF, HTML, XML, též UNICODE). • Uživatelé: lokální/interní, externí, registrovaní, neregistrovaní, zkušební registrace.

  5. Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu - 4 • Zpřístupnění plných textů z hlediska formy: přes bibliografie a soupisy, obsahy časopisů, plnotextové databáze, digitální knihovny. • Zpřístupnění plných textů z hlediska institucionálního (zdroje):autoři, prostřednictvím nakladatelství/vydavatelství, distributorský firem, knihoven/informačních institucí. • Zpřístupnění plných textů z hlediska organizačního, ekonomického, technického: konzorcia, licence, zdarma, placené (předplatné – fixed-fee, platby za uskutečněné operace – pay-as-you-go), přes IP, login, heslo, volně. • Standardy: Metodika popisu článků ve formátu UNIMARC - vychází z AACR2R, ISBD /CP; harmonizace AACR2R a ISBD, ISBD (ER), ISBD(S) - ISBD (CR), FRBR – Funkční požadavky na bibliografické záznamy (Functional Requirements for Bibliographic Records) – 4 úrovňový model manifestace díla.

  6. Článková bibliografie a zpřístupnění plných textů - některé projekty řešené v NKČR • Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (VaV, MKČR, 2000-2004). • Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, MKČR, 1999-2003).

  7. Bibliografické zpracování článků v ČR. KOSABI. Báze ANL. Báze ANL FULL. SKAT (Lanius) • Kooperační systém článkové bibliografie - „užší“(NKČR, MZK, krajské knihovny) a „širší“(plus oborové, resp. specializované knihovny) - NKČR, zatím reálně 8 krajských knihoven + kontakty a spolupráce v teoretické rovině se 4 nově konstituovanými krajskými knihovnami, MZK, STK, SPKK-ÚIV, ÚZPI, experiment s Českým geologickým ústavem. • Součástí „širšího“ kooperačního systému je i Národní lékařská knihovna, záznamy však nejsou součástí báze ANL. • Kooperace po linii regionální a oborové. • Smluvní zajištění: Smlouva o sdružení pro Českou národní bibliografii (r. 1998), Dodatek č. 3 (r. 2001) zajišťuje pokračování článkové bibliografie v přechodném období související se změnou státoprávního uspořádání ČR. • Souborná bibliografická databáze KOSABI - ANL (vychází jako řada ČNB) a lokální databáze spolupracujících institucí, plnotextová báze ANL FULL s metadaty. • Systém Lanius, resp. Clavius - kooperační systém na úrovni menších knihoven a jeho produkt SKAT (Souborný katalog článků) - v současné době se řeší spolupráce s KOSABI.

  8. KOSABI odborná knihovna krajská knihovna ANL, ANL FULL MZK ???? NKČR SKAT (LANIUS) městské/okresní knihovny

  9. Excerpční základna KOSABI • Výběr zpracovávaných dokumentů je orientován na širší odbornou veřejnost: • A: seriály (časopisy, sborníky, ročenky) vydávané AVČR a vysokými školami v ČR • B: seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR • C:noviny (ústřední, regionální) a kulturně politické časopisy • D: populárně naučné časopisy • Vyloučena periodika místní, závodní a zábavného charakteru, časopisy pro děti event. mládež

  10. Úplnost excerpce a kategorie titulů • A: 1 (100-80%) • B: 1 (sborníky, ročenky), 1-2 (odborné časopisy) (100-80-25 %) • C: 2, 3 (80-25, někdy méně) %) • D: 3 (25 – méně %)

  11. Výběr typů článků • Faktograficky přínosné články. • Články odborné, články s dokumentární a uměleckou hodnotou. • Oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení). • Zprávy a informace o kulturních, sportovních, politických, vědeckých aj. akcích (konferencích, seminářích, festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních inscenacích, besedách, sportovních soutěžích). • Souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře. • Reportáže, biografické články (životopisné, jubilejní, nekrology, rozhovory, profily osobností, vzpomínky). • Literární texty (básně, povídky aj. ještě nepublikované, nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné). • Recenze publikací různého zaměření, gramofonových desek, kompaktních desek, filmů apod.

  12. Profil ANL a ANL FULL • Výběrové článkové databáze. • Obory: všechny (lékařství a sport okrajově, technika posílila). • Typy seriálů: ANL – kategorie A,B,C,D (omezeně); ANL FULL zatím převažuje kategorie C . • Úplnost excerpce (výběr článků vzhledem k typům seriálů). • Popis a formáty: ANL a ANL FULL - UNIMARC, AACR2, MDT-MRF, předmětové kategorie, hesla, klíčová slova; ANL FULL navíc DC, XHTML, XML. • ANL/ALEPH (cca 765 000 záznamů, 537 titulů, r. 1991-). • ANL FULL/linka zpracování bibliografických záznamů z plných textu/TOPIC (107 000 plných textů s metadaty, 16 titulů, r. 1997-). • Aplikace pro periodikum Národní knihovna (r. 1999-), do r. 2001 v bázi ANL FULL, v budoucnu společné interface

  13. MNG KOSABI – bibliografická báze ANL, plnotextová báze ANL FULL Akvizice dokumentů - ANL Lokální pracovní stanice systémů Aplikační, datové OPAC Web servery (lokální) servery (lokální) Server ANL ALEPH MNGKOSABI (Oracle, Linux) OPAC Web server – báze ANL ANL Server full.nkp.cz Akvizice plných textů (pro ANL FULL z báze TamTam) Internet Information Server – báze ANL FULL (Dell, TOPIC, WinNT), ANL FULL Linka TTDE

  14. Management báze ANL • Aplikace pro příjem a automatizované zpracování dat od kooperujících institucí (konverze, globální úpravy, formálně logické kontorly - test na UNIMARC, test na duplicitu záznamů, aplikace pro evidenci excerpční základny) - dílčí aplikace: • upload předávání dat od kooperujících institucí do KOSABI; • import dat na server ANL, export dat do báze ANL- ALEPH); • kontrola na duplicity vně ALEPHu - klíče; • báze titulů.

  15. Management ANL FULL • Linka zpracování bibliografických záznamů z plných textů - linka automatické indexace/extrakce ve spolupráci s Anopressem (akvizice plných textů z báze TamTam). • Báze ANL FULL v systému TOPIC. • Strukturovaný portál Periodika na WWW.

  16. Linka zpracování bibliografických záznamů z plných textů - lokální stanice TamTam dokumenty TTSNK

  17. Vyhledání příslušného zdroje

  18. Označení článků a jejich stáhnutí

  19. Doplnění dat do formuláře – 1. strana ze 3. Po doplnění dat odeslání dat do ANL a ANL FULL

  20. Bibliografická báze ANL. Zobrazení plného textu přes bibliografický záznam ANL

  21. Plnotextová báze ANL FULL. Systém TOPIC - principy • Produkt americké firmy Verity, v současné verzi Portal One.V ČR TOPIC a další produkty založené na stejné technologii dodává firma TOVEK, s.r.o. • Fulltextový pojmově orientovaný vyhledávací systém, pojmové vyhledávání (concept retrieval) pomocí strukturovaných dotazů (topiků), využívá poznatků z oboru sémiotiky. • Hodnocení důležitosti, relevance vyhledaných dokumentů vzhledem k dotazu (relevance ranking), váhy. • Kvantifikace obsahu dokumentů. • Shlukování dokumentů podle společného kontextu (clustering) a vytváření automatické anotace - sumarizace (summarization). • Interaktivní vyhledávací systém - hledání dokumentů s podobným obsahem - volný dotaz (Free Text Query), dotaz příkladem (Query By Example).

  22. Topik=dotaz • Dotaz - výraz složený ze slov a frází, který hledáme v dané databázi. • Topik - je předem definovaný uložený strukturovaný dotaz, resp. téma, které je tvořeno slovy, frázemi, operátory (významný fuzzy operátor ACCRUE) a modifikátory; obsahuje informace o předmětu hledání. • Topik má podobu pojmového stromu, na jeho nižších úrovních (větvích) jsou množiny dalších pojmů, resp. témat, která jsou tvořena dále nedělitelnými klíčovými slovy (listy). • Pojmový strom tvoří vyhledávací podmínku pro dokumenty týkající se určitého tématu. • Topik je konceptuální popis znalosti o dané problematice ve formě znalostního stromu. • Definice topiků tvoří tzv. znalostní bázi.

  23. Detail topiku ekologie, životní prostředí

  24. Čtyři způsoby hledání: pole dotaz, pomocí formulářů, pomocí topiků, resp. témat (předem strukturovaných dotazů), pomocí rejstříků. Tři druhy dotazů: prostý dotaz, formulářový dotaz, tematický dotaz. Tři druhy formulářů: základní, rozšířený, rozšířený s tématy. Seznam výsledků: jednoduchý, se souhrnem, seskupený. Třídění seznamu: skóre, výsl./str., vlastní třídění. Zobrazení metadat: uživatelské formáty, pracovní formáty. Rejstříky - nadefinováno 17 rejstříků. Jak vyhledávat. Druhy dotazů. Třídění a zobrazení výsledků vyhledávání

  25. Dotaz v rozšířeném formuláři s tématy - topik ekologie, životní prostředí, dotaz krajina

  26. Vyhledaný článek na základě topiku ekologie, životní prostředí

  27. Metadata v XML

  28. Označení článků ke stažení

  29. Budoucnost linky? Vyhledávání a zobrazení záznamů s propojením na plný text v ALEPHu - báze ANL Soubor bibliografických záznamů pro ANL ALEPH s propojením na plný text a báze ANL Vyhledávání, zobrazení metadat a plných textů - báze ANL FULL v NK na serveru FULL.NKP.CZ Soubor metadat a plných textů pro ANLFULL v NK na serveru  FULL.NKP.CZ Zpracování plných textů - TTDE Stažení plných textů - TTSNK - - - Majitel plného textu/vlastník autorských práv (nakladatel, vydavatel, inf. agentura aj.) Soubor metadat (plných textů) pro prostor mezi NK aj. inst. (nakladatelství, vydavatelství, inf. agentury aj.) Export metadat, plných textů

  30. Perspektivy KOSABI • Organizace • Začlenění nových krajských knihoven v Pardubicích, Karlových Varech, Havlíčkově Brodě, Zlíně. • Přerozdělení titulů, kde bude potřeba • KOSABI a SKAT - koordinace zpracování titulů v budoucnu. • Spolupráce s dalšími knihovnami a informačními institucemi. • Spolupráce se společností Anopress, event. navázání spolupráce s dalšími institucemi (nakladatelé, vydavatelé aj.).

  31. Metody zpracování, standardizace • Doladitpřevod z některých systémů do standardního UNIMARCu a báze ANL. • Harmonizace popisu článků v rámci KOSABI se soubory autorit zejména v oblasti věcného zpracování (předmětová hesla, předmětové kategorie, metoda konspektu). • Konverze UNIMARC-MARC 21, pravidla pro popis článků vzhledem k tomuto formátu. • Testovat a event. postupně aplikovat linku zpracování bibliografických záznamů z plných textů (TTDE, automatická či poloautomatická extrakce a indexace dat) v rámci KOSABI. • Napojení linky zpracování na autority • Spolupráce s projektem Webarchiv?

  32. KOSABI a jeho výstupy • Báze ANL a ANAL (Olomouc) zpřístupněna v JIB jako zdroj. • Báze ANL FULL zpřístupněna v JIB jako odkaz. • Plné texty báze ANL FULL a přes bázi ANL přístupné v JIB pro externí uživatele zatím na 7 dnů po registraci a přihlášení, pro uživatele NKČR běžně. Export a stahovaní článků v testovací fázi. • Báze ANL (jejíž část vzniká v lince TTDE) je vydávána jako řada ČNB Články v českých novinách, časopisech a sbornících.

  33. Některé paralely a odlišnosti na Slovensku a v Česku • Obdobný vývoj zpracování článkové bibliografie na Slovensku a v Česku. • Vydávání SNB, ČNB - stejný SW (Tornádo) – AiP,AiB. • Súborný katalog knižníc SR, Souborný katalog ČR, Caslin. • Systém ALEPH v obou národních knihovnách. • Slovensko – BBB, systém LIBRIS, BIBLIS, Súborná databáza regionálnej bibliografie Košice, Rožňava, Trebišov. • Česko - JIB CASLIN, různé systémy, KOSABI, SKAT (Lanius). • Česko - fy Anopress, Slovensko fy Slovakia Online a Siac. • Slovensko - poskytování povinných kopií elektronických publikací UK v Bratislavě a SNK, Česko - nikoli ?

  34. Prezentované informace včetně použité literatury jsou přístupné na adresách: http://full.nkp.cz, http://full.nkp.cz/nkkr/NKKR.html (periodikum Národní knihovna) http:// www.nkp.cz (z Katalogy a databáze, báze ANL aj.) http://www.anopress.cz (báze TamTam) Ivana Anděrová, NKČR, oddělení analytického zpracováníIvana.Anderova@nkp.cz

More Related