540 likes | 681 Views
Bibliomining dobývání znalostí z knihovních databází a systémů. Radka Římanová Státní technická knihovna ÚISK FF UK r.rimanova@stk.cz. Dolování dat.
E N D
Bibliominingdobývání znalostí z knihovních databází a systémů Radka Římanová Státní technická knihovna ÚISK FF UK r.rimanova@stk.cz
Bibliomining, (r.rimanova@stk.cz) Dolování dat „Dobývání znalostí bývá definováno jako proces netriviální extrakce implicitních dříve neznámých a potenciálně užitečných informací z dat [Fayyad a kol., 1996]. O dobývání znalostí z databází se začíná intenzivněji mluvit v polovině 90. let, kdy si nárůst objemu dat uchovávaných v různých organizacích spolu s potřebou tato data analyzovat vynutil propjení poznatků ze tří oblastí: statistiky, databází a strojového učení.“ [BERKA, 2001]
Bibliomining, (r.rimanova@stk.cz) Dolování dat • BERKA , Petr, 2001. Aplikace systémů dobývání znalostí pro analýzu medicínských dat [online]. Praha : EuroMISE Centrum – Kardio, VŠE, 2001 , datum poslední aktualizace: 24. 10. 2002 [cit. 2008-04-04]. Tato studie vznikla v dubnu 2001 v rámci projektu LN 00B 107 MŠMT ČR. Dostupný z WWW: <http://euromise.vse.cz/kdd/index.php>. • BERKA, Petr, 2003. Dobývání znalostí z databází. Praha : Academia, 2003. 336 s. + 1 CD.
Bibliomining, (r.rimanova@stk.cz) Dolování dat • Termín pochází z ekonomických věd (business inteligence) • Nyní rozšířeno i do dalších oborů – biologie, medicína, technika, pedagogika …knihovnictví • Přínos – pravdivé, nové informace ve vztahu k jiným informacím, nová překvapivá zjištění
Bibliomining, (r.rimanova@stk.cz) Dolování dat a informační věda • Rozvíjí statistické metody • Umožňuje rychlé aplikování zjištěných poznatků do praxe, stejně rychlé jako prostředí ovlivněné IT v dnešní době • Umožňuje použití laboratorní metod pro ověření vědeckých hypotéz
Bibliomining, (r.rimanova@stk.cz) Bibliomining • Nový termín – 2002 • Zavedl Scott Nicholson, profesor Syracuse University School of Information Studies NICHOLSON, Scott. Bibliomining : data minig for libraries [online]. Syracuse : Syracuse University - School for Information Studies, c2002-2005 , 05-Jan-2008 [cit. 2008-04-04]. Dostupný z WWW: <http://www.bibliomining.com/>.
Bibliomining, (r.rimanova@stk.cz) Nový termín?
Bibliomining, (r.rimanova@stk.cz) Scott Nicholson • http://www.scottnicholson.com/ • Nar. 1971 • Library Game Laboratory of Syracuse – 2008 – výzkum hraní deskových her, možnosti rozvoje v souvislosti s rozvojem služeb knihoven • Autor hry „Tulipmania 1637“
Bibliomining, (r.rimanova@stk.cz) Nový termín?????? • Termín Knihovna je v IT používán pro sbírku procedur, funkcí a datových typů (např. standardní knihovna jazyka C) • Dolováním dat v knihovnách není dolováním dat o knihovně
Bibliomining, (r.rimanova@stk.cz) Bibliomining v češtině 1. SOŠKOVÁ, Michala, 2006. Analýza a vyhodnocení činností uživatelů souborného on-line katalogu Masarykovy univerzity. Brno, 2006. 58 s. Masarykova univerzita. Filozofická fakulta. Ústav české literatury a knihovnictví. Kabinet knihovnictví. Informační studia a knihovnictví. Vedoucí bakalářské práce Zdeněk Kadlec. Dostupný z WWW: <http://is.muni.cz/th/108801/ff_b/Bakalarka_prace_Soskova.pdf>.
Bibliomining, (r.rimanova@stk.cz) Bibliomining v češtině 2. VOJNAR, Martin, 2007. Zpětná vazba ze statistik OPAC – bibliomining . Knihovny současnosti 2007 : prezentace z konference [online]. 2007 [cit. 2008-04-04]. Dostupný z WWW: <http://www.sdruk.cz/sec/2007/b3/12_vojnar_bibliomining.pdf>.
Bibliomining, (r.rimanova@stk.cz) Nástroje pro bibliomining a software v knihovnách • Nízká podpora dolování dat bez znalostí programování či vstupu do vnitřních tabulek = knihovník musí spolupracovat s IT specialistou (nebo dodavatelem systému) • Systém Aleph - speciální modul ARC – Aleph reporting center Místo pro realizaci studentů ÚISK FF UK • Možnost použití software (např. LISp-Miner, VŠE Praha)
Bibliomining, (r.rimanova@stk.cz) Bibliomining proces1. Porozumění problematice Co chceme zjistit, cíl projektu… • Prediktivní metoda - předvídá budoucí hodnoty na základě zjištěných vlastností stávajících • Popisná metoda - přesné informace o současném stavu
Bibliomining, (r.rimanova@stk.cz) Bibliomining proces2. Analýza dostupné datové základny • Vyhledání vhodných množiny pro dat pro bibliomining
Bibliomining, (r.rimanova@stk.cz) Bibliomining proces2. Analýza dostupné datové základnyPříklad Cíl – služby z historických fondů Státní technické knihovny – možnosti: • Dolovat budeme v záznamech, které mají atribut „Historický fond STK“ Přínos – zjistíme přesně vlastnosti platící pro tuto sbírku • Dolovat budeme v celém katalogu Přínos – zjistíme více, ale množství dat může zkreslit výsledek, nebo se projekt zastaví nad tím, že se zdá, že něco by ještě navíc do kolekce patřit mělo a není tam… Výběr správného přístupu → zpřesnění cíle
Bibliomining, (r.rimanova@stk.cz) Bibliomining proces3. Čištění a příprava dat • Mají data, která chceme analyzovat atributy na kterých chceme stavět naši analýzu? • Za jaké situace data vznikala (roční doba, akademický rok, kvalita připojení k síti internet…)
Bibliomining, (r.rimanova@stk.cz) Bibliominingproces4. Průzkum dat a modelování • Vytvoření algoritmů pro proces • Počet etap průzkumu dat nelze předem přesně stanovit • Nutné počítat s časovou rezervou
Bibliomining, (r.rimanova@stk.cz) Bibliomining proces4. Zhodnocení vzorku výsledků • Předložení výsledků odborníkům (knihovníkům) k posouzení • Příliš překvapivé výsledky → nedošlo k chybě? • Příliš překvapivé výsledky → zpět o několik kroků procesu • Kontrole pomůže tzv. „typický představitel“ (např. časopis Nature)
Bibliomining, (r.rimanova@stk.cz) Bibliomining proces5. Zpráva a implementace 1. • Dokumentace procesu ve všech etapách • Před prezentací veřejnosti, konzultovat s knihovníky, • Bibliomining musí být vnímán pozitivně – všichni chtějí být lepšími, ale nikdo nechce být kárán • Selhání bibliominingu – knihovníci přestávají spolupracovat při tvorbě dat nebo se je snaží upravit
Bibliomining, (r.rimanova@stk.cz) Bibliomining proces5. Zpráva a implementace 2. • Podpora sociálních vztahů s uživateli – srozumitelné zveřejnění výsledků • Neadresná etická prezentace – maximálně do úrovně kategorie uživatelů
Bibliomining, (r.rimanova@stk.cz) A pak zase znovu… • Statistické výstupy získané z bibliominingu je vhodné opakovat v pravidelných cyklech – v ideálním případě pravdivě odhalí zlepšení….stagnaci….zhoršení… • Softwarové nástroje vyvinuté pro bibliomining proces využít vícekrát….postupné snižování nákladů
Bibliomining, (r.rimanova@stk.cz) Bibliomining v praxi aneb co nám poví KIS • Uvedené příklady slouží jako ilustrace využití bibliominingu, nikoli prezentace výsledků jednotlivých výzkumů! • Termín bibliomining nebyl použit v žádné citované práci
Bibliomining, (r.rimanova@stk.cz) Vzdálený přístup do databází elektronických časopisů ŘÍMANOVÁ, Radka, 2002. Ultra Access : vstupy do elektronických verzí periodik aneb které služb NLK jsou přístupné po otevírací době II. In Knihovny současnosti 2002 : sborník z 10. konference, konané ve dnech 24 - 26. září 2002 v Seči u Chrudimi. Brno : Sdružení knihoven, 2002. s. 100-103. ISBN 80-86249-18-2.
Bibliomining, (r.rimanova@stk.cz) Vzdálený přístup do databází elektronických časopisů 1. • 2000 – MŠMT podpořilo nákup online databází elektronických časopisů – několik tisíc titulů • Licence – autentifikace na IPA knihovny nebo školy • Statistiky – dnes COUNTER (Counting Online Usage of Networked Electronic Resources)
Bibliomining, (r.rimanova@stk.cz) Vzdálený přístup do databází elektronických časopisů 2. • 2000 – pro koho tyto databáze nakupujeme? • Informační bariéra – geografická a časová • Software pro realizaci vzdáleného přístupu Ultra Access (Národní lékařská knihovna 2002)
Bibliomining, (r.rimanova@stk.cz) Vzdálený přístup do databází elektronických časopisů 3. • Ultra Access – hlavní cíl – přístup mimo NLK • Vzdálený přístup – nutné povolení v licenci • Vzdálená registrace – nutnost smlouvy, účetní opatření (očekávaná platba) • Zhodnocení výsledků pořízení – statistiky využívání – potřeba filtru od „in-house“ přístupů
Bibliomining, (r.rimanova@stk.cz) Vzdálený přístup do databází elektronických časopisů 4. • Spolupráce s softwarovým specialistou • Grafická nadstavba • Analýza dat,které systém eviduje (omezení - přístup do databáze ano, chování v konkrétní databázi nikoli) • Definice položek pro dolování dat
Bibliomining, (r.rimanova@stk.cz) Vzdálený přístup do databází elektronických časopisů 5. • Autorizace uživatele – podmínka licence – z hlediska dolování dat – velmi lákavá informace • Vytvoření trvalého nástroje pro sledování služby na intranetu Národní lékařské knihovny
Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele ŘÍMANOVÁ, Radka. Kvalitní katalog - nezbytný zdroj pro poskytování služeb knihovny. In Knihovny současnosti 2005 : Sborník z 13. konference, konané ve dnech 13. - 15. září 2005 v Seči u Chrudimi. Brno : Sdružení knihoven ČR, 2005. s. 218-227. ISBN 80-86249-33-6.
Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele 1. • Konkrétní problém katalogizační • AACR2 – název nakladatele do pole 260, tak jak je uvedeno v knize • Katalogizátoři – snaha o unifikaci názvu nakladatele – konkrétní odraz vznik pole 928
Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele 2. • Problém – náklady na údržbu rejstříku autoritních podob názvu nakladatele x podle čeho uživatelé vyhledávají
Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele 3. • Výsledek - Název nakladatele není pro hledání v OPAC významný • Vytvoření tabulky na intranetu Státní technické knihovny • Další „překvapivá“ zjištění
Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele 4.(STK OPAC knihy 21. 4. – 21. 7. 2005)
Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele 5.(STK OPAC knihy 21. 4. – 21. 7. 2005)
Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele 6.Režim „vyhledávání“(STK OPAC knihy 21. 4. – 21. 7. 2005)
Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele 7. Překvapivé výsledky: • Kde uživatelé hledají častěji (režim, položka) • Pojmenování položek v OPAC, rozumíme si? • Rozdíl mezi hledáním ve www a Z39.50 • Důležitost selekčních prvků, na co je nám MDT? • Jak pomoci přesnosti nejčastějšího typu dotazu do OPAC? Pozor na zobecnění – nepřenositelné vůči jiné uživatelské skupině či OPAC!!!!!
Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPAC : porovnání dotazníku a bibliominingu z KIS Aleph DOLEŽALOVÁ, Pavlína, 2007; ŠRAJBOVÁ, Magda; TRNKA, Jiří. Katalogizátor pro(ti) uživateli katalogu aneb jak uvažuje knihovník o čtenáři. Knihovny současnosti 2007: Sborník z 15. konference, konané ve dnech 11.–13. září 2007 v Seči u Chrudimi [online]. 2007 [cit. 2008-04-11], s. 389-404. Dostupný z WWW: <http://www.sdruk.cz/sec/2007/sbornik/3-08.pdf>.
Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPAC : porovnání dotazníku a bibliominingu z KIS Aleph 1. • Provnání tradiční formy průzkumu v knihovnách a bibliominingu • Hledání bariér mezi OPAC a uživatelem • V roce 1967 – lístkové katalogy SVK Plzeň • Chyběl názvový katalog, málo užívaný systematický (MDT
Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPAC : porovnání dotazníku a bibliominingu z KIS Aleph 2. • Zkoumané skupiny • katalogizátoři, pracovníci ve službách, uživatelé • dotaz na knihovníky – podle čeho hledáte vy a podle čeho si myslíte, že hledají uživatelé…
Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPAC : porovnání dotazníku a bibliominingu z KIS Aleph 3. • Předpoklad při bibliominingu OPAC – laici KIS staff rozhraní – knihovníci • Dotazník – uživatelé uváděli rozšířenou škálu typů rešerši – nutno zkoumat skupinu respondentů – spíše lidé s hlubším vztahem ke knihovně (snaha „potěšit“ dotazujícího knihovníka) • Bibliomining – srovnatelné výsledky s STK
Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPAC : porovnání dotazníku a bibliominingu z KIS Aleph 4. Ze závěrů průzkumu např. • Podle titulů nebo typů hledané literatury lze usuzovat i na úroveň práce uživatelské kategorie = studenti používají při hledání studijní literatury častěji než běžný uživatel kombinaci více termínů (název x rok) • Uživatelé nevnímají struktury bibliografického záznamu • Pracovníci ve službách lépe znají uživatele a jejich požadavky – nutné najít mechanismus jak tyto znalosti předávat do zpracovatelských sfér
Bibliomining, (r.rimanova@stk.cz) Prezenční výpůjčky ŘÍMANOVÁ, Radka, 2006; SKOLKOVÁ, Linda. Jak sledovat využití knihovního fondu. In CASLIN 2006 : Zpětná vazba aneb děláme to dobře? Český ráj, 11.-15. 6. 2006. Praha : Knihovna AV ČR, 2006. s. 44-67. ISBN 80-86675-10-6. Prezentace dostupná z WWW: <http://www.lib.cas.cz/caslin-2006/download/Rimanova_Skolkova_prezentace.pdf>
Bibliomining, (r.rimanova@stk.cz) Prezenční výpůjčky 1. • „Kde nejsou data nemůže být ani bibliomining…“ • Elektronické časopisy – dobrá statistická podpora • Tištěné časopisy - prezenční výpůjčky – obtížné vytváření dat
Bibliomining, (r.rimanova@stk.cz) Prezenční výpůjčky 2. • Proč sledovat? Např. • efektivita nákladů na pořízení a zpřístupnění • uspořádání a organizace studoven • opravdu nutné jen prezenčně? • porovnání počtu služeb document delivery services a přímého využívání • poměr mezi využíváním tištěné a elektronické verze …..
Bibliomining, (r.rimanova@stk.cz) Prezenční výpůjčky 3. Z výsledků • 57% knihoven nemělo prokazatelné výsledky o poměru využívání papírových a elektronických verzí • Poměr mezi stabilitou financování a investicemi do sledování prezenčních výpůjček • Nejčastější metoda – ruční snímání čárových kódů a porovnáváním s evidencí v KIS RFID technologie – sledování prezenčních výpůjček na bází čipu – laboratoř 3M
Bibliomining, (r.rimanova@stk.cz) Turniket a bibliomining LOŠŤÁKOVÁ, Danuše, 2006; SLEZÁKOVÁ, Ludmila. Víme, co naši uživatelé potřebují?. In CASLIN 2006 : Zpětná vazba aneb děláme to dobře? Český ráj, 11.-15. 6. 2006. Praha : Knihovna AV ČR, 2006. s. 89-97. ISBN 80-86675-10-6. Prezentace dostupná z WWW: <http://www.lib.cas.cz/caslin-2006/program.php>
Bibliomining, (r.rimanova@stk.cz) Turniket a bibliomining • Identifikace uživatele na vstupu do knihovny • Přínos – adresné vyhodnocení vůči studované fakultě, prokazatelné požadavky při sdíleném financování a argument pro spojení knihoven • Negativní dopad – bariéra při vstupu do knihovny, v roce 2007 odstraněn
Bibliomining, (r.rimanova@stk.cz) Zkušenost z Tchaj-wanu WU, Chin-Hsing, 2003; LEE, Tzai-Zang; KAO, Shu-Chen. Knowledge discovery applied to materiál aquisitions for libraries. Information Processing and Management. 2004, vol. 40 [cit. 2008-04-02], p. 709-725. Doi:10.1016/j.ipm.2003.08.010. Abstrakt dostupný z WWW: <http://portal.acm.org/citation.cfm?id=1018554http://portal.acm.org/citation.cfm?id=1018554>. ISSN 0306-4573.
Bibliomining, (r.rimanova@stk.cz) Zkušenost z Tchaj-wanu 1. • Bibliomining pro akviziční politiku univerzity • Další záludnost bibliominingu – poměr odborníků a služeb - jak vyhovět i těm, kterých je méně • Nutná kombinace tradičních prvků – zkušenost, studijní plán, fakultní doporučení a bibliominingu
Bibliomining, (r.rimanova@stk.cz) Zkušenost z Tchaj-wanu 2. „…Knihovníci, kteří přijmou technologie jako partnera při rozhodování, jsou i nadále více přístupni tomu, aby se změny v jejich práci děly na základě analytických počítačových metod. Z tohoto důvodu doporučujeme nezapomenout v projektech na náklady a prostor pro vysvětlení všem, kteří pracují s výpůjční databází, že při své práci vytváří i data pro budoucí akvizici…“