1 / 54

Bibliomining dobývání znalostí z knihovních databází a systémů

Bibliomining dobývání znalostí z knihovních databází a systémů. Radka Římanová Státní technická knihovna ÚISK FF UK r.rimanova@stk.cz. Dolování dat.

Download Presentation

Bibliomining dobývání znalostí z knihovních databází a systémů

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bibliominingdobývání znalostí z knihovních databází a systémů Radka Římanová Státní technická knihovna ÚISK FF UK r.rimanova@stk.cz

  2. Bibliomining, (r.rimanova@stk.cz) Dolování dat „Dobývání znalostí bývá definováno jako proces netriviální extrakce implicitních dříve neznámých a potenciálně užitečných informací z dat [Fayyad a kol., 1996]. O dobývání znalostí z databází se začíná intenzivněji mluvit v polovině 90. let, kdy si nárůst objemu dat uchovávaných v různých organizacích spolu s potřebou tato data analyzovat vynutil propjení poznatků ze tří oblastí: statistiky, databází a strojového učení.“ [BERKA, 2001]

  3. Bibliomining, (r.rimanova@stk.cz) Dolování dat • BERKA , Petr, 2001. Aplikace systémů dobývání znalostí pro analýzu medicínských dat [online]. Praha : EuroMISE Centrum – Kardio, VŠE, 2001 , datum poslední aktualizace: 24. 10. 2002 [cit. 2008-04-04]. Tato studie vznikla v dubnu 2001 v rámci projektu LN 00B 107 MŠMT ČR. Dostupný z WWW: <http://euromise.vse.cz/kdd/index.php>. • BERKA, Petr, 2003. Dobývání znalostí z databází. Praha : Academia, 2003. 336 s. + 1 CD.

  4. Bibliomining, (r.rimanova@stk.cz) Dolování dat • Termín pochází z ekonomických věd (business inteligence) • Nyní rozšířeno i do dalších oborů – biologie, medicína, technika, pedagogika …knihovnictví • Přínos – pravdivé, nové informace ve vztahu k jiným informacím, nová překvapivá zjištění

  5. Bibliomining, (r.rimanova@stk.cz) Dolování dat a informační věda • Rozvíjí statistické metody • Umožňuje rychlé aplikování zjištěných poznatků do praxe, stejně rychlé jako prostředí ovlivněné IT v dnešní době • Umožňuje použití laboratorní metod pro ověření vědeckých hypotéz

  6. Bibliomining, (r.rimanova@stk.cz) Bibliomining • Nový termín – 2002 • Zavedl Scott Nicholson, profesor Syracuse University School of Information Studies NICHOLSON, Scott. Bibliomining : data minig for libraries [online]. Syracuse : Syracuse University - School for Information Studies, c2002-2005 , 05-Jan-2008 [cit. 2008-04-04]. Dostupný z WWW: <http://www.bibliomining.com/>.

  7. Bibliomining, (r.rimanova@stk.cz) Nový termín?

  8. Bibliomining, (r.rimanova@stk.cz) Scott Nicholson • http://www.scottnicholson.com/ • Nar. 1971 • Library Game Laboratory of Syracuse – 2008 – výzkum hraní deskových her, možnosti rozvoje v souvislosti s rozvojem služeb knihoven • Autor hry „Tulipmania 1637“

  9. Bibliomining, (r.rimanova@stk.cz) Nový termín?????? • Termín Knihovna je v IT používán pro sbírku procedur, funkcí a datových typů (např. standardní knihovna jazyka C) • Dolováním dat v knihovnách není dolováním dat o knihovně

  10. Bibliomining, (r.rimanova@stk.cz) Bibliomining v češtině 1. SOŠKOVÁ, Michala, 2006. Analýza a vyhodnocení činností uživatelů souborného on-line katalogu Masarykovy univerzity. Brno, 2006. 58 s. Masarykova univerzita. Filozofická fakulta. Ústav české literatury a knihovnictví. Kabinet knihovnictví. Informační studia a knihovnictví. Vedoucí bakalářské práce Zdeněk Kadlec. Dostupný z WWW: <http://is.muni.cz/th/108801/ff_b/Bakalarka_prace_Soskova.pdf>.

  11. Bibliomining, (r.rimanova@stk.cz) Bibliomining v češtině 2. VOJNAR, Martin, 2007. Zpětná vazba ze statistik OPAC – bibliomining . Knihovny současnosti 2007 : prezentace z konference [online]. 2007 [cit. 2008-04-04]. Dostupný z WWW: <http://www.sdruk.cz/sec/2007/b3/12_vojnar_bibliomining.pdf>.

  12. Bibliomining, (r.rimanova@stk.cz) Nástroje pro bibliomining a software v knihovnách • Nízká podpora dolování dat bez znalostí programování či vstupu do vnitřních tabulek = knihovník musí spolupracovat s IT specialistou (nebo dodavatelem systému) • Systém Aleph - speciální modul ARC – Aleph reporting center Místo pro realizaci studentů ÚISK FF UK  • Možnost použití software (např. LISp-Miner, VŠE Praha)

  13. Bibliomining, (r.rimanova@stk.cz) Bibliomining proces1. Porozumění problematice Co chceme zjistit, cíl projektu… • Prediktivní metoda - předvídá budoucí hodnoty na základě zjištěných vlastností stávajících • Popisná metoda - přesné informace o současném stavu

  14. Bibliomining, (r.rimanova@stk.cz) Bibliomining proces2. Analýza dostupné datové základny • Vyhledání vhodných množiny pro dat pro bibliomining

  15. Bibliomining, (r.rimanova@stk.cz) Bibliomining proces2. Analýza dostupné datové základnyPříklad Cíl – služby z historických fondů Státní technické knihovny – možnosti: • Dolovat budeme v záznamech, které mají atribut „Historický fond STK“ Přínos – zjistíme přesně vlastnosti platící pro tuto sbírku • Dolovat budeme v celém katalogu Přínos – zjistíme více, ale množství dat může zkreslit výsledek, nebo se projekt zastaví nad tím, že se zdá, že něco by ještě navíc do kolekce patřit mělo a není tam… Výběr správného přístupu → zpřesnění cíle

  16. Bibliomining, (r.rimanova@stk.cz) Bibliomining proces3. Čištění a příprava dat • Mají data, která chceme analyzovat atributy na kterých chceme stavět naši analýzu? • Za jaké situace data vznikala (roční doba, akademický rok, kvalita připojení k síti internet…)

  17. Bibliomining, (r.rimanova@stk.cz) Bibliominingproces4. Průzkum dat a modelování • Vytvoření algoritmů pro proces • Počet etap průzkumu dat nelze předem přesně stanovit • Nutné počítat s časovou rezervou

  18. Bibliomining, (r.rimanova@stk.cz) Bibliomining proces4. Zhodnocení vzorku výsledků • Předložení výsledků odborníkům (knihovníkům) k posouzení • Příliš překvapivé výsledky → nedošlo k chybě? • Příliš překvapivé výsledky → zpět o několik kroků procesu • Kontrole pomůže tzv. „typický představitel“ (např. časopis Nature)

  19. Bibliomining, (r.rimanova@stk.cz) Bibliomining proces5. Zpráva a implementace 1. • Dokumentace procesu ve všech etapách • Před prezentací veřejnosti, konzultovat s knihovníky, • Bibliomining musí být vnímán pozitivně – všichni chtějí být lepšími, ale nikdo nechce být kárán • Selhání bibliominingu – knihovníci přestávají spolupracovat při tvorbě dat nebo se je snaží upravit

  20. Bibliomining, (r.rimanova@stk.cz) Bibliomining proces5. Zpráva a implementace 2. • Podpora sociálních vztahů s uživateli – srozumitelné zveřejnění výsledků • Neadresná etická prezentace – maximálně do úrovně kategorie uživatelů

  21. Bibliomining, (r.rimanova@stk.cz) A pak zase znovu… • Statistické výstupy získané z bibliominingu je vhodné opakovat v pravidelných cyklech – v ideálním případě pravdivě odhalí zlepšení….stagnaci….zhoršení… • Softwarové nástroje vyvinuté pro bibliomining proces využít vícekrát….postupné snižování nákladů

  22. Bibliomining, (r.rimanova@stk.cz) Bibliomining v praxi aneb co nám poví KIS • Uvedené příklady slouží jako ilustrace využití bibliominingu, nikoli prezentace výsledků jednotlivých výzkumů! • Termín bibliomining nebyl použit v žádné citované práci

  23. Bibliomining, (r.rimanova@stk.cz) Vzdálený přístup do databází elektronických časopisů ŘÍMANOVÁ, Radka, 2002. Ultra Access : vstupy do elektronických verzí periodik aneb které služb NLK jsou přístupné po otevírací době II. In Knihovny současnosti 2002 : sborník z 10. konference, konané ve dnech 24 - 26. září 2002 v Seči u Chrudimi. Brno : Sdružení knihoven, 2002. s. 100-103. ISBN 80-86249-18-2.

  24. Bibliomining, (r.rimanova@stk.cz) Vzdálený přístup do databází elektronických časopisů 1. • 2000 – MŠMT podpořilo nákup online databází elektronických časopisů – několik tisíc titulů • Licence – autentifikace na IPA knihovny nebo školy • Statistiky – dnes COUNTER (Counting Online Usage of Networked Electronic Resources)

  25. Bibliomining, (r.rimanova@stk.cz) Vzdálený přístup do databází elektronických časopisů 2. • 2000 – pro koho tyto databáze nakupujeme? • Informační bariéra – geografická a časová • Software pro realizaci vzdáleného přístupu Ultra Access (Národní lékařská knihovna 2002)

  26. Bibliomining, (r.rimanova@stk.cz) Vzdálený přístup do databází elektronických časopisů 3. • Ultra Access – hlavní cíl – přístup mimo NLK • Vzdálený přístup – nutné povolení v licenci • Vzdálená registrace – nutnost smlouvy, účetní opatření (očekávaná platba) • Zhodnocení výsledků pořízení – statistiky využívání – potřeba filtru od „in-house“ přístupů

  27. Bibliomining, (r.rimanova@stk.cz) Vzdálený přístup do databází elektronických časopisů 4. • Spolupráce s softwarovým specialistou • Grafická nadstavba • Analýza dat,které systém eviduje (omezení - přístup do databáze ano, chování v konkrétní databázi nikoli) • Definice položek pro dolování dat

  28. Bibliomining, (r.rimanova@stk.cz) Vzdálený přístup do databází elektronických časopisů 5. • Autorizace uživatele – podmínka licence – z hlediska dolování dat – velmi lákavá informace • Vytvoření trvalého nástroje pro sledování služby na intranetu Národní lékařské knihovny

  29. Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele ŘÍMANOVÁ, Radka. Kvalitní katalog - nezbytný zdroj pro poskytování služeb knihovny. In Knihovny současnosti 2005 : Sborník z 13. konference, konané ve dnech 13. - 15. září 2005 v Seči u Chrudimi. Brno : Sdružení knihoven ČR, 2005. s. 218-227. ISBN 80-86249-33-6.

  30. Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele 1. • Konkrétní problém katalogizační • AACR2 – název nakladatele do pole 260, tak jak je uvedeno v knize • Katalogizátoři – snaha o unifikaci názvu nakladatele – konkrétní odraz vznik pole 928

  31. Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele 2. • Problém – náklady na údržbu rejstříku autoritních podob názvu nakladatele x podle čeho uživatelé vyhledávají

  32. Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele 3. • Výsledek - Název nakladatele není pro hledání v OPAC významný • Vytvoření tabulky na intranetu Státní technické knihovny • Další „překvapivá“ zjištění

  33. Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele 4.(STK OPAC knihy 21. 4. – 21. 7. 2005)

  34. Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele 5.(STK OPAC knihy 21. 4. – 21. 7. 2005)

  35. Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele 6.Režim „vyhledávání“(STK OPAC knihy 21. 4. – 21. 7. 2005)

  36. Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPACvýznam názvu nakladatele 7. Překvapivé výsledky: • Kde uživatelé hledají častěji (režim, položka) • Pojmenování položek v OPAC, rozumíme si? • Rozdíl mezi hledáním ve www a Z39.50 • Důležitost selekčních prvků, na co je nám MDT? • Jak pomoci přesnosti nejčastějšího typu dotazu do OPAC? Pozor na zobecnění – nepřenositelné vůči jiné uživatelské skupině či OPAC!!!!!

  37. Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPAC : porovnání dotazníku a bibliominingu z KIS Aleph DOLEŽALOVÁ, Pavlína, 2007; ŠRAJBOVÁ, Magda; TRNKA, Jiří. Katalogizátor pro(ti) uživateli katalogu aneb jak uvažuje knihovník o čtenáři. Knihovny současnosti 2007: Sborník z 15. konference, konané ve dnech 11.–13. září 2007 v Seči u Chrudimi [online]. 2007 [cit. 2008-04-11], s. 389-404. Dostupný z WWW: <http://www.sdruk.cz/sec/2007/sbornik/3-08.pdf>.

  38. Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPAC : porovnání dotazníku a bibliominingu z KIS Aleph 1. • Provnání tradiční formy průzkumu v knihovnách a bibliominingu • Hledání bariér mezi OPAC a uživatelem • V roce 1967 – lístkové katalogy SVK Plzeň • Chyběl názvový katalog, málo užívaný systematický (MDT

  39. Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPAC : porovnání dotazníku a bibliominingu z KIS Aleph 2. • Zkoumané skupiny • katalogizátoři, pracovníci ve službách, uživatelé • dotaz na knihovníky – podle čeho hledáte vy a podle čeho si myslíte, že hledají uživatelé…

  40. Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPAC : porovnání dotazníku a bibliominingu z KIS Aleph 3. • Předpoklad při bibliominingu OPAC – laici KIS staff rozhraní – knihovníci • Dotazník – uživatelé uváděli rozšířenou škálu typů rešerši – nutno zkoumat skupinu respondentů – spíše lidé s hlubším vztahem ke knihovně (snaha „potěšit“ dotazujícího knihovníka) • Bibliomining – srovnatelné výsledky s STK

  41. Bibliomining, (r.rimanova@stk.cz) Bibliomining a OPAC : porovnání dotazníku a bibliominingu z KIS Aleph 4. Ze závěrů průzkumu např. • Podle titulů nebo typů hledané literatury lze usuzovat i na úroveň práce uživatelské kategorie = studenti používají při hledání studijní literatury častěji než běžný uživatel kombinaci více termínů (název x rok) • Uživatelé nevnímají struktury bibliografického záznamu • Pracovníci ve službách lépe znají uživatele a jejich požadavky – nutné najít mechanismus jak tyto znalosti předávat do zpracovatelských sfér

  42. Bibliomining, (r.rimanova@stk.cz) Prezenční výpůjčky ŘÍMANOVÁ, Radka, 2006; SKOLKOVÁ, Linda. Jak sledovat využití knihovního fondu. In CASLIN 2006 : Zpětná vazba aneb děláme to dobře? Český ráj, 11.-15. 6. 2006. Praha : Knihovna AV ČR, 2006. s. 44-67. ISBN 80-86675-10-6. Prezentace dostupná z WWW: <http://www.lib.cas.cz/caslin-2006/download/Rimanova_Skolkova_prezentace.pdf>

  43. Bibliomining, (r.rimanova@stk.cz) Prezenční výpůjčky 1. • „Kde nejsou data nemůže být ani bibliomining…“ • Elektronické časopisy – dobrá statistická podpora • Tištěné časopisy - prezenční výpůjčky – obtížné vytváření dat

  44. Bibliomining, (r.rimanova@stk.cz) Prezenční výpůjčky 2. • Proč sledovat? Např. • efektivita nákladů na pořízení a zpřístupnění • uspořádání a organizace studoven • opravdu nutné jen prezenčně? • porovnání počtu služeb document delivery services a přímého využívání • poměr mezi využíváním tištěné a elektronické verze …..

  45. Bibliomining, (r.rimanova@stk.cz) Prezenční výpůjčky 3. Z výsledků • 57% knihoven nemělo prokazatelné výsledky o poměru využívání papírových a elektronických verzí • Poměr mezi stabilitou financování a investicemi do sledování prezenčních výpůjček • Nejčastější metoda – ruční snímání čárových kódů a porovnáváním s evidencí v KIS RFID technologie – sledování prezenčních výpůjček na bází čipu – laboratoř 3M

  46. Bibliomining, (r.rimanova@stk.cz) Turniket a bibliomining LOŠŤÁKOVÁ, Danuše, 2006; SLEZÁKOVÁ, Ludmila. Víme, co naši uživatelé potřebují?. In CASLIN 2006 : Zpětná vazba aneb děláme to dobře? Český ráj, 11.-15. 6. 2006. Praha : Knihovna AV ČR, 2006. s. 89-97. ISBN 80-86675-10-6. Prezentace dostupná z WWW: <http://www.lib.cas.cz/caslin-2006/program.php>

  47. Bibliomining, (r.rimanova@stk.cz) Turniket a bibliomining • Identifikace uživatele na vstupu do knihovny • Přínos – adresné vyhodnocení vůči studované fakultě, prokazatelné požadavky při sdíleném financování a argument pro spojení knihoven • Negativní dopad – bariéra při vstupu do knihovny, v roce 2007 odstraněn

  48. Bibliomining, (r.rimanova@stk.cz) Zkušenost z Tchaj-wanu WU, Chin-Hsing, 2003; LEE, Tzai-Zang; KAO, Shu-Chen. Knowledge discovery applied to materiál aquisitions for libraries. Information Processing and Management. 2004, vol. 40 [cit. 2008-04-02], p. 709-725. Doi:10.1016/j.ipm.2003.08.010. Abstrakt dostupný z WWW: <http://portal.acm.org/citation.cfm?id=1018554http://portal.acm.org/citation.cfm?id=1018554>. ISSN 0306-4573.

  49. Bibliomining, (r.rimanova@stk.cz) Zkušenost z Tchaj-wanu 1. • Bibliomining pro akviziční politiku univerzity • Další záludnost bibliominingu – poměr odborníků a služeb - jak vyhovět i těm, kterých je méně • Nutná kombinace tradičních prvků – zkušenost, studijní plán, fakultní doporučení a bibliominingu

  50. Bibliomining, (r.rimanova@stk.cz) Zkušenost z Tchaj-wanu 2. „…Knihovníci, kteří přijmou technologie jako partnera při rozhodování, jsou i nadále více přístupni tomu, aby se změny v jejich práci děly na základě analytických počítačových metod. Z tohoto důvodu doporučujeme nezapomenout v projektech na náklady a prostor pro vysvětlení všem, kteří pracují s výpůjční databází, že při své práci vytváří i data pro budoucí akvizici…“

More Related