340 likes | 486 Views
Statistický modul EZproxy a další aktuální vývoj MULTIDATA Praha. Mgr. Petr Novák Knihovna psychologie FF UK 6.října 2009. Pro č statistický modul?. OCLC (výrobce EZproxy) nabízí výčet různých nástrojů, komerčních i freeware / OSS Neposkytují podporu pro skupiny
E N D
Statistický modul EZproxy a další aktuální vývoj MULTIDATA Praha Mgr. Petr Novák Knihovna psychologie FF UK 6.října 2009
Proč statistický modul? • OCLC (výrobce EZproxy) nabízí výčet různých nástrojů, komerčníchi freeware / OSS • Neposkytují podporu pro skupiny • Neposkytují podporu pro různé způsoby autentizace • zdlouhavá práce s logy na pracovní stanici • limity, nelze pracovat v dávkách
Statistický modul • Autor RNDr. Vladimír Pávek • Využívá XSLT procesor Saxon • Vyžaduje Java Virtual Machine • Otestováno na Windows 2003 server a Linux • Testovací demo ke stažení z www.multidata.cz • Konfigurace = editace XML souborů • práce přímo na serveru EZproxy • Generuje výstupy v ČJ a AJ
Skupiny v EZproxy • Jsou využívány: • pro korektní autorizaci uživatelů dle součásti instituce (fakulty a základní součásti na VŠ, zaměstnanci x čtenáři x testeři ve všech knihovnách) • pro generování log souborů využívaných pro statistický modul • předávány jsou různé kombinace skupin
Jak EZproxy ukládá logy • Konfigurace v config.txt • Ukládání v týdenních intervalech • 2 druhy logů: • LogSPU-> spu%Y-%W.log = výchozí URL zdroje • Hlavní log -> ezp%Y-%W.log = kompletní komunikace uživatel-zdroj bez *.jpg a *.gif
Jak EZproxy ukládá logy - co se loguje • IP adresa, • uživatelské jméno, • výčet skupin uživatele oddělený „+“, • identifikátor session, • datum a čas, • kompletní HTTP request (např. GET http://www.database.com HTTP/1.0), • číslelný status HTTP žádosti (200 aj.), • přenesená data v bajtech, • (v případě hlavního logu ještě user-agent)
Ukázka SPU logu • 70.108.162.87 johndoeDefault+UNI+MEDICINE+Studenta05db43a-6c0b-40d6-b0ff-2502eddb337d [10/Aug/2009:01:37:13 +0100] "GET http://ezproxy.library.edu/login/ovid HTTP/1.1" 200 0 • 18.18.162.117 marysmithDefault+UNI+LAW+Studente87bd19a-677a-41a1-bcb8-4309a4818e84 [10/Aug/2009:01:37:13 +0100] "GET http://ovidsp.ovid.com/ovidweb.cgi HTTP/1.1" 200 0 • 60.133.100.17 billkingDefault+UNI+ARTS+THEOLOGY+Student+Staff94b62205-6564-47a4-97e0-e6497f2b8546 [10/Aug/2009:01:58:55 +0100] "GET http://ezproxy.library.edu/login/ebsco HTTP/1.1" 200 0 • 90.177.148.39 mikeleeDefault+UNI+ARTS+MATH+Staff476663da-d3ac-42c1-a07b-1131fb1c01e8 [10/Aug/2009:01:58:55 +0100] "GET http://search.ebscohost.com/login.aspx?authtype=id HTTP/1.1" 200 0 • 58.128.110.30 tracylongDefault+UNI+COMPSCI+Student6ea828af-6c11-4f66-90ae-093be1d73026 [10/Aug/2009:03:35:11 +0100] "GET http://www.computer.org/portal/site/usdl HTTP/1.1" 200 0
Způsoby zpřístupnění elektronických inf. zdrojů • Autentizace na IP adresu (poskytovatel zdroje zařadí IP adresu EZproxy serveru na seznam povolených IP adres) = typ 1 • Autentizace jménem a heslem (poskytovatel zdroje zašle autentizační data - uživ.jméno a heslo -, ta jsou zadána do EZproxy a uživatel se jimi transparentně autentizuje vůči skrytému formuláři = typ 2
Ukázka SPU logu typ 1 typ 2 • 70.108.162.87 johndoeDefault+UNI+MEDICINE+Studenta05db43a-6c0b-40d6-b0ff-2502eddb337d [10/Aug/2009:01:37:13 +0100] "GET http://ezproxy.library.edu/login/ovid HTTP/1.1" 200 0 • 18.18.162.117 marysmithDefault+UNI+LAW+Studente87bd19a-677a-41a1-bcb8-4309a4818e84 [10/Aug/2009:01:37:13 +0100] "GET http://ovidsp.ovid.com/ovidweb.cgi HTTP/1.1" 200 0 • 60.133.100.17 billkingDefault+UNI+ARTS+THEOLOGY+Student+Staff94b62205-6564-47a4-97e0-e6497f2b8546 [10/Aug/2009:01:58:55 +0100] "GET http://ezproxy.library.edu/login/ebsco HTTP/1.1" 200 0 • 90.177.148.39 mikeleeDefault+UNI+ARTS+MATH+Staff476663da-d3ac-42c1-a07b-1131fb1c01e8 [10/Aug/2009:01:58:55 +0100] "GET http://search.ebscohost.com/login.aspx?authtype=id HTTP/1.1" 200 0 • 58.128.110.30 tracylongDefault+UNI+COMPSCI+Student6ea828af-6c11-4f66-90ae-093be1d73026 [10/Aug/2009:03:35:11 +0100] "GET http://www.computer.org/portal/site/usdl HTTP/1.1" 200 0
Rozdíl v logování • SPU log – srovnatelně zaznamená jak typ 1 (autentizace IP adresou), tak typ 2 (autentizace jménem a heslem) • Hlavní log - zaznamená kompletní komunikaci EZproxy se zdrojem dle typu 1, avšak pouhé otevření zdroje typu 2 • -> jako zdroj pro statistiky využívanosti se hodí spíše SPU log, Hlavní log má doplňkovou funkci
Workflow práce se statistickým modulem – generování HTML výstupů • Realizováno každý týden • Nakopírování čerstvého souboru LogSPU do /statistika (adresář se statistickým modulem) • Spuštění dávky • Nakopírování výstupních HTML souborů do požadované lokace – např. /docs/public (do této lokace lze obecně umístit jakékoli HTML a grafické soubory ke kterým není třeba ověřovat přístup) • Kontrola errorlog.html
Workflow práce se statistickým modulem - tit-url.xml • Editace souboru tit-url.xml • tit-url.xml obsahuje seznam zdrojů včetně URL a výčtu přiřazených skupin • Vždy při přidání nového zdroje • Konvence pojmenování zdroje • Pokud zdroj již není předplácen – nutno konfiguraci v tit-url ponechat • Ukázka záznamu
Workflow práce se statistickým modulem – analýza chybových URL • soubor errorlog.html • slouží k nalezení chybných konfigurací v tit-url.xml
K čemu může sloužit • Statistika dle zdrojů a měsíců • pro celou knihovnu • pro jednotlivé skupiny • Využití pro marketing: • sledování krátkodobých přístupů (trialy) • meziměsíční změny • celkové úhrny
K čemu může sloužit • Statistika dle skupin • pro celou knihovnu • pro jednotlivé skupiny • Využití pro marketing: • rozdíly mezi jednotlivými skupinami (fakultami) • zdroj pro přepočet dle počtu reálných uživatelů (studenti + akademičtí pracovníci, všichni čtenáři / aktivní uživatelé vzdáleného přístupu)
K čemu může sloužit • Statistika dle skupin a dle zdrojů • pro jednotlivé skupiny • Využití pro marketing: • rozdíly mezi jednotlivými skupinami (fakultami) pro konkrétní zdroje • zdroj pro analýzu využívanosti zdrojů -> podklad pro akvizici
Další práce s výstupy v Excelu • Všechny prezentované tabulky lze z HTML přes schránku snadno metodou CTRL+C, CTRL+V zkopírovat do Excelu a dále zpracovávat • Výstup např. do CSV se ukázal jako zbytečný
K nabídce statistického modulu • Dodávka zahrnuje budoucí aktualizace • Cena mírná , na dotázání • Dotazy ke statistickému modulu?
Autentizační modul • možnosti autentizace a autorizace EZproxy: built-in by OCLC :-) • textový soubor s hesly • LDAP • LDAP dle RFC 2307 (např. OpenLDAP) • Active Directory, eDirectory • Shibboleth • doména Windows • pro ČR exotické knihovní systémy – Voyager, III, … • více viz http://www.oclc.org/us/en/support/documentation/ezproxy/usr/default.htm
ALEPH...? • Nativní podpora autentizace a autorizace uživatelů EZproxy v systému ALEPH chybí • Akademické knihovny disponují LDAP adresáři pro autentizaci k různým informačním procesům v rámci svých informačních systémů • Veřejné a vědecké knihovny LDAP podporu pro čtenáře nemívají • ->>> potřeba autentizačního modulu
Autentizační modul • Autoři • Jiří Rataj • Lukáš Hlůže • Martin Vojnar • testován na EZproxy serveru draco.multidata.cz
Výhoda řešení • standardizované LDAP rozhraní podporující • EZproxy • Shibboleth Identity Provider • libovolné další služby (tiskové fronty, autentizace pracovních stanic, …) • aktuální data via LDAP – např. • účet aktivní ihned po vystavení průkazky • účet odblokován okamžitě po uhrazení pokuty • lze stanovit specifickou skupinu uživatelů pro vzdálený přístup (nikoli nutně všichni registrovaní čtenáři)
Podrobnosti • možné zabezpečení komunikace • EZproxy-LDAP: SSL (ldaps) + fixní IP adresa • LDAP-mezivrstva-ALEPH: omezení jen pro localhost komunikaci, pokud nebude LDAP a ALEPH na jednom serveru – lze implementovat https + fixní IP adresu • propustnost v řádu desítek autentizačních dotazů za minutu • mezivrstva LDAP – ALEPH je napsána v perlu • vyžaduje ALEPH v.18 a vyšší s licencí X-services
Obsah datagramu mezivrstvy <?xml version="1.0" encoding="UTF-8"?> <bor-auth> <bor-id>carovy_kod_uzivatele</bor-id> <bor-uid>primarni_id_uzivatele</bor-uid> <bor-name>jmeno_uzivatele</bor-name> <bor-email>email_uzivatele</bor-email> <bor-lang>jazyk_komunikace_s_uzivatelem</bor-lang> <bor-auth-ok>vysledek_verifikace</bor-auth-ok> <bor-credit>stav_penezniho_uctu</bor-credit> <bor-status>kategorie_uzivatele</bor-status> <error>textova_zprava_o_vysledku_verifikace_v_pripade_chyby</error> </bor-auth>
Ukázka • http://boa.ruk.cuni.cz:8991 • ldapsearch -x -D 'uid=333,ou=EZPROXY,dc=ruk,dc=cuni,dc=cz' -W -v -h boa.ruk.cuni.cz -b 'uid=333,ou=EZPROXY,dc=ruk,dc=cuni,dc=cz' uid=333,ou=ezproxy,dc=ruk,dc=cuni,dc=cz • boa.ruk.cuni.cz • ou=EZPROXY,dc=ruk,dc=cuni,dc=cz(objectClass=person) • uid • 333
Vaše dotazy a komentáře… … za které děkuji petr.novak@multidata.cz