1.29k likes | 1.41k Views
Osztályozási rendszerek, információkereső nyelvek II. Darányi Sándor SZTE BTK Könyvtártudományi Tanszék. Osztályozás és információkeresés. Elöljáróban: Az ínformációkeresés felfogható ad hoc osztályozásnak is
E N D
Osztályozási rendszerek, információkereső nyelvek II Darányi Sándor SZTE BTK Könyvtártudományi Tanszék
Osztályozás és információkeresés • Elöljáróban: • Az ínformációkeresés felfogható ad hoc osztályozásnak is • A felhasználó pillanatnyi érdeklödése a szurrogátum, az ennek megfelelö találatok osztályát keressük • Ahogy változik az érdeklödés, úgy kerülnek más osztályok elötérbe • Ehhez a WWW a könyvtár
Alkalmazási területek Automatikus indexelés Információkeresés Információ vizualizálás Automatikus osztályozás
Az elöadás tartalma Információkeresés a gyakorlatban Automatikus indexelés Automatikus osztályozás Vektorteres információkeresés A mély web és jelenségei (idöben változó fogalmi térképek) Az információ láttatása
Nem részletezett problémák • Powers of ten(“A tizes hatványai”, video): miröl van szó? Az univerzum mérete 1035 m, az emberi nagyságrend a 100 m, a kvantumfizika 10-8 m körül, a mérhetöség határa 10-17 m, az extrapolációk határa 10-30 m: ott “van/történik” valami. 10-8 m-ig tart a fogalmi, a nyelv, a kommunikáció, de lehet, hogy “alulról” beszüremlenek más hatások abba az idegrendszerbe, amely agyi tevékenységünkért felelös • Mire képes az információelmélet? IR, IV (vö. Lem, Az Úr hangja, kb 78 old.): “nem keresni kell, hanem kiszürni a feleslegeset” • Mire képes a nyelvábrázolás? Milyen matematikai objektumok mennyit bírnak el? • Mit tesz a szokás? Vö. Beethoven V. szimfónia másképp
1. Információkeresés a gyakorlatban • A könyvtár legfontosabb információ-keresési eszközei • Bibliográfiák • Katalógusok • Indexelö és referáló kiadványok • Adatbázisok • Nyilvántartások • Keresömotorok és webkatalógusok
Bibliográfiák • Hagyományosan a könyvtár legfontosabb keresöeszköze • Az irodalmat leíró listák rendezési elve: • tárgykör • szerzö • nyelv • idötartam (periódus, korszak) • különgyüjtemények • kiadók • dokumentumtípus
Az OSZK adatbázisai (példák) • A MNB adatbázisai • Katalógusok: • NEKTÀR (OSZK online katalógus) • MOKKA (Magyar Országos Közös Katalógus) • Hungarika adatbázisok • AV kötelespéldány • EPA (Elektronikus Periodika Archivum) • IKER (Magyar Idöszaki Kiadványok Repertóriuma) • NPA (Nemzeti Periodika Adatbázis)
Az OSZK adatbázisai folyt (példák) • Gyüjtemények: • Törzsgyüjtemény (Könyvek / idöszaki kiadványok) • Különgyüjtemények (kéziratok, kisnyomtatványok, térképek, szinháztörténet, zenemüvek stb.) • Bibliotheca Eruditionis (régi magyarországi nyomtatványok és olvasmányok) • E-Corvinák • Magyar Elektronikus Könyvtár (MEK) • Magyar és Nemzetközi Cikkek (MANCI) • OSZK Digitális Könyvtár (OSZKDK) • Magyar Digitális Képkönyvtár (MDK)
Katalógusok • Két célközönség • Könyvtárosoknak • Olvasóknak • Mi és miért • ”Ismert” mü vagy hivatkozás elöjegyzése • Mije van a könyvtárnak X-röl vagy Y tárgykörben • Irodalomtípusok, müfajok • Merre találom ezt vagy azt
Közös (osztott) katalógusok • Olyan katalógusok, amelyek több könyvtár állományának adatait tartalmazzák. Pl.: • A központi könyvtár és/vagy fiókjai, különgyüjteményei egy rendszerben • Pl. Libris (lényegében a svéd egyetemi és föiskolai könyvtárak közös adatbázisa) • Pl. BURK (közmüvelödési könyvtárak közös katalógusa) • Pl. Bibliotek.se (a Libris és a BURK együtt)
Z39.50 szabvány • Z39.50 = szabványos adatátviteli protokoll. Jóvoltából egyszerre lehet keresni több különbözö adatbázisban egyazon képernyöröl, noha különbözö rendszerek vannak a háttérben. Ehhez az adatbázis oldalán az kell, hogy egy szerveren fusson a protokoll, a felhasználó gépén pedig a megfelelö keresöprogram (kliens). • A kliens programok különböznek, ezért azonos eredmény is megjelenhet a képernyön másként, ez a futtatott klienstöl függ • Letölthetö az OSZK honlapjáról
OPAC • Online Public Access Catalogues = kb. nyilvános, közvetlen hozzáférésü katalógusok • Az egyes könyvtárak nyilvántartásai saját anyagukról. Gyakran része egy nagyobb integrált könyvtári programcsomagnak, amelyben van kölcsönzési (helyi és táv-), beszerzési, cirkulációs, statisztikai modul is • Katalógustípusok (példa) • Szerzöi • Tárgy • Idörendi
Indexelö és referáló kiadványok • Típusai: • Tárgyköri, szakterületi • Földrajzi, regionális • Idö szerint korlátozott • Dokumentumtípus szerint korlátozott, stb.
Webes keresöszolgáltatások • Olyan számítógépes programok, amelyek begyüjtik és indexelik a honlapokat • Lehetövé teszik ilyen lapok teljes szövegü keresését • A világháló keresésének manapság ”legbarátságosabb”, legnépszerübb formája (vö. Webcrawler, Altavista, Yahoo, Google stb.).
Webes keresöszolgáltatások folyt • Három külön részböl állnak: • Crawler – egyik oldalról a másikra mászó program, amely az oldalakról továbbmutató linkek mentén halad (vö. pók, csúszómászó) • Indexelö – elemzi a honlapokat, információt csapat ki belölük, amelyet automatikus indexelésre és keresésre használnak • Keresömodul – felhasználói felület, amelynek funkcióival a szolgáltatás indexében keresni lehet
Felhasználói felület • Lehetövé teszi-e specifikus adattípusok keresését, pl. szerzö, cím, dátum, dokumentumtípus, URL, betüszó stb • Milyen keresöszintaxist enged meg a program? Boole-operátorok, szintakitikai operátor, csonkolás stb. • Tartozik-e hozzá egyszerü vagy bonyolult felhasználói interface? • Lehet-e vele keresni különbözö speciális indexekben? • Milyen rangsorolási / rendezési algoritmust használ?
Webkatalógusok (directory) • Ember-alkotta keresöeszköz • A katalogizálás valamilyen formája, hierarchikusan felépítve • A felhasználó akár egy szót kereshet, akár böngészhet (kattinthat) egy ismereti hierarchiában • Sokkal szükebb szakterületre, mint a ”szokásos” keresöszolgáltatások • Ilyen katalógust fenntartani drága és bonyolult • Példák: Infomine és Open Directory Project
Speciális keresöszolgáltatások • Google Scholar • Google Books • Scirus • Windows Live Academic • Hírek • Térképek • Video, stb.
Metakeresök • Olyan szerver, amely elküldi a keresökérdést egy sor keresögépnek illetve katalógusnak, majd törli a duplumokat és rangsorolja az eredményt • Pl. Dogpile, Metacrawler, Metafind, Mamma Metasearch • Asztali változat: Copernic • Az eredmények többféle módon szemléltethetök • Az eredmény csoportokra bontható, pl. klaszterálással: Yippy (korábban Clusty) • Megj. – metakereséssel mindig csak részleges találati listát kapunk, mivel az algoritmus a közös találati lista elsö 50 vagy 100 tételét fogja csak bemutatni
Információtechnológia • Technika a különbözö adatformátumok begyüjtésére, tárolására, feldolgozására, publikálására és prezentálására • Nem azonos az információtudománnyal • Nem azonos a könyvtártudománnyal • Nem azonos a szakinformatikákkal (könyvtári, régészeti, néprajzi, turisztikai stb.)
Információs rendszer • Az adatkezelés, a.m. begyüjtés, feldolgozás, tárolás és terítés müveleteit végzö rendszer • Manapság a számítógépes információs rendszerbe beleértjük mind a müszaki felszerelést, mind az emberi tevékenységet
Kapcsolat adatbázissal • Képernyö (felhasználói felület, user interface) • Azok a képek és felkínált funkcióik, amelyek lehetövé teszik, hogy számítógépes adatbázisokkal oda-vissza kapcsolatot tartsunk • Így nézhetnek ki: • Szöveg- / parancsalapú • Menüalapú • Formanyomtatvány (kérdöív) • Web interface • Kombinációik
Kapcsolat adatbázissal folyt • Keresönyelv • Az a nyelv vagy parancskészlet, amelyet a géppel való kommunikációra használunk. Lehet pl. kitöltendö kérdöív (egyszerü vagy összetett), vagy a természetes nyelvhez közeli módon teszi fel a kérdést • A webalapú interface értelmezi, mit akarhatott a felhasználó, mit jelenthet a kérdés • Példák: UB könyvtár adatbázisok
Parancsok • Rendesen a következök lehetnek: • A keresés parancsa (Search, Find, keress stb) • Boole- (logikai) -operátorok • Szintaktikai (közelségi) operátorok • Csonkolás • Maszkolás • Mezökeresés (kitüntetett mezök) • Szükítési lehetöségek (idö, nyelv, dok típus, stb)
Boole- (logikai) operátorok • NEM • Kutya (ÉS) NEM macska = minden kutyát, egy macskát sem = csak a kutyáról szóló dokumentumok • ÉS • Kutya ÉS macska = csak a mindkettöt tartalmazó dokumentumok (is-is) • VAGY • Kutya VAGY macska = vagy egyiket, vagy a másikat, vagy mindkettöt tartalmazó dokumentumok
A logikai operátorok müveleti sorrendje • Az a sorrend, amelyben az adatbáziskezelö program a keresökérdés operátorait végrehajtja. Független attól, milyen sorrendben írjuk le öket, zárójelezéssel alakítjuk ki a müveleti sorrendet • Mint a matematikában • NEM > ÉS > VAGY • Volvo VAGY Saab ÉS export • (Volvo VAGY Saab) ÉS export
Szintaktikai (közelségi) operátorok • A szavak közti viszonyt fejezik ki: • X ADJ Y – a két szó közvetlenül egymást követi. X ADJn Y n db szót enged meg közöttük. A szavak sorrendje számít. • NEAR – A szavaknak egymáshoz közel kell állniuk, a sorrendjük mellékes. A táv megadható NEARn formában, ld fent. • SAME – A szó ugyanabban a mezöben (adataelemben) szerepeljen, pl. Web of Science
Csonkolás és maszkolás • Csonkolás: teljes szóalak helyett pl a tövére vagy nagyobb darabjaira kérdezünk. Jobbról vagy balról. Pl $kutya pulikutya, agárkutya, kutya vs kutya$ kutya, kutyakaja, kutyasampon stb. • A maszkolás egy vagy több betüt ill. szót takar ki. Pl g#z#ke Gizike, gözeke • A csonkolás ill maszkolás jele rendszerenként (host/vendor vs adatbázis) változik: * # ? % &, ld a mindenkori kézikönyvet
Mezökeresés • A rekord adatelemekböl (mezökböl) áll, amelyeket azonosító jelöl • A legtöbb adatbázis elöre meghatározza a kereshetö mezöket és sorrendjüket (akár az egész bibliográfiai tételben, akár a kulcsszavakra szükitve stb) • A kulcsszavak a ”tartalmas” adatelemekböl származnak (cím, referátum, tárgyszó, ill egyre gyakrabban teljes szöveg). • Probléma: zaj – hogyan mérjük a relevanciát? • Információkeresés hatékonyságának mérése a vektormodellnél
A keresökérdés szükítése, bövítése • A keresökérdés a felhasználói probléma szurrogátuma • A keresöprofil ennek lefordítása egy bizonyos rendszer parancsnyelvére • Sok rendszer, sok profil • A legtöbb adatbázisban lehetöség van arra, hogy a keresökérdést szükítsük vagy bövítsük: • Idö szerint: tartamot keresünk, akár évben, akár a részeiben kifejezve • Nyelv szerint • Dokumentumtípus szerint: cikkek, könyvek, konferenciakiadványok stb
Szemantikai problémák a keresési folyamat során • A 60-as évek angol autóira keresek • Az ”angol autók" ÉS 1960-as évek nem dob ki olyan találatokat, amelyekben a fenti kifejezések nem szerepelnek, pl Bentley és 1962. • A Bentley angol márka (hiponimia) • 1962 az 1960-as évek része (meronimia)
A keresökérdés szükítése, bövítése folyt • Tartalom és terjedelem fordított aránya: minél kevesebb ismérv írja le a dokumentumot, annál több van belöle az osztályban (adatbázisban) • A bövítéssel nemcsak több találatot, hanem több releváns találatot szeretnénk kapni a keresökérdésre • Hátrány: a több találattal több lesz a zaj is, nemcsak a releváns találatok száma nö • Vagyis a találati halmaz számossága a találatok pontossága rovására nö • Interaktiv bövítés: a felhasználó javaslatot kap a rendszertöl, milyen keresöszavakat (indexkifejezéseket) használjon, ezekböl választ
Keresés és böngészés • Keresés • Precíz kérdés, válaszok a relevancia rangsora szerint • Releváns válaszok korlátozott számban • Kellenek hozzá jól definiált fogalmak (ilyenek pl. az ”egzakt tudományokban” vannak) • Átfogó keresés lehetösége megvan • Böngészés • Új területek megismerésére • Még hiányoznak a szójegyzékböl a megfelelö keresöszavak • Àtfogó keresésre esetlegesen alkalmas • A hiányosan definiált ún ”puha tudományokban”, szakterületeken müködik jól
Keresöstratégiák A problémamegoldás heurisztikus eljárásai rendkívül fontosak az on-line keresésben. Fajtái: • Egyszerü gyorskeresés (briefsearch, quick & dirty) • Keresöfogalmak alkotása (építökocka-technika, building blocks) • Egymásutáni leválogatás (successive facets, successive fractions) • ”Kályha-módszer” (most specific fact) • Páronkénti leválogatás (pairwise facets) • Többszörös egyszerû gyorskeresés (multiple briefsearch) • Hólabdakeresés ([citation] pearl growing) • Pontos megfeleltetés (exact match)
Egyszerü gyorskeresés (briefsearch, quick & dirty) • Egyszeri, Boole-operátorokkal végzett rövidre szabott keresés, hogy • elõzetes képet kapjanak az adatbázis rekordjainak a kérdéssel kapcsolatos • jellemzõirõl • A felhasználó által közvetlenül megadott kifejezésekkel vagy azok csonkolt • változataival hajtják végre; az utóbbi esetre akkor kerülhet sor, ha ismerünk • legalább egy témába vágó szerzõt, címet, kiadót stb. • A kapott találati tételekbõl megállapítható számos, az adatbázisban a • vonatkozó témával összefüggésben használt deszkriptor, mellyel a részletes • keresés folytatható • Nem akar többet, mint: • Meghatározott számú tételt • Legalább sejtse, mit hozna a témakeresés (mennyi van, amit nem kap meg) • Ötleteket a további mazsolázáshoz
Keresöfogalmak alkotása (építökocka-technika, building blocks) • (...) 4. A legfontosabb keresõkifejezések vagy összetevõk és a közöttük fennálló logikai ÉS, VAGY, NEM kapcsolatok megállapítása. • 5. a) Az egyes keresõfogalmakat jelölõ keresõkifejezések megállapítása: szavak, szöveges kifejezések, szótöredékek, deszkriptorok, azonosítók, kódok, nem szemantikai jellegû bibliográfiai ismérvek. • 5. b) A mezõ meghatározása, melyben keresni kell. • 6. Minden önálló keresõfogalom (építõkocka, fazetta) részére az építõkockán belül meg kell szerkeszteni az ismérvláncok halmazát. Az egyes építõkockákba összevont keresõkifejezések között a VAGY operátort használjuk. • 7. Az egyes építõkockákat ÉS, NEM (esetleg VAGY) operátorokkal összekapcsoljuk. (...) Forrás: Stephen Harter: Online információkeresés: Fogalmak, elvek és technikák. In: Ungváry Rudolf – Orbán Éva /szerk./: Osztályozás és információkeresés II. (OSzK) Budapest, 341-347.
Keresöfogalmak alkotása (építökocka-technika, building blocks)
Keresöfogalmak alkotása (építökocka-technika, building blocks) • Tehát felosztja a keresökérdést alkotóelemeire, utána az egyes kulcsszavakhoz szinonímákat keres, amelyeket zárójelben VAGY-gyal köt össze Példa: ”Azt mondják, az amfetamin terápiásan használható hiperaktív gyerekeknek és fiataloknak nyugtatóul. Van-e erröl tudományos közelemény?”
Amphetamine (1967) [+] • Use For • Amphetamine (dl-) (1973) • Amphetamine Sulfate (1973) • Benzedrine (1973) • Broader Terms • Adrenergic Drugs [+] • Appetite Depressing Drugs [+] • CNS Stimulating Drugs [+] • Dopamine Agonists [+] • Sympathomimetic Amines [+] • Vasoconstrictor Drugs [+] • Narrower Terms • Dextroamphetamine • Methamphetamine • Related Terms • Phenethylamines
Minimal Brain Disorders (1973) Use InsteadAttention Deficit Disorder with Hyperactivity • Attention Deficit Disorder with Hyperactivity (2001) • Use For ADHD (2001) Minimal Brain Disorders (1973) • Broader Terms • Attention Deficit Disorder [+] • Related Terms • Attention Span • Distractibility • Hyperkinesis • Impulsiveness • Mental Disorders [+] • Oppositional Defiant Disorder
PsycINFO: Age Index • adolescence (13-17 yrs) • adulthood (18 yrs & older) • aged (65 yrs & older) • childhood (birth-12 mo) • infancy (2-23 mo) • middle age (40-64 yrs) • neonatal (birth-1 mo) • preschool age (2-5 yrs) • school age (6-12 yrs) • thirties (30-39 yrs) • very old (85 yrs & older) • young adulthood (18-29 yrs)