580 likes | 669 Views
Osztályozási rendszerek, információkereső nyelvek. Dr. Varga Katalin Egyetemi docens. A tantárgy célja, feladatai.
E N D
Osztályozási rendszerek, információkereső nyelvek Dr. Varga Katalin Egyetemi docens
A tantárgy célja, feladatai • Olyan elméleti ismeretek közlése és gyakorlati készségek kialakítása, amelyek a hallgatókat felkészítik a szövegek, dokumentumok tartalmi feltárására, osztályozására, indexelésére és hatékony visszakeresésére, valamint e folyamatok szervezésére, fejlesztésére és kutatására. • Az elméleti ismereteket adó előadások mellett a gyakorlati órákon az egyes osztályozási és indexelési eljárások alkalmazását sajátítják el a hallgatók. • A kurzus végére képeseknek kell lenniük bármely tartalmi feltáró eszköz elemzésére, értékelésére és alkalmazására, ill. adatbázisokban összetett tartalmi keresések végrehajtására és a keresési eredmények értékelésére.
Tematika • A tartalom és a tartalomelemzés • A tartalmi feltárás célja és feladata • A tartalmi feltárás folyamata • A tartalmi feltárás szintjei • Az információkereső nyelvek típusai • Hierarchikus osztályozási rendszerek • ETO
Vizsgák, követelmény • Gyakorlati jegy az órai munkák, illetve házi feladatok alapján • Félévek végén írásbeli teszt • Kurzus végén szigorlat
Tartalom • Az információközvetítő tevékenység a tudástársadalomban értelmezett ismeretek közvetítését jelenti. • A könyvtár számára a tudás szövegekben jelenik meg. • A tartalom a szöveg jelentése. • Azt az üzenetet kell megkeresni és kifejezni, amelynek információs értéke van annak a közönségnek a számára, amelyet az információs rendszer célközönségének, használóinak tekintünk.
Tartalomelemzés, tartalmi feltárás • A könyvtári feldolgozó munkának két területét különböztethetjük meg : • A dokumentumok formai leírását és azonosítását, ez a formai feltárás, katalogizálás, illetve a bibliográfiai leírás feladata. • A dokumentumok tartalmi vagy tárgyi feltárását, mellyel a tartalmi feltárás foglalkozik. • A feldolgozás eredménye a szurrogátum. • Tartalmi feltárás: osztályozás, információkereső nyelvek
Feldolgozás • A szurrogátum • Az eredeti dokumentum mása, az arra vonatkozó adatelemek rendezett halmaza, a dokumentumokat mint tárolási-keresési egységeket képviseli az információtárolás és -keresés során. • A feldolgozás célja • Az állomány reprezentálása, áttekinthetővé tétele (formai és tárgyi szempontok) • Az információk visszakereshetővé tétele • Kompatibilitás, szabványosság
A feldolgozás szempontjai • Azonosítás: egyértelmű kapcsolat a dokumentum és a szurrogátum között • Formai feltárás: bibliográfiai leírás • Tartalmi feltárás: különböző szinteken valósul meg • Visszakereshetőséget biztosító adatszerkezet
Szurrogátum minta Szerző: Agárdi Péter, 1946- Cím és szerzőségi közlés: A magyar kultúra és média a XXI. század elején tanulmányok Agárdi Péter. Megjelenés: Pécs PTE FEEK 2005 Terj./Fiz. jell.: 300 p. 23 cm Sorozat: Humán szervező (munkaügyi) menedzser sorozat, 1218- 6880 Tárgyszavak: tömegtájékoztatási eszköz. Oszk kultúra. Oszk művelődés. oszk ezredforduló. oszk Magyarország. Megjegyzés:Bibliogr. a tanulmányok végén Osztályozás: Z 791.9.096/.097 (439) "200" 008 (439) "200„ Lelőhely: B1 Raktari jelzet: C 154.892 MC 154.892
A tartalmi feltárás feladata • A szöveg egyedi információinak elemzése • A tartalom meghatározása • Tartalmi csoportok kialakítása • Hasonló tartalmú információk együtt tartása • Valamennyi tartalmi információ visszakereshetővé tétele
A tartalmi feltárás szintjei, műfajai • Regisztrációs szint • alapvető adatok: szerző, cím, kiadó, év • Generalizáló osztályozás • Az információk átfogó, generikus tartalmi-tematikus csoportosítása • Egyedi információk tartalmi leírása • Kulcsszó, tárgyszó stb. – a konkrét kérdésre való válaszadást teszi lehetővé
A tartalmi feltárás szintjei, műfajai • Annotáció • 1-2 mondatnyi információ a tartalomról • Referátum • Rövid, lényegre törő tartalmi kivonat, amely összefüggő szövegbe ágyazva tartalmazza az eredeti szöveg lényeges megállapításait • Indikatív referátum – csak jelzi, hogy milyen témákról szól az eredeti szöveg • Informatív referátum – összefoglalja az eredeti mondanivalóját • Tömörítvény • Az eredetit pótló összefoglalás • Analitikus-szintetikus feltárás • Több dokumentum tartalmi szintézise – szemle, trendtanulmány
Feltártsági mutatók A besorolási helyek dokumentumonkénti átlaga, másmódon az egy leírási egységre (kognitívumra) eső ismérvek számának átlaga. Feltártság = ismérvek (elérési helyek) átlagos száma dokumentumok száma
Feltártsági mutatók Senko mutatója: Feltártság = tömörítés szavainak száma eredeti szöveg szavainak száma Perry és Kent mutatója: Feltártság = az eredeti szöveg releváns mondatai – a kivonat releváns mondatai az eredeti szöveg releváns mondatai
A tartalmi feltárás folyamata • Fogalmazzuk meg a dokumentum tartalmát egy mondatban (esetleg 2-ben). • Ha nem foglalható egy mondatba, több témáról van szó. • Keressük meg az újdonságot. • Keressük meg a cselekvést. Határozzuk meg fogalmakkal. • Keressük meg a cselekvés tárgyát és végrehajtóját. Határozzuk meg fogalmakkal. • Szükség van-e a téma idő- és hely-viszonyainak kifejezésére? Határozzuk meg. • Szükség van-e a dokumentumtípus kifejezésére? Adjuk meg.
Az osztályozás logikai alapjai • Az osztályozás alapvető gondolkodási tevékenység. • A megismerési folyamat során az objektumokat egyrészt szétválasztjuk különböző eltérő tulajdonságaik alapján, másrészt azonos vagy hasonló tulajdonságaik kiemelésével csoportosítjuk őket. • Egy osztályba tartoznak azok az objektumok, amelyek ugyanazzal a közös tulajdonsággal rendelkeznek
Az osztályozás logikai alapjai • Osztályalkotás: az osztályt jellemző kritériumok meghatározása. • Osztályba sorolás: a hasonló egyedek csoportosítása, annak a megállapítása, hogy mi mibe tartozik bele. • Az osztályozás mindig fogalmi síkon történik.
A fogalom • A fogalom olyan gondolat, amely a valóság objektumait, jelenségeit az adott tárgyakra nézve közös, más tárgyaktól őket elválasztó ismertetőjegyeik szerint általánosítja, emeli ki. • A fogalom tartalma - intenció - a benne általánosított dolgok lényeges ismertetőjegyeinek összessége. • A fogalom terjedelme - extenció - a benne általánosított dolgok összessége.
Fogalom és megnevezés Frege féle háromszög
Fogalmi kategóriák • Az ismérvek számának növelésével vagy csökkentésével az általánosítás különböző fokaira juthatunk. Végletesen létezik olyan állapot is, amikor a tartalmat mindössze egyetlen ismérv határozza meg. Ezeket a fogalmakat fogalmi kategóriáknak hívjuk. • A fogalmi kategória csak önmagával jellemezhető fogalom • pl.: anyag, energia, idő, mozgás, tulajdonság stb. • A facetták a fogalmi kategóriák olyan alkategóriái, amelyek egy-egy szakterület általános fogalmait képviselik.
Az osztály • A fogalom a terjedelmét alkotó dolgok osztályát képviseli. • Az osztály az elemek olyan nyílt összessége, melyet közös tulajdonságok, ismertetőjegyek jellemeznek. • Az osztályok elemei rendelkeznek • kitüntetett szemantikai jellemzőkkel • más megkülönböztető ismérvekkel • ha egy osztályon belül az elemek egy csoportja a kitüntetett szemantikai jellemzők mellett más közös tulajdonságokkal is rendelkezik, alosztályt alkot
Műveletek osztályokkal Egyesítés, unió (jele: U): VAGY, OR, logikai összeadásKét halmaz egységesítésén azt a halmazt értjük, melybe a két halmaz valamennyi eleme beletartozik.
Műveletek osztályokkal Metszet (jele: ∩ ): ÉS, AND, logikai szorzásKét halmaz metszetén azt a halmazt értjük, melynek elemei mindkét eredeti halmazban megtalálhatók, tehát a közös elemek halmazát.
Műveletek osztályokkal Különbség (jele: \): DE NEM, NOT, logikai kivonásKét halmaz különbségén azt értjük, amely egyiküknek eleme, de nem az a másikuknak.
Műveletek osztályokkal • Komplementer halmaz képzése - U halmaz jelölje most az összes lehetséges halmaz együttesét, pl.: egy könyvtár valamennyi dokumentumát. - Adott egy A halmaz. - komplementer halmaz U-ra nézve- = U \ A
Relációk • A reláció a halmazok vagy egy halmaz elemei között megállapított kapcsolat. Fogalmi reláción - teljesen analóg módon - a fogalmak vagy ismérvek közötti kapcsolatokat értjük. • Két fogalom közötti adott reláció jelölése: a R b vagyis a egy meghatározott relációban van b-vel (hasonlóan lehetne S,N stb. relációban is)
Relációtulajdonságok • Reflexív (visszaható) egy reláció, ha egy elem egy adott relációban áll önmagával: aRa Például a Hódmezővásárhelyen születettek halmaza; reláció: ugyanott született, mint • Irreflexív (nem visszaható) egy reláció, ha az előző azonosság nem áll fent.
Relációtulajdonságok • Szimmetrikus egy reláció, ha a kapcsolatban álló fogalmak sorrendje felcserélhető. Az adott reláció oda és vissza is igaz. aRb és bRa például Sándor és Géza barátok. (Sándor barátja Gézának, és ugyanakkor Géza is barátja Sándornak.) • Aszimmetrikus egy reláció, ha a kapcsolatban álló fogalmakat felcserélve más relációt kapunk. Például minden bogár rovar, de nem minden rovar bogár.Megjegyezzük, hogy asszimetria esetén is fennállhat aaRb és bRa, de csak akkor, ha a=b.
Relációtulajdonságok • Egyértékű egy reláció, ha egy fogalom mindig csak egyetlen másik fogalomhoz kapcsolódik az adott relációban. Például Géza anyja Katalin. • Többértékű egy reláció, ha egy fogalom több fogalomhoz is kapcsolódhat ugyanazzal a relációval. Például a kutya fölérendeltje a háziállat és az emlős is. • Tranzitív egy reláció, ha fennáll a következő azonosság: aRb és bRc aRc Például az emlős alárendeltje a háziállat, a háziállat alárendeltje a kutya, tranzitivitás esetén az emlős alárendeltje a kutya is.
Relációtípusok • Ekvivalencia reláció: • kutya - hund, kutya - ebkülönböző nyelvű alakváltozatok, illetve a szinonimák között • Generikus reláció: • fölé(F) - alárendeltségi(A) reláció • rovar - bogára rovar fölérendeltje a bogárnaka bogár alárendeltje a rovarnak • Szerkezeti reláció: • egész(T) - rész(P) reláció • könyv - címoldala címoldal egésze a könyva könyv része a címoldal
Információkereső nyelvek • Cél: kommunikáció az információ forrása és használója között. • Jellemzők: • Szókészlet – jelkészlet • Szemantika – jelentés • Szintaxis – nyelvtan, használati szabályok
Az információkereső nyelvek típusai 1. szempont: szabályozottság • Természetes nyelven alapuló IKNY-ek • Az osztályozási kifejezéseket az eredeti szövegből emeljük ki • Pl. kulcsszó • Szabályozott IKNY-ek • Az osztályozási kifejezéseket nyelvi, logikai szabályozásnak vetjük alá • Pl. tárgyszó, ETO jelzet stb.
Az információkereső nyelvek típusai 2. szempont: logikai szerkezet • Hiererachikus IKNY-ek • Az általánostól az egyedi felé haladó logikai felosztás. • Alá-fölérendeltségi és egész-rész relációk alapján jön létre. • Mellérendelő IKNY-ek • Az osztályozó fogalmak egymástól függetlenek.
Az információkereső nyelvek típusai 3. szempont: mélység • Generalizáló IKNY-ek • Átfogó témák, nagyobb témacsoportok leírására alkalmas osztályozási rendszerek. • Individualizáló IKNY-ek • Mély tartalmi feltárást biztosítanak. • Az osztályozás az egyedi információk mélységéig elvégezhető
Az információkereső nyelvek típusai 4. szempont: szerkezet • Prekoordinált IKNY-ek • osztályozási rendszerekben az osztályok sorrendje, kapcsolatrendszere, az osztályozási fogalom helye eleve meghatározott, így független a dokumentum tartalmától. • Posztkoordinált IKNY-ek • osztályozási rendszerekben a lexikai egységek a dokumentum tartalmától függően rendelhetők egymás mellé. A fogalmak sorrendje előzetesen nem szabályozott.
Az információkereső nyelvek típusai 5. szempont: tartalom • Általános osztályozási rendszerek: felölelik az emberi tudás egészét, az ismeretek teljes körét. Osztályozásukban a különféle szakterületek fogalmait összehangoltan rendezik el. • Speciális (szakterületi, autonóm) osztályozási rendszerek: egy-egy tudományterület, szűkebb szakterület, ágazat ismereteit foglalják magukba. Figyelemmel vannak az adott szakterületen működő szakemberek, kutatók sajátos igényeire és szokásaira is.
Az információkereső nyelvek típusai 6. szempont: automatizáltság • Nem automatikus: • az osztályozás munkafolyamataiban nem használnak gépi megoldásokat. • Félautomatikus: • a lexikai egységek megállapítása intellektuális úton történik, míg a rendezés és a szelektálás számítógéppel. • Automatikus: • mind az osztályozási fogalmak meghatározását, mind csoportosításukat géppel végzik.
Az információkereső nyelvek típusai 7. szempont: területiség • Egyetemes: az egész világra kiterjedő • Regionális: egy-egy terület fogalmait rendszerező • Nemzeti: országhoz, nemzethez kötődő
Hierarchikus osztályozási rendszerek • Elv: osztályozás = besorolás egy előre meghatározott rendszerbe • Alapja filozófiai tudományfelosztás • Tudományok rendszerezése • Cél: a tudományt mint egységes egészet részekre osztani • Felosztási szempontok • Tudományok tárgya • Megfigyelő nézőpontja • Tudományok eredete
Tárgy: diszciplinák Felosztás: teljes, átfedés-mentes (diszjunkt) Visszakeresés: nem ilyen szempontú Tárgy: információk (lehet tudományos vagy gyakorlati) Felosztás: kevésbé merev, sokoldalú, nem diszjunkt Visszakeresés. Sokoldalúság, interdiszciplinaritás Tudományfelosztás és könyvtári osztályozás
Tudományfelosztás és könyvtári osztályozás • Problémák: • A tudományok fogalmi rendszere változik, nehéz követni. • A hierarchikus osztályozási rendszerek követőek, nem tükrözik az újdonságot. • Információkereséskor ritkán gondolkodunk tudományokban, inkább témákat keresünk.
Tizedes osztályozás • Melvil Dewey (1851-1931) • Az amhersti College Library könyvtárosa • Dewey Decimal Classification (TO) – 1876 • Bacon tudományosztályozásához nyúlt vissza
Tizedes osztályozásfőosztályok • 0 Általánosságok • 100 Filozófia • 200 Teológia • 300 Szociológia • 400 Filológia • 500 Természettudományok • 600 Hasznos tudományok • 700 Szépmûvészetek • 800 Irodalom • 900 Történelem
Tizedes osztályozásjelzetalkotás 420 Angol nyelvészet 820 Angol irodalom 430 Német nyelvészet 830 Német irodalom 440 Francia nyelvészet 840 Francia irodalom
1 Helyesírás 2 Etimológia 3 Szótár 4 Szinonímák 5 Nyelvtan 6 Verstan 7 Tájszólások 8 Szövegek 421 Angol helyesírás 422 Angol etimológia 423 Angol szótár 434 Német szinonimák 435 Német nyelvtan 446 Francia verstan 447 Francia tájszólások 448 Francia szövegek Tizedes osztályozásjelzetalkotás
Egyetemes Tizedes OsztályozásETO • Henry La Fontaine (1853-1943) egyetemi tanár • Paul Otlet (1868-1944) ügyvéd • 1895 – első nemzetközi bibliográfiai kongresszus – Nemzetközi Bibliográfiai Intézet • Világbibliográfia terve • Mandello Gyula (1868-1919) • TO – ETO
Egyetemes Tizedes OsztályozásETO • az emberi ismeretek egészét felölelő egyetemes rendszer; • részletezettsége nagyobb minden más osztályozásnál; • jelzetei egyértelműen rögzítik a szakok sorrendjét; • a számjelzetek alkalmassá teszik nemzetközi használatra; • jelzetalkotási módszerei lehetővé teszik a táblázataiban fel nem sorolt fogalmak osztályozását is; • új fogalmak beépítése a táblázatokba folyamatosan megoldható a tizedes számok továbbosztásával és az üresen hagyott számok felhasználásával; • bibliográfiai, katalóguskészítési és raktározási célra egyaránt használható
Egyetemes Tizedes OsztályozásETO • a főosztályok sorrendje (a Dewey által választott Bacon- féle tudományfelosztás következményként) a korszerû tudományrendszerezésnek sem filozófiai, sem elméleti, sem gyakorlati információs szempontból nem felel meg; • a rokon tudományok és tudományágak elszakadnak egymástól, például a társadalomtudományok a történelemtudománytól, a természettudomány egyes ágai alkalmazásaiktól (kémia - vegyipar; villamosság fizikája - elektrotechnika stb.);
Egyetemes Tizedes OsztályozásETO • összezsúfolódtak egyes főosztályokban önálló tudományok és szakterületek, például az alkalmazott tudományok főosztályában az orvostudomány, a műszaki tudományok egész sora, a mezőgazdaság, az üzemszervezés és közlekedésszervezés, továbbfeldolgozó iparok stb. • Ugyanakkor egyes teljes főosztályokat szűkebb tudományterületek foglalnak el, például 1 Filozófia és lélektan, 2 Vallás, teológia. Ennek következtében viszonylag önálló és jelentős szakok (például rádiótechnika) a további részletezésüket igen hosszú jelzettel kezdik; • a tizedes számjelzetek használata mechanikusan túlságosan merev keretek közé szorítja az osztályozást, és ez a részletezésnél a fogalmak erőszakolt felosztásához vezet.
Egyetemes Tizedes OsztályozásETO • Teljes kiadás (kb. 120-200 ezer fogalom) • Közepes kiadás (kb. 50-60 ezer fogalom) • Rövidített kiadás (kb. 15-25 ezer fogalom) • Speciális (szakágazati) kiadások