170 likes | 309 Views
ETO-jelzetek posztkoordinált visszakeresése. Piros Attila T émavezető: Dr Boda István. Cél. Olyan indexelő és kereső algoritmus és azt megvalósító program kidolgozása, ami lehetővé teszi dokumentumok tartalmi feltárását és visszakeresését az Egyetemes Tizedes Osztályozás felhasználásával.
E N D
ETO-jelzetek posztkoordinált visszakeresése Piros Attila Témavezető: Dr Boda István
Cél • Olyan indexelő és kereső algoritmus és azt megvalósító program kidolgozása, ami lehetővé teszi dokumentumok tartalmi feltárását és visszakeresését az Egyetemes Tizedes Osztályozás felhasználásával.
Miért az ETO? • Egyetemes, minden szakterületre kiterjedő, hierarchikus rendszer 0 – Általános tartalmú írásművek. 00 – A tudomány és kultúra legáltalánosabb alapjai. 004 – Számítástechnika. 004.4 – Szoftver. Program. 004.42 – Programozás. 004.422 – Programok elemei. 004.422.3 – Változó. 004.422.35 – Változó deklaráció. 004.422.352 – Explicit változó deklaráció.
Miért az ETO? • Rugalmas • A hierarchiában nem szereplő fogalmak leírására általános és speciális alosztások rendszere áll rendelkezésre • 510.6+510.2(075.8)(47+51)=161.1 Matematikai logika és halmazelmélet. Egyetemi tankönyv orosz nyelven. • 004.451.7:004.7 Osztott idejű adatfeldolgozás számítógépes hálózatokban. • Névalosztások is használhatók • 004.655.3 T-SQL Szabványos lekérdező nyelv (SQL) – T-SQL • 004.912=93C++ C++ -ban írt szövegszerkesztő program • Bővíthető más osztályozási nyelvből vett jelzetekkel
Miért az ETO? • Világszerte elterjedt és használt • Egyike a világ két legelterjedtebb osztályozási rendszerének • A táblázatok legalább 51 nyelvre le vannak fordítva • Több, mint száz éve használják (Magyarországon is) dokumentumok tartalmi feltárására • Létező nagy gyűjtemények vannak már feldolgozva vele • Olyan rendszerre van szükségünk, ami már rögzített jelzetek feldolgozására (retrospektív konverzió) is alkalmas • Folyamatosan karbantartott és aktualizált
Miért az ETO? • Online elérhető: • egyelőre csak 2.600 osztály, 51 nyelven (magyarul is!) • UDC Summary (böngészhető) http://www.udcc.org/udcsummary • UDCS Linked Data, letölthető SKOS (XML/RDF) formátumban: http://udcdata.info/ • Minden osztály és alosztás (műveletek is) saját URI-al rendelkezik
Eddigi megoldások • Csak részmegoldások vannak • Ok: az ETO természetes nyelvi jellege, a szabályainak ebből adódó bonyolultsága és következetlensége Például: • műveletek használhatósága és jelentése táblázatonként változó • Pl. összekötés, viszonyítás, aposztróf • részjelzetek határa és szerepe nem mindig egyértelmű • szempont szerinti általánosan közös alosztások és speciális alosztások • számjelzetes speciális alosztások • pont-nullás alosztások (372.814.08 – világnézet alapja tantárgy)
Megoldástípusok • Prekoordináció: • Jelzetelemek manuális kiemelése. • Így működtek az offline szakkatalógusok is. • Hátrányai: • Nem automatizálható • Intervallumok kezelésére alkalmatlan (megfelelő kereső algoritmus megoldhatná) • Csak a kiemelt jelzetek kereshetők, minden más elvész a kereső számára • Nagy az indexelő felelősége
Megoldástípusok • Jelzetelemek egyesével történő bevitele: • A rendszer nem a kész ETO-szám beírását várja el, hanem az egyes jelzetelemek megadását. • Előnye: • böngészhetővé tehetők az elemek, ami megkönnyítheti az indexelést • Hátrányai: • Körülményes a jelzetbevitel • Nem automatizálható • Nem kezeli eléggé az ETO rugalmasságát (több azonos típusú alosztás, alosztások műveletei stb.)
Megoldástípusok • Keresés csonkolással: • Hátrányai: • A kereső személyre nagy terhet ró az ETO rugalmassága miatt (mindig számba kell venni minden lehetőséget, alaposan ismerni kell az ETO-t és a rendszert (!) is) • nagyon lassúak ezek a keresések, és indexszel sem gyorsíthatók • intervallumok kezelése lehetetlen (visszahívás sérül) • számok egymáshoz való kapcsolódása (tehát az az információ, hogy pl. melyik alosztás melyik részjelzethez kapcsolódik) elvész (nagy a zaj, a precízió sérül) • mivel az ETO maga is hierarchikus rendszer, egy kereső algoritmusnak ezt csonkolás nélkül is kezelnie kell.
Cél • Olyan módszert adni a jelzetek eltárolására és visszakeresésére, amely a lehető legnagyobb pontosságú és teljességű találati listát eredményezi anélkül, hogy akár a indexelőtől akár a keresőtől az elmentendő illetve visszakeresendő jelzetek szabályos elkészítésén vagy kiválasztásán túl bármiféle erőfeszítést igényelne (mint például a fontosnak vélt jelzetelemek kiemelését, a jelzetek csonkolását, permutációját vagy a szabványos jelzetelemek más karakterrel történő helyettesítését). • A hatékonyság empirikus vizsgálata.
Teendők • ETO által felvetett kérdések és problémák elemzése: • A jelzeten belül milyen információkat kell figyelembe venni és invertálni illetve elmenteni • Mire kell figyelni a jelzetek elemzésekor, milyen problémák lehetnek Kész (jöhetnek elő új kérdések, az ETO is változik)
Teendők • Automata elkészítése: • Véges automata, bemenő jelei az index karakterei, kimenet egy XML, ami reprezentálja a jelzetet. Diagramkész, implementáció folyamatban • XML séma definíció: • Elsősorban technikai célt szolgál • A UDC Summary URI-ainak segítségével felhasználható a komplex jelzetek összekötésére a UDC Linked Data-val A séma definíció készen van
Teendők • Az adatok adatbázisba mentése Alapelvek le vannak írva • Keresés részletes kidolgozása és implementálása Alapelvek le vannak írva
Irodalomjegyzék • Adatbázis transzformációalapú kereshetőségjavítása: ETO-kereshetőség a BME OMIKK Aleph rendszerében / Marton József; Prokné Palik Mária.- Bp.: TMT, 56. évf. (2009) 2. sz. • Egyetemes Tizedes Osztályozás. – Bp.: OSZK-KI, 2005. • Az ETO alkalmazása a gépesített dokumentációs és könyvtári munkában / Orosz Gábor. – In: Szöveggyűjtemény az osztályozás és indexelés kérdéseinek tanumányozásához. – Bp.: Tankönyvkiad., 1988. • Az ETO az Országos Széchényi Könyvtár számítógépes rendszerében / Zöldi Péter. – In: Könyvtári Figyelő, 1993. 3. sz. - http://ki.oszk.hu/kf/1993/10/az-eto-az-orszagos-szechenyi-konyvtar-szamitogepes-rendszereben • Bevezetés az információkereső nyelvek elméletébe és gyakorlatába. – B. Hajdu Ágnes; Babiczky Béla. – Bp.: Universitas kiad., 1998 • Észrevételek egy ETO-ról szóló tanulmányhoz / Ungváry Rudolf. – In: Könyvtári Figyelő, 2011. 2. sz. - http://ki.oszk.hu/kf/2011/07/eszrevetelek-mandy-gabor-tanulmanyahoz • Könyvtári feldolgozó munka : Osztályozás és szakkatalógus szerkesztés / Babiczky Béla – Bp.: Tankönyvkiadó, 1975. • Könyvtári információkeresés / Ungváry Rudolf, Vajda Erik. – Bp.: Typotex, 2002. • Könyvtári osztályozási segédletek : a segédkönyvtárosképzés céljára / Mándy Gábor. - http://etotanf.x3.hu • Kutatási tervezet az ETO-nak mint gépesített referencia-keresőrendszer indexelési nyelvének kiértékelésére / Orosz Gábor. – In: Szöveggyűjtemény az osztályozás és indexelés kérdéseinek tanumányozásához. – Bp.: Tankönyvkiad., 1988. – p. 231-233 • Régi ETO, új ETO / Mándy Gábor. – In: Könyvtári Figyelő, 2011. 2. sz. - http://ki.oszk.hu/kf/2011/07/regi-eto-uj-eto/ • Research Project for the Evaluation of the UDC as the Indexing Language for a Mechanized Reference Retrieval System: Progress Report for the Period July 1, 1965-January 31, 1966 / Pauline Atherton Cochrane; Robert R. Freeman • UDC Summary Linked Data. - http://udcdata.info/ • UDC as Linked Data. – In: UDC Blog, 2012.08.26. - http://universaldecimalclassification.blogspot.hu/2012/08/udc-as-linked-data.html • UDC Summary. - http://www.udcc.org/udcsummary/php/index.php • Könyvtárosok kézikönyve : 2. kötet / Horváth Tibor; Papp István • Az Egyetemes Tizedes Osztályozás (ETO) alapelvei, reviziójának és kiadásának szabályai / Csengődy Eszter. – Budapest: OMIKK, 1983 • Szemléletváltozás az ETO jelzetszerkesztésében / Babiczky Béla. – In: Könyvtári Figyelő, 1985. 1. sz.