1 / 16

ETO-jelzetek posztkoordinált visszakeresése

ETO-jelzetek posztkoordinált visszakeresése. Piros Attila T émavezető: Dr Boda István. Cél. Olyan indexelő és kereső algoritmus és azt megvalósító program kidolgozása, ami lehetővé teszi dokumentumok tartalmi feltárását és visszakeresését az Egyetemes Tizedes Osztályozás felhasználásával.

luann
Download Presentation

ETO-jelzetek posztkoordinált visszakeresése

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ETO-jelzetek posztkoordinált visszakeresése Piros Attila Témavezető: Dr Boda István

  2. Cél • Olyan indexelő és kereső algoritmus és azt megvalósító program kidolgozása, ami lehetővé teszi dokumentumok tartalmi feltárását és visszakeresését az Egyetemes Tizedes Osztályozás felhasználásával.

  3. Miért az ETO? • Egyetemes, minden szakterületre kiterjedő, hierarchikus rendszer 0 – Általános tartalmú írásművek. 00 – A tudomány és kultúra legáltalánosabb alapjai. 004 – Számítástechnika. 004.4 – Szoftver. Program. 004.42 – Programozás. 004.422 – Programok elemei. 004.422.3 – Változó. 004.422.35 – Változó deklaráció. 004.422.352 – Explicit változó deklaráció.

  4. Miért az ETO? • Rugalmas • A hierarchiában nem szereplő fogalmak leírására általános és speciális alosztások rendszere áll rendelkezésre • 510.6+510.2(075.8)(47+51)=161.1 Matematikai logika és halmazelmélet. Egyetemi tankönyv orosz nyelven. • 004.451.7:004.7 Osztott idejű adatfeldolgozás számítógépes hálózatokban. • Névalosztások is használhatók • 004.655.3 T-SQL Szabványos lekérdező nyelv (SQL) – T-SQL • 004.912=93C++ C++ -ban írt szövegszerkesztő program • Bővíthető más osztályozási nyelvből vett jelzetekkel

  5. Miért az ETO? • Világszerte elterjedt és használt • Egyike a világ két legelterjedtebb osztályozási rendszerének • A táblázatok legalább 51 nyelvre le vannak fordítva • Több, mint száz éve használják (Magyarországon is) dokumentumok tartalmi feltárására • Létező nagy gyűjtemények vannak már feldolgozva vele • Olyan rendszerre van szükségünk, ami már rögzített jelzetek feldolgozására (retrospektív konverzió) is alkalmas • Folyamatosan karbantartott és aktualizált

  6. Miért az ETO? • Online elérhető: • egyelőre csak 2.600 osztály, 51 nyelven (magyarul is!) • UDC Summary (böngészhető) http://www.udcc.org/udcsummary • UDCS Linked Data, letölthető SKOS (XML/RDF) formátumban: http://udcdata.info/ • Minden osztály és alosztás (műveletek is) saját URI-al rendelkezik

  7. Eddigi megoldások • Csak részmegoldások vannak • Ok: az ETO természetes nyelvi jellege, a szabályainak ebből adódó bonyolultsága és következetlensége Például: • műveletek használhatósága és jelentése táblázatonként változó • Pl. összekötés, viszonyítás, aposztróf • részjelzetek határa és szerepe nem mindig egyértelmű • szempont szerinti általánosan közös alosztások és speciális alosztások • számjelzetes speciális alosztások • pont-nullás alosztások (372.814.08 – világnézet alapja tantárgy)

  8. Megoldástípusok • Prekoordináció: • Jelzetelemek manuális kiemelése. • Így működtek az offline szakkatalógusok is. • Hátrányai: • Nem automatizálható • Intervallumok kezelésére alkalmatlan (megfelelő kereső algoritmus megoldhatná) • Csak a kiemelt jelzetek kereshetők, minden más elvész a kereső számára • Nagy az indexelő felelősége

  9. Megoldástípusok • Jelzetelemek egyesével történő bevitele: • A rendszer nem a kész ETO-szám beírását várja el, hanem az egyes jelzetelemek megadását. • Előnye: • böngészhetővé tehetők az elemek, ami megkönnyítheti az indexelést • Hátrányai: • Körülményes a jelzetbevitel • Nem automatizálható • Nem kezeli eléggé az ETO rugalmasságát (több azonos típusú alosztás, alosztások műveletei stb.)

  10. Megoldástípusok • Keresés csonkolással: • Hátrányai: • A kereső személyre nagy terhet ró az ETO rugalmassága miatt (mindig számba kell venni minden lehetőséget, alaposan ismerni kell az ETO-t és a rendszert (!) is) • nagyon lassúak ezek a keresések, és indexszel sem gyorsíthatók • intervallumok kezelése lehetetlen (visszahívás sérül) • számok egymáshoz való kapcsolódása (tehát az az információ, hogy pl. melyik alosztás melyik részjelzethez kapcsolódik) elvész (nagy a zaj, a precízió sérül) • mivel az ETO maga is hierarchikus rendszer, egy kereső algoritmusnak ezt csonkolás nélkül is kezelnie kell.

  11. Cél • Olyan módszert adni a jelzetek eltárolására és visszakeresésére, amely a lehető legnagyobb pontosságú és teljességű találati listát eredményezi anélkül, hogy akár a indexelőtől akár a keresőtől az elmentendő illetve visszakeresendő jelzetek szabályos elkészítésén vagy kiválasztásán túl bármiféle erőfeszítést igényelne (mint például a fontosnak vélt jelzetelemek kiemelését, a jelzetek csonkolását, permutációját vagy a szabványos jelzetelemek más karakterrel történő helyettesítését). • A hatékonyság empirikus vizsgálata.

  12. Teendők • ETO által felvetett kérdések és problémák elemzése: • A jelzeten belül milyen információkat kell figyelembe venni és invertálni illetve elmenteni • Mire kell figyelni a jelzetek elemzésekor, milyen problémák lehetnek Kész (jöhetnek elő új kérdések, az ETO is változik)

  13. Teendők • Automata elkészítése: • Véges automata, bemenő jelei az index karakterei, kimenet egy XML, ami reprezentálja a jelzetet. Diagramkész, implementáció folyamatban • XML séma definíció: • Elsősorban technikai célt szolgál • A UDC Summary URI-ainak segítségével felhasználható a komplex jelzetek összekötésére a UDC Linked Data-val A séma definíció készen van

  14. Teendők • Az adatok adatbázisba mentése Alapelvek le vannak írva • Keresés részletes kidolgozása és implementálása Alapelvek le vannak írva

  15. Irodalomjegyzék • Adatbázis transzformációalapú kereshetőségjavítása: ETO-kereshetőség a BME OMIKK Aleph rendszerében / Marton József; Prokné Palik Mária.- Bp.: TMT, 56. évf. (2009) 2. sz. • Egyetemes Tizedes Osztályozás. – Bp.: OSZK-KI, 2005. • Az ETO alkalmazása a gépesített dokumentációs és könyvtári munkában / Orosz Gábor. – In: Szöveggyűjtemény az osztályozás és indexelés kérdéseinek tanumányozásához. – Bp.: Tankönyvkiad., 1988. • Az ETO az Országos Széchényi Könyvtár számítógépes rendszerében / Zöldi Péter. – In: Könyvtári Figyelő, 1993. 3. sz. - http://ki.oszk.hu/kf/1993/10/az-eto-az-orszagos-szechenyi-konyvtar-szamitogepes-rendszereben • Bevezetés az információkereső nyelvek elméletébe és gyakorlatába. – B. Hajdu Ágnes; Babiczky Béla. – Bp.: Universitas kiad., 1998 • Észrevételek egy ETO-ról szóló tanulmányhoz / Ungváry Rudolf. – In: Könyvtári Figyelő, 2011. 2. sz. - http://ki.oszk.hu/kf/2011/07/eszrevetelek-mandy-gabor-tanulmanyahoz • Könyvtári feldolgozó munka : Osztályozás és szakkatalógus szerkesztés / Babiczky Béla – Bp.: Tankönyvkiadó, 1975. • Könyvtári információkeresés / Ungváry Rudolf, Vajda Erik. – Bp.: Typotex, 2002. • Könyvtári osztályozási segédletek : a segédkönyvtárosképzés céljára / Mándy Gábor. - http://etotanf.x3.hu • Kutatási tervezet az ETO-nak mint gépesített referencia-keresőrendszer indexelési nyelvének kiértékelésére / Orosz Gábor. – In: Szöveggyűjtemény az osztályozás és indexelés kérdéseinek tanumányozásához. – Bp.: Tankönyvkiad., 1988. – p. 231-233 • Régi ETO, új ETO / Mándy Gábor. – In: Könyvtári Figyelő, 2011. 2. sz. - http://ki.oszk.hu/kf/2011/07/regi-eto-uj-eto/ • Research Project for the Evaluation of the UDC as the Indexing Language for a Mechanized Reference Retrieval System: Progress Report for the Period July 1, 1965-January 31, 1966 / Pauline Atherton Cochrane; Robert R. Freeman • UDC Summary Linked Data. - http://udcdata.info/ • UDC as Linked Data. – In: UDC Blog, 2012.08.26. - http://universaldecimalclassification.blogspot.hu/2012/08/udc-as-linked-data.html • UDC Summary. - http://www.udcc.org/udcsummary/php/index.php • Könyvtárosok kézikönyve : 2. kötet / Horváth Tibor; Papp István • Az Egyetemes Tizedes Osztályozás (ETO) alapelvei, reviziójának és kiadásának szabályai / Csengődy Eszter. – Budapest: OMIKK, 1983 • Szemléletváltozás az ETO jelzetszerkesztésében / Babiczky Béla. – In: Könyvtári Figyelő, 1985. 1. sz.

  16. Köszönöm a figyelmet.

More Related