1 / 38

A természetes nyelvű tartalmi feltárás

A természetes nyelvű tartalmi feltárás. ismétlés 1.: információkereső nyelvek csoportjai 1. szempont: az alkalmazott nyelv. természetes nyelven alapulók szabályozott nyelvű: tárgyszavas, deszkriptoros rendszerek mesterséges nyelvű: ETO.

kenaz
Download Presentation

A természetes nyelvű tartalmi feltárás

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. A természetes nyelvű tartalmi feltárás

  2. ismétlés 1.: információkereső nyelvek csoportjai 1. szempont: az alkalmazott nyelv • természetes nyelven alapulók • szabályozott nyelvű: tárgyszavas, deszkriptoros rendszerek • mesterséges nyelvű: ETO

  3. ismétlés 2.: osztályozáselméleti iskolák tudományfelosztáson alapuló osztályozások korlátaik: • szigorú logikai elvek határozzák meg • nem lehet átfedés: !! egy tudományág : egy hely  egy könyv : egy hely !! • nehézkessé válhatnak /nehezen fejleszthetőek

  4. ismétlés 3.:osztályozáselméleti iskolák 2. nyelvészeti irányzat • információkeresõ nyelvek: 20. század elejétõl • szavaik: • szövegből vett szavak • címszó • kulcsszó: az információ lényegére jellemzõ, a tartalmi feltárásra alkalmas • tárgyszó: a tartalmat röviden, egyértelmûen kifejezõ, természetes nyelvű szó • deszkriptor: a legáltalánosabb információkeresõ nyelvi kifejezés • nemdeszkriptor: az információk feldolgozására és keresésére közvetlenül nem használható kifejezés • osztályozási táblázat, tárgyszójegyzék, tezaurusz: az információkeresõ nyelvek szavai rendszerezett jegyzéke, vagy listája („szótár”)

  5. kötetlen rendszerek • keresőszavak a szöveg elemeiből tetszőlegesen (szövegszavak, kulcsszavak, címszavak) • nincs szabályozott szótár, szójegyzék

  6. kötöttszavas rendszerek • a keresőszavak: szabványos, ellenőrzött, kötött szókészletből • keresőnyelvi szótárak alapján pl. tárgyszójegyzék, a tezaurusz, osztályozási táblázat mutatói

  7. átmeneti / vegyes rendszerek pl. betűrendbe sorolt tárgyszóláncok előnyök: • egyszerű • rugalmas hátrányok: • az egyes tárgykörök fogalmai szétszóródnak az abc-rendben • szemantikai problémák jelennek meg • a fogalmi struktúra gyenge

  8. természetes nyelvű információkeresõ nyelvek szabályozása • szóalakok összevonása • homonímák megkülönböztetése • szinonímák elemzése tárgyszavak kialakítása

  9. tárgyszó • nyelvtanilag szabványosított formájú • természetes nyelven alapuló annál egyszerűbb kifejezés • a dokumentum, információ lényegének, leírására alkalmas • rövid, tömör, egyértelmű • tárgyszójegyzék, tárgyszórendszer alkotóegysége lehet

  10. szabad tárgyszó / tárgyszólista / tárgyszórendszer szabad tárgyszó: • bármely szó • bármely alakban • bármely új szó • nincs lista

  11. szabad tárgyszó / tárgyszólista / tárgyszórendszer Civil organizations and regional identity in the south Hungarian great plain / István Murányi et al. 1. Civil szervezetek 2. Regionális Identitás 3. Dél-Alföld 4. időföldrajz

  12. szabad tárgyszó / tárgyszólista / tárgyszórendszer Magyarország litosztratigráfiai alapegységei : Táblázatok és rövid leírások = Basic Litostragigraphic units of Hungary : Charts and short descriptions / Magyar Állami Földtani Intézet 1. Magyarország 2. Litosztratigráfiai alapegységek 3.Litosztratigráfia 4. általános földtan

  13. szabad tárgyszó / tárgyszólista / tárgyszórendszer tárgyszólista: • tárgyszavak, sorrendben • alakjuk nem szabályozott • utalások a szinonimákról tárgyszavakra http://www.npsoft.hu/demos/lelo2001/subject_index.html AGY - AIDS - AKUPUNKTÚRA - ALAPELLÁTÁS - ALKOHOLIZMUS - ÁLLATORVOSTAN - ÁLLATORVOSTUDOMÁNY – ÁLLATTAN - ALLERGIOLÓGIA ÉS IMMUNOLÓGIA - ANALITIKAI KÉMIA - ANATÓMIA - ANDROLÓGIA - ANESZTEZIOLÓGIA - ANTIBIOTIKUMOK - ANTROPOLÓGIA - ANYAGCSERE

  14. szabad tárgyszó / tárgyszólista / tárgyszórendszer tárgyszórendszer tárgyszavak magyarázatok kapcsolatok

  15. a tárgyszórendszer elemei: tárgyszavak kategóriái • téma: tudományszakok, tudományos elméletek, tudományos problémák, eljárások neve, tudományos szakkifejezések (történettudomány, mérés, belgyógyászat stb.) • objektumok, élőlények, dolgok nevei (Parlament, híd, cserje, kézirat) • nevek: személy/testület /intézmény (Bach-család, Szegedi Tudományegyetem, Alkotmánybíróság) • földrajzi hely (Békés megye, Alföld, Kárpátok) • idő: korszak / időpont /időtartam (Középkor, 1997, i..e. 2. évezred) • tartalmi és formai tulajdonságok (antológia, törvény, bibliográfia) • események nevei (Mohácsi csata) • közismert rövidítések (MTA, NATO)

  16. a tárgyszórendszer elemei: tárgyszavakszófaja lehetőleg főnév pl. „oktat, oktatni, oktató Oktatás • egyes szám - többes szám: • többes számú alak gyűjtőfogalom Növények, Kutyák ….(magyar fajták) De: Kutya, stb. (pl. tacskó, tenyésztés)

  17. a tárgyszórendszer elemei: tárgyszavakszófaja jelző: csak szerkezetben • inverzió: jelző hátravetése Kutyanevek, magyar • a természetes nyelvi forma megtartása Magyar kutyanevek

  18. a tárgyszórendszer elemei: tárgyszavakalakja • többtagú kifejezések ? Kvantitatív analízis Kelta civilizáció

  19. a tárgyszórendszer elemei: tárgyszavakalakja rövidítések, mozaikszók? NATO, ENSZ, MÁV

  20. a tárgyszórendszer elemei: magyarázatok • a homonimák szétválasztása, pl. - Komló (növény) - Komló (város) • a tárgyszó jelentésének pontosítása, egyértelművé tétele Gyermek (kamaszkorú)

  21. a tárgyszórendszer elemei: kapcsolatok hivatkozások: • tárgyszavak és tárgyszavak közötti kapcsolatok „Lásd még” hivatkozás • logikai, hierarchikus katcsolatok: a tárgyszavak közötti egy adott kifejezés kapcsolata(i): • nem-faj • egész-rész • rokonsági kapcsolatok

  22. a tárgyszórendszer elemei: kapcsolatok utalók: tárgyszóként nem használt kifejezések a szinonimák jelölésére: • az azonos jelentésű kifejezések egyike tárgyszó • a többi nem használható tárgyszóként 150 7 $aPedagógia 450 7 $aNeveléstudomány  lásd 550 7 $aNeveléselmélet  lásd még 550 7 $aNevelésfilozófia  lásd még

  23. tárgyszórendszer szerkezete tiszta tárgyszórendszer: • rendező elv: betűrend • következetes szóalak-használat • tárgyszó: főnév/főnév elöl

  24. tárgyszórendszer szerkezete rendszerező tárgyszavas rendszer: • átfogó fogalmak  altárgyszavak • az azonos témakörökkel foglalkozó információk egy helyen találhatók • rendszerező tárgyszókatalógusok: egy-egy csoporton belüli bontás • formai • földrajzi • időbeli • tárgyi szempontok alapján

  25. tárgyszórendszer szerkezete rendszerezett: • alárendelő: rendezőelv: tartalmi jegy • bokrosító: klasszikus, bokrosítva a tartalmilag összetartozó kifejezések együtt vannak Kémia, szerves Kémia, szervetlen

  26. tárgyszórendszer szerkezete vegyes szerkezet rendezőelv: betűrend+felbontás permutált: tárgyszókifejezések ciklikus forgatása

  27. tárgyszórendszer szerkezete lánceljárás: tárgyszókifejezések tagjai a fogalmi szintek sorrendjében United States - Foreign relations - 1783-1865United States - Foreign relations - Juvenile literatureUnited States - Foreign relations - JapanUnited States - History - 1865

  28. tárgyszórendszer szerkezete tárgyszóláncok = alosztályozás (idő, formai, tematikus, földrajzi) Kelta mondák, Wales és Írország Macedón irodalom, novella, antológia Magyarország története, 1700-1712, tanulmányok Neveléstörténet, cseh, 1612-1656, kiállítási katalógus Számítógéphálózat, World Wide Web, segédprogram

  29. a tárgyszórendszer kialakításának szempontjai • a feldolgozandó állomány típusa / mérete • felhasználói igények, szóhasználat • tematikus kapcsolatok • lehetőség a folyamatos frissítésre • a fejlesztés lehetőségei

  30. tezaurusz • egy-egy szakterület fogalmai • szótár formában • adott, természetes nyelvűszókészlet felhasználásával • alkotóelemei a deszkriptorok: • szabványos nyelvi formában megfogalmazott tárgyszavak • tágabb, szűkebb, valamint rokon fogalmaik vannak

  31. tezaurusz tezaurusz részei • főrész • lexikai egységei a deszkriptorcikkek (tezauruszcikkek), nemdeszkriptorcikkek • vezérdeszkriptor: • meghatározza a deszkriptorcikk helyét • rá vonatkoznak a deszkriptorcikkben meghatározott relációk • szinonimák (H : helyette, helyettesít, helyette is) • szakcsoportos / szakrendi részek • lexikai egységek betűrendes mutatója

  32. tezaurusz • a rendszerező tárgyszókatalógusok továbbfejlesztett formái • természetes nyelven kifejezett fogalmak szótára • tartalmilag szabályozott • szükség szerint változtatható • a legfontosabb fogalmi összefüggéseket is tartalmazza  hierarchikus • elsősorban a számítógépes információkeresésben és -feldolgozásban használatosak

  33. tezaurusz-hivatkozások OSZK-tezaurusz: • F = Lásd még általánosabban • A = Lásd még specifikusabban • T = Lásd még átfogóbban • P = Lásd még részletesebben • R = Lásd még oksági összefüggésben • E = Lásd még okozati összefüggésben • X = Lásd még egyéb összefüggésben

  34. index • általános értelemben: mutató • eredetileg név- és szómutató • tágabb értelemben a jellemzõk rendezett jegyzéke • különbözõ osztályozási mûveletek végtermékei • eszköze a tárgyszó • indexkifejezés: olyan tárgyszó, melyek az eredeti forrás valamely fontos tartalmi, tárgyi, személyi, földrajzi, idő, formai aspektusát mutatja • indextétel: • egy forrásra vonatkozó tárgyszavak • a tárgyszavak egymáshoz kapcsolódásával keletkezik • az eredeti forrás tárgyi-tematikus reprezentációja

  35. index • az osztályozási kifejezéseket valamilyen szövegkörnyezet, tárgyszólánc stb. feltüntetésével adja meg • az osztályozási kifejezések rendezésére ciklikus permutációt használ • három nagy csoport: címindex, tárgyindex hivatkozási index

  36. az indexelés funkciói • a szabályozott keresőnyelv szavaival le kell tudnia írni a dokumentumok / tartalmak lényeges vonásait • a tárgyszavak rendje segítségével határozza meg a tárolási-keresési rendszert katalógus, OPAC-tárgyszómodulja bibliográfia, adatbázis tárgyszóindexe stb. • tegye lehetővé • a böngészést • a keresőképek / keresőkérdések / a keresés témáinak a leírását

  37. az indexelés alapkövetelményei • tömörség • specifikusság – olyan mélységben, ahogy az eredeti forrás teszi • lényegkiemelés • szabályozottság • összhang a tárgyszórendszer és indexelés között • relációmegőrző transzformáció

  38. az indexelés prekoodinált: előre egymáshoz rendeli • az indexkifejezéseket • indextételen belüli elemsorrendet posztkoordinált: • az indexkifejezéseket megadja • nem kapcsolja össze • a felhasználónak kell a utólag egymáshoz rendelni

More Related