360 likes | 523 Views
Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei. Darányi Sándor Tartalomelméleti Virtuális Kutatócsoport Információ- és Tudásmenedzsment Tanszék, BMGE. Információ és jelentés: Gizike és gőzeke. Információ = jelentés vs. információ jelentés
E N D
Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei Darányi Sándor Tartalomelméleti Virtuális Kutatócsoport Információ- és Tudásmenedzsment Tanszék, BMGE "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Információ és jelentés: Gizike és gőzeke • Információ = jelentés vs. információ jelentés • Információ1 = hír, újdonság, ritkaság – a.m. valamilyen tartalom ritkasága • Információ2 = a ritkaság valószínűségi mértéke a rendezetlenségből levezetve (jelentés nélkül); a valószínűség reciproka • Shannon-Weaver; Machlup-Mansfield "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Vektortér és szemantika • Információ a vektortérben: átkódolás eredménye (szövegből szám) • Érthetetlen, az osztályozás mitől jó (= mitől szemantikus) • Tehát a vektortérben ott kell legyen a szemantika • De hol? • A fő válfajok: Wittgenstein / Saussure, Carnap, Bloomfield / Uexküll, Frege / Peirce • Trier és a szemantikai mező (1934) "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Szójelentés a vektortérben 1 • “Meaning is use” (Wittgenstein, PhI [1953]: § 43) [1] (az ún. pragmatikus irány) • “Use” = (1) „szövegkörnyezet”, (2) „az említés gyakorisága”, ismétlés, bevésés • Az input mátrix a változók értékeinek előfordulását ill. együttes előfordulását kódolja • Ez megfelel a “use” mindkét értelmének • A fogalmi tér W-szemantikus "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Szójelentés a vektortérben 2 • Saussure: a nyelv = szövet, a szójelentés kontextuális, a struktúrában elfoglalt helytől függ (az ún. strukturalista irány) • Jelentés = helyiérték • A jel kételemű, forma és szubsztancia egyvelege • Ágoston, a skolasztikusok, Hobbes, Locke, Port-Royal, Hjelmslev, Cassirer, Jakobson… • A fogalmi tér S-szemantikus is "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Szójelentés a vektortérben 3 • Carnap, cf. Lyons: a logikai szemantikában a fogalmak tartalma és terjedelme fordítottan arányos • Minél több intenzió, annál kevesebb extenzió • Vö. input mátrix, értékek gyakorisága • Vö. tezaurusz, BT :: NT • A fogalmi tér C-szemantikus is "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Szójelentés a vektortérben 4 • Bloomfield: inger-ingerület modell • A jelentés a következmény • A jelentés kételemű (az ún. antimentalista, behaviourista irány) • Vö. vektortér időbeli változásai • A fogalmi tér B-szemantikus is • Uexküll: az észlelet mint buborék "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Szójelentés a vektortérben 5 • Frege / Peirce: az ún. mentalista irány • A jel háromelemű (tárgy, hordozó, jelentés / fogalom) • Platón, Arisztotelész, a sztoikusok, Boethius, Bacon, Leibniz, Husserl, Ogden & Richards, Morris… • Valós vektortéren nem értelmezhető, mert hordozó és hordozott közt nincs minőségi különbség: mindkettő egynemű pont • A komplex fogalmi tér FP-szemantikus is "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Szójelentés a vektortérben 6 • Ha a vektortér egyszerre W-, S-, C-, B-, FP-szemantikus, akkor a jelentés összetett, a fenti elméletek egysíkúak • Mivel mindet geometrián figyeltük meg, közös tulajdonságuk a mező • A szemantikai mező (Trier 1934) 2-d, emez n-d • A jelentés mezőelmélete? "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Információkereső modellek • Boole • Valószínűségi • Vektortér-alapú • Fuzzy • Kognitív "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Dióhéjban a modellről 1 • A vektorteres IR modell a szemantikai differenciál elvén működik (hasonló : nem hasonló = közeli : nem közeli) • A kereső algoritmus a tárgyszóvektor és a dokumentumvektor távolságát minimalizálja • Az eredmények láttatására különböző metaforákat használnak • A metaforák mind visszavezethetők a mezőre "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Dióhéjban a modellről 2 • A szemantikának van egy arány-oldala: a kifejezések értelme egymáshoz viszonyítható, a skála láttatható, noha sok esetet sok szempontból hasonlítunk össze (Osgood et al. 1957, affektív jelentés) • A sokváltozós osztályozási algoritmusok ilyen skálákat hoznak létre "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
CARNIVORE . TIGER . . CAT TYRANNOSAURUS . PIG BIG SMALL . . . GOAT HYPPO . MOUSE ELEPHANT "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201 HERBIVORE
A „főzni” ige szemantikai mezeje (Lehrer 1974) "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Néhány vizualizálási metafora a felhasználói felülethez (GUI) • (Vonalkód, brokkoli, fa, stb.) • Csillagászat (galaxis) • Térkép • 3-d domborzati • 2-d rétegvonalas • Háttérsugárzás (= a tartalom mint hő) "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Közös tárgyszó- és dokumentumgalaxis a vektortérben (Sophia adatbázis, 1389 dokumentum x 1839 tárgyszó, k = 3 [353] faktor) "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Önszervező (Kohonen-) térkép • A dokumentumokat egy felületre vetíti • Metafora: • ”földrajzi” szomszédság = a szemantikai tartalom hasonlóságát takarja (The Websom Project, http://websom.hut.fi) "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
ThemeScapesTM • ”Topográfiák” – hegycsúcsok mint tartalmi indikátorok • Metafora: • A közelség tartalmi hasonlóságot jelez • A domborzat magassága kontextusban ábrázolja a fontosságot (SPIRE project, Pacific Northwest National Laboratory, USA ) "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Szójelentés rétegvonalas térképe (John Old, IUB) "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Szójelentés mint domborzat (John Old, IUB) "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Kölcsönös idézés mint domborzat (John Old, IUB) "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Vektortér mezőábrázolása, 1. változat (Magyar néphit corpus, 1837 tárgyszó x 2706 szöveg, k = 520 faktor, 1:10 vízszintes tömörítés) "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Ugyanaz különböző nagyításban "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Vektortér mezőábrázolása, 2. változat (Magyar néphit corpus, 1837 tárgyszó x 2706 szöveg, k = 520 faktor, 1:10 vízszintes tömörítés) "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Forma : tartalom = hordozó : hordozott • Ha kettéválasztjuk a hordozót és a hordozottat, akkor nem írhatja le őket egy sajátállapot • Hordozó és hordozott: kettős sajátállapot • Modularitás: többes sajátállapot • Van-e a jelentésnek olyan fizikai megfelelője, amilyen az információnak a kétállapotú jelenségek? • Van, ha csinálunk • Információátvitel helyett tartalomátvitel "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Értelmezési és alkalmazási lehetőségek • A geometria mint ismeretábrázolási séma • Valós vs. komplex vektortér Dokumentumkeresés Nyelvközi keresés • A nyelv mint fizika • Szimbólumok téreloszlása • A klasszikus mechanika képletei "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Valós vs. komplex vektortér • Dokumentumkeresés: komplex tárgyszó, komplex dokumentum • Ábrázolja mind a 2-, mind a 3-elemű jelet • Cél: zajszűrés • Cél: értelmezett háló (Semantic Web) • Nyelvközi keresés: iker-korpuszoktól a különbözőek felé • Dokumentum vs. motívum-keresés "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Komplex keresés • Miért nem elég a valós koordináta? • A tárgyszó második koordinátájára zajszűrés miatt van szükség • A dokumentum második koordinátája a tárgyszó komplex volta miatt kell • Most a keresés értékelése van soron (= mennyire zajos, vö. munkahipotézis) • (Még) nem komplex indexelés • Semantic Web • „Értelmező” robot "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
A nyelv mint fizika • Szimbólumok tér(idő-)eloszlása • Nyelv • Osztályozás • Közgazdaság • Eloszlások fizikai törvényei • Egyedi szimbólum = specifikus fizikai ismérv, vö. hely, súly (vö. Saussure, helyiérték) • Egy lépésben átvitel, bitsorozat helyett "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Gyors tartalomátvitel • Analóg számítástechnikához • Nem bit-alapú tartalomátvitel • Az ideografikus írás elve • Feleltessük meg a fogalmakat helyeknek az n-dimenziós térben • Kódoljuk ezeket a helyeket pl. színekkel • Modem és spektroszkóp • Wawe computing "Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201