80 likes | 214 Views
Pravdepodobnostný model tvarovej podobnosti pre flektívne jazyky. Ing. Peter Kosteln ík , KKUI TU Košice Ing. Karol Furdík , IFBL Slovakia, s.r.o., Košice. Cieľ výskumu:.
E N D
Pravdepodobnostný modeltvarovej podobnosti pre flektívne jazyky Ing. Peter Kostelník, KKUI TU Košice Ing. Karol Furdík, IFBL Slovakia, s.r.o., Košice
Cieľ výskumu: Navrhnúť a implementovať interaktívny učiaci sa systém, modelujúci procesy predpokladané pri percepcii prirodzeného jazyka. Východiskové hypotézy: • Subjektívne je jazyk prostriedkom reprezentácie sveta. Zároveň je jazyk súčasťou tohto sveta. • Svet, tak vonkajší (vstup systému) ako aj vnútorný (stav systému), je premenlivý. Jazyková reprezentácia sveta musí byť schopná odrážať tieto zmeny.
Predpoklady: • Žiadne, alebo iba minimálne vstupné informácie, pravidlá. • Vnútorné (subjektívne) jazykové štruktúry vznikajú, vyvíjajú sa a zanikajú iba v procese učenia sa, ako dôsledok meniaceho sa (vonkajšieho alebo vnútorného) sveta. • Možné použitie: • Modelovanie vzniku a vývoja gramatík (ako subjektívnych jazykových štruktúr), • Modelovanie pojmového myslenia, • porovnávanie textov podľa obsahovej blízkosti, • automatická identifikácia jazyka textu (schopnosť odlíšiť napr. slovenský text od českého)
Niektoré používané prístupy: • Štatistický prístup – metóda kľúčových slov • Vector-Space model • Distributional Semantic model • Latent Semantic model • Metóda slovníkov, tezaurov • Lingvistický prístup, explicitné pravidlá(napr. systém SAPFO E.Páleša)
Východiská navrhnutej heuristiky • hypotéza o existencii univerzálnych (s rezervou?) transformačných pravidiel z jedného tvaru slova na iný • predpokladá sa, že tieto transformačné pravidlá charakterizujú morfológiu jazyka (alebo, vo všeobecnosti, jazyk ako taký) z pravdepodobnostného hľadiska • Transformačné pravidlá sútvorené: • Operátormi prepisu • Pravdepodobnostným ohodnotením • Operátory prepisu • Doplnenie zľava(napr. podvod – podvod+ník) • Operátor zmeny(napr. alch+imista– alch+ímia) • Doplnenie sprava(napr. šťastie –ne+šťastie)
Priestor typických reťazcov • Je tvorený postupnosťami (reťazcami) operátorov prepisu s najvyššou hodnotou pravdepodobnosti • Vzniká a vyvíja sa v procese učenia sa • Simuluje krátkodobú pamäť • Obsahuje explicitné vyjadrenia vnútorných subjektívnych jazykových štruktúr vo forme transformačných pravidiel • Dovoľuje implementovať samoorganizačné mechanizmy • Experimenty: Testovacia kolekcia • Encyklopédia zvierat dostupná na http://www.zone.sk/animals/. • 66 dokumentov menšieho rozsahu (1-3 bežné strany) • Dokumenty tematicky štruktúrované do blokov • Použitý bol odborný štýl
Experimenty: Model tvarovej podobnosti • Učiaca vzorka: 17 dokumentov, 4 tematické oblasti (drsnokožce, obojživelníky, kruhoústnice a plazy). • Úloha: priradenie všetkých nájdených tvarov k hľadaným slovám: • Pozn. Tvary voda a plaziť sa nenachádzali v texte žiadneho zo spracovaných dokumentov.
tvar/slovo tvar/slovo raja žaba had *voda život ústa *plaziť 1. 1. žabám raje hady vodu živé ústami plazy 2. 2. žaby rají veľhadovité voda živia ústi plazom 3. 3 rajami žaba hadov vode živočíchov kruhoústnice plazov 4. 4. naberajú - odhaduje vodné živý ústa - 5. 5. veľraje - veľhady vody živočíchmi - - 6. 6. - vyzerajú had vodách život - - 7. 7. - - hadom - obojživelníkov - - 8. 8. - - - - živorodé - - 9. 9. - - - - živiace - -