290 likes | 436 Views
Luščenje terminologije iz korpusov: od osnov do umazanih podrobnosti. Pregled predavanja. Namen luščenja terminologije Statistične metode Metoda z vzorci Dvojezično luščenje Primeri Razprava. Sistemi za zaščito, reševanje in pomoč (služba za nujno pomoč)
E N D
Luščenje terminologije iz korpusov: od osnov do umazanih podrobnosti
Pregled predavanja • Namen luščenja terminologije • Statistične metode • Metoda z vzorci • Dvojezično luščenje • Primeri • Razprava
Sistemi za zaščito, reševanje in pomoč (služba za nujno pomoč) Ta terminator naj bi predstavljal sisteme, ki so zasnovani za nujne službe in jih le te tudi uporabljajo kot del svojih postopkov. V tem kontekstu izraz "nujne službe," vsebuje organizacije kot so gasilci, policija, reševalci ter pomoč na cesti. Sistem nujne pomoči naj bi bil sposoben koordinirati aktivnosti posameznih služb. Razporejal in nadzoroval naj bi aktivnosti in delovanje vozil ter osebja posameznih služb, kadar le te intervenirajo, to je nudijo pomoč v primeru nesreč. Sistem nujne pomoči naj bi prejemal informacije od sistema o nesrečah, ki jih je le ta zaznal. V zameno pa naj bi sistem nujne pomoči pošiljal poročila o napredku glede ukrepanja v primeru nesreč zaradi prilagajanja prometnih in potovalnih strategij. Sistem naj bi prav tako priskrbel podrobnosti o nujnih situacijah, ki so mu bile direktno sporočene in, ki vplivajo na cestni promet, kot na primer klic na pomoč preko naprave v vozilu. Zunanji ponudnik storitev Ta terminator naj bi predstavljal dva tipa aktivnih udeležencev, ki sodelujeta s sistemom. Odgovorna naj bi bila za zagotavljanje dveh različnih tipov informacij. Prvi tip aktivnega udeleženca naj bi obsegal oskrbovalce z informacijami ki jih uporablja sistem. Vseboval naj bi informacije pridobljene na zahtevo sistema.
Sistemi za zaščito, reševanje in pomoč (služba za nujno pomoč) Ta terminator naj bi predstavljal sisteme, ki so zasnovani za nujne službe in jih le te tudi uporabljajo kot del svojih postopkov. V tem kontekstu izraz "nujne službe," vsebuje organizacije kot so gasilci, policija, reševalci ter pomoč na cesti. Sistem nujne pomoči naj bi bil sposoben koordinirati aktivnosti posameznih služb. Razporejal in nadzoroval naj bi aktivnosti in delovanje vozil ter osebja posameznih služb, kadar le te intervenirajo, to je nudijo pomoč v primeru nesreč. Sistem nujne pomoči naj bi prejemal informacije od sistema o nesrečah, ki jih je le ta zaznal. V zameno pa naj bi sistem nujne pomoči pošiljal poročila o napredku glede ukrepanja v primeru nesreč zaradi prilagajanja prometnih in potovalnih strategij. Sistem naj bi prav tako priskrbel podrobnosti o nujnih situacijah, ki so mu bile direktno sporočene in, ki vplivajo na cestni promet, kot na primer klic na pomoč preko naprave v vozilu. Zunanji ponudnik storitev Ta terminator naj bi predstavljal dva tipa aktivnih udeležencev, ki sodelujeta s sistemom. Odgovorna naj bi bila za zagotavljanje dveh različnih tipov informacij. Prvi tip aktivnega udeleženca naj bi obsegal oskrbovalce z informacijami ki jih uporablja sistem. Vseboval naj bi informacije pridobljene na zahtevo sistema.
Zakaj samodejno luščenje terminologije • v svetu elektronskih besedil so termini “fižol v informacijskem pasulju” • iskanje podatkov • terminološke aplikacije v službi medjezikovnega posredovanja • podpora slovarskemu delu • osnova za semantično bogate aplikacije • odgovarjanje na vprašanja (QA) • strojno prevajanje in tolmačenje (MT) • rudarjenje znanja (DM, KE) • semantični splet (SW)
“Nepravo” luščenje terminov • iskanje podatkov (IR) – indeksiranje dokumentov • namen: poiskati besede, ki naredijo dokument najbolj prepoznaven v množici in po katerih se najbolj razlikuje od vseh dokumentov v množici • tf-idf (Term Frequency – Inverse Document Frequncy, Salton & Yang 1973)
“Pravo” luščenje terminov • iskanje vseh enot, ki se v specializiranem besedilu nanašajo na točno določeni pojem, oziroma se njihova raba razlikuje od rabe v nespecializiranih besedilih • obravnava eno- in večbesednih enot • samodejnost (sistem poišče terminološke kandidate brez vnaprej podanih terminoloških slovarjev)
Statistične metode • “ključnost” (keyness)(Ahmad 1992, Scott 1998) – primerjava relativne pogostosti med specialnim in referenčnim korpusomPrimer: SK RK f(gnojenje) 11 27N 10.000 100.000rf = 4,07 • “terminološkost” (termhood)(Ananiadou 1994, Heid 1999) – termini vsebujejo material, ki ga splošne besede ne (prevzeti termini iz klasičnih jezikov, izlastnoimenski termini, akronimi, izbrana ločila)Primer: ab-, auf-, ent-, anti-, bi-, mega-, mikro-, multi-, radial-, semi-, ad-, ex-, in-, ko-, pro-; -grad, -heit, -nis, -schaft, -tum, -ial, -gramm, -graph, -id, -ik, -tion, -taet, -um, -ator,...
Večbesedni termini: statistika asociacij • 2 (Manning & Schütze 1999)
Statistika asociacij II • medsebojna informacija (MI) (Church & Hanks 1990) • logaritem razmerij verjetja (LLR) (Dunning 1993)
Luščenje na podlagi oblikoskladenjskih vzorcev • večbesedni termini sledijo ustaljenim oblikoskladenjskim vzorcem (P+S, S+Sg, P+P+S,...) • razvrščanje terminoloških kandidatov glede na ključnost (rf) njihovih sestavnih delovPrimer: center za krizno upravljanje = (0.149 + 0.06 + 0.66 + 0.15) / 4 • slabost: poudarek na samostalniških frazah • Bourigault (1992), Justeson&Katz (1995), Daille, Gaussier & Lange (1994), ...
Luščenje dvojezičnega slovarja iz vzporednega korpusa • fosilni program Twente (Hiemstra 1998) • temelji na algoritmu Iterative Proportional Fitting Procedure (IPFP), prevodni model ena-na-ena • za vsako besedo predlaga eno ali več prevodnih ustreznic skupaj s statistično verjetnostjo • izboljšave: lematizacija, odstranjevanje praznih besed
Iskanje prevoda – “ustreznice v žaklju” • za vsako besedo v večbesednem terminu se poišče vse možne prevodne ustreznice iz leksikonajedrska elektrarna Černobil power 0.50 plant 0.50 Chernobyl 1.00 nuclear 1.00
Iskanje prevoda – “ustreznice v žaklju” • za vsako besedo v večbesednem terminu se poišče vse možne prevodne ustreznice iz leksikona jedrska elektrarna Černobil power 0.50 plant 0.50 Chernobyl 1.00 nuclear 1.00 Nuclear power plant 2.00 Power plant 1.00 Chernobyl nuclear power plant 3.00
Težave • v slovenščini isti termini večkrat izluščeni v različnih sklonih • neuspešno razlikovanje med “splošnimi” in “specifičnimi” termini (enaka oblika, enaka pogostost!) • slabši priklic za slovenščino • interdisciplinarnost besedil
Dvojezično luščenje pri projektu Voicetran • namen: • izboljšava prevajalnika in razpoznavalnika govora • podpora terminografskemu delu na FDV • korpusi: • mali vzporedni vojaški korpus (ca. 120.000 besed) • malo večji enojezični korpus (NO, SV, RZ; 5,5 M besed) • oblikoskladenjsko označevanje in lematizacija: Erjavec IJS • luščenje z oblikoskladenjskimi vzorci: A N 2N Ng 1... • terminološkost: rf (primerjava s Fido)
Dvojezični leksikon air ### zračen 0.56 letalski 0.29 zrak 0.07 (null) 0.03 protioklepen 0.02 zagotavljanje 0.01 air-base ### polkoven 0.38 letalski 0.25 dodaten 0.23 vtp 0.14 air-conditioning ### klimatski 0.87 naprava 0.13 air-defence ### rkb-obramba 0.55 namenski 0.45 air-raid ### zatuliti 0.50 oznanjati 0.50 air-space ### zračen 0.68 prostor 0.32 airbase ### letališče 0.82 zagotovljen 0.18 airborne ### letalski 0.83 enota 0.17 airbus ### prevoznik 0.21 airbus 0.21 popolnoma 0.21 letalo 0.20 zgoreti 0.18 aircraft ### letalo 0.91 letalstvo 0.05 teritorialec 0.05 airfield ### gradnja 0.50 letališki 0.50 airlift ### zračnotransp 0.50 cougar 0.50 airline ### prevoznik 0.21 airbus 0.21 popolnoma 0.21 letalo 0.20 zgoreti 0.18 airplane ### kobilarna 0.13 lipica 0.13 najem 0.13 počastitev 0.13 letalo 0.13 prerazporedit 0.13 obnova 0.11 kritje 0.11airport ### letališče 1.00 airspace ### zračen 1.00
Iskanje prevodnih ustreznic • “ustreznice v žaklju” • možno dvojezično luščenje iz nevzporednih (primerljivih) korpusov dvojezični leksikon kandidati L1 kandidati L2 dvojezični kandidati