320 likes | 415 Views
Ověřování lingvistické teorie nad počítačovým korpusem. Eva Hajičová ÚFAL MFF UK v Praze hajicova @ ufal.mff.cuni.cz. Motivace. budování textových korpusů (včetně korpusů mluveného jazyka) a jejich anotace na různých rovinách popisu = jedno z aktuálních témat současné lingvistiky
E N D
Ověřování lingvistické teorie nad počítačovým korpusem Eva Hajičová ÚFAL MFF UK v Praze hajicova@ufal.mff.cuni.cz
Motivace budování textových korpusů (včetně korpusů mluveného jazyka) a jejich anotace na různých rovinách popisu = jedno z aktuálních témat současné lingvistiky • Český národní korpus = soubor textů • Pražský závislostní korpus (PDT) = morfologicky a syntakticky anotovaného doklad, že Pražská lingvistická škola neztrácí krok se světovým vývojem Cíl přednášky: doložit na několika jazykových jevech, jak lze syntakticky anotovaného korpusu využít pro ověření lingvistické teorie, v našem případě Funkčního generativního popisu jazyka navrženého v Praze Petrem Sgallem na začátku šedesátých let jako originální alternativy k Chomského transformační gramatice a rozvíjeného od té doby na pražském univerzitním pracovišti
Funkční generativní popis jazyka (1) Funkční generativní popis jazyka: formulován zač. šedesátých let minulého století (Sgall 1964; 1967a) • se zřetelem k požadavkům kladeným na moderní teoretický popis jazyka jako explicitní, formální popis • generativní (gramatika jako ‚zařízení‘ generující věty jazyka), ale nikoli transformační hlavní rysy: buduje na zásadách Pražské školy a rozvíjí je: • důsledně zahrnuje vztah funkce a formy, • důraz na popis jazykového významu • důraz na komunikativní funkci jazyka • popis struktury věty vychází – na rozdíl od tehdy převládajícího popisu větné syntaxe na základě bezprostředních složek – z pohledu závislostního, bližšího evropskému strukturalismu i pražskému chápání (Lucien Tesniėre, pokládaný za hlavního představitele závislostního pohledu, byl členem Pražského kroužku). • první formální popis jazyka zahrnující ucelený a konsistentní popis aktuálního členění věty (Sgall 1967b)
Funkční generativní popis jazyka (2) Hlavní pozornost: • závislostní syntax (Panevová, Sgall aj.) • aktuální členění věty (Sgall, Hajičová ad.) uplatnění počítačového zpracování přirozeného jazyka, a především využití počítačů při budování velkých textových korpusů (včetně korpusů mluveného jazyka) a jejich anotace na různých rovinách popisu jazyka: nabízí dosud nevídanou možnost testování lingvistické teorie na širokém jazykovém materiálu • předmětem přednášky je ukázat na několika hypotézách Funkčního generativního popisu, jak lze této možnosti využít
Budování textových korpusů a jejich anotace anotování textového korpusu = přiřazování hodnot gramatických či jiných (např. lexikálně sémantických) kategorií jednotlivým prvkům věty (na úrovni řetězu slov nebo podkladových syntaktických struktur, tedy především stromů - treebanks) anotování textových korpusů není samoúčelnou činností: • dosud nevídaný zdroj informací o daném jazyce k využití pro budování nových gramatik i slovníků i pro projekty automatického porozumění • pro lingvisty je především nedocenitelným testem pro lingvistickou teorii jakékoliv provenience • v posledních letech se zřetelně ukazuje, že anotace korpusu zachycující podkladovou strukturu věty má význam pro studium jevů, které jsou na povrchu skryty, ale jsou neopominutelné pro poznání významové stavby věty a jejích komunikativních funkcí podmínkou takového zhodnocení: pro anotování je vytvořen dobře promyšlený konsistentní scénář založený na propracované lingvistické teorii
Některé historicky důležité anotované korpusy • Brown Corpus (1967): počítačový korpus americké angličtiny opatřený značkami pro základní morfologické, ale i morfologicko-syntaktické kategorie ( jedním z autorů: český lingvista Henry Kučera, koncem 40. let minulého století emigroval do USA); • následuje řada dalších, převážně morfologicky značkovaných korpusů angličtiny (např. Lancaster-Bergen-Oslo Corpus, 1970; Lancaster POS tagging by rule 1982, Lancaster Treebank pod vedením lingvistů Geoffa Leeche a Geoffa Sampsona aj. • průlomový charakter: americký Penn Treebank (Marcus ad. 1993), počítačový soubor stromových struktur (jako výsledku syntaktického rozboru na základě bezprostředních složek, tedy frází) • „banka stromů” jako soubor syntaktických struktur pro věty daného jazyka inspirovala pražské počítačové lingvisty k vytvoření koncepce Pražského závislostního korpusu (PZK, Prague Dependency Treebank, srov. Hajič, Hajičová, Panevová, Sgall 1998, a Hajič ad. 2001) • založený na teorii Funkčního generativního popisu • zpřístupněn lingvistům i širší veřejnosti na webových stránkách • s Pražským závislostním korpusem už pracuje řada bohemistů nejen českých, ale i zahraničních a koncepce PZK je základem anotovaných korpusů dalších jazyků jako je slovenština, slovinština, polština, ale i arabština a latina
Pražský závislostní korpus (PZK) • verze PZK (PDT 2.0, http://ufal.mff.cuni.cz/pdt2.0, 2nd edition 2006) anotovaná • 3168 dokumentů (náhodně vybraných z Českého národního korpusu) obsahujících 49442 vět s celkovým počtem 833357 výskytů slovních tvarů (včetně interpunkčních znamének)
Tři úrovně anotace PZK • 1. morfématická (každému slovnímu tvaru věty je přiřazena právě jedna ze značek označujících morfematické kategorie), • 2. tzv. analytická, pomocná, zachycující povrchovou podobu věty ve formě závislostního stromu, • 3. tektogramatická, podkladová, zachycující syntaktickou závislostní strukturu věty (hloubkovou)
Značkování na tektogramatické rovině Struktura věty zachycena jako závislostní strom • uzly = autosémantická (plnovýznamová) slova (s výjimkou zvláštních uzlů pro koordinaci a apozici) • hrany odpovídají závislostním vztahům mezi uzly a jsou ohodnoceny jednotlivými typy těchto vztahů, ať již jde o tzv. aktanty nebo doplnění volná (srov. Panevová) • aktuální členění: věty lišící se pouze aktuálním členěním mají také různý význam, srov. už Sgall (1967) • povrchová elipsa: vypuštěné jednotky věty v tektogramatickém stromě jsou doplněny • tektogramatická rovina jako zachycení jazykového významu věty: víceznačným větám přiřazen odpovídající počet tektogramatických (hloubkových) struktur a větám synonymním struktura jediná
Ověřování lingvistických hypotéz s využitím PZK • 1. Určení základu a jádra podle hodnoty kontextové zapojenosti • 2. Kontrastivní základ • 3. Systémové uspořádání v ohnisku věty • 4. Závislostní strukturavěty a podmínka projektivity
1. Určení základu a ohniska věty podle hodnoty kontextové zapojenosti Hypotéza: základ a ohnisko věty lze určit na základě primární opozice kontextové zapojenosti: každému uzlu tektogramatického (podkladového) závislostního stromu je přiřazena hodnota kontextově zapojený nebo nezapojený na základě této hodnoty je pak určen základ (T, topic, tj. o čem věta vypovídá) a ohnisko (F, focus, tj. co se vypovídá o základu věty) jako dvě části věty (Sgall 1979; srov. též Sgall ad. 1986, s. 216n) procedura, která umožňuje přejít od hodnot kontextové zapojenosti k dichotomii základu a ohniska, byla poprvé formulována ve stati Hajičová a Sgall (1985)
TFA na tektogramatické rovině • Anotační scénář tektogramatické roviny PZK pracuje s atributem TFA (topic-focus articulation), který může nabýt jednu ze tří hodnot (Hajičová 2002): • t pro kontextově zapojené uzly nekontrastivní, • c pro kontextově zapojené uzly kontrastivní , • f pro kontextově nezapojené uzly
Příklad tektogramatického stromu Britský premiér John Major řekl, že je tímto vývojem velmi povzbuzen.2
Ověřování hypotézy na anotovaném korpusu Ověřování hypotézy o možnosti vyvodit členění věty na základ a ohnisko: • (a) počítačová implementace algoritmu přechodu od vyznačení kontextové zapojenosti k dichotomii základu a ohniska a její uplatnění na celém souboru • (b) porovnání alespoň na menším souboru dat, jak se takto automaticky uplatněná procedura kryje s intuicí mluvčích Výsledky: potvrzení neformálního předpokladu (původně formulovaného v brněnské Firbasově koncepci AČV, ale s jistými výhradami přijímaného i ve Sgallově koncepci pražské), že totiž pro hranici mezi základem a ohniskem je v primárnim případě určující (slovosledná) pozice slovesa. (Hajičová, Havelka a Veselá 2005) zajímavý postřeh M. Červenky (1982, s. 27-28): ve vyprávění funguje téma jen jako „připojení“ (linking), zatímco réma je vysoce informativní , dodává informaci o „new act“, a proto sloveso obecně patří k rématu =>domnívá se, že toto je jedním ze zdrojů obecné charakterizace vyprávění jako ‘dynamické modality’ (v kontrastu ke statickému popisu)
Tři základní typy ohniska ve zkoumaném materiálu bylo možné rozlišit tři základní typy ohniska • ohnisko skládající se z predikátu a z podstromů na něm závislých • ohnisko obsahující kontextově nezapojené členy přímo závislé na kontextově zapojeném slovese a podstromy na těchto členech závislé • ohnisko, jehož součástí je uzel označený jako kontrastivní kontextově zapojený člen
Druhá fáze testování hypotézy • je třeba porovnat výsledek automatického určení základu a ohniska s tím, jak v týchž větách toto určení provede informovaný mluvčí češtiny: • podsoubor „surových“ textů, tedy textů zpracovávaných v PZK, ovšem s odstraněním anotace: • cca 10000 vět v souvislých textech • každá věta anotována třemi anotátory nezávisle na sobě tak, aby bylo možné s jistou mírou spolehlivosti vyhodnotit objektivitu ručních anotací (sledování náhodnosti anotace, osobní úzus v anotaci u jednotlivých mluvčích a také některé obecně problematické body aktuálního členění) • anotátoři: studenti se základním povědomím o informační struktuře věty, ale neovlivnění danou teorií aktuálního členění • úkol anotátorů: na základě širšího kontextu rozhodnout, která část dané věty vyjadřuje „o čem se mluví“ (tj. je základem) a která část vyjadřuje, „co se o tom říká“ (tj. jádro neboli ohnisko) • omezení: analýza omezena na stavbu vět hlavních, věty vedlejší (závislé klauze) se posuzovaly jako jejich ucelené členy • hlavním vodítkem: otázkový test (Sgall – Hajičová – Buráňová 1980)
Předběžné výsledky rozboru • První výsledky (Zikánová 2006): je možné vysledovat tři typy konstrukcí, kde docházelo k neshodě: • (a) v interpretaci postavení přísudkového slovesa • (b) v případě jmenných skupin zdůrazněných rematizátorem, které se nacházejí jinde než na konci věty • (c) příslovečné určení stálo před přísudkovým slovesem
(a) Interpretace postavení přísudkového slovesa hraniční přechodový charakter přísudkového slovesa - nápadně v konstrukcích s podmětem na konci: při normální intonaci je zřejmé, že podmět je součástí ohniska, není však jednoznačné, do které z obou částí patří sloveso (Nářky na lidi známe ze svého nejbližšího okolí. Jejich frekvence spíš vzrůstá, než aby se tenčila. Proč? Lidé prožívají nebývale nervózní dobu.) Nejvíc kritizují a rozčilují se neschopní. je ohniskem celá věta (jako odpověď na otázku Co se děje?) nebo do ohniska patří koordinovaná slovesa a podmět (jako odpověď na otázku S čím se setkáváme nejvíc / nejčastěji?), popř. jenom podmět (jako odpověď na otázku Kdo nejvíc kritizuje a rozčiluje se?) ? (Po rozhovorech s majiteli našich soukromých firem a nakonec i představiteli firem zahraničních mám dojem, že v této republice nejsou schopní lidé. – Opět s vámi nesouhlasím.) Ve velké většině jde nikoliv o neschopné, ale o nemotivované zaměstnance.
(b) Jmenná skupina s rematizátorem pokud tato jmenná skupina nestojí na konci věty: • na jedné straně rematizátor skupinu zdůrazňuje, a ta je chápána jako ohnisko (při vyslovení věty je řídící člen této skupiny nositelem intonačního centra věty) - Mathesiovo subjektivní pořadí. • na druhé straně je možné skupinu s rematizátorem začlenit do testovací otázky a odpovědět jiným výrazem ve větě, který je (při vyslovení věty) ještě důraznější, dynamičtější: (Oskar… zadal … firmě Ilja Běhal a spol., zajišťující umělecko-kovářské a restaurátorské práce hlavně na střední Moravě.) Zejména v Olomouci firma svými výrobky přispívá ke zvýraznění koloritu historického jádra města. • ve druhé větě může být za (vlastní) ohnisko považováno spojenízejména v Olomouci nebo je možné toto spojení chápat jako kontrastivní základ a jako ohnisko určit přispívá ke zvýraznění koloritu historického jádra města.
c. Volné doplnění slovesa volné doplnění slovesa (příslovečná určení) před slovesem: (Po ekonomech, kteří nyní už opouštějí školu se znalostí pravidel hry v tržním prostředí, je hlad. Co hodláte udělat, aby jich bylo dost?) Při využití všech výukových prostor od rána až do večera jsme schopni ročně přijmout ke studiu okolo 2500 studentů. Možné dvojí chápání: • kontextově zapojená: vedle takového volného doplnění je ve větě ještě jiná, důležitější část, která zatlačuje význam příslovečného určení do pozadí, základu: Jak to bude vypadat, pokud plně využijete dnešních kapacit? • kontextově nezapojená informace (např. jako odpověď na otázku Jak vypadá vaše situace nyní?) => proto někteří anotátoři chápali taková doplnění jako součást ohniska.
Závěr (1) • Na základě dosavadního rozboru paralelních anotací lze konstatovat, že variabilita interpretace z hlediska aktuálního členění se týká jistých vymezených a dobře charakterizovatelných případů a že tedy je možné přistoupit k třetímu kroku našeho výzkumu v této oblasti, totiž k vlastnímu srovnání výsledků automatického a „lidského“ (manuálního, intuitivního) členění věty na základ a ohnisko.
2. Kontrastivní základ (1) původní koncepce aktuálního členění v rámci FGP: • primární opozice kontextové zapojenosti pro binární členění věty na základ a ohnisko podrobnější empirická analýza především složitějších souvětí se zapuštěnými klauzami: uvnitř základu výpovědi se počítá s vyčleněním tzv. kontrastivního základu , tj. prvku nebo prvků, které jsou kontextově zapojené a stojí v kontrastu, ať již k prvkům dříve zmíněným nebo daným situačním kontextem (Hajičová, Partee a Sgall (1998, v souvislosti s výskytem tzv. rematizátorů (focusing particles, focalizers) v základu věty (Who criticized even Mother TERESA as a tool of the capitalists?) JOHN criticizedb evenb Motherc Theresac as a toolb of the capitalistsb.
Kontrastivní základ (2) • pojem kontrastivního základu není vázán jen na výskyt rematizátorů v základu: (Kde se mluví česky?) Českyb se mluvíb v Česku. (Mluví se česky v Česku nebo na Slovensku?) Českyc se mluvíb v Česku, na Slovenskuc se mluvíb slovensky. zavedení nějaké opozice v popisu jazyka: pevná operativní kritéria pozorování Koktové (1999): v jistým pozicích základu věty nelze použít krátké tvary zájmen => jako kritéria pro vymezení kontrastivního základu je možné užít opozice mezi slabým a silným zájmenem: (Kdo kritizoval i Mirka Dušína jako nástroj kapitalismu?) HONZA kritizoval i jeho. I jeho kritizoval HONZA.
Kontrastivní základ (3) další kritérium: různost intonační (prozodické) kontury (Veselá, Peterek, Hajičová) na základě korpusu mluvené češtiny: záznam tří pořadů České televize Na plovárně moderátor Marek Eben hovoří s Vladimírem Komárkem, Magdalenou Koženou a Petrem Jirmusem důležitá skutečnost: jde o nepřipravené mluvené projevy tázaných účastníků, do nichž moderátor zasahuje jen velmi sporadicky, takže jejich projevy mají charakter souvislého vyprávění
Kontrastivní základ (4) Dva způsoby zpracování: • (a) anotace TFA • (b) foneticky: kontury F0 výsledky rozboru: pro základ věty je typická v podstatě neměnná kontura, zatímco pro ohnisko kontura klesavá a pro kontrastivní základ kontura stoupavá
3.Systémové uspořádání v ohnisku věty (1) • Hypotéza: vohnisku věty odpovídá hloubkový slovosled členů přímo závislých na slovese kanonickému uspořádání typů závislostních vztahů (nazvanému systémové uspořádání) • v prototypickém případě odpovídá tomuto hloubkovému slovosledu v češtině i slovosled povrchový (srov. Sgall, Hajičová a Buráňová, 1980)
3.Systémové uspořádání v ohnisku věty (2) v anotovaném souboru PZK na tektogramatické rovině jsou k dispozici všechny potřebné údaje: • typ závislostního vztahu (funktor, který je přiřazen každému uzlu stromu) • určení ohniska na základě automatického členění věty v tektogramatickém stromu PZK u kontextově nezapojených členů zachováno jejich pořadí z povrchového slovosledu • je možné pro každou větu PZK určit předpokládané pořadí funktorů v této větě se vyskytujících a toto pořadí pak (automaticky) srovnat s povrchovým pořadím slov předběžné výsledky takového srovnání přináší Zikánová - Lešnerová; těchto výsledků je možné mj. využít pro zpřesnění hypotézy, respektive podmínek jejího uplatnění
4. Závislostní struktura věty a podmínka projektivity (1) Hypotéza: • hloubkový slovosled - projektivní • neprojektivní struktury lze chápat jako odchylky od projektivity (tedy chápat je jako řadu příznakových případů a výjimek Závislostní strom, větvící se směrem od složek řídících ke složkám závislým, je projektivní tehdy, jestliže se neprotínají dvě větve ani žádná svislá čára vedená z kteréhokoliv uzlu stromu s žádnou z větví stromu příklady českých vět s porušením podmínky projektivity v povrchovém slovosledu: Sportovec on je dobrý Karla plánujeme poslat na rok do Anglie • vztah mezi hloubkovým slovosledem (stupnicí výpovědní dynamičnosti u J. Firbase) a morfématickou strukturou věty (řetězem slov, ve kterém se podmínka projektivity ovšem jakožto v řetězu uplatňovat nemůže) lze specifikovat jako přechod od projektivního stromu k řetězu (např. různými typy přemísťovacích pravidel)
4. Závislostní struktura věty a podmínka projektivity (1) D. Zeman (doktorská dizertace 2004): 73.088 vět rozebraných a anotovaných na analytické úrovni (ATS) • podmínka projektivity porušena u 23.691 dvojic slov (1,9 %); počet vět, v nichž je alespoň jednou tato podmínka porušena, je 16.920 (23,2 % všech vět) tři skupiny (Hajičová ad. 2004 a Hajičová 2006): (a) struktury, které lze na tektogramatické rovině vymezit na základě specifických gramatických vlastností (např. předsunutí vztažného nebo tázacího zájmena, věty s odkazovacími částicemi, přemístěné členy závisející na infinitivu, porovnávací konstrukce) nebo patří k omezeným lexikálním skupinám jako jsou frazémy (37%), (b) rozdělená syntagmata (6%) (c) struktury s pomocnými slovy, především složené predikáty (57%); projevuje se jen v technickém zachycení pomocných struktur na tzv. analytické úrovni většina našeho souboru (94%) - nezdá se být obtížné formulovat pravidla pro přechod od projektivního tektogramatického stromu k povrchovému slovosledu
4. Závislostní struktura věty a podmínka projektivity (2) Důležitá je skupina (b) – rozdělená syntagmata: • většina těchto případů je podmíněna kontrastivním postavením části základu v aktuálním členění věty: český slovosled vykazuje tendenci umístit do počáteční pozice ve větě člen, který je v kontrastu k některému prvku věty předcházející nebo k některému prvku danému situačně • Shrnutí: srovnání povrchového slovosledu zachyceného v ATS s anotováním aktuálního členění v TGTS poskytlo cenný materiál pro ověření hypotézy o projektivním charakteru zápisů významové struktury věty, pro formulaci přemísťovacích pravidel i pro studium nečetných případů, pro něž zatím vysvětlení hledáme
Shrnutí a závěr • Ve svém příspěvku jsme se pokusili na řadě jazykových jevů především z oblasti syntaktické struktury a aktuálního členění věty doložit, že systematické a konsistentní anotování korpusu na syntaktické (podkladové) úrovni je nenahraditelným prostředkem pro testování lingvistické teorie • Naše dosavadní zkušenost potvrzuje, že Pražský závislostní korpus poskytuje dosud nevídané možnosti pro takové testování, zároveň i nedocenitelný materiál pro budování gramatiky na tomto základě i pro řadu dalších uplatnění. • Poznámka. Jak ukazují bibliografické odkazy, využíváme tu materiálu a analýz řady doktorandů a kolegů z Ústavu formální a aplikované lingvistiky na MFF UK. Práce na důkladném anotování korpusu, ať již vytváření přátelského počítačového prostředí nebo vlastní práce intelektuální (manuální), nebo analýza získaného materiálu je navýsost práce týmová a mohu jen vyjádřit vděčnost a uznání všem, kteří se na těchto úkolech podíleli a podílejí a své výsledky mi dali k dispozici.