1.51k likes | 1.65k Views
Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe. Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan? Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa. Aloitusluento 7.3.2002 klo 12-15. Hallinnolliset kuviot kurssin tavoitteet
E N D
Korpukset ja kieliCtl310corpKevät 2003Antti Arppe Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan? Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa
Aloitusluento 7.3.2002 klo 12-15 • Hallinnolliset kuviot • kurssin tavoitteet • kurssin rakenne ja suoritus • kurssin ohjelma ja aikataulu • Mitä ovat korpukset • Mitä on korpuslingvistiika
Kurssin motivaatio ja tavoitteet • Kurssin tavoitteena on kokemusperäisesti tarkastella, miten korpuksia voidaan käyttää kielen tutkimuksessa. • Minkälaisia tutkimuskysymyksiä kannattaa esittää korpuksille • miten korpuksia kannattaa tutkia, ja • mitä tulosten pohjalta voidaan sanoa kielestä.
Kurssin rakenne ja suoritus • Kuusi luentoa • Tentti (1 ov) • Harjoitustyö (1 ov)
Suoritus I: luennot • pe 7.3., 14.3., 21.3., 28.3., 4.4. ja 11.4. • kello 12-15 • Siltavuorenpenger 20, sh 359/UNIX-luokka • “teoria”- ja vierailuluentoja • luentomateriaalit löytyvät verkosta kurssin verkkosivuilta • http://www.ling.helsinki.fi/kit/2003k/ctl310corp
Suoritus II: tentti • Laajuus 1 opintoviikko • pe 25.4. klo 12-14 luentosalissa sh359 ja tiedekuntatenttipäivänä ke 14.5. • Kurssikirja: Biber, Douglas; Conrad, Susan; Reppen, Randi (1998). Corpus linguistics: Investigating Language Structure and Use
Suoritus III: harjoitustyö • laajuus 1 opintoviikko • pienimuotoinen korpustutkimus kiinnittäen huomiota aineiston ja menetelmien vaihtoehtoihin ja valintojen perusteluihin tai • olemassaolevan (julkaistun) korpuspohjaisen tutkimuksen kriittinen analyysi ja arvio kuten yllä • palautus pe 5.5.2003 • tarkempi ohjeistus kolmannella luentokerralla (pe 21.3.)
Luentojenrakenne ja aikataulu I Pe 7.3. • Johdanto ja kurssin suoritus • Mikä on korpus, minkälaisia korpuksia on? • Minkälaista on korpuslähtöinen kielentutkimus –käytäntö ja teoria ? Pe 14.3. (poikkeuksellisesti 9-11.30) • Korpuksen valitseminen ja koostaminen • korpuksen suhde hypoteesiin – mikä on edustava korpus? Pe 21.3. • Korpuksen esiprosessointi • annotoinnin filtteröinti • lingvistiset analyysityökalut – hyödyt ja haitat
Luennot II • Pe 28.3.(12-14) Puhekieliset korpukset (FT Martti Vainio) – Mitä uutta puheeseen perustuvat korpukset tuovat korpuslingvistiikkaan? • Pe 4.4. Korpusten tilastollinen käsittely tilastolliset menetelmät ja kieli • Pe 11.4. Korpusten tulkinta - "korpukset ja kieli” entäs sitten?
Kuinka moni teistä on tehnyt korpuspohjaista kielentutkimusta tai tutustunut siihen? Hypoteesi – aineisto – menetelmä – tulkinta?
Mikä on korpus? • yksittäinen tekstifragmentti • yksittäinen sanomalehtiartikkeli? • kaunokirjallinen kirja? • yksi sanomalehti kokonaisuudessaan? • Assyrian valtionartiston savitaulut kokonaisuudessaan? • yksittäisen tv-ohjelman transkriptio? • muita...?
Mikä on korpus? • corpus, plural corpora A collection of linguistic data, either compiled as written texts or as a transcription of recorded speech. The main purpose of a corpus is to verify a hypothesis about language - for example, to determine how the usage of a particular sound, word, or syntactic construction varies. Corpus linguistics deals with the principles and practice of using corpora in language study. A computer corpus is a large body of machine-readable texts.(cf. Crystal, David. 1992. An Encyclopedic Dictionary of Language and Languages. Oxford, 85)
Korpus... • CORPUS (13c: from Latin corpus body. The plural is usually corpora) (1) A collection of texts, especially if complete and self-contained: the corpus of Anglo-Saxon verse. (2) Plural also corpuses. In linguistics and lexicography, a body of texts, utterances or other specimens considered more or less representative of a language, and usually stored as an electronic database. ...
Korpus... • Currently, computer corpora may store many millions of running words, whose features can be analysed by means of tagging (the addition of identifying and classifying tags to words and other formations) and the use of concordancing programs. Corpus linguistics studies data in any such corpus.(cf. McArthur, Tom "Corpus" , in: McArthur, Tom (ed.) 1992. The Oxford Companion to the English Language. Oxford, 2
Korpuksen määritelmä • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus2/2fra1.htm Korpus ei ole mikä tahansa tekstinpätkä, vaan: • tutkimuksen ja sen hypoteesin kannalta edustava otos/kokoelma • kooltaan rajattu ja sisällöltään määritetty • elektronisessa muodossa • siitä on saatavissa enemmän tietoa frekvensseista, rakennehahmoista ja esiintymisassosiaatioista tietokoneen avulla kuin käsin • uusien analyysien kustannukset ovat verrattaen pienet verrattuna käsin laskemiseen • yleisesti saatavilla ( tutkimustulokset ovat vertailtavissa)
Korpuksen käsitteen monimuotoisuus • määrätietoisesti etukäteen asetettujen periaatteiden ja kriteerien mukaan kesätty kokoelma kieliaineistoja (= yo. määritelmä) • kokoelma, johon on kerätty mahdollisimman paljon kaikkea kieliaineistoa mitä on vaan on kätevästi ja saatavilla • oma tutkimusaineisto
Miksi korpuksia käytetään? • kun introspektio ei riitä • introspektiivisiä havaintoja ei voida ulkoisesti observoida • introspektiivinen data on useimmiten keinotekoista • ihmisillä on vain epämääräinen mielikuva lingvistisen ilmiön yleisyydestä
Miksi korpuksia? • korpusaineistojen hyödyt • korpukset ovat avoimempia tulosten objektiiviselle verifikaatiolle • korpukset edustavat miten ihmiset todellisissa käyttötilanteissa tuottavat kieltä, ei jonkun kielioppikuvauksen sisältämää idealisaatiota (esim. ovatko moninkertaiset upotukset mahdollisia vai eivät) • kvantitatiivinen tieto kertoo mikä on yleistä ja mikä on harvinaisempaa paremmin kuin introspektio • tietokoneet ja elektroniset aineistot mahdollistavat aineistojen tehokkaan tarkastelun
Minkälaisia korpuksia on? • Kansainväliset klassikot http://www.uni-koeln.de/phil-fak/englisch/bald/corpora.htm • Brown (kirjoitettua amerikan-englantia 60-luvulta balansoitu: 500 tekstinfragmenttia à 2000 sanaa) • Lancaster-Oslo/Bergen (LOB) (Brownia vastaava korpus brittienglantia 70-luvulta) • Lond-Lund (puhuttua englantia)
Korpuksia... • Uudempia englanninkielisiä • Bank of English (320 Mw 450 Mw [monitorikorpus]) http://titania.cobuild.collins.co.uk/boe_info.html • British National Corpus (100 Mw) • International Corpus of English (1 Mw kustakin englannin kansallisesta variantista) http://www.ucl.ac.uk/english-usage/ice/index.htm • Child Language Date Exchange System (CHILDES) http://atila-www.uia.ac.be/childes/ (eri-ikäisten lasten puhetta eri kielillä, mm. englanti ja saksa) • Korpuksia ympäri maailman http://www.ruf.rice.edu/~barlow/corpus.html
Korpuksia... • Tunnetuimmat kotimaiset • Suomen kielipankki (~170 Mw suomea ja ~30 Mw (suomenruotsia) http://www.csc.fi/kielipankki/ • KOTUS:en korpukset (historiallista kirjasuomea) http://www.kotus.fi/aineistot/ • Oulun korpus (500 kw mm. puhuttua suomea; koostettu 1967) • Savonlinnan käännöskorpus
Korpusten luokitteluntapainen • kielen meediumi: puhekorpukset (esim. London-Lund corpus) vs. kirjallisetkorpukset (esim. Lancaster Oslo/Bergen corpus(LOB) vs. yhdistetyt (British National Corpus (BNC) tai Bank of English) • synkroninen variaatio (kansalliskielen [standardin] sisäinen): britti-englannin korpukset (esim. Lancaster Oslo/Bergen corpus) vs. amerikan-englannin korpukset (e.g. Brown corpus) vs. joku kansainvälisen englannin korpus
Luokittelu... • historiallinen variaatio: diakroniset korpukset (Helsinki corpus, cf. ICAME:n kotisivu) vs. synkroniset korpukset (Brown, LOB, BNC) vs. vain yhden segmentin kielen historiaa kattavat korpukset (Old/Middle English, Shakespearen tekstit) • maantieteellinen variaatio/murrevariaatio: murreotoskorpus (e.g. Scots) vs. yhdistetyt (BNC puheosuus sisältää otoksia puhujista kaikkialta Britanniasta)
Luokittelu... • ikä: aikuisten englannin korpus vs lasten englannin korpus (CHILDES:n englanninkieliset osiot) • tekstityyppi/rekisteri: kaunokirjalliset vs. tekniset vs. ei-fiktiiviset (esim. sanomalehtiteksit) vs. sekoitetut korpukset jotka kattavat kaikki tekstityypit • aivoimuus: suljetut, muuntamattomat korpukset (esim. LOB, Brown) vs. monitorikorpukset (Bank of English)
Luokittelu... • saatavuus: kaupalliset vs. ei-kaupalliset tutkimuskorpukset, suoraan saatavilla olevat (online) korpukset vs. korpukset ftp-palvelimilla vs. korpukset levykkeillä • yksikielisyys vs. monikielisyys (kohdistetut käännöskorpukset); alkuperäiset (supisuomi) vs. käännetyt (käännössuomi)
Minkälaista korpuspohjainen kielentutkimus on? • Korpuspohjaisen lingvistiikan esihistoriaa • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm Ilman tietokoneita aineiston monipuolinen analyysi on vaikeaa • Korpuspohjaisen lingvistiikan varsinainen käynnistyminen • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm Korpukset elektronisessa muodossa, tietokoneet tarkastelun apuna
Puheentutkimus Leksikografia Kielioppi/syntaksi Semantiikka Pragmatiikka Sosiolingvistiikka Stilistiikka Kielenopetus Historiallinen kielitiede Murretutkimus Psykolingvistiikka Kulttuurintutkimus Sosiopsykologia Korpuspohjainen kielentutkimus tänään?
Korpuslingvistiikka tänään • Corpus Linguistics 2003 –konferenssi (Lancaster 28-31.3.2003) http://www.comp.lancs.ac.uk/ucrel/cl2003/programme.html#papers
Korpukset ja kieliCtl310corpKevät 2003Antti Arppe Luento 14.3. Metodologinen yleiskatsaus – empiirisen tutkimuksen rakenne Hypoteesin muodostaminen Aineiston valitseminen ja koostaminen
Korpuspohjainen kielentutkimuksen tyypit? • kvalitatiivinen - laadullinen • analyysin rikkaus • tarkkuus ja • perusteellisuus • kvantitatiivinen - määrällinen • tilastollisesti luotettavat ja • yleistettävät tulokset
Kvalitatiivinen – kvantitatiivinen • Kvalitatiivinen • tavoitteena täydellinen, yksityiskohtainen kuvaus • ilmiöiden frekvenssien merkitys on vähäisempi, yksittäiset tapauksetkin saavat huomiota • kielen monitulkintaisuus sallitaantulokset eivät välttämättä ole varmuudella yleistettävissä kieleen kokonaisuudessaan
Kvalitatiivinen – kvantitatiivinen • kvantitatiivinen • piirteitä luokitellaan, niiden lukumääriä lasketaan ja vertaillaan • piirteiden yhteisesiintymistä voidaan tehdä monimutkaisia tilastollisia malleja • eri korpuksia voidaan vertailla keskenään • yleisten, tyypillisten ilmiöiden erottaminen (mahdollisesti) satunnaisista esiintymistä • luokitukset tyypillisesti kategorisia • edellyttää minimiesiintymisiä, jotta yleistyksiä voidaan tehdä – harvinaiset ilmiöt jäävät paitsioon kategorioita saatetaan tästä johtuen niputtaa yhteen
Kvantitatiivinen – kvalitatiivinen • monimetodisuus, eri tutkimusmenetelmiä ja –aineistoja yhdistyvä tutkimus yleistymyssä ihmistieteissä • kvalitatiivinen tutkimus voi edeltää kvantitatiivista intuitiivinen yleiskuva tutkittavasta ilmiöstä ja aineistosta kategoriat on ensiksi identifioitava
Tutkimuksen tyypit • eksploratiivinen – tutkiva, tutkimushypoteeseja hypoteeseja muodostava, korpus referenssinä kuinkas sitä kieltä oikein käytetään • deskriptiivinen – kuvaava systemaattisempi ja kokonaisvaltaisempi • konstruktiivinen – teorioita muodostava tavoitteena enemmän kuin jonkun yksittäisen lingvistisen olion kuvaus • testaava – teorioiden validiteetin tarkastelua
Tutkimuksen tyypit – henkilökohtaisia esimerkkejä • eksploratiivinen: onko synonyymien käyttökonteksteissa eroja? • deskriptiivinen: minkälaista on jonkun synonyymiryhmän käyttö; miten käyttökontekstit eroavat toisistaan? • konstruktiivinen: mistä synonyymien käyttökontekstien erilaisuudet johtuvat? • testaava: päteekö yllä esitetty teoria käyttökontekstien erilaisuudesta myös muiden synonyymiperheiden kohdalla?
Mallitutkimuksen rakenne • [Teoreettinen tausta: aikaisempi tutkimus] • hypoteesi • aineisto eli korpus • menetelmä • tulkinta • [Kytkentä teoreettiseen taustaan: miten tulokset vaikuttavat teoriaan]
Hypoteesi • mikä on riittävän hyvä/perusteltu hypoteesi? • perustuu aikaisempaan tutkimukseen tai teorianmuodostukseen? • perustuu tutkijan tai tutkijayhteisön omaan intuitioon? • tutkijan kannalta tärkeää on ankkuroida hypoteesi ajankohtaiseen tutkimukseen • teoria X väittää jotain Y kaikista kielistä: pitääkö Y paikkansa kielessä Z • teoria X on yksi kielen rakenteen kuvauksen yleisistä malleista: miten teoriaa X voisi soveltaa kielessä Y
Aineisto • hypoteesin perusteella minkälainen aineisto on (riittävän) edustava hypoteesin kannalta edustavuus/kattavuus voiko mikään aineisto koskaan olla täysin representatiivinen kielen kannalta? • kielen monimuotoisuuden huomiointi: kieli ei ole homogeenista yhdestä aineistosta ei voi välttämättä päätellä kaikesta kielenkäytöstä
Menetelmä • esiprosessointi: ylimääräisen annotoinnin poistaminen • lingvistinen (automaattinen) analyysi • virheiden huomioiminen ja vaikutus • automaattisen analyysin täydentäminen käsin • lingvistisen analysaattorin implisiittisesti sisältämä malli kielestä miten analysaattori vaikuttaa ja ennakoi tuloksia • tilastolliset mallit • Miten hyvin/huonosti niiden (matemaattiset) ennakko-oletukset vastaavat kielen olemusta
Tulkinta • miten tulokset vastaavat hypoteeseja • miten paljon voidaan sanoa kielestä ylipäänsä mistä tulokset itse asiassa kertovat • kuinka merkitseviä tulokset ovat? keskeistä on aina kuitenkin lingvistin tulkinta: mitä lingvisti nostaa esille tai näkee merkittävänä – kielitieteen kannalta
Tutkimuksen suunnittelun tärkeys • ekstralingvististen muuttujien huomioiminen korpusta valittaessa ja koostettaessa (tekstityypit ja niiden väliset erot, murteet, idiolektit) • aineistoon ja annotointiin perehtyminen: kuinka täydellisesti/perusteellisesti/oikein aineisto on esikäsitelty • työkalujen vaikutuksen arvioiminen: kuinka hyvin/huonosti automaattiset analyysityökalut toimivat • esitutkimuksen tärkeys ei soitellen sotaan vaan perusteellisesti kokeillen ennen lopullisen tutkimusasetelman lukkoonlyömistä
Esimerkkejä hypoteeseista: Int’l Journal of Corpus Linguistics
Hypoteesin muodostaminen käytännössä – oman tutkimuksen teoreettista taustaa • erityisesti englannin osalta on osoitettu, että synonyymien valintaan vaikuttavat rekisteri, tavoiteltu tyyli ja käyttötilanne, esim. dollar vs. buck (Zgusta 1971, Biber 1998) • myöhemmin on englannin osalta osoitettu myös että leksikaalinen ja syntaktinen konteksti vaikuttaa myös synonyymin valintaan, esim. begin vs. start (Biber 1998): SUBJ start (intransitiivinen käyttö) SUBJ begin OBJ SUBJ begin TO-V • lisäksi on argumentoitu, että lekseemin kullakin taivutusmuodolla voi periaatteessa olla itsenäiset käyttöyhteydet, esim. kollokaatioiden suhteen (Sinclair 1991)
Alkuperäinen tavoite • jos kerran sanan ulkoinen konteksti, olkoon se leksikaalinen tai syntaktinen rakenne, vaikuttavat synonyymin valintaan (englannin tyyppisessä morfologisesti köyhässä kielessä), niin eikö suomessa (morfologisesti rikkaassa) olisi vastaavaa havaittavissa taivutusmuotojen ja piirteiden osalta • Hypoteesi: onko synonyymeiksi tulkittavien sanojen taivutusprofiileissa empiirisesti havaittavia eroja?
Hypoteesin konkretisoiminen: mitä on synonymia? • synonymian määritelmä ja käsittely näyttää seuraavan siitä miten merkitys ymmärretään • merkitys kompositionaalisten, kategoristen piirteiden joukkona synonymia tietyntyyppisenä erona ko. piirteissä • merkityksen syntyminen käyttöyhteyden kautta (Firth) synonymia korvattavuutena tai vaihdettavuutena samanlaisissa konteksteissa (Miller 1990)
Synomia – absoluuttinen synonymia – lähisynonymia • absoluuttinen synonymia edellyttäisi vaihdettavuutta kaikissa mahdollisissa kontekteissa, mutta tämä on oletetusti käytännössä erittäin harvinaista • käytännössä joutuu tutkimaan lähisynonymiaa (l. plesionymiaa) • synonymia on kuitenkin jollakin naivilla tasolla todellista, sillä tavalliset kielenkäyttäjät mieltävät synonyymien olemassaolon ja kokevat että sanoja voidaan usein vaihtaa toisiin ilman että lauseen merkitys ja konnotataatiot oleellisesti muuttuvat
Tutkimuksen rajaaminen:tutkittavien synonyymien valinta • ei ole mielekästä ryhtyä tutkimaan kaikkia potentiaalisia synonyymejä: yksikin pari voi riittää • tavoitteena oli valita verbipari joka olisi a priori niin samankaltainen sekä syntaktisen että semanttisen valenssin suhteen kuin mahdollista • kaikkien verbien suhteelliset frekvenssit laskettiin korpuksesta ja nämä yhdistettiin elektronisen synonyymisanakirjan sisältöön • kullekin synonyymiryhmälle laskettiin suhteellisten frekvenssien geometrinen keskiarvo r1 x ... rn , jonka mukaan synonyymiryhmät rankattiin
Tutkimuksen rajaaminen: synonyymilistan Top 1000 • 1000 kollektiivisesti yleisintä synonyymiryhmää
Tutkimuksen rajaaminen • rankatut synonyymiryhmät arvioitiin subjektiivisesti • mikäli jossakin synonyymiryhmässä ei ensi näkemältä tuntunut olevan ilmiselviä eroja merkityskentän tai syntaktisen käytön suhteen, potentiaalisia kandidaatteja arvioitiin Perussanakirjan sanaselitysten ja esimerkkilauseiden perusteella (Haarala 1997) ja lisäksi Pajunen (1982) • mitä enemmän sanojen sanaselitykset ja esimerkit olivat samansuuntaisia, sitä parempi • polyseemisiä kandidaatteja hyljeksittiin
Lopullinen rajaus ja hypoteesi • kognitiviiset verbit pohtia and miettiä • myös ajatella, tuumia ja harkita voisivat tulla kyseeseen • Hypoteesi: verbien pohtia ja miettiä morfologiset kontekstit eli taivutusmuotoprofiilit eroavat joiltakin osin tilastollisesti toisistaan