140 likes | 337 Views
Íslensk atkvæði – vélræn nálgun. Anton Karl Ingason Mímisþing, 17. mars 2007. Yfirlit. Hugmyndir um atkvæði í málfræði Helstu líkön sem lýsa atkvæðum Íslensk atkvæði Vélræn nálgun – aðferðir Hljóðritun Atkvæðaskipun Athuganir Tölfræðileg lýsing á íslenskum atkvæðum
E N D
Íslensk atkvæði – vélræn nálgun Anton Karl Ingason Mímisþing, 17. mars 2007
Yfirlit • Hugmyndir um atkvæði í málfræði • Helstu líkön sem lýsa atkvæðum • Íslensk atkvæði • Vélræn nálgun – aðferðir • Hljóðritun • Atkvæðaskipun • Athuganir • Tölfræðileg lýsing á íslenskum atkvæðum • Samanburður við hefðbundna ísl. hljóðkerfisfræði
Atkvæði • Hvað er atkvæði? • Einfalt mál – eða hvað? (he-stur, hes-tur, hest-ur) • Sérhljóð yfirleitt talið kjarni atkvæðis • Vandamálasegðir • hjól’n (1 eða 2 atkvæði?) • [ts’ktskWts’] (0, 2, 3, 5 eða 6 atkvæði?) • Ýmis óorð: • shh ‘þögn!’ • psst ‘athygli, takk!’ • hmm ‘heyrðu nú mig!’, ‘ég er að hugsa málið’
Líkön sem lýsa atkvæðum • Íslensk atkvæði talin fylgja stuðull-rím líkaninu og gert ráð fyrir möguleika á kjarnasamhljóðum • Opin og lokuð atkvæði • Útafstætt lokasamhljóð einkvæðra orða?
Vélræn nálgun – aðferðir Inntak: venjul. texti • Hljóðald 1 • Einu skipt út fyrir annað • Atkveðald • Fyrst eru öll atkvæði látin hefjast á sérhljóði • Stuðlar eru „færðir yfir“ • Og tekið tillit til lengdarregluklasa: s, p, t, k + v, j, r auk br, fr • Kjarni atkvæðis merktur • Hljóðald 2 • Aðblástur settur inn samkvæmt atkvæðagerð Hljóðald 1 hv → kv, é → je ... o.s.frv. Atkveðald hestur → hest-ur → hes-tur Hljóðald 2 aðblástur o.fl. IPA tákn skrifuð út Hljóðritaður strengur
Dæmi um keyrslu Inntak: Margir sebrahestar sáust á vappi í Esjunni þennan dag. Úttak: m(ar)-c(ɪr̥) s(ɛ)-pr(a)-h(ɛs)-t(ar̥) s(au)-(ʏs)t (au) v(ah)-p(ɪ) (i) (ɛ)-sj(ʏn)-n(ɪ) θ(ɛn)-n(an̥) t(a)x Úttak forritsins felst einnig í alls kyns tölfræði um atkvæði og einstök málhljóð í textanum sem unnið er með.
Takmarkanir aðferða • Skil orðhluta í samsettum orðum ekki þekkt • Sum sjaldgæf brottföll og samlaganir vantar • Hafa þó lítil áhrif á tölfræðina, ‘gnt’ → ‘nt’ (sbr. hrygnt) kemur aðeins þrisvar fyrir í þeim 70.000 lesmálsorðum sem voru rannsökuð. • Stórir samhljóðaklasar vandamál, sbr. vatnsskrjóður, ‘lélegur bátur’ [htnsskrj] • Einnig sjaldgæft • Óvissa um afröddun í lok segðar
Tvær athuganir • Tíðni atkvæðagerða í íslensku • Hve aleng eru CV, CVC o.s.frv. atkvæði • Hlutfall milli opinna og lokaðra atkvæða • Dreifing samhljóða á stuðul, kjarna og hala • Þrír skáldaðir textar til grundvallar • Um 70.000 lesmálsorð hljóðrituð og greind • Þrír svipað langir en misgamlir textar • Frá 13. öld, 1908 og 2006. • Allir með nútímastafsetningu
Tíðni ólíkra atkvæðagerða í íslensku- öll samhljóð tekin með
Tíðni atkvæðagerða í íslensku - útafstætt lokasamhljóð einkvæðra orða
Samanburður við hefðbunda íslenska hljóð- og hljóðkerfisfræði • Hefðbundinn skilningur: Dreifing [p] og [t] er sú sama í íslensku. • En tölfræðilega er hún ólík. • Á að horfa fram hjá þeim upplýsingum? • Hefðbundinn skilningur: Óraddað ‘j’ (hj) kemur aðeins fyrir í framstöðu. • En þetta útilokar nauhj og neihj • Á að sleppa óþægilegum dæmum til að reglan gildi eða e.t.v. afnema hana því hún er ekki algild? • Tölfræðilíkan: ‘hj’ er í 99% tilvika í stuðli
Til umhugsunar • Heyrst hefur að sumir tilvonandi málfræðingar hafi áhyggjur af því að þeir læri ekki að fara með tölur og það spilli möguleikum þeirra í rannsóknarvinnu. • Ætti að bjóða málfræðinemum upp á tölfræði að hætti félagsvísinda? • Eða er þessi þekkingarhamla í góðu lagi í hamlnaelsku samfélagi málfræðinga?