440 likes | 730 Views
9ú Comhdháil do Theangeolaíocta na Gaeilge Scoil an Léinn Cheiltigh Institiúid Ard-Léinn Bhaile Átha Cliath 9 Aibreán 2005. Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais. Welsh and Irish Speech Processing Resources (WISPR) Ailbhe Ní Chasaide Brian Ó Raghallaigh John Wogan
E N D
9ú Comhdháil do Theangeolaíocta na GaeilgeScoil an Léinn CheiltighInstitiúid Ard-Léinn Bhaile Átha Cliath9 Aibreán 2005 Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais Welsh and Irish Speech Processing Resources (WISPR) Ailbhe Ní Chasaide Brian Ó Raghallaigh John Wogan Áine Ní Bhriain Christer Gobl Coláiste na Tríonóide
Cúlra an Tionscadail • Interreg IIIA Aontas Eorpach • Comhoibriú leis an mBreatain Bheag i bhforbairt Shintéis na hUrlabhra (Téacs-go-hUrlabhra) don Ghaeilge agus don Bhreatnais • Comhoibriú leis an mBreatain Bheag i bhforbairt na n-acmhainní a úsáidfear i bhforbairt Shintéis na hUrlabhra • Grúpa Urlabhra na Gaeilge & • Prifysgol Cymru (The University of Wales Bangor)
Rannpháirtithe • Prifysgol Cymru/The University of Wales, Bangor • Delyth Prys, Briony Williams, Dewi Jones, Bill Hicks, Ivan Uemlianin, Rhys Jones • Coláiste na Tríonóide, Ollscoil BhÁC • Ailbhe Ní Chasaide, Áine Ní Bhriain, Brian Ó Raghallaigh, Christer Gobl, Irena Yanushevskaya, Martha Dalton, John Duggan, agus John Wogan • Coláiste na hOllscoile, BÁC • Fred Cummins, Julie Berndsen, agus Máire Ní Chiosáin • Ollscoil Chathair Bhaile Átha Cliath • John McKenna agus Rónán Scaife • Institiúid Teangeolaíochta Éireann • Elaine Uí Dhonnchadha
Cuspóirí (i gcás na Gaeilge) • Corpas Gaeilge labhartha a ullmhú • Acmhainn taighde • Dúshraith le haghaidh sintéis na Gaeilge • Acmhainní teicneolaíochta a chur in úsáid go feidhmeach • Nasc a chothú le daoine a bhainfeadh feidhm as a leithéid de theicneolaíocht • Oideachas: Múinteoirí Gaeilge • Daoine le Gaeilge atá faoi mhíchumas labhartha, cloisteála agus radhairc
Sintéis Téacs-go-hUrlabhra • Formant Synthesis • Concatenative Synthesis • Diphone Synthesis • Unit Selection
Unit Selection • Ullmhú Corpais – Brian • Roghnú Cainteora • Taifeadadh (JSpeechRecorder) • Trascríobh Láimhe (Praat) • Dáileadh Fóinéimeach - Áine • Trascríobh Uathoibríoch (HTK) - Áine • Sintéis (Festival) - Áine
Ullmhú Corpais • Canúint agus cainteoir a roghnú • Taifeadadh a dhéanamh • Na sonraí taifeadtha (recorded data) a ullmhú le gur féidir iad a úsáid mar acmhainn taighde
Canúint agus Cainteoir • Gaeilge Thír Chonaill? • Cainteoir oiriúnach a roghnú • Cainteoir baineann as Gaeltacht Thír Chonaill • Léitheoir maith • Ar fáil do héasca • Gaeilge nádúrtha dúchasach
An Taifeadadh a Dhéanamh • Is gá go mbeadh an taifeadadh ar ardchaighdeán • Coinníollacha foirfe taifeadta de dhíth: stiúdeo frith-mhacallach • Treallamh taifeadta den scoth riachtanach: Cárta fuaime Edirol; Ríomhaire le Diosca Crua mór • Suas le 15 uair a chloig de shonraí labhartha ag teastáil don Ghaeilge • Bogearraí oiriúnach roghnaithe don taifeadadh
Bogearraí Taifeadta • JSpeechRecorder: Bavarian Archive for Speech Signals Speech Recorder • Leideanna a chur ar an scáileán sa stiúdió • Stóráil uathoibríoch na gcomhad fuaime leis na leideanna cuí
Treallamh Taifeadta • Ríomhaire lena dhóthain spáis ar an diosca crua le haghaidh comhad fuaime • ~550 GB spáis againn faoi láthair ar an ríomhaire taifeadta • DVD Burner le cóip de na sonraí a thabhairt ón láithreán • Cárta fuaime proifisiúnta: Edirol UA1000 • Nasc High-Speed USB 2.0 • Taifeadadh digiteach: micreafón diosca crua
Scripteanna Ullmhaithe • Téacsanna roghnaithe atá bunaithe ar chaint na ndaoine i dTír Chonaill • m.sh. Séamus Ó Grianna • Téacsanna nua-aimseartha/cúrsaí reatha? • XML • JSpeechRecorder
Sampla de théacs in XML • <?xml version="1.0" encoding="UTF-8" standalone="no" ?> • <!DOCTYPE session SYSTEM "file:SpeechRecPrompts.dtd"> • <?xml-stylesheet type="text/css" href="print-xml-prompts.css"?> • <session id="PhoneticsLab"> • <!-- ? --> • <metadata> • <key> • Title • </key> • <value> • Irish Language Recording Script - WISPR Project Dublin • </value> • </metadata>
Sampla de théacs in XML • <recordingscript> • <recording prerecdelay="2000" recduration="60000" postrecdelay="500" file="Caisleain-Oir-C01_000.wav"> • <recinstructions mimetype="text/ISO-8859-1"> • </recinstructions> • <recprompt> • <mediaitem mimetype="text/UTF-8"> • 1. JAMES GALLAGHER • </mediaitem> • </recprompt> • </recording>
Sampla de théacs in XML • <recording prerecdelay="2000" recduration="60000" postrecdelay="500" file="Caisleain-Oir-C01_001.wav"> • <recinstructions mimetype="text/ISO-8859-1"> • </recinstructions> • <recprompt> • <mediaitem mimetype="text/UTF-8"> • Ceithre bliana, gan la chuige nó uaidh, a bhí Séimí Phádraig Duibh nuair a cuireadh chun na scoile é. • </mediaitem> • </recprompt> • </recording>
Na Sonraí a Ullmhú • Pacáiste oiriúnach bogearraí a roghnú leis an gcorpas a fhorbairt • Trascríobh láimhe agus uathoibríoch a thosnú • Rialacha trascríofa a fhorbairt
Pacáiste Bogearraí a Roghnú • Riachtanais • Pacáiste Bogearraí le haghaidh anailís urlabhra lenar féidir an tonnchruth a theascánú (‘to segment’) agus trascríobh a chur leis • Réiteach • Praat
Trascríobh le haghaidh Sintéis • Is gá an trascríobh a dhéanamh ar leibhéil éagsúla • Trascríobh prosóide (lipéid IViE) • Féach tionscadal Prosóid Chanúintí na Gaeilge • Trascríobh fóinéimeach i dteannta le heolas alaphóineach breise más gá • Trascríobh gramadaí (ranna cainte na bhfocal)
Modh Trascríofa • Modh a shocrú le haghaidh trascríobh fóinéimeach na Gaeilge • Rialacha a shocrú maidir le giorrúcháin (a réitíonn leis an bpacáiste bogearraí agus a chuireann le luas an trascríofa) agus míniú na ngiorrúchán a shonrú • Próiseas an teascánaithe a chomhshocrú agus a chaighdeánú
Dáileadh Fóinéimeach: Cén fath? Cinntiú go bhfuil go leor samplaí do gach fóinéim sna gcomhthéacsanna cuí againn sa chorpas. Muna ndeántar staideár ar an dáileadh fónéimeach ní bheidh a fhios againn riamh an bhfuil an corpas ina iomlán nó nach bhfuil.
TÉACS Dáileadh Fóinéimeach focail Rialacha Litirfuaim Siombail fóinéimeacha Áiritheoir An proiséis leis na fóin agus na défóin a chomhaireamh Méid fóin Méid défóin Comhthéacs In oirúint don ghléas sintéise
Dáileadh FóinéimeachDul Chun Cinn • Foclóir Póca • “Lár Chanúint” • 15000 Focail • 76254 Fóin (51), 102493 Défóin (1300) • Foclóir eile • Gaeilge Chonnamara • 13 noimeád cainte • 852 Focail • 3111 Fóin(52), 3953 Défóin(704)
Dáileadh Fóinéimeach: Le deánamh • Rialacha aistriúcháin: litir fuaim • Bunaithe ar Ghaeilge Uladh • Na rialacha sin a chur i bhfeidhm ar na téacsanna atá roghnaithe • Cinntiú go bhfuil dáileadh fóinéimeach ceart ann, muna bhfuil beidh gá leis na scripteanna a athrú beagáinín
70 60 50 Secondary 40 velarised % palatalised monophthongs 30 diphthong 20 10 0 consonant vowel Figure 1: General Distribution Dáileadh Fóinéimeach: Torthaí
14 12 10 % manner tap 8 plosive nasal lateral glide 6 fricative approx. 4 2 0 b b' d d' f f' g g' Ä Ä' h k k' l l' m m' n n' N N' p p' r r' s s' t t' v v' w x x' z z' Figure 3: Dáileadh Consan Dáileadh Fóinéimeach: Torthaí
30 25 Height mid-low 20 mid-high % mid low 15 high diphthong 10 5 0 i:« u« a a: a:i a:u e e: i i: o o: « u u: Figure 2: Dáileadh Gutaí
Trascríobh Uathoibríoch: Cén Fath? • Níos Tapúla • Is féidir cur leis • Trascíobh Láimhe 15 uair dodhéanta • Níos cruinne de bharr nach bhfuil ach líon teoranta comharthaí á úsáid ag an ríomhaire
Trascríobh Uathoibríoch: Conas? • HTK (Hidden Markof Model Toolkit) • Taifeadtaí atá trascríofa ag duine • Fóclóir agus líosta focal • Traenáil ar an sraith traenála • Aithne agus ailíniú • Ceartú más gá
Trascríobh UathoibríochDul Chun Cinn • Múineadh a chur ar na HMMaí • 9 gcomhad – 19 nóimeád • 3150 focail • Foclóir tógtha ón trascríobh láimhe • Tástáil le 6 abairtí nach raibh sa “sraith traenála” TORTHAÍ
Trascríobh UathoibríochLe Deánamh • HMMaí a mhúineadh leis na taifeadtaí nua • Foclóir nua a chur le chéile le focail an taifeadta go léir ann • Trascríobh uathoibríoch
Sintéis • Festival Speech Synthesis Engine (CSTR) • An guth a aistriú go dtí an fhoirm cuí agus é a stóráil sa “Speech Engine” • Rialacha a chumadh a chuirfeadh le caighdeán an ghutha, m.sh. Tokenisation, Epenthensis srl. • Interface úsáideach, simplí a fhorbairt
Feidhmeanna an Chorpais Urlabhra Ullmhaithe • Sintéis téacs-go-hurlabhra (TTS) • Úsáid oideachasúil • Úsáid do dhaoine atá faoi mhíchumas • Acmhainn úsáideacha a thagann as forbairt na sintéise • Acmhainn taighde
Múineadh na Gaeilge • Foghlaim idirghníomhach don Ghaeilge • Féinteagascóirí fuaimnithe (‘Artificial pronunciation tutors’) • An-úsáideach nuair nach bhfuil múinteoirí le Gaeilge ó dhúchas nó fiú Gaeilge líofa ar fáil go héasca • Bheadh fáil ar áiseanna mar seo sa rang agus ar an idirlíon • Bheadh éileamh ar áiseanna mar seo ag gach leibhéal (bunscoil – foghlaim aosach)
Feidhmchláir do Dhaoine Míchumasaithe • Uirlisí sintéis urlabhra do Ghaeilgeoirí le - míchumas urlabhra: sintéiseoirí urlabhra - míchumas radhairc: ‘screen readers’ • Uirlisí aithint urlabhra do Ghaeilgeoirí a bhfuil míchumas cloisteála orthu
Acmhainn úsáideacha • Mar chuid d’fhorbairt na sintéise déantar forbairt ar acmhainn eile, m.sh. • Foclóir Fuaimnithe, a bheadh in oiriúint don chanúint • Rialacha aistriúcháin ó litreacha go fuaim (letter-to-sound) • Hidden Markof Models do fuaimeanna Gaeilge Uladh
Taighde na Gaeilge • Beidh an corpas féin tábhachtach le haghaidh taighde ar Ghaeilge labhartha mar shampla: • Phonotactics • Rialacha fuaimnithe • Anailís foghraíochta agus fóineolaíochta
Réimse an Tionscadail • Go bunúsach, acmhainní a fhorbairt a bhaineann le teicneolaíocht urlabhra na Gaeilge • De bharr srianta ama, cuirfear an bhéim ar fhorbairt an chorpais • Déanfar iniúchadh freisin ar an úsáid a bhainfidh daoine as acmhainn mar seo amach anseo
Amach Anseo • An corpas a leathnú le freastal a dhéanamh ar na mórchanúintí ar fad • An corpas a leathnú le freastal ar Ghàidhlig na hAlban, ar an mBriotáinis… • Comhoibriú le Gnóthais Bheaga agus Meánacha
Amach Anseo • Ag cur le réamhiarrachtaí an Ghaeilge a ghiniúint go sintéisiúil ó théacs • Ag cur le cruinneas an chorpais agus na trascríbhinne le feabhas a chur ar chaighdeán na sintéise
Le cabhair airgeadais ón: AE INTERREG IIIA Community Initiative Programme Bangor TCD UCD DCU Buíochas