1 / 44

Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

9ú Comhdháil do Theangeolaíocta na Gaeilge Scoil an Léinn Cheiltigh Institiúid Ard-Léinn Bhaile Átha Cliath 9 Aibreán 2005. Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais. Welsh and Irish Speech Processing Resources (WISPR) Ailbhe Ní Chasaide Brian Ó Raghallaigh John Wogan

debbie
Télécharger la présentation

Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 9ú Comhdháil do Theangeolaíocta na GaeilgeScoil an Léinn CheiltighInstitiúid Ard-Léinn Bhaile Átha Cliath9 Aibreán 2005 Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais Welsh and Irish Speech Processing Resources (WISPR) Ailbhe Ní Chasaide Brian Ó Raghallaigh John Wogan Áine Ní Bhriain Christer Gobl Coláiste na Tríonóide

  2. Cúlra an Tionscadail • Interreg IIIA Aontas Eorpach • Comhoibriú leis an mBreatain Bheag i bhforbairt Shintéis na hUrlabhra (Téacs-go-hUrlabhra) don Ghaeilge agus don Bhreatnais • Comhoibriú leis an mBreatain Bheag i bhforbairt na n-acmhainní a úsáidfear i bhforbairt Shintéis na hUrlabhra • Grúpa Urlabhra na Gaeilge & • Prifysgol Cymru (The University of Wales Bangor)

  3. Rannpháirtithe • Prifysgol Cymru/The University of Wales, Bangor • Delyth Prys, Briony Williams, Dewi Jones, Bill Hicks, Ivan Uemlianin, Rhys Jones • Coláiste na Tríonóide, Ollscoil BhÁC • Ailbhe Ní Chasaide, Áine Ní Bhriain, Brian Ó Raghallaigh, Christer Gobl, Irena Yanushevskaya, Martha Dalton, John Duggan, agus John Wogan • Coláiste na hOllscoile, BÁC • Fred Cummins, Julie Berndsen, agus Máire Ní Chiosáin • Ollscoil Chathair Bhaile Átha Cliath • John McKenna agus Rónán Scaife • Institiúid Teangeolaíochta Éireann • Elaine Uí Dhonnchadha

  4. Cuspóirí (i gcás na Gaeilge) • Corpas Gaeilge labhartha a ullmhú • Acmhainn taighde • Dúshraith le haghaidh sintéis na Gaeilge • Acmhainní teicneolaíochta a chur in úsáid go feidhmeach • Nasc a chothú le daoine a bhainfeadh feidhm as a leithéid de theicneolaíocht • Oideachas: Múinteoirí Gaeilge • Daoine le Gaeilge atá faoi mhíchumas labhartha, cloisteála agus radhairc

  5. Sintéis Téacs-go-hUrlabhra • Formant Synthesis • Concatenative Synthesis • Diphone Synthesis • Unit Selection

  6. Unit Selection • Ullmhú Corpais – Brian • Roghnú Cainteora • Taifeadadh (JSpeechRecorder) • Trascríobh Láimhe (Praat) • Dáileadh Fóinéimeach - Áine • Trascríobh Uathoibríoch (HTK) - Áine • Sintéis (Festival) - Áine

  7. Ullmhú Corpais • Canúint agus cainteoir a roghnú • Taifeadadh a dhéanamh • Na sonraí taifeadtha (recorded data) a ullmhú le gur féidir iad a úsáid mar acmhainn taighde

  8. Canúint agus Cainteoir • Gaeilge Thír Chonaill? • Cainteoir oiriúnach a roghnú • Cainteoir baineann as Gaeltacht Thír Chonaill • Léitheoir maith • Ar fáil do héasca • Gaeilge nádúrtha dúchasach

  9. An Taifeadadh a Dhéanamh • Is gá go mbeadh an taifeadadh ar ardchaighdeán • Coinníollacha foirfe taifeadta de dhíth: stiúdeo frith-mhacallach • Treallamh taifeadta den scoth riachtanach: Cárta fuaime Edirol; Ríomhaire le Diosca Crua mór • Suas le 15 uair a chloig de shonraí labhartha ag teastáil don Ghaeilge • Bogearraí oiriúnach roghnaithe don taifeadadh

  10. Bogearraí Taifeadta • JSpeechRecorder: Bavarian Archive for Speech Signals Speech Recorder • Leideanna a chur ar an scáileán sa stiúdió • Stóráil uathoibríoch na gcomhad fuaime leis na leideanna cuí

  11. Treallamh Taifeadta • Ríomhaire lena dhóthain spáis ar an diosca crua le haghaidh comhad fuaime • ~550 GB spáis againn faoi láthair ar an ríomhaire taifeadta • DVD Burner le cóip de na sonraí a thabhairt ón láithreán • Cárta fuaime proifisiúnta: Edirol UA1000 • Nasc High-Speed USB 2.0 • Taifeadadh digiteach: micreafón  diosca crua

  12. Scripteanna Ullmhaithe • Téacsanna roghnaithe atá bunaithe ar chaint na ndaoine i dTír Chonaill • m.sh. Séamus Ó Grianna • Téacsanna nua-aimseartha/cúrsaí reatha? • XML • JSpeechRecorder

  13. Sampla de théacs in XML • <?xml version="1.0" encoding="UTF-8" standalone="no" ?> • <!DOCTYPE session SYSTEM "file:SpeechRecPrompts.dtd"> • <?xml-stylesheet type="text/css" href="print-xml-prompts.css"?> • <session id="PhoneticsLab"> • <!-- ? --> • <metadata> • <key> • Title • </key> • <value> • Irish Language Recording Script - WISPR Project Dublin • </value> • </metadata>

  14. Sampla de théacs in XML • <recordingscript> • <recording prerecdelay="2000" recduration="60000" postrecdelay="500" file="Caisleain-Oir-C01_000.wav"> • <recinstructions mimetype="text/ISO-8859-1"> • </recinstructions> • <recprompt> • <mediaitem mimetype="text/UTF-8"> • 1. JAMES GALLAGHER • </mediaitem> • </recprompt> • </recording>

  15. Sampla de théacs in XML • <recording prerecdelay="2000" recduration="60000" postrecdelay="500" file="Caisleain-Oir-C01_001.wav"> • <recinstructions mimetype="text/ISO-8859-1"> • </recinstructions> • <recprompt> • <mediaitem mimetype="text/UTF-8"> • Ceithre bliana, gan la chuige nó uaidh, a bhí Séimí Phádraig Duibh nuair a cuireadh chun na scoile é. • </mediaitem> • </recprompt> • </recording>

  16. Na Sonraí a Ullmhú • Pacáiste oiriúnach bogearraí a roghnú leis an gcorpas a fhorbairt • Trascríobh láimhe agus uathoibríoch a thosnú • Rialacha trascríofa a fhorbairt

  17. Pacáiste Bogearraí a Roghnú • Riachtanais • Pacáiste Bogearraí le haghaidh anailís urlabhra lenar féidir an tonnchruth a theascánú (‘to segment’) agus trascríobh a chur leis • Réiteach • Praat

  18. Sampla ó Praat

  19. Trascríobh le haghaidh Sintéis • Is gá an trascríobh a dhéanamh ar leibhéil éagsúla • Trascríobh prosóide (lipéid IViE) • Féach tionscadal Prosóid Chanúintí na Gaeilge • Trascríobh fóinéimeach i dteannta le heolas alaphóineach breise más gá • Trascríobh gramadaí (ranna cainte na bhfocal)

  20. Modh Trascríofa • Modh a shocrú le haghaidh trascríobh fóinéimeach na Gaeilge • Rialacha a shocrú maidir le giorrúcháin (a réitíonn leis an bpacáiste bogearraí agus a chuireann le luas an trascríofa) agus míniú na ngiorrúchán a shonrú • Próiseas an teascánaithe a chomhshocrú agus a chaighdeánú

  21. Fóinéimeanna na Gaeilge

  22. Dáileadh Fóinéimeach

  23. Dáileadh Fóinéimeach: Cén fath? Cinntiú go bhfuil go leor samplaí do gach fóinéim sna gcomhthéacsanna cuí againn sa chorpas. Muna ndeántar staideár ar an dáileadh fónéimeach ní bheidh a fhios againn riamh an bhfuil an corpas ina iomlán nó nach bhfuil.

  24. TÉACS Dáileadh Fóinéimeach focail Rialacha Litirfuaim Siombail fóinéimeacha Áiritheoir An proiséis leis na fóin agus na défóin a chomhaireamh Méid fóin Méid défóin Comhthéacs In oirúint don ghléas sintéise

  25. Dáileadh FóinéimeachDul Chun Cinn • Foclóir Póca • “Lár Chanúint” • 15000 Focail • 76254 Fóin (51), 102493 Défóin (1300) • Foclóir eile • Gaeilge Chonnamara • 13 noimeád cainte • 852 Focail • 3111 Fóin(52), 3953 Défóin(704)

  26. Dáileadh Fóinéimeach: Le deánamh • Rialacha aistriúcháin: litir  fuaim • Bunaithe ar Ghaeilge Uladh • Na rialacha sin a chur i bhfeidhm ar na téacsanna atá roghnaithe • Cinntiú go bhfuil dáileadh fóinéimeach ceart ann, muna bhfuil beidh gá leis na scripteanna a athrú beagáinín

  27. 70 60 50 Secondary 40 velarised % palatalised monophthongs 30 diphthong 20 10 0 consonant vowel Figure 1: General Distribution Dáileadh Fóinéimeach: Torthaí

  28. 14 12 10 % manner tap 8 plosive nasal lateral glide 6 fricative approx. 4 2 0 b b' d d' f f' g g' Ä Ä' h k k' l l' m m' n n' N N' p p' r r' s s' t t' v v' w x x' z z' Figure 3: Dáileadh Consan Dáileadh Fóinéimeach: Torthaí

  29. 30 25 Height mid-low 20 mid-high % mid low 15 high diphthong 10 5 0 i:« u« a a: a:i a:u e e: i i: o o: « u u: Figure 2: Dáileadh Gutaí

  30. Trascríobh Uathoibríoch

  31. Trascríobh Uathoibríoch: Cén Fath? • Níos Tapúla • Is féidir cur leis • Trascíobh Láimhe 15 uair dodhéanta • Níos cruinne de bharr nach bhfuil ach líon teoranta comharthaí á úsáid ag an ríomhaire

  32. Trascríobh Uathoibríoch: Conas? • HTK (Hidden Markof Model Toolkit) • Taifeadtaí atá trascríofa ag duine • Fóclóir agus líosta focal • Traenáil ar an sraith traenála • Aithne agus ailíniú • Ceartú más gá

  33. Trascríobh UathoibríochDul Chun Cinn • Múineadh a chur ar na HMMaí • 9 gcomhad – 19 nóimeád • 3150 focail • Foclóir tógtha ón trascríobh láimhe • Tástáil le 6 abairtí nach raibh sa “sraith traenála” TORTHAÍ

  34. Trascríobh UathoibríochLe Deánamh • HMMaí a mhúineadh leis na taifeadtaí nua • Foclóir nua a chur le chéile le focail an taifeadta go léir ann • Trascríobh uathoibríoch

  35. Sintéis • Festival Speech Synthesis Engine (CSTR) • An guth a aistriú go dtí an fhoirm cuí agus é a stóráil sa “Speech Engine” • Rialacha a chumadh a chuirfeadh le caighdeán an ghutha, m.sh. Tokenisation, Epenthensis srl. • Interface úsáideach, simplí a fhorbairt

  36. Feidhmeanna an Chorpais Urlabhra Ullmhaithe • Sintéis téacs-go-hurlabhra (TTS) • Úsáid oideachasúil • Úsáid do dhaoine atá faoi mhíchumas • Acmhainn úsáideacha a thagann as forbairt na sintéise • Acmhainn taighde

  37. Múineadh na Gaeilge • Foghlaim idirghníomhach don Ghaeilge • Féinteagascóirí fuaimnithe (‘Artificial pronunciation tutors’) • An-úsáideach nuair nach bhfuil múinteoirí le Gaeilge ó dhúchas nó fiú Gaeilge líofa ar fáil go héasca • Bheadh fáil ar áiseanna mar seo sa rang agus ar an idirlíon • Bheadh éileamh ar áiseanna mar seo ag gach leibhéal (bunscoil – foghlaim aosach)

  38. Feidhmchláir do Dhaoine Míchumasaithe • Uirlisí sintéis urlabhra do Ghaeilgeoirí le - míchumas urlabhra: sintéiseoirí urlabhra - míchumas radhairc: ‘screen readers’ • Uirlisí aithint urlabhra do Ghaeilgeoirí a bhfuil míchumas cloisteála orthu

  39. Acmhainn úsáideacha • Mar chuid d’fhorbairt na sintéise déantar forbairt ar acmhainn eile, m.sh. • Foclóir Fuaimnithe, a bheadh in oiriúint don chanúint • Rialacha aistriúcháin ó litreacha go fuaim (letter-to-sound) • Hidden Markof Models do fuaimeanna Gaeilge Uladh

  40. Taighde na Gaeilge • Beidh an corpas féin tábhachtach le haghaidh taighde ar Ghaeilge labhartha mar shampla: • Phonotactics • Rialacha fuaimnithe • Anailís foghraíochta agus fóineolaíochta

  41. Réimse an Tionscadail • Go bunúsach, acmhainní a fhorbairt a bhaineann le teicneolaíocht urlabhra na Gaeilge • De bharr srianta ama, cuirfear an bhéim ar fhorbairt an chorpais • Déanfar iniúchadh freisin ar an úsáid a bhainfidh daoine as acmhainn mar seo amach anseo

  42. Amach Anseo • An corpas a leathnú le freastal a dhéanamh ar na mórchanúintí ar fad • An corpas a leathnú le freastal ar Ghàidhlig na hAlban, ar an mBriotáinis… • Comhoibriú le Gnóthais Bheaga agus Meánacha

  43. Amach Anseo • Ag cur le réamhiarrachtaí an Ghaeilge a ghiniúint go sintéisiúil ó théacs • Ag cur le cruinneas an chorpais agus na trascríbhinne le feabhas a chur ar chaighdeán na sintéise

  44. Le cabhair airgeadais ón: AE INTERREG IIIA Community Initiative Programme Bangor TCD UCD DCU Buíochas

More Related