1 / 13

Sistem de navigare vocală prin Internet pentru limba română

Sistem de navigare vocală prin Internet pentru limba română. P rimul an de desf ăş urare a proiectului şi rezultate preconizate. Date de identificare a proiectului. Denumirea proiectului: Sistem de navigare vocală prin Internet pentru limba română Perioada de desfăşurare a proiectului:

lixue
Télécharger la présentation

Sistem de navigare vocală prin Internet pentru limba română

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sistem de navigare vocală prin Internet pentru limba română Primul an de desfăşurare a proiectului şi rezultate preconizate

  2. Date de identificare a proiectului • Denumirea proiectului: • Sistem de navigare vocală prin Internet pentru limba română • Perioada de desfăşurare a proiectului: • iulie 2010 – aprilie 2013 • Domeniul major: • Tehnologiile societăţii informaţionale • Subdomenii: • Tehnologii, sisteme şi infrastructuri de comunicaţii • Tema: Algoritmi, metode/tehnologii şi sisteme de prelucrare în sistemele de comunicaţii a informaţiei şi semnalelor (voce, audio, video/ imagini, date, multimedia) în vederea producerii, prelucrării, transportului la distanţă şi livrării de conţinut informaţional • Inteligenţă artificială, robotică şi sisteme autonome avansate • Tema: Dezvoltarea de sisteme de interacţiune naturală om – calculator minimal dependente de universul discursului

  3. Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial pentru Dezvoltarea Resurselor Umane 2007 – 2013 Axa prioritară: 1„Educaţia şi formarea profesională în sprijinul creşterii economice şi dezvoltării societăţii bazate pe cunoaştere” Domeniul major de intervenţie: 1.5 „Programe doctorale şi postdoctorale în sprijinul cercetării” Titlul proiectului: “Dezvoltarea şi susţinerea de programe postdoctorale multidisciplinare în domenii tehnice prioritare ale strategiei naţionale de cercetare - dezvoltare - inovare” 4D-POSTDOC Cod Contract: POSDRU/89/1.5/S/52603 Beneficiar: Universitatea Tehnică din Cluj-Napoca

  4. Date de identificare a cercetătorului postdoctoral: • Nume: • DOMOKOS József • Adresa: • 547525, Sîncraiu de Mureş, str. Plopilor, nr. 15 • Adresa la universitate: • 400027, Cluj-Napoca, str. Bariţiu, nr. 26 - 28, Laborator de cercetare Sisteme cu microprocesoare şi Tehnici de comunicaţie (sala 307) • Corunca, calea Sighişoarei, nr. 1C, Birou 227B (Departamentul de Inginerie electrică) • E-mail: • domi@ms.sapientia.ro • Telefon: • 0740-138.366

  5. Obiectivul general al proiectului: • Prin această propunere de proiect se doreşte alinierea sistemelor de recunoaştere a vorbirii pentru navigare pe Internet pentru limba română la nivelul celor existente pentru limba engleză şi unele limbi de circulaţie internaţională. • Obiectivul major al proiectului este proiectarea şi dezvoltarea unui produs software sub forma unor extensii la principalele tipuri de navigatoare WEB pentru a realiza navigarea pe Internet cu comenzi vocale în limba română. • Modulele software dezvoltate vor putea fi reutilizate în scopul realizării oricărui sistem de recunoaştere a vorbirii continue pentru limba română.

  6. Obiectivele specifice ale proiectului: • dezvoltarea unei baze de date de vorbire continuă în limba română • dezvoltarea unei aplicaţii software pentru preprocesarea vorbirii şi extragerea caracteristicilor semnalului vocal necesară pentru crearea modelului acustic al sistemului de recunoaştere; • segmentarea bazei de date în unităţi lingvistice (foneme); • crearea unui corpus de texte culese prin intermediul Internetului necesar pentru dezvoltarea şi antrenarea modelului de limbaj al sistemului de recunoaştere; • proiectarea şi dezvoltarea unui modul de decodare bazat pe modelele Markov ascunse pentru găsirea celei mai probabile secvenţe de unităţi lingvistice.

  7. Planul de lucru

  8. Rezultate obţinute în primul an de desfăşurare • Baza de date de vorbire spontană pentru limba română [1] • Dicţionar de transcriere fonetică construit manual prin colectarea a 1004 cuvinte (5497 foneme) transcrise de experţi lingvişti [2, 3] • Sistemul automat de transcrieregrafem-fonem, bazat pe reţele neuronale artificiale, pentrulimba română [2, 3] • Primul dicţionar de pronunţie pentru limba românărealizat prin transcrierea celor 140.000 de lexeme dindicţionarul DEXOnline [4]

  9. Rezultate preconizate în planul cunoaşterii • Pe lângă obiectivul major al proiectului rezultatele preconizate se împart în două categorii: componente software reutilizabile şi resurse lingvistice. • Componentele software preconizate a fi dezvoltate în cadrul proiectului sunt următoarele: • modul pentru înregistrarea online a semnalului vocal(realizat); • modul pentru preprocesarea vorbirii şi extragerea caracteristicilor semnalului vocal(realizat); • modul pentru crearea modelelor acustice(realizat); • modul pentru colectarea şi preprocesarea textelor culese prin intermediul Internetului(în curs de dezvoltare); • modul pentru crearea modelelor de limbaj statistice n-gram; • modul de decodare bazat pe modele Markov ascunse;

  10. Rezultate preconizate în planul cunoaşterii • Rezultatele colaterale ale cercetării sunt şi resursele lingvistice preconizate a fi dezvoltate, cum ar fi: • baza de date de vorbire continuă în limba română, pentru comenzile de navigare vocală (realizat); • model acustic pentru limba română (realizat); • corpus de texte de limbaromână culese prin intermediul Internetului; • model de limbaj în formatul standard ARPA MIT;

  11. Posibilităţi de colaborare • integrarea modulului de recunoaştere a vorbirii în diferite produse software ale societăţii pentru comanda vocală a acestora • Dezvoltarea de noi resurse lingvistice şi comercializarea acestora

  12. NOTĂ: Această lucrare a beneficiat de suport financiar prin proiectul “Dezvoltarea şi susţinerea de programe postdoctorale multidisciplinare în domenii tehnice prioritare ale strategiei naţionale de cercetare - dezvoltare - inovare” 4D-POSTDOC, contract nr. POSDRU/89/1.5/S/52603, proiect cofinanțat din Fondul Social European prin Programul Operațional Sectorial Dezvoltarea Resurselor Umane 2007-2013.

  13. Referinţe • Domokos József, Raport de cercetare pentru anul I de implementare a proiectului de cercetare 4D Postdoc “Sistem de navigare vocală prin Internet pentru limba română” • DOMOKOS József,Romanian languageGrapheme-to-Phonemeconversionsystem, MACRo2011. Proceedings of the 3rdInernationalConference on Recent Achievements in Mechatronics, Automation, Computer ScienceandRobotics (MACRo2011), Editura Scientia, 2010, ISSN: 2247 – 0948, pp. 319-323, 8-9 April, 2011, Tîrgu Mureş, România. • József Domokos, Ovidiu Buza, Gavril Toderean,AutomatedGrapheme-to-PhonemeConversionSystem for Romanian, Proceedings of the 6thConference on Speech Technology andHuman-Computer-Dialogue (SpeD 2011), ISBN: 978-1-4577-0441-3, pp. , Braşov, România. • Domokos József, Toderean Gavril, Development of a Pronunciation Dictionary for the Romanian Language, prezentare în cadrul seminarului “TechnologicalDevelopment in a SustainableEconomy”, 11-15 Aprilie 2011, Universitatea Tehnică „Gheorghe Asachi” din Iaşi

More Related