1 / 14

SEMINARSKI RAD Robusnost Å¡uma u prijevodu govora u govor

SEMINARSKI RAD Robusnost šuma u prijevodu govora u govor. Karlo Kukec. Sadržaj. dva pristupa za unaprjeđenje performansi prijevoda govora u govor 1. višestilsko uvježbavanje – rješavanje problema degradacije okoline na nivou akustičkog modela

travis
Télécharger la présentation

SEMINARSKI RAD Robusnost Å¡uma u prijevodu govora u govor

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SEMINARSKI RADRobusnost šuma u prijevodu govora u govor Karlo Kukec

  2. Sadržaj • dva pristupa za unaprjeđenje performansi prijevoda govora u govor 1. višestilsko uvježbavanje – rješavanje problema degradacije okoline na nivou akustičkog modela 2. CDCN (Codebook Dependant Cepstral Normalization – Kepstralna normalizacija ovisna o kodnoj knjizi) – za kompenziranje akustičkog iskrivljenja na nivou signala • daljnji napredak – kombiniranje ovih dviju shema • koliko blisko je točnost prepoznavanja govora povezana sa cjelokupnim prepoznavanjem govora u govor

  3. Uvod • zbog rapidnog porasta internet aplikacija i globalizacije ekonomskog razvoja sve je veća potreba za razvojem tehnologija za prijevod • delikatniji zadatak – kad se nesavršeni izlaz prepoznavanja govora koristi za strojni prijevod • domet uspješnosti rezultata robusnosti šuma razlikuje se u sustavima prepoznavanja govora od onih za prijevod govora u govor – zato se uvode dvije različite metrike

  4. MASTOR • MASTOR (Multilingual Automatic Speech-to-Speech Translator) – visoko uvježbavajući sustav prijevoda govora u govor – konverzacijski jezik • prepoznavatelj govora – kontinuirani sustav prepoznavanja govora s velikim vokabularom • NLU modul – statistički gramatički analizator ekstrahira semantičku i sintaktičku informaciju i kreira stablasti semantičko/sintaktički prikaz usporediv s međujezikom • NLG modul – sastoji se od modela vjerojatnosti maksimalne entropije • za vrijeme prevođenja provodi se rekurzivna pretraga na stablu analizirane rečenice odozdo prema gore

  5. Izgled sustava

  6. Višestilsko uvježbavanje • jednostavan, ali efikasan način unaprjeđivanja robusnosti prepoznavanja govora • dva problema: • učinkovito je kod povećanja robusnosti šuma za ukrižene uvjetne eksperimente, ali na trošak određene degradacije performansi za prilagođene uvjete • manjak znanja o optimalnom broju okolina • akustička degradacija se karakterizira sa omjerom signal-šum (SNR) – namjerno odabrani različiti

  7. Kepstralna normalizacija ovisna o knjizi kodova • Cepstrum • Fourierova transformacija logaritma Fourierove transformacije • signal  FT  raskrivanje faze  FT cepstrum • inverzna Fourierova transformacija logaritma spektra (FT  log  IFT) • odvaja energiju dobivenu vibracijama glasnica od one iskrivljenog signala formiranog u preostalom dijelu vokalnog trakta

  8. CDCN (Codebook Dependant Cepstral Normalization) algoritam • pokušava reverzirati efekte linearnog filtra u kepstralnom vektoru q i dodatnog šuma u kepstralnom vektoru n • ova jednadžba pokazuje procjenjene čiste podatke date sa obzervacijom šuma z, parametrom linearnog filtra q, korektivnog vektora r i mješovitih težina f[l]

  9. Mjere performansi • WER (word error rate) – za prepoznavanje govora – intuitivno, kvaliteta prijevoda biti će određena tečnošću govora i adekvatnosti izlaza prijevoda • BLEU – objektivna mjera predložena od IBM-a – za prijevod govora u govor • P je n-gram vjerojatnost, a BP mjera jezgrovitosti • vrijednost: 1 – perfektno prevedeno • vrijednost: 0 – potpuno krivi prijevod

  10. Eksperimenti i rezultati • višestilsko uvježbavanje • šum se digitalno dodaje podacima za uvježbavanje iz 10 različitih okolina, što simulira različite akustičke okoline • koriste se dva SNR-a: 20 dB i 10 dB • 352000 rečenica, 3200 govornika • za prepoznavanje govora: oko 20% bolji rezultati • za prijevod govora u govor: neznatno bolji rezultati

  11. Eksperimenti i rezultati

  12. Eksperimenti i rezultati • CDCN • na svim uzorcima na kojima je provedeno višestilsko uvježbavanje primjenjuje se CDCN kao predprocesna komponenta • prepoznavanje govora • za baseline 7% povećana točnost • za MST 19% povećana točnost • prijevod govora u govor – podjednako povećanje

  13. Eksperimenti i rezultati

  14. Zaključak • dvije tehnike (MST i CDCN) pokazale su se efikasnima u kompenziranju degradacije okoline kod sustava za prijevod govora u govor • najbolji su rezultati dobiveni kombiniranjem CDCN sa MST-20dB

More Related