1 / 39

Kõnetuvastus

Kõnetuvastus. Kõnetuvastuse definitsioonid. 1. The automatic speech recognition problem consists of finding the sequence of words W associated to a given acoustic sequence X (Beccetti and Ricotti, 1999)

hammer
Télécharger la présentation

Kõnetuvastus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kõnetuvastus

  2. Kõnetuvastuse definitsioonid 1. The automatic speech recognition problem consists of finding the sequence of words W associated to a given acoustic sequence X (Beccetti and Ricotti, 1999) 2. Speech recognition can be generally defined as the process of transforming a continuous speech signal into a discrete representations which may be assigned proper meanings and which, when comprehended, may be used to affect responsive behaviour (Lea, 1980)

  3. Kõnetuvastussüsteemide klassifikatsioon • Piiratud sõnavara: • väike sõnastik (< 1000 sõna) • suur sõnastik (< 10000 sõna) • sõnakaupa hääldus • spontaanne kõne (dialoogsüsteem) • Piiramata sõnavara (> 10000 sõna): • sõnakaupa hääldus (nimede, aadresside tuvastus) • sidus kõne (dikteerimissüsteem) • spontaanne kõne

  4. Kõnest arusaamine: inimene vs masin

  5. Kõnetuvastuse skeem

  6. Mustrituvastus “porgandid” Helilaine, spekter, kepster,… Foneemid, sõnad, laused,… Mustrituvastus Füüsilised objektid - signaalid Sümbolesitus

  7. Mustrituvastus • Nähtusi ja objekte võib esitada mitmel erineval kujul – ‘signaalid’ versus ‘sümbolid’ on lihtsustus • Mustrituvastuse eesmärgiks on luua arvutuslikud meetodid, mis võimaldavad automaatselt minna üle ühelt esitusvormilt teisele

  8. Mustrituvastus • Lihtne ülesanne inimesele • Eriliselt raske realiseerida arvutis • Põhiprobleem on variatiivsus – sama nähtuse erinevad realisatsioonid väljenduvad füüsiliselt mõõdetavates tunnustes erinevalt • Näiteks, sama sõna identseid hääldusi praktiliselt ei eksisteeri • … kui see oleks nii, siis oleks kõnetuvastus väga lihtne!

  9. Automaatne kõnetuvastus Kõnemustrite töötlus • Kõne erinevad esitused: • kommunikatiivne eesmärk – semantika • sõnajada – leksikon, süntaks • häälikujada – fonoloogia • neuroloogiline • artikulatoorne • akustiline

  10. Kõnetuvastus • Sama lause realiseerub erinevate akustiliste mustritena • Variatiivsus on tingitud: • vanus, sugu • kõnestiil: dikteerimine, ettekanne, vestlus võõraga, vestlus sõbraga,… • keeleline taust, emakeel/võõrkeel,… • emotsionaalne seisund, ümbruskond,… • jpm

  11. Kõne omadused • Kõne on pidev– mitte diskreetsetest üksustest koosnev “akustiline tekst” • On loodudinimestevaheliseks kommunikatsiooniks!

  12. Automaatne kõnetuvastus • Mitmed alternatiivsed lähenemised… • Reegli-põhisedvsandme-põhised • Statistilised meetodidvsneuronvõrgud • Viimasel 20 aastal on edu saavutatud põhiliselt statistiliste meetodite kasutamisega • Hidden Markov Models (HMMs) – Markovi varjatud mudelid

  13. Akustiliste vektorite jada Akustiline signaal Tekst Kõnesignaali töötlus Mustri-tuvastus “must kass läks üle tee” Akustiline mudel Keele-mudel Hääldus-sõnastik Automaatne kõnetuvastus

  14. Kõnesignaali töötlus • Eesmärgid: • Leida kõnesignaalist tuvastuseks vajalikud tunnused fikseeritud ajaintervallide järel • Tuua esile erinevused, mis on tuvastuseks olulised • Siluda ebaolulised variatsioonid • Kõige sagedamini kasutatavateks akustilisteks tunnusteks mel-sageduse kepstri kordajad - Mel Frequency Cepstral Coefficients (MFCC)

  15. t Amplituud Sagedus (Hz) Tunnuste leidmine (1) • Hamming-aken • Diskreetne Fourier teisendus (Discrete Fourier Transform) • Logaritmiline amplituud Analüüsiaken 25ms

  16. Amplituud Sagedus (Mel) Amplituud Sagedusskaala teisendamine võib sisaldada ka silumist Sagedus (Hz) Tunnuste leidmine (2) • Teisendada spekter tajule omasesse sagedusskaalasse (mel-skaala)

  17. Amplituud Amplituud Sagedus (Mel) Sagedus (Mel) Tunnuste leidmine (3) • Rakenda diskreetset koosinus-teisendust Mel-kepstrum lõika maha

  18. Tunnuste leidmine - kokkuvõte • Arvuta lühiajaline spekter • Seda teeb ka inimkõrv! • Ignoreeri faasi-informatsiooni • Esita amplituud logaritmilises skaalas • Teisenda taju-sagedusskaalasse • Tüüpiliselt mel-skaala • Võib kasutada silumist • Rakenda diskreetset koosinus-teisendust (lõika saba maha!) • Tavaliselt kasutatakse 12 esimest kepstrikordajat + energiat

  19. Akustiliste tunnusvektorite jada Akustiline signaal Tekst Kõnesignaali töötlus Mustri-tuvastus “must kass läks üle tee” Akustiline mudel Keele-mudel Hääldus-sõnasik Automaatne kõnetuvastus

  20. Akustiline modelleerimine (1) • Akustiliste tunnusvektorite e. vaatluste jada: X = x1x2…xn • Eesmärk: leida sõnajada W* = w1 w2…wn mis kõige tõenäosemalt vastab sisendsignaalile X P(W) P(X | W) • W* = arg max P(W | X) = arg max -------------------- ww P(X) • P(X) ei mängi rolli, saame: W* = arg max P(W) P(X | W) w

  21. Akustiline modelleerimine (2) W* = arg max P(W) P(X | W) w • Kõige tõenäosem sõnajada W* sõltub: • P(W) – sõnajada a priori tõenäosus, leitakse keelemudelist • P(X | W) – tõenäosus kuulda sisendit X teades, et öeldi sõnajada W

  22. u m s Akustiline modelleerimine (3) • Statistilised meetodid - HMM • Foneemi mudelid - trifoonid: <vasak kontekst>-<põhifoneem>+<parem kontekst> • Sõna ‘must’ jagatuna trifoonideks: /sil-m+u/ /m-u+s/ /u-s+t/ /s-t+sil/ siire /m/->/u/ /u/ siire /u/->/s/ statsionaarne osa

  23. u a a u m Akustiline modelleerimine (4) • Trifoonide arv väga suur – pole otstarbekas, pole piisavalt treeningmatejali • Lahendused: • Trifoonide grupeerimine: /vokaal-s+t/ /vokaal-frikatiiv+klusiil/ /tagavokaal-s+t/ /eesvokaal-s+t/ • Sisemiste olekute sidumine:

  24. Akustiline modelleerimine (5) • Sõnamudelid saadakse foneemimudelite liitmisel • Olekute (X) akustilised parameetrid varieeruvad: • koartikulatsioon • kõneleja individuaalne hääldus • kõnestiil • akustiline keskkond • jm • Eeldame, et muutused on juhuslikud ja käituvad mingi teadaoleva statistilise jaotuse järgi • Jaotuse parameetrid leiame treeningmaterjalist

  25. Statistiline modelleerimine • Tavaliselt eeldatakse, et muutujad on pidevad ja normaaljaotusega • Gaussian Probability Density Function (PDF) – Gaussi jaotustihedusfunktsioon (JTF)

  26. Standardne Gaussi JTF • 1 dimensionaalne Gaussi JTF,keskväärtus=0 ja standardhälve =1

  27. Konstant, mis garanteerib, et joonealune pindala võrdub 1 Defineerib ‘kelluka’ kuju Gaussi JTF (2)

  28. Reaalsed jaotused • Praktikas ei vasta tunnuste jaotus normaaljaotusele • Kõnetunnuste puhul võib esineda mitmeid maksimume, näiteks: • erinevad väärtused meeste, naiste ja laste puhul • erinevates akustilistes tingimustes teostatud salvestused • jm

  29. Gaussi sega-JTF(Gaussian Mixture PDFs) • Mitte-Gaussi jaotuse puhul kasutatakse segamudeleid (Gaussian Mixture PDFs Gaussian Mixture Models (GMMs)) • GMM on mitmete normaaljaotuste (komponentide) kaalutud keskmine: kuip1jap2on Gaussi JTFd, siis p(y) = w1p1(y) + w2p2(y) kusw1 + w2=1, 0  w1, w2  1, defineerib 2-komponendilise segajaotuse (GMM)

  30. Gaussi segamudel - näide • 2-komponendiline GMM • Komponent 1: =0, =0.1 • Komponent 2: =2, =1 , w1 = w2= 0.5

  31. GMM näide 2 • 2-komponendiline segamudel • Komponent 1: =0, =0.1 • Komponent 2: =2, =1, w1 = 0.2w2=0.8

  32. GMM näide3 • 5-komponendiline segamudel

  33. Segamudelid • Enamik jaotustihedusfunktsioone on aproksimeeritavad sobiva Gaussi segamudeliga • Gaussi JTF ja segamudelid võivad olla mitme-dimensionaalsed • Kõnetuvastuses kasutatakse tüüpiliselt kuni 40-mõõtmelisi tunnusvektoreid – seega on ka Gaussi jaotuste dimensioon 40!

  34. Gaussi segamudel • M-komponendiline Gaussi sega-JTF on defineeritud kui: kus igapmon Gaussi JTF ja

  35. O2 O1 O3 HMM • Foneemi mudeliks on HMM: • <vasak kontekst>-<põhifoneem>+<parem kontekst> • HMM on Gausi segamudelite jada, mille puhul on määratud ühest olekust teise ülemineku tõenäosused Olekus 2 püsimise tõenäosus a22 a33 a11 a23 a12 Oleku 2 puudumise tõenäosus a13

  36. Näide: 10 olekuga HMM mudel, sõna “zero”

  37. Näide: 6 olekuga HMM-mudel, sõna “zero”

  38. HMM • Treenimine – Baum-Welch’ algoritm HMM parameetrite leidmiseks kõneandmetest • Dekodeerimine – Viterbi algoritm akustiliste vektorite jada tuvastamiseks • Treenimiseks vajalik suur hulk andmeid – mitmed tunnid kõnematerjali! • Treening võib kesta mitu päeva!!

  39. Kõne andmebaasid

More Related