Raspoznavanje govornika u zvučnom zapisu

Raspoznavanje govornika u zvučnom zapisu Matija Hajduk Vedran Jerbić Stjepan Stjepčević Mara Živčić Zagreb, Lipanj 2006.

Uvod • Cilj projekta: • Identifikacija govornika na temelju usporedbe sa postojećom bazom podataka Zagreb, Lipanj 2006

Opis problema • Projektirati sustav koji će na temelju snimljenog govora i usporedbom sa postojećom bazom podataka identificirati osobu ili utvrditi da njene govorne karakteristike nisu pohranjene u bazi podataka Zagreb, Lipanj 2006

Opis rješenja problema • Metoda rješavanja problema: • Kepstralna analiza • Vektorska kvantizacija • Izrada baze podataka • Identifikacija pomoću baze podataka Zagreb, Lipanj 2006

Kepstralna analiza Što je to KEPSTAR?!?!? Rebus od SPEKTAR Zagreb, Lipanj 2006

Kepstralna analiza • Inverzna Fourierova transformacija provede se nad logaritmom apsolutne vrijednosti Fourierove transformacije odsječka Zagreb, Lipanj 2006

Kepstralna analiza • Podijeliti signal na uzorke od 25 ms • Za svaki uzorak napraviti kepstar i kreirati vektor od prvih 12 članova • Dobije se niz kepstralnih vektora koji predstavlja govorne karakteristike osobe Zagreb, Lipanj 2006

Vektorska kvantizacija • Za niz takvih vektora treba naći N tipičnih, koji najbolje reprezentiraju cijeli skup vektora • Koristi se generalizirani Lloyd-Maxov kvantizator Zagreb, Lipanj 2006

Postupak kvantizacije • Način rada skalarnog (1-D) kvantizatora • Naći algoritam koji određuje razine kvantizacije takve da minimiziraju srednju kvadratnu pogrešku Zagreb, Lipanj 2006

Postupak kvantizacije • Odabere se proizvoljan skup N razina a1 < a2 < ... < aN • Za 1 ≤ j ≤ N odrede se bj= 0.5(aj+1 + aj) • Za 1 ≤ j ≤ N odrede se ajkao uvjetne srednje vrijednosti U, pri čemu je U (bj-1, bj] (uz b0 = -∞, a bN = ∞) • Koraci se ponavljaju dok srednja kvadratna pogreška ne postane zanemarivo malena Zagreb, Lipanj 2006

Postupak kvantizacije • Pokazalo se da se nakon određenog broja ponavljanja pogreška se gotovo više ne smanjuje Zagreb, Lipanj 2006

Postupak kvantizacije • Ovaj postupak treba generalizirati na 12 dimenzija • Kod skalarnog kvantizatora kao mjera distorzije koristi se kvadratna udaljenost • Analogno tome kod 12-dimenzionalnog kvantizatora koristimo euklidsku udaljenost Zagreb, Lipanj 2006

Izrada baze podataka • Za svaku osobu dobivenih N karakterističnih vektora pohranimo u bazu podataka • Tako dobivenu bazu koristimo u postupku identifikacije osoba Zagreb, Lipanj 2006

Postupak identifikacije • Nađemo niz kepstralnih vektora nepoznatog govornika • Taj niz vektora pokušamo kvantizirati sa svakim od projektiranih kvantizatora • Može se očekivati da onaj koji daje najmanju prosječnu kvadratnu pogrešku kvantizacije odgovara nepoznatom govorniku Zagreb, Lipanj 2006

Eksperimentalni rezultati • Kao granična srednja kvadratna pogreška uspješne identifikacije govornika ispitivanjem je dobiveno MSEgr = 0.1 Zagreb, Lipanj 2006

Zaključak • Za postizanje dovoljno malene srednje kvadratne pogreške kvantizacije bilo je dovoljno 100 reprezentativnih vektora dobivenih Lloyd-Maxovim algoritmom u 40-ak iteracija • Za bolji rad cijelog sustava potrebna je što veća duljina zvučnog zapisa kako bi dobivenih 100 tipičnih vektora što bolje predstavljalo govorne karakteristike nekog govornika Zagreb, Lipanj 2006

Literatura • Linde, J., Buzo, A., Gray, R. M.: An Algorithm for Vector Quantizer Design, IEEE Transactions on Communications, Vol. Com-28, No. 1, January 1980 • Campbell, J. P. Jr.: Speaker Recognition: A Tutorial, Proceedings of the IEEE, Vol. 85, No. 9, September 1997 • MIT, Fall 2002: Introduction to Digital Communication, Lecture 6: Quantization • Damir Seršić: Predavanje 14 SPUS: Skalarna kvantizacija signala Zagreb, Lipanj 2006

Pitanja ???? Zagreb, Lipanj 2006

Hvala na pažnji!!!! Zagreb, Lipanj 2006

Raspoznavanje govornika u zvučnom zapisu

Raspoznavanje govornika u zvučnom zapisu

Presentation Transcript

SERCE ODDANE POLSCE

KOMPOZICIJA GOVORA

UKŁADY LICZENIA SYSTEMY LICZBOWE

Przysposobienie biblioteczne i informacyjne

Branka Drljača Margić Odsjek za engleski jezik i književnost Filozofski fakultet u Rijeci

Ime in naziv govornika

Ewolucja Nośników Odczytu i Zapisu Danych

Schematy blokowe

System szesnastkowy

NTFS

GRAFIKA KOMPUTEROWA

Poziom podwyższony Ochrona danych

Reprezentacja liczb w systemie binarnym ułamki i liczby ujemne

Wpływ zapisu pionowego UKD na uproszczenie opracowania

Wyjściowy ( wejściowy ) ekran ze sonogramem programu SFS

Open Access – dzisiaj trendy jutro obowiązek?

System ósemkowy i szesnastkowy