420 likes | 511 Vues
Beszédfelismerés és beszédszintézis Beszédjel-tömörítés. Takács György 8. előadás. Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már nem korlátoz?. Minek tömöríteni a beszédjelet – válaszaim:.
E N D
Beszédfelismerés és beszédszintézisBeszédjel-tömörítés Takács György 8. előadás T.Gy. Beszed 2014. 03. 18.
Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már nem korlátoz? T.Gy. Beszed 2014. 03. 18.
Minek tömöríteni a beszédjelet – válaszaim: • Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél). • Nagy az árverseny a transzkontinentális összeköttetéseken • Korlátos, de főként nem garantált az interneten rendelkezésre álló sávszélesség….. • Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…) • Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány) • A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál) T.Gy. Beszed 2014. 03. 18.
Mekkora redundancia van a beszédjelben?Hány bitet kell átvinni legalább? (A digitális telefonátvitelben 8kHz mintavétel és 8 bites minta a szabványos > 64kbit/s) T.Gy. Beszed 2014. 03. 18.
Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis megfontolásból: • A leggyorsabb beszéd átlagosan kb. 10 beszédhang/s • A kb. 50 beszédhang van nyelvenként (angolban kb. 25) • 1 beszédhang információ tartalma kb. 0,5 bit (az egyes beszédhangok előfordulási gyakorisági értékei miatt) • Eredmény kb. 250 (angolban 125) bit/s T.Gy. Beszed 2014. 03. 18.
Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés megfontolásból: • Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s • Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s T.Gy. Beszed 2014. 03. 18.
Miből fakad a nagyságrendi eltérés? T.Gy. Beszed 2014. 03. 18.
Miből fakad a nagyságrendi eltérés – válaszaim: • Amikor én Önök elé állok mit szoktam mondani első mondatban? • Mekkora új információt hordoz Önök számára, ha ismét elmondom? • A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya??? • Mekkora az egymás mellé sorsolható és a tényleg kimondható beszédhang stringek aránya???? • Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye????? • Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat…. • Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!! T.Gy. Beszed 2014. 03. 18.
Az emberi információ-feldolgozás egy általános modellje Forrás: Christopher D. Wickens and Justin G. Hollands, Engineering Psychology and Human Performance, Third ed. (Upper Saddle River, NJ: Prentice Hall, 2000) T.Gy. Beszed 2014. 03. 18.
A természetes beszédlánc T.Gy. Beszed 2014. 03. 18.
A beszédhangok folytonos és diszkrét természete T.Gy. Beszed 2014. 03. 18.
A mai beszédtömörítőknek melyik beszédlánc-elem tulajdonságait kell kihasználniuk? • A nyelvi folyamatok szabályait és háttérismereteit? • A beszédkeltés folyamatának kötöttségét? • A hallási folyamat megkötöttségeit? • Az agyi beszédmegértési folyamat megkötöttségeit? • Miért???? T.Gy. Beszed 2014. 03. 18.
Mit várunk a beszédtömörítőktől? • Értse amit mondunk – nem! • Tudja milyen nyelven beszélünk – nem! • A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvalóan a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket! T.Gy. Beszed 2014. 03. 18.
Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest? • A laboratóriumi rendszerek lementek 1 kbit/s alá! • Ami az Önök zsebében most ott lapul , az 5,6 kbit/s értéket tudja (half rate codec) • Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható – és ésszerű áron megvalósítható!!!!. T.Gy. Beszed 2014. 03. 18.
Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL GSM HALF RATE 23 óra 18 perc (5600 bit/s) GSM FULL RATE 22 óra 29 perc (13000 bit/s) Shannon szerinti telefon 13 óra (96000bit/s) Elvi kiejtési határ 23 óra 58 perc 250 bit/s Laboratóriumi csúcs 23 óra 51 perc 1000bit/s T.Gy. Beszed 2014. 03. 18.
"A lathe is a big tool. Grab every dish of sugar." Eredeti 2400 bit/s T.Gy. Beszed 2014. 03. 18.
Közelítő feltételek után a csőben terjedő hanghullámokat leíró egyenletek: Ahol: p – hangnyomás, u -- térfogatsebesség ρ – a levegő sűrűsége c – a levegőben terjedő hang sebessége T.Gy. Beszed 2014. 03. 18.
(a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization T.Gy. Beszed 2014. 03. 18.
Egy állandó keresztmetszetű kis szakaszra: A(x,t)=A0 Emlékezzünk a sodrott érpárakat leíró egyenletek alakjára T.Gy. Beszed 2014. 03. 18.
Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai T.Gy. Beszed 2014. 03. 18.
Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek, ezért A keresztmetszetváltásnál felírható a folytonossági egyenlet Bevezetve a reflexiós tényezőt: T.Gy. Beszed 2014. 03. 18.
Egy keresztmetszetváltás és a hozzá kapcsolódó szakaszok térfogatsebesség viszonyai folyamatábrában T.Gy. Beszed 2014. 03. 18.
Térfogatsebesség viszonyok a cső végén T.Gy. Beszed 2014. 03. 18.
Térfogatsebesség viszonyok a cső elején T.Gy. Beszed 2014. 03. 18.
A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal T.Gy. Beszed 2014. 03. 18.
Hogyan határozhatók meg a csőmodell paraméterei a beszédjel mintáiból? T.Gy. Beszed 2014. 03. 18.
Lineáris predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az αilineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma T.Gy. Beszed 2014. 03. 18.
A predikció pontatlanságát jellemzi az predikciós hiba A predikciós hiba általában mintáról mintára változik! Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az αi értékeket, hogy a predikciós hiba négyzetösszege minimális legyen. T.Gy. Beszed 2014. 03. 18.
Ez a négyzetes hiba az [n0, n1] tartományra vonatkozik! A z eredeti jel, predikált jel, hibajel értelmezhető úgy is, mint a predikciós együtthatókkal leírt fizikai rendszerek be- és kimeneti jelei. T.Gy. Beszed 2014. 03. 18.
A PARCOR eljárás T.Gy. Beszed 2014. 03. 18.
Bevezetve az új kváltozót Az egyenleteket rendezgetve egy rekurzív formula nyerhető: Tehát nem nagy mátrix-egyenleteket kell megoldani, hanem α értékei rekurzív formulával számolhatók! T.Gy. Beszed 2014. 03. 18.
Először kiszámoljuk k1-et minden n-re Majd e1(n) és f1(n) értékeit minden n-re és ez hasonlóan tovább ismételhető Fontos!!! |ki|≤1 T.Gy. Beszed 2014. 03. 18.
Belátható, hogy az alábbi rács struktúrák ekvivalensek… Ezért a csőmodell azonos a PARCOR szintézis modellel, ha ri = ─ ki T.Gy. Beszed 2014. 03. 18.
A beszédtömörítés alapvető modelljei 2013-ban • A beszédjel mintákból a lineáris predikció PARCOR együtthatói rekurzív képlettel kiszámolhatók. • Az együtthatók kis hibával leírják a beszédjel egy szakaszát. • A hibajel és az együtthatók pontos értékei a számítási hibán belül pontosan leírják az eredeti beszédjelet. • A modell stabilitási kritériumai garantálhatók számítási és átviteli hibák esetén is. • A predikciós együtthatók és a hibajelek jól kvantálhatók staisztikai jellemzőik és percepciós kísérletek eredményei alapján. • A predikciós paraméterek és hibajel paraméterek a beszédképzési modell jellemzőivel közvetlen fizikai kapcsolatban állnak. T.Gy. Beszed 2014. 03. 18.