1 / 59

Internetes médiakommunikáció Beszéd-kodekek

Internetes médiakommunikáció Beszéd-kodekek. Takács György 3. előadás 2009. 03. 04. Ismétlés Beszéd-kodekek általában GSM beszéd-kodekek SPEEX kodekek. Alapfogalmak.

janae
Télécharger la présentation

Internetes médiakommunikáció Beszéd-kodekek

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Internetes médiakommunikációBeszéd-kodekek Takács György 3. előadás 2009. 03. 04. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  2. Ismétlés • Beszéd-kodekek általában • GSM beszéd-kodekek • SPEEX kodekek T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  3. Alapfogalmak • Internetes médiakommunikáció = Szöveg, állókép, hang, beszéd, (strukturált) adat továbbítása Internet Protokoll alapú hálózatokon a megkívánt minőséggel, adatbiztonsággal, interaktivitással, megbízhatósággal. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  4. A beszédhangok folytonos és diszkrét természete T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  5. A beszéd szerkezete • A beszéd egymástól megkülönböztethető elemek szervezett időbeni egymásutánisága – soros szerkezet. • Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang. • Egy ötven beszédhangból álló nyelvben (leszámítva, hogy nem minden hang mondható egymás után) kb. egymillió különböző tíz hangból álló szó képezhető. • A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  6. Lineári predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az αilineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  7. A predikció pontatlanságát jellemzi az predikciós hiba A predikciós hiba általában mintáról mintára változik! Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az αi értékeket, hogy a predikciós hiba négyzetösszege minimális legyen. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  8. (a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  9. Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már nem korlátoz? T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  10. Minek tömöríteni a beszédjelet – válaszaim: • Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél). • Nagy az árverseny a transzkontinentális összeköttetéseken • Korlátos és nem garantált az interneten rendelkezésre álló sávszélesség….. • Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…) • Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány) • A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál) T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  11. Mekkora redundancia van a beszédjelben?Hány bitet kell átvinni legalább elvileg? (A digitális telefonátvitelben 8kHz mintavétel és 8 bites minta a szabványos > 64kbit/s) T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  12. Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis megfontolásból: • A leggyorsabb beszéd átlagosan kb. 10 fonéma/s • A kb. 50 fonéma van nyelvenként (angolban kb. 25) • 1 fonéma információ tartalma kb. 0,5 bit (az egyes fonémák előfordulási gyakorisági értékei miatt) • Eredmény kb. 250 (angolban 125) bit/s (de ez nem tartalmazza a beszélő személyét, hangulatát, a hangsúlyokat stb….) T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  13. Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés megfontolásból: • Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s • Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s (hivatkozott cikk lásd 2. előadás) T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  14. Miből fakad a nagyságrendi eltérés? T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  15. Miből fakad a nagyságrendi eltérés – válaszaim: • Amikor én Önök elé állok szerdán délután mit szoktam mondani első mondatban? • Mekkora új információt hordoz Önök számára, ha ismét elmondom? • A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya??? • Mekkora az egymás mellé sorsolható és a tényleg kimondható fonéma stringek aránya???? • Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye????? • Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat…. • Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!! T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  16. Mit várunk a beszédtömörítőktől? • Értse amit mondunk – nem! • Tudja milyen nyelven beszélünk – nem! • A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvaló a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket! T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  17. Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest? • A laboratóriumi rendszerek lementek 1 kbit/s alá! • Ami az Önök zsebében most ott lapul , az 5,6 kbit/s értéket tudja (half rate codec) • Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  18. Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL GSM HALF RATE 23 óra 18 perc (5600 bit/s) GSM FULL RATE 22 óra 29 perc (13000 bit/s) Shannon szerinti telefon 13 óra (96000bit/s) Elvi kiejtési határ 23 óra 58 perc 250 bit/s Laboratóriumi csúcs 23 óra 51 perc 1000bit/s T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  19. "A lathe is a big tool. Grab every dish of sugar." Eredeti 2400 bit/s T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  20. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  21. A GSM rendszer -- áttekintés • Nyilvános cellás (analóg) rádiótelefon rendszerek működtek az 1980-as évek elejétől • Korlátaik: • sávszélesség pazarlás, • csak a saját hálózaton belül használható egy végberendezés, • nem tudott kialakulni a kritikus tömeg a magas árak miatt… T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  22. A GSM rendszer – áttekintés (2) • GSM Memory of Understanding -- 13 ország megállapodása 1987-ben, hogy kidolgozzák a közös technológiát 1991 július 1-re. • A rendszer legyen korszerű, hatékony, tegye lehetővé a bolyongást egész (nyugat) Európában. • A végberendezés legyen egységes, az előfizetés SIM kártyához kapcsolódik…. • Legyen versenylehetőség országon belül is….. • Először szabványosítás, utána gyártás…. • Szabványosítás az ETSI keretében… • Első változat 6000 oldal!!!! T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  23. A GSM rendszer – áttekintés (3) • Az európai megoldás eredménye: • Soha nem látott ütemű fejlődés, • Ma Magyarországon közel 11 millió előfizető (2008. április), • A világon több, mint 2 milliárd GSM előfizető volt 2007 végén • 2003-ban kb. 400 millió codec chip készült (több mint napi 1 millió darab!!!!) • Ma csak erről az „apróságról” lesz szó…. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  24. A GSM rendszer – áttekintés (4) • Egy GSM terminál funkciói: • Hány csip kell ehhez? T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  25. KODEK követelmények • Nagy tömörítés (64 kbit/s-ről kb. 10 kbit/s-re) • Tisztán digitális rendszer • Jó minőség • Hibatűrés (a rádiós átvitel sajátosságai miatt) • Stabilitás • Kis késleltetés (max. 50 ms) • Kis fogyasztás • Implementálhatóság • Full Rate, Half Rate, Enhanced Full Rate, Adaptive Rate változatok T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  26. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  27. GSM KODEK követelmények • Nagy tömörítés (64 kbit/s-ről kb. 13 kbit/s-re) • Tisztán digitális rendszer • Jó minőség • Hibatűrés (a rádiós átvitel sajátosságai miatt) • Stabilitás • Kis késleltetés (max. 50 ms) • Kis fogyasztás • Implementálhatóság • Full Rate, Half Rate, Enhanced Full Rate, Adaptive Rate változatok T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  28. GSM Kodek alapjellemzők • Mintavételi frekvencia 8kHz • Analízis keret 20ms (160 minta) • Reflexiós együtthatók száma 8 (prediktor fokszáma) kifejezése LAR (Log Area Reflexion) paraméterekkel • Reziduális hiba tovább bontva 4 db 40 mintás alszegmensre RPE (Regular Pulse Exitation) kódolás és LTP (Long Term Predictor) kódolással • 260 bit/20 ms (13000 bit/s) nettó bitsebesség T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  29. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  30. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  31. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  32. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  33. Kell-e egy mai mérnöknek CODEC programot írnia? • Nem, mert letölthető sok változat, kapható kész chipset! T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  34. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  35. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  36. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  37. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  38. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  39. Int. Headquarters • ISRAEL • AudioCodes Ltd. • 1 Hayarden Street, Airport City Lod, 70151 (Get Directions) • Tel: +972-3-976-4000 • Fax: +972-3-976-4040 T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  40. Egyik alapvető kodek termék: AudioCodes’ AC494/5/6/7 family of System on Chip (SoC) provides IP phone and Customer Premises Equipment (CPE) manufacturers with cutting-edge VoIP processing system capabilities. The AC494 family combines MIPS Controller, AC49x DSP Core and a rich set of peripherals such as Codecs, Ethernet MACs and Phys, integrated 3 Port Switch and more. Several silicon derivatives of this family allow cost optimization per application. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  41. AudioCodes’ AC494/5/6/7 Software Specifications • Channel Density: Up to 6 channels • Voice Coders: G.711, G.723, G.729, G.722.2, iLBC, G.722* • Echo CancellerG.168-2002 compliant; Full duplex acoustic EC • 3/4 Way Conferencing: 3/4 participants from PSTN or IP • Quality Enhancement: • Voice Activity Detection (VAD), • Comfort Noise Generation (CNG), • Packet Loss Concealment (PLC), • Adaptive Jitter Buffer (up to 300 msec) T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  42. A SPEEX kodek koncepciója • A fejlesztők egy nyílt forráskódú beszédkodeket terveztek, amelynél nem kell kodekenként díjat fizetni a szabadalom tulajdonosainak. Valami olyat terveztek, mint a Vorbis az audio (zenei) kodekek területén. • Nem a mobiltelefonok igényét tartották szemelött (persze abból már működik több, mint 2 milliárd darab), hanem kifejezetten az IP alapú hálózatok igényeit és a VoIP alkalmazásokat. Jól alkalmazható a SPEEX beszédjelek tömör tárolására is fájlokban. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  43. A SPEEX kodek koncepciója • Legyen rugalmas és széles beszédminőség-tartományban használható azaz különböző bitsebességeknél. Felöleli a szélessávú (16kHz mintavételes) jóminőségű beszédkódolástól a szokásos telefonminőségen át a 4,8 kbps tömörítésig. • A SPEEX jól tűri a csomagveszést, de nem működik jól bithibák esetén. Azt feltételezi, hogy a csomagok vagy megérkeznek rendben vagy elvesznek. • Mivel sokféle eszközben tervezték a felhasználását, ezért törekedtek a fejlesztésénél ara, hogy megvalósításánál a processzorteljesítmény és tárterület igény minimális legyen. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  44. A SPEEX kodek koncepciója • A követelmények alapján a legjobban illeszkedő kódolási technika a CELP (Code Excitation Linear Prediction). Ez a technika egyrészt bevált, megbízható, továbbá alkalmas széles minőségi tartományban hasonló algoritmusú működésre. • A SPEEX kódolás veszteséges, azaz a tömörítést beszédminőség rovására hajtja végre. A tömörítési arány beállítható és lehetséges az állandó (CBR) vagy változó (VBR) bitsebességű működés is. (2,15 kbps – 44kbps) • A kódolás komplexitása is változtatható. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  45. A SPEEX kodek koncepciója • Beszéddetektálás (VAD) a kodek eldönti, hogy jön-e beszédjel, vagy beszédszünet van (esetleg háttérzaj). Ha nincs aktív beszédjel, akkor nem kódol, hanem csak egy pár mintával reprezentált „komfort” zajt ad ki. • A SPEEX kodek elvi (CPU idő nélküli) késleltetése 8kHz mintavételezésnél 30 ms, 16 kHz-nél 34 ms. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  46. SPEEX keskenysávú módban T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  47. SPEEX szélessávú módban T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  48. SPEEX kodek elemek - segédelemek • Zajcsökkentés • Automatikus szintszabályozás (AGC) • Beszéddetektálás (VAD) • Adaptív buffer • Visszhangzár T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  49. Visszhangzár elve (hangszórós működéskor fontos, hogy a partner ne hallja késleltetve vissza a saját hangját) T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

  50. A CELP elv T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

More Related