1 / 82

Transmisia datelor multimedia in retele de calculatoare Compresia audio I

UNIVERSITY POLITEHNICA of BUCHAREST DEPARTMENT OF COMPUTER SCIENCE. Transmisia datelor multimedia in retele de calculatoare Compresia audio I. Conf. Dr. Ing . Costin-Anton Boiangiu < Costin.Boiangiu@CS.PUB.RO >. Cuprins. Debitul de informatie al surselor audio

tacy
Télécharger la présentation

Transmisia datelor multimedia in retele de calculatoare Compresia audio I

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UNIVERSITY POLITEHNICA of BUCHAREST DEPARTMENT OF COMPUTER SCIENCE Transmisiadatelor multimedia in retele de calculatoareCompresia audioI Conf. Dr. Ing. Costin-Anton Boiangiu <Costin.Boiangiu@CS.PUB.RO>

  2. Cuprins • Debitul de informatie al surselor audio • Motivatia compresiei vorbirii • Motivatiacompresiei audio • Compresia vorbirii • Compresia audio • Criterii de perfomanta in codarea vorbirii

  3. Debitul de informatie al surselor audio • Clasele de semnale audio sunt: • semnalele generate de vorbirea umana pentru canale telefonice • vorbirea de banda larga • semnalul audio de banda larga • Fiecare dintre ele diferaprin: • banda • gama dinamica (dynamic range) • calitatea asteptata a ascultatorului (destinatarului) • Calitatea vorbirii de banda telefonica (cca. 3 KHz) este acceptabila pentru telefonie si o serie de servicii de video-telefonie • Benzi mai mari (7 KHz pentru vorbirea de banda larga) sunt necesare pentru imbunatatirea inteligibilitatii si naturaletii vorbirii • Reprezentarile audio de banda larga (fidelitate mare), incluzand necesitatile audio multicanal, necesita benzi de cel putin 20 KHz

  4. Debitul de informatie al surselor audio • Formatul numeric conventional as semnalelor audio estedat de modulatia in cod a impulsurilor (PCM= Pulse Code Modulation)

  5. Debitul de informatie al surselor audio • Formatul pentru CD(Compact disc) este standardul de facto al reprezentarii audio numerice • Cu rata de esantionare de 44.1 KHz, debitul de informatie pentru un semnal stereo pentru un CD este: 2 x 44.1 x 16 x 1000 = 1.41 Mb/s • Este necesarun antet (overhead) semnificativ pentru codul de linie, care transforma cei 8 biti de informatie in 14 biti, (pentru sincronizare si corectia erorilor) =>49 de biti pentru fiecare esantion audio de 16 biti =>debitul stereo total este 14.1 x 49 / 16 = 4.32 Mb/s

  6. Debitul de informatie al surselor audio • Comparatieintrediferitele debite ale CD-ului cu cele ale unei benzi audio digitale (DAT = digital audio tape) Debitele pentru CD si DAT(Semnal stereo, esantionat cu 44.1 KHz; DAT esantionat la 32 KHz si 48 KHz)

  7. Codarea vorbirii vs. codareasemnalului audio • Codarea audio implica: • rate de esantionare mai mari • o rezolutie in amplitudine mai buna • gama dinamica mare • variatii mari in spectrul de putere • reprezentare stereo si multicanal • calitate mai buna • Codarea vorbirii si codarea audio sunt similare in sensul ca ambele se bazeaza pe proprietatile perceptiei audio umane • Vorbirea poate fi codata foarte eficient prin utilizarea unui model de producere a sunetului, pe cand semnalele audio nu se preteaza la aceasta metoda • In algoritmii de codare curenti se folosesc patru tehnologii de baza: • codarea perceptuala (perceptual coding) • codarea domeniului de frecventa (frequency-domain coding), • comutarea ferestrelor (window switching) • alocarea dinamica a bitilor (dynamic bit allocation)

  8. Motivatia compresiei audio • Fie o melodie cu durata de 1 minut • In conditii de calitate CD, semnalul audio: • este esantionat cu frecventa de 44.1 KHz (deci, 44100 esantioane/secunda) • este semnal stereo • are 16 biti pe esantion • In format binar (wav), rezulta un necesar de memorie (sau de stocare) de: 44.100 esantioane / s * 2 canale * 16 bit / esantion * 60 s = 84.672.000 biti = 10,584 MBytes

  9. Motivatia compresiei audio • O melodie modesta de cateva minute, de exemplu 3-4 minunte, va ocupa un spatiu de 10,584 Mbytes * 3-4 min. = 31.752 – 42.336 MB • Pentru un album cu 10 melodii rezulta un necesar  10 melodii * 40 MB = 400 MB ceea ce este cam mult pentru majoritatea utilizatorilor obisnuiti

  10. Motivatia compresiei audio • Daca se considera problema transmiterii pe un canal internet a unei singure melodii, pe o conexiune cu viteza de 64 Kbit/s, este necesar un timp de  [10,584 MBytes * 8 bit/Byte] / [64 Kbit/s * 60 s/min ] = 22.05 min ceea ce este iarasi destul de mult pentru un utilizator obisnuit • Utilitarele de compresie a semnalelor audio realizeaza rapoarte de compresie de pana la 10 ori, fara pierderea calitatii subiective a semnalului, astfel incat timpul transmiterii se poate reduce la 2 min, ce poate fi acceptabil

  11. Motivatia compresiei vorbirii • Codarea vorbirii este un aspect important al telecomunicatiilor moderne • Codarea vorbirii = procesul de reprezentare numerica a semnalului vorbire • Obiectivul de baza al codarii vorbirii este de a reprezenta semnalul vorbire: • cu un numar mic de biti • cu mentinerea unui nivel de calitate suficient pentru refacerea vorbirii originale • cu un grad de dificultate rezonabil

  12. Motivatia compresiei vorbirii • Un numar mic de biti inseamna: • o banda mica necesara transmisiei • mai putina memorie pentru memorare • Desi in sistemele de comunicatie cu fir sunt disponibile benzi foarte mari de frecventa (ex. cablul optic), in comunicatiile fara fir si cele prin satelit banda este limitata • Comunicatiile multimedia si alte aplicatii bazate pe vorbire necesita voce reprezentata numeric • Algoritmii de codare aplica metode sofisticate pentru reducerea redundantei

  13. Motivatia compresiei vorbirii • Semnalul vorbire este un semnal analogic s(t) esantionat la o frecventa de esantionare ts ≥ 2fmax, unde fmax este frecventa maxima din spectrul semnalului s(t) • Semnalul discret va fi notat cu s(n) • Acest semnal este apoi codat prin diverse scheme de codare cum sunt PCM sau codare predictiva • In codarea PCM (Pulse Coded Modulation) : • semnalul discret este cuantizat in 2N nivele • fiecare esantion s(n) este reprezentat pe R biti • Cuantizorul poate fi • uniform sau neuniform (cuantizatoarele neuniforme utilizeaza mai putini biti pe esantion, asa cum sunt cuantizoarele cu lege  sau A, ce folosesc numai 8 biti pe esantion) • scalar sau vectorial • Un cuantizor tipic foloseste 8 sau 16 biti pe esantion

  14. Motivatia compresiei vorbirii • In codarea predictiva codorul considera un grup de esantioane, la un moment dat, extrage o serie de coeficienti ce modeleaza esantioanele considerate, converteste coeficientii in simboluri binare si le transmite pe canal • Se obtine astfel o reprezentare compacta cu mai putini biti • Decodorul reconstruieste semnalul vorbire din parametrii transmisi, asa cum se prezinta in urmatoareafigura (Schema de baza pentru un sistem de transmisiune audio cu codare-decodare)

  15. Tehnici de compresie a vorbirii in domeniul timp • Motivatie: • reducerea timpului necesar unui utilizator pentru a asculta un mesaj, prin cresterea capacitatii de comunicare a urechii • reducerea cantitatii de date in vederea minimizarii spatiului de memorare si a benzii de transmisie a mesajelor vorbite • Compresia in timp a vorbirii poate fi utilizata intr-o varietate de aplicatii incluzand instruirea, ajutorarea celor cu deficiente auditive si pentru interfetele om-calculator • Ex.: Studiile au aratat ca ascultarea de doua ori a materialelor redate cu o viteza dubla este mult mai eficienta decat ascultarea mesajelor la viteza normala

  16. Tehnici de compresie a vorbirii in domeniul timp • Compresia temporala esteutilizata in: • prezentarea mesajelor in sistemele de mail vocal • ajutorarea persoanelor cu deficiente majore de vedere • sistemele de recunoastere a vorbirii cand formele de intrare sunt normalizate la o lungime standard • Vorbirea comprimata in timp este referita ca: • accelerata • comprimata • cu scara de timp modificata • cu viteza marita • cu timp modificat

  17. Vorbirea rapida • Rata de vorbire normala in Engleza este intre 130 si 200 cuvinte pe minut (wpm) • Cand se vorbeste repede, vorbitorul schimba ne-intetionat atributele relative ale vorbirii relativ la durata pauzelor, durata vocalelor consonante etc. • In general, vorbitorii pot comprima vorbirea lor pana la 70%, limitarea fiind din cauza limitarilor fiziologice

  18. Schimbarea vitezei • Schimbarea vitezei este similara cu redarea unei casete la o viteza mai mare sau mai mica • Metoda poate fi reprodusa digital prin schimbarea ratei de esantionare in timpul intoarcerii casetei • Metodele nu sunt prea folosite intrucat produc un efect nedorit al modificarii frecventei proportional cu schimbarea vitezei de redare, cauzand o scadere a inteligibilitatii

  19. Sinteza vorbirii • Cu o voce pur sintetica este posibil sa se genereze vorbire la diverse rate ale cuvintelor • In mod curent sintetizoarele text-vorbire pot produce rate de pana la 550 wpm • Acest lucru se obtine prin reducerea selectiva a fonemelor (phoneme) si a duratei pauzelor • Tehnica este puternica, in particular pentru ajutorarea persoanelor cu dizabilitati, dar nu este relevanta in raport vorbirea inregistrata

  20. Eliminarea pauzelor (Silence Removal) • Cea mai simpla metoda consta in utilizarea energiei sau mediei amplitudinii, combinata cu pragurile de timp • Alte metode utilizeaza masuratori de trecere prin zero sau parametrii LPC • De exemplu tehnica TASI (Time Assigned Speech Interpolation) este utilizata pentru a dubla capacitatea cablurilor telefonice transoceanice • Tehnica DSI (Digital Speech Interpolation) este similara dar se lucreaza in totalitate in domeniul digital • DSI/TASI doresc sa conserve banda sistemului

  21. Esantionare neuniforma • Principiul metodei este prezentat in urmatoareafigura • Daca intreruperile se fac la intervale regulate, largi portiuni din semnal se pot sterge fara a se afecta inteligibilitatea

  22. Esantionare neuniforma • O alta tehnica prezentata in figura urmatoare (C): segmentele semnalului vorbire sunt alternativ indepartate si retinute • Durata fiecarui interval de esantionare trebuie sa fie cel putin egala cu a unui formant (pitch) (15 ms) dar trebuie sa fie – de asemenea – mai mica decat lungimea unui fonem

  23. Esantionarea cu prezentare dihotonica (Sampling with Dichotic Presentation) • O varianta interesanta a metodei de esantionare este obtinuta prin redarea semnalului esantionat standard unei urechi si a materialului „indepartat” celeilalte urechi • Sub aceasta conditie „dichotic” inteligibilitatea si propuntierea cresc • Desi initial exista o slaba dificultate in intelegerea mesajului, adaptarea este imediata • Raportul de compresie creste pana la 50% prin pastrarea intregii informatii din semnalul original

  24. Esantionarea cu prezentare dihotonica • Cuantizarea numerica pe un numar mare de biti conserva formele de unda, in sensul ca semnalul de la iesire este apropiat de semnalul de la intrare, ca forma de unda • Diferenta formelor de unda, de la iesire si de la intrare constituie criteriul eroare pentru proiectarea circuitului de cuantizare • Cand cuantizarea se realizeaza cu numar mic de biti (numar mic de simboluri binare), in proiecatrea codorului trebuie sa se includa informatie despre producerea si perceptia semnalelor audio, astfel incat semnalul de iesire poate sa difere mult de semnalul de intrare, insa efectul acestora asupra urechii umane sa fie acelasi

  25. Esantionarea cu prezentare dihotonica • In principiu, un algoritm de codare eficienta a sursei va: • indeparta componentele redundante ale sursei de semnal prin exploatarea corelatiilor dintre esantioane. (codare entropica) • Indeparteaza componentele care nu sunt percepute de urechea umana • Irelevanta se manifesta ca o amplitidine ne-necesara sau ca o rezolutie in frecventa • Portiunile de semnal care sunt mascate nu trebuie transmise. (codare perceptuala)

  26. Compresia audio bazata pe modelul perceptiei audio (Perceptual coding) • Schema de baza a unui codor-decodor audio, bazat pe model, este prezentata maijos • Se remarca existenta a doua piese de baza la partea de codare: • Un bloc pentru transformarea semnalului intr-o reprezentare care modeleaza precis sursa • Un model care modeleaza acusto-fiziologic (psihoacustic, in engleza) aparatul auditiv • Acesta furnizeaza o aproximare a mecanismelor de perceptie ale urechii umane • Cele doua blocuri (transformari) determina marimea reducerii ce poate fi obtinuta prin procesul de codarea

  27. Compresia audio bazata pe modelul perceptiei audio (Perceptual coding) • In etajul de reprezentare al semnalului are loc reducerea redundantei semnalului • In codarea vorbirii, un model fizic al tractului vocal este folosit pentru definirea parametrilor vorbirii • Acesti parametrii, impreuna cu informatia reziduala, sunt codati. In timp ce aceasta tehnica permite obtinerea unor rapoarte de compresie foarte mari, nu este foarte eficienta cu semnale muzicale pentru ca este foarte dificil sa se modeleze bine toate sursele posibile de muzica • In codarea audio, reprezentarea din domeniul timp a semnalului este tipic transformata intr-o reprezentare timp-frecventa cu ajutorul unui banc de filtre (cascada de filtre) • In acest caz, iesirile din domeniul frecventa ale bancului de filtre furnizeaza reprezentarea primara a semnalului

  28. Compresia audio bazata pe modelul perceptiei audio (Perceptual coding) • Urechea umana realizeaza o analiza Fourier echivalenta cu un bank (lant) de filtre, unde transformarea frecventelor de lucru in „lucru mecanic” are loc in membrana basilara. • Spectrele de putere nu sunt reprezentate pe o scara liniara a frecventelor, ci pe benzi de frecventa limitate, denumite benzi critice • Sistemul auditiv poate fi descris ca un banc de filtre trece banda, a caror caracteristica amplitudine – frecventa se suprapun • Filtrele au banda de ordinul 50-100 Hz pentru frecvente mai mici de 500 Hz si de pana la 5000 Hz pentru semnale de frcventa mai mare • In gama audio, se pot defini astfel 26 benzi critice acoperind intervalul de frecventa de pana la 24 KHz

  29. Compresia audio bazata pe modelul perceptiei audio (Perceptual coding) • Ipoteza generala este ca semnalele audio sunt cvasi-stationare, deci, o corespondenta in domeniul frecventa rezulta intr-o reprezentare a semnalului care este mai eficienta decat PCM directa • Cu cat fereastra de analiza este mai mare cu atat presupunerea este mai buna • In general, se face un compromis intre o codare de eficienta inalta, data de un bank de filtre cu inalta rezolutie, obtinuta in etajul de reprezentare a semnalului si costul memoriei/intarzierii necesara intregului sistem de codare • Cercetarile din domeniul rezolutiei spectrale au arata ca o alegere buna pentru o rezolutie de frecventa este de 20 Hz ce corespunde unei rezolutii in domeniul timp de 25ms

  30. Compresia audio bazata pe modelul perceptiei audio (Perceptual coding) • Bancuri de filtre variante in timp sunt des utilizate pentru a evita imprastierea zgomotului de cuantizare in timp in semnalul rconstituit • Aceste metode permit bancului de filtre sa se adapteze la o rezolutie de timp marita, tipic egala cu 5ms, in prezenta unui tranzient (impuls).

  31. Reducerea ratei de informatie • Interesul pentru reducerea ratei de bit (low bit rate coding) este dat de necesitatea minimizarii costurilor de transmisiei si a necesarului de memorie pentru stocare, de necesitatea de a transmite pe canale cu capacitate limitata, asa cum sunt canalele radio mobile, si pentru a suporta codarea cu pas variabil • Compresia ratei de informatie pentru semnale audio si vorbire se poate face prin: tehnici predictive, codare sub-banda, codare prin transformare, diferite forme de cuantizare vectoriala • Se obtin astfel rate de 0.5-1 bit/esantion pentru vorbire si 1-2 bit/ esantion pentru semnale audio

  32. Codarea in domeniul de frecventa (Frequency-domain coding) • In domeniul frecventa se poate defini redundanta ca fiind o caracteristica spectrala ascutita (ne-plata) pe termen scurt a sursei de semnal • Irelevanta inseamna componente spectrale cu amplitudine mai mica decat pragul psihoacustic • Cele doua trasaturi (redundanta si irelevanta) sunt folosite pentru a reduce cantitatea de simboluri in raport cu PCM • Acest lucru se obtine prin impartirea spectrului sursei in benzi de frecventa pentru a genera componente spectrale necorelate si prin cuantizarea acestor componente separat • Se folosesc doua categorii de codare: • Codarea transformarii (TC=transform coding) • Codarea sub-benzii (SBC=subband coding)

  33. Codarea in domeniul de frecventa • Diferentele dintre cele doua categorii sunt de ordin istoric • Amandoua utilizeaza o analiza filterbank in codor pentru a descompune semnalul de iesire in componente spectrale sub-esantionate • Componentele spectrale se numesc esantioane subbanda (subband samples) daca bancul de filtre are o rezolutie mica; in caz contrar se numesc linii spetrale sau coeficienti de transformare • Aceste componente spectrale sunt recombinate in decodor prin sinteza fitrului bank

  34. Codarea sub-benzii (SBC=subband coding) • In SBC, sursa de semnal este supusa unei analize filterbank constand din M filtre trece banda care sunt continue in frecvente astfel incat multimea semnalelor subbanda poate fi recombinata aditiv pentru a produce semnalul original sau o versiune apropiata a acestuia • Fiecare iesire a filtrului este decimata la limita (se mai spune critic decimata)(adica esantionata la dublul benzii nominale) cu un factor egal cu M, numarul de filtre trece banda • Aceasta decimare rezulta intr-un umar de esantioane subbanda ce egaleaza acelea din semnalul original • In receptor, rata de esantionare a fiecarei subbenzi este crescuta la cea a sursei de semnal prin completarea la un numar apropiata cu esantionae zero

  35. Codarea sub-benzii • Semnalelel subbanda interpolate apar la iesirile FTB ale filtrului de sinteza • Procesul de esantionare poate introduce distorsiune de esantionare (aliasing distorsion) din cauza suprapunerii subbenzilor • Daca se folosesc filtre perfecte, (filtre dublu-banda in cuadratura sau filtre polifazice), termenii aliasing sunt eliminati si suma iesirilor filtrelor trecebanda este egala cu semnalul de intrare, in absenta cuantizarii

  36. Codarea sub-benzii

  37. Codarea transformarii (TC=transform coding) • In TC, un bloc de esantionae de intrare este transformat liniar cu o transformata discreta intr-un set de coeficienti de transformare, aproape ne-corelati • Acesti coeficienti sunt cuantizati si transmisi in forma numerica spre decodor • In decodor are loc transformarea inversa, refacand semnalul in domeniul timp • In absenta erorilor de cuantizare sinteza furnizeaza o reconstructie exacta • Transformari tipice sunt: tranformata Fourier discreta, transformata cosinus discreta (DFT), sau trasformata cosinus discreta modificata (MDCT)

  38. Codarea transformarii • MDCT (Modified DCT) se bazeaza pe o suprapunere de 50% a filtrelor succesive de analiza • Efectul consta in obtinerea unui castig mai mare si a unui raspuns al filtrelor individuale mai bun. • S-a mentionat ca decodorul bazat pe transformta inversa poate fi privit ca un filtru bank; raspunsul la impuls al filtrelor trece banda componente este egal cu secventa transformarilor de baza • Raspunsul la impuls al filtrului de analiza este versiunea inversata in timp

  39. Codarea transformarii • Schema a bloc a sistemului cu compresia audio folosind codarea transformarii

  40. Codarea transformarii • Pre-procesarea inseamna una sau mai multe prelucrari de tipul: filtrare, compresia domeniului de variatie a amplitudine, folosirea unui model perceptual pentru indeparatarea informatiei nerelevante • Prin T este reprezentata o transformare de tipul Fourier, DCT sau MDCT • Selectia coeficientilor inseamna selectarea celor mai importanti coeficienti pentru indeplinirea unui criteriu de eroare minima • Codarea coeficientilor inseamna – de fapt – o codare de canal, adica adaugarea unor simboluri de control pentru protectia la perturbatii si, eventual, a unor informatii privitoare la parametrii transformarilor din etapa de pre-procesare • La receptie are loc decodarea coeficientilor si aplicarea unei transformari inverse pentru refacerea semnalului initial

  41. Metoda de compresie LPC • LPC = Linear Predictive Coding • LPC exploateaza redundanta semnalului vorbire prin mecanismul de generare a vorbirii: un filtru liniar excitat de un semnal numit semnal de excitatie • Semnalul excitatie se mai numeste si semnal rezidual • Codoarele pentru vorbire prelucreaza un grup de esantionae, numit cadru sau segmen • Codorul vorbirii calculeaza coeficientii filtrului si semnalul de excitatie pentru fiecare cadru • Coeficientii filtrului sunt astfel calculati pentru a asigura ca energia la iesirea filtrului pentru cadrul analizat sa fie minimizata • Un astfel de filtru se numeste filtru LP analizor • Semnalul rezultant se numeste semnal rezidual pentru acel cadru particular • La decodare, filtrul LP lucreaza ca un filtru de sinteza, in timp ce semnalul rezidual actioneaza ca semnal de excitatie pentru filtrul de sinteza

  42. Metoda de compresie LPC • In vederea reducerii ratei de bit totale, codoarele vorbirii cum sunt CELP (code excited linear prediction) nu transmit intreg semnalul rezidual, intrucat se foloseste un tabel de codare vectorial pentru a coda semnalul de excitatie • Tehnica este numita cuantizare vectoriala (VQ), astfel incat codorul selecteaza unul dintre semnalele de excitatie dintr-un tabel predeterminat, si va transmite indexul semnalul de excitatie care se afla cel mai aproape de cel care trebuie transmis • Tabelul cu semnalele de excitatie este cunoscut atat de codor cat si de decodor • Semnalul excitatie este selectat astfel incat distorsiunea dintre cadrul original si cel reconstruit sa fie minima

  43. Metoda de compresie LPC • Tipic, se folosesc rate de esantionare de 8 KHz iar lungimea cadrului este de 20 ms, astfel incat exista 160 esantioane in fiecare cadru • Se gaseste ca un filtru de ordinul 10 este suficient pentru modelarea anvelopei spectrale pentru o rata de esantionare de 8 KHz, deco codorul lucreaza cu 12 parametri (10 coeficienti, castigul fitrului si indexul semnalului de excitatie) in loc de 160 de esantioane pentru un cadru

  44. Metoda de compresie LPC • Modelul vorbirii

  45. Metoda de compresie LPC • Modelului de vorbire are doua moduri de functionare • In primul mod, comutatorul K este in pozitia a si se genereaza fonemele sonore • Semnalul excitatie este constituit dintr-o serie de impulsuri dreptughiulare cu perioada Tp, Ts este frecventa de esantionare • Al doilea mod de lucru necesita comutatorul K in pozitia b, si corespunde fonemelor insonore • Exista trei filtre care modeleaza efectele glotei, ale tractului vocal si al radiatiei sonore (efectul buzelor) • Multiplicarea cu constanta G este pentru modificarea intensitatii.

  46. Metoda de compresie LPC • In aplicatiile practice se utilizeaza o schema mai compacta, unde cele trei filtre sunt inlocuite cu unul singur, H(z)

  47. Metoda de compresie LPC • Pentru filtru se foloseste structura ARMA (Autoregressive Moving Average) • Un semnalvorbires(n)esteconsiderat ca iesire a unuisistemexcitat de un semnalexcitatieu(n) • Esantionulvorbiriis(n)estemodelat ca o combinatieliniara a iesirilorvechisiprezentesi a intrarilorvechi, duparelatia: undeG este castigulfiltrului si {ak, bk} suntparametriimodelului • Numarulpimplicafolosirea a p esantioanetrecute, si se numesteordinulpredictieiliniare • Functia de transfer H(z) a modelului se obtineprinaplicareatransformatei in zecuatiei: ceeacearata un model de tip poli-zerouri. In spectrulvorbirii, nazalelesuntreprezentate de zerourisiformantiisuntreprezentati de poli.

  48. Metoda de compresie LPC • Existadouacazurispeciale ale acestui model: • Cazulmodelului de tip auto-regresiv, candH(z) are numaipoli, decicoeficientiibksuntnuli • Acest model se foloseste din motive de simplitatesieficienta a implementarii. Ideeaeste ca in rezolvareaunui model poli-zeroruriestenevoie de rezolvareaunui set de ecuatiineliniare in timpcemodelulnumai cu polinecesitarezolvareaunui set liniar de ecuatii • Cazulmodelului de tip mediealunecatoare, candH(z) are numaizerouri, decicoeficientiiaksunt zero

  49. Metoda de compresie LPC • Transformatazinversa a modelului cu totipoliieste • Coeficientii {ak} suntnumiticoeficientii LP aifiltruluiliniar • Semnaluleroaree(n)estediferentadintresemnalul de intraresicelestimat, duparelatia iar in domeniulzavemrelatia de legatura

  50. Metoda de compresie LPC • Ca urmare, modelul global poatefidescompus in douaparti • Partea de analizaanalizeazasemnalulvorbiresi produce semnaluleroare • Partea de sintezapreiasemnaluleroare ca semnal de intrare, estefiltrat de filtrul 1/A(z)si se obtinesemnalulvorbire • Semnaluleroare se mainumestesemnalrezidualsausemnal de excitatie

More Related