1 / 40

CELP

CELP. Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes. Motivação. Comunicações de voz permanecer o meio predominante de comunicação  humana. Proporciona a transmissão de sinais de fala com boa qualidade através de canais de comunicação com banda estreita.

sahkyo
Télécharger la présentation

CELP

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CELP Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes

  2. Motivação • Comunicações de voz permanecer o meio predominante de comunicação humana. • Proporciona a transmissão de sinais de fala com boa qualidade através de canais de comunicação com banda estreita. • O sistema CELP é o núcleo da maioria dos sistema celular, e sistemas de comunicação de banda estreita(VoIP).

  3. SINAIS DA FALA • Fala é produzido por um  sinal de excitação gerada em  nossa garganta, o que é modificado porressonâncias produzidas por diferentes formatos de nosso trato vocal,nasal e da faringe.

  4. Vogais e Consoantes • Este sinal de excitação pode ser a vibração glotalproduzido pela abertura e fechamento periódico cordas vocaiso que cria voz sonora, como as vogais • ou apenas o fluxo continuo de ar empurrado por nossos pulmões, que cria a fala não articulada, tais como o consoantes, ou mesmo uma combinação de ambos ao mesmo tempo

  5. Anatomia da voz • As três estruturas mais importantes são os pulmões as cordas vocais e a laringe. A fonte de energia para a geração de sons é provida pelo diafragma e músculos abdominais que pressionam os pulmões e geram um fluxo de ar controlado que passa pelas cordas vocais. • O mecanismo de produção da voz apresenta uma resposta limitada em freqüência, com limite por volta de 10kHz. • 95% da energia do sinal de voz esta concentrada na faixa de freqüência entre 300 e 3400 Hz, pode se limitar o canal a esta banda com uma perda tolerável em qualidade.

  6. Anatomia do voz Quando o ar vibrante entra na glote há uma mudança na resistência do ar (ao abrir ou fechar a continuidade da traquéia) e isso faz o processo de modulação da voz.

  7. Anatomia da voz • O som é produzido quando a glote, que é uma abertura nas cordas vocais, vibra abrindo e fechando. O fluxo de ar é interrompido e assim se cria uma seqüência de impulsos que possuem algumas freqüências básicas chamadas de tom (pitch). • Nos homens estas freqüências estão entre 80 e 160Hz e nas mulheres entre 180 e 320Hz.

  8. Vogais e consoantes • Exemplos de sons do tipo VOICED são as 5 vogais, das quais notam-se claras diferenças no pitch e na “formant” do sinal ao comparar o som da vogal ‘A’ com o som da vogal ‘I’ dispostas nas figuras abaixo:

  9. Vogais e consoantes

  10. Vogais e Consoantes • Já os sons do tipo UNVOICED, são bem caracterizados através do exemplo do fonema ‘S’, que consta abaixo. Sons deste tipo são descritos através de AWGN – Aditive White GaussianNoise, e possui amplitude praticamente constante em todo espectro.

  11. Pitch e formantes • O componente periódica da excitação glotal é caracterizado pela sua freqüência fundamental F0 [Hz], chamado pitch. • As freqüências de ressonância o trato vocal, orale da faringe  são chamados formantes. • No espectro de um quadro de fala, o pitch aparece como picos estreitos na fundamental eharmônicas • Formantes aparecem como picos largosdo envelope do espectro

  12. Pitch e formantes

  13. Codecs existentes • Comparação rudimentar de alguns dos esquemas de codec existens na atualidade em termos de qualidade de voz e bitrate.

  14. Evolução dos algoritmos

  15. Linear Predictive Code • Análise de predição linear de sinais de voz é o núcleoda maioria dos sistemas de codificação parametricos de voz (Celulares, VoIP, e etc). • Um modelo simples de síntese da voz que tem sido usado em processamento de fala paravárias aplicaçõesde codificação.

  16. Modelo do aparelho fonador • Este modelo do sistema é inspirado no mecanismo  humano de produção da fala.  • Voz sonora é produzida pela exitação do  filtro do trato vocal com pulsos quasi-periódica do glote.  • A periodicidade da voz sonora é devido à vibração cordas vocais. • Fala não articulada (não vozeada)  é produzido forçando o ar através de uma constrição no trato vocal.

  17. Linear Predictive Coding • O trato vocal é geralmente representado por filtro digital de décima ordem do tipo somente pólos, como mostrado no modelo LPC da fala. • A fala é produzida pela excitação do filtro do trato vocal, com pulsos quasi-periodicos pulsos da glote • E a fala não articulada é gerada usando o estímulo ruído aleatório ou pseudo-branco. • Os coeficientes do filtro e os parâmetrosde excitação são geralmente determinadas a cada 20 ms ou menos .

  18. Codificador LPC

  19. Decodificador LPC

  20. Comparação entre real e LPC

  21. LINEAR PREDICTIVE CODING • O filtro digital para aplicações do linear predictivecoding é caracterizado pela seguinte equação de diferenças. • Os parâmetros de aisão os coeficientes do filtro e controlam as características de freqüência de resposta do filtro. Estes são determinados pela analise LPC.

  22. Analise LPC

  23. Derivação do algoritimo LPC • O objetivo do LPC é minimizar a informação contida no sinal de exitação. Os parametros de predição ai são desconhecidos e são determinadas pela minimização Erro quadratico medio (MSE) do sinal de exitação (e(n)).

  24. Derivação do algoritimo LPC • O sinal de excitação (e(n)) pode ser gerado apartir de um sinal de voz (s(n)) atraves da convolução com o filtro LPC inverso, o qual é um filtro FIR, com coeficientes ai (a determinar)

  25. Derivação do algoritimo LPC • Isto é feito tomando a deriva do sinal de energia da exitação a cada uma dos coeficientes, e igualando a zero.

  26. Derivação do algoritimo LPC • Isto gera uma Matriz Toepliz, que pode ser resolvida usando o algoritmo recursivo Levinson-Durbin.

  27. Fittro de sintese • A predição dos parâmetros  a(i) também são usados ​​para formar o filtro digital somente pólos para síntese de voz. • Os coeficientes do LPC são computados resolvendo o a matriz de autorrelação, gerando o filtro:

  28. Estruturas de Filtros ‘All-Pole’ Filtro ‘all-pole’, forma direta. Filtro lattice – Tem a vantagem de ter maior imunidade a quantização

  29. Estimação do ganho • O valor do ganho a ser aplicado no sinal de exitação escolhido é determinado pelo valor RMS do sinal de exitação ideal. • O qual é obtido na analise LPC, sendo o primeiro coeficiente dá matrix de autocorrelação

  30. Seleção de sinal vozeado não vozeado • Apartir do sinal de autocorrelação do sinal (excluindo o valor R(0)) é definido um limiar de decisão. • Usualmente 0,3 do valor normalizado do vetor.

  31. Estimação periodo do Pitch • A fala possui uma falsa periodicidade, oque dificulta a estimativa do pitch • Pode ser determinado apartir do sinal de autocorrelação do sinal, procurando os valores de pico e reptições do sinal (na faixa de 20 a 160). • Como visto nas figuras abaixo.

  32. Estimativa do pitch - Sinal não vozeado

  33. Estimativa do pitch - Sinal vozeado

  34. Code Excited Linear Prediction • Explora melhor a idéia de codificação análise-por-síntese da fala, utilizando o conceito de quantização vetorial (VQ) para a seqüência de excitação. • O codificador seleciona uma sequência de excitação de um codebook de seqüências pré-definidas estocásticas.

  35. CELP • CELP, adicionalmente, aproveita a periodicidade de sons vozeados e melhorar a eficiência do preditor. •  O filtro do preditor de termo longo é cascateado com o filtro de síntese, o que melhora a eficiência do codebook • O mais simples preditor de longo prazo consiste de um filtro de um único polo, o qual representa um simples atraso com ganho ajustável • O método de escolha dos vetores do Codebook é a analise por síntese

  36. CELP : Analise por sintese • O sistema varre cada um dos possíveis candidatos a sinal de excitação oriundos do gerador de excitação • Identifica o sinal que minimiza o erro entre o correspondente sinal sintetizado e o sinal de fala da entrada • O Decoder correspondente é simplesmente o gerador de excitação e o filtro de sintetização .

  37. CELP : Com filtro LTP Esta estrutura adiciona o filtro de predição longa (LTP), o qual é utilizado para aproveitar o fato de que o sinal de exitação tem uma alta autocorrelação na frequencia do pitch.

  38. CELP : Estrutura Original A estrutura do codificador CELP original tem como filtro LTP um filtro de um pólo apenas. Essa adição aproveita o fato de que o sinal de exitação apresenta uma alta autocorelação na frequencia do pitch. Porem esse modelo é computacionalmente ineficiente.

  39. CELP : Codebook Adaptativo Cada vetor do Codebook adaptativo representa diferentes valores de pitch. Assim a busca pelos os parâmetros do filtro de predição longa são simplificados a busca de um vetor no codebook adaptativo.

  40. CELP : Estrutura final • Retirar o efeito do frame anterior deixado nas condições iniciais do filtro de sintese. • Encontrar o vetor do codebook Adaptativo que minimiza o Erro quadratico do sinal sintetizado.E retirar o efeito desta exitação • Encontrar o vetor do codebook Fixo que minimiza o Erro quadratico do sinal sintetizado.

More Related