1 / 140

Traitement de la parole

Traitement de la parole. -Introduction-. Restauration -analyse SNR -filtrage. Codage -quantification -codage par modèles -transmission. Reconnaissance -modélisation du langage -théorie de la décision -intelligence artificielle. Com. Multimodale -multimédia -son-image -les 5 sens.

lyris
Télécharger la présentation

Traitement de la parole

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Traitement de la parole -Introduction- Télécommunications, services & usages

  2. Restauration -analyse SNR -filtrage Codage -quantification -codage par modèles -transmission Reconnaissance -modélisation du langage -théorie de la décision -intelligence artificielle Com. Multimodale -multimédia -son-image -les 5 sens Compréhension -base de données -grammaire, analyse sémantique Identification ‘speaker specific’ Analyse-synthèse -modélisation physique -modélisation électrique -analyse spectrale -prédiction linéaire Télécommunications, services & usages

  3. Auditeur Locuteur ????????? idée, niveau cognitif, pensée. compréhension objectif : la communication traitement cognitif construction grammaticale. signal acoustique = vecteur de la parole prétraitement sensoriel commande musculaire. système auditif système phonatoire La parole Télécommunications, services & usages

  4. problème : limité dans l’espace signal acoustique Auditeur Locuteur microphone écouteur signal électrique signal électrique transmission électromagnétique CAN CNA câble signal numérique signal numérique hertzien ‘la parole aux télécoms’ Télécommunications, services & usages

  5. E R -analogique E R CAN CNA -numérique quantification échantillonnage E R décod. CAN codeur CNA -codage modélisation compression Normes de communication Le codage de la parole degré de complexité Télécommunications, services & usages

  6. Aspects abordés dans ce cours • modélisation du signal de parole • le codage direct (PCM, DPCM, APCM, ADPCM) • la prédiction linéaire (APC,LPC,RPE-LTP) • la quantification vectorielle (VSELP, CELP, ACELP) • transformée en sous-bande (MBE,MELP) • signal audio musical : HD, (MPEG, MIDI) Télécommunications, services & usages

  7. Traitement de la parole -Etude du signal de parole- Télécommunications, services & usages

  8. Plan • production naturelle de la parole • modélisation physique • modélisation spectrale, analyse de Fourier • modélisation paramétrique autorégressive Télécommunications, services & usages

  9. I-Production naturelle de la parole 1) un peu de physiologie narines Cavité nasale C. buccale lèvres langue pharynx oesophage glotte larynx Trachée artère Télécommunications, services & usages

  10. Cordes vocales Le larynx : - voisé ou non voisé - fréquence fondamentale (pitch) épiglotte muqueuse glotte Télécommunications, services & usages

  11. 0.4 0.3 ‘e’ 0.2 0.1 amplitude 0 -0.1 -0.2 -0.3 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 temps 2) Le rôle des cordes vocales : sons voisés Un son voisé est défini par : - sa fréquence fondamentale (=hauteur) - son timbre = rapport entre fondamental et harmonique Télécommunications, services & usages

  12. 3) Représentation simplifiée : souffle Cavité buccale Pharynx E cordes vocales Cavité nasale E b on j ou r Télécommunications, services & usages

  13. souffle souffle cordes vocales cordes vocales Pharynx Pharynx Cavité buccale Cavité buccale E E Cavité nasale E 4) Les différents types de sons (phonèmes) Les voyelles (voisées) Orales [A, E, I, O, U, OU...] Nasales [IN, UN, AN, ON] Télécommunications, services & usages

  14. [e] PSD [e] 0.4 50 40 0.2 30 (dB) 20 0 10 -0.2 0 0 50 100 0 1 2 3 4 5 t (ms) f (kHz) [on] PSD [on] 0.4 50 40 0.2 30 (dB) 20 0 10 -0.2 0 0 50 100 0 1 2 3 4 5 t (ms) f (kHz) Télécommunications, services & usages

  15. Les consonnes Liquides souffle cordes vocales Pharynx Cavité buccale E [R,L] Nasales souffle cordes vocales Pharynx Cavité buccale E [M,N,GN] Cavité nasale E Télécommunications, services & usages

  16. souffle souffle Pharynx Pharynx Cavité buccale Cavité buccale E E Fricatives non voisées [F, S, CH] Fricatives voisées [V, Z, J] cordes vocales Télécommunications, services & usages

  17. [ch] 0.1 0.05 0 -0.05 -0.1 0 10 20 30 40 50 60 70 80 90 100 t (ms) PSD [ch] 30 20 10 (dB) 0 -10 -20 0 1 2 3 4 5 6 7 8 9 10 f (kHz) Télécommunications, services & usages

  18. Occlusives non voisées [P, T, K] souffle Pharynx Cavité buccale E Occlusives voisées souffle Pharynx Cavité buccale [B, D, G] E cordes vocales Cavité nasale E Télécommunications, services & usages

  19. [bon] 1 0.5 0 -0.5 [b] [on] -1 0 50 100 150 t (ms) [par] 0.1 0.05 0 -0.05 [p] [a] [r] -0.1 0 50 100 150 t (ms) Télécommunications, services & usages

  20. II-Modélisation physique Télécommunications, services & usages

  21. Bandpass filter 1 Non- linearity Lowpass filter Sampling rate reduction Amplitude Compression Bandpass filter Q Non- linearity Lowpass filter Sampling rate reduction Amplitude Compression III-Modélisation harmonique Modèle de Dudley (VOCODER) également développé en 1930 speech Télécommunications, services & usages

  22. [e] PSD [e] 0.4 50 40 0.2 30 (dB) 20 0 10 -0.2 0 0 50 100 0 1 2 3 4 5 t (ms) f (kHz) DFT Transformée de Fourier = décomposition spectrale Télécommunications, services & usages

  23. Harmoniques Formants Quelques propriétés spectrales • Sons voisés • Fondamental (pitch) PSD [e] 50 40 30 (dB) 20 10 f (kHz) 0 0 1 2 3 4 5 Télécommunications, services & usages

  24. PSD [ch] 30 20 10 (dB) 0 -10 -20 0 1 2 3 4 5 6 7 8 9 10 f (kHz) • Sons non voisés • Bruit blanc • (souffle) Télécommunications, services & usages

  25. Non stationnarité : le spectrogramme bonjour 0.6 0.4 0.2 0 -0.2 -0.4 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 t (s) 2 1.5 f (MHz) 1 0.5 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 t (s) Télécommunications, services & usages

  26. sachez parler 0.1 0.05 0 -0.05 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 t (s) 4 3 f (MHz) 2 1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 t (s) Télécommunications, services & usages

  27. Signal aléatoire : Transformée de Fourier Signal Densité spectrale de puissance Processus stationnaire, ergodique Plusieurs réalisations, Energie finie DSP=mean(TSF) Télécommunications, services & usages

  28. Processus gaussien non corrélé Signal Signal Fourier DSP 0 Télécommunications, services & usages

  29. IV-Modélisation paramétrique La modélisation paramétrique présentée repose sur les propriétés de la transformée en z et de la modélisation ARMA (filtres IIR; FIR). • Quelques rappels : • - transformée en z • -modélisation ARMA • -les différentes représentations des modèles AR Télécommunications, services & usages

  30. 1) La transformée en z la transformée en Z est aux signaux échantillonnés ce que la transformée de Laplace est aux signaux continus (automatisme) X(z) est définie comme la somme d’une série relative aux échantillons temporels x[k] • déf. étude du domaine de convergence en fonction de z • prop. linéarité décalage temporel convolution temporelle cf. cours TSI Télécommunications, services & usages

  31. liens avec la transformée de Fourier discrète si on restreint l’espace de z au cercle unité, z=e(jw) , on retrouve la transformée de Fourier : Im(z) la périodicité du spectre apparaît naturellement, en fonction de la fréquence d’échantillonnage f=0 |z|<1 Re(z) f=fe Télécommunications, services & usages

  32. Fonction de transfert numérique H(z) y[k]=(x*h)|k x[k] h[k] H(z) Y(z)=X(z).H(z) X(z) z=exp(j2pf) z=exp(j2pf) Yd(f) Hd(f) Xd(f) Comme pour la TFD, le passage dans le domaine des z, permet de remplacer l’opération de convolution par une opération de multiplication => mathématiquement très intéressant Télécommunications, services & usages

  33. cas spécifique où H(z) est un polynôme du type Tous les pôles dans le cercle unité => stabilité du filtre Tous les zéros dans le cercle unité =>phase minimale remarques : a0=1 pour unicité du modèle ai, bi réels si signal réel factorisation numérateur => q zéros factorisation dénominateur => p pôles Télécommunications, services & usages

  34. intérêt de cette structure expression dans le domaine temporel Y(z)=X(z).H(z) expression dans le domaine spectral Télécommunications, services & usages

  35. 2) Modélisation ARMA def. d’un gabarit • problème de filtrage : y[k] x[k] H (z) x[k] • problème de modélisation: + y[k] e[k] u[k] H (z) - Télécommunications, services & usages

  36. modélisation ARMA (moving average autoregressive) - les zéros caractérisent la partie ‘moyenne ajustée’. - les pôles caractérisent la partie ‘autorégressive’. • modélisation MA (moyenne ajustée) - modèle ’tout zéros ’ spectres doux • modélisation AR (autorégressive) - modèle ’tout pôles’ - algorithmes d’estimation très rapides. - spectres présentant des pics. MA AR ordre infini Télécommunications, services & usages

  37. f r p=0.85 • Exemple de modèles AR, 1 pôle réel p=0.6 p=0.3 réponse impulsionnelle réponse spectrale 20 1 position des pôles 0.9 0.25 15 0.8 0.7 0.6 10 0.5 -0.5 0 (dB) 0.5 0.4 5 0.3 -0.25 0.2 0 0.1 0 -5 0 50 -0.5 0 0.5 n Télécommunications, services & usages

  38. p=0.85; 0.3 • Exemple de modèles AR, 2 pôles conjugués p=0.85 exp(jp/4) p=0.3 exp(jp/2) réponse impulsionnelle réponse spectrale position des pôles 1 20 0.25 15 0.5 -0.5 0 (dB) 10 0 5 -0.25 0 -1 -5 0 50 -0.5 0 0.5 Télécommunications, services & usages n f r

  39. 3) Modélisation ARMA de la parole • représentation shématique du signal de parole : source E Canal n Canal 1 la source peut être un bruit blanc (sons non voisés ou chuchotés) ou 1 train périodique pour les sons voisés. le conduit vocal peut être représenté par une succession de tubes acoustiques, (pharynx, cavité buccale, nasale) modélisés par des résonateurs. l’émetteur, lèvres ou narines, représente une charge acoustique pour l’onde sonore qui y arrive. Télécommunications, services & usages

  40. réponse spectrale 60 50 40 (dB) 30 20 10 10 0 0 1 2 3 4 f (kHz) 5 0 0 100 200 300 400 500 n xv(k) • source pour les sons voisés G(z) réponse impulsionnelle a=0.97, b=0.85, fE=44kHz Télécommunications, services & usages

  41. Source (sortie de G(z) ) pour les sons voisés 5 4 3 2 1 0 0 500 1000 1500 2000 2500 n fE=44kHz Télécommunications, services & usages

  42. source pour les sons non voisés Télécommunications, services & usages

  43. canal ou tube acoustique La réponse acoustique d’un tube est caractérisée par un résonateur. La réponse d’un résonateur est donnée par modèle AR d’ordre 2 Chaque résonateur est un ‘formant’ dont la fréquence centrale est : Le conduit vocal est donc bien modélisé par un modèle AR, ordre 2n Télécommunications, services & usages

  44. 4 1.5 2 0 1 -2 (dB) -4 0.5 -6 -8 0 -10 -12 -0.5 -14 0 5 f (kHz) -1 0 50 100 n réponse spectrale réponse impulsionnelle position des pôles 11kHz 22kHz 0 -11kHz Télécommunications, services & usages

  45. L’émetteur (lèvres ou narines) La pression observée à une certaine distance des lèvres est proportionnelle à la dérivée du volume des lèvres : modèle MA d’ordre 1 Télécommunications, services & usages

  46. Son voisé G(z) R(z) Vn(z) V1(z) V(z) qui tend vers 1 modèle AR d’ordre 2n+1, si un des pôles de G(z) est proche de l’unité Télécommunications, services & usages

  47. Son nasalisé les sons nasalisés font intervenir simultanément les cavités nasale et bucale. G(z) R(z) Vn(z) V1(z) V’(z) R’(z) modèle ARMA Télécommunications, services & usages

  48. 4) En résumé • complexité de la production de la parole (sons voisés, occlusifs etc...). • principales propriétés spectrales du signal de parole (électrique ou acoustique) : fondamentale, harmonique, formants, bande passante vocale, non stationnarité, stationnarité locale (20ms), signal stochastique • modèles ARMA d’un processus physique (intérêt pour le codage) • un modèle AR pouvait suffire dans certains cas. Télécommunications, services & usages

  49. Traitement de la parole -Le codage de la parole- Télécommunications, services & usages

  50. Problématique du codage qualité débit complexité coût Compression Télécommunications, services & usages

More Related