1 / 29

Indexation de la bande sonore : recherche des composantes Parole et Musique

Indexation de la bande sonore : recherche des composantes Parole et Musique. Julien PINQUIER, Christine SENAC, Régine ANDRE-OBRECHT Équipe ART.ps (Analyse, Reconnaissance et Traitement automatique de la parole et des sons) Institut de Recherche en Informatique de Toulouse

tahlia
Télécharger la présentation

Indexation de la bande sonore : recherche des composantes Parole et Musique

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Indexation de la bande sonore :recherche des composantes Parole et Musique Julien PINQUIER, Christine SENAC, Régine ANDRE-OBRECHT Équipe ART.ps (Analyse, Reconnaissance et Traitement automatique de la parole et des sons) Institut de Recherche en Informatique de Toulouse Présentation RFIA 2002 - 8 janvier 2002

  2. Plan • Introduction • La modélisation différenciée • Le système • Réalisations et expériences • Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  3. Plan • Introduction • La modélisation différenciée • Le système • Réalisations et expériences • Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  4. Introduction • Importance de l’indexation • Accroissement du volume des données numériques • Description du contenu (« norme » ISO_MPEG7) • Analogie avec la recherche textuelle • Méthodes actuelles d’indexation : manuelles • Réduire le temps de recherche • Bande sonore souvent très complexe • Discrimination entre parole et musique RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  5. Introduction • Le Projet de recherche : AGIR (RNRT) Signatures multimédia Application et validation Signatures images Moteur d’indexation et de recherche Signatures vidéo Documents multimédia Signatures texte Signatures son Signatures son • Objectifs • Caractérisation : Parole / Musique • Un système d’indexation basé sur la modélisation différenciée • Approche statistique (Modèles de Mélanges de lois Gaussiennes) RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  6. Plan • Introduction • La modélisation différenciée • Le système • Réalisations et expériences • Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  7. La modélisation différenciée • Parole • Structure formantique [Calliope89] • Formants = Fréquences de résonance du conduit vocal Formants RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  8. La modélisation différenciée • Musique • Structure harmonique Harmoniques RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  9. La modélisation différenciée • Paramètres • Temporels : ZCR et Energie [Saunders96], [Scheirer97] et [Zhang98] • Fréquentiels : issus de la DSP [Saunders96] et [Scheirer97] • Mixtes : modulation de l’énergie à 4 Hz [Scheirer97] • représente le rythme syllabique • Issus de modélisation : MFCC [Foote97] musique parole • Classification • Fonctions à seuils • Approche statistique • Méthodes paramétriques : mélanges de gaussiennes, MMC • Méthodes non paramétriques : k plus proches voisins... • Réseaux de neurones RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  10. Plan • Introduction • La modélisation différenciée • Le système • Réalisations et expériences • Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  11. Le système Signal Décision Pré traitement Classification • Décomposition Parole / Musique • Modélisation Différenciée • 1 classe = {Espace de représentation, Modèle} • Description du système 2 systèmes : parole et musique RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  12. Le pré traitement Signal Coefficients Accentuation Fenêtrage FFT Filtrage Spectraux • Parole : analyse cepstrale • MFCC (18 coefficients par vecteur d’observation) • Soustraction cepstrale Coefficients Signal Cepstraux Accentuation Fenêtrage FFT Filtrage+Mel Log FFT -1 • Musique : analyse spectrale • SPL (29 coefficients par vecteur d’observation) RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  13. Reconnaissance • Méthode de classification • Approche statistique • Classe • 2 modèles • NonClasse • MMG • Maximum de vraisemblance (vecteur observation - modèles) RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  14. La reconnaissance • Classification • Fenêtre d’analyse (256 ou 512 points) Exemple de classification Parole / NonParole RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  15. La reconnaissance • Assemblage RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  16. La reconnaissance • 1er Lissage (20 ms) RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  17. La reconnaissance • 2ème Lissage (indexation) • Parole (environ 400 ms) et musique (environ 2 s) RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  18. La reconnaissance RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  19. Le système Apprentissage Modèles Signal Décision Pré traitement Classification RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  20. L’apprentissage des MMG (supervisé) • Étiquetage manuel • Transcriber (C. Barras) • http://www.etca.fr/CTA/gip/Projets/Transcriber/ • Affectation des paramètres • 3 fichiers labels  fichiers de paramètres RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  21. L’apprentissage des MMG • Initialisation des modèles : algorithme VQ • Représenter les éléments d’une classe par son centroïde • Optimisation des paramètres : algorithme EM • Estimation : calcul des probabilités Pnk que le vecteur yn soit généré par la loi gaussienne k. • Maximisation : Ré-estimation des paramètres k, mk et k à partir des probabilités Pnk RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  22. L’apprentissage des MMG 32 lois gaussiennes ModèleParole Paramètres indicés (Parole) Étiquetagemanuel(parole) VQ EM Affectation Coeff. Cepstraux 18 Paramètres indicés (NonParole) Modèle NonParole VQ EM Pré traitement acoustique SIGNAL Modèle Musique Paramètres indicés (Musique) 29 Coeff. Spectraux VQ EM Affectation Paramètres indicés (NonMusique) Modèle NonMusique VQ EM Étiquetagemanuel(musique) 16 lois gaussiennes RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  23. Plan • Introduction • La modélisation différenciée • Le système • Réalisations et expériences • Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  24. Réalisations et expériences • Première expérience • Corpus : épisode de la série « Chapeau Melon et Bottes de Cuir » duréetotale : 50mn composition : parole pure, musique pure et zones « mixtes » parole : téléphonique, enregistrements extérieurs, foule, poursuites de voitures… musique : cordes, vents, basses, guitare électrique, batterie … locuteurs : 4 hommes + 1 femme • Apprentissage durée : 35mn composante parole : zone parole pure + non parole composante musique : zone musique pure + non musique • Reconnaissance 15mn différentes de celles de l’apprentissage RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  25. Réalisations et expériences • Résultats • Calcul des délais (frontières automatiques / manuelles) • Omissions et insertions • Calcul de l’accuracy : (durée corpus test - durée insertions - durée omissions ) / durée corpus test . 86 % 91 % L’accuracy est de 95 % pour la parole et de 93 % pour la musique. RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  26. Réalisations et expériences Délai 70 cs Lissage • Exemple d’indexation automatique Omission • Problème • la parole superposée au bruit et / ou à la musique RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  27. Réalisations et expériences • Deuxième expérience • Corpus • Journaux télévisés sportifs : 34mn environ • Apprentissage : 14mn • Reconnaissance : 20mn • Résultats (465 segments) 96 % L’accuracy est excellente : 99,5 %. • Evolution nécessaire • adapter les modèles à n’importe quelle source • apprentissage volumineux et diversifié RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  28. Plan • Introduction • La modélisation différenciée • Le système • Réalisations et expériences • Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

  29. Conclusion et perspectives • Conclusion • Résultats excellents • Intérêt de la modélisation différenciée • Perspectives • Adaptation des modèles à des corpus différents • Etude de la durée • Indexation multimédia basée sur la fusion audio / vidéo • Détection locuteurs, mots clés et jingles RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

More Related