340 likes | 492 Vues
Traitement de la Parole à la FPMs (1983-2000). T. Dutoit. dutoit@tcts.fpms.ac.be. TCTS Lab Faculté Polytechnique de Mons Belgium. Plan. Intro : MULTITEL-TCTS Traitement de la parole : un problème en soi Synthèse de parole Pour quoi faire? Une brève histoire de la synthèse vocale
E N D
Traitement de la Paroleà la FPMs (1983-2000) T. Dutoit dutoit@tcts.fpms.ac.be TCTS Lab Faculté Polytechnique de Mons Belgium
Plan • Intro : MULTITEL-TCTS • Traitement de la parole : un problème en soi • Synthèse de parole • Pour quoi faire? • Une brève histoire de la synthèse vocale • Le projet MBROLA • Une nouvelle révolution technologique • Reconnaissance de parole • Reconnaissance de parole? Pour quoi faire? • Une (très) brève histoire de la reconnaisance • Exemples : THISL, Démosthènes
MULTITEL-TCTS (Théorie des Circuits et Traitement du Signal) 25 enseignants et chercheurs, depuis 1983 Contrats industriels (SAIT, L&H, ACEC, BRT) 1992-1995, projet ESPRIT HIMARNNET : reconnaissance de mots isolés, indépendant du locuteur, sur lignes téléphoniques (FPMs, L&H, ASCOM, TEDAS, EPFL) 1994 : Projet MBROLA en synthèse vocale 1995-2000 : création du groupe MULTITEL-TCTS, sur fonds Region Wallone/EEC dans le cadre d ’Objectif1THISL, RESPITE, SPRACH, DEMOSTHENES, EULER,W 1997 : Babel Technologies S.A
So you thought speech processing was just a component of signal processing :) • Signals carry information (=unpredictable data) from source to receiver communication signals, images, biological signals, speech • Complexity of signals = f(complexity of source/receiver), and vice-versa • Speech is produced, perceived, and understood by the most complex of all machines • Speech is perceived and understood when produced (ex: deaf-mute; lombard effect) • What is predictible by the brain is not transmitted (“Please take a seat”)
“These speech systems provide excellent examples for the study of complex systems, since they raise fundamental issues in system partitioning, choice of descriptive units, representational techniques, levels of abstraction, formalisms for knowledge representation, the expression of interacting constraints, techniques of modularity and hierarchy, techniques for characterizing the degree of belief in evidence, subjective techniques for the measurement of stimulus quality, naturalness and preference, the automatic determination of equivalence classes, adaptive model parameterization, tradeoffs between declarative and procedural representations, system architectures, and the exploitation of contemporary technology to produce real-time performance with acceptable cost.” (Allen, 1985)
Un problème en soi • Traitement du signal • Acoustique • Phonétique (multilingue) • Linguistique informatique • Génie logiciel (!) CodageSynthèse Reconnaissance Compréhension (dialogue,traduction)
TTS: What for ? • Telephone-based applications • Telecommunications ($) • Who’s calling • Integrated messaging (fax, email, answering machine) • Automatic reverse directory • Personal telephone attendant • Voice acces to databases (70% of calls require very little interactivity) • Price lists • Cultural events • Weather report
TTS: What for ? • Man-machine communication • Multimedia • CDRoms • Talking books • Interactive games
TTS: What for ? • Help to the disabled • Speech impairment • Artificial voice • Sight impairment • Automatic reading of electronic documents • Automatic reading of paper documents (with OCR)
TTS: What for ? • Fundamental research
A brief history of speech synthesis 1936 : Omer Dudley (Bell Labs) invents the VODER, 1st electric synthesizer ever
A brief history of speech synthesis 1964, Rule-based synthesis(1979, MITTalk; 1981, KLATTALK; 1983, DECTalk) InfoVox (1983-95) Berkeley Speech Technology (1990)
A brief history of speech synthesis Diphone-based synthesis Bell Labs (90s) CNET, 1989 LIMSI, Paris, 1989 FPMs, 1993
The MBROLA Project (20 langues) > 80 persons actively involved Patented, 1996 ITEA 96 European Award Collaboration with Creation of Kluwer (97) - PPUR (2000) = DEMO
TTS : Une révolution en marche • For automatic phonetization (L&H, ENST, Univ. Edinburgh, FPMs) • For automatic generation of intonation and phoneme duration (AT&T, FPMs, Univ. Aix, Univ. Edinburgh) • For automatic selection of units for concatenative synthesis (ATR, Univ. Edinburgh, AT&T, FPMs?) 1995-?: The database years
TTS : A New Challenge Diphone-based synthesis
TTS : A New Challenge Unit selection-based synthesis
Software Eng. Concerns 1. Automatic phonetization 2. Automatic prosody generation 3. Speech synthesis
Software Eng. Concerns • Signal Processing MATLAB • Speech Recognition HTK, WATSON STRUT,… • Speech Synthesis FESTIVAL, EULER 1. Future milestones in speech processing will come from labs with strong commitment to solid, portable, and extensible code; 2. Speech scientists and software engineers will soon be the same people. Software Complexity
Software Eng. Concerns Modular TTS : DLL-based (.so on LINUX) 1.0 (May 99) : French - MS Windows 2.0 (Oct. 2000) : Mulitlingual - Win-Linux DEMO diphones User module Perl Scripts MBROLA PERL CARTs Preprocessor MLC F0 INIT Phonetizer Duration Rules Prosodic grouping
The W Project Aid to the disabled • speech disabilities • vocal tract prothesis • INTERFACE??? • visual disabilities • Automatic reading of electronic documents • + OCR for reading paper documents
The W Project • A freely available, multilingual speaking machine for people with speech disabilities? • Freely available multilingual TTS : EULER/MBROLA • Freely available multilingual user interface? • Word prediction? No real keystroke reduction for real texts • Word contractions:GRADE II Braille (abbreviations for words and groups of letters; used for more then 100 years; methods available; exists for various languages). • From W to HOOK DEMO
Reconnaissance de parole Extraction paramètres Entraînement des modèles Parole Dictionnaire Unités Lexicales Modèles de mots Textes Grammaires N-Grammes Entraînement Phrase la plus probable Extraction paramètres Décodage Parole Reconnaissance
Reconnaissance de parole: Pq? • Commande et Contrôle • contrôle équipements particuliers, programmes ... • Accès à des bases de données • Home banking, numéros de tel., serveurs vocaux, ... • Dictée Vocale • création de lettres, rapports et autres documents ... • Transcription Automatique • Indexation de programmes télévision ou radio, sous titrages … • Autres … • Apprentissage des langues, jeux ...
Classification • Dépendant ou indépendant du locuteur • Elocution • Mots isolés • Mots connectés ou enchaînés • Parole continue • Parole spontanée • Mots clefs • Taille du vocabulaire (de quelques mots à quelques 10.000 mots) • Contrainte grammaticale : N-grammes. • Environnements bruités, lignes téléphoniques ...
Une brève histoire... Premiers systèmes basés sur recherche paramètres invariants pour identification de phonèmes (méthodes phonéticiens) peu efficace 1970 : méthodes basées sur programmation dynamique (DTW) Efficace pour petit voc. Dépendant du locuteur. 1980 : méthodes statistiques : HMMs, Hidden Markov Models Amélioration des taux de reconnaissance Systèmes indépendants du locuteur. Grand vocabulaire. 1990 : méthodes hybrides : HMMs / MLP (réseaux de neurones) Systèmes plus robustes (au bruit), plus rapide et plus performants.
Le projet Démosthènes DEMOSTHENES a pour objectif de proposer un programme multimédia pour l'apprentissage et la correction du néerlandais parlé. L'outil ainsi conçu permettra de détecter et de corriger les erreurs-types de prononciation du néerlandais chez tout locuteur francophone. Il sera intégré dans un cours reprenant les éléments essentiels de prononciation de la langue et des exercices ciblés sur les difficultés propres à chaque apprenant. LKIT (Allemand, Anglais, etc.)
Conclusion Demos: http://www.babeltech.com ou http://tcts.fpms.ac.be/synthesis