1 / 14

Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème

Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème. Philippe Boula de Mareüil LIMSI-CNRS mareuil@limsi.fr. Introduction. Nouvelles formes de communication écrite (NFCE) courrier électronique (e-mail), forums… chat (IRC, ICQ…)

oki
Télécharger la présentation

Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème Philippe Boula de Mareüil LIMSI-CNRS mareuil@limsi.fr Paris, 5 juin 2004

  2. Introduction • Nouvelles formes de communication écrite (NFCE) • courrier électronique (e-mail), forums… • chat (IRC, ICQ…) • pages personnelles (blogs, webzines, wiki…) •  nouveaux besoins en synthèse de la parole • applications embarquées (automotive) • multimédia • télécommunications Paris, 5 juin 2004

  3. Introduction • Problèmes typiques des mails • absence d’accentuation, néologismes, et autres abréviations • fautes de frappe ou d’orthographe • mails sans majuscule (ou au contraire sans minuscules) • Difficultés pour recueillir un corpus de mails • séparer le corpus du message des entêtes et signatures • rendre anonymes les adresses par un générateur aléatoire Paris, 5 juin 2004

  4. Architecture d’un système de synthèse vocale Paris, 5 juin 2004

  5. Normalisation du texte Paris, 5 juin 2004

  6. Prétraitements usuels • Signes non alphanumériques, sigles, symboles et autres abréviations • Nombres décimaux, ordinaux, écrits en chiffres romains… • Notations liées à l’informatique @portia.psyc.queensu.ca @nytud.hu @uasoiro.freenet.ua @physik.hu-berlin.de @elka.pw.edu.pl, @lettere.unibo.it Paris, 5 juin 2004

  7. État de l’art pour le français • Le Mail Itineris (France Télécom R&D) • Dial & play(Elan) Paris, 5 juin 2004

  8. Le système d’Elan • filtre les entêtes et les séparateurs répétés plus de 2 fois • opère une réaccentuation partielle • prend en compte les heures, les adresses électroniques… Ex. : ([01]?[0-9]|2[0-4]):[0-5][0-9] [[:alnum:]][[:alnum:].-]*[[:alnum:]]@[[:alnum:]][[:alnum:].-]*[[:alnum:]] où [:alnum:] désigne « alphanumérique » et où les parenthèses délimitent les arguments du « ou » (|). • épelle la 1re consonne de pnom@adresse.ll si le groupe pn n’est pas attesté en début de mot, et épelle le suffixe composé de 2 lettres Paris, 5 juin 2004

  9. Le système d’Elan • peut être paramétré pour lire >, @... • traite les items spécifiques comme @+, :) () • peut tirer profit de la forme isolée des signatures (pour les numéros de téléphone, les codes postaux) • prévoit de décrire les documents au format HTML (ex. les énumérations) • détecte la langue du message sur la base des 200 mots les plus fréquents, et lance le moteur de synthèse correspondant Paris, 5 juin 2004

  10. Évaluation de la conversion graphème-phonème (GP) • Le volet EvaSy du projet Technolangue EVALDA : évaluation de la synthèse de la parole à partir du texte en français corpus en cours de construction au DELIC, réutilisable dans des études futures 2 tâches envisagées pour la conversion GP : - liste de noms propres - courriers électroniques • L’ARC ILOR B3 de la campagne AUPELF Paris, 5 juin 2004

  11. Problèmes spécifiques aux mails ? Delphine m’a transmis vos questions. Voici quelques éléments de réponse.     /@|/                 /o|O/  /e|E/                      /@z|z|/ /e|E/        /e|E/ @|/… Question des variantes abréviations  épellation (ex. qqch, bcp, ds, ns, pb) g pour « j’ai »  /e/ c important pour « c’est important »  /se pt/ (pas de liaison) vs pour « vous »  /ves/ (conflit homonymique avec « versus ») Même la dégradation provenant d’absence de diacritiques ne représente qu’un faible pourcentage des erreurs observées. Paris, 5 juin 2004

  12. Problèmes spécifiques aux mails ? Delphine m’a transmis vos questions. Voici quelques éléments de réponse.     /@|/                 /o|O/  /e|E/                      /@z|z|/ /e|E/        /e|E/ @|/… Question des variantes abréviations  épellation (ex. qqch, bcp, ds, ns, pb) g pour « j’ai »  /e/ c important pour « c’est important »  /se pt/ (pas de liaison) vs pour « vous »  /ves/ (conflit homonymique avec « versus ») Même la dégradation provenant d’absence de diacritiques ne représente qu’un faible pourcentage des erreurs observées. Paris, 5 juin 2004

  13. Problèmes spécifiques aux mails ? Delphine m’a transmis vos questions. Voici quelques éléments de réponse.     /@|/                 /o|O/  /e|E/                      /@z|z|/ /e|E/        /e|E/ @|/… Question des variantes abréviations  épellation (ex. qqch, bcp, ds, ns, pb) g pour « j’ai »  /e/ c important pour « c’est important »  /se pt/ (pas de liaison) vs pour « vous »  /ves/ (conflit homonymique avec « versus ») Même la dégradation provenant d’absence de diacritiques ne représente qu’un faible pourcentage des erreurs observées. Paris, 5 juin 2004

  14. Conclusion Évaluation coûteuse  plus de 99 % de mots bien prononcés par le meilleur système, sur des textes journalistiques  majorité d’erreurs provenant des noms propres Autres situations : Audiotel, alerte de bord, bulletins météo ou circulation, textes de droit, bibliographies, pages Web, manuels utilisateurs, recettes de cuisine, petites annonces, horoscopes, articles de bourse…  plus d’erreurs potentielles Paris, 5 juin 2004

More Related