1 / 9

Système de transcription semi-automatique

Système de transcription semi-automatique. Vers une intégration de la RAP dans le logiciel Transcriber. Nicolas BIGOUROUX, Master 1 TAIM – sous la direction de Pascal NOCERA (LIA). Projet de Master1 — 31 mai 2007 — IUP GMI -Avignon. Présentation.

jamese
Télécharger la présentation

Système de transcription semi-automatique

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Système de transcriptionsemi-automatique Vers une intégration de la RAP dans le logiciel Transcriber Nicolas BIGOUROUX, Master 1 TAIM – sous la direction de Pascal NOCERA (LIA) Projet de Master1 — 31 mai 2007 — IUP GMI -Avignon

  2. Présentation • Transcriber est un outil open-source de transcriptionet d’annotation pour les corpus audio. • Il est conçu dans le langage de script Tcl/Tk. • Speeral, système de reconnaissance automatique de la parolebasé sur l’algorithme A* et développé au LIA. • Transcriber représente une base logicielle intéressantepour intégrer les résultats de Speeral, dans l’optiqued’une transcription automatique… ou presque. • Deux types d’intégration sont en fait envisageables

  3. On voudrait importerles résultats de Speeral Facile pour une transcription unique Mais ce sont les hypothèses multiplesqui nous intéressent le plus Si Speeral a vu juste, le travail est fini Dans le cas contraire le transcripteurpourrait choisir une autre hypothèse Quelle interface pour ce protocole ? Deux approches possibles A. Le transcripteur est passif, il va corriger les erreurs de Speeral (en espérant qu’il n’y en aura pas !)= Conception statique du workflow B. Speeral est passif, ne proposera des hypothèses qu’à la demande (le transcripteur hésite, ou devine que la RAP sera assez efficace)= Conception plutôt dynamique Approches non exclusives En fait on aimerait avoir les deux ! 1 - Fonctionnalités à implémenter1.1. Du point de vue de l’utilisateur

  4. Quelles sont les données ? Transcriber utilise un format XML - En externe (formats de fichier) - En interne (= le modèle de données) Les conversions sont possiblesà partir de nombreux formats Et redéfinir un convertisseur ≈ facile Du côté de Speeral ? On travaille sur les sorties Convertir vers Transcriber ≈ facile… …sauf pour les hypothèses multiples > Réinventer une DTD spécifique ? > …ou ne modifier que l’interface ? (le but ≠ conserver les hypothèses) Fonctionnalités à implémenter1.2. Du point de vue du développeur

  5. 2 - Organisation du projet 2.1. Répartition du travail pendant l’année • - Etude du format des données proposées par Speeral • - Réflexion sur le type d’interface à mettre en place Semestre 1 = en binôme Semestre 2 = en solo • - Recherche d’un angle d’attaque adéquat • - Résolution des problèmes sinon > documentation Durant tout le projet, tests sur la base du corpus ESTER

  6. Langage de script :facile à apprendre Mais pas à déchiffrer… Documentation satisfaisante Mais pas toujours utile pourmodif. profonde du logiciel Processus de développementassez laborieux et ingrat… -> planification hasardeuse Données de Speeral :plus difficile à apprendre Mais très simple à déchiffrer Modélisation directe :une hypothèse = une ligne Mais dans Transcriber ? -> on ne fait que choisirune hypothèse en fait Organisation du projet2.2. Divers types de difficultés

  7. 3 - Résultats obtenus • - Je me suis familiarisé avec Tcl/Tk • - et les variables globales de Transcriber Compréhension du code source de Transcriber Implémentation des fonctionnalités • - L’interface de validation est presque terminée • - Impasse pour synchroniser les données internes…

  8. Conclusions • Projet très intéressant mais développement ardu • Peu adapté à l’articulation habituelle des projets de Master… • = il faudrait beaucoup coder d’abord et ensuite étudier la faisabilité ! • Donc ma documentation sera la meilleure contribution au projet • Et je continuerai à améliorer Transcriber… et Transreader

  9. Système de transcriptionpas encore automatique Vers une synchronisation des données internes de Transcriber Merci de votre attention !

More Related