1 / 30

Les transcriptions dans la plate-forme CLAPI

Les transcriptions dans la plate-forme CLAPI. implémentation solution hétérogénéité standardisation. Groupe ICOR L. Balthasar, M. Bert, S. Bruxelles, C. Etienne, L. Mondada, V. Traverso, D. Valero. La plate-forme CLAPI http://clapi.univ-lyon2.fr Banque de données :

dulcea
Télécharger la présentation

Les transcriptions dans la plate-forme CLAPI

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Les transcriptions dans la plate-forme CLAPI implémentation solution hétérogénéitéstandardisation Groupe ICOR L. Balthasar, M. Bert, S. Bruxelles, C. Etienne, L. Mondada, V. Traverso, D. Valero GROUPE ICORhttp://clapi.univ-lyon2.fr

  2. La plate-forme CLAPI http://clapi.univ-lyon2.fr • Banque de données : corpus de LPI collectés en situation naturelle • Outils d’analyse et de requête sur le contenu des transcriptions (dont des traitements automatiques) Les corpus oraux • Intégration de corpus anciens ou récents, confectionnés dans le cadre de domaines de recherche différents, dans divers laboratoires => Hétérogénéité des transcriptions hébergées GROUPE ICORhttp://clapi.univ-lyon2.fr

  3. Les principes d'intégration des transcriptions dans CLAPI • Restitution la plus fidèle possible de la représentation d'origine du transcripteur • Charte graphique pour l’affichage des transcriptions • Validation par le responsable • Modifications minimales de la transcription originale  on ne refait pas la transcription pour des raisons de coût et de respect de la propriété intellectuelle  en cas de modification, recours à la conventionICOR GROUPE ICORhttp://clapi.univ-lyon2.fr

  4. Convention de référence  Convention ICOR • Principes pour l’établissement d’une convention de transcription • Économie • Cohérence • Lisibilité • Sélectivité • Granularité • Transformabilité • Évolutivité • Établissement de la convention Convention ICOR • fondée sur des conventions internationalement retenues en linguistique interactionnelle : Jefferson, Heritage, Psathas, Kerbrat, Cosnier, Traverso • explicite : accessibilité des concepts et des conventions pour chercheurs/ transcripteurs non interactionnistes • concise (genre textuel : « quick-reference manual ») • définissant une solide transcription de base en linguistique interactionnelle • implémentée en XML GROUPE ICORhttp://clapi.univ-lyon2.fr

  5. Convention de référence  Convention ICOR http://icar.univ-lyon2.fr/projets/ICOR/ICAR_Conventions_ICOR.doc GROUPE ICORhttp://clapi.univ-lyon2.fr

  6. N° phénomène notation exemple dans PRAAT ex. Praat Convention ICOR  Exemple du chevauchement http://icar.univ-lyon2.fr/projets/ICOR/ICAR_Conventions_ICOR.doc GROUPE ICORhttp://clapi.univ-lyon2.fr

  7. Diversité des conventions de transcription • Granularité différente des transcriptions • Robustesse : une même convention servant à noter deux phénomènes différents • Cohérence : notations différentes d’un même phénomène dans une même transcription • Exhaustivité : notation non systématique de certains phénomènes dans une même transcription • Orthographe adaptée : un même mot représenté différemment suivant sa prononciation Problèmes posés par les transcriptions de Français Parlé en Interaction GROUPE ICORhttp://clapi.univ-lyon2.fr

  8. Diversité des conventions de transcription • Corpus CHAPERON ROUGE, extrait "Jean-Pierre et Magali ", resp. M.-M. de Gaulmyn 481M le loup s'empresse/de prendre le plus court/ 482 /JP//le loup s'en000s'empresse/ 483Mchemin pour arriver chez la mère-grand avant le p(e)tit chaperon rouge0mais là faut mettre pas pris le bon chemin/euh/ 484JP/répond/le loup Corpus CONVERSATIONS FAMILIERES, extrait "grillage T3 ", resp. V. Traverso Lt` sais j` suis(inaud.)intoxiquée maint`nant (..) Lvoulez rien boire(.)vous partez tout d` suite/[là/ P[ben non faut [qu'on passe chez moi récupérer c` qu'est[(inaud.)d` chez moi A[OUAIS ff[va déménager Conventions Chaperon rouge Conversations familières pause 0, 00, 000 (.), (..) chevauchement/ … /[ montée intonative / élision ( ) `(antiquote) GROUPE ICORhttp://clapi.univ-lyon2.fr

  9. Diversité des conventions de transcription  Solutions  identification des phénomènes GROUPE ICORhttp://clapi.univ-lyon2.fr

  10. Diversité des conventions de transcription  Solutions GROUPE ICORhttp://clapi.univ-lyon2.fr

  11. Diversité des conventions de transcription  Solutions identité graphique des phénomènes de l’interaction Quelle que soit la convention, les chevauchements sont indiqués en vert, les pauses en bleu turquoise et les descriptions en bleu gris GROUPE ICORhttp://clapi.univ-lyon2.fr

  12. Granularité différente des transcriptions GROUPE ICORhttp://clapi.univ-lyon2.fr

  13. Granularité différente des transcriptions  Solutions  implémentation dans la préparation des transcriptions  dans la liste des transcriptions GROUPE ICORhttp://clapi.univ-lyon2.fr

  14. Robustesse : une même convention servant à noter deux phénomènes différents => ambiguïté : apostrophe pour l’élision standard ou non ex. j’aime / j’parle => trait d'union notant également la troncation ex. avant-hier / sta- statut => parenthèse : hésitation du transcripteur ou observation/commentaire GROUPE ICORhttp://clapi.univ-lyon2.fr

  15. Robustesse  Solutionsapostrophe pour l’élision standard ou non GROUPE ICORhttp://clapi.univ-lyon2.fr

  16. parenthèse : hésitation du transcripteur ou observation Robustesse  Solutions GROUPE ICORhttp://clapi.univ-lyon2.fr

  17. Partition et liste • Notation du chevauchement • Alternance de [ et < au cours de la transcription • etc… • Solutions  Uniformisation par la médiathèque Cohérence : notations différentes d’un même phénomène dans une même transcription GROUPE ICORhttp://clapi.univ-lyon2.fr

  18. Exhaustivité : notation non systématique de certains phénomènes dans une même transcription  Solution Tous les outils qui permettent de faire des requêtes sur les phénomènes précisent s'ils sont notés totalement ou partiellement GROUPE ICORhttp://clapi.univ-lyon2.fr

  19. Orthographe adaptée Comment dans une requête trouver automatiquement p`tit quand on cherche petit , am`ner pour amener, … ? GROUPE ICORhttp://clapi.univ-lyon2.fr

  20. Orthographe adaptée  Solutions • Construction d'un outil basé sur les n-grams de caractères pour identifier automatiquement lesvariantes graphiques, avec la collaboration de Ramzi ABBES, post-doctorant TAL Arabe (voyellation) • Données du problème • Les formes élidées ont des tailles inférieures ou égales à celle du mot cible • Le caractère d'élision ` (antiquote) remplace une ou plusieurs lettres du mot cible GROUPE ICORhttp://clapi.univ-lyon2.fr

  21. Orthographe adaptée  Solutions • Les n-grams de caractères retrouvent les formes élidées du token en les comparant aux mots existants dans clapi avec une égalité parfaite des n-grams. • Par une approche empirique, on a constaté que : • - les bi-grams permettent de repérer les variantes des mots de moins de huit lettres • - les tri-grams sont adaptés aux mots plus longs • Résultat • ex. attends, ‘tends, ‘ttends / parce que, pa’ce que / bonjour, b’jour • Certaines formes trop éloignées du mot standard seront identifiées dans un glossaire (quelques dizaines de formes maximum) • ex. chais / je sais, vouais / ouais GROUPE ICORhttp://clapi.univ-lyon2.fr

  22. Orthographe adaptée dans CLAPI GROUPE ICORhttp://clapi.univ-lyon2.fr

  23. •changement de locuteur : production verbale attribuée à un locuteurenchaînement des locuteurs, taille pv (tour bref), place dans la pv (début/fin)•formes (tokens)lexique répétition co_occurrences   variantes morphologiquesdistance entre les mots  groupe de mots•chevauchement chevauchant, chevauché, départ simultané •pause (courte, longue, quantifiée)•timingrepère dans la transcription, alignement du signal•commentaire/observation Phénomènes pris en compte et modélisés à ce jour GROUPE ICORhttp://clapi.univ-lyon2.fr

  24. Procédure d'intégration GROUPE ICORhttp://clapi.univ-lyon2.fr

  25. Préparation par la médiathèque • Identification manuelle des phénomènes • Balisage automatique • Bilan des tokens et des phénomènes • Vérification • Contrôle qualité • Correction de la transcription adaptée • Consignation des modifications dans la convention de transcription • Génération XML de la transcription • Intégration dans CLAPI GROUPE ICORhttp://clapi.univ-lyon2.fr

  26. Exemple de préparation GROUPE ICORhttp://clapi.univ-lyon2.fr

  27. Exemple d'un bilan tokens et phénomènes GROUPE ICORhttp://clapi.univ-lyon2.fr

  28. Exemple de transcription balisée en XML GROUPE ICORhttp://clapi.univ-lyon2.fr

  29. La transcription dans CLAPI GROUPE ICORhttp://clapi.univ-lyon2.fr

  30. Exploitation scientifique dans CLAPI • A VENDREDI… GROUPE ICORhttp://clapi.univ-lyon2.fr

More Related