1 / 67

Analyse exploratoire d’entrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main

Analyse exploratoire d’entrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main. François Daoust Gaëlle Dobrowolski Monique Dufresne Claire Gélinas-Chebat. JADT 2006 – Besançon. Analyse exploratoire d ’ entrevues de groupe : les jeunes fran ç ais et le tabac.

emmy
Télécharger la présentation

Analyse exploratoire d’entrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analyse exploratoire d’entrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main François Daoust Gaëlle Dobrowolski Monique Dufresne Claire Gélinas-Chebat JADT 2006 – Besançon

  2. Analyse exploratoire d’entrevues de groupe : les jeunes français et le tabac Claire Gélinas-Chebat François Daoust Monique Dufresne Karine Gallopel Marie- Élaine Lebel JADT 2004 – Louvain-la-Neuve

  3. OBJECTIFS

  4. 1 : Montrer comment on peut combiner plusieurs logiciels de lexicométrie (ALCESTE, DTM et LEXICO3) pour valider et compléter une analyse SATO.

  5. 2 : Mettre à l'épreuve des chaînes de traitement qui font appel à des passerelles de conversion développées dans le contexte du réseau ATONET.

  6. CORPUS

  7. CorpusGallopel • Entrevues enregistrées de neuf groupes de jeunes rencontrés à Rennes en 2000 (48 jeunes Français)

  8. Chacun des 9 groupes comprend 5 à 6 jeunes et un intervenant : • âgés entre 15 à 25 ans • fumeurs et non fumeurs • hommes et femmes

  9. Entrevues semi dirigées • 1 Discussion précédée d’une période de familiarisation avec le tabagisme • 2 Discussion suite à l’introduction d’une brochure

  10. Nature ANALYSE AVEC SATO

  11. Analyse sémantico statistique basée sur une construction itérative d’une grille catégorielle

  12. ANALYSE AVEC SATODémarche

  13. Démarche (1) • Comparaison de lexiques associés à des sous-textes établis selon : • sexe • fumeur / non-fumeur • avant / après message anti-tabac

  14. Démarche (2) • Indices statistiques simples : • Distance du Chi2 • Mesure d'écart à la moyenne (score Z)

  15. Démarche (3) L’Algorithme de distance lexicale(basée sur la distance du Chi2) - évalue l’écart dans l’utilisation d’un vocabulaire donné entre deux lexiques - peut être appliqué aux formes lexicales ou aux valeurs de propriétés catégorielles Approche dichotomique de comparaison de sous-textes via les lexiques respectifs

  16. Démarche (4) L’Algorithme de participation calcule les moyennes normalisées d’un ensemble de formes lexicales qui peuvent être définies par les propriétés catégorielles

  17. ANALYSE AVEC SATOÉtapes

  18. Étapes (1) • Va et vient entre les données lexicales brutes et leurs contextes d’utilisation (Kwic) - Approche univariée : saisir la spécificité de la stratification induite par chacune des variables sociologiques - Approche multivariée : tenir compte de l’interaction de ces variables

  19. Étapes (2) • Émergence d'une grille catégorielle sémantique : • apparence, arrêt, négation, concret, danger, dépendance, soc-je*, maladie, mort, plaisir, … • soc-ami, soc-famille, soc-gens, soc-jeune, liberté, envie, conscience, volonté, … *(Le préfixe soc- renvoie à un ensemble de catégories référant aux rapports sociaux identifiés par les jeunes.)

  20. Résultats ANALYSE AVEC SATO

  21. Résultats (1) Analyse de distance sur les formes lexicales brutes avant\après l’introduction de la brochure

  22. Résultats (2) Analyse de distance sur les formes de la catégorie sujet avant\après l’introduction de la brochure

  23. Résultats (3) Analyse de distance avant\après pour les fumeurs et les non-fumeurs (tableau III)

  24. Résultats (4) Analyseur PARTICIPATION (sujet = apparence)

  25. Résultats (5) Analyseur PARTICIPATION (sujet = mort)

  26. ANALYSES AVEC SATOConclusions

  27. Conclusions (1) • Construction d'une grille catégorielle transparente et respectueuse de la spécificité du contexte d'énonciation.

  28. Conclusions (2) • Démarche itérative combinant : • une approche inductive (qualitative) • une utilisation d'outils simples de statistique lexicale • une approche plus sensible à la pragmatique textuelle.

  29. Conclusions (3) • Production de données qualifiées (catégories) qui traduisent la démarche interprétative de l’analyste

  30. VALIDATION

  31. Validation de notre démarche et de nos résultats par divers logiciels de statistique textuelle : • ALCESTE (Reinert) • LEXICO 3 (Salem) • DTM (Lebart)

  32. Chaîne de traitement (1) • Format initial des données : balises SATO (propriétés) • identification du locuteur et des caractéristiques sociologiques • identification des sections pré ou post «brochure».

  33. Chaîne de traitement (2) *page=gallo02/11 *pub=brochure *locuteur=s36 *fumeur=non *sexe=hBah, la brochure là, elle nous présente ce qui nous attend si on fume. Mais c ’est très… quoi, moi j ’ai lu ça, mais je ne sais pas je ne suis pas fumeur, donc je ne ressens peut-être pas ça de la même façon..

  34. Chaîne de traitement (3) • Exportation par SATO en XML-TEI de diverses éditions du corpus • Conversion de la version TEI vers les formats propriétaires ALCESTE, LEXICO et DTM

  35. ANALYSE AVEC ALCESTE

  36. ALCESTE (1) • méthode complètement automatique qui vise à faire émerger des mondes lexicaux • s'appuie sur des régularités statistiques pour faire émerger la structure du discours à partir des énoncés (Avec SATO, nous étions partis d'hypothèses structurantes du discours pour faire parler les données)

  37. ALCESTE (2) • Résultats corpus Initial* : deux classes • Classe 1 (1/3 des UCE) : • surtout les interventions exprimées après l'exposition au message antitabac (Chi2=33.82). • plus faiblement une présence significative des UCE des non-fumeurs *(transcription des entrevues dans leur découpage original en interventions; sont exclues les interventions des intervenants)

  38. ALCESTE (3) • Classe 2 (2/3 des UCE) : • surtout des interventions précédant la présentation du message antitabac (Chi2=33.82) • aussi, mais plus faiblement, une présence significative des UCE des fumeurs (Chi2=8.81)

  39. ALCESTE (4)

  40. ALCESTE (5) • CONCLUSIONS : • ALCESTE confirme que la variable avant/après le message antitabac représente le premier élément de structuration du corpus, ce qui constitue pour nous le résultat le plus significatif. • ALCESTE relève la présence de l’opposition fumeur/non-fumeur, deuxième variable prise en compte dans l'analyse SATO.

  41. ALCESTE (6) • ALCESTE a donc retrouvé ce que nous avions observé lors de la comparaison de lexiques construits sur la base d’un découpage global du corpus. • Ce point de rencontre entre les approches ascendantes et descendantes est un outil important de validation de l’interprétation.

  42. ANALYSE AVEC LEXICOO

  43. LEXICO (1) • LEXICO : • calcule les spécificités lexicométriques de parties d'un corpus d'après un modèle probabiliste basé sur la loi hypergéométrique (cf. Lebart, Salem 1994) • rend possibles des analyses factorielles de correspondances (AFC) sur un corpus partitionné

  44. LEXICO (2) • Première approche : • Analyse du corpus Participant* : découpage du corpus selon le profil des répondants * ensemble des interventions de chaque participant identifié par un nom résumant son profil et suffixé par a ou b pour identifier le discours du participant avant et après le message antitabac; Élimination des participants dont le profil sociologique est incomplet

  45. Corpus Participant : individus sur le plan des 2 premiers axes de l'AFC

  46. LEXICO (4) • Deuxième approche : • calcul des spécificités reportées sur la sortie de l'analyseur DISTANCE de SATO appliqué au lexique avant et après la brochure.

  47. LEXICO (5)

  48. LEXICO (6) • Conclusion : • Très large recouvrement entre les formes lexicales qui contribuent le plus à la distance et les spécificités calculées par LEXICO : • parmi les mots manquants, il y a les ponctuations qui, apparemment, ne sont pas prises en compte par LEXICO, de même que les formes absentes dans le corpus Avant • la mesure de spécificité de LEXICO fournit un bon complément à la DISTANCE du Chi2 par l'ajout d'un seuil statistique

  49. ANALYSE AVEC DTM

  50. DTM (1) • DTM : • Outil dédié à l’analyse exploratoire de données numériques multivariées et de données textuelles (par exemple un sondage avec questions ouvertes et fermées) • Comptage des mots du texte brut produisant des variables représentant le nombre d’occurrences du mot

More Related