Analyse exploratoire d’entrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main

Analyse exploratoire d’entrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main François Daoust Gaëlle Dobrowolski Monique Dufresne Claire Gélinas-Chebat JADT 2006 – Besançon

OBJECTIFS

1 : Montrer comment on peut combiner plusieurs logiciels de lexicométrie (ALCESTE, DTM et LEXICO3) pour valider et compléter une analyse SATO.

2 : Mettre à l'épreuve des chaînes de traitement qui font appel à des passerelles de conversion développées dans le contexte du réseau ATONET.

CONTEXTE DE LA RECHERCHE : ATONET

Les trois volets d’ATONET • méthodologie et partage de corpus • formats d'échange de documents électroniques • terminologie de l'analyse des données textuelles

CORPUS

CorpusGallopel • Entrevues enregistrées de neuf groupes de jeunes rencontrés à Rennes en 2000 (48 jeunes Français)

Chacun des 9 groupes comprend 5 à 6 jeunes et un intervenant : • âgés entre 15 à 25 ans • fumeurs et non fumeurs • hommes et femmes

Entrevues semi dirigées • 1 Discussion précédée d’une période de familiarisation avec le tabagisme • 2 Discussion suite à l’introduction d’une brochure

Nature ANALYSE AVEC SATO:

Analyse sémantico statistique basée sur une construction itérative d’une grille catégorielle

ANALYSE AVEC SATO :Démarche

Démarche (1) • Comparaison de lexiques associés à des sous-textes établis selon : • sexe • fumeur / non-fumeur • avant / après message anti-tabac

Démarche (2) • Indices statistiques simples : • Distance du Chi2 • Mesure d'écart à la moyenne

ANALYSE AVEC SATO :Étapes

Étapes (1) • Va et vient entre les données lexicales brutes et leurs contextes d’utilisation (Kwic): • Approche univariée : saisir la spécificité de la stratification induite par chacune des variables sociologiques 2. Approche multivariée : tenir compte de l’interaction de ces variables

Étapes (2) • Émergence d'une grille catégorielle sémantique : • apparence, arrêt, négation, concret, danger, dépendance, soc-je*, maladie, mort, plaisir, … • soc-ami, soc-famille, soc-gens, soc-jeune, liberté, envie, conscience, volonté, … *(Le préfixe soc- renvoie à un ensemble de catégories référant aux rapports sociaux identifiés par les jeunes.)

ANALYSES AVEC SATO:Conclusions

Conclusions (1) • Construction d'une grille catégorielle transparente et respectueuse de la spécificité du contexte d'énonciation.

Conclusions (2) • Démarche itérative combinant : • une approche inductive (qualitative) • une utilisation d'outils simples de statistique lexicale • une approche plus sensible à la pragmatique textuelle.

Conclusions (3) • Production de données qualifiées (catégories) qui traduisent la démarche interprétative de l’analyste

VALIDATION

Validation de notre démarche et de nos résultats par divers logiciels de statistique textuelle : • ALCESTE (Reinert) • LEXICO 3 (Salem) • DTM (Lebart)

Chaîne de traitement (1) • Format initial des données : balises SATO (propriétés) • identification du locuteur et des caractéristiques sociologiques • identification des sections pré ou post «brochure».

Chaîne de traitement (2) *page=gallo02/11 *pub=brochure *locuteur=s36 *fumeur=non *sexe=hBah, la brochure là, elle nous présente ce qui nous attend si on fume. Mais c ’est très… quoi, moi j ’ai lu ça, mais je ne sais pas je ne suis pas fumeur, donc je ne ressens peut-être pas ça de la même façon..

Chaîne de traitement (3) • Passerelle en Perl pour exporter le corpus en XML-TEI • Conversion de la version TEI vers les formats propriétaires ALCESTE, LEXICO et DTM

ANALYSE AVEC ALCESTE

ALCESTE (1) • méthode complètement automatique qui vise à faire émerger des mondes lexicaux • s'appuie sur des régularités statistiques pour faire émerger la structure du discours à partir des énoncés (Avec SATO, nous étions partis d'hypothèses structurantes du discours pour faire parler les données)

ALCESTE (2) • Résultats corpus Initial* : deux classes • Classe 1 (1/3 des UCE) : • surtout les interventions exprimées après l'exposition au message antitabac (Chi2=33.82). • plus faiblement une présence significative des UCE des non-fumeurs *(transcription des entrevues dans leur découpage original en interventions; sont exclues les interventions des intervenants)

ALCESTE (3) • Classe 2 (2/3 des UCE) : • surtout des interventions précédant la présentation du message antitabac (Chi2=33.82) • aussi, mais plus faiblement, une présence significative des UCE des fumeurs (Chi2=8.81)

ALCESTE (4)

ALCESTE (5) • CONCLUSIONS : • ALCESTE confirme que la variable avant/après le message antitabac représente le premier élément de structuration du corpus, ce qui constitue pour nous le résultat le plus significatif. • ALCESTE relève la présence de l’opposition fumeur/non-fumeur, deuxième variable prise en compte dans l'analyse SATO.

ALCESTE (6) • ALCESTE a donc retrouvé ce que nous avions observé lors de la comparaison de lexiques construits sur la base d’un découpage global du corpus. • Ce point de rencontre entre les approches ascendantes et descendantes est un outil important de validation de l’interprétation.

ANALYSE AVEC LEXICOO

LEXICO (1) • LEXICO : • calcule les spécificités lexicométriques de parties d'un corpus d'après un modèle probabiliste basé sur la loi hypergéométrique (cf. Lebart, Salem 1994) • rend possibles des analyses factorielles de correspondances (AFC) sur un corpus partitionné

LEXICO (2) • Première approche : • Analyse du corpus Participant* : découpage du corpus selon le profil des répondants *(ensemble des interventions de chaque participant identifié par un nom résumant son profil et suffixé par a ou b pour identifier le discours du participant avant et après le message antitabac; Élimination des participants dont le profil sociologique est incomplet)

Corpus Participant : individus sur le plan des 2 premiers axes de l'AFC

Lexico (4) • Deuxième approche : • calcul des spécificités reportées sur la sortie de l'analyseur DISTANCE de SATO appliqué au lexique avant et après la brochure.

Lexico (5)

Lexico (6) • Conclusion : • Très large recouvrement entre les formes lexicales qui contribuent le plus à la distance et les spécificités calculées par LEXICO : • parmi les mots manquants, il y a les ponctuations qui, apparemment, ne sont pas prises en compte par LEXICO, de même que les formes absentes dans le corpus Avant • la mesure de spécificité de LEXICO fournit un bon complément à la DISTANCE du Chi2 par l'ajout d'un seuil statistique

ANALYSE AVEC DTM

DTM (1) • DTM : • Outil dédié à l’analyse exploratoire de données numériques multivariées et de données textuelles (par exemple un sondage avec questions ouvertes et fermées) • Comptage des mots du texte brut produisant des variables représentant le nombre d’occurrences du mot

DTM (2) • Expérimentation # 1 : • Analyse du corpus Participant : le corpus est vu comme un ensemble de 87 individus. • Le profil sociologique est enregistré comme autant de réponses catégorielles à des questions fermées : pub (nil, brochure), sexe (homme, femme) et fumeur (non, oui). • Les interventions avant et après le message antitabac donnent lieu à deux questionnaires distincts. • L'ensemble des interventions d'un individu pour chaque questionnaire constitue la réponse à une question ouverte unique.

Corpus Participant : variables catégorielles sur le plan des 2 premiers axes de l'AFC

DTM (4) • Confirmation de l'influence du message antitabac et des variables catégorielles sur la structure du discours

DTM (5) • Expérimentation # 2 : • Production d'un corpus artificiel (Participant catégorisé) par substitution des catégories aux unités lexicales catégorisées

DTM (6) • Calcul de l'AFC en croisant : • les 87 participants avec 702 variables textuelles, soit les formes lexicales non catégorisées et catégorisées sémantiquement (propriété thème). Cette substitution recouvre 12,26 % des occurrences.

Corpus Participant catégorisé: variables catégorielles sur le plan des 2 premiers axes de l'AFC

DTM (8) • La projection des variables sociologiques sur le plan factoriel suit le même jeu d'oppositions

Analyse exploratoire d’entrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main

Analyse exploratoire d’entrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main

Presentation Transcript

Analyse des AT Arbre des causes

Analyse des algorithmes: une introduction

Analyse du L.C.R.

La dynamique de groupe et la gestion des conflits

L’entreprise cellule sociale Partie 1 : L’entreprise et son environnement

Institut de Formation des Aides-Soignants (IFAS) Groupe hospitalier Pitié-Salpêtrière

Analyse multidimensionnelle des données

ETUDE DE MARCHÉ La Nutrition Infantile

Les pâtes alimentaires

Analyse financière

Analyse financière

Introduction Quelques outils de base de l’EDA Méthodes à noyaux Filtres spatiaux robustes

L' ANALYSE FINANCIERE

Mars 2006 Groupe Architecture et Solutions

Analyse Fonctionnelle d'une LAMPE de BUREAU

Groupe d’Etude des Lymphomes en Tunisie (GELT)

第 8 章函数

Verandermanagement

Analyse multidimensionnelle des données

QUAND PROPOSER UN TRAITEMENT ELECTRIQUE ?

La holding : un outil d'optimisation fiscale astucieux … quand on sait s'en servir

Evaluation des Pratiques Professionnelles Pourquoi ? Quoi ? Où ? Par Qui ? Comment ? Quand ?