600 likes | 728 Views
Analyse exploratoire d’entrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main. François Daoust Gaëlle Dobrowolski Monique Dufresne Claire Gélinas-Chebat. JADT 2006 – Besançon. OBJECTIFS.
E N D
Analyse exploratoire d’entrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main François Daoust Gaëlle Dobrowolski Monique Dufresne Claire Gélinas-Chebat JADT 2006 – Besançon
1 : Montrer comment on peut combiner plusieurs logiciels de lexicométrie (ALCESTE, DTM et LEXICO3) pour valider et compléter une analyse SATO.
2 : Mettre à l'épreuve des chaînes de traitement qui font appel à des passerelles de conversion développées dans le contexte du réseau ATONET.
Les trois volets d’ATONET • méthodologie et partage de corpus • formats d'échange de documents électroniques • terminologie de l'analyse des données textuelles
CorpusGallopel • Entrevues enregistrées de neuf groupes de jeunes rencontrés à Rennes en 2000 (48 jeunes Français)
Chacun des 9 groupes comprend 5 à 6 jeunes et un intervenant : • âgés entre 15 à 25 ans • fumeurs et non fumeurs • hommes et femmes
Entrevues semi dirigées • 1 Discussion précédée d’une période de familiarisation avec le tabagisme • 2 Discussion suite à l’introduction d’une brochure
Nature ANALYSE AVEC SATO:
Analyse sémantico statistique basée sur une construction itérative d’une grille catégorielle
Démarche (1) • Comparaison de lexiques associés à des sous-textes établis selon : • sexe • fumeur / non-fumeur • avant / après message anti-tabac
Démarche (2) • Indices statistiques simples : • Distance du Chi2 • Mesure d'écart à la moyenne
Étapes (1) • Va et vient entre les données lexicales brutes et leurs contextes d’utilisation (Kwic): • Approche univariée : saisir la spécificité de la stratification induite par chacune des variables sociologiques 2. Approche multivariée : tenir compte de l’interaction de ces variables
Étapes (2) • Émergence d'une grille catégorielle sémantique : • apparence, arrêt, négation, concret, danger, dépendance, soc-je*, maladie, mort, plaisir, … • soc-ami, soc-famille, soc-gens, soc-jeune, liberté, envie, conscience, volonté, … *(Le préfixe soc- renvoie à un ensemble de catégories référant aux rapports sociaux identifiés par les jeunes.)
Conclusions (1) • Construction d'une grille catégorielle transparente et respectueuse de la spécificité du contexte d'énonciation.
Conclusions (2) • Démarche itérative combinant : • une approche inductive (qualitative) • une utilisation d'outils simples de statistique lexicale • une approche plus sensible à la pragmatique textuelle.
Conclusions (3) • Production de données qualifiées (catégories) qui traduisent la démarche interprétative de l’analyste
Validation de notre démarche et de nos résultats par divers logiciels de statistique textuelle : • ALCESTE (Reinert) • LEXICO 3 (Salem) • DTM (Lebart)
Chaîne de traitement (1) • Format initial des données : balises SATO (propriétés) • identification du locuteur et des caractéristiques sociologiques • identification des sections pré ou post «brochure».
Chaîne de traitement (2) *page=gallo02/11 *pub=brochure *locuteur=s36 *fumeur=non *sexe=hBah, la brochure là, elle nous présente ce qui nous attend si on fume. Mais c ’est très… quoi, moi j ’ai lu ça, mais je ne sais pas je ne suis pas fumeur, donc je ne ressens peut-être pas ça de la même façon..
Chaîne de traitement (3) • Passerelle en Perl pour exporter le corpus en XML-TEI • Conversion de la version TEI vers les formats propriétaires ALCESTE, LEXICO et DTM
ALCESTE (1) • méthode complètement automatique qui vise à faire émerger des mondes lexicaux • s'appuie sur des régularités statistiques pour faire émerger la structure du discours à partir des énoncés (Avec SATO, nous étions partis d'hypothèses structurantes du discours pour faire parler les données)
ALCESTE (2) • Résultats corpus Initial* : deux classes • Classe 1 (1/3 des UCE) : • surtout les interventions exprimées après l'exposition au message antitabac (Chi2=33.82). • plus faiblement une présence significative des UCE des non-fumeurs *(transcription des entrevues dans leur découpage original en interventions; sont exclues les interventions des intervenants)
ALCESTE (3) • Classe 2 (2/3 des UCE) : • surtout des interventions précédant la présentation du message antitabac (Chi2=33.82) • aussi, mais plus faiblement, une présence significative des UCE des fumeurs (Chi2=8.81)
ALCESTE (5) • CONCLUSIONS : • ALCESTE confirme que la variable avant/après le message antitabac représente le premier élément de structuration du corpus, ce qui constitue pour nous le résultat le plus significatif. • ALCESTE relève la présence de l’opposition fumeur/non-fumeur, deuxième variable prise en compte dans l'analyse SATO.
ALCESTE (6) • ALCESTE a donc retrouvé ce que nous avions observé lors de la comparaison de lexiques construits sur la base d’un découpage global du corpus. • Ce point de rencontre entre les approches ascendantes et descendantes est un outil important de validation de l’interprétation.
ANALYSE AVEC LEXICOO
LEXICO (1) • LEXICO : • calcule les spécificités lexicométriques de parties d'un corpus d'après un modèle probabiliste basé sur la loi hypergéométrique (cf. Lebart, Salem 1994) • rend possibles des analyses factorielles de correspondances (AFC) sur un corpus partitionné
LEXICO (2) • Première approche : • Analyse du corpus Participant* : découpage du corpus selon le profil des répondants *(ensemble des interventions de chaque participant identifié par un nom résumant son profil et suffixé par a ou b pour identifier le discours du participant avant et après le message antitabac; Élimination des participants dont le profil sociologique est incomplet)
Corpus Participant : individus sur le plan des 2 premiers axes de l'AFC
Lexico (4) • Deuxième approche : • calcul des spécificités reportées sur la sortie de l'analyseur DISTANCE de SATO appliqué au lexique avant et après la brochure.
Lexico (6) • Conclusion : • Très large recouvrement entre les formes lexicales qui contribuent le plus à la distance et les spécificités calculées par LEXICO : • parmi les mots manquants, il y a les ponctuations qui, apparemment, ne sont pas prises en compte par LEXICO, de même que les formes absentes dans le corpus Avant • la mesure de spécificité de LEXICO fournit un bon complément à la DISTANCE du Chi2 par l'ajout d'un seuil statistique
ANALYSE AVEC DTM
DTM (1) • DTM : • Outil dédié à l’analyse exploratoire de données numériques multivariées et de données textuelles (par exemple un sondage avec questions ouvertes et fermées) • Comptage des mots du texte brut produisant des variables représentant le nombre d’occurrences du mot
DTM (2) • Expérimentation # 1 : • Analyse du corpus Participant : le corpus est vu comme un ensemble de 87 individus. • Le profil sociologique est enregistré comme autant de réponses catégorielles à des questions fermées : pub (nil, brochure), sexe (homme, femme) et fumeur (non, oui). • Les interventions avant et après le message antitabac donnent lieu à deux questionnaires distincts. • L'ensemble des interventions d'un individu pour chaque questionnaire constitue la réponse à une question ouverte unique.
Corpus Participant : variables catégorielles sur le plan des 2 premiers axes de l'AFC
DTM (4) • Confirmation de l'influence du message antitabac et des variables catégorielles sur la structure du discours
DTM (5) • Expérimentation # 2 : • Production d'un corpus artificiel (Participant catégorisé) par substitution des catégories aux unités lexicales catégorisées
DTM (6) • Calcul de l'AFC en croisant : • les 87 participants avec 702 variables textuelles, soit les formes lexicales non catégorisées et catégorisées sémantiquement (propriété thème). Cette substitution recouvre 12,26 % des occurrences.
Corpus Participant catégorisé: variables catégorielles sur le plan des 2 premiers axes de l'AFC
DTM (8) • La projection des variables sociologiques sur le plan factoriel suit le même jeu d'oppositions