Segmentation thématique de textes : au-delà de la récurrence lexicale

Segmentation thématique de textes : au-delà de la récurrence lexicale Olivier Ferret LIC2M CEA LIST

Problème abordé • Analyse thématique • Segmentation thématique (axe syntagmatique) • délimiter des segments de document thématiquement homogènes • Identification thématique (axe paradigmatique) • identifier les thèmes des documents et de leurs segments • Structuration thématique (axe fonctionnel) • mettre en évidence les relations thématiques entre les segments • Applications • segmentation d’un flot textuel continu (transcriptions audio) • segmentation thématique • filtrage et classification de documents • identification thématique • résumé automatique • structuration thématique

Un exemple Segment 1 Grève Segment 2 Marché pétrolier Identitéthématique Segment 3 Grève

Différents moyens de segmenter • Segmentation fondée sur le contenu • thème : caractérisé par un vocabulaire spécifique • changement de vocabulaire  changement de thème • plus généralement, ruptures de la cohésion lexicale dans les textes • cohésion lexicale (Halliday & Hasan) : relations entre les mots d’un texte rendant compte de son caractère textuel • réitération (curé – prêtre) et collocation (voleur – policier) • Repérage des marques de changement de thème • présence de marques linguistiques explicites marquant un changement de thème • oral : temps de pause des locuteurs, prosodie … • écrit : connecteurs, introducteurs de cadres thématiques … • cadre (Charolles) : contexte d’un état ou d’une série d’événements • introducteurs de cadre thématique • En ce qui concerne la croissance, Au sujet des élections à venir,

Problématique (1) • Base commune des méthodes de segmentation thématique fondées sur le contenu • définition d'unités textuelles élémentaires (phrases) • segment = ensemble d'unités textuelles contiguës jugées thématiquement proches • transformation des unités textuelles en vecteurs de mots (modèle Vector Space) • évaluation de la proximité thématique de deux unités (ou regroupements d'unités) grâce à une mesure de similarité entre leurs vecteurs • si similarité entre vecteurs > seuil  unités jugées thématiquement proches et réunies dans le même segment • Rôle central de la similarité entre unités textuelles

Problématique (2) • Évaluation de la similarité entre unités textuelles • critère de base : récurrence lexicale (réitération stricte) • évaluation fondée sur le nombre de mots communs entre unités • extensions (réitération et collocation) • utilisation de connaissances externes pour prendre en compte les proximités sémantiques entre mots (synonymie, hyperonymie …) • construites manuellement : WordNet, Roget Thesaurus … • construites automatiquement : cooccurrences lexicales • projection dans un espace sémantique construit à partir de corpus • Analyse Sémantique Latente, Local Context Analysis

Approches proposées • Base commune • méthode de segmentation fondée sur la récurrence lexicale • Extension de type endogène • utilisation du document traité comme « source de connaissances » • construire une représentation des thèmes du document • similarité = mots communs + mots appartenant aux mêmes thèmes • Extension de type exogène • utilisation des relations d’un réseau de cooccurrences lexicales • construction du réseau de cooccurrences à partir d’un corpus • similarité = mots communs + mots liés dans le réseau de cooccurrences • Combinaison des approches endogène et exogène • similarité = mots communs + mots  mêmes thèmes + mots liés dans le réseau

Segmenter avec la récurrence lexicale • Principes • même cadre général que celui adopté par Hearst pour TextTiling + modifications au niveau de chaque étape • Les 3 étapes issues de TextTiling • prétraitement linguistique du document • normalisation des mots : analyse morphologique + étiquetage morpho-syntaxique (TreeTagger) • sélection des mots pleins (i.e. mots non grammaticaux) • représentation des phrases sous forme de vecteurs • évaluation de la cohésion lexicale au sein du document • identification des changements de thèmes sur la base des ruptures de la cohésion lexicale

2 x # mots communs cœfficient de Dice = # mots volet droit + # mots volet gauche Phrases Cohésion Évaluation de la cohésion lexicale (1) • Fenêtre glissante sur le document • unité de déplacement : phrase • Mesure de similarité entre les deux volets de la fenêtre

Évaluation de la cohésion lexicale (2)

max1 max2 min Identification des changements de thème (1) • Score de probabilité d'un minimum de la courbe de cohésion de correspondre à un changement de thème • différence de cohésion entre le minimum et ses maxima environnants • Suppression des changements de thème trop proches • Sélection des changements de thème • minima dont le score dépasse un seuil s'adaptant à la distribution des scores • seuil = moyenne(scores) -  . écart-type(scores)

seuil Identification des changements de thème (2)

Approche endogène • Association de tâches généralement séparées • segmentation et identification thématiques • Principe général • comment les résultats de l’identification thématique peuvent aider la segmentation ? • 2 étapes • Découverte des thèmes d’un document • identification thématique non supervisée • Intégration des thèmes découverts dans le processus de segmentation • évaluation de la cohésion lexicale : relations de récurrence stricte + relations thématiques • prise en compte à un niveau local des relations lexicales existant plus globalement dans un document

Identification thématique : principes • Identification non supervisée • pas de référence à des thèmes externes • thème = sous-ensemble du vocabulaire du document • Hypothèse • les mots d’un même thème ont tendance à apparaître à proximité les uns des autres au sein d'un document • Méthode • collecter les cooccurrences entre mots au sein du document • évaluer la proximité des mots suivant leurs cooccurrents • classifier les mots du document selon leur proximité • classification non supervisée • classe = thème

Évaluation de la proximité des mots • Même prétraitement linguistique du document que pour la segmentation • Collecte des cooccurrences entre mots • déplacement d'une fenêtre de taille fixe sur le document prétraité (unité de déplacement : mot sélectionné) • enregistrement des cooccurrences entre le premier mot de la fenêtre et les suivants • pas de prise en compte de l'ordre des cooccurrents • résultat = un vecteur de cooccurrents / mot sélectionné • Proximité thématique des mots du document • calcul de la matrice de similarité des mots du document • application de la mesure Cosinus entre leurs vecteurs de cooccurrents

Découverte des thèmes d'un document • Classification non supervisée des mots du document • application de l'algorithme Shared Nearest Neighbors (SNN, Ertöz, Kumar et Steinbach, 2001) • Algorithme SNN • Construction d’un graphe de similarité à partir de la matrice de proximité thématique des mots du document • nœud : mot sélectionné du document • arête : lie deux mots de proximité non nulle ; poids de l'arête = proximité des mots qu'elle relie • Éclaircissement du graphe de similarité par limitation du nombre de voisins (seuil sur les valeurs de proximité) • Transposition des relations : proximité entre 2 mots  nombre de voisins partagés par les 2 mots • Détection de composantes de forte densité dans le graphe des voisins partagés

mot du document Détection des composantes de forte densité (1) • Graphe des voisins partagés 0 0 0 1 1 2 2 1 1 1 1 1 0 1 1 2 2 2 2 2 2 1 : nombre de voisins partagés relation dans le graphe desimilarité

Caractérisation des mots par leur nombre de liens forts 0 0 1 0 0 1 2 3 0 0 3 3 seuil liens forts = 2 3 2 : nombre de liens forts Détection des composantes de forte densité (2) • Sélection des liens forts • filtrage sur le nombre de voisins partagés

0 1 0 0 1 2 0 3 0 0 3 seuil germe = 2 3 seuil élimination = 0 germe de thème 3 seuil rattachement = 1 mot supprimé Détection des composantes de forte densité (3) • Suppression des mots avec peu de liens forts • Germes des thèmes : mots avec beaucoup de liens forts • Rattachement des mots restant au germe le plus proche (si suffisamment proche)

Illustration de la découverte de thèmes • « Mélange » de 2 textes sur des thèmes différents redécouverte des 2 thèmes

Segmentation intégrant les thèmes découverts • Intégration faite au niveau de l'évaluation de la cohésion • détermination des thèmes représentatifs du contenu de la fenêtre • mesure Cosinus entre la représentation d'un thème et chaque volet de la fenêtre • thème représentatif (TR) = thème suffisamment proche de chacun des 2 volets de la fenêtre • calcul de la cohésion selon les thèmes découverts • Cohésion globale • cohésion(récurrence lexicale) + cohésion(thèmes) • Pas de changement au niveau des deux autres étapes # (volet droit  {TRi} – Mréc) + # (volet gauche  {TRi} – Mréc) # mots volet droit + # mots volet gauche Mréc = volet droit  volet gauche

Approche exogène • Utilisation d’un réseau de cooccurrence lexicales • facile à construire automatiquement à partir d’un corpus • source de connaissance privilégiée sur les relations de cohésion lexicale au sein des textes • associations lexicales les plus significatives observées dans les textes • Exploitation conjointe de 2 sources de cohésion • récurrence lexicale • relations issues du réseau de cooccurrences • toute source de connaissances est nécessairement incomplète (noms propres, termes spécialisés …)

Réseau de cooccurrences lexicales • Méthode de construction • prétraitement des textes : sélection des mots pleins • comptage des cooccurrences au sein d'une fenêtre glissante • accent mis sur les relations sémantiques et pragmatiques • taille : 20 mots (environ 50 mots avant sélection) • pas d'ordre : m1 - m2 équivalent à m2 - m1 • respect des frontières de texte • cohésion entre mots : information mutuelle normalisée • filtrage des cooccurrences les moins significatives • fréquence < 10 ; cohésion < 0,1 • Réseau pour le Français • 24 mois du journal Le Monde (~ 40 millions de mots) • ~ 23 000 lemmes et 5 milions de cooccurrences

Exemples de cooccurrences

Exemple : graphe des cooccurrents de organe

# (Mcooc(volet droit) – Mréc) + # (Mcooc(volet gauche) – Mréc) # mots volet droit + # mots volet gauche Utiliser des cooccurrences pour segmenter • Mêmes principes d’intégration que précédemment • intégration au niveau de l’évaluation de la cohésion lexicale • pas de changement au niveau des deux autres étapes • Évaluation de la cohésion lexicale • sélection des mots des 2 volets les + fortement liés selon le réseau • cooccurrences : fréquence  14 ; cohésion  0,14 • mot lié à au moins 2 mots de l’autre volet par le biais du réseau • Mcooc(volet {droit, gauche}) : mots sélectionnés du volet {droit, gauche} • calcul de la cohésion selon les relations de cooccurrence • Cohésion globale • cohésion(récurrence lexicale) + cohésion(cooccurrences)

Combinaison des approches endogène et exogène • Même principe que pour chaque approche • combinaison au niveau de l’évaluation de la cohésion lexicale • Cohésion globale • cohésion(récurrence lexicale) + cohésion(thèmes) + cohésion(cooccurrences)

Évaluation : principes (1) • Méthodologie de référence • retrouver les frontières de documents ou de morceaux de documents concaténés les uns à la suite des autres (cf. corpus de Choi) • Problème • la découverte de thèmes n'a pas de sens sur un assemblage de morceaux de documents sans relations thématiques • méthodologie inadaptée à l'évaluation de l'intérêt de l'utilisation de l'identification thématique au niveau de la segmentation • Adaptation de la méthodologie de référence • ensemble de couples de documents relatifs à des thèmes différents • utilisation des documents jugés positivement / topics CLEF • découpage de chaque document d’un couple en segments de tailles arbitraires (entre 3 et 11 phrases ; idem Choi) • concaténation des segments en alternant un segment d'un document et un segment de l'autre  document d'évaluation (10 segments)

Évaluation : principes (2) Document Topic 88 Document Topic10 Document d’évaluation bi-thématique

Évaluation : mesure • Mesure d'erreur probabiliste Pk (Beeferman et al., 1997) • jugement de couples de mots séparés par K mots • K : moitié de la taille moyenne des segments de référence • WindowDiff : variante tenant compte du nombre de frontières séparant les couples de mots référence (ref) segmenteur (hyp) p4 p1 p5 p2 p6 p3 p7 Fausses alarmes : p2-p3 ref : segments différents hyp : même segment OK : p4-p5 ref : même segment hyp : même segment ou p2-p4 ; p5-p6 ref : segments différents hyp : segments différents Faux négatifs : p3-p4 ; p3-p5 ; p6-p7 ref : même segment hyp : segments différents

Évaluation : résultats de l’approche endogène • Intérêt de la prise en compte des thèmes (F06T > *) • Stabilité des résultats (Français vs Anglais) • Faibles performances de méthodes telles que C99 • Forte différence du niveau moyen entre Français et Anglais F06 : récurrence lexicale F06T : récurrence lexicale + thèmes

Évaluation : résultats globaux • Intérêt des connaissances externes • F06C > * de façon significative (sauf pour F06T), alors que significativité des résultats plus contrastée pour F06T / LCSeg et TextTiling* • Intérêt de la coopération entre approches endogène et exogène • F06C > F06T mais pas significatif pour Pk • F06CT > F06T significativement pour toutes les mesures • mais différence entre F06C et F06CT pas significative F06C : récurrence lexicale + cooccurrences F06CT : récurrence lexicale + thèmes + cooccurrences

Perspectives • Méthode • combiner approches endogène et exogène pour l’identification thématique • utiliser les résultats de cette identification « étendue » au niveau de la segmentation • Évaluation • utilisation de documents segmentés manuellement • difficultés soulevées par (Bestgen et Piérard, TALN 2006) • accords entre deux juges tout juste significatifs • mais bon accord général sur une segmentation « moyenne » • mauvaises performances des segmenteurs automatiques • critères de segmentation des juges variables (segmentation fine / à gros grain ; préférence donnée aux marques explicites)

Segmentation thématique de textes : au-delà de la récurrence lexicale