280 likes | 427 Views
2ème DÉfi Fouille de Textes 21-22 septembre 2006, Fribourg, Suisse. A chaque corpus son découpage et une segmentation pour tous. Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE. Laboratoire CLIPS-IMAG. Objectifs.
E N D
2ème DÉfi Fouille de Textes21-22 septembre 2006, Fribourg, Suisse A chaque corpus son découpage et une segmentation pour tous Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG
Objectifs • Proposition d’une méthode adaptée au particularité de chaque corpus en suivant les 3 étapes de la segmentation Choisir le découpage physique adéquat Calculer la similarité pour comparer les unités issues du découpage Délimiter les segments à partir des différences de similarités Entrée : texte Sortie : segment DEFT‘06
Corpus • 3 corpus • Prétraitement des trois corpus • Tree tagger • Adjectifs verbes noms <1.1x> BONSOIR MADAME, BONSOIR MADEMOISELLE, BONSOIR MONSIEUR. <1.2> COMME JE VOUS L'AVAIS INDIQUE, PENDANT LA CAMPAGNE PRESIDENTIELLE JE CONSI DERE QU'UNE DE MES MISSIONS, UNE DE MES MISSIONS IMPORTANTES EST DE VOUS INFORME R, ET JE VOUDRAIS VOUS INFORMER CE SOIR DES MOTIFS QUI M'ONT CONDUIT AU CHOIX DU PREMIER MINISTRE ET A LA COMPOSITION DU NOUVEAU GOUVERNEMENT. <2.1x> Article X <2.2> 1) Les prélèvements sur les productions de charbon et d'acier prévus aux a rticles 49 et 50 du Traité sont assis sur les produits suivants: 1. Briquettes d e lignite et semi coke de lignite <2.3> 2. Houille de toutes catégories <2.4> 3. Fonte autre que destinée à la fabrication des lingots <3.1x> D'un point de vue conceptuel, l'apprentissage se joue entre un espace de description des objets d'entrée et un espace d'hypothèses. <3.2> Le choix d'un principe inductif permet d'évaluer, à partir des exemples, l a qualité des hypothèses et de prescrire l'hypothèse théorique optimale. DEFT‘06
Plan • Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats DEFT‘06
Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats Méthode de Text Tiling • Adaptation au corpus juridique • Utilisation de la structure du corpus en article • Emplacement des ruptures à la fin d’un article Choisir le découpage physique adéquat Calculer la similarité pour comparer les unités issues du découpage Délimiter les segments à partir des différences de similarités Valeurs de similarité calculées des blocs Découpage par article Calcul du cosinus entre les blocs Entrée : texte Sortie : segment DEFT‘06
Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats Calcul de la similarité Bloc A <>Article ------------------------ <--> -------------------------- Similarité(A, B) Bloc B <>Article ------------------------ <--> -------------------------- Sélection des ruptures Similarité(B, C) Bloc C <>Article ------------------------ <--> -------------------------- Similarité(C, D) Bloc D <>Article ------------------------ <--> -------------------------- Similarité(D, E) Bloc E <>Article ------------------------ <--> -------------------------- DEFT‘06
Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats Sélection des ruptures Il y a une vallée lorsque (ya1 – ya2) + (ya3 – ya2) > δ, δ étant un seuil à fixer • Validation des paramètres • δ = 0 correspond aux tests donnant de meilleurs résultats DEFT‘06
Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats Apprentissage sur les phrases • Phrases de rupture formées d’un vocabulaire spécifique dans le corpus politique • Phrases de non rupture formées de mots de liaison Choisir le découpage physique adéquat Calculer la similarité pour comparer les unités issues du découpage Délimiter les segments à partir des différences de similarités Score de correspondance de chaque phrase Découpage par phrase de rupture et de non rupture Établissement de 2 profils Entrée : texte Sortie : segment DEFT‘06
Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats Formules d’apprentissage • Pj : ensemble des phrases de type j, j étant une rupture ou une non rupture • Qj : ensemble des phrases contenants le lemme i DEFT‘06
Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats Validation des paramètres • Seuil important amélioration de 25% • Différents en fonction des corpus DEFT‘06
Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats Méthode de cohérence • Présence de digression dans le corpus scientifique Choisir le découpage physique adéquat Calculer la similarité pour comparer les unités issues du découpage Délimiter les segments à partir des différences de similarités Valeurs de cohérence de chaque phrase Découpage par phrase Liens dans une zone intermédiaire Entrée : texte Sortie : segment DEFT‘06
Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats Taille de la zone : 2 δ Calcul de la similarité(1/5) • Zone de comparaison δ δ Phrases adjacentes Toutes les phrases Phrases dans une zone DEFT‘06
Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats Calcul de la similarité(2/5) • Calcul de la matrice de similarité dans la zone de comparaison (cosinus) Avec f(i,x) la fréquence du mot x dans la phrase i DEFT‘06
Calcul de la matrice de liens Notion de lien 2 phrases fortement similaires sont liées Seuil de similarité Par exemple, on a δ = 2 phrases Lien (x,y) = 1 si case rouge Lien (x,y) = 0 si case grise • Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats Calcul de la similarité(3/5) Matrice de liens DEFT‘06
Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats Calcul de la similarité(4/5) • Calcul de la matrice de cohérence • Notion de cohérence j Phrase i k 3 4 3 DEFT‘06
Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats 5 4 3 2 1 1 2 3 4 5 Calcul de la similarité(5/5) • Calcul de la matrice de cohérence • MC (2,3) = Lien(1,3) + Lien(2,3) + Lien(2,4) = 0 + 0 + 1 = 1 DEFT‘06
Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats Sélection des ruptures • La courbe de cohérence • La diagonale de la matrice de cohérence Les changements de thème correspondent au minimum locaux de la courbe DEFT‘06
Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats Validation des paramètres • Taille de la zone • inférieure ou égale à la moyenne de la taille des segments δ δ δ DEFT‘06
Méthodes • Méthode du Text Tiling • Apprentissage sur les phrases • Méthode de cohérence • Résultats Validation des paramètres • Seuil de similarité • entre deux phrases est supérieure à 0,5 DEFT‘06
Plan • Méthodes • Résultats • Descriptions des essais • Corpus juridique • Corpus scientifique • Corpus politique DEFT‘06
Méthodes • Résultats • Descriptions des essais • Corpus juridique • Corpus scientifique • Corpus politique Descriptions des essais • Choix des méthodes en fonctions des corpus DEFT‘06
Méthodes • Résultats • Descriptions des essais • Corpus juridique • Corpus scientifique • Corpus politique Corpus juridique DEFT‘06
Méthodes • Résultats • Descriptions des essais • Corpus juridique • Corpus politique • Corpus scientifique Corpus politique DEFT‘06
Méthodes • Résultats • Descriptions des essais • Corpus juridique • Corpus politique • Corpus scientifique Corpus scientifique DEFT‘06
Conclusion • Approches différenciées • Proposition d’une méthode de segmentation • Avec une zone de comparaison intermédiaire • Avec un nouveau calcul de similarité les liens • Avec une segmentation sur la diagonale • Méthode non supervisée • Méthode pouvant être combinée DEFT‘06
2ème DÉfi Fouille de Textes21-22 septembre 2006, Fribourg, Suisse A chaque corpus son découpage et une segmentation pour tous Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG
Etat de l’art • Proposition • Expérimentation • Validation • Comparaison • Résultats Résultats sur le corpus d’évaluation DEFT‘06