510 likes | 639 Views
Détection automatique du parallélisme textuel. Stage de fin d’études, ENST Encadrant : Nicolas Hernandez Correspondant ENST : François Yvon Lieu : LIMSI-CNRS, Université d’Orsay Date : avril à août 2005. Plan de la présentation. Introduction 1. Problématique : le parallélisme Contexte
E N D
Détection automatique du parallélisme textuel Stage de fin d’études, ENST Encadrant : Nicolas Hernandez Correspondant ENST : François Yvon Lieu : LIMSI-CNRS, Université d’Orsay Date : avril à août 2005 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
Plan de la présentation • Introduction • 1. Problématique : le parallélisme • Contexte • Exemple et définition du parallélisme • Objectifs du stage • 2. Détection automatique du parallélisme • A. Outils et ressources • B. L’annotation manuelle du corpus • C. Méthodes de détection du parallélisme • 3. Expériences et résultats • A. Démarche et étude préliminaire • B. Résultats et comparaison des mesures • C. Analyse au niveau phrastique • Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
Plan de la présentation • Introduction • 1. Problématique : le parallélisme • Contexte • Exemple et définition du parallélisme • Objectifs du stage • 2. Détection automatique du parallélisme • A. Outils et ressources • B. L’annotation manuelle du corpus • C. Méthodes de détection du parallélisme • 3. Expériences et résultats • A. Démarche et étude préliminaire • B. Résultats et comparaison des mesures • C. Analyse au niveau phrastique • Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
1. Problématique : le parallélisme • Contexte : • Détection de la structure du discours • Résumé automatique • Questions-réponses • Extraction d’information • Le « parallélisme » : • Idée : un auteur utilise le même schéma de phrase pour exprimer deux idées de même niveau • Regroupe plusieurs phénomènes sous une définition : Enumérations, titres… • Peut-il être retrouvé automatiquement ? Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
1. Problématique : le parallélisme For the purposes of chaining , each type of link between WordNet synsets is assigned a direction of up, down, or horizontal : - upward links correspond to generalization. - downward links correspond to specialization. - horizontal links are very specific specializations. Définition du parallélisme • Des similarités entre énoncés, • A des niveaux : • Typo-dispositionnel, • Lexico-syntaxique, • Sémantique • Qui expriment une équivalence discursive des énoncés Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
Each type of link is assigned a direction Horizontal links specific specializations Upward links generalization Downward links specialization 1. Problématique : le parallélisme • Propriétés du parallélisme : • Un indice de structuration du discours • Des niveaux de granularité variés : phrases, paragraphes… • Objectifs du stage : • Implémenter des méthodes de détection du parallélisme • Comparer ces méthodes Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
Plan de la présentation • Introduction • 1. Problématique : le parallélisme • Exemple et définition du parallélisme • Objectifs du stage • 2. Détection automatique du parallélisme • A. Outils et ressources • B. L’annotation manuelle du corpus • C. Méthodes de détection du parallélisme • 3. Expériences et résultats • A. Démarche et étude préliminaire • B. Résultats et comparaison des mesures • C. Analyse au niveau phrastique • Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.A. Outils et ressources • Programmation : le langage Perl • Les textes du corpus : • 5 articles scientifiques en anglais, 10 pages chacun, • découpés en phrases, • 1000 phrases au total • Une liste de mots vides anglais • Homogénéisation lexico-sémantique des textes : • Lemmatisation : TreeTagger de Schmid • Construction de chaînes lexicales dans le texte : Wordnet • Remplacement par le représentant de la chaîne lexicale Horizontal links are very specific specializations . horizontal connection be very specific specialization . Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.A. Outils et ressources • L’analyseur syntaxique d’Eugène Charniak Horizontal links are very specific specializations . ( S1 ( S ( NP ( JJ Horizontal ) ( NNS links ) ) ( VP ( AUX are ) ( NP ( ADJP ( RB very ) ( JJ specific ) ) ( NNS specializations ) ) ) ( SENT . ) ) ) Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.B. L’annotation manuelle du corpus • Objectifs • Etre exhaustif et précis • Insérer l’information dans les textes • Relever des caractéristiques des parallélismes • Format de l’annotation • Une annotation préexistante : subordination/coordination • Un formalisme inspiré du langage XML <s id=“38” sub=“?” coord=“?” parall=“?”> For the purposes of chaining , each type of link between WordNet synsets is assigned a direction of up , down , or horizontal . </s> Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.B. L’annotation manuelle du corpus • Règles définies : • Parallélismes intra-phrastiques non annotés • Transitivité du parallélisme • Hésitation annotation du parallélisme <s id="38" sub="" coord="" parall=""> For the purposes of chaining , each type of link between WordNet synsets is assigned a direction of up , down , or horizontal . </s> <s id="39" sub="38" coord="" parall=""> Upward links correspond to generalization . </s> <s id="40" sub="38" coord="39" parall="39"> Downward links correspond to specialization . </s> <s id="41" sub="38" coord="40" parall="40"> Horizontal links are very specific specializations . </s> Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.C. Méthodes de détection automatique • Principe des applications développées : • En entrée : un texte du corpus • Recherche des parallélismes à l’intérieur du texte • Pour limiter la complexité : • recherche de parallélisme entre phrases consécutives uniquement • Chaque application attribue une valeur de parallélisme aux couples de phrases consécutives • - … • - Phrase n • Phrase n+1 • Phrase n+2 • … Texte • … • Degré n • Degré n+1 • … Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.C. Méthodes de détection automatique • 1. Méthode naïve (baseline) : comptage des mots en commun • 2. Distance d’édition de Wagner et Fischer • 3. La mesure de parallélisme proposée • 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.C. Méthodes de détection automatique • 1. Méthode naïve (baseline) : comptage des mots en commun • 2. Distance d’édition de Wagner et Fischer • 3. La mesure de parallélisme proposée • 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.C. Méthodes de détection automatique • 1. Baseline : comptage des mots en commun Voici la première baseline que la société nous a présentée. Par la suite , nous analyseronsla seconde baselineimplémentée. • 4 mots en commun : la (deux fois), baseline, nous • score non normalisé = 4. • Moyenne des tailles des phrases : 10 mots • score normalisé = 0,4. Complexité : O(n1 log n1 + n2 log n2) Application : textes non traités Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.C. Méthodes de détection automatique • 1. Baseline : comptage des mots en commun • 2. Distance d’édition de Wagner et Fischer • 3. La mesure de parallélisme proposée • 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.C. Méthodes de détection automatique • 2. Distance d’édition de Wagner et Fischer • Opérations d’édition entre chaînes de caractères : • Insertion : bba baba • Suppression : baba bba • Substitution : baba baaa • A chaque opération, un coût d’édition • Transformation la moins coûteuse • Application au parallélisme : • lettres > mots • textes traités Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.C. Méthodes de détection automatique • 2. Distance d’édition de Wagner et Fischer A = xy yxy yxy yxz = B • Exemple : transformation de A en B Insertion Insertion Suppression Suppression • Complexité : O ( n1 x n2 ) Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.C. Méthodes de détection automatique • 1. Baseline : comptage des mots en commun • 2. Distance d’édition de Wagner et Fischer • 3. La mesure de parallélisme proposée • 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.C. Méthodes de détection automatique • 3. La mesure de parallélisme proposée Deux phrases : « c a b c a d » et « a c b a e » • Mots en commun (pgcd) : a, a, b, c • Génération des séquences : • c a b c a d c a b a et a b c a • a c b a e a c b a • Comparaison des séquences : Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
dmax = 3 2.C. Méthodes de détection automatique Proximité Poids de parallélisme • Poids des constituants entre 0 et 1 : p(a) = 1 p(b) = 0,5 p(c) = 0,5 • Proximité entre constituants parallèles : • d(c) = 1 d(a1) = 1 d(b) = 0 d(a2) = 0 • d(c) = 1 d(a1) = 0 d(b) = 1 d(a2) = 0 D(s1,s2) = 2,5 D(s1’,s2) = 2,67 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
c a b c a d a c b a e 2.C. Méthodes de détection automatique • 3. La mesure de parallélisme proposée • Sélection du meilleur degré obtenu : • D(p1,p2) = 2,67 • Normalisation par la moyenne des tailles des phrases : • Dnorm(p1,p2) = 2,67 / 5,5 Dnorm(p1,p2) = 0,48 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.C. Méthodes de détection automatique • 3. La mesure de parallélisme proposée • Récapitulatif : • Recherche des mots en commun • Génération des séquences • Calcul du degré de parallélisme entre les séquences • Sélection du meilleur degré obtenu • Normalisation • Problème : • Génération des séquences exponentielle Pour une phrase donnée, nombre de séquences à générer : Heuristique Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.C. Méthodes de détection automatique • 1. Baseline : comptage des mots en commun • 2. Distance d’édition de Wagner et Fischer • 3. La mesure de parallélisme proposée • 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.C. Méthodes de détection automatique • 4. Distance d’édition d’arbres de Zhang et Shasha • Rappel : ( S1 ( S ( NP ( JJ Horizontal ) ( NNS links ) ) ( VP ( AUX are ) ( NP ( ADJP ( RB very ) ( JJ specific ) ) ( NNS specializations ) ) ) ( SENT . ) ) ) On conserve l’information de structure Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.C. Méthodes de détection automatique • 4. Distance d’édition d’arbres de Zhang et Shasha • Opérations d’édition : • Insertion : • Suppression : • Substitution : Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
T1 T2 2.C. Méthodes de détection automatique • 4. Distance d’édition d’arbres de Zhang et Shasha • Distance entre deux arbres T1 et T2 : • Découpage de T1 et T2 en sous-arbres • Calcul des distances entre tous les sous-arbres Distance entre T1 et T2 • Exemple : Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.C. Méthodes de détection automatique • 4. Distance d’édition d’arbres de Zhang et Shasha • Résultat : • Insertion de c dans T1 • Suppression de c dans T1 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
2.C. Méthodes de détection automatique • 4. Distance d’édition d’arbres de Zhang et Shasha • Propriétés de la méthode : • Conserve l’ordre dans les relations de dominance • Conserve l’ordre dans les relations de fratrie • Complexité : • p(Ti) : profondeur de Ti • f(Ti) : nombre de feuilles de Ti Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
Plan de la présentation • Introduction • 1. Problématique : le parallélisme • Exemple et définition du parallélisme • Objectifs du stage • 2. Détection automatique du parallélisme • A. Outils et ressources • B. L’annotation manuelle du corpus • C. Méthodes de détection du parallélisme • 3. Expériences et résultats • A. Démarche et étude préliminaire • B. Résultats et comparaison des mesures • C. Analyse au niveau phrastique • Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.A. Démarche de l’évaluation • Précision et rappel • P : les couples annotés parallèles • P’ : les couples classés parallèles automatiquement Couples classés parallèles Couples classés parallèles Non parallélismes Non parallélismes Parallélismes Parallélismes Précision 100% Rappel 100% Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.A. Démarche de l’évaluation • La f-mesure Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.A. Démarche de l’évaluation • Pour chaque texte : • Liste de degrés de parallélisme, un degré par couple • Définition d’un seuil de parallélisme • On fait varier ce seuil : pour chaque seuil, calcul de la f-mesure • Sélection du meilleur seuil obtenu avec la f-mesure associée Travail effectué aussi tous textes confondus • Performance en apprentissage : • Sélection du meilleur seuil obtenu tous textes confondus • Application de ce seuil à chaque texte individuellement : calcul de la f-mesure associée Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.A. Etude préliminaire • Répartition des phrases et des parallélismes dans le corpus Green et Oakes : forte proportion en parallélismes • A priori, meilleure précision sur ces textes Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.B. Résultats et comparaison des mesures • 1. Baseline : comptage des mots en commun • Très faibles performances • Oakes et Green se démarquent • 2. Distance de Wagner et Fischer Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.B. Résultats et comparaison des mesures • 3. La mesure de parallélisme proposée Quatre expériences : • 1. Variation du nombre maximal de séquences à générer • 2. Variation du poids lexical / syntaxique • 3. Poids syntaxiques fixés par comptage dans le corpus • 4. Différentiation mots vides / mots pleins Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.B. Résultats et comparaison des mesures • 3. La mesure de parallélisme proposée • Expérience 1 : variation du nombre maximal de séquences à générer • Performances similaires : - on peut améliorer la précision - mais très coûteux en temps d’exécution • Par la suite : max 30 séquences engendrées Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.B. Résultats et comparaison des mesures • 3. La mesure de parallélisme proposée • Expérience 2 : variation du poids lexical / syntaxique • Les constituants lexicaux sont essentiels • Intérêt mitigé des constituants syntaxiques Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.B. Résultats et comparaison des mesures • 3. La mesure de parallélisme proposée • Expérience 3 : poids syntaxiques fixés par comptage dans le corpus • Performances similaires à celles des autres méthodes • La mesure semble stable pour de la prédiction Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.B. Résultats et comparaison des mesures • 3. La mesure de parallélisme proposée • Expérience 4 : différentiation mots vides / mots pleins • Expérience non concluante : par la suite, poids égaux • Explication : liste de mots vides non adaptée au problème Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.B. Résultats et comparaison des mesures • 4. Distance d’édition d’arbres de Zhang et Shasha • a. Tout type d’opération autorisé • b. Interdiction : lexical syntaxique • Performances un peu meilleures, stabilité • L’interdiction améliore très légèrement les performances Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.B. Résultats et comparaison des mesures • Récapitulatif Green Oakes Kan Mitkov Sand Tous Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.C. Analyse au niveau phrastique • Parallélismes détectés par toutes les méthodes a ) " spring SPE was sown " : CORRECT b ) " spring and summer SPE was sown " : PARTIAL c ) " spring was sown " : NULL d ) " spring CV was sown " : INCORRECT e ) " spring field was sown " : INCORRECT • Enumérations : puces… • Forte similarité syntaxique ET lexicale Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.C. Analyse au niveau phrastique • Parallélismes non détectés Aside from the time-and-money aspects of building such large hypertexts manually , humans are inconsistent in assigning hypertext links between the paragraphs of documents ( Ellis et al. , 1994 ; Green , 1997 ) . That is , different linkers disagree with each other as to where to insert hypertext links into a document . • Fort lien sémantique • Mais lemmes trop différents Rear : a paragraph in which a link just stopped occurring the paragraph before . No link : any remaining paragraphs . • Structure « X : Y » très spécifique pour le lecteur humain • Absence du contexte énumératif Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.C. Analyse au niveau phrastique • Différences selon les méthodes • Meilleur résultat pour la mesure de parallélisme : In c ) the filler corresponds to no text at all , so the match is null . In d ) and e ) the fillers " ;CV " ; and " ;field " ; do not correspond at all to the interpretation " ;SPE " ; . Mauvaise analyse syntaxique When we consider AnsV as our dependent variable , the modelfor the High Web group is still not significant, and there is still a high probability that the coefficient of LI is 0 . For our Low Web group , who followed significantly more intra-article links than the High Web group ,the model that results is significant and has the following equation : <EQN/> . Inversion dans l’ordre des éléments parallèles Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
3.C. Analyse au niveau phrastique • Différences selon les méthodes • Meilleur résultat pour les distances d’édition : Strong relations are also said to exist between words that have synsets connected by a single horizontal link or words that have synsets connected by a single IS-A or INCLUDES relation . A regular relation is said to exist between two words when there is at least one allowable path between a synset containing the first word and a synset containing the second word in the WordNet database . Concentration des constituants parallèles Plus robuste à des différences de taille de phrase Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
Plan de la présentation • Introduction • 1. Problématique : le parallélisme • Exemple et définition du parallélisme • Objectifs du stage • 2. Détection automatique du parallélisme • A. Outils et ressources • B. L’annotation manuelle du corpus • C. Méthodes de détection du parallélisme • 3. Expériences et résultats • A. Démarche et étude préliminaire • B. Résultats et comparaison des mesures • C. Analyse au niveau phrastique • Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
Perspectives • Travail connexe : Kouylekov et Magnini • Opérations interdites entre mots de catégories grammaticales différentes • Insertion d’un lemme : définie par l’idf du mot à insérer • Remplacement d’un lemme : degré de similarité donné par des ressources existantes • Normalisation du degré de parallélisme : par le coût de la suppression de T1 et l’insertion de T2 • Autres améliorations • Poids de parallélisme : établir un plan d’expérience • Utiliser des règles : motifs, puces… et liste de mots clefs • Prise en compte du contexte : énumérations… • Nouvelle liste de mots vides • Objectiver la notion de parallélisme • Caractériser la classe des non-parallélismes… Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
Conclusions • Un phénomène assez subjectif qui peut être détecté • Des méthodes « simples » et rapides finalement très concurrentielles • Nécessité d’une analyse plus fine du comportement des algorithmes : faux positifs, faux négatifs • De nombreuses améliorations possibles Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI
Plan de la présentation • Introduction • 1. Problématique : le parallélisme • Exemple et définition du parallélisme • Objectifs du stage • 2. Détection automatique du parallélisme • A. Outils et ressources • B. L’annotation manuelle du corpus • C. Méthodes de détection du parallélisme • 3. Expériences et résultats • A. Démarche et étude préliminaire • B. Résultats et comparaison des mesures • C. Analyse au niveau phrastique • Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI