1 / 51

Détection automatique du parallélisme textuel

Détection automatique du parallélisme textuel. Stage de fin d’études, ENST Encadrant : Nicolas Hernandez Correspondant ENST : François Yvon Lieu : LIMSI-CNRS, Université d’Orsay Date : avril à août 2005. Plan de la présentation. Introduction 1. Problématique : le parallélisme Contexte

chidi
Download Presentation

Détection automatique du parallélisme textuel

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Détection automatique du parallélisme textuel Stage de fin d’études, ENST Encadrant : Nicolas Hernandez Correspondant ENST : François Yvon Lieu : LIMSI-CNRS, Université d’Orsay Date : avril à août 2005 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  2. Plan de la présentation • Introduction • 1. Problématique : le parallélisme • Contexte • Exemple et définition du parallélisme • Objectifs du stage • 2. Détection automatique du parallélisme • A. Outils et ressources • B. L’annotation manuelle du corpus • C. Méthodes de détection du parallélisme • 3. Expériences et résultats • A. Démarche et étude préliminaire • B. Résultats et comparaison des mesures • C. Analyse au niveau phrastique • Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  3. Plan de la présentation • Introduction • 1. Problématique : le parallélisme • Contexte • Exemple et définition du parallélisme • Objectifs du stage • 2. Détection automatique du parallélisme • A. Outils et ressources • B. L’annotation manuelle du corpus • C. Méthodes de détection du parallélisme • 3. Expériences et résultats • A. Démarche et étude préliminaire • B. Résultats et comparaison des mesures • C. Analyse au niveau phrastique • Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  4. 1. Problématique : le parallélisme • Contexte : • Détection de la structure du discours • Résumé automatique • Questions-réponses • Extraction d’information • Le « parallélisme » : • Idée : un auteur utilise le même schéma de phrase pour exprimer deux idées de même niveau • Regroupe plusieurs phénomènes sous une définition : Enumérations, titres… • Peut-il être retrouvé automatiquement ? Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  5. 1. Problématique : le parallélisme For the purposes of chaining , each type of link between WordNet synsets is assigned a direction of up, down, or horizontal : - upward links correspond to generalization. - downward links correspond to specialization. - horizontal links are very specific specializations. Définition du parallélisme • Des similarités entre énoncés, • A des niveaux : • Typo-dispositionnel, • Lexico-syntaxique, • Sémantique • Qui expriment une équivalence discursive des énoncés Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  6. Each type of link is assigned a direction Horizontal links specific specializations Upward links generalization Downward links specialization 1. Problématique : le parallélisme • Propriétés du parallélisme : • Un indice de structuration du discours • Des niveaux de granularité variés : phrases, paragraphes… • Objectifs du stage : • Implémenter des méthodes de détection du parallélisme • Comparer ces méthodes Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  7. Plan de la présentation • Introduction • 1. Problématique : le parallélisme • Exemple et définition du parallélisme • Objectifs du stage • 2. Détection automatique du parallélisme • A. Outils et ressources • B. L’annotation manuelle du corpus • C. Méthodes de détection du parallélisme • 3. Expériences et résultats • A. Démarche et étude préliminaire • B. Résultats et comparaison des mesures • C. Analyse au niveau phrastique • Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  8. 2.A. Outils et ressources • Programmation : le langage Perl • Les textes du corpus : • 5 articles scientifiques en anglais, 10 pages chacun, • découpés en phrases, • 1000 phrases au total • Une liste de mots vides anglais • Homogénéisation lexico-sémantique des textes : • Lemmatisation : TreeTagger de Schmid • Construction de chaînes lexicales dans le texte : Wordnet • Remplacement par le représentant de la chaîne lexicale Horizontal links are very specific specializations . horizontal connection be very specific specialization . Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  9. 2.A. Outils et ressources • L’analyseur syntaxique d’Eugène Charniak Horizontal links are very specific specializations . ( S1 ( S ( NP ( JJ Horizontal ) ( NNS links ) ) ( VP ( AUX are ) ( NP ( ADJP ( RB very ) ( JJ specific ) ) ( NNS specializations ) ) ) ( SENT . ) ) ) Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  10. 2.B. L’annotation manuelle du corpus • Objectifs • Etre exhaustif et précis • Insérer l’information dans les textes • Relever des caractéristiques des parallélismes • Format de l’annotation • Une annotation préexistante : subordination/coordination • Un formalisme inspiré du langage XML <s id=“38” sub=“?” coord=“?” parall=“?”> For the purposes of chaining , each type of link between WordNet synsets is assigned a direction of up , down , or horizontal . </s> Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  11. 2.B. L’annotation manuelle du corpus • Règles définies : • Parallélismes intra-phrastiques non annotés • Transitivité du parallélisme • Hésitation  annotation du parallélisme <s id="38" sub="" coord="" parall=""> For the purposes of chaining , each type of link between WordNet synsets is assigned a direction of up , down , or horizontal . </s> <s id="39" sub="38" coord="" parall=""> Upward links correspond to generalization . </s> <s id="40" sub="38" coord="39" parall="39"> Downward links correspond to specialization . </s> <s id="41" sub="38" coord="40" parall="40"> Horizontal links are very specific specializations . </s> Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  12. 2.C. Méthodes de détection automatique • Principe des applications développées : • En entrée : un texte du corpus • Recherche des parallélismes à l’intérieur du texte • Pour limiter la complexité : • recherche de parallélisme entre phrases consécutives uniquement • Chaque application attribue une valeur de parallélisme aux couples de phrases consécutives • - … • - Phrase n • Phrase n+1 • Phrase n+2 • … Texte • … • Degré n • Degré n+1 • … Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  13. 2.C. Méthodes de détection automatique • 1. Méthode naïve (baseline) : comptage des mots en commun • 2. Distance d’édition de Wagner et Fischer • 3. La mesure de parallélisme proposée • 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  14. 2.C. Méthodes de détection automatique • 1. Méthode naïve (baseline) : comptage des mots en commun • 2. Distance d’édition de Wagner et Fischer • 3. La mesure de parallélisme proposée • 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  15. 2.C. Méthodes de détection automatique • 1. Baseline : comptage des mots en commun Voici la première baseline que la société nous a présentée. Par la suite , nous analyseronsla seconde baselineimplémentée. • 4 mots en commun : la (deux fois), baseline, nous • score non normalisé = 4. • Moyenne des tailles des phrases : 10 mots • score normalisé = 0,4. Complexité : O(n1 log n1 + n2 log n2) Application : textes non traités Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  16. 2.C. Méthodes de détection automatique • 1. Baseline : comptage des mots en commun • 2. Distance d’édition de Wagner et Fischer • 3. La mesure de parallélisme proposée • 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  17. 2.C. Méthodes de détection automatique • 2. Distance d’édition de Wagner et Fischer • Opérations d’édition entre chaînes de caractères : • Insertion : bba  baba • Suppression : baba  bba • Substitution : baba  baaa • A chaque opération, un coût d’édition • Transformation la moins coûteuse • Application au parallélisme : • lettres > mots • textes traités Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  18. 2.C. Méthodes de détection automatique • 2. Distance d’édition de Wagner et Fischer A = xy  yxy  yxy  yxz = B • Exemple : transformation de A en B Insertion Insertion Suppression Suppression • Complexité : O ( n1 x n2 ) Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  19. 2.C. Méthodes de détection automatique • 1. Baseline : comptage des mots en commun • 2. Distance d’édition de Wagner et Fischer • 3. La mesure de parallélisme proposée • 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  20. 2.C. Méthodes de détection automatique • 3. La mesure de parallélisme proposée Deux phrases : « c a b c a d » et « a c b a e » • Mots en commun (pgcd) : a, a, b, c • Génération des séquences : • c a b c a d  c a b a et a b c a • a c b a e  a c b a • Comparaison des séquences : Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  21. dmax = 3 2.C. Méthodes de détection automatique Proximité Poids de parallélisme • Poids des constituants entre 0 et 1 : p(a) = 1 p(b) = 0,5 p(c) = 0,5 • Proximité entre constituants parallèles : • d(c) = 1 d(a1) = 1 d(b) = 0 d(a2) = 0 • d(c) = 1 d(a1) = 0 d(b) = 1 d(a2) = 0 D(s1,s2) = 2,5 D(s1’,s2) = 2,67 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  22. c a b c a d a c b a e 2.C. Méthodes de détection automatique • 3. La mesure de parallélisme proposée • Sélection du meilleur degré obtenu : • D(p1,p2) = 2,67 • Normalisation par la moyenne des tailles des phrases : • Dnorm(p1,p2) = 2,67 / 5,5 Dnorm(p1,p2) = 0,48 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  23. 2.C. Méthodes de détection automatique • 3. La mesure de parallélisme proposée • Récapitulatif : • Recherche des mots en commun • Génération des séquences • Calcul du degré de parallélisme entre les séquences • Sélection du meilleur degré obtenu • Normalisation • Problème : • Génération des séquences exponentielle Pour une phrase donnée, nombre de séquences à générer :  Heuristique Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  24. 2.C. Méthodes de détection automatique • 1. Baseline : comptage des mots en commun • 2. Distance d’édition de Wagner et Fischer • 3. La mesure de parallélisme proposée • 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  25. 2.C. Méthodes de détection automatique • 4. Distance d’édition d’arbres de Zhang et Shasha • Rappel : ( S1 ( S ( NP ( JJ Horizontal ) ( NNS links ) ) ( VP ( AUX are ) ( NP ( ADJP ( RB very ) ( JJ specific ) ) ( NNS specializations ) ) ) ( SENT . ) ) )  On conserve l’information de structure Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  26. 2.C. Méthodes de détection automatique • 4. Distance d’édition d’arbres de Zhang et Shasha • Opérations d’édition : • Insertion : • Suppression : • Substitution : Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  27. T1 T2 2.C. Méthodes de détection automatique • 4. Distance d’édition d’arbres de Zhang et Shasha • Distance entre deux arbres T1 et T2 : • Découpage de T1 et T2 en sous-arbres • Calcul des distances entre tous les sous-arbres  Distance entre T1 et T2 • Exemple : Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  28. 2.C. Méthodes de détection automatique • 4. Distance d’édition d’arbres de Zhang et Shasha • Résultat : • Insertion de c dans T1 • Suppression de c dans T1 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  29. 2.C. Méthodes de détection automatique • 4. Distance d’édition d’arbres de Zhang et Shasha • Propriétés de la méthode : • Conserve l’ordre dans les relations de dominance • Conserve l’ordre dans les relations de fratrie • Complexité : • p(Ti) : profondeur de Ti • f(Ti) : nombre de feuilles de Ti Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  30. Plan de la présentation • Introduction • 1. Problématique : le parallélisme • Exemple et définition du parallélisme • Objectifs du stage • 2. Détection automatique du parallélisme • A. Outils et ressources • B. L’annotation manuelle du corpus • C. Méthodes de détection du parallélisme • 3. Expériences et résultats • A. Démarche et étude préliminaire • B. Résultats et comparaison des mesures • C. Analyse au niveau phrastique • Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  31. 3.A. Démarche de l’évaluation • Précision et rappel • P : les couples annotés parallèles • P’ : les couples classés parallèles automatiquement Couples classés parallèles Couples classés parallèles Non parallélismes Non parallélismes Parallélismes Parallélismes Précision 100% Rappel 100% Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  32. 3.A. Démarche de l’évaluation • La f-mesure Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  33. 3.A. Démarche de l’évaluation • Pour chaque texte : • Liste de degrés de parallélisme, un degré par couple • Définition d’un seuil de parallélisme • On fait varier ce seuil : pour chaque seuil, calcul de la f-mesure • Sélection du meilleur seuil obtenu avec la f-mesure associée  Travail effectué aussi tous textes confondus • Performance en apprentissage : • Sélection du meilleur seuil obtenu tous textes confondus • Application de ce seuil à chaque texte individuellement : calcul de la f-mesure associée Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  34. 3.A. Etude préliminaire • Répartition des phrases et des parallélismes dans le corpus Green et Oakes : forte proportion en parallélismes • A priori, meilleure précision sur ces textes Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  35. 3.B. Résultats et comparaison des mesures • 1. Baseline : comptage des mots en commun • Très faibles performances • Oakes et Green se démarquent • 2. Distance de Wagner et Fischer Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  36. 3.B. Résultats et comparaison des mesures • 3. La mesure de parallélisme proposée Quatre expériences : • 1. Variation du nombre maximal de séquences à générer • 2. Variation du poids lexical / syntaxique • 3. Poids syntaxiques fixés par comptage dans le corpus • 4. Différentiation mots vides / mots pleins Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  37. 3.B. Résultats et comparaison des mesures • 3. La mesure de parallélisme proposée • Expérience 1 : variation du nombre maximal de séquences à générer • Performances similaires : - on peut améliorer la précision - mais très coûteux en temps d’exécution • Par la suite : max 30 séquences engendrées Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  38. 3.B. Résultats et comparaison des mesures • 3. La mesure de parallélisme proposée • Expérience 2 : variation du poids lexical / syntaxique • Les constituants lexicaux sont essentiels • Intérêt mitigé des constituants syntaxiques Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  39. 3.B. Résultats et comparaison des mesures • 3. La mesure de parallélisme proposée • Expérience 3 : poids syntaxiques fixés par comptage dans le corpus • Performances similaires à celles des autres méthodes • La mesure semble stable pour de la prédiction Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  40. 3.B. Résultats et comparaison des mesures • 3. La mesure de parallélisme proposée • Expérience 4 : différentiation mots vides / mots pleins • Expérience non concluante : par la suite, poids égaux • Explication : liste de mots vides non adaptée au problème Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  41. 3.B. Résultats et comparaison des mesures • 4. Distance d’édition d’arbres de Zhang et Shasha • a. Tout type d’opération autorisé • b. Interdiction : lexical  syntaxique • Performances un peu meilleures, stabilité • L’interdiction améliore très légèrement les performances Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  42. 3.B. Résultats et comparaison des mesures • Récapitulatif Green Oakes Kan Mitkov Sand Tous Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  43. 3.C. Analyse au niveau phrastique • Parallélismes détectés par toutes les méthodes a ) " spring SPE was sown " : CORRECT b ) " spring and summer SPE was sown " : PARTIAL c ) " spring was sown " : NULL d ) " spring CV was sown " : INCORRECT e ) " spring field was sown " : INCORRECT • Enumérations : puces… • Forte similarité syntaxique ET lexicale Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  44. 3.C. Analyse au niveau phrastique • Parallélismes non détectés Aside from the time-and-money aspects of building such large hypertexts manually , humans are inconsistent in assigning hypertext links between the paragraphs of documents ( Ellis et al. , 1994 ; Green , 1997 ) . That is , different linkers disagree with each other as to where to insert hypertext links into a document . • Fort lien sémantique • Mais lemmes trop différents Rear : a paragraph in which a link just stopped occurring the paragraph before . No link : any remaining paragraphs . • Structure « X : Y » très spécifique pour le lecteur humain • Absence du contexte énumératif Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  45. 3.C. Analyse au niveau phrastique • Différences selon les méthodes • Meilleur résultat pour la mesure de parallélisme : In c ) the filler corresponds to no text at all , so the match is null . In d ) and e ) the fillers " ;CV " ; and " ;field " ; do not correspond at all to the interpretation " ;SPE " ; .  Mauvaise analyse syntaxique When we consider AnsV as our dependent variable , the modelfor the High Web group is still not significant, and there is still a high probability that the coefficient of LI is 0 . For our Low Web group , who followed significantly more intra-article links than the High Web group ,the model that results is significant and has the following equation : <EQN/> .  Inversion dans l’ordre des éléments parallèles Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  46. 3.C. Analyse au niveau phrastique • Différences selon les méthodes • Meilleur résultat pour les distances d’édition : Strong relations are also said to exist between words that have synsets connected by a single horizontal link or words that have synsets connected by a single IS-A or INCLUDES relation . A regular relation is said to exist between two words when there is at least one allowable path between a synset containing the first word and a synset containing the second word in the WordNet database .  Concentration des constituants parallèles  Plus robuste à des différences de taille de phrase Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  47. Plan de la présentation • Introduction • 1. Problématique : le parallélisme • Exemple et définition du parallélisme • Objectifs du stage • 2. Détection automatique du parallélisme • A. Outils et ressources • B. L’annotation manuelle du corpus • C. Méthodes de détection du parallélisme • 3. Expériences et résultats • A. Démarche et étude préliminaire • B. Résultats et comparaison des mesures • C. Analyse au niveau phrastique • Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  48. Perspectives • Travail connexe : Kouylekov et Magnini • Opérations interdites entre mots de catégories grammaticales différentes • Insertion d’un lemme : définie par l’idf du mot à insérer • Remplacement d’un lemme : degré de similarité donné par des ressources existantes • Normalisation du degré de parallélisme : par le coût de la suppression de T1 et l’insertion de T2 • Autres améliorations • Poids de parallélisme : établir un plan d’expérience • Utiliser des règles : motifs, puces… et liste de mots clefs • Prise en compte du contexte : énumérations… • Nouvelle liste de mots vides • Objectiver la notion de parallélisme • Caractériser la classe des non-parallélismes… Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  49. Conclusions • Un phénomène assez subjectif qui peut être détecté • Des méthodes « simples » et rapides finalement très concurrentielles • Nécessité d’une analyse plus fine du comportement des algorithmes : faux positifs, faux négatifs • De nombreuses améliorations possibles Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

  50. Plan de la présentation • Introduction • 1. Problématique : le parallélisme • Exemple et définition du parallélisme • Objectifs du stage • 2. Détection automatique du parallélisme • A. Outils et ressources • B. L’annotation manuelle du corpus • C. Méthodes de détection du parallélisme • 3. Expériences et résultats • A. Démarche et étude préliminaire • B. Résultats et comparaison des mesures • C. Analyse au niveau phrastique • Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

More Related