1 / 59

Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques. É ric Laporte Université Paris-Est Marne-la-Vallée. Sommaire. Règles de priorité entre analyses Dépendances entre analyses Règles-exceptions Dépendances entre règles Chevauchements

jaafar
Download Presentation

Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Outils pour le traitement des textesLevée d'ambiguïtésmorpho-syntaxiques Éric Laporte Université Paris-Est Marne-la-Vallée

  2. Sommaire Règles de priorité entre analyses Dépendances entre analyses Règles-exceptions Dépendances entre règles Chevauchements Indépendance double : le système Elag

  3. Règles de priorité entre analyses Niveaux de plausibilité d'emploi dans les lexiques Dela z1 : eau, mentir, synthèse... z2 : chapitrer, foc, retraiter... z3 : bréhaigne, celer, rason...Priorités : z1 > z2 > z3Étiquettes de priorités différentes pour un même mot ambigu {chapitre,chapitre.N+z1:ms} {chapitre,chapitrer.V+z2:P1s:P3s:S1s:S3s:Y2s} {gemme,gemme.N+z2:fs} {gemme,gemmer.V+z3:P1s:P3s:S1s:S3s:Y2s} {rasons,raser.V+z1:P1p:Y1s} {rasons,rason.N+z3:mp}

  4. Réalisation : solution 1 (1/2) Dépend de la structure de données qui représente le texte étiquetéSolution 1 : table {diminué,diminuer .V+z1:Kms} , {par,par .PREP+z1} {hasard,hasard .N+z1:ms} ? {par,par .N+z3:ms} Algorithme : pour chaque mot, supprimer les étiquettes dont le niveau de priorité n'est pas maximal

  5. Réalisation : solution 1 (2/2) Algorithme : pour chaque mot, supprimer les étiquettes dont le niveau de priorité n'est pas maximal {diminué,diminuer .V+z1:Kms} , {par,par .PREP+z1} {hasard,hasard .N+z1:ms} ? {par,par .N+z3:ms}

  6. Réalisation : solution 2 (1/3) Solution 2 : table avec expressions multi-mots {par hasard,par hasard. ADV+z1} {diminué,diminuer .V+z1:Kms} , ? {par,par .PREP+z1} {hasard,hasard .N+z1:ms} {par,par .N+z3:ms}

  7. Réalisation : solution 2 (2/3) Algorithme : supprimer chaque étiquette qui, pour chacun des mots simples qui en font partie, est en concurrence avec au moins une étiquette d'un niveau de priorité supérieur {par hasard,par hasard. ADV+z1} {diminué,diminuer .V+z1:Kms} , ? {par,par .PREP+z1} {hasard,hasard .N+z1:ms} {par,par .N+z3:ms}

  8. Réalisation : solution 2 (3/3) Algorithme : supprimer chaque étiquette qui, pour chacun des mots simples qui en font partie, est en concurrence avec au moins une étiquette d'un niveau de priorité supérieur {ça,ça .PRO+z1:3ms} {que,que .CONJS+z1} {pas,pas .ADV+z1} {si mineur,si mineur .N+z2:ms:mp} {pas,pas .N+z1:ms:mp} {si,si .CONJS+z1} {mineur,mineur .N+z1:ms} {que,que .PRO+z1} {ça,ça .N+z3:ms} {si,si .ADV+z1} {mineur,mineur .A+z1:ms} {si,si .N+z1:ms:mp}

  9. Réalisation : solution 3 (1/4) Solution 3 : automate acyclique Algorithme : pondérer les transitions en fonction des plausibilités d'emploi ; conserver uniquement les chemins de poids maximal

  10. Réalisation : solution 3 (2/4) 1 1 1 0,25 1

  11. Réalisation : solution 3 (3/4) 1 1 0,5 1 1 1 0,25 1 1 1 1 1

  12. Réalisation : solution 3 (4/4)

  13. Évaluation Contexte : préparation à l'analyse syntaxiqueL'absence d'une étiquette correcte peut empêcher l'analyse de toute la phraseToute diminution du rappel dégrade la qualité de la grammaire de levée d'ambiguïtésRègles de priorité et rappelDans un domaine spécialisé, une étiquette z2 ou même z3 peut être correcte même si elle est en concurrence avec z1Exemple : Cette oeuvre est en si mineurCes règles peuvent donc diminuer le rappel

  14. Dépendances entre analyses (1/2) Une propriété technique de certaines règlesDans une règle de priorité, le traitement d'une analyse peut dépendre de l'existence ou de l'absence d'une autre analyse {diminué,diminuer .V+z1:Kms} , {par,par .PREP+z1} {hasard,hasard .N+z1:ms} ? {par,par .N+z3:ms} {par,par.N+z3:ms} est éliminé parce que {par,par.PREP+z1} est présent

  15. Dépendances entre analyses (2/2) ConséquencesSi une règle r1 élimine {par,par.PREP+z1} avant l'application de la règle de priorité r2, {par,par.N+z3:ms} est conservéSi r1 est appliquée aprèsr2, {par,par.N+z3:ms} est éliminéLe comportement du système dépend de l'ordre d'application des règlesSi la grammaire de levée d'ambiguïtés contient une des deux règles, l'introduction de l'autre peut perturber le fonctionnement de la première La construction de la grammaire n'est pas monotone

  16. N et V (1/3) Priorité de N par rapport à V après desExemple : voyager ainsi à l'abri des bois {abri,abri .N+z1:ms} {des,un .DET+Dind+z1:mp:fp} {bois,boire .V+z1:P1s:P2s:Y2s} . {des,du .CONTR+z1:mp:fp} {bois,bois .N+z1:ms:mp} FormalisationStructure de données : tablePour chaque mot qui suit des et qui a au moins une étiquette N et une V, supprimer les étiquettes V

  17. N et V (2/3) Structure de données : automate acycliqueSi un chemin c contient des suivi d'une étiquette V en "parallèle" avec une étiquette N, supprimer c

  18. N et V (3/3)

  19. Évaluation Risque de diminution du rappel ?J'ai même dans mon dossier des incendies remarquablesLes membres eux-mêmes sont des organes expressifs des passionsdes n'est jamais suivi d'un verbeAucun risque

  20. Dépendances entre analyses {bois,boire.V+z1:P1s:P2s:Y2s} est éliminé parce que {bois,bois.N+z1:ms:mp} est présent {abri,abri .N+z1:ms} {des,un .DET+Dind+z1:mp:fp} {bois,boire .V+z1:P1s:P2s:Y2s} . {des,du .CONTR+z1:mp:fp} {bois,bois .N+z1:ms:mp} Cette dépendance entre règles est une complication inutileSupprimer chaque étiquette V qui suit desSupprimer chaque chemin qui contient des suivi d'une étiquette V

  21. que : formalisation 1 Priorité de que.PRO sur que.CONJS avant V sauf à l'infinitif (V:W), au participe présent (V:G) ou au participe passé (V:K)Exemple : les détails que comporte un aussi long voyage {que,que .PRO+PronQ+z1} {comporte,comporter .V+z1:P1s:P3s:S1s:S3s:Y2s} {un,un .DET+Dind+z1:ms} {que,que.CONJS+z1} {comporte,comporte .N+z2:fs} {un,un .N+Nnum+z1:ms:mp} {un,un.A+z2:ms} Structure tableFormalisation 1Supprimer les étiquettes que.CONJS suivies d'un mot qui a au moins une étiquette V avec un temps-mode autre que W, G ou K

  22. Évaluation Risque de diminution du rappel ?J'espère que cela ne vous arrivera plusLa règle élimine l'étiquette correcte que.CONJS {que,que .PRO+PronQ+z1} {cela,celer.V+t+z3:J3s} {ne,ne.XI+z1:ms} {que,que.CONJS+z1} {cela,cela .PRO+Pdem+z1:ms} Autres exemplesIl est vrai que portes et fenêtres manquent absolumentCe n'estque fêtes et réjouissances

  23. Dépendances entre analyses L'analyse correcte {que.CONJS}{cela.PRO} est éliminée en raison de l'existence de {cela,celer.V}, qui fait partie d'une autre analyse {que,que .PRO+PronQ+z1} {cela,celer.V+t+z3:J3s} {ne,ne.XI+z1:ms} {que,que.CONJS+z1} {cela,cela .PRO+Pdem+z1:ms} Si une règle r1 élimine {cela,celer.V} avant l'application de la règle de priorité r2, {que.CONJS} est conservéSi r1 est appliquée aprèsr2, {que.CONJS} est éliminéLe comportement du système dépend de l'ordre d'application des règles

  24. que : formalisation 2 Formalisation 2Supprimer les étiquettes que.CONJS suivies d'un mot étiqueté uniquement V avec des temps-modes autres que W, G ou K {que,que .PRO+PronQ+z1} {comporte,comporter .V+z1:P1s:P3s:S1s:S3s:Y2s} {un,un .DET+Dind+z1:ms} {que,que.CONJS+z1} {comporte,comporte .N+z2:fs} {un,un .N+Nnum+z1:ms:mp} {un,un.A+z2:ms} Dans cette version, la règle n'élimine pas l'étiquette que.CONJS

  25. Évaluation Risque de diminution du rappel ?Cette version est plus prudente, mais :Je demande que soient cités deux nouveaux témoinsLa règle élimine l'étiquette correcte que.CONJS {que,que .PRO+PronQ+z1} {soient,être.V+z1:S3p} {que,que.CONJS+z1}

  26. Dépendances entre analyses L'analyse {que.CONJS}est éliminée si {comporte,comporte.N+z2:fs} est absente du lexique, mais pas si elle est présente dans le lexique {que,que .PRO+PronQ+z1} {comporte,comporter .V+z1:P1s:P3s:S1s:S3s:Y2s} {un,un .DET+Dind+z1:ms} {que,que.CONJS+z1} {un,un .N+Nnum+z1:ms:mp} {un,un.A+z2:ms} Une extension correcte du lexique (ajout d'une entrée correcte) perturbe le fonctionnement du système

  27. que : formalisation 3 (1/2) Structure automate acycliqueLes 2 formalisations précédentes sont possibles Formalisation 3Supprimer les chemins qui contiennent que.CONJS suivi d'une étiquette V avec un temps-mode autre que W, G ou K

  28. que : formalisation 3 (2/2)

  29. Évaluation Risque de diminution du rappel ?Cette version est plus prudente, mais :Je demande que soient cités deux nouveaux témoinsLa règle élimine l'étiquette correcte que.CONJS

  30. Dépendances entre analyses Supprimer les chemins qui contiennent que.CONJS suivi d'une étiquette V avec un temps-mode autre que W, G ou KLes critères de suppression d'une analyse tiennent à son contenu uniquementAucune dépendance entre analysesNon adaptable à la structure table

  31. N et A Priorité de A:ms par rapport à N après N:msExemple : un moine bouddhiste birman {moine,moine .N+z1:ms} {bouddhiste,bouddhiste .A+z1:ms:fs} {bouddhiste,bouddhiste .N+z1:ms:fs} FormalisationStructure de données : tableAprès un mot qui a au moins une étiquette N:ms, s'il y a au moins une étiquette N et une A:ms, supprimer les étiquettes N

  32. Évaluation Risque de diminution du rappel ?Une fois son neveu général, elle ne se résignera pasLa règle élimine l'étiquette correcte général.N:ms {neveu,neveu .N+z1:ms} {général,général .A+z1:ms} {général,général .N+z1:ms} Autre exempleUn petit bouddhiste recueilli par des moines népalais

  33. Dépendances entre analyses L'analyse correcte {neveu.N:ms}{général.N:ms} est éliminée en raison de l'existence de {général.A:ms}, qui fait partie d'une autre analyse {neveu,neveu .N+z1:ms} {général,général .A+z1:ms} {général,général .N+z1:ms} Si une règle r1 élimine {général.A:ms}avant l'application de la règle de priorité r2, {général.N:ms} est conservéSi r1 est appliquée aprèsr2, {général.N:ms} est éliminéLe comportement du système dépend de l'ordre d'application des règles

  34. Dépendances entre analyses : formalisation texte étiqueté : m analyses (ai)1  i  m texte étiqueté : m' analyses LAL ((ai)1  i  m, G) m'  m levée d'ambiguïtés lexicales grammaire G : n règles Un processus de sélection

  35. Indépendance des analyses : formalisation LAL ((ai)1  i  m, G) = 1  i  mLAL (ai, G)a LAL ((ai)1  i  m, G)  a LAL (a, G)La propriété d'indépendance des analyses est une propriété du système de levée d'ambiguïtés (formalisme et règles), non une propriété des analyses

  36. Dépendances entre analyses (1/2) En cas de dépendances entre analyses :- le comportement du système peut dépendre de l'ordre d'application des règles- une extension correcte du lexique (ajout d'une entrée correcte) peut perturber le fonctionnement du système

  37. Dépendances entre analyses (2/2) Les conditions portent sur un ensemble d’analyses, non sur une seule analyseLes règles ne sont pas utilisables pour d'autres types d'ambiguïtés (ex. : phonétiques), car les ensembles d’analyses seraient différentsExemple : La chaîne freine la roue chaîne - chêne - ... freine - frêne - ... roue - roux - ...

  38. Règles-exceptions (1/2) Dans une séquence <PREP> ce que, on ne peut étiqueter que {ce.PRO} et {que.PRO}Je ressors avec ce que je veux {avec,avec .PREP+z1} {ce,ce .PRO+z1:ms:mp} {que,que .CONJS+z1} {ce,ce .DET+z1:ms} {que,que .PRO+z1}

  39. Règles-exceptions (2/2) Dans une séquence <PREP> ce que, on ne peut étiqueter que {ce.PRO} et {que.PRO}Exception : si la préposition est à, de ou en, que peut ne pas être un PROIl veillait à ce que rien ne manquâtCela vient de ce que nous sommes seulsIl y a eu violation de la loi en ce que la chambre a commis une erreur {à,à.PREP+z1} {ce,ce .PRO+z1:ms:mp} {que,que .CONJS+z1} {ce,ce .DET+z1:ms} {que,que .PRO+z1}

  40. Formalisation 1 Formalisation 1r1 - Si un mot qui a au moins une étiquette PREP est suivi de ce que, supprimer les étiquettes autres que {ce.PRO} et {que.PRO} r2 - Si un mot qui a au moins une étiquette {à.PREP}, {de.PREP} ou {en.PREP} est suivi de ce que, supprimer les étiquettes autres que {ce.PRO} ; r2 est une exception à r1

  41. Évaluation LisibilitéLa règle générale est trompeuseElle peut ne pas s'appliquer alors que ses conditions d'application sont réuniesDépendance entre règlesL'introduction de r2 perturbe le fonctionnement de r1La construction de la grammaire de levée d'ambiguïtés n'est pas monotoneLa contradiction partielle complique la structure de la grammaire et donc sa mise à jour

  42. Formalisation 2 Formalisation 2r1 - Si un mot qui a au moins une étiquette PREP autre que à, de ou en est suivi de ce que, supprimer les étiquettes autres que {ce.PRO} et {que.PRO} r2 - Si un mot qui a au moins une étiquette {à.PREP}, {de.PREP} ou {en.PREP} est suivi de ce que, supprimer les étiquettes autres que {ce.PRO}Aucune contradiction

  43. Formalisation 3 Formalisation 3r1 - Si un mot qui a au moins une étiquette PREP autre que à, de ou en est suivi de ce que, supprimer les étiquettes autres que {que.PRO} r2 - Si un mot qui a au moins une étiquette {à.PREP}, {de.PREP} ou {en.PREP} est suivi de ce que, supprimer les étiquettes autres que {ce.PRO}Aucune contradiction

  44. que (1/4) Après virgule ou limite de phrase, bien que ne peut être étiqueté que {bien.CONJS} {que.CONJS}Mais, bien que mes ressources ne me permettent pas... , {bien,bien.N+z1:ms} {que,que .CONJS+z1} {bien,bien.ADV+z1} {que,que .PRO+z1} {bien,bien .A+z1:ms:mp:fs:fp} {bien,bien .CONJS+z1}

  45. que (2/4) Priorité de que.PRO sur que.CONJS avant V sauf à l'infinitif (V:W), au participe présent (V:G) ou au participe passé (V:K)Exemple : les détails que comporte un aussi long voyage {que,que .PRO+PronQ+z1} {comporte,comporter .V+z1:P1s:P3s:S1s:S3s:Y2s} {un,un .DET+Dind+z1:ms} {que,que.CONJS+z1} {comporte,comporte .N+z2:fs} {un,un .N+Nnum+z1:ms:mp} {un,un.A+z2:ms} Cette règle peut théoriquement entrer en contradiction avec la précédente

  46. que (3/4) Cette règle peut théoriquement entrer en contradiction avec la précédenteExemple : Il avait hérité d'un hôtel particulier du XVIIIe siècle, bien qu'avait fait construire un de ses ancêtres plus habile en affaires que luiFormalisation 1Spécifier laquelle fait exception à l'autreLa règle sur que V fait exception à la règle sur ", bien que"Il y a alors dépendance entre les deux règles

  47. que (4/4) Formalisation 2Modifier explicitement la règle ", bien que"Si bien que- est après virgule ou limite de phrase, et- n'est pas suivi d'un V sauf à l'infinitif (V:W), au participe présent (V:G) ou au participe passé (V:K),alors il ne peut être étiqueté que {bien.CONJS} {que.CONJS}Plus aucune dépendance entre les deux règles

  48. Dépendances entre règles : formalisation texte étiqueté T : m analyses texte étiqueté : m' analyses LAL (T, (rj)1  j  n) m'  m levée d'ambiguïtés lexicales grammaire : n règles (rj)1  j  n Un processus de sélection

  49. Indépendance des règles : formalisation LAL (T, (rj)1  j  n) = 1  j  nLAL (T, rj)a LAL (T, (rj)1  j  n)  j [1, n] a LAL (T, rj)Les résultats ne peuvent pas dépendre de l'ordre d'application des règlesChaque règle s’applique au texte représenté avec toutes ses ambiguïtésAvantages- l'introduction de nouvelles règles ne modifie pas le fonctionnement des anciennes- si toutes les règles ont un rappel de 100 %, alors la grammaire aussi

  50. Dépendances entre règles En cas de dépendances entre règles :- l'introduction d'une nouvelle règle peut perturber le fonctionnement des règles existantes- la construction de la grammaire de levée d'ambiguïtés n'est pas monotone

More Related