660 likes | 1.13k Views
Syntaxe et analyse syntaxique. Eric Laporte Institut Gaspard-Monge Université Paris-Est Marne-la-Vallée France http://igm.univ-mlv.fr/~laporte/ . Syntaxe et analyse syntaxique.
E N D
Syntaxe et analyse syntaxique Eric LaporteInstitut Gaspard-MongeUniversité Paris-Est Marne-la-ValléeFrancehttp://igm.univ-mlv.fr/~laporte/
Syntaxe et analyse syntaxique ObjectifsConstituants syntaxiquesAmbiguïtéChunksGrammaires algébriquesRéseaux de transitions récursifsApplication glissanteTransducteursLinéarisation
Objectifs de la syntaxe Traduction The guy of room 5 misses the girl of room 3 La fille de la chambre 3 manque au type de la chambre 5 Délimiter pour déplacer Mots ambigus [1939 :] [l'Allemagne] [annexe] [la Pologne] [Veuillez me faire parvenir] [l'annexe technique] [du contrat] Délimiter pour lever l'ambiguïté
Syntaxe Je vais fermer l'autre porte * autre fermer je l'porte vais Comment les mots se combinent-ils en phrases qui ont un sens ? Dans quel ordre ? Quelles combinaisons sont possibles ?
Constituants syntaxiques (1/3) Certaines suites de mots dans une phrase forment des constituants Exemple 1 : groupes nominaux vingt autres journaux l'Inde l'offre une seconde section d'équilibristes l'un des meilleurs bâtiments à voile de la compagnie Exemple de propriété commune à ces groupes Peuvent être suivis d'un verbe dans une phrase
Constituants syntaxiques (2/3) vingt autres journaux titrent... l'Inde est... l'offre parvient à... une seconde section d'équilibristes arriva l'un des meilleurs bâtiments à voile de la compagnie peut... ce n'est pas vrai de n'importe quelle séquence de mots * journaux titrent... * l'parvient à... * seconde d'équilibristes arriva On doit donc pouvoir spécifier "un groupe nominal peut être suivi d'un verbe"
Constituants syntaxiques (3/3) Exemple 2 : groupes nominaux prépositionnels depuis quelques mois Déplacement de ce groupe Depuis quelques mois la situation évolue La situation depuis quelques mois évolue La situation évolue depuis quelques mois ce n'est pas vrai de n'importe quelle séquence de mots * Depuis mois la situation quelques évolue * Depuis situation quelques mois la évolue * Mois la situation évolue depuis quelques
Arbres de constituants (1/2) GN GAdj Det Adj N GAdv Adv un bâtiment à voile assez réputé
Arbres de constituants (2/2) P GN GN Det N Luc préfère cette compagnie Notation parenthésée (P (GNLuc) préfère (GN (Detcette) (Ncompagnie))) (P (GN (DetQuels) (Nvols)) proposent (GN (Detun) (Ndîner)) ?)
Arbres et interprétations (1/3) le livre de (la fille sur la photo) dans le sac le livre de la fille sur (la photo dans le sac) le livre de (la fille) sur (la photo) dans (le sac) GN Det N Prép GN Prép GN le livre de sur Det N Prép GN Det N la fille la photo dans Det N Ambiguïté syntaxiqueÀ chaque arbre correspond une interprétation le sac
Arbres et interprétations (2/3) Les arbres permettent de représenter certaines ambiguïtés<confiture>de la confiture <ingredient>à la rhubarbe congelée</ingredient></confiture><confiture>de la confiture <ingredient>à la rhubarbe</ingredient> congelée</confiture>Ambiguïté syntaxique
Arbres et interprétations (3/3) La tempête n'a pas eu l'ampleur redoutée en raison de la concomitance d'une forte marée(Le Monde 12 novembre 2007)A paper in this week's Science purports to identify an impact crater as big as the famous "dinosaur killer" at Chicxulub, in Mexico(The Economist 15 mai 2004)Ambiguïté syntaxique
Ambiguïtés syntaxiques Luc recouvre la table de boisLe MEDEF demande depuis longtemps la suppression de cet impôt, qui pousserait les entrepreneurs à quitter la FranceMoules et frites à volonté : 15 €Les indépendantistes ne désespèrent pas de récupérer le terrain perdu sur les autonomistes lors du scrutin régional de 2010 (lu en 2009)
Ambiguïtés (1/2) Un lecteur anonyme a trouvé cette solution astucieuselexicales : trouvésyntaxiques : rattachement de astucieuseAmbiguïté lexicale et ambiguïté syntaxiqueDifférence dans les étiquettes lexicalesDifférence dans l'arbreBeaucoup d'ambiguïtés sont à la fois lexicales et syntaxiques
Ambiguïtés (2/2) Le marketing utilise des procédés littéraires élaborés à des fins utilitaires et mercantiles(Le Monde juin 2008)On a placé la table ronde sur les revêtements naturels à 10 h
Ambiguïtés syntaxiques et reformulation Luc recouvre la table de bois Luc recouvre la table avec du bois Luc recouvre la table qui est en boisLe MEDEF demande depuis longtemps la suppression de cet impôt, qui pousserait les entrepreneurs à quitter la France Le MEDEF... cet impôt. Cet impôt pousserait les entrepreneurs à quitter la France Le MEDEF... cet impôt. La suppression de cet impôt pousserait les entrepreneurs à quitter la FranceMoules et frites à volonté : 15 €Un lecteur anonyme a trouvé cette solution astucieuseOn a placé la table ronde sur les revêtements naturels à 10 h
Ambiguïté artificielle (1/2) les vols de (la soirée de lundi) pour Toulouse les réponses de Luc à (plusieurs questions de Marie) GN Det N Prép Prép GN GN les vols de Npr pour Det N Prép GN la soirée de lundi Toulouse
Ambiguïté artificielle (2/2) les vols de (la soirée de lundi) pour Toulouse les réponses de Luc à (plusieurs questions de Marie) GN Det N Prép GN Prép GN Npr les réponses de à Det N Prép GN Luc plusieurs questions Npr de Marie
Constituants non récursifs ou chunks (1/2) (GN (GNl'un des meilleurs bâtiments à voile) de (GNla compagnie)) Une suite de deux chunks Constituants qui ne contiennent pas un constituant de la même catégorie (GNl'un des meilleurs bâtiments à voile de (GNla compagnie)) Un GN inclus dans un autre : le petit est un chunk, le grand non Si le GN est précédé d'une préposition, on l'inclut dans le chunk
Constituants non récursifs ou chunks (2/2) [Parmi ces passagers][du Mongolia], [on comptait][divers fonctionnaires civils] et [des officiers][de tout grade] Une phrase est presque une séquence de chunks, surtout nominaux [on comptait] chunk verbal [M. Fogg][quitta][l'hôtel], [seul], [après avoir][recommandé][à son domestique][de l'attendre] [seul] chunk adjectival [Oui] ! [oui] ! [répétait][machinalement][le pauvre garçon] [machinalement] chunk adverbial
Mots composésou expressions multi-mots L'un des meilleurs bâtiments à vendre actuellement bâtiments à vendre n'est pas un mot composé L'un des meilleurs bâtiments à voile de la compagnie bâtiments à voile est un mot composé Compositionnalité ou non bâtiments à vendre sens calculable à partir des sens de bâtiments et à vendre bâtiments à voile à voile n'a pas vraiment un sens indépendamment de bâtiment et quelques autres noms Distribution libre ou figée (bâtiments + stylos + ...) (à vendre + en bon état + ...) (bâtiments + bateaux + *stylos) (à voile + à vapeur + *à mâts)
Grammaires algébriques (1/2) Context-free grammars Outil de manipulation des constituants syntaxiques Règles indiquent la combinaison et l'ordre des éléments GN --> Det N GAdj GN --> Npr GAdj --> GAdv Adj GAdv --> GAdv Adv GAdv --> Adv Lexique Liste des mots (symboles terminaux) Liste des symboles non terminauxGN GAdj GAdv Det...
Grammaires algébriques (2/2) Les règles peuvent comporter des mots dans le membre droit Npr --> Luc Det --> un N --> bâtiment à voile Adj --> réputé Adv --> assez GN --> Det offre de GN Membre gauche : obligatoirement un non-terminal Membre droit : séquence de symboles terminaux ou non terminaux
Dérivation Réécriture utilisant les règles GN --> Det N GAdj (règle) --> Det N GAdv Adj (règle GAdj --> GAdv Adj ) --> Det N Adv Adj (règle GAdv --> Adv ) --> un N Adv Adj (règle Det --> un ) --> un bâtiment à voile Adv Adj (règle N --> bâtiment à voile ) --> un bâtiment à voile assez Adj (règle Adv --> assez ) --> un bâtiment à voile assez réputé (règle Adj --> réputé ) On peut dériver un bâtiment à voile assez réputé de GN
Axiome Le langage formel engendré par la grammaire est l'ensemble des séquences de terminaux dérivables à partir de l'axiome Axiome un des non-terminaux Si la grammaire engendre des phrases, l'axiome correspond au symbole "phrase" Phrase grammaticale phrase engendrée par la grammaire Analyse syntaxique associer à une phrase son (ou ses) arbres de dérivation
Règles pour les phrases (1/2) P --> GN préfère GN Luc préfère cette compagnie P --> GN quitte GN Prép GN Luc quitte Paris vers 10 h P --> GN part Prép GN Luc part après la réunion P GN GN Det N Luc préfère cette compagnie
Règles pour les phrases (2/2) P --> montrez-PRO GN Montrez-moi tous les vols P --> est-ce que il y a GN Prép GN ? Est-ce qu'il y a un dîner sur le vol 312 ? P --> GN proposent GN ? Quels vols proposent un dîner ? Notation parenthésée (P (GN (DetQuels) (Nvols)) proposent (GN (Detun) (Ndîner)) ?)
Règles pour les groupes nominaux GN --> Det N un arrêt GN --> Det Adj N une petite attente GN --> Det GAdj N la plus longue attente GN --> Det N GAdj un coût trop élevé GN --> Det de N beaucoup d'attente GN --> Det N Prép GN les vols pour Toulouse GN --> Det N Rel les vols qui arrivent à Toulouse avant midi GN --> Det N Prép GN Prép GN les vols de la soirée pour Toulouse
Règles pour la coordination GN --> GN Conj GN un arrêt et une attente P --> P Conj P On s'arrête et on attend GAdj --> GAdj Conj GAdj tentant mais dangereux etc. GN --> Det N Prép GN les vols pour Toulouse GN --> Det N Prép GN Conj Prép GN les vols pour Toulouse ou depuis Toulouse
Formalisation Définition(X, V, A0, P) :X alphabet terminal,V alphabet des variables (V ∩ X = ø),A0V axiome,P ensemble fini des règles V × (V | X)*.
Dérivations Définition fg pour f, g(V | X)* ssi on a les factorisations f = uAv et g = uhv avec une règle Ah P. Exemple : des taille0 entreprises des grandes entreprises Langage engendré par la grammaire c’est l’ensemble des f X* tels que A0 … f. Exemple : entrepr0 salariés des taille0 entreprises salariés des petites entreprises X* donc salariés des petites entreprises est engendré par la grammaire
Réseaux de transitions récursifs (RTN) (1/2) Recursive transition network (RTN)Comme les graphes, mais un noeud peut appeler un autre graphe (sous-graphe)Pour appeler un sous-grapheécrire ":" et le nom du sous-graphePar rapport à un graphe simple : on peut représenter plus de formesLes appels à des sous-graphes peuvent faire des cycles
Réseaux de transitions récursifs (2/2) entre.grftaille.grf
Formalisation (1/2) entre.grftaille.grfNoms des états : entre0, entre1... taille0, taille1...Un seul état initial : entre0Transition étiquetée par un état :de entre3 vers entre4 étiquetée par taille0
Formalisation (2/2) L'alphabet est constitué de deux parties disjointes, l'alphabet terminal et l'ensemble des étatsDéfinitionUn automate fini (X | Q, Q, q-, F, δ) :X alphabet terminal, (les étiquettes qui ne sont pas des appels à des sous-graphes)Q ensemble des états (Q ∩ X = ø), (les états des graphes)q- état initial Q, (l'état initial du graphe principal)FQ ensemble des états finaux,δ ensemble fini des transitions Q × (X | Q | ε) × Q(une transition étiquetée par un état est un appel à un sous-graphe ; l'état est l'état initial du graphe appelé)
Les RTN avec Unitex Un RTN est représenté dans Unitex par un ensemble de graphesUn graphe principal et tous les sous-graphes appelésLes états du RTN sont les états des graphes (les états de chaque graphe sont numérotés à partir de 0, mais aucun état n'est commun à plusieurs graphes)Les appels à des sous-graphes sont représentés dans Unitex par le nom du fichier contenant le sous-graphe
Dérivations Définition fg pour f, g(Q | X)* ssi on a les factorisations f = uqv et g = uhv avec un chemin étiqueté h allant de q à un état final. Exemple : il existe un chemin étiqueté petites et moyennes allant de taille0 à taille1, donc taille0petites et moyennes et des taille0 entreprises des petites et moyennes entreprises Langage engendré par le réseau c’est l’ensemble des f X* tels que q- … f. Exemple : entrepr0 salariés des taille0 entreprises salariés des petites et moyennes entreprises X* donc salariés des petites et moyennes entreprises est engendré par le réseau
Équivalence entre RTN et grammaires algébriques (1/5) Une grammaire algébrique équivalente :entrepr0 salariés des taille0 entreprises entrepr0 patrons des taille0 entreprisesentrepr0 salariés desentreprises entrepr0 patrons desentreprisestaille0 petites taille0 moyennes taille0 grandes
Équivalence entre RTN et grammaires (2/5) Ces deux formalismes engendrent les mêmes langages formelsPour une grammaire (X, V, A0, P):À chaque règle Ah on fait correspondre un automate avec un unique état initial A qui n’a aucune transition entrante. (Deux quelconques de ces automates ne peuvent avoir en commun que leur état initial. Si une transition va d’un état d’un de ces automates à un état d’un autre alors elle sort de l’état initial commun aux deux automates.)On obtient un réseau (X | Q, Q, A0, F, δ) en regroupant dans F les états finaux de ces automates et dans δ leurs transitions.Une dérivation Ah est valable dans la grammaire ssi elle est valable dans le réseau.
Pour un réseau (X | Q, Q, q-, F, δ) :• A chaque état q on fait correspondre l’automate obtenu en prenant q comme unique état initial, puis une grammaire (X | Q, Vq, Aq, Pq) engendrant le même langage sur X | Q que cet automate. Les ensembles de variables Vq sont disjoints de Q et deux à deux disjoints.• On crée une grammaire (X, V | Q, q-, P1 | P2) où V est l’union des Vq, P1 l’union des Pq, et P2 l’ensemble des règles qAq.
Le langage engendré par la grammaire est égal à celui engendré par le réseauSi une dérivation (élémentaire) qf pour un état q Q est valable dans le réseau, alors elle est valable (en plusieurs étapes) dans la grammaireInversement, à toute dérivation q-f de la grammaire avec fX* on peut faire correspondre une dérivation équivalente (même arbre syntaxique) constituée d’étapes de la forme qAqg avec g (Q | X)*, qui utilisent uniquement des règles de Pq, or chacune de ces étapes correspond à une étape qg dans le réseau.
Équivalence entre RTN et grammaires (5/5) Ces deux formalismes engendrent les mêmes langages formelsAvantages des grammairesplus simple pour les démonstrations mathématiquesAvantages des RTNplus de réutilisationplus lisible pour l'auteur des ressourcesconstruction et maintenance manuelle plus faciles
Application glissante (1/3) ObjectifExpressions, automates, grammaires ou RTN pour des séquences dont on ne connaît pas les limites (groupes nominaux)Applicables de n'importe où jusqu'à n'importe oùCf. grep : extrait les lignes qui comportent un facteur reconnu par une expressionExpressions, automates, grammaires ou RTN pour des séquences dont on connaît les limites (phrases) :application non glissanteIl faut représenter tout ce qui peut figurer dedans, ou au moins connaître tout l'alphabet