290 likes | 527 Views
Reconnaissance automatique des expressions elliptiques arabes. Elyes HASNI & Kais HADDAR. Laboratoire MIRACL, Faculté des sciences de Sfax, Tunisie. Plan. Introduction. État de l’art sur le traitement des ellipses et sur NOOJ. Typologie des expressions elliptiques arabes. Démarche proposée.
E N D
Reconnaissance automatique des expressions elliptiques arabes Elyes HASNI & Kais HADDAR Laboratoire MIRACL, Faculté des sciences de Sfax, Tunisie CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
Plan Introduction État de l’art sur le traitement des ellipses et sur NOOJ Typologie des expressions elliptiques arabes Démarche proposée Expérimentation de la démarche Conclusion et perspectives CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
Introduction Applications TALN utilisant des processus d’analyse doivent tenir compte de plusieurs phénomènes linguistiques tels que l’ellipse Ellipse est l’omission d’une partie de discours qui n’a pas une incidence sur la compréhension globale Elle permet d’alléger la formulation, éviter la lourdeur et la redondance Traitement de l’ellipse facilite la phase de l’analyse syntaxique notamment la compréhension automatique des textes CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Introduction Ellipse existe dans toute langue (la langue arabe) Textes contiennent des expressions elliptiques arabes Interaction de l’ellipse avec d’autres phénomènes Travaux peu nombreux sur les expressions elliptiques arabes Importance des plateformes linguistiques dans le TALN prototypage rapide, validation des idées algorithmes testés CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Introduction Objectifs Proposition d’une démarche de reconnaissance des expressions elliptiques en Arabe Identification des types des expressions elliptiques arabes Construction d’un système de règles de réécriture permettant la reconnaissance des expressions elliptiques Construction des lexiques spécialisés Expérimentation à l’aide de la plateforme linguistique (NooJ) CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
Etat de l’art Trois grandes approches suivies pour la résolution d’ellipse : • Approche syntaxique : les éléments omis ont une structure syntaxique [Lappin 1992], [Haddar et al., 2000], [Wilder 1997], [Beavers & Sag 2004] Résolution de l’ellipse consistera à reconstruire une relation syntaxique entre la proposition bien formée (proposition antécédente) et la proposition elliptique (proposition cible). CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Etat de l’art • Approche sémantique : se base sur le contexte [Sag et al. 1985], [Dalrymple et al. 1991], [Culicover & Jackendoff 2005], [Kolko 2007] Résolution de l’ellipse est effectuée par le parallélisme sémantique entre la proposition bien formée et la proposition elliptique • Approche hybride : fusion des deux premières approches [Ginzburg & Sag 2000], [Culicover & Jackendoff 2006 ] CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Etat de l’art Quelques travaux avec NOOJ (conçu par Max silberztein 2004) : • Reconnaissance des entités nommées en arabe [Mesfar Slim , 2006] • Résolution des anaphores [Denis Le Pesant, 2007 ] Travaux avec ATNs : • Système de recouvrement des ellipses arabes (ERASE) avec les ATNs [Haddar Kais,. 2000] CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
Typologie des ellipses arabes Ellipse est un phénomène linguistique qui se manifeste par l’omission d’un ou de plusieurs constituants d’une phrase sans que cela affecte sa sémantique Exemple دخل الاستاذ إلى القسم كذلك [دخل] التلاميذ [إلى القسم] Le professeur est entré à la classe et les élèves aussi CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Typologie des ellipses arabes Pourquoi l’ellipse? • utilisationdense de certaines expressions / كثرة الاستعمال • obligation poétique et longueur des phrases/و طول الكلامالضرورة الشعرية • vocalisation الحذف للإعراب ( الجزم ) • structures des syntagmesالحذف للتركيب ( التركيب الاضافي ) Conditions d’existence d’ellipse • nécessité d’omission • contexte permet l’élision des éléments CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Typologie des ellipses arabes Formes d’ellipses arabes Ellipse Expression elliptique Phrase elliptique Forme abrégée - VP-ellipsis, ellipse du sujet, du verbe,… CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Typologie des ellipses arabes Formes abrégées sont des expressions usuelles fréquemment utilisées, leurs sens sont des sous-entendus qu’on apprend à deviner et à comprendre par la fréquence de leurs usages EXEMPLE [أَشكركَ] شكرا جزيلا ; [حللت]أهلا و [نزلت]سهلا CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Typologie des ellipses arabes ellipse du sujet حذف الفاعل ellipse d’attribut حذف الخبر ellipse du verbe حذف الفعل Forme abrégée ellipse du complément حذف متمم ellipse du topique حذف المبتدأ Omission des particules حذف الأدوات CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Typologie des ellipses arabes Omission du verbe • Expressions usuelles et proverbes [تخير] الجار قبل الدار [Tu choisis] le voisin avant la maison [بدأت] بسم الله Au nom du dieu. • Avis et conseil [احذر] النّار النّار Au feu, au feu • Syntagme de spécification نحن [أعني] الرجال شجعان. Nous, [je veux dire] les hommes sommes courageux. CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Typologie des ellipses arabes Ellipse des particules Particules Conjonctions d’appel حروف النداء Conjonctions de prépositions حروف الجر • أسد [في] الغابة • Un lion dans le forêt • [يا] أيّها الرجل • O, homme! CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
Démarche suivie Collection et étude d’un corpus (70 contes pour les enfants) Lexique, dictionnaire flexionnel et morphologique Proposition des grammaires locales : • Construction des règles de grammaire • Construction des différents transducteurs Nooj • Définition de l’ordre de passage des transducteurs Construction des règles de grammaire facilite le passage vers les transducteurs NOOJ CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
Expérimentationavec NOOJ Grammaires morphologiques (.nom) associer des informations lexicales à des mots transducteurs Nooj Grammaires syntaxiques (.nog) Permettent d’extraire des expressions elliptiques de corpus CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Expérimentation avec NOOJ Exemple de grammaires morphologiques Ajout du trait ‘’défini’’ CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Expérimentation avec NOOJ Exemple de grammaires morphologiques Ajout du trait ‘’attach’’ [كتابك] CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Expérimentation avec NOOJ Ellipse des particules CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
Omission de conjonctions de préposition CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
Omission de conjonctions d’appel CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
Omission du verbe CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
Omission du verbe Syntagme de spécification( تراكيب الاختصاص ) CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Expérimentation avec NOOJ Corpus choisi document HTML qui détaille les cas des figures des expressions elliptiques en arabe (≈660480 mots) CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Expérimentation avec NOOJ CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
… Expérimentation avec NOOJ Les résultats obtenus sont satisfaisants (80%) Extraction de quelques expressions ne présentant pas des formes abrégées (i.e., المقصود منه ) Cela est dû : Ambiguïté provenant de la non voyellation des textes Taille des lexiques CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
Conclusion et perspectives Différentes approches de résolution d’ellipses Typologies des expressions elliptiques Lexiques et dictionnaires Système de transducteurs Expérimentation la démarche et les idées sur un corpus Comme perspectives : compléter la liste des transducteurs Élargir le lexique et le corpus CITALA 2009 – May 4th-5th 2009 Rabat, Morocco
Merci pour votre attention CITALA 2009 – May 4th-5th 2009 Rabat, Morocco