1 / 26

Extraction des formes dérivées des mots arabes par des automates déterministes

Extraction des formes dérivées des mots arabes par des automates déterministes. Faculté des science Rabat - Agdal. Groupe GSCM - Laboratoire LRIT. *Jamal JAIT, **Abderrahim El Qadi, *Driss Aboutajeddine. Problématique. Complexe et très fluctuée, la langue arabe nécessite

orinda
Download Presentation

Extraction des formes dérivées des mots arabes par des automates déterministes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - Agdal Groupe GSCM - Laboratoire LRIT *Jamal JAIT, **Abderrahim El Qadi, *Driss Aboutajeddine

  2. Problématique Complexe et très fluctuée, la langue arabe nécessite un outil de Racinisation robuste, Pour une meilleure performance en terme d’indexation et de recherche d’information. Extraction des formes dérivées des mots arabes par des automates déterministes

  3. Plan • Définition & Approche • Rappel sur la théorie des automates • Le cas du langage arabe • La dérivation • Automate reconnaissant le langage arabe • Application java • Résultats • Conclusion et perspectives Extraction des formes dérivées des mots arabes par des automates déterministes

  4. Définition & Approche Le processus de Racinisation est un processus qui permet de prendre en entrée un mot, pour en tirer la racine d’où il est dérivé. Notre approche se base sur l’association d’un automate fini déterministe pour chaque forme de mot. Extraction des formes dérivées des mots arabes par des automates déterministes

  5. Rappel sur la théorie des automates • Σ = {a=0,b=1} • E : {1;2;3;4} • Eo: {1;2} • F: {4} • δ = {(1;0;2), (2;0; 3), (3;1;2) ,(3;1;4) ,(4;0;4)} • Exemple de chaines reconnues: • 001 • 00100000 • 010101000000 • Ainsi L(A) = {w = umv / u = 0 | vide et m = (01)*01 et v = vide | 0*} Un automate A est défini comme suit: A = (Σ, E, Eo, F, δ) où : • Σ : son alphabet • E : l’ensemble des états initiaux • Eo: l’ensemble des états initiaux • F: l’ensemble des états finaux • δ : un ensemble fini de transitions Le langage reconnu par A est noté L(A) Exemple : mots binaire ayant u = 0 ou u = 01 comme préfixe suivi d’une suite de « 01 » et ayant v = (0)* comme suffixe Extraction des formes dérivées des mots arabes par des automates déterministes

  6. Le cas du langage arabe Les mots arabes se décomposent en trois grandes catégories : • Pronoms (al horouf) : fixes et dénombrables • Noms (al asma-a) : fixes ou obtenus par dérivation • Verbes (al af3al) : ils suivent différents schèmes : 21 schèmes. De chacun d’eux se dérive un ensemble d’autres schèmes correspondants aux : nom du sujet, nom du complément, schème d’exagération, substantif...etc. Extraction des formes dérivées des mots arabes par des automates déterministes

  7. La dérivation en arabe(1) Les verbes : Les verbes se décomposent en deux catégories : • Non dérivable (jaamid) : ليس, نعم, حبذا … • Dérivables (Motassarrif) : جحد, علم... La dérivation des verbes de la 2ième catégorie peut donner naissance à d’autres verbes : • كتب donne (كاتب -- تكاتب-- اكتتب ) Ainsi qu’à des noms : • كتب donne كاتِبٌ كاتِبَةٌ مُتَكاتِبٌ Extraction des formes dérivées des mots arabes par des automates déterministes

  8. La dérivation en arabe(2) Les verbes se dérivent suivant 3 temps: • Le présent ou Al modari3 • Le passé ou Al maadi • Et l’impératif ou Al Amr Exemple: Extraction des formes dérivées des mots arabes par des automates déterministes

  9. Automate reconnaissant le langage arabe(1) Soit ∑ = l’alphabet arabe • ∑c = {alef, yaa, waw, alef Maqsoura, tah Marbouta} = {ة ى و ي ا} : l’ensemble des lettres communes aux mots arabes • ∑m = {alef avec Hamza, noon, yaa, taa}   = {ت ي ن أ}: lettres introduisant le temps présent. • Soit LA = langage arabe. • Et L0, L1 et L2 les trois sous langages de LA où: Extraction des formes dérivées des mots arabes par des automates déterministes

  10. Automate reconnaissant le langage arabe(2) • L0 = {m € LA / racine(m) est constitué de lettres li appartenant à ∑ -∑c} • L2 = {m € LA / m est spécifique} • L1 = LA – L0 U L2 : les mots dérivés des verbes dites Mo3talla Il est facile de constater que L0, L1, L2 définissent une partition de LA : • L0∩L1, L0∩L2 et L1∩L2 sont vide • LA = L0 U L1 U L2 Construction de L0 : Soit L0 = L3 U L4 Où : L3 = {m € L0 / |racine(m)|=3} L4 = {m € L0 / |racine(m)|>3} Extraction des formes dérivées des mots arabes par des automates déterministes

  11. Automate reconnaissant le langage arabe(3) Dans notre approche, pour chaque schème de verbe on associe trois automates : • A_fverbe_present • A_fverbe_passé • A_fverbe_Amr Et pour chaque nom un automate • A_fnom Extraction des formes dérivées des mots arabes par des automates déterministes

  12. Automate reconnaissant le langage arabe(4) Exemple A_fa3ala_present l س ت،ي،أ،ن ف،ل l S0 S1 S f 3 l l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،سλ و ه ك ن D3 D1 D2 ه،ك ن ه،ك ه،ك D4 ه D5 ه،ك ن D8 ا ن،م D11 م D7 ا D10 ا D6 D9 Extraction des formes dérivées des mots arabes par des automates déterministes

  13. Automate reconnaissant le langage arabe(5) Exemple fa3ala : فَسَيُعَلِّمْكَهُمَا س ت،ي،أ،ن ع ل ف،ل S0 S1 S f 3 l م l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،سλ و ه ك ن D3 D1 D2 ه،ك ن ه،ك ه،ك D4 ه D5 ه،ك ن D8 ا ن،م D11 م D7 ا D10 ا D6 D9 Extraction des formes dérivées des mots arabes par des automates déterministes

  14. Automate reconnaissant le langage arabe(6) Exemple: A_infa3ala_passé l و،ل،ف ا ن l S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide l D ت ن،ا D1 ن و م D2 و D4 ا D3 Extraction des formes dérivées des mots arabes par des automates déterministes

  15. Automate reconnaissant le langage arabe(7) Exemple: وانصرفوا ر و،ل،ف ا ن ص S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ف D ت ن،ا D1 ن و م D2 و D4 ا D3 Extraction des formes dérivées des mots arabes par des automates déterministes

  16. Automate reconnaissant le langage arabe(8) Exemple: A_ifta3ala_Amr l و،ف ا l ت S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide l D و ا،ن،ي D2 ه D1 ه ه D3 م ا ن D3 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes

  17. Automate reconnaissant le langage arabe(9) Exemple: امتحنهما ح و،ف ا م ت S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ن D و ا،ن،ي ه D2 D1 ه ه D3 م ا ن D3 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes

  18. Automate reconnaissant le langage arabe(10) Exemple: A_fa3il ت D8 D9 ا ه،ك ل ،ب ،ك ا l l l ه،ك 3 l S f A م،ن D ت ي ه،ك D7 ي D2 D4 ا ه،ك ه،ك و،ف ،ب l ا l ا A 3 S1 f ت D3 D5 l و،ا ا l S2 l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ل ،ب ل ا l l l ا،ي f A 3 l D6 D7 ن ة ت Extraction des formes dérivées des mots arabes par des automates déterministes

  19. Automate reconnaissant le langage arabe(11) Exemple: بالحاملين ت D8 D9 ا ه،ك ل ،ب ،ك ا l l l ه،ك 3 l S f A م،ن D ت ي ه،ك D7 ي D2 D4 ا ه،ك ه،ك l و،ف ،ب ا l ا A 3 S1 f ت D3 D5 l و،ا ا l S2 l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ل ،ب ل ح ا م ل ا،ي f A 3 l D6 D7 ن ة ت Extraction des formes dérivées des mots arabes par des automates déterministes

  20. Automate reconnaissant le langage arabe(12) Exemple: لمالكتيكما ت D8 D9 ا ه،ك ل ،ب ،ك ا ل ك م ه،ك 3 l S f A م،ن D ت ي ه،ك D7 ي D2 D4 ا ه،ك ه،ك l و،ف ،ب ا l ا A 3 S1 f ت D3 D5 l و،ا ا l S2 l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ل ،ب ل ا م ل ح ا،ي f A 3 l D6 D7 ن ة ت Extraction des formes dérivées des mots arabes par des automates déterministes

  21. Automate reconnaissant le langage arabe(13) Exemple A_Wa3ala_present l س ت،ي،أ،ن ف،ل S0 S1 S 3 l l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،سλ و ن ه،ك D1 D2 ن ه،ك ه،ك D3 D4 ه،ك ا ن،م D5 ا D6 D7 Extraction des formes dérivées des mots arabes par des automates déterministes

  22. Automate reconnaissant le langage arabe(14) Exemple Wa3ala : فسيزنهما س ت،ي،أ،ن ز ف،ل S0 S1 S 3 l ن l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،سλ و ن ه،ك D1 D2 ن ه،ك ه،ك D3 D4 ه،ك ا ن،م D5 ا D6 D7

  23. Application java Document Di Algorithme: Raciniseur Soit m un mot 1: chercher les automates dont l ’entrée correspond à m[0] 2: si m est accepté root = getRoot(); etiquet = getEtiquette(); sinon root = m; etiquette = ‘ spécifique’; fin si 3: print root, etiquette; Prétraitement BD mots vides Raciniseur Di_INDEX Table lexicale Di (Mij,Fij) METRIQUE SC Maker Classes sémantiques Ci coMat maker Extraction des formes dérivées des mots arabes par des automates déterministes

  24. Résultats Extraction des formes dérivées des mots arabes par des automates déterministes

  25. Résultats Extraction des formes dérivées des mots arabes par des automates déterministes

  26. Conclusion et Perspectives Le processus de Racinisation abordé dans ce travail, consiste à représenter chaque forme des mots arabes, par un automate adéquat Et comme perspectives : • Comparaison avec Darweesh; Khoja • Fonction: inverse: Tassriif • Incorporation du module « Raciniseur » dans un moteur de recherche pour évaluation Extraction des formes dérivées des mots arabes par des automates déterministes

More Related