270 likes | 433 Views
Extraction des formes dérivées des mots arabes par des automates déterministes. Faculté des science Rabat - Agdal. Groupe GSCM - Laboratoire LRIT. *Jamal JAIT, **Abderrahim El Qadi, *Driss Aboutajeddine. Problématique. Complexe et très fluctuée, la langue arabe nécessite
E N D
Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - Agdal Groupe GSCM - Laboratoire LRIT *Jamal JAIT, **Abderrahim El Qadi, *Driss Aboutajeddine
Problématique Complexe et très fluctuée, la langue arabe nécessite un outil de Racinisation robuste, Pour une meilleure performance en terme d’indexation et de recherche d’information. Extraction des formes dérivées des mots arabes par des automates déterministes
Plan • Définition & Approche • Rappel sur la théorie des automates • Le cas du langage arabe • La dérivation • Automate reconnaissant le langage arabe • Application java • Résultats • Conclusion et perspectives Extraction des formes dérivées des mots arabes par des automates déterministes
Définition & Approche Le processus de Racinisation est un processus qui permet de prendre en entrée un mot, pour en tirer la racine d’où il est dérivé. Notre approche se base sur l’association d’un automate fini déterministe pour chaque forme de mot. Extraction des formes dérivées des mots arabes par des automates déterministes
Rappel sur la théorie des automates • Σ = {a=0,b=1} • E : {1;2;3;4} • Eo: {1;2} • F: {4} • δ = {(1;0;2), (2;0; 3), (3;1;2) ,(3;1;4) ,(4;0;4)} • Exemple de chaines reconnues: • 001 • 00100000 • 010101000000 • Ainsi L(A) = {w = umv / u = 0 | vide et m = (01)*01 et v = vide | 0*} Un automate A est défini comme suit: A = (Σ, E, Eo, F, δ) où : • Σ : son alphabet • E : l’ensemble des états initiaux • Eo: l’ensemble des états initiaux • F: l’ensemble des états finaux • δ : un ensemble fini de transitions Le langage reconnu par A est noté L(A) Exemple : mots binaire ayant u = 0 ou u = 01 comme préfixe suivi d’une suite de « 01 » et ayant v = (0)* comme suffixe Extraction des formes dérivées des mots arabes par des automates déterministes
Le cas du langage arabe Les mots arabes se décomposent en trois grandes catégories : • Pronoms (al horouf) : fixes et dénombrables • Noms (al asma-a) : fixes ou obtenus par dérivation • Verbes (al af3al) : ils suivent différents schèmes : 21 schèmes. De chacun d’eux se dérive un ensemble d’autres schèmes correspondants aux : nom du sujet, nom du complément, schème d’exagération, substantif...etc. Extraction des formes dérivées des mots arabes par des automates déterministes
La dérivation en arabe(1) Les verbes : Les verbes se décomposent en deux catégories : • Non dérivable (jaamid) : ليس, نعم, حبذا … • Dérivables (Motassarrif) : جحد, علم... La dérivation des verbes de la 2ième catégorie peut donner naissance à d’autres verbes : • كتب donne (كاتب -- تكاتب-- اكتتب ) Ainsi qu’à des noms : • كتب donne كاتِبٌ كاتِبَةٌ مُتَكاتِبٌ Extraction des formes dérivées des mots arabes par des automates déterministes
La dérivation en arabe(2) Les verbes se dérivent suivant 3 temps: • Le présent ou Al modari3 • Le passé ou Al maadi • Et l’impératif ou Al Amr Exemple: Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(1) Soit ∑ = l’alphabet arabe • ∑c = {alef, yaa, waw, alef Maqsoura, tah Marbouta} = {ة ى و ي ا} : l’ensemble des lettres communes aux mots arabes • ∑m = {alef avec Hamza, noon, yaa, taa} = {ت ي ن أ}: lettres introduisant le temps présent. • Soit LA = langage arabe. • Et L0, L1 et L2 les trois sous langages de LA où: Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(2) • L0 = {m € LA / racine(m) est constitué de lettres li appartenant à ∑ -∑c} • L2 = {m € LA / m est spécifique} • L1 = LA – L0 U L2 : les mots dérivés des verbes dites Mo3talla Il est facile de constater que L0, L1, L2 définissent une partition de LA : • L0∩L1, L0∩L2 et L1∩L2 sont vide • LA = L0 U L1 U L2 Construction de L0 : Soit L0 = L3 U L4 Où : L3 = {m € L0 / |racine(m)|=3} L4 = {m € L0 / |racine(m)|>3} Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(3) Dans notre approche, pour chaque schème de verbe on associe trois automates : • A_fverbe_present • A_fverbe_passé • A_fverbe_Amr Et pour chaque nom un automate • A_fnom Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(4) Exemple A_fa3ala_present l س ت،ي،أ،ن ف،ل l S0 S1 S f 3 l l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،سλ و ه ك ن D3 D1 D2 ه،ك ن ه،ك ه،ك D4 ه D5 ه،ك ن D8 ا ن،م D11 م D7 ا D10 ا D6 D9 Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(5) Exemple fa3ala : فَسَيُعَلِّمْكَهُمَا س ت،ي،أ،ن ع ل ف،ل S0 S1 S f 3 l م l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،سλ و ه ك ن D3 D1 D2 ه،ك ن ه،ك ه،ك D4 ه D5 ه،ك ن D8 ا ن،م D11 م D7 ا D10 ا D6 D9 Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(6) Exemple: A_infa3ala_passé l و،ل،ف ا ن l S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide l D ت ن،ا D1 ن و م D2 و D4 ا D3 Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(7) Exemple: وانصرفوا ر و،ل،ف ا ن ص S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ف D ت ن،ا D1 ن و م D2 و D4 ا D3 Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(8) Exemple: A_ifta3ala_Amr l و،ف ا l ت S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide l D و ا،ن،ي D2 ه D1 ه ه D3 م ا ن D3 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(9) Exemple: امتحنهما ح و،ف ا م ت S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ن D و ا،ن،ي ه D2 D1 ه ه D3 م ا ن D3 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(10) Exemple: A_fa3il ت D8 D9 ا ه،ك ل ،ب ،ك ا l l l ه،ك 3 l S f A م،ن D ت ي ه،ك D7 ي D2 D4 ا ه،ك ه،ك و،ف ،ب l ا l ا A 3 S1 f ت D3 D5 l و،ا ا l S2 l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ل ،ب ل ا l l l ا،ي f A 3 l D6 D7 ن ة ت Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(11) Exemple: بالحاملين ت D8 D9 ا ه،ك ل ،ب ،ك ا l l l ه،ك 3 l S f A م،ن D ت ي ه،ك D7 ي D2 D4 ا ه،ك ه،ك l و،ف ،ب ا l ا A 3 S1 f ت D3 D5 l و،ا ا l S2 l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ل ،ب ل ح ا م ل ا،ي f A 3 l D6 D7 ن ة ت Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(12) Exemple: لمالكتيكما ت D8 D9 ا ه،ك ل ،ب ،ك ا ل ك م ه،ك 3 l S f A م،ن D ت ي ه،ك D7 ي D2 D4 ا ه،ك ه،ك l و،ف ،ب ا l ا A 3 S1 f ت D3 D5 l و،ا ا l S2 l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ل ،ب ل ا م ل ح ا،ي f A 3 l D6 D7 ن ة ت Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(13) Exemple A_Wa3ala_present l س ت،ي،أ،ن ف،ل S0 S1 S 3 l l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،سλ و ن ه،ك D1 D2 ن ه،ك ه،ك D3 D4 ه،ك ا ن،م D5 ا D6 D7 Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(14) Exemple Wa3ala : فسيزنهما س ت،ي،أ،ن ز ف،ل S0 S1 S 3 l ن l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،سλ و ن ه،ك D1 D2 ن ه،ك ه،ك D3 D4 ه،ك ا ن،م D5 ا D6 D7
Application java Document Di Algorithme: Raciniseur Soit m un mot 1: chercher les automates dont l ’entrée correspond à m[0] 2: si m est accepté root = getRoot(); etiquet = getEtiquette(); sinon root = m; etiquette = ‘ spécifique’; fin si 3: print root, etiquette; Prétraitement BD mots vides Raciniseur Di_INDEX Table lexicale Di (Mij,Fij) METRIQUE SC Maker Classes sémantiques Ci coMat maker Extraction des formes dérivées des mots arabes par des automates déterministes
Résultats Extraction des formes dérivées des mots arabes par des automates déterministes
Résultats Extraction des formes dérivées des mots arabes par des automates déterministes
Conclusion et Perspectives Le processus de Racinisation abordé dans ce travail, consiste à représenter chaque forme des mots arabes, par un automate adéquat Et comme perspectives : • Comparaison avec Darweesh; Khoja • Fonction: inverse: Tassriif • Incorporation du module « Raciniseur » dans un moteur de recherche pour évaluation Extraction des formes dérivées des mots arabes par des automates déterministes