350 likes | 479 Views
Colloque: « Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) ». Relations de causalité en arabe et en français, dans une perspective de reconnaissance automatique . Amani SABRA. LALIC ( Langues, Logiques, Informatique, Cognition )
E N D
Colloque: « Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) » Relations de causalité en arabe et en français, dans une perspective de reconnaissance automatique Amani SABRA LALIC ( Langues, Logiques, Informatique, Cognition ) (Université de Paris Sorbonne-Paris IV) (ICAR/CNRS Université Lyon 2) Lyon, 27 mars 2010
Plan • La cause et la veille stratégique • Le sémantique dans la recherche d’information • Exploration Contextuelle : PDV « causalité » • Nourrir une carte sémantique de causalité • Application sur Excom
La cause et la veille Ce qui rend la causalité si précieuse dans nos raisonnements de tous les jours, c’est tout simplement son omniprésence dans tous les domaines Pour élargir le champ d’activité : toute entreprise/territoire doit pouvoir modifier et actualiser ses acquis afin d’améliorer son champ d’investigation. • En médecine, on constate que la causalité présente la loi de diagnostique et de thérapeutique; rechercher des causes possibles d’une maladie émergente (par exemple, de la maladie de la vache folle) par une fouille des documents qui en parlent ; • Juridiquement, la causalité représente le critère de recherche des causes et responsabilités ; • Éviter les crises, connaître les causes d’un phénomène économique par fouille de documents relatifs à ce phénomène (ex. la faillite d’une grande banque) ;
cause et stratégie • La veille commerciale porte sur les clients et sur les fournisseurs de l‛entreprise; la connaissance de leurs clients permet de mieux identifier les causes de leur succés ou leur échec,rechercher les besoins futurs, de nouveaux clients oufournisseurs. • Dans la veille concurrentielle l‛entreprise cherche à caractériser son champ concurrentiel, actuel ou potentiel en analysant les principales difficultés et causes d'échec et les capacités de développement des concurrents et d’exploiter leurs points faibles • la veille sociétale, le veilleur cherche à identifier les évolutions cachées de la société et les causes de ces changements à partir de l‛analyse des signaux faibles sur l‛évolution des comportements, des modes de vie…
La recherche d’informations Dans le cas de la recherche d’informations par google ou yahoo: • Requêtes par mots clés ou par d’expression • Réponses sous la forme de liste de documents • Trop d’informations = information nulle (tue l’information utile) • Une grande partie des résultats n’est pas pertinente avec la recerche • Les résultats ne sont pas toujours recommandables
public Traitement: Analystes et experts Matière blanche réservée informations Matière grise Statistique, sémantique, EC etc confidentielles Matière noire decideurs source: crédibilité, contenu, accecibilté, bonne information etc… Figure 1: le processus de l’information
Le sémantique dans la recherche d’informations Méthode d’exploration contextuelle (Desclés 91): • L’Exploration Contextuelle est une méthode essentiellement sémantique fondée sur une étude contextuelle de certaines unités linguistiques saillantes. (Ghass 02) • Selon Desclés (Desclés 97) cette méthode linguistique et informatique permet l’annotation sémantique automatique de segments textuels selon des points de vue de fouille. • PDV: « la citation, causalité, recontre, définition… »
Exploration contextuelle 1 • Les indicateurs et les indices complémentaires sont des • formes linguistiques de surface, par ex. morphèmes, mots, expressions. Ils peuvent être discontinus. • Indicateur: un marqueur sémantique, qui exprime un point de vue • Indices : unités linguistiques qui ont pour fonction de • désambigüiser l’occurrence de l’indicateur et donc de confirmer ou d’infirmer l’annotation, ou bien d’affiner l’annotation. • Indice positif : active l’annotation • Indice négatif : inhibe l’annotation • Espace de recherche : phrase, gauche / droit, paragraphe, titre, etc.
Exploration contextuelle: Causalité Annotation d’une relation de causalité amplifiée les politiques menées La crise financiére est par Figure 2 : Exemple d’une règle d’exploration contextuelle (causalité).
La portée sémantique • En arabe on trouve la causalité directe et la causlaité indirecte, la causalité explicite « morphologique » et celle implicite « périphrastique » • Les indices déclencheurs« indicateurs » :ce sont les expressions causales (verbes relateurs ou verbes efficients) des marqueurs explicites • La signification sémantique portée par l’indice déclencheur : « influence »ta’tir, « contribution »musâhama , « origine »al’asal , « aboutissement »al gâya, « raison », «corrélation »sila etc…. • Les indices complémentaires : ce sont les indices qui accompagnent un indicateur dans un contexte donné en levant l’indétermination sémantique attachée à un marqueur analysé • li’anna , ’anna , fa’ sababîya, lâm kay, lâm tawkîd etc, ou des déterminants des relations causales : ’assâsî“principale”, mubâsar« direct », gayir mubâsar« indirect », nîhâ‘î« final »,‘amîq« profond » etc….
EC: Causalité قال وزير الخزانة الأمريكي بول أونيل" إن التنسيق مع دولة الإمارات العربية لعب دوراهاما في مساعدة الولايات المتحدة على تحديد هوية الإرهابيين المشتبه بهم" indice déclencheur Indice complémentaire Si on trouve l’indice déclencheurلعب دورا في« ont joué un rôle dans » (verbe causal) accompagnéà gauche par un indice complémentaire هاما , indice qui indique « l’ampleur et l’intensité» ce qui enrichit parallèlement la fiabilité de l’indice déclencheur en jugeant la validité de la connaissance causale exprimée, alors résultat : l’énoncé indique une causalité . « le ministre américain de Trésor Paul Onil a dit que la coordination avec les Emirats Arabes Unis a joué un rôle important dans l’aide apporté aux Etats- Unis pour définir l’identité des terroristes suspects »
Organisationsdesmarqueurs causaux Dans la première liste, les marqueurs sous forme (i) de verbes qui permettent d’établir un lien causal, (ii) des marqueurs explicites dans les énoncés simples ou composés
Action ترك de non-changement sur p • ex. ترك خالد هندا تتابع حل المشكة • Action-CAUSE de non-changement sur p • ex. Jean maintient Paul en vie • Actionترك de changement de p pour ~p • ex. ترك خالد هندا تموت • Action-CAUSE de changement de p pour ~p • ex. Jean fait oublier à Paul que… • Action أعلم de changement de ~p pour p • Ex: أعلم خالد هندا الموضوع • Action-CAUSE de changement de ~p pour p • ex. Jean apprend à Paul que … • Action منع de non changement sur ~p • منع خالد هندا ان تطلع على الموضوع • ex. Action- CAUSE de non changement sur ~p • ex. Jean laisse Paul dans l'ignorance du fait que …
les vocabulaires causaux:(les adjectifs et les adverbes) qui constituent les indices complémentairs. Ces indices qui enrichient ou modifient de façon significative les connaissances causales exprimées (i) ampleur ou intensité : katîran « beaucoup » (ii) manière : bisaklin sarî‘in « rapidement », (iii) appréciation : bisaklin mufîdin « utilement », (iv) autres : mubâsaratan, bisaklin mubâsirin « directement »
Code arabe Dérivé verb dér/sub x Radical verb/sub rad Substantif: sub rad : زيادة sub derlI :تحويل sub derIII : معالجة Sub der IV : اعاقة sub derV :تغيير sud derVl تفاقم sub derVII : انطلاق sub derVIII: ازدياد sub derX : استيلاء subo op :جعل Opérateur : ver rad : هز ver der ll : قلل ver der III ضايق ver der IV: ازال ver der V : تخلص ver der VI تلاشى ver der VII : انطوى ver der VIII : اختزل ver der X : استعمل
Lien Sans ligature spéciale Juxtaposition lien jux Ponctuation lien ponc Adjectif superposé lien adj Participe présent lien par Relatif lien rela Adverbe lien adv Avec ligature spéciale Coordination lien co Cause lien lig co caus coordination Conséquence lien lig co cons But lien lig co but subordination Temps lien lig co tem Lien lig Int cause Concession lien lig co conc interrogation cause
lien par : remembering, ayant, اقراء • Iien rel :that , qui, الذي • lien co : and, et, و • lien adv : en effet • lien lig co caus: for, car, ف • lien lig co con : غير أن • lien lig co but : pour • lien lig co cons: so, donc, ومن ثم • lien tig co temp : next, بعد ان • lien lig sub caus: because, parce que, لأن • Iien lig sub but : pour que, ل • lien lig sub cons: ف • lien lig sub temp: after, à mesure que
Ambiguité sémantique de causalité en arabe • Les constructions de causation: en français VOV et VVO En arabe on trouve les 3 constructions: • VOV avec les verbes ( laisser faire et obliger à faire)/Taraka, ʼaĝbara • Celle morphologiques de (faire faire) avec une des deux formes verbales ʼaf‘ala et fa‘‘ala • La causation molle de faire faire avec le verbe ĝa‘ala Dans les deux langues, il faut séparer entre les constructions causatives, permissives, reflexives, réciproques, passives et anticausatives. • Formes agglutinées: la structure du mot arabe est donc décomposable en cinq éléments : proclitique, préfixe base, suffixe et enclitique. • Analyse des séquences textuelles: présence d’une citation, mécanisme causal, réponse a une question causale, énumération d’effets, séquence argumentative etc…
Ambiguité sémantique de causalité en arabe • Catégories syntaxiques : Organiser les catégories (i) des listes d’éléments invariables (adverbes, prépositions, …) ou à forme variable (noms, adjectifs…); (ii) les flexions morphologiques des indices ce qui facilite le travail du système d’EC. • La synonymie : pour causer /سببsabbaba , par exemple on trouve أحدث / جلب ; ’ahdata, jalaba • La flexion : Genre : mu‘âlij, mu‘âlija (traitant, traitante) Nombre : sabab , asbâb (cause, causes) La conjugaison : ‘âlaja, ‘âlajnâ (traiter, nous avons traité) Dérivations : natîja, nâtij, mantûj, natâ’ij (résultat) • Indices négatifs « indices négatifs ou éliminatoire » indices qui facilitent la prise de la décision comme « minal-mustahîli impossible, lâ ‘alâka … aucune relation…”
Approches de la causalité • Jackiewicz A [JACK 98] distingue quatre approches particulières de la causalité : l’approche qualitative (ou hétérogène),Le lien qui unit cet effet à sa cause n’est pas un lien déductif : l’effet ne suit pas la cause comme la conclusion d’un raisonnement découle des hypothèses (présenter, considérer, désigner comme origine de, etc…) l’approche fonctionnelle (ou homogène),Son originalité réside dans le fait qu’elle efface la distinction entre cause et effet dans une relation basée sur la régularité des dépendances ou des corrélations constantes (dépendre de, varier, evoluer, décliner etc…)
Approches de la causalité L’approche analytique basée sur l’idée de contribution causale, elle est donc fondée sur la reconnaissance de plusieurs facteurs qui entrent simultanément dans la cause (Contribuer à ; Participer dans ; Jouer un rôle dans etc…) L’approche synthétique cette relation cherche avant tout à relier des situations qui, aux premiers abords, ne semblent pas compatibles (établir, démontrer, déterminer, relier etc…) L’approche argumentative ces connecteurs considerés comme un étayage argumentatif d’un lien causal déjà établi (A.Jack) (Parce que, parce qu', puisque, puisqu', car etc…)
Prise de décision • Malgré la particularité de la langue arabe, nous avons essayé le plus possible d’analyser logiquement selon l’EC les données linguistiques, en suggérant deux solutions: l’une est classique où la prise de décision dépend de l’utilisateur, l’autre est plus intentionnelle, le système consiste à la prise de décision automatiquement. • la première, décision classique consistant à guider l’utilisateur aux informations identifiées selon les indices pertinents, en lui laissant le choix d’attribuer à chaque étiquette une valeur sémantique et la prise de décision pour chaque séquence potentiellement causale.
Regle: Si LId نتيجة dans une phrase Et si LIn1 إن + اسم se trouve avant Et si LIn2 لام حرف جر + اسم se trouve après Alors attribuer étiquette causalitéà la phrase « La baisse continue du pouvoir d'achat des familles résulte de la baisse des salaires »
Prise de décision: Automatique • A ce stade, pas de rôle pour l’utilisateur ici. C’est le système qui consiste à la prise de décision automatiquement. • Elle dépend d’une étude des informations sémantiques attachées aux séquences, qui leur affecte, compte tenu de la fiabilité des indices identifiés, une valeur sémantique spécifique. • Cette solution ayant la capacité de produire une appréciation globale de la « teneur en causalité » de la séquence examinée.
Les étiquettes semantiques: Règles pour l’annotation les marqueurs causaux:verbes (relateurs/efficient marqueurs explicite(simple/ composé les vocabulaires causaux: -adverbe (modalité) simple -adverbe composé Les modélisations des règles les 4 approches causales (façon d’appréhender les relations causales par un sujet humain) les différentes séquences textuelles :(citation, argumentative, article scientifique, mécanisme causale etc.)
Exemple 2 « Enfin, les scientifiques ont commencé à croire que le bombardement de météorites sur la terre a participé à la création de l’eau dans les oceans, les gaz différents dans l’air et même les particules organiques qui produisent la vie. »
Le moteur d’annotations: EXCOM -2 • La plate-forme EXCOM-2 (Alrahabi et Desclés, 2008) est une implémentation de la méthode d’exploration contextuelle, réalisée en Java. • EXCOM effectue la segmentation automatique des textes en sections, paragraphes et phrases ; • Il prend en Entrée : fichiers TXT sortie : fichiers XML annotés • le système exploite les règles d’exploration contextuelle et les marqueurs linguistiques stockés dans la carte sémantique pour effectuer l’annotation.
Marqueurs linguistiques de la causalité (indices et indicateurs) Carte sémantique de la causalité Corpus (.html, .doc, .pdf…..) Règles d’Exploration Contextuelle Prétraitement manuel Corpus (.txt, UTF-8) Corpus annoté et extraction des relations de causalité (fichier .xml) Annotation automatique Segmentation automatique Corpus segmenté (fichier .xml) Figure 3 : Architecture fonctionnelle du système d’extraction des relations de causalité
Exemple d’un fichier d’indicateur causale <?xml version="1.0" encoding="UTF-8"?> <liste nomFichier="ressourcesmarqueur_causalité_argumentative.txt.xml"> <marqueur no="1"> ( parce que )|( parce qu' )|( puisque )|( puisqu')|(car )|( Parce que )|(Parce qu')|( Puisque )|( Puisqu' )|( Car ) </marqueur> <marqueur no="2"> ( en raison | à cause | du fait | en vertu | En raison | Du fait | En vertu | A cause ) ( de | de la | du | des |d') </marqueur> <marqueur no="3"> ( grâce | Grâce ) ( à | au | aux | à la |à l') </marqueur> </liste> Figure 4 : Exemple d’un fichier d’indicateur
Règles d’exploration contextuelle • les règles d’exploration contextuelle sont organisées dans des fichiers XML, • ils exploitent directement les fichiers d’indicateur et d’indices sur lesquelles elles pointent. • Le système utilise environs 100 règles, le rôle de ces règles qui s’exécutent séquentiellement l’une derrière l’autre en essayant de trouver des indicateurs et des indices dans ce même segment. • Dans chaque corpus on peut aussi choisir l’espace de recherche à annoter « les textes, les paragraphes, les phrases, titre inclus ou non etc…»
<?xml version="1.0" encoding="UTF-8"?> <regles carte=""> <regle id="regle_analytique2" annotation="Causalite analytique"> <action>annoter</action> <espaceRechercheIndicateur> <titres /> <phrase>TOUT</phrase> <paragraphe>TOUT</paragraphe> <section>TOUT</section> </espaceRechercheIndicateur> <indicateurs>C:\Users\Desktop\lalic\data\ressources\carte causalite\Analytique2\indicateurs</indicateurs> <indicesPositifs connecteur="APRES"> <positifsAvant /> <positifsApres>C:\Users\ Desktop\lalic\data\ressources\carte causalite\Analytique2\indicesPositifsApres</positifsApres> </indicesPositifs> <indicesNegatifs connecteur="APRES"> <negatifsAvant ordre="" /> <negatifsApres ordre="avantPositif">C:\Users\ Desktop\lalic\data\ressources\carte causalite\Analytique2\indicesNegatifsApres</negatifsApres> </indicesNegatifs> <indicesMilieu> <positifsMilieu /> <negatifsMilieu /> </indicesMilieu> </regle> </regles> Figure 5 : Exemple d’un fichier règle
. Figure 6 : Exemple d’annotation des relations de causalité sous EXCOM.
Bibliographie • Alrahabi M ., Mourad G ., Djioua B ., « Filtrage sémantique de textes en arabe en vue d’un prototype de résumé automatique, Le traitement automatique de l’arabe », JEP-TALN 2004, Fès, 19-22 avril 2004 . • [DESC 97] Desclés J-P., 1997. « Systèmes d'exploration contextuelle ». Co-texte et calcul du sens. (ed. Claude Guimier), Presses Universitaires de Caen, pp. 215-232, 1997 • Desclés J.-P., Guenycheva Z. « Causalité, causativité, transitivité ». In Typology of Verbal Categories (Papers presented to Vladimir Nedjalkov on the occasion of his 70th birthday). Eds. Léonid Kulikov and Heinz Vater. Liguistische Arbeiten, Tübingen: Niemeyer. pp. 7-27, 1998. • Garcia D., COATIS, un système de traitement automatique du langage naturel qui localise les expressions d’actions reliées causalement, Thèse de doctorat en cours, Université de Paris-Sorbonne, Paris, 1998. • Jackiewicz A., L’expression de la causalité dans les textes : Contribution au filtrage sémantique par une méthode informatique d’exploration contextuelle, Thèse de doctorat, Université de Paris-Sorbonne, Paris, 1998.