270 likes | 459 Views
Extraction d'entités nommées. Faiza Elkateb-Gara (Séminaire LIR 12/10/2004). Groupe Langue, Information et Représentation (LIR). Plan. Besoin de l’équipe Les approches L’approche développée Architecture du système Formalisme des règles Expérimentations
E N D
Extraction d'entités nommées Faiza Elkateb-Gara (Séminaire LIR 12/10/2004) Groupe Langue, Information et Représentation (LIR)
Plan • Besoin de l’équipe • Les approches • L’approche développée • Architecture du système • Formalisme des règles • Expérimentations • Modes de fonctionnement, paramétrages et points importants Limsi-CNRS Groupe LIR
Besoin • Dans le cadre d’un système hybride de recherche d’information multi-média (Projet Mediaworks) • Constitution de base de connaissances par extraction sur les dépêches AFP • personnes, • Organisations, • Localisation, • Evénements (essais). recherche factuelle, association images et textes. • Dans le cadre du système de question-réponse (QALC) • Catégorisation des entités nommées (Personne, Organisation, Localisation) du corpus documentaire traité pour le français et l’anglais. Limsi-CNRS Groupe LIR
Les entités nommées • La reconnaissance des entités nommées est un processus d’identification et de catégorisation de noms (noms propres). • Message Understanding Conferenre propose 3 types • ENAMEX: noms de personnes, noms de villes • TIMEX : date, heure • NUMEX : montants financiers, pourcentages Limsi-CNRS Groupe LIR
Les approches • Approche statistique: apprentissage à partir de textes étiquetés à la main. • Approche linguistique: à base de règles écrites à la main utilisant des informations morpho-syntaxiques: • Mots déclencheurs: Mr, Mme, SA, Rivière. • Liste de mots: liste de prénoms, organisations. • Informations syntaxiques: Nom Propre. Limsi-CNRS Groupe LIR
Notre Système (une approche hybride) • 3 étapes principales : • Analyse lexicale. • Reconnaissance des séquences pertinentes par une grammaire dédiée. • Etiquetage des séquences isolées : mécanisme d’acquisition dynamique. Limsi-CNRS Groupe LIR
Architecture du Système Texte Analyse lexicale Listes d’entités Liste des déclencheurs Reconnaissance à partir des règles Règles de reconnaissance Texte partiellement annoté Listes d’entités Etiquetage des séquences isolées Texte annoté Actuellement désactivée dans la chaîne QA Limsi-CNRS Groupe LIR
Analyse lexicale • Découpage du texte en termes (Tree-Tagger, Xip transcodage des VG en celle du Tree-Tagger) • Pour chaque terme « Jean-Marie » • Etiquetage morphosyntaxique « Nom Propre » • Calcul de la forme normalisée « Jean-Marie » • Calcul de la forme typographique « Première lettre majuscule » • Consultation des dictionnaires (listes d’ Entités Nommées connues et des dictionnaires de déclencheurs) « Prénoms » Ces informations forment les caractéristiques d’un terme dans le texte qu’on utilise dans les règles. Limsi-CNRS Groupe LIR
Reconnaissance (Formalisme des règles) • Une règle de reconnaissance est composée d’une suite de lignes de contraintes à appliquer sur les caractéristiques des termes du texte. • Une ligne est composée {(AttributOpérateurValeur) && (..) ..} [CARD] /ETIQUETAGE/ Intervalle de valeurs défini , valeur fixée, *, + [0,1] [5] [ *] [ +] Valeurs informationnelles de l’analyse lexicale (==, !=, IN, NOTIN) Mot, vg, lemme, lookup Limsi-CNRS Groupe LIR
Reconnaissance (Exemple de règle) Règle: PERSONNE ({Lookup IN « DeclPersonne »}) /NON_TAGGE/ ({Lookup IN « prenoms.txt »} || {Typographie == « PMAJ »}) [+] /TAGGE/ ({Typographie == « Rom »} [0,1] /TAGGE/ {Type=« PERSONNE », Règle=« PERSONNE2 »} PapeJean Paul II, président Washington, M. Jean Louis Etienne. Limsi-CNRS Groupe LIR
Fonctionnement de la reconnaissance • Etape 0: • Chargement de toutes les règles. • Parcours du texte règles candidates • Etape 1: • Application des règles jusqu’à point d’arrêt • Etape 2: • Etiquetage de la séquence la plus longue. • Retour à l’étape 0 au point d’arrêt. Limsi-CNRS Groupe LIR
Exemple de Reconnaissance Pablo Picasso museum Règle: Personne ({Lookup IN « prenoms.txt »}) ({Typographie == « PMAJ »}) [+] {Règle=« PERSONNE1 »} Règle: Organisation ({Lookup IN « prenoms.txt »}) ({Typographie == « PMAJ »}) [+] ({Lookup IN « DeclOrg »}) {Règle=« ORGANISATION1 »} C’est la deuxième règle qui a permis de reconnaître la séquence la plus longue Limsi-CNRS Groupe LIR
Exemple d’étiquetage de séquences isolées • A l’étape de reconnaissance on a étiqueté Le président palestinien Yasser Arafat • Etape d’étiquetage de séquences isolées (Yasser n’étant pas dans la liste des prénoms). Mouvement de Yasser Arafat et Abdallah Et Yasser Arafat n’étant pas prêt à …. ) Yasser Arafat faisait face lundi … , excluant Yasser Arafat et conditionné à Limsi-CNRS Groupe LIR
Expérimentation (TREC) • Tailles des dictionnaires • 23627 prénoms, 944 organisations, 22076 compagnies, 1139 pays, 7239 villes • 76 déclencheurs organisations, 143 déclencheurs de personnes, 9 déclencheurs de localisations. • Nombre de règles • 7 personnes, 9 localisations (villes et états), 7 organisations. Limsi-CNRS Groupe LIR
Résultats • Sur l’ensemble des questions, 312 ont été catégorisées en EN dont • 61 personnes,91 localisations (dont 8 mauvaise catégorisation de question), 3 organisations et 157 (dates et montants financiers) • TOTAL = 147 Questions • Pour les documents réponse concernés • Pas d’erreur de catégorisation • 2 mauvaises délimitations de l’entité reconnue • 25 entités non reconnues (5 personnes,16 localisations, 2 organisations). • Incomplétude dans la liste des déclencheurs • (Hill, Cemetery, …, philosopher, ..) • Incomplétude dans les listes d’EN (planètes, continents, dieux..) • Incomplétude des règles (adresses…) • non traitement des séquences isolées. Limsi-CNRS Groupe LIR
Expérimentation (Dépêches AFP) • Dépêches AFP d’un jour contenant 1747 documents • Ce qui correspond à 581946 termes après découpages • Tailles des dictionnaires • 23643 prénoms, 184 organisations, 22089 compagnies, 1160 pays, 7829 villes • 39 déclencheurs organisations, 214 déclencheurs de personnes, 29 déclencheurs de localisations. • Nombre de règles activées • 4 personnes / 5, 5 organisations / 6 et 5 localisations/ 7. Limsi-CNRS Groupe LIR
Résultats • Apprentissage a permis d’étiqueter les séquences isolées de: • 1587 personnes (16% du nombre total) • 1478 localisations (19% du nombre total) • 17 organisations (6% du nombre total) • Le contexte le plus courant: • prénoms, suivi de noms propres. • organisations connues (récupérées à partir des listes) • Localisations connus (récupérées à partir des listes) Limsi-CNRS Groupe LIR
Expérimentation (Equer) • Tailles des dictionnaires • 23862 prénoms, 1018 organisations, 22869 compagnies, 1789 pays, 8495 villes. • 81 déclencheurs organisations, 291 déclencheurs de personnes, 74 déclencheurs de localisations. • Nombre de règles • 11 personnes, 7 localisations (villes), 12 localisations (state), 13 organisations, (1 règle type Proper). Augmentation des règles (Découpage Xip, Ajout de listes fermées) Limsi-CNRS Groupe LIR
Résultats globaux (Equer) 400 questions factuelles 307 dont résultat est une entité nommée Limsi-CNRS Groupe LIR
Résultats Localisation (Equer) 65 Questions 25 réponses correctes 40 réponses incorrectes Une réponse attendue NIL 11 EN non reconnue 1 Afrique du Sud existe dans cities par erreur • Manque dans les listes • Manque dans les règles (3 @, 1 de type 87e district) Hôtel déclencheur d’organisation dans mes listes 6 questions mal analysées 1 question mal catégorisée par ELDA 19 réponse EN reconnue Mais doc ou rep non sélectionnés Limsi-CNRS Groupe LIR
Expérimentation (Evénements) • Patron : DE_NOM ({VMS == « PRE »} || {VMS == « PRE :det »} ({Typographie == « PMAJ »} || {VMS == « NPR »} || {VMS == « NOM »}) • Règle : EVENEMENT ({Liste INCLUT « DeclEve »}) (DE_NOM) [1,5] {Type=”EVENEMENT”, Règle =”EVENEMENT”} • 75 événements reconnus : « Coupe des Confédérations, Championnat du monde de hockey sur glace, Coupe des Coupes, Tour d' Espagne ». Une mauvaise catégorisation d’événement dont « Tour en Juillet » Limsi-CNRS Groupe LIR
Modes de fonctionnement • Version intégrable chaîne de traitement QA (en.jar pour l’anglais) ou (en-fr.jar pour le français), prend en entrée le format de sortie du tree-tagger. • Version autonome avec un mode de fonctionnement en Client/Serveur (voir Benoît et Gabriel). • Serveur Java • 2 Clients Java (traitement d’un fichier ou traitement d’une chaîne de caractères) • Servlet (Client Web) pour pouvoir faire une interrogation à partir d’un formulaire Limsi-CNRS Groupe LIR
Les paramétrages • ListesDico.txt: contient les dictionnaires à charger; les déclencheurs, liste des organisations, etc. • ListesFichRegles.txt: contient la liste des fichiers contenant les règles de reconnaissance à charger. • Build.xml générer les .class et les archives .jar à partir de l’outil ant (équivalent au make). • Makefile générer les .class à partir du make. • Des scripts shell: • LanceServeur Lancer le serveur • LanceArretServeur arrêter le serveur • LanceClient et LanceClientFichier (chaîne de caractères ou d’un fichier texte) Limsi-CNRS Groupe LIR
Points importants • Avoir le droit d’écriture sur le répertoire de travail. • Pour le fonctionnement Client Serveur Utilisation du Tree-Tagger qui doit être mis dans le répertoire usr/local/tools/tree-tagger. • Pour le fonctionnement Client/serveur le résultat est mis dans Fichier.res « systématiquement ». • Le serveur utilise le port 1700 de la machine locale, celui-ci ne doit pas être utilisé par une autre application. Limsi-CNRS Groupe LIR