1 / 25

Extraction d'entités nommées

Extraction d'entités nommées. Faiza Elkateb-Gara (Séminaire LIR 12/10/2004). Groupe Langue, Information et Représentation (LIR). Plan. Besoin de l’équipe Les approches L’approche développée Architecture du système Formalisme des règles Expérimentations

cicely
Download Presentation

Extraction d'entités nommées

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extraction d'entités nommées Faiza Elkateb-Gara (Séminaire LIR 12/10/2004) Groupe Langue, Information et Représentation (LIR)

  2. Plan • Besoin de l’équipe • Les approches • L’approche développée • Architecture du système • Formalisme des règles • Expérimentations • Modes de fonctionnement, paramétrages et points importants Limsi-CNRS Groupe LIR

  3. Besoin • Dans le cadre d’un système hybride de recherche d’information multi-média (Projet Mediaworks) • Constitution de base de connaissances par extraction sur les dépêches AFP • personnes, • Organisations, • Localisation, • Evénements (essais).  recherche factuelle, association images et textes. • Dans le cadre du système de question-réponse (QALC) • Catégorisation des entités nommées (Personne, Organisation, Localisation) du corpus documentaire traité pour le français et l’anglais. Limsi-CNRS Groupe LIR

  4. Les entités nommées • La reconnaissance des entités nommées est un processus d’identification et de catégorisation de noms (noms propres). • Message Understanding Conferenre propose 3 types • ENAMEX: noms de personnes, noms de villes • TIMEX : date, heure • NUMEX : montants financiers, pourcentages Limsi-CNRS Groupe LIR

  5. Les approches • Approche statistique: apprentissage à partir de textes étiquetés à la main. • Approche linguistique: à base de règles écrites à la main utilisant des informations morpho-syntaxiques: • Mots déclencheurs: Mr, Mme, SA, Rivière. • Liste de mots: liste de prénoms, organisations. • Informations syntaxiques: Nom Propre. Limsi-CNRS Groupe LIR

  6. Notre Système (une approche hybride) • 3 étapes principales : • Analyse lexicale. • Reconnaissance des séquences pertinentes par une grammaire dédiée. • Etiquetage des séquences isolées : mécanisme d’acquisition dynamique. Limsi-CNRS Groupe LIR

  7. Architecture du Système Texte Analyse lexicale Listes d’entités Liste des déclencheurs Reconnaissance à partir des règles Règles de reconnaissance Texte partiellement annoté Listes d’entités Etiquetage des séquences isolées Texte annoté Actuellement désactivée dans la chaîne QA Limsi-CNRS Groupe LIR

  8. Analyse lexicale • Découpage du texte en termes (Tree-Tagger, Xip transcodage des VG en celle du Tree-Tagger) • Pour chaque terme « Jean-Marie » • Etiquetage morphosyntaxique « Nom Propre » • Calcul de la forme normalisée « Jean-Marie » • Calcul de la forme typographique « Première lettre majuscule » • Consultation des dictionnaires (listes d’ Entités Nommées connues et des dictionnaires de déclencheurs) « Prénoms » Ces informations forment les caractéristiques d’un terme dans le texte qu’on utilise dans les règles. Limsi-CNRS Groupe LIR

  9. Reconnaissance (Formalisme des règles) • Une règle de reconnaissance est composée d’une suite de lignes de contraintes à appliquer sur les caractéristiques des termes du texte. • Une ligne est composée {(AttributOpérateurValeur) && (..) ..} [CARD] /ETIQUETAGE/ Intervalle de valeurs défini , valeur fixée, *, + [0,1] [5] [ *] [ +] Valeurs informationnelles de l’analyse lexicale (==, !=, IN, NOTIN) Mot, vg, lemme, lookup Limsi-CNRS Groupe LIR

  10. Reconnaissance (Exemple de règle) Règle: PERSONNE ({Lookup IN « DeclPersonne »}) /NON_TAGGE/ ({Lookup IN « prenoms.txt »} || {Typographie == « PMAJ »}) [+] /TAGGE/ ({Typographie == « Rom »} [0,1] /TAGGE/  {Type=« PERSONNE », Règle=« PERSONNE2 »} PapeJean Paul II, président Washington, M. Jean Louis Etienne. Limsi-CNRS Groupe LIR

  11. Fonctionnement de la reconnaissance • Etape 0: • Chargement de toutes les règles. • Parcours du texte  règles candidates • Etape 1: • Application des règles jusqu’à point d’arrêt • Etape 2: • Etiquetage de la séquence la plus longue. • Retour à l’étape 0 au point d’arrêt. Limsi-CNRS Groupe LIR

  12. Exemple de Reconnaissance Pablo Picasso museum Règle: Personne ({Lookup IN « prenoms.txt »}) ({Typographie == « PMAJ »}) [+]  {Règle=« PERSONNE1 »} Règle: Organisation ({Lookup IN « prenoms.txt »}) ({Typographie == « PMAJ »}) [+] ({Lookup IN « DeclOrg »})  {Règle=« ORGANISATION1 »} C’est la deuxième règle qui a permis de reconnaître la séquence la plus longue Limsi-CNRS Groupe LIR

  13. Exemple d’étiquetage de séquences isolées • A l’étape de reconnaissance on a étiqueté Le président palestinien Yasser Arafat • Etape d’étiquetage de séquences isolées (Yasser n’étant pas dans la liste des prénoms). Mouvement de Yasser Arafat et Abdallah Et Yasser Arafat n’étant pas prêt à …. ) Yasser Arafat faisait face lundi … , excluant Yasser Arafat et conditionné à Limsi-CNRS Groupe LIR

  14. Expérimentation (TREC) • Tailles des dictionnaires • 23627 prénoms, 944 organisations, 22076 compagnies, 1139 pays, 7239 villes • 76 déclencheurs organisations, 143 déclencheurs de personnes, 9 déclencheurs de localisations. • Nombre de règles • 7 personnes, 9 localisations (villes et états), 7 organisations. Limsi-CNRS Groupe LIR

  15. Résultats • Sur l’ensemble des questions, 312 ont été catégorisées en EN dont • 61 personnes,91 localisations (dont 8 mauvaise catégorisation de question), 3 organisations et 157 (dates et montants financiers) • TOTAL = 147 Questions • Pour les documents réponse concernés • Pas d’erreur de catégorisation • 2 mauvaises délimitations de l’entité reconnue • 25 entités non reconnues (5 personnes,16 localisations, 2 organisations). • Incomplétude dans la liste des déclencheurs • (Hill, Cemetery, …, philosopher, ..) • Incomplétude dans les listes d’EN (planètes, continents, dieux..) • Incomplétude des règles (adresses…) • non traitement des séquences isolées. Limsi-CNRS Groupe LIR

  16. Expérimentation (Dépêches AFP) • Dépêches AFP d’un jour contenant 1747 documents • Ce qui correspond à 581946 termes après découpages • Tailles des dictionnaires • 23643 prénoms, 184 organisations, 22089 compagnies, 1160 pays, 7829 villes • 39 déclencheurs organisations, 214 déclencheurs de personnes, 29 déclencheurs de localisations. • Nombre de règles activées • 4 personnes / 5, 5 organisations / 6 et 5 localisations/ 7. Limsi-CNRS Groupe LIR

  17. Résultats • Apprentissage a permis d’étiqueter les séquences isolées de: • 1587 personnes (16% du nombre total) • 1478 localisations (19% du nombre total) • 17 organisations (6% du nombre total) • Le contexte le plus courant: • prénoms, suivi de noms propres. • organisations connues (récupérées à partir des listes) • Localisations connus (récupérées à partir des listes) Limsi-CNRS Groupe LIR

  18. Expérimentation (Equer) • Tailles des dictionnaires • 23862 prénoms, 1018 organisations, 22869 compagnies, 1789 pays, 8495 villes. • 81 déclencheurs organisations, 291 déclencheurs de personnes, 74 déclencheurs de localisations. • Nombre de règles • 11 personnes, 7 localisations (villes), 12 localisations (state), 13 organisations, (1 règle type Proper). Augmentation des règles (Découpage Xip, Ajout de listes fermées) Limsi-CNRS Groupe LIR

  19. Résultats globaux (Equer) 400 questions factuelles  307 dont résultat est une entité nommée Limsi-CNRS Groupe LIR

  20. Résultats Localisation (Equer) 65 Questions 25 réponses correctes 40 réponses incorrectes Une réponse attendue NIL 11 EN non reconnue 1 Afrique du Sud existe dans cities par erreur • Manque dans les listes • Manque dans les règles (3 @, 1 de type 87e district) Hôtel déclencheur d’organisation dans mes listes 6 questions mal analysées 1 question mal catégorisée par ELDA 19 réponse EN reconnue Mais doc ou rep non sélectionnés Limsi-CNRS Groupe LIR

  21. Expérimentation (Evénements) • Patron : DE_NOM ({VMS == « PRE »} || {VMS == « PRE :det »} ({Typographie == « PMAJ »} || {VMS == « NPR »} || {VMS == « NOM »}) • Règle : EVENEMENT ({Liste INCLUT « DeclEve »}) (DE_NOM) [1,5]  {Type=”EVENEMENT”, Règle =”EVENEMENT”} • 75 événements reconnus : « Coupe des Confédérations, Championnat du monde de hockey sur glace, Coupe des Coupes, Tour d' Espagne ». Une mauvaise catégorisation d’événement dont « Tour en Juillet » Limsi-CNRS Groupe LIR

  22. Modes de fonctionnement • Version intégrable chaîne de traitement QA (en.jar pour l’anglais) ou (en-fr.jar pour le français), prend en entrée le format de sortie du tree-tagger. • Version autonome avec un mode de fonctionnement en Client/Serveur (voir Benoît et Gabriel). • Serveur Java • 2 Clients Java (traitement d’un fichier ou traitement d’une chaîne de caractères) • Servlet (Client Web) pour pouvoir faire une interrogation à partir d’un formulaire Limsi-CNRS Groupe LIR

  23. Les paramétrages • ListesDico.txt: contient les dictionnaires à charger; les déclencheurs, liste des organisations, etc. • ListesFichRegles.txt: contient la liste des fichiers contenant les règles de reconnaissance à charger. • Build.xml  générer les .class et les archives .jar à partir de l’outil ant (équivalent au make). • Makefile  générer les .class à partir du make. • Des scripts shell: • LanceServeur  Lancer le serveur • LanceArretServeur  arrêter le serveur • LanceClient et LanceClientFichier (chaîne de caractères ou d’un fichier texte) Limsi-CNRS Groupe LIR

  24. Points importants • Avoir le droit d’écriture sur le répertoire de travail. • Pour le fonctionnement Client Serveur Utilisation du Tree-Tagger qui doit être mis dans le répertoire usr/local/tools/tree-tagger. • Pour le fonctionnement Client/serveur le résultat est mis dans Fichier.res « systématiquement ». • Le serveur utilise le port 1700 de la machine locale, celui-ci ne doit pas être utilisé par une autre application. Limsi-CNRS Groupe LIR

  25. Merci de votre attention

More Related