1 / 49

Nouvelles méthodes d ’accès assisté à l’information : recherche / extraction / restitution…

Nouvelles méthodes d ’accès assisté à l’information : recherche / extraction / restitution…. II. Nouvelles tendances en RI. Des analyses (limitées) du « contenu » Méthodes sémantiques d ’Indexation ( expansion de requêtes …) Combinaison EI-RI - ( RI structurée ) Systèmes de Question/Réponse

dalton
Download Presentation

Nouvelles méthodes d ’accès assisté à l’information : recherche / extraction / restitution…

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Nouvelles méthodes d ’accès assisté à l’information :recherche / extraction / restitution…

  2. II. Nouvelles tendances en RI • Des analyses (limitées) du « contenu » • Méthodes sémantiques d ’Indexation (expansion de requêtes…) • Combinaison EI-RI - (RI structurée) • Systèmes de Question/Réponse • Résumé, Navigation inter/intradocumentaire • Documents multimédia : texte / audio / vidéo

  3. 1. Méthodes sémantiques d ’Indexation : Indexer les documents dans un « espace sémantique » plutôt que « de termes » (mots-formes)Approche 1. Exploiter les relations lexicales B Synonyme de A : Sens équivalent B Hyperonyme (Hyponyme)de A : Désigne une sur-classe (une sous-classe) B Méronyme de A : Désigne une partie de A Navire ≈ Bateau hyper/hyponyme voile hélice gouvernail voilier cargo paquebot méronyme dériveur 3 mats

  4. Expansion de requête • Etendre la requête à des mots sémantiquement proches • De la forme « matérielle » (mot) au concept • Problème : limiter le bruit. Où s ’arrêter dans les similitudes entre mots ? navire voilier xxx yyy zzz ttt … comparaison bateau ttt xxx uuu … cargo Porte cochère

  5. Ressources lexicales • Généralistes : Wordnet http://www.cogsci.princeton.edu/~wn/, Eurowordnet http://www.illc.uva.nl/EuroWordNet/, Balkanet http://www.ceid.upatras.gr/Balkanet/ Sémiographe (Mémodata) http://www.memodata.com • Spécialisées : expansions de ces ressources généralistes pour un domaine technique • Dictionnaires de terminologie • Dictionnaires de synonymes • Dictionnaires de langue • …

  6. Approche 2 : « Espace sémantique » : concepts, entités, thèmes… Exemple : Moteur de recherche Intuition Sté Sinequa http://www.sinequa.com (cf aussi Sté Lingway : http://www.lingway.com) Combinaison de plusieurs méthodes • Stemming (racinication), lemmatisation • Dictionnaire « thématique » • Entités nommées • Concepts (‘ terminologie ’) • Classification multiple des documents

  7. Dictionnaire « thématique » • L’idée consiste à répartir “ l’univers des mots ” sur un espace avec un nombre de dimensions fixe :environ 800 dimensions (1 dimension = un ensemble de mots). • Un mot peut appartenir à plusieurs dimensions à la fois. Par exemple, le mot avocat appartiendra à la dimension justice/juridique, mais également à la dimension fruit/aliment. • Chaque document est converti en un vecteur sémantique à 800 composantes. Le poids attribué à chaque dimension dépend principalement du nombre de termes trouvés dans le document. • Une désambiguïsation locale est effectuée pour renforcer le poids attribué à une dimension lorsqu’un mot appartient à plusieurs d’entre elles.

  8. justice justice justice Requête 1 Requête 2 Requête 3 avocat avocat à la Cour récolte des avocats Désambiguisation locale fruit fruit fruit

  9. Entités nommées • Reconnaissance par automates (transducteurs) Noms de personnes (Jacques Chirac, George W. Bush, Messier…) • Différents types Sociétés/Organisations (Canal +, ONU, Dupont Corp…), Lieux (Paris, Allemagne, Rhône-Alpes…), Temporel (12 décembre 99, samedi soir, 1997…), Chiffres (12 %, 30 K¤, 30 milliards de dollars…). • Normalisation : Blair, Tony Blair, T. Blair… • Visualisation L’affaire de l’arsenal irakien déstabilise Bush et Blair Aux Etats-Unis et en Grande-Bretagne, la polémique sur les armes de destruction massive (ADM) irakiennes prend un tour de plus en plus embarrassant pour le président américain, George W. Bush, et pour le premier ministre britannique, Tony Blair…

  10. « Concepts » • Extraction de « termes-concepts » = groupes nominaux minimaux (1-3 mots) (automates) • Liens entre « concepts » obtenus par cooccurrence dans un corpus large => réseau de concepts • Indexation d ’un document par ces termes-concepts • Le moteur retourne, en plus des documents eux-mêmes, les concepts les plus pertinents Calcul de pertinence : termes de fréquence (pondérée : type tf.idf) maximale dans l ’échantillon retourné.

  11. Concepts licenciement économique procédures de licenciement plans de licenciements plans sociaux contrats de travail prud'hommes motif économique indemnités de licenciement CDD lettre de licenciement Exemple : Concepts liés à la requête licenciement

  12. Résultat : indexation multiple (plusieurs « espaces sémantiques ») • « Dimensions » de la langue • Entités nommées • Concepts • … • Pour une requête donnée : • pondération de différents critère d ’adéquation entre document et requête • Dispositifs de visualisation de documents retournés (« enrichis »): entités nommées, concepts associés

  13. 2. Recherche d’information « structurée »Un croisement RD-EI Objectif - Analyser la structure de la requête, identifier « l ’information » (concept) cherché - Trouver dans le texte cette information (et non seulement « des mots de la requête ») : analyse locale, matching de « structures informationnelle » - Retourner les passages concerné (1) « Donnez moi les textes concernant les transaction en Europe d'un montant supérieur à 1 Meuro »

  14. Exemple 1 : "FACILE : Classifying Texts Integrating Pattern Matching and Information Extraction", IJCAI 99 - F. Ciravegna et al. (Trente, Vienne, Milan, Manchester) Exemple de requête : « Donnez moi les textes concernant les transaction en Europe d'un montant supérieur à 1 Meuro » Documents :articles et dépêches économiques Méthode : • RD pour une première sélection de documents + trouver des passages « homogènes » • EI pour un matching « fin » des requêtes sur le texte. On cherche à instancier une « Micro fiche ». Exemple : un EVT de type TRANSACTION associé à une ENTITELIEU de valeur 'Europe' et une ENTITEMONTANT de valeur supérieure à la valeur donnée de 1 Meuro.

  15. Exemple 2 (GéoSem : GREYC, ERSS, EPFL…) « Trouver les passages qui parlent de la sécurité maritime dans la Manche » «  Trouver les passages qui parlent des difficultés scolaires dans l ’Ouest dans les années 1980 » Retour : - passages textuels indexés par Thème + Temps + Espace (+ cartes) - Espace et Temps : analyse syntagmatique - Thème : Indexation par des termes-concepts(cf. Lingway,Sinéqua)

  16. 3. Questions/Réponses (Question Answering / Answer Extraction)Une tâche ambitieuse Exemples de Requêtes (1) « Qui est l’auteur du ‘ Dernier tango à Paris ’, Quels autres films a-t-il réalisé récemment ? » (2) « Comment fait-on pour changer les droits d’accès (man. Unix) ? que fait la commande ‘tar’ » Corpus Documents sur le Web / Manuels techniques (ou autre docs spécialisés) Résultat de l ’analyse - La « réponse » (question answering): B. Bertollucci : Little Budha, Besieged, The Dreamers… - ou : Des phrases ou passages contenant la réponse (answer extraction)

  17. Simples : QUI/OU/QUAND • Où est le Taj Mahal ? • Quelle est la population actuelle de Tucson ? • Qui était le premier secrétaire d'Etat de Nixon ? • Listes • Nommer 30 personnes ayant participé au cabinet de R. Reagan. • Quels sont les acteurs du film Z ? • Nommer 4 pays producteurs de diamants. Différents types de requêtes

  18. Ouvertes • Biographie résumée de Colin Powell (personnage public) ? • nom, surnoms, adresse, date de naissance, formation… • Que savons nous de la société Y ? • structures organisationnelle, lignes de produits, dirigeants… • Comment fait-on pour changer les droits d’accès (man. Unix) ? • que fait la commande ‘tar’ • « Contexte » • Quelle cépage est utilisé dans le Château Petrus ? • combien coûte le cru 1999 ? où le propriétaire a-t-il fait ses études ? • quel domaine possède-t-il en Califormie ? • Combien existe-t-il d'espèces d'araignées ? combien • sont venimeuses ? quel pourcentage de piqûres sont fatales ?

  19. Méthodes Deux types (± combinées éventuellement) : - type EI : compréhension assez complète de la question et analyse linguistique du texte - type RD : appariement basé sur de cooccurrence de mots

  20. Exemple 1 : Méthodes de RD + analyse simple de la question « A question answering System Supported by Information Extraction », R. Srihari, W. Li « Who won the 1998 Peace Nobel Prize » • Pattern : Asking point : PERSON Key words : {won, 1998, Peace,Nobel Prize} • Repérage dans le texte d’un entité PERSON dans un contexte contenant les mots-clés.

  21. Exemple 2 : Analyse plus structurelle de la question et du texte - Reconnaissance de motifs QUALC (B. Grau, LIMSI) Qui a réalisé le Dernier Tango à Paris ? Entité : Personne Connecteur ≈‘ réaliser ’ « Dernier Tango à Paris » Motif à reconnaître dans le texte

  22. Exemple 3 : Méthodes proches de la compréhension automatique «  Extrans, an answer extraction system », TAL, 41-2, 2000. - Auteurs : D. Molla, R. Schwittler, M. Hess, R. Fournier (Université de Zurich) - Manuels techniques. P. ex. Man Unix : « Comment fait-on pour changer les droits d’accès? que fait la commande ‘cp’ » - Analyse sémantique du texte cp copies files holds(e1) & object(cp, x1) & evt(copy,e1,[x1,x2]) & object(file, x2) - Appariement « logique » avec la question Does cp coies files ? ?- evt(copy,e1,[X,Y]) & object(cp,X) & object(file,Y)

  23. 4. Résumé et navigation dans des bases de données documentaires I. Résumé :Une autre manière d ’extraire/restituer de l ’information • Méthodes 1) Par « extraction » (Type RD +) : • Repérage de segments représentatifs de l ’ensemble d’un document. Retour de ces segments comme résumé. Critères de type lexical/statistique : présence « concentrée » des termes les plus fréquents (tf.idf) • indices linguistiques : « en résumé », « en conclusion », « dans cet article nous…  » (Tous textes) • Vocabulaire spécifique (Domaine ciblé, profil utilisateur…)

  24. Bla bla bla bla. Dans ce texte… Truc machin truc bidule… Chose machin bidule truc… En conclusion… Termes représentatifs : truc, bidule, machin, chose

  25. 2) Par « compréhension » (type EI) : • Repérage de segments pertinents (cf méthode 1) • Analyse linguistique produisant une représentation sémantique ou « conceptuelle » • Génération multilingue Problème : analyse sémantique • Textes techniques ciblés • Exemple : projet MUSI (brevets)

  26. 2. Navigation inter-intra-documentaire • Analyse orientée par une requête de l ’utilisateur • Sélection de passages dans le (les) document(s) • Visualisation / navigation dans le corpus par des dispositifs de visualisation • Exemple : projet Régal (ou Géosem…) • Peut être couplé avec du résume = même type de techniques, présentation différente ou complémentaire

  27. Conclusions / Discussion : Accès assisté à l’Information • Des tâches ambitieuses, impliquant une analyse «fine », du « contenu » des documents • Bien au delà de la « recherche documentaire » classique. • Grande variété de tâches possibles (et combinables) • Faisabilité : • Une idée reçue « Seuls les traitements numériques et ‘de surface’ peuvent être suffisamment efficaces » • Pas sur le « corpus-web » (probablement) • Pour des fonds documentaires spécialisés (ou après filtrage) • Formes et connaissances spécifiques « fortes » exploitables • Utilisateurs avertis et exigeants

  28. II. L’exemple du document géographique Pourquoi ? • Usage social (collectivités, grandes entreprises…) • Etudes locales (Collab. Informatique-Géographie) • Des caractéristiques fortes : • Macro structuration de l’information • Documents (souvent) longs • Composite : texte + cartes (et autres graphiques) Projet GéoSem • Programme pluridiscip. « Société de l’Information » • GREYC(Info), ESO (Géo.), ERSS(Ling.), EPFL (Doc.) • Etape d ’un projet à long terme : Sémantique/TALN

  29. Structuration de l’Information Géographique • Associe : • Un phénomène (P) Quoi ? • Un espace (E) Où ? • (souvent) Un temps (T) Quand ? • Se repère immédiatement sur des documents

  30. La féminisation du corps enseignant du premier degré est très variable selonles départements: un instituteur pour deux institutricesdans le Pas‑de‑Calais,en Ariège et en Lozère, mais un pour quatre, voire pour cinq, dans les départements parisiens. En règle assez générale, la féminisationdu premier degré estd'autant plus grande que l'urbanisation est importante, les vieilles régionsindustrielles et le Languedoc faisant exception.

  31. Jusqu’au milieu des années 1980, les taux de retard scolaire ont fortement varié selon les configurations géographiques … Ainsi dans l ‘Aveyron, à Paris ou dans les Pyrénées-Atlantiques, seulement un enfant de 6° sur trois est en retard scolaire …

  32. Objectifs du projet • Interrogation multidimensionnelle • Retard scolaire dans l ’Ouest dans les années 1950 • Politiques de sécurité maritime dans la Manche • Evolution du vote FN dans l’Ouest entre 97 et 2002 • Contrastes/similarités électorales entre Normandie et Bretagne • Retour : segments du document • Passages de texte • Cartes • Problématique de document long et composite

  33. Facettes de l’analyse 1. Sémantique locale :Expressions spatiales et temporelles 2. Sémantique textuelle : Segmentation discursive 3. Extraction de connaissance : Structuration du domaine 4. Sémiologie des cartes et liens avec le texte

  34. 1. Expressions spatiales et temporelles • Syntagmes nominaux et prépositionnels complexes • Jusqu’au milieu des années 1980 • Dans les départements ouvriers du nord de la France • Méthodes « de surface » (suites de mots) impraticables ! • Analyse • Grammaires syntagmatiques « locales » • En Prolog (DCG) • Sémantique compositionnelle • Produit des « structures de traits » interprétables en contexte.

  35. Type : complexe Opérateur : années Opérande : Type : date Grain : an Valeur : 1980 Exemple : « Au milieu des années 1980 » Sémantique abstraite en terme d ’ « opérateurs  » + Calcul de la référence Type : complexe temporel Opérateur : milieu Opérande : Référence : [1982,1987]

  36. Expressions spatiales • En Bretagne • Au Nord d ’une ligne Bordeaux-Genève • Dans les départements les plus urbanisé de l’Ouest • Mêmes méthodes • - Plus complexe • - Diffcultés : sémantique spatiale pour le ‘requêtage’ (en cours). • Faut-il « matcher » : • Nord de Paris avec Le 18ème ? Le 93 ? Lille ? • Dans le Calvados avec Caen ? En Normandie • Quel degré de pertinence ?

  37. 2. Segmentation discursive (1) : Lien P-S-T • Problème : faire le lien entre le Quoi, le Où et le Quand • Méthode : • Compléments circonstanciels : approché par cooccurrence dans un phrase. • Exploitation de lien syntaxiques et de la théorie des « cadres de discours » (Charolles) • Résultat : Indexation « Multi-thème » de segments documentaires

  38. T = 1945-1986 P = ‘retard scolaire’ T = 1945-1980 P = ‘retard scolaire’ E = Aveyron, Paris… … Jusqu’au milieu des années 1980, les taux de retard scolaire ont fortement varié selon les configurations géographiques … Ainsi dans l ‘Aveyron, à Paris ou dans les Pyrénées-Atlantiques, seulement un enfant de 6° sur trois est en retard scolaire... …

  39. 2. Segmentation discursive (2) : Analyse rhétorique • Modèles de structuration du « raisonnement géographique » détectables (?) : - Loi/Observation générale - Instanciation comparative dans l ’espace, le temps… - Synthèse • Modèle textuel : - Structure énumérative - Amorce / conclusion • Applications : - Interrogation sur contrastes/similarités : « comparaison des situations électorales entre Normandie et Bretagne » Similaire à EI, mais au niveau textuel  - Résumé : exploitation des amorces/synthèses

  40. 3. Structuration du domaine (P) • Détection automatique d ’axes « structurants » • Domaine scolaire : Ecole élémentaire, Collège, Lycée, Université… / Privé, Public / Filière technique, générale… • Politique : Ext.G., Gauche, Centre… / Elections municipales, régionales, législatives… • Méthodes : • Apprentissage sur corpus vaste et homogène • Extraction de composantes potentielles (SN complexes) • Collecte d ’indices contextuels : Titres / Introducteurs de cadres / Positions thématique (préverbal) /… • Hypothèse : les termes « structurants » ont plus de chance de se trouver dans ces positions remarquables

  41. 4. Cartes • Repérage des titres et légendes et analyse linguistique  Indexation et interrogation en composantes P-S-T (même format que le texte) • Analyse d ’image : regroupements perceptifs  contrastes et similarité, requêtes relationnelles • Modèle de la carte : représentation, sémiologie, interprétation…

More Related