1 / 24

Le web s mantique, en route vers le cerveau global La linguistique au service du Web s mantique et de l analyse des do

IntroductionEnjeux technologiquesApplications

kele
Download Presentation

Le web s mantique, en route vers le cerveau global La linguistique au service du Web s mantique et de l analyse des do

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. Le web sémantique, en route vers le cerveau global? La linguistique au service du Web sémantique et de l’analyse des données non structurées FRANÇOIS-RÉGIS CHAUMARTIN 24 JUIN 2008

    2. Introduction Enjeux technologiques Applications & perspectives Conclusion Agenda

    3. Introduction > Préambule

    4. Introduction > Un peu de S.F.

    5. Introduction > Eliza Eliza (1964, J. Weizembaum, MIT) Eliza: Hello. I am ELIZA. How can I help you? You: I am stressed Eliza: How long have you been stressed? You: I have been stressed for a long time Eliza: Can you elaborate on that? You: Nobody loves me Eliza: Surely not everyone? Techniques de pattern-matching sur mots clés

    6. Introduction > « Comprendre » ? Progrès considérables en 40 ans ! On est passé D'un dialogue écrit à un dialogue oral A une communication multi-modale Qu'en est-il de la compréhension ? Les progrès sont minces Un agent conversationnel « comprend » à peu près ce dont parle un internaute… si celui-ci se cantonne à un sujet précâblé Comment simuler la compréhension du langage sur ordinateur ?

    7. Traduction La traduction automatique est l'application de linguistique informatique la plus ancienne Recherches commencées dès le début de l'informatique (vers la fin des années 1940) Effort colossal pendant la guerre froide Immenses espoirs… premières déceptions ! Application très prisée en B2B et B2C Besoins énormes Commission Européenne : un million de pages par an Multinationales : environ un milliard DARPA finance la recherche aux USADARPA finance la recherche aux USA

    8. Traduction > “Traduttore, Tradittore” “Time flies like an arrow” « Le temps vole comme une flèche » « Les mouches à temps aiment une flèche » “The spirit is willing but the flesh is weak” (« L'esprit est fort mais la chair est faible ») Traduit en russe puis retraduit en anglais “The vodka is strong but the meat is rotten” Traduction mot-à-mot vouée à l'échec Que veut dire comprendre ?

    9. Difficultés liées à la compréhension « Ally a aimé cet avocat. Pourtant, il était véreux. » Ally loved this lawyer. However, he was shady. Ally liked this avocado. However, it was worm-eaten. Présent pour un événement futur « Ally vient demain » Informations implicites de contexte

    10. Difficultés liées à la compréhension Ambiguïté syntaxique

    11. Difficultés liées à la compréhension Ambiguïtés syntaxiques et lexicales Jean voit l’homme avec les jumelles Résolution d’anaphores Les gardiens donnent les fruits aux singes parce qu’ils sont pourris Les gardiens donnent les fruits aux singes parce qu’ils sont affamés Les gardiens donnent les fruits aux singes parce qu’ils sont rassasiés Verbes à montée ou à contrôle / Pragmatique Jean demande à Marie (l’autorisation) d’aller jouer Jean demande (ordonne) à Marie d’aller jouer

    12. Difficultés liées à la compréhension Métonymie « À l'entrée des joueurs, le stade s'est levé. » « Je ne me lasserai jamais de lire un Maupassant. » « L'Elysée a annoncé… » Métaphore « un monument de bêtise » « l’homme de l'ombre » « un puits de science »

    13. Systèmes statistiques Progrès importants ces dernières années grâce aux techniques statistiques Traduction (corpus alignés multilangues) Recherche sur le Web (Google) Anti spams (réseaux bayésien) Synthèse et reconnaissance vocale Techniques aujourd’hui bien maîtrisées Niveau lexical Capacité à traiter de larges volumes

    14. Limites des systèmes statistiques Aucune compréhension réelle d’un document Trop faibles connaissances linguistiques « Gare à l’amende s’il se gare devant la gare » “books for children”/ “books by children” Le Web 2.0 a remis l’utilisateur au centre… … parce qu’il reste un véritable verrou technologique pour « comprendre » un texte Nécessité de traitements linguistiques Pré-requis indispensable pour le Web Sémantique Que veut dire sémantique ? Pouvoir passer sous une forme logique permettant des raisonnements (répondre à des questions, faire des inférences) Web 2.0 a remis l’utilisateur au centre du dispositif (del.icio.us, flickr…)Que veut dire sémantique ? Pouvoir passer sous une forme logique permettant des raisonnements (répondre à des questions, faire des inférences) Web 2.0 a remis l’utilisateur au centre du dispositif (del.icio.us, flickr…)

    15. Enjeux économiques > Applications

    16. Enjeux économiques > Applications Echelon, NSAEchelon, NSA

    20. Perspectives > Questions Réponses [Définition] Que veut dire « avocat » ? [Factoïde] Combien de régions compte la France ? [Chaînage] Quel métier exerçait le père du 1er ministre français au pouvoir en 1995 ? [Agrégat] Combien de buts l’équipe de France de football a marqués cette année ? [Point de vue] Est-ce que la recherche sur le clonage humain est une bonne chose ?

    21. Perspectives > Web People Search Finding people -information about people- in the World- Wide-Web is one of the most common activities of Internet users: around 30% of search engine queries include person names [2]. Person names, however, are highly ambiguous: for instance, only 90,000 different names are shared by 100 million people according to the U.S. Census Bureau Finding people -information about people- in the World- Wide-Web is one of the most common activities of Internet users: around 30% of search engine queries include person names [2]. Person names, however, are highly ambiguous: for instance, only 90,000 different names are shared by 100 million people according to the U.S. Census Bureau

    22. Perspectives > Sentiment analysis Chaque mot peut avoir des facettes positives ou négatives Relation sémantique avec des concepts émotionnels Connotations et renvoi à l’inconscient collectif (« maman », « fantôme », « guerre ») Support direct d’un état émotionnel (« peur ») Support indirect via des références dépendant du contexte (« tuer », « cri ») Analyse qualitative du flux de news et des blogs Analyse en temps Analyse en temps

    23. Perspectives > Veille économique Analyse en temps réel des news à l’échelle globale Positionnement par rapport à la concurrence… Ciblage d’une organisation ou d’un individu Sociétés rachetées, nominations de dirigeants, produits lancés, événements, appréciation du public…

    24. Extraction automatique de connaissances Traitement de masse Nécessitant des ressources de large couverture Nécessitant la mise en commun de nombreuses techniques Possibilité d’élargir le champ des articles d’encyclopédie à des corpus de news journalistiques Hors du scope (pour l’instant) Textes réglementaires, littérature… Extraction automatique de connaissances Traitement de masse Nécessitant des ressources de large couverture Nécessitant la mise en commun de nombreuses techniques Possibilité d’élargir le champ des articles d’encyclopédie à des corpus de news journalistiques Hors du scope (pour l’instant) Textes réglementaires, littérature…

    25. Conclusion Ces technologies sont aujourd’hui utilisables Elles permettent d’automatiser des tâches qui étaient, jusqu’ici, forcément manuelles Le meilleur reste à venir ! Génération automatique d’applications prototypes à partir de cahiers des chargesGénération automatique d’applications prototypes à partir de cahiers des charges

More Related