240 likes | 469 Views
IntroductionEnjeux technologiquesApplications
E N D
1. Le web sémantique,en route vers le cerveau global?La linguistique au service du Web sémantique et de l’analyse des données non structurées FRANÇOIS-RÉGIS CHAUMARTIN 24 JUIN 2008
2. Introduction
Enjeux technologiques
Applications & perspectives
Conclusion Agenda
3. Introduction > Préambule
4. Introduction > Un peu de S.F.
5. Introduction > Eliza Eliza (1964, J. Weizembaum, MIT)
Eliza: Hello. I am ELIZA. How can I help you?
You: I am stressed
Eliza: How long have you been stressed?
You: I have been stressed for a long time
Eliza: Can you elaborate on that?
You: Nobody loves me
Eliza: Surely not everyone?
Techniques de pattern-matching sur mots clés
6. Introduction > « Comprendre » ? Progrès considérables en 40 ans ! On est passé
D'un dialogue écrit à un dialogue oral
A une communication multi-modale
Qu'en est-il de la compréhension ?
Les progrès sont minces
Un agent conversationnel « comprend » à peu près ce dont parle un internaute… si celui-ci se cantonne à un sujet précâblé
Comment simuler la compréhension du langage sur ordinateur ?
7. Traduction La traduction automatique est l'application de linguistique informatique la plus ancienne
Recherches commencées dès le début de l'informatique (vers la fin des années 1940)
Effort colossal pendant la guerre froide
Immenses espoirs… premières déceptions !
Application très prisée en B2B et B2C
Besoins énormes
Commission Européenne : un million de pages par an
Multinationales : environ un milliard DARPA finance la recherche aux USADARPA finance la recherche aux USA
8. Traduction > “Traduttore, Tradittore” “Time flies like an arrow”
« Le temps vole comme une flèche »
« Les mouches à temps aiment une flèche »
“The spirit is willing but the flesh is weak”
(« L'esprit est fort mais la chair est faible »)
Traduit en russe puis retraduit en anglais
“The vodka is strong but the meat is rotten”
Traduction mot-à-mot vouée à l'échec
Que veut dire comprendre ?
9. Difficultés liées à la compréhension « Ally a aimé cet avocat. Pourtant, il était véreux. »
Ally loved this lawyer. However, he was shady.
Ally liked this avocado. However, it was worm-eaten.
Présent pour un événement futur
« Ally vient demain »
Informations implicites de contexte
10. Difficultés liées à la compréhension Ambiguïté syntaxique
11. Difficultés liées à la compréhension Ambiguïtés syntaxiques et lexicales
Jean voit l’homme avec les jumelles
Résolution d’anaphores
Les gardiens donnent les fruits aux singes parce qu’ils sont pourris
Les gardiens donnent les fruits aux singes parce qu’ils sont affamés
Les gardiens donnent les fruits aux singes parce qu’ils sont rassasiés
Verbes à montée ou à contrôle / Pragmatique
Jean demande à Marie (l’autorisation) d’aller jouer
Jean demande (ordonne) à Marie d’aller jouer
12. Difficultés liées à la compréhension Métonymie
« À l'entrée des joueurs, le stade s'est levé. »
« Je ne me lasserai jamais de lire un Maupassant. »
« L'Elysée a annoncé… »
Métaphore
« un monument de bêtise »
« l’homme de l'ombre »
« un puits de science »
13. Systèmes statistiques Progrès importants ces dernières années grâce aux techniques statistiques
Traduction (corpus alignés multilangues)
Recherche sur le Web (Google)
Anti spams (réseaux bayésien)
Synthèse et reconnaissance vocale
Techniques aujourd’hui bien maîtrisées
Niveau lexical
Capacité à traiter de larges volumes
14. Limites des systèmes statistiques Aucune compréhension réelle d’un document
Trop faibles connaissances linguistiques
« Gare à l’amende s’il se gare devant la gare »
“books for children”/ “books by children”
Le Web 2.0 a remis l’utilisateur au centre…
… parce qu’il reste un véritable verrou technologique pour « comprendre » un texte
Nécessité de traitements linguistiques
Pré-requis indispensable pour le Web Sémantique Que veut dire sémantique ? Pouvoir passer sous une forme logique permettant des raisonnements (répondre à des questions, faire des inférences)
Web 2.0 a remis l’utilisateur au centre du dispositif (del.icio.us, flickr…)Que veut dire sémantique ? Pouvoir passer sous une forme logique permettant des raisonnements (répondre à des questions, faire des inférences)
Web 2.0 a remis l’utilisateur au centre du dispositif (del.icio.us, flickr…)
15. Enjeux économiques > Applications
16. Enjeux économiques > Applications Echelon, NSAEchelon, NSA
20. Perspectives > Questions Réponses [Définition] Que veut dire « avocat » ?
[Factoïde] Combien de régions compte la France ?
[Chaînage] Quel métier exerçait le père du 1er ministre français au pouvoir en 1995 ?
[Agrégat] Combien de buts l’équipe de France de football a marqués cette année ?
[Point de vue] Est-ce que la recherche sur le clonage humain est une bonne chose ?
21. Perspectives > Web People Search Finding people -information about people- in the World- Wide-Web is one of the most common activities of Internet users: around 30% of search engine queries include person names [2]. Person names, however, are highly ambiguous: for instance, only 90,000 different names are shared by 100 million people according to the U.S. Census Bureau
Finding people -information about people- in the World- Wide-Web is one of the most common activities of Internet users: around 30% of search engine queries include person names [2]. Person names, however, are highly ambiguous: for instance, only 90,000 different names are shared by 100 million people according to the U.S. Census Bureau
22. Perspectives > Sentiment analysis Chaque mot peut avoir des facettes positives ou négatives
Relation sémantique avec des concepts émotionnels
Connotations et renvoi à l’inconscient collectif (« maman », « fantôme », « guerre »)
Support direct d’un état émotionnel (« peur »)
Support indirect via des références dépendant du contexte (« tuer », « cri »)
Analyse qualitative du flux de news et des blogs Analyse en temps Analyse en temps
23. Perspectives > Veille économique Analyse en temps réel des news à l’échelle globale
Positionnement par rapport à la concurrence…
Ciblage d’une organisation ou d’un individu
Sociétés rachetées, nominations de dirigeants, produits lancés, événements, appréciation du public…
24. Extraction automatique de connaissances
Traitement de masse
Nécessitant des ressources de large couverture
Nécessitant la mise en commun de nombreuses techniques
Possibilité d’élargir le champ des articles d’encyclopédie à des corpus de news journalistiques
Hors du scope (pour l’instant)
Textes réglementaires, littérature…
Extraction automatique de connaissances
Traitement de masse
Nécessitant des ressources de large couverture
Nécessitant la mise en commun de nombreuses techniques
Possibilité d’élargir le champ des articles d’encyclopédie à des corpus de news journalistiques
Hors du scope (pour l’instant)
Textes réglementaires, littérature…
25. Conclusion Ces technologies sont aujourd’hui utilisables
Elles permettent d’automatiser des tâches qui étaient, jusqu’ici, forcément manuelles
Le meilleur reste à venir ! Génération automatique d’applications prototypes à partir de cahiers des chargesGénération automatique d’applications prototypes à partir de cahiers des charges