1 / 48

Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan

Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan. Juin 2009. Organisation. Le Web grand public Le Web dans l’industrie Gestion d’information en P2P Perspective de recherche A l’INRIA Zooms sur des sujets de recherche Conclusion. Le Web grand public.

Download Presentation

Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Web et IndustrieSerge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009

  2. Organisation • Le Web grand public • Le Web dans l’industrie • Gestion d’information en P2P • Perspective de recherche • A l’INRIA • Zooms sur des sujets de recherche • Conclusion

  3. Le Web grand public

  4. Success stories sur le Web • Google: gestion des pages du Web • Amazon, eBay: catalogues de vente sur le Web • Facebook: informations personnelles et communautés • Emule: musique en ligne • Flickr: base de données de photos • Myspace: pages Web • YouTube: vidéos • Wikipedia: dictionnaire • Meetic: fiches individuelles • Dailymotion: vidéos Quel est leur point commun ? Gestion d’information sur le Web

  5. La gestion d’information – contexte • Un grand succès de l’informatique du 20ème siècle • Le modèle relationnel • Des tableaux à deux dimensions sur des serveurs centralisés

  6. Ca a bougé…

  7. Base de données sur un serveur Un système de fichier Un serveur Web Un PC Un PDA Un smartphone Un senseur Un objet communicant - domotique Une voiture Une machine outil Un équipement télécom Un jouet Etc. Pour quelles sources d’information? ? N’importe quel objet ou logiciel connecté au réseau avec de l’information à partager

  8. Le risque: se noyer sous un océan de données • De plus en plus facile de publier • De plus en plus de données publiées • De plus en plus difficile de trouver l’info • De plus en plus difficile de l’avoir à temps données données temps temps

  9. Ca a bougé • Un grand succès de l’informatique du 20ème siècle • Le modèle relationnel • Des tableaux à deux dimensions sur des serveurs centralisés • Avec le Web, aujourd’hui • Les données sont hétérogènes (format, structure, métadonnées, ontologies, multimédia, etc.) • Les serveurs de données sont hétérogènes, distribués, autonomes, parfois mobiles (BDs, PDA, téléphones, objets communicants, senseurs…) • L’information est changeante, imprécise, incohérente parfois • Parfois grande échelle: Millions de serveurs, terra octets de données, milliards d’objets communicants

  10. L’information résidait sur des iles avec des formats, des langages de programmation, des applications, des systèmes d’exploitations différents Mais ça a changé avec les standards du Web XML : données Xquery : requêtes SOAP : calcul distribué Services Web - BPEL Owl : sémantique Accès uniforme et universel à l’information… Les standards du Web XML Owl RDFS SOAP WSDL BPEL Xquery Xpath

  11. XML et tout le spectre d’information Minimal structure Structured Data Hierarchy + Meta data Books Contracts Catalogs Bank accounts Emails Financial Reports Insurance Policies Economical Analysis Derivatives Inventory Political analysis Insurance Claims Financial News Sports News Resumes

  12. Xquery (et Xpath) • Une « logique » pour des arbres étiquetés, ordonnés, non bornés • langage déclaratif • Inspiré de SQL: standard pour données relationnelles • Inspiré de OQL: standard pour données objet • Mélange le contenu et la structure: BD et recherche d’information • Documents où Twingo apparait dans le titre • Langage de mise-à-jour

  13. Services Web et calcul distribué • Possibilité d’activer une méthode sur un serveur Web distant • (un peu Corba en moins sophistiqué) • Echange d’information en XML: input/résultat en XML • Infrastructure pour faire du calcul distribué partout • Avec XML et les services Web, il est devenu possible • D’obtenir de l’information de quasiment partout • De publier de l’information de quasiment partout • Une famille de standards: SOAP, WSDL, UDDI

  14. Les workflows: chorégraphie de services • Wikipedia: On appelle « workflow » la modélisation et la gestion informatique de l'ensemble des tâches à accomplir et des différents acteurs impliqués dans la réalisation d'un processus métier • Un workflow est un flux d'informations au sein d'une organisation • Business Process Execution Language (BPEL), un standards exécutable pour spécifier des interactions avec des services Web

  15. Web sémantique Domaine très actif Standards encore peu figés Sémantique: des standards émergeants Je ne vais beaucoup parler de sémantique

  16. Un accès uniforme à l’information … … Le rêve de la gestion de données distribuées

  17. Tendances • Plus de sémantique: Web sémantique • Un programme peut poser des questions précises et obtenir des réponses précises • Plus d’interaction • Web 2.0 & réseaux sociaux • Wiki, mashups, facebook, twitter… • Applications de plus en plus distribuées &pair-à-pair

  18. Et l’industrie

  19. Ils font comme tout le monde • Ils utilisent • Google • Leurs réseaux sociaux comme Linkedin • Youtube et Dailymotion (pour la pub, la formation…) • Twitter pour le buzz • Des sites d’emploi (leur Meetic) • Ils vendent/achètent sur e-bay • Ils font des sites Webs

  20. Ils ont leurs propres applications • Commerce: propres sites • Vendre: e-business • Achat: e-approvisionnement • Ils utilisent le Web pour informatiser leurs processus • Web service et workflows BPEL • Fabrication • Traçabilité • Même si ça se voit moins, ils l’utilisent énormément • Virage XML plus rapide que le grand public qui reste textuel • Virage Web service plus rapide – car ça demande des ingénieurs

  21. Ce qui leur plait • Outils de gestion/partage de données distribuées • Standard d’ échanges: XML. • Possibilité de déploiement très rapide • Moteur de recherche Web • Faire baisser les coûts de développement d’applications réparties • Outils de composition et d’orchestration de services - Web services • Outils de déploiement rapide d’applications réparties - Mashups

  22. Ils ont des contraintes particulières • Qualité de service: performance, sécurité, disponibilité • Souvent inacceptable pour eux sur le Web aujourd’hui • Contrôle d’accès et confidentialité • Idem • Facebook comme réseau social d’entreprise – c’est pas sérieux • Ils commencent à trouver que l’informatique coûte cher et aiment bien le gratuit même si • Ils ne peuvent pas se permettre le piratage • Ils n’hésitent pas à payer

  23. Gestion d’information en pair-à-pair

  24. Gestion d’information en P2P • Content Sharing Community (CSC): Un groupe d’utilisateurs qui partagent de l’information à l’intérieur d’un domaine particulier • Exemples: Un groupes de sociétés, des scientifiques dans un certain domaine, une association, un groupe d’amis • Problème nouveau de gestion de données • Les données sont hétérogènes et dynamiques • Les données sont distribuées

  25. La difficulté • Arriver à faire coopérer des machines autonomes • SGBD distribués • Depuis longtemps un écueil de la gestion de données • Lourds à mettre en place • Nombre restreint de machine & Souvent systèmes homogènes • Pourquoi c’est devenu faisable • On va limiter nos exigences • On va utiliser la puissance du parallélisme • Et surtout: les nouveaux standards du Web

  26. Pair-à-pair • Pair-à-pair: un nombre important et changeant de systèmes coopèrent pour réaliser une tache sans aucune autorité centrale • Pair-à-pair massif: musique en ligne avec des millions de pairs • Pair-à-pair pas massif: gestion de données dans une entreprise avec des dizaines de pairs

  27. De bonnes raisons pour une gestion P2P de données • Des raisons techniques • Performance • Disponibilité • Des raisons socio-économiques • Coût • Organisation décentralisée • Contrôle des données

  28. Avantage technique:performances • Exemple: Dans un système centralisé, plus un document est populaire, plus ça prend du temps de l’obtenir • Avec un système P2P comme BitTorrent, c’est le contraire • Serveur saturé Accélération

  29. Avantage technique:disponibilité • Avantages • Plusieurs copies d’une même donnée, disponible même en cas de panne • Système d’archivage et de sauvegarde en P2P • Aussi des désavantages d’un point de vue technique • Plus complexe donc risque de pannes • Difficile de gérer les mises-à-jour • Difficile de contrôler la qualité de service

  30. Avantage économique:gestion de données à coût zéro • On utilise un système P2P gratuit • On utilise des machines existantes (pc, livebox, etc.) • On utilise les ingénieurs qui gèrent déjà ces systèmes et leurs applications • Bien adapté au Web et sa philosophie du « tout gratuit » • Moins que pour le grand public • Même les entreprises s’habituent au « free »

  31. Avantage économique:bien adapté aux organisations peu centralisées • Avantages du P2P • Pas nécessaire de trouver un leader • Pas nécessaire de décider/imposer des règles fortes • Possibilité de laisser chacun indépendant et autonome • Désavantages du P2P pour des organisations très centralisées • Plus difficile d’imposer des règles fortes • Plus difficile de garantir la cohérence des données en présence de mises-à-jour • Bien adapté aux gros groupes avec des entités indépendantes – même s’ils n’en sont pas encore convaincus 

  32. Mais des difficultés aussi • Complexité • Cause sérieuse de pannes • Difficulté de gérer les mises-à-jour • Difficulté de contrôler la qualité de service • Comportement asociaux • Spam, spamdexing & autres • Confiance

  33. Ça n’arrive pas vite dans l’industrie • QoS • Business model pas clair • Qui paie? • Pour quoi?

  34. Perspective de rechercheA l’INRIAZooms sur des sujets de recherche

  35. A l’INRIA • De nombreuses équipes travaille autour du Web • Nombreux verrous technologiques • Gestion de données distribuées • Gestion de connaissance • Linguistique computationnelle • Systèmes pair-à-pair • Spécification et vérification d’applications réparties • Interface humain-machine • Etc.

  36. 3 Zooms • (sûrement moins par manque de temps) • Surveillance du Web • Facebook en P2P • Artifacts business

  37. Surveillance du Web: Fonctionnalités • Acquisition de données • Crawl du Web focalisé sur un domaine • Surveillance des changements: gestion de flux de données • Intégration avec les données de l’entreprise: outils LTE • Gestion de données • Stockage, indexation, requêtes/mises-à-jour, contrôle d’accès • Enrichissement • Classification, annotations sémantiques • Multilinguisme • Gestion d’ontologies, extraction de connaissances • Exploitation • IHM, fouille de données

  38. Surveillance du Web: Webcontent (1) • Plateforme ANR • Entrepôt pour le Web sémantique • http://www.webcontent.fr • INRIA, CEA, Thales, EADS, Soredab, INRA, Exalead, etc. • Premières applications • Veille économique en aéronautique • Intelligence stratégique • Risque alimentaire microbiologique et chimique • Surveillance d’évènements sismique

  39. Surveillance du Web: Webcontent (2) • Archi basée sur XML et les services Web • Services d’acquisition, enrichissement, d’exploitation • Autour d’un service de gestion de données XML • 2 architectures • Archi centralisée autour d’un bus logiciel • Archi P2P autour d’un système de gestion de XML en P2P

  40. Facebook stocke des données personnelles • Plein d’autres systèmes également • Difficile de contrôler ce qu’ils en font • Difficile de garder mes données à jour

  41. Facebook: Architecture Facebook X Delicious Myspace X Gmail X LinkedIn Sue Sue Bob Bob Sue

  42. Facebook en P2P Facebook Facebook Facebook Facebook • Directes interactions • Je garde le contrôle sur mes données personnelles • Toutes les applications qui me concernent partagent les mêmes données • Si je change de numéro de téléphone, je n’ai pas à le changer dans 100 systèmes chez Bob Proxy Bob Proxy Sue Sue Sue Bob Sue

  43. Facebook en P2P (fin) • Droits d’accès en P2P – cryptographie • Index en P2P (avec des données cryptées) • Faire tourner chez soi des applications développées par des inconnus

  44. Workflows centrés sur les données (1) • Artifact business: document qui représente une activité humaine • Commande, voyage, objet à construire • Évolue dans le temps suivant certaines règles • Active XML Artifacts • Modèle basé sur XML avec des appels de services imbriqués • Documents que l’ont peut s’échanger • Domaine général: workflow centré sur les données • Combine les systèmes de workflow et les systèmes de gestion de données • Bien adapté pour des applications distribuées • Application jouet: le système de fabrication de Dell: sites commerciaux, banques, usines, entrepôts, société livraison

  45. Workflows centrés sur les données (2) • Quelques sujets de recherche dans ce cadre • Aide à la conception de tels systèmes • Vérifier que le code est conforme aux spécifications • Surveillance de tels systèmes • Prévoir les ruptures de stock de pièces détachés • Aider au dispatching • Détecter les disfonctionnement et en trouver les causes • Passage à l’échelle • Contrôle accès, qualité des données et confiance

  46. Conclusion

  47. Conclusion • Prévision sur le Web : il faut être très modeste • Ça va ralentir – on a fait le plus facile et on arrive aux sujets durs • Linguistique • Gestion de connaissances… • Ça va continuer à bouger – créativité humaine • Web sémantique : Web de connaissances plutôt que de texte • Web 2.0 : un Web plus interactif, plus communautaire • Web des objets • Web du pair-a-pair • Histoire : pour le Web, on a toujours sous-estimé la créativité humaine

  48. Merci

More Related