200 likes | 347 Views
Institut Galilée Séminaire Business Analytics , 18/01/2013 Enjeux, Réalités et Impacts dans les organisations Reda GOMERY, Directeur BI, Keyrus. Big data – Présentation. Enjeux : une prolifération constante des données. Ordinateurs. Bases de données. (*) 1,8 Zo. Internet.
E N D
Institut Galilée Séminaire Business Analytics, 18/01/2013Enjeux, Réalités et Impacts dans les organisationsReda GOMERY, Directeur BI, Keyrus
Big data – Présentation Enjeux : une prolifération constante des données Ordinateurs Bases de données (*)1,8 Zo Internet …de données stockées en 2011 Puces 48% 800 Md Go …de données générées sur internet en 2010 …de croissance des données prévue Sur la seule année 2012 Réseaux sociaux Capteurs RFID 50 à 75% Appareils numériques …de croissance annuelles des données non structurées Moyens de paiement Videos Mobilité * Estimations de différents analystes type IDC
Big data – Les apports business L’analyse des données brutes pour des analyses plus fines L’accès aux données non-structurées permet d’enrichir les analyses quantitatives de la BI traditionnelles avec des informations de contexte, de contenu, afin d’en comprendre le sens et d’en extraire des séquences ou des phénomènesPar exemple, on pourra, analyser les contacts clients avec le call center en explorant le contenu des emails, des appels vocaux, et mixer ces informations avec la navigation sur le site internet, l’étude des messages échangés sur les réseaux sociaux (facebook, twitter, linkedin, …) pour comprendre les tendances : de quels produits parle-t-on le plus? Est-ce en bien ou en mal? Quels seraient les nouveautés intéressantes?... La détection de phénomènes et séquences (patterns) En explorant une grande masse d’information, l’analyse big data a le potentiel de faire émerger des phénomènes récurrents conduisant à des résultats souhaitésPar exemple, on pourra analyser la navigation d’un client sur internet qui le conduit à effectuer un achat, ou encore, on pourra déterminer quels sont les influenceurs qu’il faut cibler pour réduire des coûts de communication. Enjeux : L’augmentation des capacités analytiques 5
Big data – Les apports business Très hautes performancesLes systèmes big data en s’intégrant au SI offre des capacités à gérer de très gros volumes de données et peuvent à ce titre être également utilisés pour la BI traditionnelle et permettre d’excellent temps de réponse aux requêtes complexes parcourant un important volume de données.D’autre part, en effectuant des traitements d’analyses directement en base de données, l’étape d’extraction des données de l’entrepôt vers un espace d’analyse est supprimée, ce qui permet de réduire les délais de mise à disposition des données d’analyse et d’augmenter la fréquence des itérations. Temps réel : Des analyses supportant la mise en place d’alertes et de recommandations sur combinaisons d’événements Les analyses big data permettent alors d’implémenter dans les systèmes, des moteurs temps réel de recommandations et d’alertes qui aident les opérationnels à prendre les bonnes décisions Enjeux : L’augmentation des capacités techniques
Big data – Les apports business Amazon.com est un des pionniers des recommandations produits basées sur le big data en analysant l’historique des achats, les notes des produits, les webs logs et les commentaires laissés sur son site. Quelques autres exemples de cas métier : Enjeux : Applications sectorielles
Big data – Présentation Réalités : Concept BIG DATA et questions dans les entreprises « Big Data » est le terme communément appliqué aux grands ensembles de données qu’il devient difficile en raison de leur volume, velocité ou variété/complexité (données non-structurées) de capturer, gérer et traiter efficacement avec les outils logiciels classiques. Volume Velocité Variété Qui est concerné par le Big Data ? Quelle est la valeur pour l’Entreprise ? Comment identifier les usages ? Quels sont les coûts ? Comment le décliner ? Quels sont les impacts? Selon un récent sondage IDC, 73% déclarent se préparer à « faire des choses qu’il était impossible de faire jusqu’ici…
La remise en cause du modèle classique Réalités : D’un cercle vertueux à une chaine infernale • L’état de l’art • Des besoins métiers et des cas d’usage bien identifiés • Une catégorisation des besoins: reporting opérationnel, reporting décisionnel, reporting stratégique • Des spécifications et des développements pour répondre aux besoins exprimés • Un architecture en trois couches: ODS, DWH, DM • Un modèle dénormalisé et optimisé • Des outils rapides à mettre en œuvre et souples • Réactivité et maitrise de l’évolution des besoins • La vraie vie • Un manque de visibilité sur les cas d’usages et les besoins • Une méconnaissance des données existantes • Des applications en difficulté: traitements de rafraichissement trop long/des requêtes et rapport lents/Nombre importants de requête en simultané • Une modélisation décisionnelle qui atteint ses limites • Des données cloisonnées et des applications en silos • Des problèmes de cohérence et de qualité des données • Des projets en dérive, des utilisateurs mécontents DW
La remise en cause du modèle classique Réalités : De nouvelles donnes • Une augmentation constante voire l’explosion du patrimoine de données de l’entreprise • Une exploitation de nouvelles sources de données (réseaux sociaux) et de données non structurées • Une évolution des habitudes de consommation de l’information « Web 2.0 » • De nouveaux usages (BI mobile, BI temps réel…) • Un besoin de transversalité en forte progression • Des exigences accrues en terme de réactivité • Des transformations fonctionnelles et sectorielles profondes (ex: capteurs intelligents dans le secteur de l’énergie) • Le renforcement des rôles de « data analyst », « data scientist » • Le développement de l’acquisition de données externes et de providers de données
Big data – Présentation Les environnements d’analyses Big data ne visent pas à remplacer la BI/data warehouse traditionnels mais à les compléter, ils doivent être totalement intégrés en permettant de faire émerger des phénomènes depuis des données brutes : Impacts : Les différences entre Data warehouse traditionnel et Analyses Big data DATA WAREHOUSE (BI traditionnelle) PLATEFORME BIG DATA • Sources de données essentiellement internes, connues et structurées • Modèles de données stables • La majorité des données sont des données historiques • De nombreux rapports produits de manière récurrente • Nombreuses sources externes • Importants volumes de données non-structurées • Besoin d’itérations rapides pour expérimenter des hypothèses • L’analyse est faite sur des données qui restent dans leur état brut Sources traditionnelles Nouvelles sources
Le développement du concept de Big Data Nos clients mettent en avant: La nécessité croissante d’analyser les données cœur de métier ainsi que l’attente d’une plus grande vitesse de collecte, de restitution voire de création de nouveaux modèles de la part des métiers. Et la capacité à traiter de grands volumes de données. La variété et la vélocité sont rarement un enjeux pour le décisionnel Les directions informatiques perçoivent ce nouveau type de besoins d’analyse de la part des métiers: Certains ont déjà implémenté une base de données en colonne spécialisée pour les environnements décisionnels La plupart ont identifié les innovations tel que les appliances comme un levier pour la gestion de leur données Ils perçoivent les bénéfices induits du Big Data pour l’IT Efficacité du SI, meilleurs contrôle des données, une refonte technique mais aussi potentiellement méthodologique de la BI Solutions : Le mot qui fait le Buzz « Big Data » est le terme communément appliqué aux grands ensembles de données qu’il devient difficile en raison de leur volume, velocité ou variété/complexité (données non-structurées) de capturer, gérer et traiter efficacement avec les outils logiciels classiques.
Des bases de données standards aux appliances hautes performances Depuis les années 80, le marché des bases de données d’entreprises a peu évolué Pourtant ce ne sont pas les innovations qui manquent: NoSQL (Not Only SQL) MPP (MassivelyParallelProcessing) Stockage in memory bases de données en colonnes, … L’acquisition des éditeurs spécialisés par les grands éditeurs (IBM/Netezza, EMC/Greenplum, …) permet d’accélérer l’évolution des bases de données et les outils d’analyses et l’essor des Appliances décisionnelles. Solutions : Des bases de données standards aux appliances hautes performances
Appliances: Etat du marché Solutions : Acteurs du marché et solutions retenues Solution MPP In m emory Solution MPP In m emory Offre initiale depuis 2011
Big data – Panorama des éditeurs MapReduce est un framework de développement inventé par Google pour effectuer des calculs parallèles. MapReduce se décompose en 2 étapes : Dans l'étape Map le nœud à qui est soumis un problème, le découpe en sous-problèmes, et les délègue à d'autre nœuds (qui peuvent en faire de même récursivement). Les sous-problèmes sont ensuite traités par les différents nœuds à l'aide de la fonction Map qui à un couple (clé, valeur) associe un ensemble de nouveaux couples (clé, valeur). Vient ensuite l'étape Reduce, où les nœuds les plus bas font remonter leurs résultats au nœud parent qui les avait sollicités. Celui-ci calcule un résultat partiel à l'aide de la fonction Reduce (réduction) qui associe toutes les valeurs correspondant à la même clé à une unique paire (clé, valeur). Puis il remonte l'information à son tour. Hadoop est un framework Java open source destiné aux applications distribuées et à la gestion intensive des données. Il permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de données sur du matériel banalisé. L’écosystème Hadoop est composé de : HadoopCommon, HDFS, MapReduce, ZooKeeper, Avro, Chukwa, HBase, Hive, Mahout, Flume, Pig… Hadoop est utilisé par des entreprises comme eBay, Apple, Fox interactive Media, Disney, … Informaticaest un des leaders de l’intégration de données. HParserest un environnement de transformation de données (gestionnaire de données) optimisé pour Hadoop. Ce logiciel d'analyse sans code et convivial permet le traitement de tout format de fichier dans Hadoop, avec adaptabilité et efficacité. PowerExchange For SocialMedia permet l’extraction des données des principaux réseaux sociaux. Solutions : Hadoop, MapReduce et extensions MapReduce
ApplianceS – Notre vision Un paysage fractionné : Derrière le terme Appliance existe en fait un paysage où les offres sont non alignées et ne permettent pas une comparaison simple : certaines Appliance sont des bundle commerciaux, d’autres sont des softwares virtualisés, et même déployables en mode « Cloud » Les cas d’usages du marché : Les retours d’expérience accessibles sont aujourd’hui ceux de mise en œuvre de nouveaux cas d’usage, et non d’amélioration continue d’un SI Décisionnel. Pour tirer des performances améliorées du déploiement d’une Appliance, les retours d’expérience montrent qu’il est nécessaire de travailler sur les logiques de traitements (en imports ou internes) Solutions • De plus certaines limites de l’exercice suivante doivent être gardées à l’esprit : • L’aspect coût reste au niveau « grande orientation », • De nombreuses configurations existent pour chaque outil et le choix du matériel est essentiel. Il n’est donc pas possible d’établir de base de comparaison stable • De plus, la méthode d’appel d’offre et la mise en concurrence des offreurs est source d’une grande variabilité dans les prix obtenus (par rapport aux prix catalogues). • L’aspect performance subit le même sort : la performance dépend du serveur … et donc du prix. • En conséquence, nous avons évalué ces critères sur la base des technologies sous-jacentes et de nos retours d’expérience sur de telles comparaisons. • Cependant, une comparaison mesurée, quantifiée, devrait être faite dans le cadre de POCs
Les projets d’appliances BI Marketing Trop d’entreprises tentent de faire partie de cette tendance Les messages et bénéfices clés sont noyés dans ce “bruit” Présenté comme une solution à tous les problèmes BI Ressources et compétences analytiques Qui peut comprendre ce volume de données? Qui a les compétences techniques ? Qui valide les modèles et les conclusions des analyses? Mutation des profils technologiques Nouveau processus de fabrication de la BI Nouveautés technologiques montée en compétence Rationalisation (scalabillité) Points d’attention • Technologies • Beaucoup de nouvelles innovations plus ou moins matures, peu de retours d’expérience • Coûts élevés (Hardware, Software, compétences) • Trouver le bon indicateur de ROI pour justifier l’investissement • Intégration au sein du SID • intégration de BD • Une adaptation des processus ETL existants • Impact sur les outils de requêtage
BIG DATA – L’ offre Keyrus Positionnement :Une offre complète pour vos projets Big Data
BIG DATA – L’ offre Keyrus Client DoubleVerify - Focus sur une réalisation 2012 Réalisation du projet Big Data de DoubleVerify Mise en place de l’architecture via la conduite du POC • DoubleVerify est un leader mondiale de la vérification des médias online. • DoubleVerify permet aux entreprises d’avoir de la transparence sur leur campagne de communication online. Véritable interface entre les annonceurs web et les services Marketing d’entreprise, DoubleVerify permet d’assurer la qualité de l’ image de marque des sociétés sur Internet que ce soit dans les échanges des réseaux sociaux, les publicités, les emplacements et leurs fréquences d’apparition. • Le projet • Le projet confié à Keyrus consiste à mettre en place l’ensemble de la solution d’analyse. • La méthodologie de projet Agile était la plus adaptée pour ce projet. • Qu’est ce qu’une vérification ? • Online advertising verification (def.) – Un système qui s'assure et vérifie que l'exposition des médias correspond bien aux spécifications en terme d'image, de fréquence d'apparition et de positionnement. Composant de l’architecture Performance & scalabilité • MPP- Based DWH that can process 1.5 – 2 billon records (~1.5 TB) a day close to real time. • Providing the ability to analyze raw data and aggregated data at a high resolution, with good performance. • Redesigning and developing DoubleVerify’s core business engine responsible for the verification process, combining a user-friendly reporting platform that provides both external and internal reporting requirements. • Fail – safe, easy to maintain, scalable high – quality solution based on BI best practices. • 22 servers in production cluster (per server = 12 cores, 64GB RAM, 2.8TB diskspace on 8+2 drives). • 90% of all data is just 4 raw columns (and 50% is one). • URLs compress 1:4, numbers+dates 1/20–1/200 (cardinality…). • Scan a full day’s raw data – 1TB in 2 minutes. • Raw / Daily ratios = 1/20 rows, 1/200 physical storage “Slim” / Daily ratios = 1/180 rows + physical storage, Load speed: up to 10B/day. • MPP DB - Vertica • Stockage en colonne. • Scalabilité. • ETL - Python scripting • Framework spécifique : chargement par fichier, templates ELT, intégritéréférentiel, chargement incremental et plus. • Parallélisme, 0 dépendance. • Maintenabilité : logging, error handling etc. • Tests unitaires et d’intégrationsautomatisés. • Reporting tool - Cognos 10 • Reporting Dashboard. • Analyse Ad- hoc . • Integration avec les outilsutilisant le SDK.
BIG DATA – L’ offre Keyrus Client vente-privee.com - Focus sur une réalisation 2011 Migration vers architecture BigDataGreenPlum Mise en place de l’architecture et conduite du POC Reporting & OLAP Platform Utilisateurs • Spécialiste depuis plus de 20 ans du déstockage dans l'univers de la mode et de la maison, vente-privée.com s’est transformé en leader du commerce en ligne, en tant que pionnier sur un nouveau mode de consommation ; les ventes événementielles sur Internet de produits grandes marques (prêt-à-porter, accessoires de mode, équipement de la maison, jouets, high-tech, etc) • Chiffres clés : • 1,1 milliard d’Euro de CA en Europe. • 41 millions de produits vendus, croissance annuelle de 15%. • Contexte • Après 3 années de fonctionnement, pour faire face à l’augmentation de la volumétrie liée à la croissance de l’entreprise, Vente privée souhaite migrer son infrastructure décisionnelle afin de pouvoir répondre aux attentes des utilisateurs dans les années à venir : • Croissance importante des volumes de stockage. • Nouveaux besoins et usages de la BI par les utilisateurs finaux de plus en plus nombreux. • Gestion de la qualité des données. Ad-Hoc Framework Dashboards MPP Solution Reports Déploiement de la solution Constat • Objectifs Projet • L’objectif principal est l’amélioration de la performance au niveau de la persistance des données. • L’objectif secondaire est que cette migration technique ne doit pas impacter les rapports déployés. • Apports fonctionnels • Aucun apport fonctionnel n’est directement visé. Dans le cadre du projet, les reportings doivent rester stables. • Cependant, l’augmentation de performance permettra de débloquer les demandes de nouveaux reportings (mis en suspens pour ne pas mettre en danger l’existant). • Méthodologie • Conduite d’un POC sur l’architecture vente-privee.com (Informatica, Microsoft) avec les Appliances de GreenPlum, Microsoft et Teradata. • Déploiement de la solution finale en Production. La technologie GreenPlum a permis d’atteindre les objectifs fixés en termes de performances et en termes d’innocuité sur les reporting existants. Ouverture aux mondes de la Big Data pour les services Marketing de vente-privée.com. L’intégration des données des réseaux sociaux est actuellement à l’étude. ELT Processes VP Data Centers
BIG DATA – L’ offre Keyrus Client Outremertelecom - Focus sur une réalisation 2011 2011 : Migration vers architecture BigDataGreenPlum Mise en place de l’architecture et conduite du POC • Premier opérateur alternatif de télécommunication des départements d'outremer, Outremer Telecom développe des solutions fiables, performantes et compétitives en matière de téléphonie fixe et mobile, de services Internet et Data, pour les particuliers et les entreprises. • Outremer Telecom propose ses activités en Guadeloupe, en Guyane, à la Martinique, à la Réunion et en Ile de France, et jouit d’une forte croissance, notamment dans le mobile. • Chiffres clés : • 190 M€ de chiffre d’affaire. • 450 000 abonnés mobile. • Mise en place d’une architecture de stockage Netezza adaptée en termes de performances: • 3 To de données. • Couverture fonctionnelle atteinte : chargement quotidien et le stockage des tickets bruts de communication. • Simplification des tâches d’administration par rapport au SI BI pré-existant. Déploiement de la solution Constat • Contexte • Le système décisionnel existant est peu fiable et ne répond pas à l’ensemble des besoins : • Pas de Modèle Conceptuel de Données. • Faible sécurisation des données. • Ne permet pas de combiner, croiser et construire l’ensemble des indicateurs souhaités Manque d’évolutivité, aucune documentation. • Temps de chargement long et performances de restitution inadaptée. • Le projet • L’objectif est de refondre le système décisionnel existant à travers une approche globale permettant de préparer le suivi de l’ensemble de l’activité de télécommunication: • Refonte du modèle de données Data warehouse. • Mise en place de véritable Datamarts métiers permettant de construire les indicateurs stratégiques : Client, Vente, Revenu, Communication, Crédit Management, Fidélisation, Recouvrement. • Apport majeur : capacité à tenir la charge sur des volumétries fortes à très fortes, avec des performances plus que satisfaisante • Retour d’expérience : « un traitement de plusieurs heures avec SQL Server réduit à 4 minutes et 35 secondes ». • Maintien des performances suite à l’accroissement vertigineux des volumes liés aux mobiles depuis 2007 (nombre de communications). • Scalabilité démontrée, après un projet mené en précurseur (2007). • En termes de conduite de projet, l’assurance des performances apportée par Netezza permet de se focaliser sur les besoins décisionnels métiers client : il n’est pas besoin de les limiter par d’immenses précautions lors des phases de recueil des besoins.