1 / 17

Introduction

Introduction. KXEN Analytic Framework. Sommaire. Le data mining dans l’entreprise. KXEN & Vapnik : la nouvelle donne. Démonstration. Le constat du Gartner. Volume. The Business Intelligence “Gap”. Available Information. Numbers of critical decisions. Business Intelligence Aptitude.

anakin
Download Presentation

Introduction

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introduction KXEN Analytic Framework

  2. Sommaire Le data mining dans l’entreprise KXEN & Vapnik : la nouvelle donne Démonstration

  3. Le constat du Gartner Volume The Business Intelligence“Gap” AvailableInformation Numbers of criticaldecisions Business IntelligenceAptitude Source: Gartner Time • Ex : Une grande entreprise française en 2001 • a réalisé 900 campagnes marketing • a fait un modèle de ciblage pour 20 campagnes seulement

  4. Qu’est ce qui empêchent les gens aujourd’hui d’analyser leurs données? • Le facteur Gourou • Les outils statistiques actuels demandent une forte expertise pour être bien utilisés • Les Experts en Statistiques sont chers et très occupés Les opportunités du marché n’attendent pas • La transformation des données en connaissance prend des semaines. • Les ressources des experts sont rares – pouvez-vous attendre? => Vous ne pouvez appliquer les techniques de modélisation avancées qu’aux projets stratégiques. Une industrialisation complexe • Informatique très sollicitée : duplication des données, mise en œuvre des modèles • Multiplicité des acteurs : analystes, utilisateurs métier, informaticiens => Un coût par modèle élevé

  5. Méthodologie en statistiques classiques Prepare Data Build Model Test Model Une nécessaire expertise Analyse des corrélations entre variables Méthode empirique de vérification de la robustesse Codage des variables après analyse des distributions Choix et compréhension des tests Choix d’un algorithme

  6. Risque empirique Risque attendu Challenge de la modélisation prédictive (1/2) Construction du modèle sur des individus avec la variable cible connue Application du modèle sur des individus avec la variable cible inconnue

  7. Challenge de la modélisation prédictive (2/2) Y Y F1 (X) F2 (X) X X x Modèle très robuste Modèle très précis Y F3 (X) X x Tradeoff fit-robustesse Challenge : construire à partir d’un échantillon un modèle qui soit aussi bon sur l’échantillon que sur de nouvelles données.

  8. Sommaire Le data mining dans l’entreprise KXEN & Vapnik : la nouvelle donne Démonstration

  9. Apport de Vladimir Vapnik • Vladimir Vapnik • énonce un cadre théorique rigoureux dans lequel fit et robustesse d’un modèle sont clairement définis. • Il ouvre la voie à une nouvelle branche formelle de la statistique : la théorie statistique de l’apprentissage. (excelente synthèse = livre de Friedmann, Springer Series in statistics, 2001 : « Elements of Statistical Learning ») • Vladimir Vapnik : mathématicien russe arrivé aux US en 92, aux Bell (aujourd’hui AT&T) Labs pendant 10 ans puis depuis 2001 chez NEC. • Premiers papiers en russe dès 1972. • US Medal en sciences en 1992. • Plusieurs livres chez Springer Verlag et J. Wiley dès 1982 • Enseigné par Gilbert Saporta au CNAM, ENSAE, ISUP depuis 2001 • Information : 14 - 15 nov 2002 : conférence organisée par Saporta au CNAM avec Vapnik, Friedmann, Schoelkopf

  10. Statistiques appliquées Avec la SRM Hypothèse sur les distributions statistiques des données Étude des familles de modèles par l’étude de leur VC dimension (h) Problème de robustesse des modèles utilisant un grand nombre de variables Le nombre de variables peut être élevé car la généralisation est contrôlée (h) Les outils cherchent le modèle le plus précis Les outils cherchent le modèle apportant le meilleur compromis entre précision et robustesse Fort besoin d’expertiseen statistique et de temps Faible besoin d’expertiseen statistique; automatisation possible Avec ou sans le SRM de Vapnik

  11. Sommaire Le data mining dans l’entreprise KXEN & Vapnik : la nouvelle donne Démonstration

  12. Positionnement KXEN Business model • Indirect • Leading SI’s & OEM’s • “KXEN Inside” Architecture Mathematics • Components made to be embedded • Written around API • Industry standards for easy integration • Breakthrough theory allows automation • R&D backed by strong scientific committee

  13. Le Pouvoir de Comprendre Le Datamining avec KXEN c’est … Introduction Applications Modèles Prédictifs Modèles Descriptifs Intégrations Théorie Les composants • Classification • Régression • Prévisions avec séries temporelles • Analyse Multi-variable • Clustering • Corrélation • iOLAP • Prédire l’Inconnu Quels sont les facteurs explicatifs ?

  14. Caractéristiques KXEN Introduction • Facilité d’utilisation • Possibilité de créer et déployer des modèles sans expertise technique • Préparation des données et processus d’extraction de la connaissance automatisés • Meilleure compréhension grâce à des graphiques pertinents et des indicateurs de performance Applications Intégrations Théorie Les composants • Vitesse • Construction de modèles analytiques complexes en minutes au lieu d’heures ou jours • Utilisation plus fréquente, en temps réel pour prendre de meilleures décisions • Fiabilité • Obtention régulière de bons résultats en terme de qualité(KI) et de fiabilité (KR) • La compréhension des données permet à l’utilisateur de décider de l’utilisationdu modèle en tout confiance • Intégration • Architecture standard de composants, DCOM, CORBA, PMML, XML • API documentées pour une intégration facile dans les applications et process existants

  15. Sommaire KXEN positionnement Les domaines d’application Intégration des composants La théorie de Vapnik Détails des composants

  16. Des données à la connaissance Base de données Modèle prédictif : F(X1, .. Xn) Décomposition des clients en groupes homogènes vis à vis de l’ensemble des X i Facteurs explicatifs de l’achat Leviers d’actions Application du modèle sur denouveaux clients et calcul des scores d’appétences

  17. Shell VB/ IOLAP Java DCOM API CORBA API C++ API CSV TXT … Event Log KEL Robust Regression K2R KPI Analysis Charts Models Direct Custom Reports ODBC Smart Segmenter K2S RDBMS C ++ Sequence Coder KSC Support Vector Machine KSVM C XML - PMML - HTML - Other XLS SAS … Data Access Data Manipulation Data Preparation Presentation/ Deployment Data Modeling KXEN Analytic Framework 2.1 Introduction Applications Intégrations Théorie Les composants Data Access C API Consistent Coder K2C

More Related