Introduction

Introduction KXEN Analytic Framework

Sommaire Le data mining dans l’entreprise KXEN & Vapnik : la nouvelle donne Démonstration

Le constat du Gartner Volume The Business Intelligence“Gap” AvailableInformation Numbers of criticaldecisions Business IntelligenceAptitude Source: Gartner Time • Ex : Une grande entreprise française en 2001 • a réalisé 900 campagnes marketing • a fait un modèle de ciblage pour 20 campagnes seulement

Qu’est ce qui empêchent les gens aujourd’hui d’analyser leurs données? • Le facteur Gourou • Les outils statistiques actuels demandent une forte expertise pour être bien utilisés • Les Experts en Statistiques sont chers et très occupés Les opportunités du marché n’attendent pas • La transformation des données en connaissance prend des semaines. • Les ressources des experts sont rares – pouvez-vous attendre? => Vous ne pouvez appliquer les techniques de modélisation avancées qu’aux projets stratégiques. Une industrialisation complexe • Informatique très sollicitée : duplication des données, mise en œuvre des modèles • Multiplicité des acteurs : analystes, utilisateurs métier, informaticiens => Un coût par modèle élevé

Méthodologie en statistiques classiques Prepare Data Build Model Test Model Une nécessaire expertise Analyse des corrélations entre variables Méthode empirique de vérification de la robustesse Codage des variables après analyse des distributions Choix et compréhension des tests Choix d’un algorithme

Risque empirique Risque attendu Challenge de la modélisation prédictive (1/2) Construction du modèle sur des individus avec la variable cible connue Application du modèle sur des individus avec la variable cible inconnue

Challenge de la modélisation prédictive (2/2) Y Y F1 (X) F2 (X) X X x Modèle très robuste Modèle très précis Y F3 (X) X x Tradeoff fit-robustesse Challenge : construire à partir d’un échantillon un modèle qui soit aussi bon sur l’échantillon que sur de nouvelles données.

Apport de Vladimir Vapnik • Vladimir Vapnik • énonce un cadre théorique rigoureux dans lequel fit et robustesse d’un modèle sont clairement définis. • Il ouvre la voie à une nouvelle branche formelle de la statistique : la théorie statistique de l’apprentissage. (excelente synthèse = livre de Friedmann, Springer Series in statistics, 2001 : « Elements of Statistical Learning ») • Vladimir Vapnik : mathématicien russe arrivé aux US en 92, aux Bell (aujourd’hui AT&T) Labs pendant 10 ans puis depuis 2001 chez NEC. • Premiers papiers en russe dès 1972. • US Medal en sciences en 1992. • Plusieurs livres chez Springer Verlag et J. Wiley dès 1982 • Enseigné par Gilbert Saporta au CNAM, ENSAE, ISUP depuis 2001 • Information : 14 - 15 nov 2002 : conférence organisée par Saporta au CNAM avec Vapnik, Friedmann, Schoelkopf

Statistiques appliquées Avec la SRM Hypothèse sur les distributions statistiques des données Étude des familles de modèles par l’étude de leur VC dimension (h) Problème de robustesse des modèles utilisant un grand nombre de variables Le nombre de variables peut être élevé car la généralisation est contrôlée (h) Les outils cherchent le modèle le plus précis Les outils cherchent le modèle apportant le meilleur compromis entre précision et robustesse Fort besoin d’expertiseen statistique et de temps Faible besoin d’expertiseen statistique; automatisation possible Avec ou sans le SRM de Vapnik

Positionnement KXEN Business model • Indirect • Leading SI’s & OEM’s • “KXEN Inside” Architecture Mathematics • Components made to be embedded • Written around API • Industry standards for easy integration • Breakthrough theory allows automation • R&D backed by strong scientific committee

Le Pouvoir de Comprendre Le Datamining avec KXEN c’est … Introduction Applications Modèles Prédictifs Modèles Descriptifs Intégrations Théorie Les composants • Classification • Régression • Prévisions avec séries temporelles • Analyse Multi-variable • Clustering • Corrélation • iOLAP • Prédire l’Inconnu Quels sont les facteurs explicatifs ?

Caractéristiques KXEN Introduction • Facilité d’utilisation • Possibilité de créer et déployer des modèles sans expertise technique • Préparation des données et processus d’extraction de la connaissance automatisés • Meilleure compréhension grâce à des graphiques pertinents et des indicateurs de performance Applications Intégrations Théorie Les composants • Vitesse • Construction de modèles analytiques complexes en minutes au lieu d’heures ou jours • Utilisation plus fréquente, en temps réel pour prendre de meilleures décisions • Fiabilité • Obtention régulière de bons résultats en terme de qualité(KI) et de fiabilité (KR) • La compréhension des données permet à l’utilisateur de décider de l’utilisationdu modèle en tout confiance • Intégration • Architecture standard de composants, DCOM, CORBA, PMML, XML • API documentées pour une intégration facile dans les applications et process existants

Sommaire KXEN positionnement Les domaines d’application Intégration des composants La théorie de Vapnik Détails des composants

Des données à la connaissance Base de données Modèle prédictif : F(X1, .. Xn) Décomposition des clients en groupes homogènes vis à vis de l’ensemble des X i Facteurs explicatifs de l’achat Leviers d’actions Application du modèle sur denouveaux clients et calcul des scores d’appétences

Shell VB/ IOLAP Java DCOM API CORBA API C++ API CSV TXT … Event Log KEL Robust Regression K2R KPI Analysis Charts Models Direct Custom Reports ODBC Smart Segmenter K2S RDBMS C ++ Sequence Coder KSC Support Vector Machine KSVM C XML - PMML - HTML - Other XLS SAS … Data Access Data Manipulation Data Preparation Presentation/ Deployment Data Modeling KXEN Analytic Framework 2.1 Introduction Applications Intégrations Théorie Les composants Data Access C API Consistent Coder K2C

Introduction

Introduction

Presentation Transcript

Introduction to introduction to introduction to … Optimization

INTRODUCTION/ INTRODUCTION

Introduction

INTRODUCTION

Introduction

Introduction