1 / 81

Méthodes Statistiques

Méthodes Statistiques. Michel Tenenhaus. STATISTIQUE ?. Extraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. Simplifier une réalité complexe à l’aide de graphiques. Simplifier une réalité complexe à l’aide de modèles mathématiques.

trevor
Download Presentation

Méthodes Statistiques

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Méthodes Statistiques Michel Tenenhaus

  2. STATISTIQUE ? • Extraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. • Simplifier une réalité complexe à l’aide de graphiques. • Simplifier une réalité complexe à l’aide de modèles mathématiques. • Outils de manipulation de grosses bases de données pour identifier et segmenter la clientèle d’une entreprise et orienter ses choix stratégiques (data mining).

  3. Décrire ?

  4. Exemple 1Enquête FT sur les MBA 2001 • 100 MBA • 12 caractéristiques de l’école : Women Faculty, Women Students, Women board, International Faculty, Int. Stud., Int. Board, Int. Mobility, Int. Course content, Languages, Faculty with PhD, PhD grad. Rating, Research rating • 2 caractéristiques des diplômés : Salary today (weighted), Salary % increase

  5. Extrait des données de l’enquête FT sur les MBA 2001

  6. HEC  * Analyse factorielle (ACP)des MBA X14 = Salary increase . . . 2 Harvard   *    0 *  1    X2 = % Women Student    Warwick X1 = % Women Faculty

  7. Analyse Factorielle des MBA : Carte des MBA Analyse réalisée sur les 67 premiers MBA

  8. Analyse Factorielle des MBACarte des caractéristiques utilisées pour l’analyse Les variables fléchées en pointillés sont illustratives.

  9. Conclusion : HEC troisième MBA non anglo-saxon

  10. Exemple 2 : les races canines

  11. Le tableau disjonctif complet xijl = 1 si l’individu i possède la modalité l de la variable j = 0 sinon

  12. Analyse factorielle du tableau disjonctif complet Modalité au barycentre des chiens la possédant

  13. Classification ascendante hiérarchique des chiens (sur le tableau disjonctif complet) C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ bull-dog 5 òûòø teckel 26 ò÷ùòø chihuahua 8 òûò÷ùòø pékinois 22 ò÷óùòòòòòòòòòòòòòø caniche 7 òòòòò÷óó cocker 9 òòòûòòò÷ùòòòòòòòòòòòòòòòòòòòòòòòòòòòø fox-terrier 17 òòò÷óó epagneul breton 14 òûòòòøóó labrador 19 ò÷ùòòòòòòòòòòòòòòò÷ó boxer 4 òûòòò÷ó dalmatien 11 ò÷ó dogue allemand 13 òûòòòøó mastiff 21 ò÷ùòòòòòòòòòòòòòòòøó saint-bernard 24 òûòøóóó terre-neuve 27 ò÷ùò÷óó bull-mastiff 6 òòò÷óó berger allemand 3 òûòøùòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ dobermann 12 ò÷ùòòòòòòòòòøó beauceron 1 òòò÷óó pointer 23 òøóó setter 25 òôòøùòòòòòòò÷ levrier 20 ò÷ùòøó epagneul français 15 òòò÷ùòòòòòøó colley 10 òòòòò÷ùò÷ fox-hound 16 òûòòòøó grd bleu de gasc 18 ò÷ùòòòòò÷ basset 2 òòòòò÷

  14. Visualisation de la classification des chiens en 4 groupes 4 epagneul breton 3 labrador dalmatien epagneul français pointer setter 2 boxer colley levrier grd bleu de gasc fox-hound 1 berger allemand dobermann beauceron caniche 0 fox-terrier cocker -1 teckel bull-dog terre-neuve dogue allemand pékinois -2 basset chihuahua saint-bernard bull-mastiff mastiff -3 Facteur 2 -4 -4 -2 0 2 4 Facteur 1

  15. Exemple 3 : Les signes de ponctuation chez Zola

  16. Analyse Factorielle des Correspondances

  17. Exemple 4 : Analyse factorielle d’un tableau de distances Distances entre 10 villes européennes (en Miles)

  18. Utilisation de ALSCAL Carte de l’Europe

  19. Qualité du résultat

  20. Exemple 5 : Analyse des proximités Les données Un tableau de similarités sijentre n objets Problème On recherche n points {x1,…,xn} dans un plan tels que les contraintes soient respectées au mieux.

  21. Exemple : Les codes Morse % de Confusion entre Signal 1 en ligne et Signal 2 en colonne

  22. Utilisation de M-D-SCAL

  23. Qualité de la représentation graphique • Soit n points {x1,…,xn} dans un plan. • Définition des disparités : M-D-SCAL recherche les points {x1,…,xn} minimisant le STRESS

  24. Exemple 6 : Positionnement des cigarettes • Chaque personne interrogée construit sa typologie des 56 marques. • % de personnes mettant les marques i et j dans le même groupe.

  25. Groupe 1 Groupe 3 Groupe 2 Groupe 4.1 Groupe 4 Groupe 4.2 Groupe 5

  26. Groupe 3 Groupe 2 Groupe 4 Groupe 5 Groupe 1

  27. Axe 2 Groupe 3 Groupe 2 Groupe 4 Groupe 5 Groupe 1

  28. Exemple 7 : Jus d’orange X1 = Instrumental, X2 = Sensoriel, X = [X1, X2], Y = Hédonique

  29. Biplot des caractéristiques des jus d’oranges

  30. PREFMAP : Modèle vectoriel 3 Tropicana ambiant 2 Pampryl ambiant 1 0 Joker ambiant Tropicana réfrigéré -1 Fruivita réfrigéré -2 Pampryl réfrigéré -3 -4 Juge 1 Axe 2 -5 -4 -2 0 2 4 6 Max Cor(Notes observés, Projections) Axe 1

  31. Carte de préférence 5 15 7 26 45 47 28 16 87 75 34 29 24 38 67 62 54 17 65 88 51 4 19 42 94 81 5 39 4 58 74 10 57 61 3 63 31 95 14 Tropicana ambiant 70 9 80 96 11 60 2 93 Pampryl ambiant 3 2 92 91 1 25 82 27 85 48 0 Joker ambiant 77 Tropicana réfrigéré  axe 2  35 64 84 52 -1 6 55 59 Fruivita réfrigéré 68 86 -2 46 76 22 Pampryl réfrigéré 12 79 30 -3 13 69 56 23 71 43 18 8 50 73 -4 37 72 1 33 20 32 66 21 78 44 89 41 90 36 53 40 49 83 -5 -5 -4 -3 -2 -1 0 1 2 3 4 5  axe 1 

  32. Expliquer ?

  33. Salaire des professeurs duGroupe HEC

  34. Salaire en fonction de l’age

  35. Pédagogie et HEC

  36. Recherche et HEC

  37. Modèle de salaire des professeurs

  38. Estimation du modèle par la méthode des moindres carrés Un paramètre est significativement différent de 0 si son intervalle de confiance ne contient pas 0.

  39. Estimation du modèle par la méthode des moindres carrés

  40. Qualité du modèle

  41. Référendum sur la constitution européenne

  42. Arbre de segmentation avec Answer Tree

  43. Prévoir ?

  44. La méthode de Winters Exemple : Ventes de Champagne On exclut les douze derniers mois pour valider la méthode.

  45. Ventes de Champagne On exclut les douze derniers mois pour valider la méthode.

  46. Résultats sur l’historique utilisé(prévision à l’horizon 1)

  47. Résultats sur la période test (prévision sur l’horizon 1 à 12)

  48. GALTON, 1908 Some people hate the very name of Statistics, but I find them full of beauty and interest. Whenever they are not brutalized, but delicately handled by the higher methods, and are warily interpreted, their power of dealing with complicated phenomena is extraordinary. They are the only tools by which an opening can be cut through the formidable thicket of difficulties that bars the path of those who pursue the Science of man.

  49. Proverbe chinois 耳听为虚眼见为实身教重于言传 J ’entends et j ’oublie. Je vois et je me souviens. Je fais et je comprends.

  50. Mark Rothko (1903 - 1970) Le travail évolue à mesure qu’il avance vers plus de clarté, vers l’élimination de tous les obstacles entre le peintre et l’idée, et entre l’idée et le spectateur.

More Related