1 / 53

Régression logistique et modèle de Cox

Paris, SRLF Janvier 2009. Régression logistique et modèle de Cox. Jean-François TIMSIT Réanimation médicale INSERM/UJF U823 CHU Albert Michallon Grenoble. 747 patients ventilés plus de 48 heures 153 au moins une PNVM Question:

ghazi
Download Presentation

Régression logistique et modèle de Cox

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Paris, SRLF Janvier 2009 Régression logistique et modèle de Cox Jean-François TIMSIT Réanimation médicale INSERM/UJF U823 CHU Albert Michallon Grenoble

  2. 747 patients ventilés plus de 48 heures • 153 au moins une PNVM • Question: • Parmi les variables age, sexe, utilisation de cephalosporines dans les 48 premières heures de VM lesquels sont des facteurs de risque de PNVM?? Outcomes of VAP • CID 2004:38 (15 May) • 1401

  3. Les variables • DSREA: durée de séjour en réanimation • SEXMASC: sexe masculin • Age (année) • PN (0/1) • EOP/LOP (<7 j, >=7jours) • CEPHALO48: utilisation de céphalosporines dans les 48 premières heures de séjour

  4. Variable : AGE Sample size = 747 Lowest value = 16,5257 Highest value = 100,0000 Arithmetic mean = 65,3941 95% CI for the mean = 64,3005 to 66,4878 Median = 68,7817 95% CI for the median = 67,1589 to 69,7324 Variance = 231,5221 Standard deviation = 15,2158 Relative standard deviation = 0,2327 (23,27%) Standard error of the mean = 0,5571 Coefficient of Skewness = -0,7248 (P<0,0001) Coefficient of Kurtosis = 0,0229 (P=0,8308) Kolmogorov-Smirnov test for Normal distribution : reject Normality (P<0,001) Percentiles 95% Confidence Interval 2,5 = 30,3368 27,5104 to 32,9601 5 = 34,7625 32,1306 to 38,4000 10 = 42,3387 40,3694 to 44,8183 25 = 56,4435 53,6353 to 58,6242 75 = 76,5914 75,5473 to 77,2365 90 = 82,3691 80,5334 to 84,2325 95 = 86,1684 84,7553 to 87,5371 97,5 = 88,6290 87,1381 to 90,4577

  5. Variable DS rea Variable : DSREA Sample size = 747 Lowest value = 2,0000 Highest value = 111,0000 Arithmetic mean = 16,4712 95% CI for the mean = 15,2883 to 17,6541 Median = 11,0000 95% CI for the median = 10,0000 to 12,0000 Variance = 271,2147 Standard deviation = 16,4686 Relative standard deviation = 0,9998 (99,98%) Standard error of the mean = 0,6026 Coefficient of Skewness = 2,2130 (P<0,0001) Coefficient of Kurtosis = 6,0827 (P<0,0001) Kolmogorov-Smirnov test for Normal distribution : reject Normality (P<0,001) Percentiles 95% Confidence Interval 2,5 = 2,0000 2,0000 to 2,0000 5 = 3,0000 2,0000 to 3,0000 10 = 3,0000 3,0000 to 4,0000 25 = 6,0000 5,0000 to 6,0000 75 = 21,0000 19,0000 to 23,0000 90 = 37,8000 33,0000 to 44,0000 95 = 51,1500 45,0000 to 58,0000 97,5 = 62,8250 57,0000 to 71,0353

  6. Vous souhaitez présenter une première table avec les données des groupes (avec et sans pneumonies): quels caractéristiques allez vous garder pour l’age et la durée de séjour? Moyenne (SD) pour les deux Moyenne (SD) pour age et médiane (IQR) pour la DS Moyenne (SD) pour DS et médiane (IQR) pour l’age Médiane (IQR) pour les deux Les deux

  7. Comparaison age/PNobs Test t de student Test de Mann Whitney Sample 1 Variable : age Select : pnobs=0 Sample size = 594 Arithmetic mean = 65,1734 95% CI for the mean = 63,9445 to 66,4023 Standard deviation = 15,2496 Standard error of the mean = 0,6257 ------------------------------------------------------------ Sample 2 Variable : AGE Select : pnobs=1 Sample size = 153 Arithmetic mean = 69,0523 95% CI for the mean = 67,0019 to 71,1027 Standard deviation = 12,8369 Standard error of the mean = 1,0378 ------------------------------------------------------------ Independent samples t-test F-test for equal variances P = 0,010 T-test (assuming equal variances) Difference = 3,8789 95% CI of difference = 1,2466 to 6,5111 Test statistic t = 2,893 Degrees of Freedom (DF) = 745 Two-tailed probability P = 0,0039 Sample 1 Variable : AGE Select : pnobs=0 Sample size = 594 Lowest value = 17,0000 Highest value = 93,0000 Median = 69,0000 95% CI for the median = 67,0000 to 70,0000 ---------------------------------------------------------- Sample 2 Variable : age Select : pnobs=1 Sample size = 153 Lowest value = 25,0000 Highest value = 100,0000 Median = 70,0000 95% CI for the median = 68,0000 to 73,0000 ---------------------------------------------------------- Mann-Whitney test (independent samples) Average rank of first group = 364,4537 Average rank of second group = 411,0621 Large sample test statistic Z = 2,382441 Two-tailed probability P = 0,0172

  8. Vous voulez comparer l’age en fonction de PNVM • Votre logiciel vous propose 2 tests et 2 sorties laquelle choisissez vous et pourquoi? • Test t de Student car c’est le plus puissant • Test de Kruskal Wallis car c’est le plus puissant • Test t de Student car les effectifs sont supérieurs à 30 • Test de Kruskal Wallis, car la normalité n’est pas vérifiée • Je sais pas

  9. L’analyse univariée est jointe vous souhaitez réaliser une analyse multivariée: OR=2.01

  10. ? 1 2 3 4 5 ? L’Odds ratio est : Très proche du risque relatif La probabilité de PNVM si homme sur la probabilité de PNVM globale La probabilité d’absence de PNVM si homme rapportée à la probabilité d’absence de PNVM si femmes La probabilité de PNVM si homme sur la probabilité de PNVM si femme Aucune des affirmations n’est vraie

  11. Le risque relatif (RR) de PNVM est égal à la probabilité de PNVM si homme rapportée à la probabilité de PNVM si femme RR=(A/A+C)/(B/B+D)=(114/466)/(39/281)= 1.71 L’odds ratio (0R) de décès est égal au rapport des cotes X et Y X=(proba de PNVM/homme)/(proba de pas de PNVM /homme) Y=(proba de PNVM/femme)/(proba de PNVM /femme) OR=X/Y= (A/C)/(B/D)=AD/BC= 2.01 L’OR n’est proche du RR que si le risque mesuré est très petit +++++

  12. Adjustement using a magic « multivariate model » y z Truth universe in your sample x

  13. Adjustement using a magic « multivariate model » y z x

  14. Adjustement using a magic « multivariate model » y z x

  15. Adjustement using a magic « multivariate model » y z x

  16. Adjustement using a magic « multivariate model » y z x

  17. Adjustement using a magic « multivariate model » y z Model using interactions and polynomes… x

  18. Validation using external samples y z Other representative sample of the truth universe x

  19. Messages • As many possible models as individuals (even more!!) • Parcimony decreases model discrimination but improves external validity • the statistical analyses should be precisely designed a priori • Primary and secondary analyses should be precisely planned

  20. Rules for multivariate models • Select the model according to the end point • Check for its hypotheses • The explanatory variables should be • Precisely defined • Not related one to another • Sufficiently frequent in both groups (problem with perfect or quasi perfect discrimination)

  21. Que pensez vous de l’inclusion dans le modèle de l’age et du SAPSII?C’est logique C’est illogique puisque le SAPS est NS(comme cephalo) C’est illogique puisque le SAPS comprend l’ageJ’sais pas?

  22. Utilisation de variables dans un modele • Dans un but exploratoire: (facteur de risque de quelque chose), il vaut mieux utiliser des modèles « parcimonieux » • Sélectionner des covariables associées avec la variable à expliquer au seuil 0.05 voir 0.01 si vous testez beaucoup de variables ou beaucoup de sujets • Dans un but de prédiction, il vaut mieux introduire largement les variables explicatives • Covariables avec p<0.1 voir 0.20 • Variables retrouvées dans la littérature comme pronostique • Procédure de sélection des variables: attention aux logiciels, attention aux variables colinéaires

  23. Vous choisissez une régression logistique (une réponse fausse) Ce modèle permet d’expliquer une variable binaire (0/1) avec des variables qualitatives? Ce modèle permet d’expliquer une variable binaire (0/1) avec des variables quantitatives? Ce modèle ne fait pas d’hypothèse sur la normalité des variables explicatives Ce modèle ne tient pas compte de la durée d’exposition au risque Ce modèle ne fait aucune hypothèse

  24. Analyse des estimations du maximum de vraisemblanceErreur Khi 2 Paramètre DF Estimation std de Wald Pr >Khi2 Intercept 1 -2.6357 0.4629 32.4281 <.0001 AGE 1 0.0190 0.00664 8.2315 0.0041 Estimations des rapports de cotes Point 95% Limites de confiance Effet Estimate de Wald AGE 1.019 1.006 1.033 Association des probabilités prédites et des réponses observées Percent Concordant 55.6 Somers' D 0.126 Percent Discordant 43.0 Gamma 0.128 Percent Tied 1.4 Tau-a 0.041 Pairs 90882 c 0.563 Age OR= 1.019 (1.006-1.033); p=0.0041

  25. Que veux dire l’odds ratio pour l’age? C’est l’ OR de PNVM entre les plus agés et les moins agés Ca veux rien dire??? J’ai appuyé sur les mauvaises touches c’est l’augmentation du risque par année: si l’age augmente de 10 ans, l’OR est de 10.2 (10 X 1.02) c’est l’augmentation du risque par année: si l’age augmente de 10 ans, l’OR est de 1.22 Age OR= 1.019 (1.006-1.033); p=0.0041

  26. Modèle logistique Log (p/1-p) p Y • Modèle de régression linéaire • Y=  + X • X est une variable quantitative ou discrète • La variable à expliquer va de 0 à l’infini • Comment expliquer une variable binaire avec un modèle de régression?  Modèle logistique • On transforme la variable de façon à avoir une réponse [0-1] • Notion de Logit: Log (p/1-p) • On a toujours: Probabilité p [0-1] alors que logit [-, + ] • Log (p/1-p)) =  + X • p= exp ( + X)/ (1+ exp( + X)) (ici p=proba (DC) varie de 0 à 1)  0 X

  27. où E = {X1=1} par exemple sexe masculin = OUI et D = {événement} Dans le modèle logistique, le coefficient de la régression est le logarithme de l’odds ratio mesurant l ’association entre le test diagnostique et la maladie

  28. Variables continues PNVM PNVM n) n où E = {X1=n} par exemple rales crépitants = OUI et D = {événement} Dans le modèle logistique, le coefficient de la régression est le logarithme de l’odds ratio mesurant l ’association entre le test diagnostique et la maladie Pour les variables quantitatives il mesure l’OR d’une élévation de 1.

  29. Catégorisation des variables continues

  30. Variables continues dans un modèle logistique Age et PAVM: OR= 1.0310, p<10-4 Avant d’introduire une variable continue dans un modèle toujours regarder la loglinéarité de cette variable+++

  31. Choix des cut-points • A déterminer a priori +++ • Sinon ils deviennent complétement dépendants de l’échantillon et • surestiment systématiquement les résultats  validation externe +++ • Risquent de conclure à tort à la significativité de la variable • En fonction d’un seuil de la littérature ou en fonction de la médiane • La notion de cut-point est tout à fait non réaliste si age=54,43 ans!!! • En 3 ou 4 ou 5 ou En fonction des quartiles de la population • En fonction des quartiles de survenue d’évènements Altman DG Br J Cancer 1991; 64:975

  32. On fait « tourner » le modèle

  33. Propriétés du modèle logistique DC prédits (%) • Calibration:Chi 2 de Hosmer -Lemeshow: On coupe en 10 tranches d ’effectifs identiquesOn compare proba observés et proba calculés pour chaque tranche par un test du Chi 2 (à 8 ddl) • DiscriminationCapacité de p à séparer pour un seuil donné les DCD et les VV.Courbes ROC: Construire courbes Se / 1-Sp en faisant varier le seuil de positivité Se DC observés (%) 1   d    AUC   1-Sp

  34. Test d'adéquation d'Hosmer et de Lemeshow Khi 2 DF Pr > Khi 2 1.0645 4 0.8999

  35. AUC-ROC=C statistique= 0.633

  36. Variable DS rea Variable : DSREA Sample size = 747 Lowest value = 2,0000 Highest value = 111,0000 Arithmetic mean = 16,4712 95% CI for the mean = 15,2883 to 17,6541 Median = 11,0000 95% CI for the median = 10,0000 to 12,0000 Variance = 271,2147 Standard deviation = 16,4686 Relative standard deviation = 0,9998 (99,98%) Standard error of the mean = 0,6026 Coefficient of Skewness = 2,2130 (P<0,0001) Coefficient of Kurtosis = 6,0827 (P<0,0001) Kolmogorov-Smirnov test for Normal distribution : reject Normality (P<0,001) Percentiles 95% Confidence Interval 2,5 = 2,0000 2,0000 to 2,0000 5 = 3,0000 2,0000 to 3,0000 10 = 3,0000 3,0000 to 4,0000 25 = 6,0000 5,0000 to 6,0000 75 = 21,0000 19,0000 to 23,0000 90 = 37,8000 33,0000 to 44,0000 95 = 51,1500 45,0000 to 58,0000 97,5 = 62,8250 57,0000 to 71,0353

  37. La durée de séjour est très différente entre PNVM et les autres

  38. La date de début de suivi Est fixé à la date de ventilation mécanique Est situé après 24 heures car le SAPS doit être mesurable avant le début du suivi Est situé à la 48eme heure car toutes les variables doivent être mesurables avant Est situé à l’acquisition de la PNVM (chez les PNVM +) Je ne sais pas

  39. Intub. VNI échec-PN=0 Intub. VNI echec -PN=1 VNI VI-PN=1 VI-PN=0 VNI-PN=1 VNI-PN=0 T=adm Temps

  40. Biais du temps passé (lead-time biais) • Toutes les covariables fixes doivent être mesurable à l’ensemble des temps de suivi

  41. Données censurées J3 PN 1 DC 2 DC PN 3 DC PN VV 4 5 VV 6 VV J30 t

  42. Principe des modèles pour données censurées Et Zi (0 +  1Age 56 + 2Sexe + 3cefalo48)

  43. Hazard ratio et risque relatif h h Le HR est le rapport des risques instantané en présence de l’exposition et en son absence. Comme la prévalence de l’événement à un instant t est petit c’est très proche du RR

  44. Les patients sont censurés à la sortie de réanimation ou à J30… • C’est bien, car la censure n’est pas informative • Peu importe le modèle ne fait aucune hypothèse sur la censure • Cela peu poser un problème de censure informative • Cela est délétère puisque l’on ne tient pas compte des durées de séjours longues et des PNVM très tardives • J’sais pas

  45. Censure non informative • Hypothèse de tous les modèles de survie++++ • Hypothèse que si un individu i est censuré au temps t son risque d’événement au temps t+1 est identique à celui des individus encore exposés au temps t+1 ++++ • Censure, fixée à priori, non dépendant de l ’état du patient au temps t…..  Intérêt des modèles à risques compétitifs

  46.  Cox Vous pensez que l’utilisation de céphalosporine dans les 48 premières heures protègent de la PNVM, au moins précoce, Cela va à l’encontre de la litérature..votre modèle…

  47. Votre modèle (une réponse fausse) • Est faux • Est juste…l’échantillon n’est pas représentatif des populations explorées précédemment • Est juste, il faudra discuter ce résultat à partir d’autres papiers cliniques • Ca ne s’applique que si la PNVM est précoce…ici le risque mesuré est un risque global • Il y a peut être un problème de proportionnalité des risques

  48. Hypothèses des risques proportionnels

More Related