Benoît Laplante, professeur

Programmes de maîtrise et de doctorat en démographieModèles de risque et de duréeCours 8Séance du 21 mars 2014 Benoît Laplante, professeur

Plan 1. Les modèles paramétriques Aperçu de quelques lois de probabilité utilisées dans les modèles paramétriques en temps continu. Les modèles à risques proportionnels : • exponentiel, de Weibull, de Gompertz. D’autres modèles : • log-normal, log-logistique, gamma. L’approximation de la fonction de risque à variation non monotone au moyen de modèles à risques proportionnels : • le modèle exponentiel par parties.

Plan 2. Compléments La pseudo-paramétrisation de la fonction de risque Les modèles à risques concurrents

Aperçu de quelques lois de probabilité utilisées dans les modèles paramétriques en temps continu Voir le fichier Excel.

Les modèles paramétriques Les modèles paramétriques sont des modèles linéaires « ordinaires ». Contrairement au modèle semi-paramétrique de Cox, les modèles paramétriques sont faits des trois éléments d’un modèle linéaire généralisé : • la composante déterministe (ou systématique); • la composante aléatoire représentée par une loi de probabilité; • la fonction de liaison (ou de lien).

Les modèles paramétriques La composante aléatoire • La loi exponentielle, de Weibull, de Gompertz, log-normale, etc. La composante systématique La fonction de liaison

La loi exponentielle La loi exponentielle représente un processus de changement d’état dont le risque est constant. La loi exponentielle n’a qu’un seul paramètre. On peut exprimer la loi exponentielle de différentes manières, notamment • de manière à ce que son paramètre représente le risque instantané (ou incidence instantanée), que l’on note λet • de manière à ce que son paramètre représente le temps moyen passé dans l’état d’origine (la « durée » moyenne), que l’on noteμ.

La loi exponentielle Dans la loi exponentielle, le temps moyen passé dans l’état d’origine (l’espérance de T) est égal à l’inverse multiplicatif du risque, qui, par définition, est constant : Dans la paramétrisation utilisée par Stata, on a où α est l’ordonnée à l’origine (« _cons ») de l’équation dans sa version additive. et

Le modèle exponentiel On pose que le risque de base est constant et que le risque est une fonction de certaines variables indépendantes Ceci implique que On peut réécrire l’équation de manière à rendre plus évidente la manière dont les variables indépendantes modifient le risque de base pour donner le risque.

La loi de Weibull La loi de Weibull représente un processus de changement d’état dont le risque varie de manière monotone en fonction du temps : • soit il augmente en fonction du temps, • soit il diminue en fonction du temps. La loi de Weibull a deux paramètres On peut exprimer la loi de Weibull de plusieurs manières.

Le modèle de Weibull Le risque varie en fonction du temps élevé à une puissance qui est une constante On pose ce qui entraîne On a donc et finalement

Le modèle de Weibull Le modèle de Weibull dans Stata On pose et Ceci implique que On a donc et Tout ceci implique que et

La loi de Gompertz Comme la loi de Weibull, la loi de Gompertz représente un processus de changement d’état dont le risque varie de manière monotone en fonction du temps : • soit il augmente en fonction du temps, • soit il diminue en fonction du temps. La loi de Gompertz a deux paramètres. On peut exprimer la loi de Gompertz de plusieurs manières.

Le modèle de Gompertz Le risque varie en fonction d’une constante élevée à une puissance qui est le temps lui-même On pose ce qui entraîne On a donc et finalement

Le modèle de Gompertz Le modèle de Gompertz dans Stata On pose et Ceci implique que On a donc et Tout ceci implique simplement que et

D’autres modèles paramétriques Certains modèles paramétriques permettent de représenter des processus de changement d’état où le risque varie de manière non monotone, c.-à-d. des processus où • le risque augmente puis diminue ou bien • le risque diminue puis augmente. Parmi ces modèles on trouve • le modèle log-normal, • le modèle log-logistique et • le modèle Gamma.

D’autres modèles paramétriques Ces modèles utilisent les lois statistiques qui leur donnent leur nom, comme c’est le cas des autres modèles que nous avons vus. Ils ont l’avantage de permettre de représenter des risques qui varient de manière non monotone. Ils ont le désavantage de ne pas être « proportionnels » au sens où le sont le modèle de Cox et les autres modèles que nous avons vus.

D’autres modèles paramétriques Le modèle lognormal et le modèle loglogistique Ces modèles sont construits en utilisant le temps passé dans l’état d’origine plutôt que le risque comme variable dépendante. Plutôt qu’une fonction de risque de base, on a une fonction de durée de base, que les effets des variables indépendantes augmentent ou diminuent. Dans le modèle lognormal, on pose que le logarithme de la fonction de durée de base suit une loi normale. Dans le modèle loglogistique, on pose que le logarithme de la fonction de durée de base suit une loi logistique.

Le choix du modèle Entre le modèle semi-paramétrique et les modèles paramétriques Le choix se fait selon l’importance que l’on accorde à l’estimation du risque lui-même: • si on ne s’intéresse qu’à l’effet des variables indépendantes, le modèles semi-paramétrique est idéal; • si on s’intéresse aussi au risque lui-même, il est préférable d’utiliser un modèle paramétrique.

Le choix du modèle Entre les différents modèles paramétriques Se fait en tenant compte • de la connaissance que l’on a du processus que l’on étudie • de l’ajustement • ou des deux. Entre deux ou plusieurs modèles gigognes (ou « emboîtés »). • les tests fondés sur le khi-deux, • comme le test de Wald ou • le test du rapport de vraisemblance, c.-à-d. −2 ln(L) qui suit une loi du khi-deux. Dans les autres cas • Le « critère d’Akaike », c.-à-d. − 2 ln(L) − 2k, • où k est le nombre des paramètres du modèle.

Le modèle exponentiel par parties Le modèle paramétrique le plus versatile est le modèle exponentiel par parties. Le modèle exponentiel par parties n’est rien d’autre qu’un usage intelligent du modèle exponentiel • dans lequel on regroupe le temps en intervalles • de manière à estimer un risque constant dans chacun de ces intervalles • de sorte que le risque puisse varier d’un intervalle à l’autre.

Le modèle exponentiel par parties Comme lorsqu’on utilise le modèle de Poisson ou la régression logistique pour estimer un modèle de risque en temps discret, on élimine l’ordonnée à l’origine et on représente, dans l’équation, chaque intervalle par une variable binaire. On obtient ainsi une estimation du risque de base dans chacun des intervalles. Selon la valeur du coefficient qui est associé à chacun, les variables indépendantes augmentent ou diminuent le risque dans la même proportion dans chacun des intervalles.

Le modèle exponentiel par parties Attention! Le modèle exponentiel par parties n’est pas un modèle en temps discret, mais bien un modèle en temps continu, comme le modèle de Poisson par parties. On peut changer d’état à tout instant. Les intervalles regroupent le temps en classes et ne servent qu’à modéliser la variation du risque en fonction du temps.

La pseudo-paramétrisation de la fonction de risque Pourquoi ? Parce que l’évolution du risque au fil du temps n’est pas toujours un simple bruit. Parce que les modèles paramétriques qui permettent de représenter cette évolution • ne sont pas très souples ou • ne sont pas proportionnels s’ils sont souples.

La notion de spline « Spline » En anglais, le mot « spline » désigne un outil de dessin technique qui permet de dessiner des courbes complexes, p. ex. celles d’une coque de bateau ou d’une autoroute. Il formé d’une tige souple dont la courbure est contrôlée par des poids qui la fixent sur la surface de dessin. Le mot est apparemment également utilisé en anglais pour désigner un outil de dessin plus simple, la « latte » ou « cerce », simple tige pliable.

La spline linéaire Plus justement nommée « fonction spline linéaire » On peut utiliser une fonction spline linéaire pour représenter toute relation entre une variable dépendante et une variable indépendante. Il s’agit d’une forme d’estimation par parties, comme dans le modèle exponentiel par parties : • on regroupe les valeurs de la variable indépendante en intervalles; • on estime l’effet de la variable indépendante de manière à ce qu’il varie de manière linéaire à l’intérieur de chaque intervalle; • l’effet de la variable indépendante est représenté par la suite des effets au sein de chaque intervalle. En théorie, la spline linéaire est moins sensibles aux valeurs extrêmes qu’une fonction formée de polynômes.

La spline cubique Plus justement nommé « fonction spline cubique » Elle est similaire à la spline linéaire. On l’utilise également pour réaliser une forme d’estimation par parties. À l’intérieur de chaque partie, on permet à l’effet de la variable indépendante de varier en suivant une courbe représentée par un polynôme du 3e degré. En CAO, la spline cubique « conventionnelle » est de plus en plus remplacée par la courbe de Bézier, insensible à certaines transformations, et souvent nommée « B-spline ».

La spline cubique On doit l’usage de la fonction spline cubique pour représenter l’évolution du risque au fil du temps dans les modèles de risque à Patrick Royston. • Royston, Patrick (2001) « Flexible parametric alternatives to the Cox model, and more », The Stata Journal 1(1): 1-28. • Royston, Patrick et Mahesh K. B. Parmar (2002) « Flexible parametric proportional-hazards and proportional-odds models for censored survival data, with application to prognostic modelling and estimation of treatment effects », Statistics in Medicine 21: 2175–2197. • Lambert, Paul C. et Patrick Royston (2009) « Further development of flexible parametric models for survival analysis », The Stata Journal 9(2): 265–290. • Royston, Patrick et Paul C. Lambert (2011) Flexible Parametric Survival Analysis Using Stata: Beyond the Cox Model, College Station TX, Stata Press.

La pseudo-paramétrisation de la fonction de risque La spline cubique sert à lisser la relation entre le risque et le temps. La relation entre le risque et le temps est représentée par une fonction paramétrisée qui n’est pas une loi de probabilité « officielle ». Cette fonction est néanmoins une loi de probabilité dans la mesure où elle régit une phénomène aléatoire et qu’on l’utilise pour représenter la composante aléatoire d’un modèle statistique. Cette fonction est une loi de probabilité à peu près au sens où l’estimé de Kaplan-Meier en est une.

Les modèles à risques concurrents L’approche simple Elle est analogue à celle qu’on utilise généralement dans l’étude de la mortalité par causes On estime un modèle différent pour chaque type de changement d’état en retirant l’individu de tous les groupes à risque au moment où il change d’état. C’est l’approche la plus courante.

Les modèles à risques concurrents Deux ou plusieurs risques plutôt qu’un seul Un exemple : • former la première union par mariage ou par union de fait • plutôt que simplement former la première union.

Les modèles à risques concurrents L’approche simple On la réalise, par exemple, en estimant plusieurs équations au moyen du modèle de Cox, du modèle exponentiel par parties ou de tout autre modèle utilisé pour étudier un risque simple. On peut la réaliser pour étudier un phénomène en temps discret en estimant plusieurs équations au moyen de la régression logistique, ou encore en utilisant le modèle logit multinomial.

Les modèles à risques concurrents L’approche simple L’approche simple est critiquée parce qu’elle présume que les processus qui régissent chacun des changements d’état sont indépendants les uns des autres. On propose d’utiliser des approches qui tienne compte de la corrélation entre les processus qui régissent les différents changements d’état.

Les modèles à risques concurrents L’approche sophistiquée « traditionnelle » Jusqu’à récemment, la seule approche « sophistiquée » couramment utilisée reposait sur le probit multinomial. Il est « plus facile » de calculer la corrélation entre deux ou trois lois normales qu’entre deux ou trois lois logistiques. On se sert de cette propriété pour estimer les effets des variables indépendantes sur le risque en contrôlant la corrélation entre les lois normales associées à chacune des équations. Cette approche est populaire chez les économètres. Elle est toujours présentée en expliquant que la loi normale du modèle probit représente un processus aléatoire lié à un terme d’erreur ou aux résidus, en posant que la loi normale joue, dans le modèle probit, le même rôle que dans la régression ordinaire.

Les modèles à risques concurrents L’approche sophistiquée « traditionnelle » Ceci n’est pas évident et demande à être explicité. À première vue, dans le modèle probit, la loi normale est utilisée comme fonction de liaison. On fait correspondre une valeur comprise entre 0 et 1 à une valeur comprise entre moins l’infini et plus l’infini en utilisant la correspondance qui existe entre la fonction de densité et la fonction de répartition de la loi normale centrée réduite. La relation entre deux fonctions de la loi normale est utilisée pour effectuer une simple transformation. À première vue, dans le modèle probit, la loi normale n’est pas utilisée pour représenter un processus aléatoire.

Les modèles à risques concurrents L’approche sophistiquée « traditionnelle » On peut cependant interpréter le modèle logit et le modèle probit d’une manière très différente. Dans cette interprétation, la loi logistique, pour le modèle logit, et la loi normale, pour le modèle probit, jouent véritablement le rôle de loi de probabilité. Cette interprétation est très populaire chez les économètres et sert à fonder le modèle probit multinomial qui permet de « contrôler » la corrélation entre les lois normales qui régissent les termes d’erreur des équations qui régissent les différents risques d’une modèle à risques concurrents.

Les modèles à risques concurrents La régression logistique ou modèle logit Le modèle repose sur le fait que la fonction de densité d’une variable aléatoire qui suit une loi logistique centrée réduite est égal au rapport de sa fonction de répartition à sa fonction de survie. On a donc : π varie donc nécessairement de 0 à 1 et permet de représenter la probabilité que Y vaille 1 plutôt que 0, alors que [π/(1-π)] varie nécessairement de -∞ à +∞ce qui permet d’en faire la variable prédite d’un modèle linéaire.

Les modèles à risques concurrents Le modèle probit On suit une logique similaire à celle qui fonde la régression logistique. On transforme la valeur prédite par la composante déterministe du modèle en posant qu’elle suit une loi normale centrée réduite pour obtenir une quantité qui varie de 0 à 1. On interprète le tirage dans la loi de Bernouilli de probabilité π comme la comparaison entre la valeur prédite et la valeur d’une variable aléatoire normale centrée réduite.

Les modèles à risques concurrents On peut s’amuser à interpréter la régression logistique de manière analogue. Ceci ne permet pas de construire un modèle à plusieurs équations qui tienne compte de la corrélation entre les termes d’erreur parce que la mathématique des lois logistiques multivariées n’est pas développée.

Les modèles à risques concurrents Le modèle de Fine et Gray Fine, J. P., et R. J. Gray. 1999. « A proportional hazards model for the subdistribution of a competing risk ». Journal of the American Statistical Association 94: 496–509.

Benoît Laplante, professeur