Transcript for:
Étude des données censurées

Nous voilà maintenant arrivés à l'étude des données censurées, parmi lesquelles la survie est un exemple classique. Dans un premier temps, nous allons nous focaliser sur le vocabulaire utilisé dans ce domaine et par les approches statistiques descriptives qui lui sont propres. Il n'est pas rare que des mesures effectuées dans des études correspondent à des durées. Ce sera par exemple le cas si vous prenez un groupe de sujets au chômage, que vous suivez pendant un an, et vous mesurez le temps jusqu'à recouvrement du travail. Ce sera aussi le cas si vous prenez un groupe de sujet ayant eu un infarctus du myocarde, que vous les suivez jusqu'à l'obtention d'une récidive ou du décès. Ces durées ont comme particularités qu'elles sont potentiellement censurées. Ça veut quoi en statistique censuré, là aussi un exemple va aider : si vous prenons ce groupe de sujets au chômage, nous le suivons un an, par exemple, certains sujets vont avoir retrouver du travail au bout de deux mois, quatre mois, six mois : pour ces sujets, on a exactement la durée de recouvrement du travail. Par contre, d'autres, à un an, n'auront pas retrouvé du travail. Donc le temps jusqu'à recouvrement du travail, on ne le connaîtra pas, par manque de suivi ; mais on saura tout de même qu'il est supérieur à un an. Dans ce cas là, quand on a une connaissance que partielle de la variable mesurée, on dit que la variable est censurée. Les statisticiens ont développé de nombreuses méthodes spécifiquement adaptées à l'analyse des données censurées, et c'est ce que nous allons voir dans le chapitre et le chapitre suivant. Alors, certains pourraient dire, on pourrait s'en tirer en changeant la variable à étudier. Plutôt que d'étudier "Durée jusqu'à survenue de l'évènement", on pourrait étudier la variable "Pourcentage de survenue de l'évènement". Ainsi plutôt que d'étudier le "Temps jusqu'à recouvrement du travail", on pourrait étudier la variable "Pourcentage de chômeurs ayant retrouvé du travail en un an". Seulement, quand vous faites une étude, vous n'êtes jamais sûr de pouvoir suivre les sujets pendant un an. D'abord parce que l'inclusion peut durer longtemps, vous n'avez plus le temps d'attendre un an une fois que le dernier sujet a été inclus ; et puis par ailleurs, les sujets peuvent déménager, et à ce moment-là, ils sont perdus de vue. Si vous étudiez le pourcentage de survenue de l'évènement à un an, tous ces sujets, vous êtes obligés de les abandonner, ça peut être induire des biais ou une perte de puissance. Dans le domaine des données de survie, il y a un vocabulaire très spécifique qu'il faut connaître. Premier élément de langage, la notion même de survie. Elle est largement abusive ; en général, on ne s'intéresse pas aux décès des individus. En général, on s'intéresse au délai jusqu'à survenu d'un évènement. Mais comme le délai de survie est effectivement le délai jusqu'à survenue d'un évènement, et un évènement très important puisqu'il s'agit de la mort des individus, alors de façon métaphorique, de façon emblématique, on va parler de données de survie alors qu'il ne s'agit que d'un délai jusqu'à survenue d'un évènement et l'évènement en général n'est pas la mort. Deuxième point, les censures. Nous avons vu ce que c'était, mais sur un plan méthodologique, il est important de différencier deux types de censures. Le premier correspond aux "exclus vivants", on devait suivre les patients pendant un an, on les a suivi un an et au bout de un an, certains sont vivants, on parle d'exclus vivants. C'est très différent d'un autre cas de censure qui correspondent aux "perdus de vue". On devait suivre les patients un an, et puis au bout de trois mois, un patient déménage. Le patient est perdu de vue. Mais il n'a pas été suivi un an. Ces deux types de censures sont différents car il est tout à fait possible que des perdus de vueaient des biais qui soient différents des exclus vivants. En effet, le fait qu'un patient déménage peut être possiblement lié au fait qu'il se trouve en bonne santé ou au contraire en mauvaise santé. Ce qui sera différent des exclus vivants. De là la nécessité de bien différentier les deux types de censure. Alors un élément statistique important à propos de données de censurés, c'est la fonction de survie. Là aussi, on parle de survie, mais c'est abusif. La fonction de survie, c'est le pourcentage de sujets "survivants" au cours du temps. Ou le pourcentage de sujets qui n'ont pas encore obtenu l'évènement au cours du temps. C'est une fonction forcément décroissante, qui part de 100% et qui finit à 0%, si tout le monde décède un jour. Enfin, une autre fonction importante, c'est le risque instantané de décès. Elle est plus mathématique et un petit plus difficile à percevoir de façon intuitive. Avec ce type de données, il serait intéressant de pouvoir décrire au fil du temps l'évolution de la probabilité de décéder à un instant donné. Malheureusement, la probabilité de décéder à un instant donné, ça n'existe pas, c'est zéro. En effet, la probabilité de mourir un jour donné, c'est un nombre tout petit, mais la probabilité de mourir une minute donnée, c'est un nombre qui est quasiment microscopique qu'il n'a pas de sens. On ne peut donc pas représenter la fonction la probabilité de mourir à un instant donné. Mais les mathématiciens, par le biais de calculs de fonctions dérivés, ont quand même réussi à trouver des fonctions, la fonction qui s'appelle petit h de t (h(t)),qui permet d'avoir une idée de ce que c'est cette probabilité ponctuelle, on appelle ça le "risque instantané de décès". Alors maintenant, entrons dans le vif du sujet et voyons comment représenter graphiquement la fonction de survie. On va prendre un exemple réel, très ancien, qui porte sur l'essai qui a étudié le premier médicament véritablement efficace dans la leucémie. Nous avons ici le bras contrôle, qui utilisait le médicament en usage à l'époque, les corticoïdes, qui marchent quelques semaines mais il y a très vite un échappement thérapeutique et tout le monde est mort au bout de 15 à 20 semaines. Alors là comment représenter la fonction de survie, malheureusement c'est très simple : comme on a suivi tous les sujets jusqu'à leurs décès, on peut calculer au fil du temps le pourcentage de sujets survivants et ça donne le graphique ci-contre. Avec le bras du traitement actif, à la fin de l'essai, à la fin du suivi des patients, on a plus de 40% des sujets qui sont encore vivants. Et là se pose la question de comment représenter la fonction de survie. En effet, au fur et à mesure que le temps passe, non seulement le numérateur change, le nombre de sujets survivants, mais aussi le dénominateur, le nombre de sujets encore vivants qui continuent à être observés. Et c'est un tout petit peu délicat de calculer de façon non biaisée, avec un jeu de données comme ça, le pourcentage de survivants, c'est-à-dire la fonction de survie. Les statisticiens se sont penchés là-dessus et on dispose d'une méthode connue sous le nom de méthode de Kaplan-Meier. Alors bien-sûr, nous allons voir très vite comment représenter graphiquement une fonction de survie à l'aide de la méthode de Kaplan-Meier, et tout cas en utilisant R. Mais d'abord, il faut changer de jeu de données, parce que l'étude "santé mentale en prison" étant une étude transversale, nous n'avons pas de suivi de patients. Nous n'avons donc pas de durée jusqu'à survenue d'un évènement, pas de données censurées. Le fichier que je vous propose maintenant s'appelle "alcool"; nous allons l'appeler alc, qui concernent 125 patients alcooliques qui ont été hospitalisés et sevrés. Ces patients ont été suivis et nous avons là cinq variables : • un, le délai d'observation, t, • deux, le fait que les patients sont toujours sevrés oui ou non à la fin de l'étude : 1, ils ont rechuté ; 0, ils sont toujours sevrés, • trois, l'âge, enfin • le sexe: 2 pour les femmes, 1 pour les hommes; et puis, • évènement de vie négatif : est-ce qu'il y a eu pendant le suivi des évènements de vie négatifs, oui ou non : oui pour 1 et non pour 0. Avec ce nouveau jeu de données, la variable censurée que nous étudions correspond au délai jusqu'à la rechute de la maladie alcoolique. Pour tracer la fonction de survie de cette variable censurée, il faut d'abord appeler la librairie "survival" qui contient l'ensemble des fonctions adaptées aux données censurées. Bien-sûr, il faut installer le package correspondant auparavant. library(survival) Ensuite, il faut utiliser trois fonctions successivement, la fonction plot() de la fonction survfit() de la fonction Surv() avec un S majuscule. Dans cette fonction Surv(), la syntaxe est la suivante : on met d'abord le "délai de suivi", puis la variable "Survenue de l'évènement", ici sevrage, enfin perte du sevrage, puis tilde un. plot(survfit(Surv(alc$t,alc$SEVRE)~1),main="Courbe de maintien dans l'abstinence") Nous obtenons en trait plein la fonction de survie, en trait pointillé l'intervalle de confiance à 95% de la fonction de survie, et puis nous avons des petits tirets verticaux qui correspondent à chacune des observations censurées. En modifiant très légèrement la syntaxe précédente, on peut représenter graphiquement sur le même schéma plusieurs courbes de survie correspondant à la survie de différents groupes de sujets. Par exemple, si on veut représenter sur le même schéma le temps jusqu'à la rechute de la maladie alcoolique chez les hommes et chez les femmes, alors on reprend notre syntaxe précédente, et on change tilde un par tilde SEXE. Et nous rajoutons une fonction de couleur, col=black et red, pour bien spécifier les couleurs des hommes et des femmes. plot(survfit(Surv(t,SEVRE)~SEXE, data=alc),col=c("black","red"),main="Courbe de maintien dans l'abstinence") Il existe des statistiques agrégées qui sont spécifiques des données censurées. La plus fameuse d'entre elles est sûrement la "médiane de survie". La médiane de survie, c'est le moment où 50% des sujets sont vivants et 50% des sujets sont décédés. Bien-sûr, je parle là de décès et de survie, mais c'est métaphorique, on devrait parler systématiquement de délai jusqu'à survenue d'un évènement. Alors, venons à notre exemple. La fonction à utiliser est en fait assez simple : il suffit d'utiliser les instructions précédentes en enlevant la fonction plot() qui avait devant. On retrouve doncsurvfit() de Surv() avec un S majuscule, après la variable délai de suivi, la variableévènement, pour nous c'est le sevrage, enfin plutôt, la rechute alcoolique, tilde un. survfit(Surv(alc$t,alc$SEVRE)~1) Et là la médiane de survie, malheureusement, heureusement pour les patients, la médiane de survie n'est pas obtenue, il y a NA qui correspond à une donnée manquante. Pourquoi ? Tout simplement parce qu'à la fin de l'étude, à la fin du délai de suivi, eh bien plus de 50% des patients sont toujours sevrés. Donc on ne peut pas estimer la médiane de survie. Beaucoup de nouveautés dans ce chapitre. D'abord un nouveau jeu de données. Une nouvelle librairie de fonctions. Avec des instructions quand même un peu compliquées. Pour représenter une courbe de Kaplan-Meier, pour calculer une médiane de survie. Je vous engage vivement à refaire tout ça par vous-même. Bon courage. alc <-read.csv2("D:/MOOC/Data/alcool.csv") library(survival)plot(survfit(Surv(alc$t,alc$SEVRE)~1),main="Courbe de maintien dans l'abstinence")plot(survfit(Surv(t,SEVRE)~SEXE,data=alc),col=c("black","red"),main="Courbe de maintien dans l'abstinence") survfit(Surv(alc$t,alc$SEVRE)~1)