Nous voilà maintenant arrivés à l'étude
des données censurées, parmi lesquelles la survie est un exemple classique. Dans un
premier temps, nous allons nous focaliser sur le vocabulaire utilisé dans ce domaine
et par les approches statistiques descriptives qui lui sont propres.
Il n'est pas rare que des mesures effectuées dans des études correspondent à des durées.
Ce sera par exemple le cas si vous prenez un groupe de sujets au chômage, que vous
suivez pendant un an, et vous mesurez le temps jusqu'à recouvrement du travail. Ce sera
aussi le cas si vous prenez un groupe de sujet ayant eu un infarctus du myocarde, que vous
les suivez jusqu'à l'obtention d'une récidive ou du décès.
Ces durées ont comme particularités qu'elles sont potentiellement censurées. Ça veut
quoi en statistique censuré, là aussi un exemple va aider : si vous prenons ce groupe
de sujets au chômage, nous le suivons un an, par exemple, certains sujets vont avoir
retrouver du travail au bout de deux mois, quatre mois, six mois : pour ces sujets, on
a exactement la durée de recouvrement du travail. Par contre, d'autres, à un an, n'auront
pas retrouvé du travail. Donc le temps jusqu'à recouvrement du travail, on ne le connaîtra
pas, par manque de suivi ; mais on saura tout de même qu'il est supérieur à un an. Dans
ce cas là, quand on a une connaissance que partielle de la variable mesurée, on dit
que la variable est censurée. Les statisticiens ont développé de nombreuses
méthodes spécifiquement adaptées à l'analyse des données censurées, et c'est ce que nous
allons voir dans le chapitre et le chapitre suivant.
Alors, certains pourraient dire, on pourrait s'en tirer en changeant la variable à étudier.
Plutôt que d'étudier "Durée jusqu'à survenue de l'évènement", on pourrait étudier la
variable "Pourcentage de survenue de l'évènement". Ainsi plutôt que d'étudier le "Temps jusqu'à
recouvrement du travail", on pourrait étudier la variable "Pourcentage de chômeurs ayant
retrouvé du travail en un an". Seulement, quand vous faites une étude, vous
n'êtes jamais sûr de pouvoir suivre les sujets pendant un an. D'abord parce que l'inclusion
peut durer longtemps, vous n'avez plus le temps d'attendre un an une fois que le dernier
sujet a été inclus ; et puis par ailleurs, les sujets peuvent déménager, et à ce moment-là,
ils sont perdus de vue. Si vous étudiez le pourcentage de survenue de l'évènement à
un an, tous ces sujets, vous êtes obligés de les abandonner, ça peut être induire
des biais ou une perte de puissance. Dans le domaine des données de survie, il
y a un vocabulaire très spécifique qu'il faut connaître.
Premier élément de langage, la notion même de survie. Elle est largement abusive ; en
général, on ne s'intéresse pas aux décès des individus. En général, on s'intéresse
au délai jusqu'à survenu d'un évènement. Mais comme le délai de survie est effectivement
le délai jusqu'à survenue d'un évènement, et un évènement très important puisqu'il
s'agit de la mort des individus, alors de façon métaphorique, de façon emblématique,
on va parler de données de survie alors qu'il ne s'agit que d'un délai jusqu'à survenue
d'un évènement et l'évènement en général n'est pas la mort.
Deuxième point, les censures. Nous avons vu ce que c'était, mais sur un plan méthodologique,
il est important de différencier deux types de censures. Le premier correspond aux "exclus
vivants", on devait suivre les patients pendant un an, on les a suivi un an et au bout de
un an, certains sont vivants, on parle d'exclus vivants. C'est très différent d'un autre
cas de censure qui correspondent aux "perdus de vue".
On devait suivre les patients un an, et puis au bout de trois mois, un patient déménage.
Le patient est perdu de vue. Mais il n'a pas été suivi un an.
Ces deux types de censures sont différents car il est tout à fait possible que des perdus
de vueaient des biais qui soient différents des exclus vivants. En effet, le fait qu'un
patient déménage peut être possiblement lié au fait qu'il se trouve en bonne santé
ou au contraire en mauvaise santé. Ce qui sera différent des exclus vivants. De là
la nécessité de bien différentier les deux types de censure.
Alors un élément statistique important à propos de données de censurés,
c'est la fonction de survie. Là aussi, on parle de survie, mais c'est abusif. La fonction
de survie, c'est le pourcentage de sujets "survivants" au cours du temps. Ou le pourcentage
de sujets qui n'ont pas encore obtenu l'évènement au cours du temps. C'est une fonction forcément
décroissante, qui part de 100% et qui finit à 0%, si tout le monde décède un jour.
Enfin, une autre fonction importante, c'est le risque instantané de décès. Elle
est plus mathématique et un petit plus difficile à percevoir de façon intuitive.
Avec ce type de données, il serait intéressant de pouvoir décrire au fil du temps l'évolution
de la probabilité de décéder à un instant donné. Malheureusement, la probabilité de
décéder à un instant donné, ça n'existe pas, c'est zéro. En effet, la probabilité
de mourir un jour donné, c'est un nombre tout petit, mais la probabilité de mourir
une minute donnée, c'est un nombre qui est quasiment microscopique qu'il n'a pas de sens.
On ne peut donc pas représenter la fonction la probabilité de mourir à un instant donné.
Mais les mathématiciens, par le biais de calculs de fonctions dérivés, ont quand
même réussi à trouver des fonctions, la fonction qui s'appelle petit h de t (h(t)),qui
permet d'avoir une idée de ce que c'est cette probabilité ponctuelle, on appelle ça le
"risque instantané de décès". Alors maintenant, entrons dans le vif du sujet
et voyons comment représenter graphiquement la fonction de survie. On va prendre un exemple
réel, très ancien, qui porte sur l'essai qui a étudié le premier médicament véritablement
efficace dans la leucémie. Nous avons ici le bras contrôle, qui utilisait le médicament
en usage à l'époque, les corticoïdes, qui marchent quelques semaines mais il y a très
vite un échappement thérapeutique et tout le monde est mort au bout de 15 à 20 semaines.
Alors là comment représenter la fonction de survie, malheureusement c'est très simple
: comme on a suivi tous les sujets jusqu'à leurs décès, on peut calculer au fil du
temps le pourcentage de sujets survivants et ça donne le graphique ci-contre.
Avec le bras du traitement actif, à la fin de l'essai, à la fin du suivi des
patients, on a plus de 40% des sujets qui sont encore vivants. Et là se pose la question
de comment représenter la fonction de survie. En effet, au fur et à mesure que le temps
passe, non seulement le numérateur change, le nombre
de sujets survivants, mais aussi le dénominateur, le nombre de sujets encore vivants qui continuent
à être observés. Et c'est un tout petit peu délicat de calculer de façon non biaisée,
avec un jeu de données comme ça, le pourcentage de survivants, c'est-à-dire la fonction de
survie. Les statisticiens se sont penchés là-dessus
et on dispose d'une méthode connue sous le nom de méthode de Kaplan-Meier.
Alors bien-sûr, nous allons voir très vite comment représenter graphiquement une fonction
de survie à l'aide de la méthode de Kaplan-Meier, et tout cas en utilisant R.
Mais d'abord, il faut changer de jeu de données, parce que l'étude "santé mentale en prison"
étant une étude transversale, nous n'avons pas de suivi de patients. Nous n'avons donc
pas de durée jusqu'à survenue d'un évènement, pas de données censurées. Le fichier que
je vous propose maintenant s'appelle "alcool"; nous allons l'appeler alc,
qui concernent 125 patients alcooliques qui ont été hospitalisés et sevrés. Ces patients
ont été suivis et nous avons là cinq variables :
• un, le délai d'observation, t, • deux, le fait que les patients sont toujours
sevrés oui ou non à la fin de l'étude : 1, ils ont rechuté ; 0, ils sont toujours sevrés,
• trois, l'âge, enfin • le sexe: 2 pour les femmes, 1 pour les
hommes; et puis, • évènement de vie négatif : est-ce qu'il
y a eu pendant le suivi des évènements de vie négatifs, oui ou non : oui pour 1 et
non pour 0. Avec ce nouveau jeu de données, la variable
censurée que nous étudions correspond au délai jusqu'à la rechute de la maladie alcoolique.
Pour tracer la fonction de survie de cette variable censurée, il faut d'abord appeler
la librairie "survival" qui contient l'ensemble des fonctions adaptées aux données censurées.
Bien-sûr, il faut installer le package correspondant auparavant.
library(survival) Ensuite, il faut utiliser trois fonctions
successivement, la fonction plot() de la fonction survfit()
de la fonction Surv() avec un S majuscule. Dans cette fonction Surv(), la syntaxe est
la suivante : on met d'abord le "délai de suivi", puis
la variable "Survenue de l'évènement", ici
sevrage, enfin perte du sevrage, puis tilde un.
plot(survfit(Surv(alc$t,alc$SEVRE)~1),main="Courbe de maintien dans l'abstinence")
Nous obtenons en trait plein la fonction de survie, en trait pointillé l'intervalle de
confiance à 95% de la fonction de survie, et puis nous avons des petits tirets verticaux
qui correspondent à chacune des observations censurées.
En modifiant très légèrement la syntaxe précédente, on peut représenter graphiquement
sur le même schéma plusieurs courbes de survie correspondant à la survie de différents
groupes de sujets. Par exemple, si on veut représenter sur le même schéma le temps
jusqu'à la rechute de la maladie alcoolique chez les hommes et chez les femmes, alors
on reprend notre syntaxe précédente, et on change tilde un par tilde SEXE. Et nous
rajoutons une fonction de couleur, col=black et red, pour bien spécifier les couleurs
des hommes et des femmes. plot(survfit(Surv(t,SEVRE)~SEXE, data=alc),col=c("black","red"),main="Courbe
de maintien dans l'abstinence") Il existe des statistiques agrégées qui
sont spécifiques des données censurées. La plus fameuse d'entre elles est sûrement
la "médiane de survie". La médiane de survie, c'est le moment où 50% des sujets sont vivants
et 50% des sujets sont décédés. Bien-sûr, je parle là de décès et de survie, mais
c'est métaphorique, on devrait parler systématiquement de délai jusqu'à survenue d'un évènement.
Alors, venons à notre exemple. La fonction à utiliser est en fait assez simple : il
suffit d'utiliser les instructions précédentes en enlevant la fonction plot() qui avait devant.
On retrouve doncsurvfit() de Surv() avec un S majuscule, après la variable délai de
suivi, la variableévènement, pour nous c'est le sevrage, enfin plutôt, la rechute alcoolique,
tilde un. survfit(Surv(alc$t,alc$SEVRE)~1)
Et là la médiane de survie, malheureusement, heureusement pour les patients, la médiane
de survie n'est pas obtenue, il y a NA qui correspond à une donnée manquante. Pourquoi
? Tout simplement parce qu'à la fin de l'étude, à la fin du délai de suivi, eh bien plus
de 50% des patients sont toujours sevrés. Donc on ne peut pas estimer la médiane de
survie. Beaucoup de nouveautés dans ce chapitre.
D'abord un nouveau jeu de données. Une nouvelle librairie de fonctions. Avec des instructions
quand même un peu compliquées. Pour représenter une courbe de Kaplan-Meier, pour calculer
une médiane de survie. Je vous engage vivement à refaire tout ça par vous-même. Bon courage.
alc <-read.csv2("D:/MOOC/Data/alcool.csv") library(survival)plot(survfit(Surv(alc$t,alc$SEVRE)~1),main="Courbe
de maintien dans l'abstinence")plot(survfit(Surv(t,SEVRE)~SEXE,data=alc),col=c("black","red"),main="Courbe de maintien dans l'abstinence") survfit(Surv(alc$t,alc$SEVRE)~1)