Dans ce second chapitre sur la régression
linéaire, nous allons voir que cette méthode comporte comme cas particulier le test de
nullité d'un coefficient de corrélation ainsi que le test t.
Dans les chapitres précédents, nous avons estimé un modèle de régression linéaire
simple qui associait la durée de l'interview avec l'âge du détenu. Nous avons calculé
a, nous avons calculé b, b vaut 0,12 c'est-à-dire que b est pas loin de 0. Nous avons testé
est-ce que b est statistiquement différent de 0. Le petit p vaut 1,9%, il est plus petit
que 5% donc on peut dire oui au risque de 5%, b est statistiquement différent de 0.
Ceci étant dit, comment interpréter le fait que b est statistiquement différent de 0
? L'interprétation naturelle qui vient de l'équation de régression c'est que quand
l'âge du détenu augmente, la durée de l'entretien réalisé avec les cliniciens augmente aussi
un peu. Si on avait calculé une corrélation entre durée de l'entretien et âge du détenu,
si cette corrélation avait été positive et statistiquement différente de 0, on aurait
conclu exactement à la même chose. On a deux tests statistiques qui testent la
même hypothèse exactement. On espère que les résultats, c'est-à-dire les petits p,
vont être voisins dans les deux situations. On va le vérifier et tester la nullité de
la corrélation entre durée de l'interview et l'âge du détenu.
On utilise pour ça la fonction cor.test et on observe un petit p qui vaut 1.91% et
qui est exactement égal au petit p du test « est-ce que b est différent de 0 » ? La
conclusion du test est exactement la même et on peut même aller au-delà.
Nous avons une corrélation entre durée de l'interview et âge qui vaut 0.085, le paramètre
b vaut 0.12, il existe une équation mathématique qui relie les deux. La corrélation est égale à b, que multiplie
l'écart-type de l'âge, que divise l'écart-type de la durée de l'entretien. A ce stade on
peut se demander, puisque entre test de nullité de la corrélation, test de b égal à 0,
on a exactement le même petit p et on peut déduire la corrélation du b et réciproquement,
à quoi ça sert de faire une régression linéaire simple ?
Premier argument, on a le paramètre b directement et b a une interprétation concrète : par
rapport à un groupe de détenus qui a un âge donné, si on prend un groupe de détenus
qui a un an de plus, la durée de l'entretien augmente de 0,12 minutes et on pourrait dire
de la même façon : par rapport à un groupe de détenus qui a un âge donné, si on prend
un groupe de détenus qui a dix ans de plus, l'augmentation de la durée de l'entretien,
c'est 10 fois b, c'est-à-dire 1,2 minutes, c'est-à-dire vraiment pas grand-chose. Ca
c'est en faveur de la régression linéaire simple et nous allons voir maintenant que
la régression linéaire simple englobe plusieurs autres méthodes.
Intéressons-nous maintenant à un nouvel exemple qui va sûrement vous apparaître
un peu bizarre de prime abord mais vous allez voir, le résultat final est intéressant.
Nous gardons la même variable Y, durée de l'interview, et puis nous changeons de variable
X, avant nous avions une variable quantitative âge, maintenant nous allons avoir une variable
binaire dépression avec 0 = absence de dépression, 1 = présence de dépression.
La représentation graphique des points correspondants est présentée sur la diapositive ci-contre,
obtenue à partir des instructions plot et jitter comme d'habitude. Nous avons aussi
tracé une droite de régression à l'aide de la fonction abline et de la fonction lm.
Nous avons donc estimé le modèle de régression, la droite de régression durée = a + b * dépression,
dépression valant ici 0 et 1. Est-ce que les conditions de validité de la droite de
régression sont vérifiées ? Pour l'instant, je ne suis pas entré dans les questions de
conditions de validité de la régression linéaire, on verra ça tout à fait à la
fin du chapitre sur la question. Revenons à notre équation de régression
durée = a + b * dépression et on se demande à quoi correspond b. b traditionnellement
dans une droite de régression c'est quand la variable dépression augment d'un point,
alors la variable durée augmente de b points. C'est ça que nous avons vu dans l'exemple
précédent mais là quand la variable dépression augmente d'un point, alors nous passons d'absence
de dépression à présence de dépression donc la variation correspondante de durée,
c'est la variation de durée d'interview entre le groupe des détenus non déprimés et le
groupe des détenus déprimés. Alors on peut se demander : si b correspond
à la différence de durée d'interview entre les détenus déprimés et les détenus non
déprimés, si je teste b est différent de 0, normalement je devrais avoir exactement
le même résultat que si j'utilisais un test t qui comparait la moyenne de durée d'interview
entre les détenus déprimés et les détenus non déprimés.
Vérifions ça tout de suite à l'aide de R. Nous utilisons d'un côté la fonction
lm avec l'instruction classique durée de l'interview tild dépression et le fichier.
En bas nous avons utilisé le test t la fonction t.test, durée d'interview tild dépression.consensuelle.
Non seulement nous obtenons exactement le même petit p
mais qui plus est, nous voyons que en haut le coefficient b=7.61 alors qu'en bas nous
avons une différence moyenne de durée d'interview entre le groupe absence de dépression et
le groupe présence de dépression qui est 66 d'un côté, 59 de l'autre, la différence
fait exactement 7.61. On voit ici que faire le modèle de régression durée de l'interview
expliqué par dépression oui/non, donne un résultat exactement identique au résultat
que produit le test t de Student qui compare la moyenne de durée de l'interview entre
les déprimés et les non déprimés. Nous avions vu précédemment que la régression
linéaire était une généralisation du test de nullité d'un coefficient de corrélation.
Nous avons ici que la régression linéaire est une généralisation du test t de Student. Alors maintenant c'est à vous de tout retaper
à l'aide de R et surtout n'oubliez pas de vérifier la correspondance qu'il y a entre
le coefficient de corrélation et le paramètre b.