Il s'agit du second cours sur la régression
logistique. Nous allons maintenant inclure dans le modèle
plusieurs variables explicatives. Alors maintenant venons en enfin à la question
première de ce chapitre : est-ce qu'un haut risque suicidaire en prison est associé
- à la durée d'incarcération, 2) à des mesures disciplinaires
- à des antécédents d'abus dans l'enfance Pour ce faire, nous allons bien sûr utiliser
une régression logistique, que l'on pourrait qualifier de multiple comme une régression
linéaire multiple. La fonction correspondante est la fonction
glm. La syntaxe est habituelle :
la variable à expliquer tild
les variables explicatives le nom du fichier
instruction family="binomial", pour bien spécifier qu'il s'agit d'une régression logistique. On stocke tout ça dans un objet
On fait summary de l'objet et on obtient des résultats similaires à tous ceux que nous
avons eus dans les chapitres précédents. On peut regarder d'abord les p-value, les
petits p. On observe et on constate qu'ils sont tous inférieurs à 5%, ce qui signifie
que nos trois variables explicatives sont statistiquement associées à un haut risque
suicidaire, et ce, tout chose égale par ailleurs, en tout cas "toute chose" : plus précisément,
tout paramètre mesuré et inclus dans le modèle. Des antécédents d'abus dans l'enfance sont
statistiquement associés à un haut risque suicidaire, et ce, à mesures disciplinaires
éventuelles constantes, et à durée d'incarcération constante. De la même façon, la durée d'incarcération
est statistiquement associée au risque suicidaire et ce, même compte tenu d'éventuelles mesures
disciplinaires et d'un éventuel antécédent d'abus dans l'enfance. Alors ceci étant dit, regardons maintenant
les coefficients dans la colonne "estimate". Ce qu'il faut d'abord toujours faire c'est
regarder le signe des coefficients et interpréter ce signe en fonction du codage des variables
explicatives. Ici, le codage est le suivant :
1 pour abus, 0 pour pas d'abus 1 pour mesures disciplinaires, 0 pour absence
de mesures disciplinaires la variable durée est codée de 1 à 5, plus
la variable est élevée, plus la durée d'incarcération est longue. Autrement dit, ces trois variables sont codées
ainsi : plus elles sont élevées, plus le niveau d'exposition, le niveau du risque est
élevé. Et donc, normalement, si ces trois variables
sont des facteurs de risque, nous devrions avoir une augmentation du risque correspondant
et donc des coefficients positifs. C'est bien le cas pour abus et mesure disciplinaire
et c'est le contraire pour durée. En fait, contrairement à ce qu'on aurait
pu penser, une durée d'incarcération élevée diminue la probabilité d'être à haut risque
suicidaire. Alors ça c'était l'interprétation du signe
du coefficient, très important. Maintenant, on peut aussi interpréter l'amplitude
du coefficient et nous savons que les coefficients tels quels ne sont pas interprétables. Il faut prendre leur exponentielle à l'aide
de l'instruction exp(coefficient). Nous obtenons les résultats ci-contre. Les variables abus et disciplinaire étant
codées en 0/1, 1 pour le facteur de risque, nous pouvons interpréter directement les
exponentielles des coefficients comme des odds ratios. Nous avons des résultats autour de 1.9, 1.7. Nous voyons donc que l'existence d'antécédent
d'abus dans l'enfance multiplie quasiment par 2 le risque d'être à haut risque suicidaire
en prison et ce indépendamment de l'existence de mesures disciplinaires et de la durée
d'incarcération. Alors en ce qui concerne la durée d'incarcération,
elle n'est pas codée en 0/1, elle n'est pas binaire. Comment interpréter le 0.7 disons, que l'on
observe comme exponentielle du coefficient ? Eh bien, quand on passe d'un cran dans la
durée d'incarcération, alors la durée d'incarcération ici est définie par 1: moins d'1 mois, 2
: 1 à 6 mois, 3 : 6 mois à 1 an, 4 : 1 à 5 ans, 5 : 5 ans ou plus et bien quand on
passe d'un cran à un cran supérieur, le niveau de haut risque suicidaire diminue d'environ
30%, 30% étant le complément de l'odds ratio qu'on a ici, voisin de 0.7. Alors, il y a des choses qui ne changent quasiment
pas par rapport à ce que nous avons vu lors du chapitre sur la régression linéaire multiple. Par exemple les variables catégorielles à
plus de deux classes. Vous pouvez tout aussi bien les mettre de
la même façon dans une régression logistique. Le logiciel va automatiquement les recoder
en k-1 variables binaires. Vous aurez ainsi k-1 petits p et coefficients
qui seront à interpréter par rapport à une modalité de référence. Si vous voulez avoir l'effet global de la
variable catégorielle, vous utiliserez aussi l'instruction drop1 avec la même syntaxe,
sauf que nous n'avons pas ici test="F" mais test="Chisq", c'est un piège classique. De la même façon aussi, vous pouvez essayer
de trouver s'il y a une synergie entre des variables explicatives, c'est-à-dire de mettre
un terme d'interaction. Par exemple, nous avons vu que la durée d'incarcération
était un facteur de risque suicidaire. Nous avons vu que les mesures disciplinaires
étaient un facteur de risque pour être à haut risque suicidaire. Imaginons qu'un détenu, en début d'incarcération,
là où il est à risque, ait une mesure disciplinaire. On peut imaginer que les deux facteurs de
risque génèrent un risque qui soit bien plus important que la somme de ces simples
risques. Il y aurait une synergie entre les facteurs
de risque. Alors il faudrait introduire un terme d'interaction,
qui serait caractérisé, comme ce que nous avons vu au chapitre précédent, comme le
produit des deux variables et nous interpréterions les résultats exactement de la même façon. Alors maintenant le passage obligé par les
conditions de validité de la régression logistique. Eh bien, malheureusement, c'est encore plus
compliqué que pour la régression linéaire. Pour faire simple, pour aller à l'essentiel
et au plus important, on se souviendra qu'il faut au moins 5 à 10 évènements par variable
explicative Alors ça veut dire quoi et le mieux c'est
de regarder sur un exemple. Dans notre fichier santé mentale en prison,
nous avons 799 détenus mais ce n'est pas vraiment ça qui est important. Ce qui est important c'est le nombre d'évènements
et ça, ça a un rapport avec la variable à expliquer. Alors, pour y voir plus clair, changeons de
variable à expliquer et prenons la variable à expliquer "le détenu présente une forme
grave de schizophrénie". Il y a 54 détenus de cette sorte. Alors maintenant regardons les variables explicatives. Imaginons que nous mettons dans notre modèle
âge, existence d'un trauma dans l'enfance, profession. On dirait qu'on a trois variables. En fait, vous vous souvenez que ce n'est pas
le cas. Age et existence de traumatisme, ce sont bien
deux variables. Mais la variable profession est une variable
catégorielle à 8 classes donc en fait dans le modèle, elle est recodée en 7 variables
binaires donc au total nous avons comme nombre de variables explicatives 1 + 1 + 7 = 9 variables
explicatives. Et la règle c'est : il faut entre 5 et 10
évènements par variable explicative. Alors prenons l'option la plus dure, 10 évènements
par variable explicative, il faudrait alors (1 + 1 + 7) × 10 = 90 détenus au minimum
pour la variable à expliquer or nous n'en avons que 54. Donc en prenant cette version la plus draconienne
de règle de condition de validité de la régression logistique, ça passe pas. En prenant la règle la plus souple, 5 évènements
par variable explicative, alors à ce moment-là, il faudrait (1 + 1 + 7) × 5 = 45 détenus
relativement à la variable à expliquer. 45 détenus, on en a 54. Ca passe tout juste. Donc au total, si on voulait expliquer l'existence
d'une schizophrénie sévère par les variables age, traumatisme et profession, et bien nous
serions à la limite des conditions de la validité. Peu de nouvelles commandes pour ce dernier
cours sur la régression logistique mais tapez les quand-même sur votre ordinateur, vous
allez voir, ça aide pour mieux comprendre les choses.