Transcript for:
Régression Logistique (Partie 2)

Il s'agit du second cours sur la régression logistique. Nous allons maintenant inclure dans le modèle plusieurs variables explicatives. Alors maintenant venons en enfin à la question première de ce chapitre : est-ce qu'un haut risque suicidaire en prison est associé

  1. à la durée d'incarcération, 2) à des mesures disciplinaires
  2. à des antécédents d'abus dans l'enfance Pour ce faire, nous allons bien sûr utiliser une régression logistique, que l'on pourrait qualifier de multiple comme une régression linéaire multiple. La fonction correspondante est la fonction glm. La syntaxe est habituelle : la variable à expliquer tild les variables explicatives le nom du fichier instruction family="binomial", pour bien spécifier qu'il s'agit d'une régression logistique. On stocke tout ça dans un objet On fait summary de l'objet et on obtient des résultats similaires à tous ceux que nous avons eus dans les chapitres précédents. On peut regarder d'abord les p-value, les petits p. On observe et on constate qu'ils sont tous inférieurs à 5%, ce qui signifie que nos trois variables explicatives sont statistiquement associées à un haut risque suicidaire, et ce, tout chose égale par ailleurs, en tout cas "toute chose" : plus précisément, tout paramètre mesuré et inclus dans le modèle. Des antécédents d'abus dans l'enfance sont statistiquement associés à un haut risque suicidaire, et ce, à mesures disciplinaires éventuelles constantes, et à durée d'incarcération constante. De la même façon, la durée d'incarcération est statistiquement associée au risque suicidaire et ce, même compte tenu d'éventuelles mesures disciplinaires et d'un éventuel antécédent d'abus dans l'enfance. Alors ceci étant dit, regardons maintenant les coefficients dans la colonne "estimate". Ce qu'il faut d'abord toujours faire c'est regarder le signe des coefficients et interpréter ce signe en fonction du codage des variables explicatives. Ici, le codage est le suivant : 1 pour abus, 0 pour pas d'abus 1 pour mesures disciplinaires, 0 pour absence de mesures disciplinaires la variable durée est codée de 1 à 5, plus la variable est élevée, plus la durée d'incarcération est longue. Autrement dit, ces trois variables sont codées ainsi : plus elles sont élevées, plus le niveau d'exposition, le niveau du risque est élevé. Et donc, normalement, si ces trois variables sont des facteurs de risque, nous devrions avoir une augmentation du risque correspondant et donc des coefficients positifs. C'est bien le cas pour abus et mesure disciplinaire et c'est le contraire pour durée. En fait, contrairement à ce qu'on aurait pu penser, une durée d'incarcération élevée diminue la probabilité d'être à haut risque suicidaire. Alors ça c'était l'interprétation du signe du coefficient, très important. Maintenant, on peut aussi interpréter l'amplitude du coefficient et nous savons que les coefficients tels quels ne sont pas interprétables. Il faut prendre leur exponentielle à l'aide de l'instruction exp(coefficient). Nous obtenons les résultats ci-contre. Les variables abus et disciplinaire étant codées en 0/1, 1 pour le facteur de risque, nous pouvons interpréter directement les exponentielles des coefficients comme des odds ratios. Nous avons des résultats autour de 1.9, 1.7. Nous voyons donc que l'existence d'antécédent d'abus dans l'enfance multiplie quasiment par 2 le risque d'être à haut risque suicidaire en prison et ce indépendamment de l'existence de mesures disciplinaires et de la durée d'incarcération. Alors en ce qui concerne la durée d'incarcération, elle n'est pas codée en 0/1, elle n'est pas binaire. Comment interpréter le 0.7 disons, que l'on observe comme exponentielle du coefficient ? Eh bien, quand on passe d'un cran dans la durée d'incarcération, alors la durée d'incarcération ici est définie par 1: moins d'1 mois, 2 : 1 à 6 mois, 3 : 6 mois à 1 an, 4 : 1 à 5 ans, 5 : 5 ans ou plus et bien quand on passe d'un cran à un cran supérieur, le niveau de haut risque suicidaire diminue d'environ 30%, 30% étant le complément de l'odds ratio qu'on a ici, voisin de 0.7. Alors, il y a des choses qui ne changent quasiment pas par rapport à ce que nous avons vu lors du chapitre sur la régression linéaire multiple. Par exemple les variables catégorielles à plus de deux classes. Vous pouvez tout aussi bien les mettre de la même façon dans une régression logistique. Le logiciel va automatiquement les recoder en k-1 variables binaires. Vous aurez ainsi k-1 petits p et coefficients qui seront à interpréter par rapport à une modalité de référence. Si vous voulez avoir l'effet global de la variable catégorielle, vous utiliserez aussi l'instruction drop1 avec la même syntaxe, sauf que nous n'avons pas ici test="F" mais test="Chisq", c'est un piège classique. De la même façon aussi, vous pouvez essayer de trouver s'il y a une synergie entre des variables explicatives, c'est-à-dire de mettre un terme d'interaction. Par exemple, nous avons vu que la durée d'incarcération était un facteur de risque suicidaire. Nous avons vu que les mesures disciplinaires étaient un facteur de risque pour être à haut risque suicidaire. Imaginons qu'un détenu, en début d'incarcération, là où il est à risque, ait une mesure disciplinaire. On peut imaginer que les deux facteurs de risque génèrent un risque qui soit bien plus important que la somme de ces simples risques. Il y aurait une synergie entre les facteurs de risque. Alors il faudrait introduire un terme d'interaction, qui serait caractérisé, comme ce que nous avons vu au chapitre précédent, comme le produit des deux variables et nous interpréterions les résultats exactement de la même façon. Alors maintenant le passage obligé par les conditions de validité de la régression logistique. Eh bien, malheureusement, c'est encore plus compliqué que pour la régression linéaire. Pour faire simple, pour aller à l'essentiel et au plus important, on se souviendra qu'il faut au moins 5 à 10 évènements par variable explicative Alors ça veut dire quoi et le mieux c'est de regarder sur un exemple. Dans notre fichier santé mentale en prison, nous avons 799 détenus mais ce n'est pas vraiment ça qui est important. Ce qui est important c'est le nombre d'évènements et ça, ça a un rapport avec la variable à expliquer. Alors, pour y voir plus clair, changeons de variable à expliquer et prenons la variable à expliquer "le détenu présente une forme grave de schizophrénie". Il y a 54 détenus de cette sorte. Alors maintenant regardons les variables explicatives. Imaginons que nous mettons dans notre modèle âge, existence d'un trauma dans l'enfance, profession. On dirait qu'on a trois variables. En fait, vous vous souvenez que ce n'est pas le cas. Age et existence de traumatisme, ce sont bien deux variables. Mais la variable profession est une variable catégorielle à 8 classes donc en fait dans le modèle, elle est recodée en 7 variables binaires donc au total nous avons comme nombre de variables explicatives 1 + 1 + 7 = 9 variables explicatives. Et la règle c'est : il faut entre 5 et 10 évènements par variable explicative. Alors prenons l'option la plus dure, 10 évènements par variable explicative, il faudrait alors (1 + 1 + 7) × 10 = 90 détenus au minimum pour la variable à expliquer or nous n'en avons que 54. Donc en prenant cette version la plus draconienne de règle de condition de validité de la régression logistique, ça passe pas. En prenant la règle la plus souple, 5 évènements par variable explicative, alors à ce moment-là, il faudrait (1 + 1 + 7) × 5 = 45 détenus relativement à la variable à expliquer. 45 détenus, on en a 54. Ca passe tout juste. Donc au total, si on voulait expliquer l'existence d'une schizophrénie sévère par les variables age, traumatisme et profession, et bien nous serions à la limite des conditions de la validité. Peu de nouvelles commandes pour ce dernier cours sur la régression logistique mais tapez les quand-même sur votre ordinateur, vous allez voir, ça aide pour mieux comprendre les choses.