Il s'agit maintenant de se lancer dans la pratique des tests statistiques. Et nous allons commencer par l'attaque de la comparaison de deux pourcentages. Le test de comparaison de deux pourcentages est bien connu parce qu'il porte un nom curieux qui se perd dans l'histoire des statistiques. Il s'agit du test du « chi-2 ». Avant d'utiliser un test statistique il faut toujours avoir en tête ses conditions de validité. En ce qui concerne le test du chi-2, il fonctionne si l'effectif sur lequel vous travaillez n'est pas trop petit (c'est-à-dire plus que quelques dizaines) et si les pourcentages ne sont pas trop proches de 0 ni de 100%. Alors ces conditions peuvent sembler un peu vague, heureusement, R vérifie automatiquement ces conditions de validité et il vous signale s'il y a une difficulté potentielle, auquel cas il existe un test de substitution que l'on appelle le test exact de Fisher. Dans un cours précédent, nous avons créé la variable ed.d qui correspond à l'existence d'un haut niveau d'évitement du danger chez les détenus. Nous allons essayer de tester dans ce cours si la prévalence de la dépression est plus élevée chez les détenus qui ont un haut niveau d'évitement du danger que chez les détenus qui ont un bas niveau d'évitement du danger. Commençons par quelques statistiques descriptives. Notamment dans le but de croiser nos deux variables binaires d'intérêt : existence d'un haut niveau d'évitement du danger -- existence d'un diagnostic de dépression. Pour cela nous allons utiliser la fonction table, avec, c'est préférable, l'option deparse.level=2, dans le but de renseigner le nom des deux variables et l'instruction useNA=''always'' dans le but de déterminer le nombre de détenus ayant des données manquantes, soit pour la variable évitement du danger, soit pour la variable dépression. On obtient les résultats suivants, avec par exemple, 126 détenus ayant à la fois un haut niveau d'évitement du danger et un diagnostic de dépression. Ces effectifs sont intéressants mais comme on compare des pourcentages, on aimerait avoir des pourcentages plutôt que des effectifs. On peut obtenir cela à partir de la fonction prop.table. Dans un premier temps, nous stockons les résultats issus de la fonction table dans un objet que l'on appelle tab. Au passage on remarque que nous annulons ici l'option useNA=''always'' dans le but d'avoir des pourcentages de déprimés parmi les détenus ayant un haut niveau ou un bas niveau d'évitement du danger. On oublie l'option useNA=''always''. Utilisons donc la fonction prop.table. Nous l'appliquons à l'objet tab que nous venons de calculer. Le nombre 1 signifie que nous souhaitons estimer le pourcentage de dépression selon que les détenus ont ou n'ont pas un haut niveau d'évitement du danger. Si nous avions utilisé le nombre 2 à la place du nombre 1, nous aurions le pourcentage contraire, c'est-à-dire le pourcentage des détenus ayant un haut niveau d'évitement du danger selon que ces détenus sont ou ne sont pas déprimés. Nous allons faire ce calcul dans quelques secondes mais d'abord regardons les résultats. Nous avons 28,7% de dépression chez les détenus ayant un bas niveau d'évitement du danger. Alors que ce nombre est quasiment le double (56,7%) chez les détenus ayant un haut niveau d'évitement du danger. Nous passons donc de 28% de pourcentage de dépression à 56% de pourcentage de dépression. Certes, il est toujours utile de calculer un petit p pour objectiver le fait que le hasard puisse expliquer à lui tout seul une différence au moins aussi importante. Mais a priori, le petit p dans une telle situation sera très petit. Alors, avant de faire ce calcul, comme promis, estimons le pourcentage d'évitement du danger selon que les détenus sont ou ne sont pas déprimés. Nous avons ici 48% de détenus ayant un haut niveau d'évitement du danger chez les détenus déprimés alors que ce pourcentage tombe à 22% chez les détenus n'étant pas déprimés. Il est grand temps maintenant de faire notre test du chi-deux. Pour cela nous allons utiliser la fonction R chisq.test. Nous l'appliquons d'une part à la variable existence oui ou non d'un haut niveau d'évitement du danger (ed.b) puis à la variable existence oui ou non d'une dépression (dep.cons). Il faut surtout ne pas oublier l'instruction correct=FALSE, sinon R propose un test du chi-2 avec correction de continuité. C'est un test plus robuste mais nettement moins puissant. Le résultat est ici, avec un petit p égal à 10 puissance -12. Le petit p est comme prévu très largement inférieur à 5%. On peut donc affirmer avec un haut niveau de certitude, que le hasard à lui tout seul ne pourrait pas expliquer une telle différence de prévalence de dépression. Nous sommes dans une situation où la taille de l'échantillon est substantielle (plusieurs centaines de sujets) et où les pourcentages comparés ne sont ni proches de 0 ni proches de 100%. Les conditions de validité du chi-2 sont donc parfaitement respectées. Si tel n'avait pas été le cas, R nous aurait prévenus à l'aide du message ci-contre. Dans une telle situation où on ne peut pas utiliser le test du chi-2, il existe une alternative qui correspond au test dit exact de Fisher. La fonction R correspondante est la fonction fisher.test avec une syntaxe très proche de la syntaxe du test du chi-2. Nous obtenons ici un petit p qui vaut 2 * 10 puissance -12, voisin du petit p que nous avions pour le test du chi-2 et ici aussi très largement significatif. Et voici pour conclure, un récapitulatif des différentes instructions R que nous avons utilisé pendant ce cours.