Il s'agit maintenant de se lancer dans la
pratique des tests statistiques. Et nous allons commencer par l'attaque de la comparaison
de deux pourcentages. Le test de comparaison de deux pourcentages
est bien connu parce qu'il porte un nom curieux qui se perd dans l'histoire des statistiques.
Il s'agit du test du « chi-2 ». Avant d'utiliser un test statistique il faut toujours avoir
en tête ses conditions de validité. En ce qui concerne le test du chi-2, il fonctionne
si l'effectif sur lequel vous travaillez n'est pas trop petit (c'est-à-dire plus que quelques
dizaines) et si les pourcentages ne sont pas trop proches de 0 ni de 100%. Alors ces conditions
peuvent sembler un peu vague, heureusement, R vérifie automatiquement ces conditions
de validité et il vous signale s'il y a une difficulté potentielle, auquel cas il existe
un test de substitution que l'on appelle le test exact de Fisher.
Dans un cours précédent, nous avons créé la variable ed.d qui correspond à l'existence
d'un haut niveau d'évitement du danger chez les détenus.
Nous allons essayer de tester dans ce cours si la prévalence de la dépression est plus
élevée chez les détenus qui ont un haut niveau d'évitement du danger que chez les
détenus qui ont un bas niveau d'évitement du danger.
Commençons par quelques statistiques descriptives. Notamment dans le but de croiser nos deux
variables binaires d'intérêt : existence d'un haut niveau d'évitement du danger -- existence
d'un diagnostic de dépression. Pour cela nous allons utiliser la fonction table, avec,
c'est préférable, l'option deparse.level=2, dans le but de renseigner le nom des deux
variables et l'instruction useNA=''always'' dans le but de déterminer le nombre de détenus
ayant des données manquantes, soit pour la variable évitement du danger, soit pour la
variable dépression. On obtient les résultats suivants, avec par exemple, 126 détenus ayant
à la fois un haut niveau d'évitement du danger et un diagnostic de dépression. Ces
effectifs sont intéressants mais comme on compare des pourcentages, on aimerait avoir
des pourcentages plutôt que des effectifs. On peut obtenir cela à partir de la fonction
prop.table. Dans un premier temps, nous stockons les résultats issus de la fonction table
dans un objet que l'on appelle tab. Au passage on remarque que nous annulons ici l'option
useNA=''always'' dans le but d'avoir des pourcentages de déprimés parmi les détenus ayant un
haut niveau ou un bas niveau d'évitement du danger. On oublie l'option useNA=''always''.
Utilisons donc la fonction prop.table. Nous l'appliquons à l'objet tab que nous venons
de calculer. Le nombre 1 signifie que nous souhaitons estimer le pourcentage de dépression
selon que les détenus ont ou n'ont pas un haut niveau d'évitement du danger. Si nous
avions utilisé le nombre 2 à la place du nombre 1, nous aurions le pourcentage contraire,
c'est-à-dire le pourcentage des détenus ayant un haut niveau d'évitement du danger
selon que ces détenus sont ou ne sont pas déprimés. Nous allons faire ce calcul dans
quelques secondes mais d'abord regardons les résultats. Nous avons 28,7% de dépression
chez les détenus ayant un bas niveau d'évitement du danger. Alors que ce nombre est quasiment
le double (56,7%) chez les détenus ayant un haut niveau d'évitement du danger. Nous
passons donc de 28% de pourcentage de dépression à 56% de pourcentage de dépression. Certes,
il est toujours utile de calculer un petit p pour objectiver le fait que le hasard puisse
expliquer à lui tout seul une différence au moins aussi importante. Mais a priori,
le petit p dans une telle situation sera très petit. Alors, avant de faire ce calcul, comme
promis, estimons le pourcentage d'évitement du danger selon que les détenus sont ou ne
sont pas déprimés. Nous avons ici 48% de détenus ayant un haut niveau d'évitement
du danger chez les détenus déprimés alors que ce pourcentage tombe à 22% chez les détenus
n'étant pas déprimés. Il est grand temps maintenant de faire notre
test du chi-deux. Pour cela nous allons utiliser la fonction R chisq.test. Nous l'appliquons
d'une part à la variable existence oui ou non d'un haut niveau d'évitement du danger
(ed.b) puis à la variable existence oui ou non d'une dépression (dep.cons). Il faut
surtout ne pas oublier l'instruction correct=FALSE, sinon R propose un test du chi-2 avec correction
de continuité. C'est un test plus robuste mais nettement moins puissant. Le résultat
est ici, avec un petit p égal à 10 puissance -12. Le petit p est comme prévu très largement
inférieur à 5%. On peut donc affirmer avec un haut niveau de certitude, que le hasard
à lui tout seul ne pourrait pas expliquer une telle différence de prévalence de dépression.
Nous sommes dans une situation où la taille de l'échantillon est substantielle (plusieurs
centaines de sujets) et où les pourcentages comparés ne sont ni proches de 0 ni proches
de 100%. Les conditions de validité du chi-2 sont donc parfaitement respectées. Si tel
n'avait pas été le cas, R nous aurait prévenus à l'aide du message ci-contre.
Dans une telle situation où on ne peut pas utiliser le test du chi-2, il existe une alternative
qui correspond au test dit exact de Fisher. La fonction R correspondante est la fonction
fisher.test avec une syntaxe très proche de la syntaxe du test du chi-2. Nous obtenons
ici un petit p qui vaut 2 * 10 puissance -12, voisin du petit p que nous avions pour le
test du chi-2 et ici aussi très largement significatif.
Et voici pour conclure, un récapitulatif des différentes instructions R que nous avons
utilisé pendant ce cours.