Nous avons dans le chapitre précédent à quoi correspondait les fameux petits p. Il faut d'ailleurs constater que dans la réalité des travaux scientifiques, les tests statistiques se résument à des successions de ces petits p. Pourtant à l'école, quand on apprend les tests statistiques, on apprend tout autre chose. En particulier, la fameuse théorie des tests d'hypothèse de Neyman et Pearson. C'est là-dessus que nous allons nous pencher maintenant. Les tests d'hypothèse de la théorie de Neyman et Pearson reposent sur une formulation assez formelle. De façon assez caricaturale voire même assez simpliste, on va considérer qu'on va choisir entre deux hypothèses l'une dénommée H0, l'autre dénommée H1. H0 c'est le statu quo, le profil bas. Au contraire H1, c'est le but de l'expérience, c'est ce que souhaite démontrer le scientifique. Dans le cas de l'essai thérapeutique du chapitre précédent , H0 ça serait que les deux médicaments auraient la même efficacité, alors que H1, les deux médicaments ont une efficacité tout à fait différente. Comme il y a un choix à faire entre deux hypothèses, il y a deux façons de se tromper. Soit d'accepter H1 alors que H0 est vraie, soit d'accepter H0 alors que H1 est vraie. Comme il y a deux possibilités d'erreur, il y deux risques correspondants. correspond au premier, la probabilité d'accepter H1 alors que H0 est vraie, on dit souvent que est le risque de première espèce. β lui est appelé risque de seconde espèce : c'est la probabilité d'accepter H0 alors que H1 est vraie. Nous avons à choisir entre H0 et H1. Nous allons prendre des risques. L'objectif est bien entendu de proposer une règle de décision qui va minimiser ces risques. Le problème c'est que minimiser de façon conjointe deux paramètres, il y a une infinité de façons de le faire. Par exemple, minimiser +β, minimiser ²+β², minimiser le max de et de β. Neyman et Pearson ont proposé comme règle de décision de minimiser β pour fixé, en général à 5%. Alors, tout ça paraît très simple, clair, limpide. En réalité, de façon sous-jacente, il y a une certaine idée préconçue de ce qu'est-ce que la prise de risque dans le cadre d'une expérimentation scientifique. En effet, selon la règle de Neyman et Pearson, apparaît comme plus important que β, puisque est fixé à une certaine valeur, alors que β est juste minimisé. Donc, β peut valoir, 30, 40, 60%. Et, d'ailleurs, il est vrai qu'en général, β est plus grand que . Alors, pourquoi cette règle ? parce quand on regarde à la loupe H0 et H1 qui sont formulés, effectivement, la prise de risque n'est pas symétrique. H1, c'est le nouveau, l'expérimentateur, il a envi de montrer H1. Alors que l'expérimentateur va être déçu de dire qu'il y a H0. L'expérimentateur va tout faire pour montrer que H1 est vraie. Et donc, il licite de protéger la communauté contre les expérimentateurs peut être trop enthousiastes qui, à tout pris, ont envi de vendre leur H1. Donc, on va minimiser de façon à minimiser le risque de dire que H1 est vraie alors que ce n'est pas vrai. Au contraire, β c'est la probabilité d'accepter H0 alors que H1 est vraie. Mais, ça c'est un peu le problème de l'expérimentateur. C'est à lui de faire une expérience suffisamment bien menée qu'il ait toutes les chances de montrer que H1 est vraie quant à le limes. Et donc, minimiser le rique de conclure à H0 quand H1 est vraie. Alors, tout ça ne nous dit pas bien entendu comment faire un test d'hypothèse en pratique. Ça n'est pas bien compliqué. Vous disposer de H0, H1, vous avez fixé α à 5%. β il vaut ce qui vaut, vous avez votre jeu de données vous calculer tout simplement le petit p. Si p est plus petit que α , alors vous accepter H1 et si non, vous accepter H0. Alors, bien sûr, comment calculer p en pratique ? Eh bien, ça va être un logiciel, ça va être R qui va calculer le petit p et nous le verrons dans le chapitre suivant. Autrefois, on faisait tous ces calculs à la main. Par exemple, pour comparer deux pourcentages, on utilisait une petite formule toute simple pour calculer un z puis après, on allait regarder dans une table et ce z donnait le petit p. Puisqu'on vient de voir pour faire un test d'hypothèse selon la théorie de Neyman et Pearson, il suffit de calculer un petit p, de le comparer à α qui vaut toujours 5% et donc petit p est plus petit que 5%, on accepte H1, alors que si p est plus grand que 5%, on accepte H0. A quoi ça sert de développer une règle formelle aussi sophistiquée que celle de Neyman et Pearson. Alors qu'en fait, de regarder le petit p dans le blanc des yeux ça suffit. Cette interrogation a conduit à un débat au sein de la communauté des statisticiens, voire même des philosophes et des épistémologues et ce débat n'est toujours pas tranché. Nous allons, juste nous, constater qu'en pratique, c'est-à-dire d'un point de vue un peu sociologique relatif à l'usage que font les scientifiques des tests statistiques, il y a bien deux situations complètement différentes. Une où on ne fait que regarder le petit p, et l'autre où il y a bel et bien un test d'hypothèse. Il faut, d'ores et déjà, constater que c'est vrai fondamentalement. La règle de Neyman et Pearson n'est la même que la règle de Fisher. Avec Neyman et Pearson, si votre p vaut 4,9% ou s'il vaut dix mille, la conclusion est toujours la même, on accepte H1. Alors que si votre petit p vaut 4,9% ou 5,1%, dans le premier cas on accepte H1, dans le deuxième cas on accepte H0. A la limite même, avec la règle de Neyman et Pearson, il y aurait même pas besoin de présenter dans les résultats le petit p. A la limite, seuls les statisticiens auraient calculer le petit p. Ils devraient regarder si le petit p est plus petit ou plus grand que 5%. Ils devraient juste dire H1 ou H0. Au contraire, avec la règle Fisher, avec l'heuristique de Fisher, on regarde le petit p. Et plus le petit p est petit, on se dit ah ! , le hasard aurait beaucoup de mal à expliquer tout ça à lui tout seul. Donc le résultat est très significatif. Avec un p à 1 pour mille, pour dix mille, on considère souvent que le résultat est très significatif. Alors qu'avec un petit p à 4%, on va dire qu'il est tout juste significatif, qu'à 7% il sera à la limite de la significativité, à 10% il y a une tendance et puis à 20%, ce n'est pas significatif. On qu'avec le petit p et la règle d'inférence de Fisher, il y a une gradation dans l'intensité de la preuve. Alors qu'avec Neyman et Pearson, c'est complètement binaire. Et d'ailleurs, entre nous, un expérimentateur a plutôt envi d'utiliser la règle de Fisher plus souple qui correspond plus plus à ce qu'il a envi de faire qu'à une règle caricaturale comme celle de Neyman et Pearson qui est complètement binaire. C'est pour cette raison sûrement que dans les articles, on voit bien plus souvent des petits p que des tests statistiques d'hypothèse au sens de Neyman et Pearson. Alors, quel est l'intérêt de recourir à Neyman et Pearson ? C'est qu'avec Neyman et Pearson, on parle de risque. On ne parle pas d'un petit p qui est en fait une plausibilité que le hasard puisse expliquer ce que l'on a observé. Un risque, c'est bien plus fort que ça. Un risque, c'est fixer avant de faire une expérience. Quand un assureur assure une maison, il propose un contrat d'assurances avant que ne se passe une éventuelle catastrophe. Alors que quand vous calculer un petit p, vous calculer un petit p à partir des données que vous avez observées. Vous pouvez toujours calculer à posteriori la propbabilité que des inondations aient pu arriver à un endroit donné. Un assureur ne fait pas ça. Un assureur, il calcul à priori le risque qu'il y a que des inondations puissent dégrader une maison. Donc, fixer un risque à priori et savoir dans quelle direction on s'engage, savoir le risque que l'on va prendre d'accepter ou non une hypothèse nulle ou une hypothèse alternative. C'est quelque chose qui, scientifiquement, beaucoup plus fort que de regarder simplement à posteriori la plusibilité des résultats qui ont été observés. C'est pour ça que, dans certaines situations expérimentales, on va préférer Neyman et Pearson, et dans d'autres, on va préférer Fisher et le petit p. On va notamment préférer Neyman et Pearson quand il va y avoir une prise de décision concrète et très importante à l'issue de l'expérience. C'est typiquement le cas des essais thérapeutiques qui évalue l'efficacité des médicaments. Si vous avez un essai qui manque le médicament est meilleur comme comparateur, les autorités de santé sont susceptibles de donner une autorisation de mise sur le marché, après quoi tous les patients vont bénéficier du traitement. On doit donc exactement savoir où on en est et quel est risque que l'on prend de dire à tort qu'un nouveau médicament est plus efficace qu'un ancien. De là, le recours exclusif avec la règle de Neyman et Pearson et avec un essai randomisé de ce type. Si le petit p vaut 6%, alors on ne peut pas dire que le médicament est supérieur à son comparateur. Au contraire, si le petit p vaut 4%, alors on peut le dire. Et, un petit p à 4% à la même signification qu'un petit p à 1 pour mille. En dehors de ces situations où il y a des prise de décision importantes à l'issue de l'expérience, alors, les scientifiques préfèrent utiliser le petit p. Parce qu'effectivement, c'est plus proche des résultats qu'ils ont envis d'entendre où l'on va avoir une forte confiance dans les résultats avec un petit p tout petit ou au contraire, on aura un certain doute sur la significativité quand le petit p est autour de 5%.