Bonjour, nous allons voir dans cet exposé comment standardiser des taux. Des taux de mortalité ou des taux d'incidence. Cette présentation dure environ 30 minutes.
Cet exposé s'intègre dans le cadre de notre série de conférences sur les méthodes en épidémiologie appliquée, mais il s'agit ici d'un sujet assez technique et qui se rapproche plus de la biostatistique. Pour bien comprendre ce qui va être dit, il faut avoir suivi l'exposé sur les mesures de fréquence en épidémiologie, connaître les indicateurs de morbidité, le taux d'incidence et de mortalité, les taux bruts et taux spécifiques de mortalité. Il est utile, mais non pas indispensable, de connaître la notion de risque relatif abordée dans l'exposé sur les schémas d'enquête et également la notion de biais de confusion.
abordé dans l'exposé sur la prise en compte d'un tiers facteur. Enfin, nous calculerons quelques intervalles de confiance, et il est donc utile de savoir ce que c'est. Nous allons prendre tout de suite un exemple concret.
Le tableau que vous avez sous les yeux vise à comparer la mortalité entre deux régions A et B. Parmi les quelques 710 000 personnes de la région A, 9 219 sont décédées pendant une année donnée. Et parmi la population de la région B, qui s'élève à presque 11 millions d'individus, près de 78 000 sont décédées pendant la même période. Pour les comparer, on peut donc calculer le taux brut de mortalité en divisant le nombre de décès par la population. 9 219 divisé par 710 790. nous donne un taux de mortalité brute de 12,97 pour 1000 habitants.
Même opération pour la région B, où on trouve un taux de mortalité de 7,15 pour 1000 habitants. On constate donc que le taux brut de mortalité de la région A est nettement supérieur à celui de la région B, et on pourrait faire un test statistique qui montrerait sûrement une différence hautement significative. étant donné la grandeur des effectifs qui sont comparés. Alors on pourrait s'arrêter là et publier ce type de résultat, mais notre curiosité va nous pousser à regarder ce qui se passe dans les différentes classes d'âge qui composent la région A et la région B, étant donné que la mortalité a un certain rapport avec l'âge. Et nous rajoutons donc dans le tableau les effectifs par classe d'âge de chacune des régions, ainsi que le nombre de décès observés pendant cette année-là dans chacune des classes d'âge.
Et pour pouvoir comparer tout ceci, nous calculons les taux de mortalité spécifiques à chacune des classes d'âge en divisant le nombre de décès observés pendant cette année-là par l'effectif de la classe d'âge. Nous obtenons donc le tableau suivant et nous pouvons observer plusieurs choses. Tout d'abord, les taux de mortalité spécifiques augmentent au fur et à mesure que l'on atteint des classes d'âge les plus âgées, ce qui est logique.
Mais deuxième observation beaucoup plus surprenante, vous remarquerez que dans chacune des classes d'âge, le taux de mortalité spécifique est supérieur dans la région B par rapport à la région A. Alors que... nous avons vu que le taux de mortalité global, le taux brut, était inférieur dans la région B. Ceci peut nous laisser assez perplexes tant que nous n'avons pas regardé d'un peu plus près peut-être la structure par âge de ces deux régions.
Pour visualiser la structure par âge et les comparer, il nous faut regarder la part relative de la population de chacune des classes d'âge en divisant l'effectif de la classe. par son total. Dans la région A, par exemple, les 103 065 enfants, divisés par le total de 710 000 individus, donnent une proportion de 14,5% d'enfants de 0 à 14 ans dans cette population.
Et on remarque dans la région B, la proportion d'enfants de 0 à 14 ans est beaucoup plus élevée, 26,4% dans cette population. Et à l'inverse, on remarque que... que la proportion de sujets âgés dans la région A, 11,8%, est beaucoup plus élevée que cette proportion dans la région B.
On remarque donc une grande différence dans la structure de ces deux populations. Voici les deux histogrammes correspondant à ces deux structures de population. On voit bien la proportion plus élevée de sujets de plus de 60 ans dans la région A, et la proportion plus élevée d'enfants de 0 à 14 ans.
dans la région B. Voici maintenant le tableau complet avec l'ensemble des calculs que nous avons fait. La question qui se pose c'est peut-on publier tel quel, sans aucune précaution, ce taux de mortalité de près de 13 pour 1000 dans la région A, en disant qu'il est beaucoup plus élevé que ce taux de 7 pour 1000 dans la région B, sans faire référence à la structure de la population, maintenant que nous l'avons mise en évidence.
C'est effectivement un peu gênant, car on a l'impression que c'est taux sont en quelque sorte biaisés par le facteur H. Alors vous avez peut-être encore du mal à accepter ce paradoxe de taux spécifiques tous inférieurs en A, alors que le taux global est lui-même supérieur. Et c'est bien normal, et je ne vous en voudrais pas si vous êtes tenté de refaire les calculs pour vérifier si je ne me suis pas trompé. Alors je vous propose un petit schéma pour vous montrer comment cela est possible.
Sur ce graphique, Nous avons représenté les taux de mortalité par classe d'âge avec des barres verticales. Nous avons réduit le nombre de classes d'âge à 3 pour clarifier les choses. La hauteur de chaque barre colorée représente la part de mortalité dans chacune des classes d'âge, en bleu la région A, en vert la région B. Mais surtout, nous avons choisi pour chaque bâton une largeur qui est proportionnelle à la taille de la population de chacune de ces classes d'âge. C'est-à-dire que la largeur de la colonne en pointillé est proportionnelle à l'effectif de la classe d'âge et que la surface de chaque bâton est proportionnelle au nombre de décès observés dans cette classe d'âge.
Ce qui donne cette allure un peu hétérogène au graphique. Vous constatez que dans chacune des classes d'âge, le taux de mortalité, la hauteur du bâton, est inférieur dans la région A par rapport à la région B. Maintenant, si on regroupe les barres de chaque région, nous obtenons un diagramme où la mortalité brute peut être visualisée par le rapport entre la surface colorée qui représente la masse des décès et l'ensemble du rectangle emploitillé qui représente l'ensemble de la population. Et on constate aisément que la surface de la région A, en bleu, est supérieure à celle de la région B. Donc le taux brut de mortalité A est supérieur à celui de la région B.
est bien supérieur au taux brut de mortalité dans la région B, alors même que les taux spécifiques allaient en sens inverse. Alors donc, cette façon un peu simpliste de représenter les choses vous permet néanmoins de comprendre comment il est possible que la structure d'une population puisse affecter des taux bruts. Alors pour remédier à ce biais qui, dans l'exemple que nous avons pris, était lié à l'âge, nous allons... utiliser une procédure qu'on appelle la standardisation.
On va démarrer par une standardisation qu'on appelle directe, ce qui ne veut rien dire dans un premier temps, vous comprendrez à la fin la différence par rapport évidemment à un autre mode de standardisation qu'on va appeler indirecte. Pour standardiser, nous allons prendre une population, dite population de référence, et le plus simple pour l'instant est de prendre la population française dont font partie ces deux régions A et B. Nous avons donc dans la colonne du milieu la distribution de cette population de référence en 2013 en fonction des mêmes classes d'âge que les régions A et B. Pour faire de la standardisation directe, nous n'avons besoin que des taux de mortalité des deux régions étudiées. Le principe de la standardisation va être de regarder combien de décès seraient survenus dans cette population de référence si les taux de mortalité...
étaient ceux de la région A et même chose pour la région B. On va donc calculer des nombres fictifs qu'on va appeler décès attendu en multipliant l'effectif de la population de référence par le taux de mortalité correspondant. Ainsi, dans la classe d'âge des 0 à 14 ans, 0,63 pour 1000 multipliés par un effectif de 11 700 000 individus donnera 7 403 décès attendus.
Si la mortalité en France chez les 0 à 14 ans était celle de la zone A, on observerait 7 403 décès dans cette classe d'âge. De même, si la mortalité était de 0,65 pour 1000 individus, on observerait 7 403 décès dans cette classe d'âge. Donc pour 1000 comme en B, on observerait 7638 décès.
On continue le même calcul dans chacune des classes d'âge et finalement, on peut comptabiliser le nombre de décès attendus dans les deux régions. 749 000 et quelques en région A, 824 000 et quelques en région B. Qu'est-ce que ces nombres signifient ?
Ils veulent dire que si les taux de mortalité spécifiques par âge dans la population française étaient ceux de la région A, on observerait la survenue de 749 381 décès dans l'année. Si les taux de mortalité spécifiques étaient ceux de la région B, on observerait dans la population française 824 064 décès dans l'année. Alors, il nous reste maintenant, en divisant le nombre de décès attendus par le total de la population de référence, la population française, à calculer Un taux, mais cette fois-ci, qu'on appelle taux standardisé de mortalité. Donc, en divisant 749 000 et quelques décès par le total de la population de référence, 63 900 000, on obtient un taux de 11,7 décès pour mille, qu'on appelle taux de mortalité standardisé.
De même, en divisant les 824 000 et quelques décès par 63 900 000, on obtient un taux de mortalité standardisé de 12,9 pour 1000. Ce taux de mortalité standardisé, je souligne bien, n'est pas le taux de la région B, c'est le taux qu'on aurait observé dans la population française si les taux spécifiques de mortalité avaient été ceux de la région B. Alors on observe immédiatement deux choses. Ces taux diffèrent des taux bruts de mortalité de région, mais surtout on remarque...
que le taux standardisé de mortalité calculé en prenant les taux de la région B, 12,9, devient supérieur à celui calculé avec les taux de la région A, 11,7, ce qui devient cohérent avec ce qu'on observait pour les taux spécifiques de chacune des classes d'âge qui étaient tous supérieurs en région B. Avant de continuer, regardons à l'aide de notre petit graphique ce qui s'est passé en faisant cette opération de standardisation. Puisque nous avons travaillé que sur une seule population de référence, cela revient à avoir rendu identique la taille des populations de A et de B dans chaque classe d'âge. Donc la largeur des barres de chacune des classes d'âge devient identique.
Et lorsqu'on les réunit pour chaque région, on constate maintenant que la surface en bleu, correspondant au taux de mortalité standardisé pour la région A, est devenue inférieure à la surface en vert. correspondant au standardisé de mortalité de la région B. Il n'était pas obligatoire de choisir comme population de référence la population française.
Si par exemple je désire homogénéiser mes résultats avec des travaux à l'échelle européenne, rien ne m'interdit de choisir une autre population de référence. Ici nous avons même pris une population fictive de 100 000 individus, mais répartie par des régions. de telle façon qu'elles correspondent à la structure par âge de l'ensemble de la population européenne.
On refait le même type de calcul que précédemment, et vous constatez deux choses. Premièrement, que les taux de mortalité spécifiques sont différents des précédents, calculés avec la population française comme référence, ce qui prouve bien au passage que les TMS ne sont pas des taux réels, mais ne servent qu'à faire des comparaisons. Et deuxièmement, que le taux de mortalité spécifique pour la région B de 9,1 est encore supérieur à celui de A qui est de 8,3.
On peut encore s'y prendre autrement dans le choix de la population de référence. Si l'on est intéressé quasiment exclusivement par la comparaison entre la région A et la région B, sans chercher à extrapoler le résultat, on peut prendre comme population de référence la somme des objectifs classe d'âge par classe d'âge de ces deux populations A et B. Ici, la somme des deux populations A et B de 11 661 000 et quelques individus. Merci.
On refait encore le même type de calcul du nombre de décès attendus. Et cette fois-ci, nous avons deux taux de mortalité standardisés de 6,9 et 7,6. Et là encore, vous voyez que le taux de mortalité standardisé est toujours supérieur dans la région B que dans la région A. Les taux de mortalité standardisés ne représentent rien en tant que tels. Ils ne sont que des outils de comparaison qu'on va pousser à son terme.
en faisant maintenant le rapport des deux taux de mortalité standardisés. Ce rapport, on l'appelle CMF, acronyme anglais de Comparative Mortality Figure. En divisant le TMS de B par le TMS de A, on obtient les résultats suivants. Et vous constatez que, quelle que soit la population de référence, le CMF est identique, ici égal à 1,1.
Ce qui se lit en disant que... que le TMS pour la région B est 1,1 fois plus grand que le TMS calculé pour la région A. On peut opérer un certain nombre de calculs statistiques sur les taux standardisés et le CMF.
On peut calculer l'intervalle de confiance des taux standardisés, l'intervalle de confiance du CMF et de tester ce CMF par rapport à la valeur 1 qui serait la valeur montrant aucune différence entre les deux taux standardisés à comparer. En ce qui concerne les intervalles de confiance des taux standardisés, ils sont fastidieux et assez compliqués à calculer. Le mieux est de prendre les taux qui vous sont offerts par les logiciels qui font le calcul de la standardisation directe. Je prends ici l'exemple de l'utilisation de Stata. Pour faire le calcul d'une standardisation directe, en prenant comme référence la somme des deux populations à étudier, la commande s'appelle DSTDIZE....
et Stata vous donne directement les deux taux standardisés et leur intervalle de confiance. Ici, en A, le taux standardisé était de 6,9 pour 1000, et l'intervalle de confiance, vous voyez, de 6,73 à 7,04. Je vais vous donner ici l'algorithme qui permet de calculer l'intervalle de confiance du CMF, algorithme qui est relativement compliqué.
Je donne cet outil pour ceux qui voudraient l'utiliser et ceux que cela intéresse moins peuvent sauter sans problème cette diapo. Pour calculer l'intervalle de confiance du CMF, il faut d'abord passer par son logarithme, le logarithme néperien. La formule de l'intervalle de confiance à 95% du logarithme néperien du CMF, comme n'importe quel intervalle de confiance, est égale à la valeur ponctuelle du paramètre, plus ou moins 1,96 fois son écart-type.
Le problème est donc de connaître l'écart-type du logarithme du CMF, ce qui équivaut à connaître sa variance. La variance du log du CMF est donnée par la formule suivante, un peu compliquée, où figure la variance de chacun des taux standardisés. Alors comment calculer ces variances des taux standardisés ?
Le calcul est compliqué, mais on peut l'obtenir de façon simple, puisque nous avons vu que les logiciels nous fournissaient les bornes de leurs intervalles de confiance. Il suffit donc d'inverser la formule pour obtenir l'écart-type et la variance. Donc, on peut calculer la variance du TMS pour A, la variance du TMS pour B, et donc de remplacer dans la ligne 2 ces variances dans la formule pour obtenir la variance du log du CMF et, en en prenant la racine, l'écart-type du log du CMF.
Il n'y a plus qu'à insérer cet écart-type dans la formule de la ligne 1 pour obtenir les bornes inférieures et supérieures du logarithme du CMF. Et comme il s'agit de logarithmes, maintenant pour avoir les bornes du CMF lui-même, on en prend l'exponentielle de la borne inférieure et l'exponentielle de la borne supérieure du logarithme du CMF. Alors nous allons le calculer pour l'exemple que nous avons pris, l'exemple où nous avions les taux de mort. standardisée de 6,9 en A et 7,6 en B. Dans la formule de l'intervalle de confiance, nous avons vu que la borne inférieure pour A était de 6,73 et la borne inférieure pour B était de 7,53.
Donc on applique ce que je viens de vous dire pour trouver la variance des deux taux de mortalité standardisés qu'on obtient ici et on calcule la variance du logarithme du CMF en appliquant la formule vue. à la ligne 2 précédente. La racine de cette variance nous donne l'écart-type.
On calcule le logarithme du CMF, logarithme de 1,1, soit 0,095. Et on peut calculer les deux bornes inférieures et supérieures du logarithme du CMF. Et en en prenant l'exponentiel, on trouve donc les deux bornes du CMF, 1,07 et 1,13.
Donc maintenant, nous allons pouvoir conclure. Nous avons obtenu un CMF comparant le taux de mortalité spécifique de B par rapport à A. CMF égale à 1,1 avec un intervalle de confiance 1,07, 1,13.
Alors peut-on affirmer que la mortalité standardisée est vraiment supérieure en B ? Eh bien, l'intervalle de confiance, comme on le voit, exclut la valeur 1. Le raisonnement ici est le même qu'avec un risque relatif. On peut donc affirmer. que le taux de mortalité standardisé est bien 1,1 fois plus élevé pour la région B que pour la région A.
Malgré ce faible écart par rapport à 1, le résultat est significatif car les effectifs sont très élevés dans cette étude. En résumé, pour interpréter ces résultats de standardisation, n'oubliez pas que le taux brut de mortalité était largement supérieur dans la région A, que ceci était une réalité indiscutable. mais que cet état de fait était dû à une répartition plus défavorable pour la région A, qui comporte beaucoup plus de sujets âgés.
Donc l'interprétation finale est de dire que, indépendamment de l'âge, la mortalité apparaît plus élevée dans la région B, et qu'il serait donc pertinent peut-être d'en rechercher la cause. Il faut manipuler avec prudence les processus de standardisation des taux. Il existe certaines limites et des contraintes. Tout d'abord, nous avons vu que les résultats des taux standardisés dépendent de la population de référence.
Alors, quelle population de référence choisir ? Si on ne s'intéresse qu'à la comparaison ponctuelle de deux sous-populations, sans chercher à extrapoler les résultats ou à les comparer à d'autres études, alors on peut se contenter de prendre comme population de référence la somme de ces deux sous-populations. C'est ce qui est le plus simple à faire.
Si les deux sous-populations à comparer appartiennent à une population plus large qui fait l'objet de mesures de santé publique, par exemple un pays, et que d'autres sous-populations appartenant à ce pays pourraient faire l'objet du même type d'études, alors il est plus logique de prendre cette population nationale comme population de référence. Dans notre exemple, si les régions A et B étaient des régions françaises, alors il était logique de prendre la population de la France. qui permettrait en outre de comparer les taux de mortalité standardisés à d'autres études ayant pris la même population de référence.
Enfin, si le travail s'inscrit dans un cadre plus international, alors il peut être licite de prendre des populations internationales standards type pays européens avec des populations âgées ou des populations de pays émergents avec des structures plus jeunes. Deuxièmement, et ici il s'agit d'une contrainte majeure, entre les taux spécifiques des deux populations à comparer doivent être constantes, c'est-à-dire que les taux ne doivent pas se croiser. Un taux qui serait supérieur dans une strade d'âge, un taux inférieur dans l'autre strade d'âge, etc. Si on observe un croisement des taux de chacune des deux populations à comparer, alors on ne peut pas, il ne faut pas utiliser la standardisation directe. Enfin, autre contrainte, il ne faut pas que les effectifs de chacune des strates à étudier soient trop faibles.
J'avais pris l'exemple de populations extrêmement grandes, donc on n'avait pas de problème, mais si vos effectifs sont trop faibles, alors les taux standardisés calculés fluctuent pour très peu de variations de ces effectifs et on a une grande instabilité dans le calcul du CMF. Donc des effectifs suffisants pour pouvoir pratiquer. cette standardisation directe.
Nous allons voir maintenant un autre type de standardisation, et vous comprendrez à la fin pourquoi on l'appelle indirecte. Alors nous allons reprendre comme exemple notre région A, avec ses effectifs par classe d'âge et le nombre total de décès observés. Mais cette fois-ci, nous allons prendre comme référence non pas les effectifs dans chacune de ces classes d'âge.
La population française... âge par âge, mais nous disposons maintenant des taux de mortalité dans cette population, des taux de mortalité spécifiques dans cette population. Le principe de ce type de standardisation va être de calculer les décès attendus dans la région A si le taux spécifique de mortalité dans la région A était celui de la population de référence la France.
Par exemple, dans la classe d'âge de 0 à 14 ans, si la mortalité était de 0,32 comme en France, on observerait 33 décès. dans cette classe d'âge. On continue les calculs pour chacune des classes d'âge en multipliant le taux spécifique de référence par l'effectif de la région A et on obtient enfin le total, un nombre de décès attendus dans la région A si elle avait la même mortalité que la population de référence.
Ce nombre de décès attendus qu'on va être amené à comparer au nombre réel de décès observés. Et pour effectuer cette comparaison entre deux nombres, On va calculer ce qu'on appelle le ratio standardisé de mortalité ou SMR qui est l'acronyme de l'anglais Standardized Mortality Ratio. Le SMR c'est le rapport du nombre de décès observés divisé par le nombre de décès attendus.
Ici nous avions 9 219 décès observés et 7 042 décès attendus, soit un SMR de 1,31. Là encore, on peut faire un certain nombre de calculs statistiques sur ce SMR. Tout d'abord, son intervalle de confiance. Le plus simple est de regarder ce que fournit le logiciel. La commande pour pratiquer une standardisation indirecte avec Stata est ISTDIZE, qui nous donne donc directement le SMR et l'intervalle de confiance, ici 1.28 à 1.34.
Si l'on veut, mais c'est redondant, on peut pratiquer un test statistique. pour voir si ce SMR est significativement différent de 1 par un test de QI2, dont la formule est classique pour un QI2. Nombre d'essais observés moins le nombre d'essais attendus moins la valeur 1,5 corrective, tout ceci élevé au carré, divisé par le nombre d'essais attendus.
Donc ici nous avons un QI2 extrêmement élevé à de liberté avec un petit p extrêmement faible, affirmant donc que la différence est hautement significative. Ce qu'on voyait. d'ailleurs par l'intervalle de confiance qui excluait largement la valeur 1. L'interprétation finale de ce SMR de 1,31 avec cet intervalle de confiance est de dire que la mortalité dans la région étudiée est 1,31 fois supérieure à la mortalité de référence. Et ceci bien évidemment totalement indépendant de l'âge puisqu'il s'agit d'un calcul standardisé. Le SMR n'est qu'un rapport et on peut enfin arriver au calcul d'un taux standardisé en multipliant ce SMR par le taux brut de référence qui ici dans la population française était de 8,4 pour 1000. Donc on obtient un taux standardisé qu'on appelle indirect puisqu'il a fallu passer par le SMR pour l'obtenir.
Donc ce taux standardisé pour la région A, puisqu'on s'intéressait à celle-là, et de 1,31 multiplié par le taux brut de référence 8,4, soit 11 pour 1000. Nous avons donc un taux standardisé indirect de 11 décès pour 1000 dans la région A, avec l'intervalle de confiance qui est 10,7 à 11,2. La discussion des avantages et inconvénients respectifs des deux types de standardisation, direct et indirect, est très technique et sort du cadre de ce bref exposé. Voyons brièvement quelques points importants. Tout d'abord, le choix des taux de référence.
Lorsqu'on étudie une sous-population, il paraît là encore logique de prendre les taux de référence de la population dont elle est issue. Mais on peut néanmoins utiliser le SMR pour comparer deux populations en appliquant les taux spécifiques de l'une aux effectifs de l'autre. On obtient alors un SMR un peu analogue au CMF de la standardisation directe.
En deuxièmement, une contrainte importante est d'être sûr que les taux de référence utilisés ont été calculés sur une population de grande taille afin d'être sûr de leur stabilité. Troisièmement, à l'inverse, dans la standardisation indirecte, il n'est pas gênant que les effectifs de la population à étudier soient petits et donc le calcul du SMR convient bien à des faibles séries. Quatrièmement, nous passerons rapidement sur la possibilité ou non de comparer plusieurs SMR entre eux.
En principe, ce n'est pas conseillé car la standardisation ici s'effectue sur des structures d'âge. appartenant à chacune des sous-populations. Structures qui peuvent être très différentes, c'était le cas entre nos deux régions A et B, et c'est la raison pour laquelle je n'ai pas présenté les calculs pour la région B, afin de ne pas être tenté de comparer ces SMR.
Et enfin, comme pour la standardisation directe, il ne faut pas utiliser la standardisation indirecte si les taux spécifiques de la population étudiée et ceux de la population de référence se croisent. Nous voici donc au terme de cet exposé où nous avions pris comme exemple la standardisation de taux de mortalité. C'est le cas de figure le plus fréquent, mais on peut également standardiser d'autres indicateurs que la mortalité, utiliser des indicateurs de morbidité comme des taux d'incidence cumulés ou de densité d'incidence. Deuxièmement, nous avions pris l'exemple de comparaison géographique entre deux régions, mais on peut aussi comparer deux populations dans le temps. Par exemple, des taux observés en 1960 à ceux observés en 2010. On peut également comparer des groupes de sujets, des taux de morbidité, entre différents types de travailleurs.
Troisièmement, nous avions stratifié sur des classes d'âge, mais on peut aussi stratifier sur tout autre facteur de confusion, le sexe, la catégorie socio-professionnelle, le niveau d'études, etc. C'est le problème. de la confusion, des biais de confusion vous intéressent, je vous donne rendez-vous dans l'exposé consacré à la prise en compte d'un tiers facteur. A bientôt ! Voici les références bibliographiques de quelques ouvrages que j'ai utilisés pour préparer cet exposé.