Transcript for:
Analyse des variables quantitatives

Dans la vidéo précédente, tu as vu comment utiliser des diagrammes en bâton ou des diagrammes circulaires pour représenter des variables qualitatives, nominales ou ordinales. Dans cette vidéo, on va voir comment représenter la distribution de variables quantitatives. On va utiliser un nouveau jeu de données, toujours sur des fleurs, mais cette fois-ci, on a mesuré la longueur de la fleur en millimètres. La variable étudiée ici est donc de nature quantitative continue, puisqu'elle peut prendre toutes les valeurs possibles dans un intervalle donné. Pour représenter la distribution de la longueur des fleurs dans cet échantillon, on va devoir passer par un tableau de distribution de fréquences pour les données. différentes classes de la variable. Dans les exemples précédents, qui portaient sur des variables qualitatives, ordinales ou nominales, les classes étaient évidentes puisqu'elles correspondaient aux modalités de la variable. Ici, sur cette variable quantitative, on va devoir arranger les données brutes en classes de taille et on va avoir trois options différentes pour définir ces classes. La première option va... reposer sur un choix arbitraire de notre part et deux autres options reposeront sur la règle de Yule d'une part et la règle de Sturge d'autre part. Première option, on va décider, choisir nous-mêmes de manière arbitraire les différentes classes pour cette variable. On voit ici que la taille des fleurs varie entre 140 mm qui est la valeur minimale et 174 mm qui est la valeur maximale dans notre jeu de données. Je peux choisir par exemple de regrouper les données brutes en classes de 5 mm. La première classe regroupera les valeurs allant de 140 à 145 mm. La deuxième classe regroupera les valeurs allant de 145 à 150 mm, etc. Chaque classe est définie par une borne inférieure. Pour la première classe, c'est 140. Et par une borne supérieure. Ici, pour la première classe, c'est 145 mm. En général, par convention, on inclut la borne inférieure de la classe et on exclut la borne supérieure. Donc, on aurait aussi pu choisir d'exclure la borne inférieure et d'inclure la borne supérieure de chaque classe. Par contre, on ne peut pas inclure ou exclure les bornes inférieures et supérieures de chaque classe. Alors, pourquoi ? Parce que si on inclut les bornes supérieures et inférieures... de chaque classe, certaines valeurs vont être comptées deux fois. Ici par exemple 145 est comptabilisé dans la première et dans la seconde classe. On ne peut pas non plus exclure les bornes et inférieure de chaque classe parce que cela conduirait à ignorer, à oublier certaines valeurs. Ici, par exemple, tu vois que 145 n'est comptabilisé ni dans la première ni dans la seconde classe. On peut définir également sur ces classes ce qu'on appelle l'intervalle de classe, ce qu'on appelle petit i. Cet intervalle de classe va être égal à la valeur de la borne supérieure de la classe moins la valeur de la borne inférieure de la classe. Pour la première classe de notre tableau de fréquence, on a un intervalle de 145-140, soit un intervalle de classe de 5 mm. En général, l'intervalle de classe est constant, mais on verra plus tard que ce n'est pas toujours le cas. Une fois qu'on a défini les différentes classes, on va pouvoir construire notre tableau de fréquence. Je vais choisir pour cet exemple de travailler sur les fréquences absolues. Je te laisse faire une pause dans la vidéo pour ajouter les fréquences absolues de chaque classe de taille et tu pourras reprendre la lecture de la vidéo une fois que tu auras terminé. Voilà donc c'est le résultat que tu devrais avoir. Donc à la fin on vérifie bien que si on ajoute les fréquences absolues des différentes classes on retombe bien sur la taille de l'échantillon. Ici 50 individus. Si tu as des difficultés pour construire ce tableau de fréquences tu peux regarder à nouveau la vidéo qui est dédiée à cette partie de cours. A partir du tableau de distribution de fréquences, on va pouvoir représenter graphiquement la distribution de la taille des fleurs. Je te rappelle que la variable étudiée est toujours représentée sur l'axe des abscisses. On va représenter les 7 classes de taille qu'on vient de définir sur cet axe. Sur l'axe des ordonnées, j'ajoute l'échelle des fréquences absolues. et on va ensuite compléter le graphique. Donc pour chaque classe de taille on va tracer un rectangle dont la surface est proportionnelle à la fréquence de la classe dans l'échantillon. Ici, comme mes rectangles ont la même largeur, finalement ce qui va changer d'une classe à l'autre, c'est la hauteur du rectangle qui représentera la fréquence absolue de la classe dans l'échantillon. Bien sûr, on n'oublie pas le titre général du graphique, l'échelle et le titre des axes. Voilà, donc le graphique qu'on vient de réaliser, c'est un histogramme qui est en fait la représentation graphique la plus fréquemment utilisée pour les variables quantitatives. Grâce à cet histogramme, on a résumé de manière visuelle la série de données brutes et on voit maintenant très clairement que la majorité des fleurs ont une taille comprise entre 150 et 165 mm et seulement quelques fleurs sont plus petites ou plus grandes que cette taille. Ici, nous avons représenté les fréquences absolues sur l'histogramme, mais on peut aussi représenter les fréquences relatives, les fréquences absolues cumulées ou encore les fréquences relatives cumulées. Ça, c'est en fonction de la question posée. Tu peux d'ailleurs refaire l'histogramme avec un autre type de fréquence pour t'entraîner. Dans l'exemple qu'on vient de faire, j'ai choisi moi-même le nombre de classes et donc l'intervalle de chaque classe. Donc quand on fait ça, il faut bien garder en tête que si on définit trop de classes comme... le cas dans l'histogramme de gauche, on risque d'avoir trop peu d'observations par classe, voire même des classes sans observation du tout. Et donc, dans ce cas-là, finalement, l'information n'est pas beaucoup plus résumée que dans la série. de données brutes. A l'inverse, si on ne définit pas assez de classes, comme c'est le cas dans l'histogramme de droite, on va ici résumer tellement l'information que finalement, on ne peut plus dire grand-chose sur la distribution de la variable. Pour trouver le nombre approprié de classes, deux règles peuvent nous aider. La règle de Yule, qui définit le nombre de classes comme étant égal à 2,5 fois n puissance 1. car avec n qui correspond à la taille de l'échantillon, et la règle de Sturge selon laquelle on peut définir le nombre de classes appropriées en faisant 1 plus 3,3 fois le log de n, n étant toujours de la même manière la taille de l'échantillon, donc le nombre d'individus. Donc si on remplace dans la formule par les valeurs qu'on avait dans l'exemple précédent, on avait une taille d'échantillon de 50 individus. Pour la règle de Duhl, on obtient... 6,64 classes, que bien sûr on va arrondir à 7 classes. Et selon la règle de Sturge, on remplace à nouveau N par la taille de l'échantillon, 50. Ici, on obtient 6,60 classes que, bien sûr, on va arrondir à 7 classes. Donc, je sais que je dois construire 7 classes de taille. Je dois maintenant définir quel va être l'intervalle de chacune de ces classes. Donc, pour cela, on va regarder l'étendue de la variation de taille dans notre échantillon, c'est-à-dire la valeur maximale moins la valeur minimale. Et on va diviser par le nombre de classes qu'on doit... effectué. Donc dans notre jeu de données, la taille varie entre 174 et 140 mm. On doit construire cette classe de taille. Donc on trouve un intervalle de classe de 4,8 mm qu'on va arrondir à 5 mm pour que ce soit plus facile à représenter. Voilà, donc il se trouve que c'est justement ce découpage que j'avais choisi un peu au hasard dans l'exemple précédent pour faire l'histogramme. Donc je vois maintenant que ce découpage était... finalement pertinent Une petite remarque sur ces deux règles. En fait, ici, le nombre de classes que tu trouves avec ces deux formules est donné à titre indicatif. Ici, on a trouvé 6,6 classes et on a arrondi à 7. Mais si tu arrondis à 7, tu as 6,6 classes. à 6 ou à 8, ce n'est pas faux. En fait, il faut voir ces deux formules comme un moyen de t'aider dans le nombre de classes à effectuer sur ton histogramme et pas vraiment comme une règle absolue. Pour terminer... je voudrais attirer ton attention sur les différences qui existent entre le diagramme bâton et l'histogramme, qui sont des représentations graphiques différentes, qu'il est donc important de ne pas confondre. Si tu te rappelles le diagramme en bâton qu'on a réalisé pour décrire la distribution de la variable couleur des fleurs, tu remarques que les bâtons ne se touchent pas puisqu'ils se rapportent à des modalités différentes d'une variable qualitative. qu'elle soit ordinale ou nominale. De plus, c'est la hauteur du bâton qui représente la fréquence de la modalité dans l'échantillon ou la population. Si on regarde maintenant l'histogramme qu'on a construit pour représenter la distribution de la longueur de la fleur, tu remarques que les rectangles qui représentent les différentes classes de taille sont accolés. Ils sont accolés. puisque la variation de la taille des fleurs est continue. Elle est représentée par une variable quantitative continue. De plus, pour un histogramme, c'est l'aire de chaque rectangle qui est proportionnelle à la fréquence de la classe dans l'échantillon ou dans la population. Rappelle-toi, je t'avais dit qu'en général, l'intervalle de classe est constant, mais pas toujours. Et c'est ce qu'on voit justement sur cet histogramme. Donc à partir de ce graphique, je te laisse compléter le tableau de distribution. fréquence en retrouvant les différentes classes et les effectifs de chaque classe. Alors fais bien attention, rappelle-toi c'est l'air du rectangle qui te donne l'effectif de la classe. Tu peux faire pause dans la vidéo et relancer quand tu as rempli le tableau. Dans cet exemple, on a trois classes de taille. La première classe qui va de 1 à 2 cm, la deuxième classe qui va de 2 à 3 cm et la dernière classe qui va de 3 à 5 cm. D'après le graphique, on ne peut pas savoir comment inclure ou exclure les bornes supérieures et inférieures de chaque classe. Donc, par convention, je vais inclure la borne inférieure et exclure la borne supérieure. Voilà, donc on a les classes. Donc maintenant, on complète les effectifs pour chaque classe en reportant l'air du rectangle. Donc pour la première classe, le rectangle a une air de 1 fois 4. Donc l'effectif pour cette classe, c'est 4. Pour la deuxième classe, pas de rectangle, on a un effectif de 0. Et pour la dernière classe, tu vois que le rectangle a une air de 2 fois 2. Donc une fréquence... absolue de 4 pour cette dernière classe. Donc attention ici à ne pas se laisser piéger, tu vois que ces deux surfaces assurées représentent en fait toutes les deux le même effectif de quatre individus. Voilà donc on vient de voir dans cette vidéo comment l'histogramme permet de représenter graphiquement des distributions de fréquences absolues, relatives et absolues ou relatives cumulées pour une variable. quantitatives. Dans la vidéo suivante qui sera la dernière sur les représentations graphiques, on verra rapidement un autre type de représentation graphique qui est aussi fréquemment utilisé pour représenter la distribution de variables quantitatives.