Transcript for:
Régression logistique et linéaire en ML

Si votre objectif en machine learning, c'est de faire des modèles mathématiques pour prédire des variables quantitatives, comme le chiffre d'affaires d'une entreprise sur un prémestre, le niveau de revenu d'un individu, le prix d'un bien immobilier, le prix d'un véhicule, bref, tout ce qu'on peut calculer, tout ce qu'on peut compter, vous devez avoir le réflexe de commencer par le modèle le plus simple, qui est la régression linéaire. Si par contre, votre objectif, c'est de développer des modèles mathématiques pour prédire une variable qui a deux modalités, c'est-à-dire une variable binaire, par exemple, Est-ce que le client va chez le concurrent ou pas ? Est-ce que l'email que j'ai reçu c'est un spam ou pas ?

Est-ce que le client est risqué ou pas ? Est-ce que le client va me rembourser à temps ou pas ? Bref, toutes les variables qui ont deux possibilités, vous devez commencer par la régression logistique qui est le modèle le plus simple lorsqu'on parle de classification. Maintenant, savez-vous réellement pourquoi la régression logistique est pertinente lorsqu'on a un problème de classification avec deux modalités ?

Pourquoi est-ce qu'on n'utilise pas directement la régression linéaire qu'on connaît déjà bien ? Dans cette vidéo, je vais vous expliquer pourquoi la régression linéaire n'est pas du tout adaptée si la variable dépendante est binaire. Je vais vous donner les raisons et pourquoi est-ce que vous devez utiliser une régression logistique.

Je vous laisse avec la présentation et on se retrouve juste à la fin. Pour commencer, la régression logistique, c'est ce modèle de machine learning qui est utilisé. On prédit une variable binaire, c'est-à-dire une variable qui a deux modalités, deux possibilités, en fonction de plusieurs variables qualitatives ou quantitatives.

On utilise aussi la régression logistique pour trouver la relation mathématique qui peut exister entre une variable binaire qui a deux modalités et plusieurs autres variables qualitatives ou quantitatives. Ce modèle, c'est le modèle basique justement lorsqu'on a une variable binaire et c'est très utilisé dans plusieurs industries. Si on commence par exemple dans le domaine de la fabrication, vous pouvez mettre en place place un modèle de régression logistique pour prédire la défaillance des pièces dans une machine.

Donc vous pouvez identifier les pièces d'une machine qui sont défaillantes. Dans le domaine de la santé, le modèle de régression logistique peut être utilisé pour pouvoir détecter la présence d'une maladie tout simplement. Aujourd'hui, beaucoup de startups investissent notamment dans la détection du cancer à partir juste des radios.

La régression logistique peut être utilisée pour identifier cela. Le modèle de la finance dans lequel je travaille, la régression logistique est souvent utilisée pour pouvoir détecter les transactions. bancaires qui peuvent être frauduleuses si c'est frauduleux et zéro sinon on utilise aussi souvent la régression logistique pour pouvoir déterminer si un client sera à mesure de rembourser son crédit ou pas.

Vous pouvez utiliser la régression logistique dans le marketing pour pouvoir prédire si un client va cliquer sur un lien si un client va cliquer sur une publicité vous qui me suivez, je peux développer un modèle de régression logistique qui va permettre de prédire si vous allez cliquer sur une vidéo que j'ai produite ou pas. Est-ce que vous allez liker la vidéo d'ailleurs, liker la vidéo si vous ne l'avez pas encore fait. Donc voilà globalement quelques applications de la régression logistique. Il y en a plein d'autres.

On peut mettre en place une régression logistique pour pouvoir déterminer si un email, c'est un spam, etc. Maintenant, on a vu ensemble dans la vidéo de la semaine dernière que lorsqu'on veut mettre en place un modèle qui permet de prédire une variable quantitative, le modèle basique à développer, c'est la régression linéaire. Pourquoi dans ce cas, la régression linéaire ne peut pas être adaptée si on a une variable qui a deux modalités ? Je vais vous expliquer pourquoi tout de suite. On a trois principales raisons qui font en sorte que le modèle de régression linéaire qu'on a vu ensemble la semaine dernière n'est pas adapté lorsque la variable a deux modalités.

Première raison, c'est bien évidemment que la régression linéaire suppose une relation linéaire. On va voir ensemble que la régression logistique, c'est un modèle de régression linéaire généralisé. Mais déjà, puisque la variable est binaire, on n'a pas forcément cette régression linéaire entre la variable et la variable. expliquer et l'ensemble des variables explicatives.

C'est ce premier point. Le deuxième point, c'est que la variable qu'on souhaite prédire dans une régression logistique est binaire, a deux modalités. Or, dans une régression linéaire, on a une infinité de possibilités. Le troisième point, qui n'est pas des moindres, qui est un peu le corollaire du second, avec une régression linéaire, on peut avoir des valeurs qui sont hors du cadre. Vous voyez, par exemple, lorsqu'on a une régression logistique, on prédit 0 ou 1. Avec une régression linéaire, vous pouvez avoir moins 1, 2, 3, qui sont différents des 0 ou 1. Donc, ça inconduit un biais.

Pour être plus précise, visualiser. faisons cela avec un schéma. Imaginons qu'on a ce jeu de données, on a la variable à expliquer y ici qui est binaire de modalité 0 ou 1. On veut l'expliquer avec cette variable x qui est sous R qui est continue.

Imaginez-vous qu'on veut mettre en place une régression linéaire qui permet d'expliquer. Vous voyez bien que déjà ici la régulation n'est pas vraiment linéaire. Si on met une régression linéaire, on aura peut-être une croix ici comme vous le voyez là. On a cette croix. qui permet d'expliquer Y qui est binaire avec X qui est continue.

Vous voyez bien que si on projette ce point par exemple ici, on a une valeur de 0,3. Ce qui n'est ni 0 ni 1. Nous on peut prédire un développement qui a deux modalités 0 et 1. La régression linéaire peut nous pousser à avoir des valeurs entre 0 et 1, 0,8. Ça peut même nous pousser à avoir des valeurs négatives ici, par exemple moins 1. On peut même avoir des valeurs au-delà de 1 qui est complètement hors de la bordure.

C'est un exemple à lequel la régression linéaire n'est pas adaptée. pour pouvoir prédire une variable qui prend deux modalités comme ceci. Lorsqu'une variable est binaire, au lieu de prédire la valeur, la variable directement, on va commencer par prédire une probabilité en fait. Vous allez prédire la probabilité qu'on ait 0 ou la probabilité qu'on ait 1. Si la probabilité est supérieure à 7, par exemple, si vous avez une probabilité qui est supérieure à 0,5, alors on prédit que ce sera 1. Si on a une probabilité qui est inférieure à 0,5, on prédit 0. En général, on représente ça avec ce graphe. Ici, on a x.

Cette fois-ci, ce n'est plus y, c'est plutôt la probabilité en gros, qu'on a représentée par une sigmoïde. Si par exemple la sigmoïde ici avait cette valeur, on en met ici, c'est inférieur à 0,5, alors on va prédire 0. Si on est supérieur à 0,5, alors on va prédire 1. Donc, retenez tout simplement que pour des variables binaires, au lieu de prédire 0 ou 1, on va commencer par prédire une probabilité. Je vais vous montrer à peu près à quoi ressemblent les équations. Ici, là vous avez une équation de régression linéaire où on explique y, la variable à expliquer, en fonction des variables explicatives comme combinaisons linéaires.

Par contre, en régression logistique, vous n'avez pas cette équation-ci. C'est une transformation de cette équation, mais vous ne l'avez pas. Vous avez plutôt ici P, qui est la probabilité de connaître l'événement 1, qui est égale à 1 sur 1 plus exponentielle. Vous voyez la régression linéaire qui est là.

En gros, c'est une fonction, on appelle ça sigmoïde, qui permet d'expliquer la probabilité d'avoir l'événement ou pas. En termes de modèle de régression logistique, c'est ça l'équation. C'est ln de P sur 1 moins P, ça c'est la fonction logistique, qui est égale à bêta 0 plus l'ensemble des combinaisons linéaires des variables explicatives.

C'est la raison pour laquelle la régression logistique, c'est aussi un modèle de régression linéaire généralisée. Parce qu'à partir d'une transformation de la probabilité, ici on a une transformation logistique, ln de p sur 1-p, c'est ça qu'on appelle fonction logistique. On a une relation linéaire dans les paramètres entre les variables à expliquer.

C'est ça en fait la régression logistique. Donc ici pour la régression logistique, on essaye d'abord de prédire une probabilité. En fonction de la valeur de probabilité fournie par le modèle, on va fixer un seuil. Si ta probabilité que le modèle donne, est inférieur au seuil, on va considérer que ta modalité c'est 0. Si c'est supérieur au seuil, tu as connu l'événement, c'est 1. Donc en considération logistique, on modélise des probabilités en fonction du seuil, on attribue une classe ou l'autre.

Donc le seuil, par défaut, c'est 0,5 mais en fonction de la problématique, on peut changer. Pour résumer, à chaque fois que vous souhaitez prédire un phénomène qui a uniquement deux possibilités comme est-ce que l'email c'est un spam ou pas, est-ce qu'il va cliquer sur le lien ou pas, Vous devez commencer par le modèle le plus simple qui est la régression logistique. Ce modèle va vous permettre de mettre en place des mécanismes pour pouvoir prédire les chances que l'événement que vous souhaitez modéliser se produise.

La probabilité qu'il va faire défaut, la probabilité qu'il va liker cette vidéo, la probabilité... Bref, à chaque fois qu'on a deux issues, pensez à faire une régression logistique qui va vous donner les chances de réaliser l'événement. Et après... on va choisir les seuils pour pouvoir affecter les individus dans un groupe ou dans l'autre. Pour vous qui êtes arrivé à la fin de cette vidéo, pourquoi est-ce qu'on ne peut pas utiliser une régression linéaire pour prédire une variable binaire qui a deux modalités ?

J'attends vos réponses en commentaire, ça me fait toujours plaisir de vous lire. Si vous souhaitez savoir comment est-ce qu'on construit un modèle de régression linéaire justement en Python, regardez cette vidéo et on se donne rendez-vous demain pour la suite de ce challenge. Bye !