Régression logistique et linéaire en ML

Sep 29, 2024

Notes sur la régression logistique et linéaire en Machine Learning

Introduction

  • Objectifs du Machine Learning :
    • Prédiction de variables quantitatives (e.g. chiffre d'affaires, prix d'un bien).
    • Prédiction de variables binaires (e.g. spam ou pas, client risqué ou non).
  • Modèles de base :
    • Régression linéaire pour variables quantitatives.
    • Régression logistique pour variables binaires.

Pourquoi la régression logistique ?

  • Pertinence pour variable binaire :
    • Contrairement à la régression linéaire, elle est spécialement conçue pour deux modalités.
    • Évite les prédictions non réalistes (e.g. valeurs négatives ou supérieures à 1).

Comparaison régression linéaire vs logistique

  • Régression linéaire :
    • Supposition d'une relation linéaire entre variables.
    • Peut prédire des valeurs infinies, pas adaptée pour variables binaires.
    • Risque de valeurs hors du cadre (e.g. -1 ou 2 pour une variable binaire).
  • Régression logistique :
    • Prédit des probabilités (e.g. probabilité qu'un événement soit 1).
    • Utilise une fonction sigmoïde pour transformer les prédictions.
    • Basée sur une transformation logistique : ln(P/(1-P)).

Applications de la régression logistique

  • Industrie manufacturière : Prédiction de défaillance de pièces.
  • Santé : Détection de maladies (e.g. cancer).
  • Finance : Détection de fraudes bancaires.
  • Marketing : Prédiction de clics sur publicités ou vidéos.
  • Email : Détection de spam.

Fonctionnement du modèle logistique

  • Prédiction de probabilités :
    • Prédire P (probabilité de 1) avec : P = 1 / (1 + exp(- (b0 + b1X1 + ... + bnXn))).
    • Utilisation d'un seuil (généralement 0.5) pour classification.

Conclusion

  • Utilisation adéquate :
    • Régression logistique pour variables à deux modalités.
    • Prédiction de chances d'un événement.
    • Choix d'un seuil pour classification.
  • Invitation à interaction :
    • Discussion sur l'usage de la régression linéaire pour variables binaires.
    • Invitation à consulter des ressources pour implémentation en Python.