Tutorial sobre Regresión Lineal

Jul 18, 2024

Tutorial sobre Regresión Lineal

Introducción a la Regresión Lineal

  • Primer algoritmo del curso de Data Mining supervisada
  • Enfoque en variables que se quieren pronosticar o explicar (variable 'label') en función de otras variables (atributos)
  • División adicional basada en la naturaleza de la variable dependiente:
    • Numérica: problema de predicción
    • Categórica: problema de clasificación

Conceptos Fundamentales

  • La variable dependiente es una función de las variables independientes (X1, X2, X3, ..., Xk)
  • Ejemplo con una variable dependiente (salario, precio de casa) y varias independientes (edad, educación, número de cuartos)
  • Enfoque en modelos simples: ecuación lineal
  • Ejemplos históricos de regresión lineal: trabajo de Francis Galton sobre la relación entre la altura de padres e hijos

Ejemplo de Regresión Lineal con una Variable

  • Datos: altura del padre (variable X) y altura del hijo (variable Y)
  • Ecuación de regresión: altura del hijo = 23.94 + 0.64 * altura del padre
  • Uso de la ecuación para hacer predicciones
    • Ejemplos con padres de 62, 68 y 74 pulgadas
    • Pronósticos: 63.6, 67.4 y 71.3 pulgadas respectivamente
  • Concepto de 'regresión a la media'
    • Tendencia de las variables a aproximarse a la media

Regresión Lineal con Dos Variables Atributo

  • Nuevos datos: salario en función de nivel de educación y experiencia del empleado
  • Ecuación de regresión: salario = 6.8 + 1.46 * educación + 0.35 * experiencia
  • Graficación en tres dimensiones (salario, educación, experiencia)
  • Ejercicio: pronosticar salario con 12 años de educación y 10 años de experiencia

Variables Categóricas y Variables Dummy

  • Problema con variables categóricas (texto) en análisis de regresión
  • Ejemplo: precio de casas como función del área, número de baños y vecindario
  • Creación de variables dummy para resolver el problema
    • Variables binarias (0 o 1) para cada categoría
    • Ejemplo: vecindario (este, norte, oeste)
  • Codificación de variables dummy:
    • Si casa está en el vecindario 'este': vecindario_este=1, vecindario_norte=0, vecindario_oeste=0
    • Repetir proceso para otros vecindarios

Aplicación de la Regresión con Variables Dummy

  • Ecuación de regresión con variables dummy: precio = 36191 + 35.4 * área + 9619 * número de baños - 1599 * vecindario_este - 16360 * vecindario_norte + 22959 * vecindario_oeste
  • Interpretación de coeficientes:
    • Coeficiente positivo: incremento en precio
    • Coeficiente negativo: decremento en precio
  • Ejercicio: pronosticar precio de una casa con 1790 ft², dos baños en vecindario 'este' y 'oeste'