Transcript for:
Tutorial sobre Regresión Lineal

en este tutorial vamos a hablar sobre la versión lineal regresión lineal es nuestro primer algoritmo en este curso de deraa mining supervisada esto quiere decir que ahora sí vamos a tener una variable que vamos a querer pronosticar o explicar en función de las otras variables en la hoja de datos en la tecnología de rápida manera ahora tenemos una variable 'label que queremos explicar como función de las variables atributos en dinama y supervisada en la naturaleza de la variable dependiente la variable que queremos pronosticar va a dar lugar a una división adicional cuando la variable dependiente sea numérica decimos que tenemos un problema de predicción cuando la variable dependiente es categórica decimos que tenemos un problema de clasificación regresión lineal en un ejemplo de predicción porque la variable que vamos a querer pronosticar cuando usamos regresión lineal va a ser un número puede ser un número real puede ser un número entero pero siempre va a ser un número podemos pensar en todos los algoritmos de este curso como proponiendo una forma para la relación que existe entre la variable dependiente la variable 'label que queremos explicar y luego atributos que van a explicar a esa variable matemáticamente podemos decir que la variable dependiente de la variable que quiere explicar es una función de toda esa x x 1 x 2 x 3 x k obviamente esa equis van a tener el nombre a ser edad van a ser educación van a ser el número de cuartos y la jet también va a tener nombre va a ser salario base el precio de una casa pero esta es la formulación más abstracta más general si quieren entonces cuando usemos realmente regresión lineal esta función la vamos a hacer la más simple posible esa función va a ser una ecuación lineal llegue la variable que quiero explicar es el producto de esos coeficientes amarillos eso van a hacer constantes por el valor que tomen las distintas variables x 1 x 2 x 3 x 4 vamos a ver algunos ejemplos comenzando de lo más sencillo cuando sólo hay una variable que explica y vamos a ir agregando la complejidad con 2 3 mismas variables para explicar la variable dependiente el como un ejemplo es un ejemplo histórico el ejemplo de galton de eso el término de elección fue acuñado por francis galton un científico inglés dalton quería explicar cómo la altura de los padres y de los hijos estaban relacionadas tienen un gráfico de la famosa base de datos usada por gastón tiene como 900 observaciones en el eje x tenemos la altura del padre este la variable que va a explicar a la variable que está en el eje y que es la altura del hijo no tiene una buena relación bien ajustada pero se discierne una relación lineal ya quisiéramos pasar una línea a través de esos puntos quisiéramos pasar la mejor línea a través de esos puntos y eso es exactamente lo que hizo de alton trazo esa línea roja y esa línea la llamo la línea de regresión vamos a ver el porqué del término regresión en unos minutos la ecuación de esa línea roja que acaba de mostrar es altura hijo la variable y la variable que quiero explicar es igual a 23 94 más puntos 64 por la altura del padre s 23 94 se llama el interceptó y ese punto 64 se llama la pendiente son los coeficientes que el programa de estadística debe de ir a mining que yo usé van a estimar por mí cuando yo le entregué una hoja de datos entonces entra mein y vamos a usar esta ecuación para hacer predicciones ese va a ser el uso principal de esa ecuación en este curso en curso de estadística uno analiza otras cosas analiza si la relación entre las dos variables es estadísticamente significativa ese tipo de actuaciones no nos interesa en este curso en este curso sólo nos interesa hacer predicciones así que tenemos la ecuación altura dijo 23 más puntos 64 altura del padre y supongamos que conocemos las alturas de tres candidatos de tres padres supongamos que son 62 pulgadas 68 pulgadas y 74 pulgadas la pregunta es como pronosticamos las alturas de sus hijos respectivos piensa en un segundito para una pausa el vídeo si quieren sencillo lo que vamos a hacer es vamos a utilizar la ocasión y en lugar de la variable altura padre vamos a meter esos valores candidatos 62 en el primero entonces usó la ecuación 23 94 más puntos 64 por 62 verifiquen me dan 63.6 entonces 63.6 va a ser mi pronóstico para la altura de un niño que tiene un padre con la altura 62 lo puedo hacer para el segundo caso en que el padre tiene la altura de 68 lo meto entre la ecuación y la ecuación y arroja otro pronóstico 67.4 lo puedo hacer para el último caso en que la altura del padre de 74 metros 74 en la ecuación y la ecuación arroja 71.3 ahora no tengo una cosa sobre los pronósticos estoy a explicar el término regresión hay una tendencia decía galton a regresar a la mediocridad es una impresión de una obra mía mire lo que ocurre con la altura de el hijo del padre alto el padre que mide setenta y cuatro pulgadas va a ser alto también 71.3 pero no va a ser tan alto como el padre miren lo que ocurre realmente con el hijo del padre bajo el que tiene 62 pulgadas de altura hay una tendencia a que sea abajo pero no es tan bajo como el padre hay una tendencia a que regrese a la media que regrese a la mediocridad esa es la razón por la cual utilizamos el término regresión déjeme mostrarle un segundo ejemplo un poco más complejo porque ahora tenemos siempre una variable dependiente va a ser el salario de la persona en medio de miles de dólares pero ahora tenemos dos variables atributos dos variables que van a explicar el comportamiento de ese salario la primera vez el nivel de educación medido en años y la segunda va a ser la experiencia del empleado también medida en años entonces lo que queremos hacer es estimar la ecuación salario es igual a una constante de 0 + b1 por el nivel de educación del empleado 2 por el nivel de experiencia medida en años de el empleado entonces yo puedo conseguirme dentro de mi empresa información sobre los salarios sobre la educación sobre experiencia de todos mis empleados y suponen que los consigo y quisiera graficar los noten que el gráfico ahora es más complejo porque ahora estamos en tres dimensiones en el eje x si quieren tengo educación en el eje y tengo experiencia y en ese eje z tengo el nivel del salario no se discierne de nuevo una relación esta vez de mejor calidad que la relación entre las alturas de padre e hijo en el ejemplo de alto y lo que quiero hacer ahora es el lugar de trazar una línea a través de esos puntos como obras pues en tres dimensiones lo que quiero pasar en un plano a través de esos puntos entonces la ecuación de ese plano va a ser la ecuación que me arrojé el programa estadística el programa de iramaín cuando le pide a explicar salario como función de educación y experiencia entonces sí le pido a la prima en el si le pido a cualquier otro programa estimar mes ecuación tapir mainer me va a entregar esta ecuación el salario medio en miles de dólares es igual a 6.8 más 1.46 por el nivel de educación en años más punto 35 por la experiencia también medida en años un ejercicio para ustedes utilicen esa ecuación para pronosticar el salario una persona que tiene 12 años de educación y que lleva 10 años de experiencia en la empresa ahora más a una pequeña dificultad yo puedo presentarle ejemplos con más atributos 345 pero la idea va a ser siempre la misma ya no va a ser posible la visualización aunque solo contamos con tres dimensiones desafortunadamente pero y esto es lindo aunque no pueda visualizar la influencia de todas las variables a la vez voy a poder seguir estimando la ecuación y la voy a poder seguir usando para producir pronósticos la dificultad a la que quiero hacer referencia es que ocurre cuando llega una nueva variable y esa variable ya no es un número esta variable es una variable categórica es una variable de forma texto entonces déjeme darle un ejemplo el ejemplo del precio de casas como función de los atributos de las casas que dan una hoja de datos en la que tengo los precios los que se vendieron casas recientemente y tengo algunas características de la casa como el área medido en pies al cuadrado o el número de baños y el vecindario en que está ubicada la casa esta última variable es la que nos va a dar problemas mediante una hoja de excel ahí está la primera columna es precio la segunda área medida en pies cuadrados número de baños tercera columna y aquí está la columna problemática el vecindario no es un número el vecindario es una variable texto puede ser puede estar en el este puede estar en el norte puede estar en el oeste entonces los primeros dos atributos no me representan problema alguno pero el atributo de localidad del atributo de vecindario sí porque una variable categórica una variable texto y lo que va a ocurrir es que cuando yo le pasé esa base de datos así como está a un operador oa un programa estadístico de gran mining que corra la dirección es lineal es el programa probablemente me hagan un error diciendo no sé qué hacer con esa última columna de texto ahora el truco va a ser el sencillo el truco para resolver ese problema va a ser sencillo va a ser la creación de la llamada variable domínguez en inglés el truco entonces es crear variables binarias variable binarias quiere decir solo pueden tomar todos valores 1 y 0 y vamos a llamar a ese tipo de variable de variable thomis y lo que vamos a hacer es que para cada observación vamos a crear tres variables de este tipo tres variables en el número 3 y está conectado al número de categorías que tenían la variable texto original en la variable texto original había tres posibilidades la casa podía estar en el vecindario esté en el norte o en el oeste entonces lo que voy a hacer es crear tres columnas de variables binarias esta variable binaria solo pueden tomar el valor de 0 o 1 entonces para cada observación sólo una de ellas puede tener el ser 1 el resto tiene que ser cero entonces de generar los ejemplos si la primera observación está en el vecindario este entonces como codificó las tres variables de esteve norte y oeste bueno le doy un 1 es como que la bujía se encendiera esto es cierto está en el vecindario este y dejó la variable en norte y oeste como ceros entonces esa manera de codificación le permite identificar fácilmente en qué vecindario están déjeme mostrarle aquí está agregado a esas tres columnas al final de este de norte y veo este ahora miren cómo vamos a codificar les voy a dar tres ejemplos el primer ejemplo es a casa de un desierto 14 mil 300 dólares está en el vecindario este miren la columna d entonces cómo voy a codificar la le voy a dar un 1 ave este y le voy a dejar en 0 ave norte y oeste qué pasó si la casa no está en el vecindario este qué pasó si está en el pressing dario el norte en este caso voy a dejar vecindario este y vecindario este con ceros y le voy a cenar a un 1 le asignaron 1 a vecindario norte entonces donde hay un 1 indica que esa condición es cierta la condición esta casa está en el vecindario norte es cierta por lo tanto le doy un 1 para otras dos variables este y oeste esa casa en particular no está en esos vecindarios por lo tanto esa el 0 que quiere decir falso esta casa no está en el vecindario este esta casa está en el vecindario norte esta casa no está en el vecindario oeste el último ejemplo y lo puede imaginar una casa que está en el vecindario oeste solo veo este toma el valor de uno ve este y ve norte se quedan con el valor de cero entonces ahora como usamos las variables donde porque ya resolvimos el problema de una variable texto de hecho vamos a eliminar esa columna de llamada vecindario y nos va a quedar solo con la variable numérica entonces ahora lo que vamos a hacer es vamos a poner una regresión con esa nueva variable ton entonces miren la ecuación que estoy tratando de estimar ahora es precio la casa es igual a un interceptó más de uno por área más de dos por el número de baños y ahora bien el auto mix más de tres por vecindario este mp4 por vecindario norte más de cinco por vecindario oeste cuando le pido al rápid mainel por ejemplo que estime esa ecuación me arroja estos coeficientes no temen te pueden extraer sus coeficientes y ponerlos en la ecuación original para que haga más sentido lo que me hizo la prima de entonces cuando querramos pronosticar expresión a casa tenéis que utilizar la siguiente ecuación el precio va a ser igual a 36 1910 35.4 por el área de esa casa que querrás pronosticar nueve mil 619 por el número de baños que tenga esa casa y ahora viene el otro knicks menos en 1599 si esa casa está en el este - 16.360 si esa casa está en el norte más 22 mil 959 si esa casa está en el oeste noten que uno puede darle una interpretación a los coeficientes de esas variables domínguez sólo viéndolo coeficiente me formó la idea que en las casas más caras están en el vecindario este por qué porque si la variedad es la casa está en el vecindario este esa variable best se va a ser uno y por lo tanto va a ser multiplicada por 22 1959 y el peso de la casa se va para arriba si la casa está en el norte no te tengo que multiplicar el 1 que recibe una casa en el norte por un menos 16.360 entonces eso deprime el sal el precio de las casas en el norte entonces si es posible interpretar los coeficientes de la regresión la de bajar no lo bastante importancia en este curso a los coeficientes pero ahora saben qué significan y ahora imaginen que queremos hacer un pronóstico y él conoce qué vamos a hacer ustedes yo quisiera que me pronosticaran cuánto vale una casa que tiene una variedad de 1.790 pies cuadrados que tiene dos baños y que está ubicada en el vecindario este si le doy esa ecuación corrida me pueden dar un pronóstico de cuánto vale esa casa y en una pequeña variación que harían si la casa en lugar de estar en el vecindario este está en el oeste me podrían dar otro pronóstico en este caso