Bienvenidos al canal de la magia de estadística que os hacemos vídeo tutoriales para conocer el manejo de las funciones del paquete de estadística de R para hacer más fácil la estadística descriptiva e inferencial. Hoy vamos a ver la función cuantiles, que es una función que sirve para calcular los cuantiles, que son unas medidas de tendencia, en este caso no central, que sirven en este caso para dividir la distribución o los datos en partes iguales. Los más famosos son los cuartiles, pero también se pueden calcular los quintiles, los deciles. o los percentiles bueno pues allá vamos a explicarlo y recordar como siempre que tenemos muchos más vídeos tutoriales en nuestro canal de la magia de estadística de youtube ahí tenéis el enlace y no olvidéis de suscribiros vamos ya ya estamos en el programa RStudio y como siempre se empieza una vez que está instalado el paquete estadística se empieza cargando Este paquete, esto lo podemos hacer o bien con nuestro script tenemos la instrucción library entre paréntesis estadística que podemos ejecutar o simplemente nos vamos aquí a la pestaña de paquetes y buscamos el paquete estadística y hacemos clic en este paquete y en este caso se carga. Ya lo tenemos cargado y ahora vamos a consultar la ayuda, donde está la ayuda.
de todas las funciones. Esto lo podemos hacer o bien ejecutando la instrucción help entre paréntesis package igual estadística entre comillas o de forma más sencilla, pues aquí haciendo clic en el enlace estadística y llegamos aquí a la ayuda, buscamos la función cuantiles, que es la que nosotros queremos usar y bueno, aquí vemos la función. Esta función, los argumentos son parecidos a los de las funciones. funciones previas que hemos visto como media, mediana o moda y en este caso el primer argumento es x, que es la base de datos, donde se encuentra la variable para la cual queremos calcular los cuantiles, puede ser o bien una base de datos que viene con el paquete de estadística o una base de datos, unos datos que tengamos nuestros, que es por donde vamos a empezar nuestro primer ejemplo. Segunda...
El argumento es la variable que queremos, normalmente le ponemos el nombre o mucho más sencillo, variable igual a la posición, la columna que ocupa dentro de la base de datos. Eso es más sencillo puesto que es un número. El argumento pesos es si se trata de una tabla de frecuencias, pues aquí le diríamos las frecuencias o ahora veremos en el ejemplo de los salarios 2018 de esta base de datos como si nosotros queremos que los resultados sean...
sean resultados que sirvan no para la muestra, sino para el conjunto de la población, pues querremos multiplicar por los factores de elevación y ahí pondremos pesos, será la columna donde están esas frecuencias o factores de elevación. Y tenemos un nuevo argumento que es cortes y aquí pues le vamos a decir qué tipo de cuantiles queremos. Por defecto, lo que es un vector y por defecto...
calcula los tres cuartiles los que dividen la distribución en cuatro partes iguales, es decir, el cuanti 0.25, 0.5 y 0.75. Si no decimos nada, pues esta función nos calculará los cuartiles. Y por último, si quisiéramos exportar los resultados a una hoja de cálculo, a un Excel, pues le pondríamos exportar igual a true.
Bueno, pues vamos a hacer primero, vamos a calcular los cuartiles para... una tabla, una distribución que tenemos en una tabla de frecuencias y vamos a verlo. En este caso vamos a leer los datos y con la función leer.datos vamos a ejecutarla, vamos a seleccionar donde tenemos nuestro fichero, lo tenemos aquí en esta carpeta, se trata aquí de los viajes vendidos mensualmente por 10. empleados de una agencia de viajes, vamos a poner la consola el mismo nombre, viajes, barra baja, vendidos damos a intro y aquí podemos observar Nuestros datos, tenemos la primera columna, la columna 1, donde están los valores distintos que toma la variable, es decir, los distintos valores de los viajes que han vendido y aquí la segunda columna serían los empleados, es decir, las frecuencias absolutas, es decir, de los 10 empleados, pues cuántos han vendido 6 viajes, 8 viajes, 9 viajes, 10 viajes o 110 viajes. Y esta tercera columna son de frecuencias acumuladas que nos van a servir ahora para...
ver manualmente cómo se calcularían los cuartiles. Entonces, pues lo que vamos a ver en este caso, si queremos los cuartiles, que son tres valores que dividen la distribución en cuatro partes iguales, pues lo que vamos a seguir es esta regla de decisión que tenemos aquí, que es la misma regla que seguimos para el cálculo de la mediana, porque de hecho la mediana es un cuantil, es en este caso el... Ahora veremos que es el cuartil 2 o es el decil 5 o es el percentil 50. Bueno, pues en este caso lo que vamos a calcular pues es, por ejemplo, para el primer cuartil, ¿de acuerdo? Es decir, el que se le asigna o ocupa la posición n cuartos, es decir, que en este caso es el mismo total de datos, ese pues es lo que queremos, en este caso 1 y k pues el...
que hemos dividido la distribución en cuatro partes, sería 4 n cuartos, es decir, en la posición, en este caso, 10 dividido entre 4 es 2,5, por lo que tenemos que ver, lo primero es, en el caso 1 pueden ocurrir dos cosas, o bien que esta posición de n cuartos se encuentre entre dos frecuencias acumuladas de aquí, de esta columna de la tabla, por lo que si ocurriera ese caso, pues en este caso el... Este cuartil sería el valor de la variable, el valor del número de viajes, asociado a la frecuencia acumulada más grande que aparece en la tabla. Pero por el contrario, si esta frecuencia, este cuartil de cuartos coincidiera con una de las frecuencias acumuladas que se encuentran aquí en la tabla, pues entonces el cuartil, el valor sería la media.
entre el valor de la variable asociado a esta frecuencia y el valor siguiente. Bueno, pues en este caso hemos dicho que n cuartos, primer cuartil es 10 dividido entre 4 es 2,5, por lo tanto se encuentra entre estas dos frecuencias acumuladas de la tabla y siguiendo el caso 1 de esta regla de decisión, el primer cuartil correspondería a el valor de la variable, de la x asociado a esta frecuencia acumulada más grande, es decir, sería 8, primer cuartil sería 8. El segundo cuartil, ¿de acuerdo? Sería, en este caso, vamos a buscar el que ocupa la posición 2n cuartos o lo que es lo mismo n medios, es decir, coincidiría con la mediana, entonces 10, el total de datos dividido entre 2 sería 5 y, como si nos fijamos, 5 corresponde con una de las frecuencias acumuladas de la tabla, por lo tanto, este segundo cuartil o mediana, ¿de acuerdo?
Vamos a aplicar el caso 2 de nuestra regla de decisión al coincidir, ¿de acuerdo? Y va a ser la media entre el valor de la variable, el valor de los viajes asociado a esta frecuencia 8 y el siguiente, la media entre 8 y 9, 8,5. Y por último vamos a buscar el tercer cuartil que es el que ocupa la posición 3N cuartos, ¿de acuerdo?
Es decir, 3... por 10 30 dividido entre 4, 7,5 el que le corresponde la frecuencia acumulada 7,5 vamos aquí a la columna de frecuencias 7,5 está entre dos frecuencias acumuladas de la tabla por lo tanto vamos a aplicar el caso 1 de nuestra regla de decisión es decir que el tercer cuartil va a ser el valor de la variable asociado en este caso la frecuencia a la frecuencia acumulada más grande de las dos, es decir, asociado a ocho, es decir, va a ser nueve. Así podemos calcular manualmente los tres cuartiles y vamos a ver cómo lo haría nuestra función cuantiles del paquete estadística. ¿Qué hemos visto? Pues hemos visto que queremos la base de datos, es viajes vendidos, la variable que queremos es los viajes que ocupa en la columna 1, en nuestra base de datos, y le vamos a poner que las frecuencias son pesos igual a 2, puesto que las frecuencias están en la columna 2. Esto es lo que vamos a hacer.
Como queremos los cuartiles, no vamos a poner el argumento cortes, no vamos a decir nada, y por defecto nos va a calcular los tres cuartiles. Vamos a ejecutar este… esta instrucción, tal y como la tenemos, e inmediatamente vemos cómo sí que ha ocurrido los valores que nosotros hemos calculado manualmente, es decir, que el primer cuartil es 8, es decir, que el 25% de los empleados de esta agencia de viajes han vendido 8, el número de viajes que han vendido no supera el valor de 8, o el 50% de los empleados. de esta agencia de viajes pues el número de viajes que han vendido pues es menor o igual a 8,5 o por último el 75% de los empleados pues el número de viajes que ha vendido no supera el valor de 9 y así bueno pues calcularíamos esto vamos a a ver ahora cómo calcular otros tipo de cuantiles por ejemplo los quintiles es decir son cuatro valores que dividen la distribución en cinco partes iguales bueno y para eso vamos a hacerlo con una base de datos de las que tenemos aquí en el paquete, la base Startup, que son en este caso datos de 21 empresas Startup. Vamos primero a llamar a la base de datos, para eso con la instrucción data entre paréntesis Startup, vamos a ejecutar esta instrucción, aquí le damos a, aquí en este environment, aquí, y bueno, pues aquí podemos ver. ¿Cómo sería nuestra base de datos? Tenemos cuatro variables para un total de 21 empresas y vamos a calcular los quintiles, cuatro valores que van a dividir, en este caso, con los datos del beneficio ordenados en cinco partes iguales.
¿Cómo vamos a hacer esto? Aquí, como no hay frecuencias, son frecuencias unitarias, cada valor se repite una vez. Pues lo que vamos a hacer, pues la base de la función cuantiles, la base de datos Startup, queremos que sea para la variable que está en la columna 4, que es la del beneficio y no pone pesos, puesto que las frecuencias son unitarias, no hace falta decirle qué columna es, no hay ninguna columna para frecuencias y vamos a decirle en este caso que como queremos los quintiles, pues vamos a ponerle que esto va a ser un vector, ¿de acuerdo? Cortes igual a un vector en el cual tendríamos el primer quintil, ¿de acuerdo? Que sería en este caso, pues, 1 entre 5, 0,2, ¿de acuerdo?
El segundo quintil, pues, sería, respondería con el percentil 40, 0.4. El tercer quintil, pues, sería, pues, coincidiría. en este caso con el percentil 60 y por último pues el cuarto quintil, de acuerdo, pues 45 coincidiría con el percentil 80. Así le ponemos los cuatro quintiles y vamos a ejecutar esta instrucción y aquí tenemos por lo tanto calculados esos cuatro valores. que nos divide la distribución en cinco partes iguales donde en cada una de ellas tendríamos el 20% de los datos de las empresas de acuerdo aquí en el primer quintil estaría el primer 20% entre el primero y el segundo quintil el siguiente 20% entre el segundo y tercer quintil el siguiente 20% y bueno pues aquí tendríamos divididos los datos en cuatro en cinco partes iguales.
Y bueno, vamos a ir ahora a calcular los deciles. Vamos a ir a deciles con la base de datos de salario 2018 y además queremos que sean deciles que no representen solo a los trabajadores de la muestra, sino que representen en este caso a todos los trabajadores en general de la población. Para la base de datos de salario 2018. Vamos a llamar primero a esta base de datos. que es una que se encuentra en el paquete estadísticas, salarios 2018, con la instrucción data y entre comillas salarios 2018, vamos a ejecutarla y bueno, vamos a llamarla, aquí tenemos y bueno, vamos a calcular los deciles para, en este caso, vamos a verla. aquí está para el salario bruto anual de acuerdo que es salario bruto anual 1 2 3 4 5 6 está en la columna 7 de acuerdo de esta base de datos y además hemos dicho que vamos a introducir en la columna de pesos base los factores de elevación puesto que aquí vamos a ver en este caso que cada trabajador de la muestra pues nos dice cuántos trabajadores de la población estarían representados.
Bueno, pues aquí eso va a ser nuestra columna de pesos, que es nuestra variable de pesos que está en la columna 10 de la tabla. Bueno, pues la instrucción en este caso, aquí la tendríamos, cuantiles, la base de datos salarios 2018, la variable que hemos dicho que era el salario bruto anual, que está en la columna 7. de acuerdo, de la base de datos. Queremos que pesos, vamos a poner, sean los factores de elevación, de acuerdo, que cada valor, cada salario de cada trabajador de la muestra, pues, que multiplicarlo por el número de salarios de trabajadores de la población que representa y que vamos a calcular los deciles, es decir, son nueve valores que nos van a dividir la distribución en diez partes iguales.
Por eso vamos a poner cortes igual, esto es un vector, por si... En este caso vamos a poner el primer décil 0.1, el segundo décil, el tercer décil, el cuarto décil, quinto, sexto, séptimo, octavo y noveno. Ahora veremos otra instrucción que también nos pondría los déciles de una forma un poquito más rápida. Vamos a ver lo que va a salir en este caso.
Vamos a ejecutar la instrucción y aquí tenemos los nueve déciles. dividen la distribución en 10 partes iguales, es decir, que aquí el 10% de los trabajadores que menos cobran, pues fijaros que su salario bruto anual llega a 8.457,36 euros anuales, aquí del 20%, aquí tendríamos todos los porcentajes de deciles. Entonces, fijaros, el lugar para poner los cortes, en lugar de poner aquí, los nueve valores, ¿de acuerdo? Esto se puede poner de una forma un poquito más corta, la instrucción sería cortes y vamos a usar por la función secuencia, ¿de acuerdo? Es decir, que como es una secuencia, el primer valor de la secuencia sería 0,1, el último 0,9 y es una secuencia que va de 0,1 en 0,1.
Aquí le ponemos el valor de la secuencia y bueno, y mira, y al final... Vamos a ponerle el argumento exportar igual a true para que los valores, los nueve cuartiles, nos los exporte una hoja de cálculo. Y vamos a ver que exactamente nos va a dar el mismo resultado que hemos calculado con la instrucción anterior.
Vamos a ejecutar en este caso los cuartiles y podemos ver que efectivamente los valores que ha hecho ha sido de una forma un poquito más cortita. pues lo ha hecho aquí los tendríamos iguales y además vamos a ver en nuestro directorio de trabajo en donde teníamos aquí pues nuestro proyecto pues vamos a ver la hoja de cálculo donde están los resultados aquí en cuartiles aquí están cuantiles aquí están los resultados que nos ha exportado aquí están los cuartiles de la variedad de salario bruto anual pues aquí los tendríamos ya exportados y bueno pues Esto ha sido todo en cuanto al tutorial sobre el manejo de esta función cuantiles y recordar como siempre que en nuestro canal de YouTube de la magia de estadística podéis encontrar vídeos tutoriales para esta función y el resto de funciones de nuestro paquete y no olvidaros de suscribiros a nuestro canal. Bueno pues aquí acabamos, hasta luego, adiós.