Overview
La clase se centró en el manejo de data frames en R, la importancia de paquetes y librerías, y la exploración de conjuntos de datos como Palmer Penguins.
Introducción a Data Frames en R
- Un data frame es una estructura de datos en R organizada en filas (observaciones) y columnas (variables).
- Es ideal para manejar bases de datos pequeñas o medianas en análisis exploratorio.
- Los data frames pueden crearse importando archivos .csv usando funciones como
read.csv
o read_csv
.
Exploración y Limpieza de Datos
- Es clave reconocer y tratar valores ausentes; estos pueden presentarse como
NA
o celdas vacías.
- Se deben definir criterios para manejar datos faltantes: eliminar, sustituir o imputar valores.
- La función
str()
permite ver la estructura del data frame: número de observaciones y variables.
View()
muestra el contenido del data frame en una ventana dedicada.
- Es fundamental depurar y limpiar los datos antes de análisis avanzados o visualizaciones.
Uso de Paquetes y Librerías en R
- Un paquete es un conjunto de librerías, que a su vez contienen funciones, datos y documentación.
- Se instala un paquete con
install.packages("paquete")
(una vez) y se carga cada sesión con library(paquete)
.
Tidyverse
es un paquete muy usado que agrupa librerías como ggplot2, readr, dplyr, etc.
- Para reproducibilidad, se recomienda documentar en un script todas las librerías necesarias.
Scripts y Consola en RStudio
- La consola se usa para pruebas rápidas y ejecutar comandos directamente.
- Los scripts almacenan comandos secuenciales, permitiendo reproducir análisis o compartir el proceso.
- Se recomienda anotar los pasos y librerías usadas en los scripts para facilitar su replicación.
Dataset Palmer Penguins
- Se instala con
install.packages("palmerpenguins")
y se carga con library(palmerpenguins)
.
- El dataset
penguins
contiene 344 observaciones y 8 variables sobre pingüinos de distintas especies e islas.
- Comandos como
head(penguins)
y tail(penguins)
muestran primeras y últimas filas; str(penguins)
muestra su estructura.
- Para tablas de frecuencia se usa por ejemplo
table(penguins$species)
.
Vectores en R
- Los vectores, arreglos y matrices en R son homogéneos (no admiten diferentes tipos de datos).
- Si se intenta crear un vector mixto, R convertirá todos los elementos al tipo más general (usualmente texto).
Key Terms & Definitions
- Data Frame — Estructura de datos en R con filas (observaciones) y columnas (variables).
- Paquete (Package) — Colección de librerías que amplían funciones en R.
- Librería (Library) — Conjunto de funciones, datos y documentación específicos.
- NA — Valor ausente o "no disponible" en un dataset.
- Script — Archivo secuencial de comandos y anotaciones reproducibles.
- Consola — Interfaz donde se ejecutan comandos de R directamente.
- Dataset — Conjunto de datos organizados para análisis.
Action Items / Next Steps
- Practicar la importación y exploración de data frames en R utilizando el dataset Palmer Penguins.
- Documentar y guardar los pasos y librerías utilizadas en scripts de R.
- Investigar y probar funciones de limpieza de datos en R (imputación, eliminación de NAs, transformación de tipos).