🗃️

Manejo de Data Frames en R

Sep 9, 2025

Overview

La clase se centró en el manejo de data frames en R, la importancia de paquetes y librerías, y la exploración de conjuntos de datos como Palmer Penguins.

Introducción a Data Frames en R

  • Un data frame es una estructura de datos en R organizada en filas (observaciones) y columnas (variables).
  • Es ideal para manejar bases de datos pequeñas o medianas en análisis exploratorio.
  • Los data frames pueden crearse importando archivos .csv usando funciones como read.csv o read_csv.

Exploración y Limpieza de Datos

  • Es clave reconocer y tratar valores ausentes; estos pueden presentarse como NA o celdas vacías.
  • Se deben definir criterios para manejar datos faltantes: eliminar, sustituir o imputar valores.
  • La función str() permite ver la estructura del data frame: número de observaciones y variables.
  • View() muestra el contenido del data frame en una ventana dedicada.
  • Es fundamental depurar y limpiar los datos antes de análisis avanzados o visualizaciones.

Uso de Paquetes y Librerías en R

  • Un paquete es un conjunto de librerías, que a su vez contienen funciones, datos y documentación.
  • Se instala un paquete con install.packages("paquete") (una vez) y se carga cada sesión con library(paquete).
  • Tidyverse es un paquete muy usado que agrupa librerías como ggplot2, readr, dplyr, etc.
  • Para reproducibilidad, se recomienda documentar en un script todas las librerías necesarias.

Scripts y Consola en RStudio

  • La consola se usa para pruebas rápidas y ejecutar comandos directamente.
  • Los scripts almacenan comandos secuenciales, permitiendo reproducir análisis o compartir el proceso.
  • Se recomienda anotar los pasos y librerías usadas en los scripts para facilitar su replicación.

Dataset Palmer Penguins

  • Se instala con install.packages("palmerpenguins") y se carga con library(palmerpenguins).
  • El dataset penguins contiene 344 observaciones y 8 variables sobre pingüinos de distintas especies e islas.
  • Comandos como head(penguins) y tail(penguins) muestran primeras y últimas filas; str(penguins) muestra su estructura.
  • Para tablas de frecuencia se usa por ejemplo table(penguins$species).

Vectores en R

  • Los vectores, arreglos y matrices en R son homogéneos (no admiten diferentes tipos de datos).
  • Si se intenta crear un vector mixto, R convertirá todos los elementos al tipo más general (usualmente texto).

Key Terms & Definitions

  • Data Frame — Estructura de datos en R con filas (observaciones) y columnas (variables).
  • Paquete (Package) — Colección de librerías que amplían funciones en R.
  • Librería (Library) — Conjunto de funciones, datos y documentación específicos.
  • NA — Valor ausente o "no disponible" en un dataset.
  • Script — Archivo secuencial de comandos y anotaciones reproducibles.
  • Consola — Interfaz donde se ejecutan comandos de R directamente.
  • Dataset — Conjunto de datos organizados para análisis.

Action Items / Next Steps

  • Practicar la importación y exploración de data frames en R utilizando el dataset Palmer Penguins.
  • Documentar y guardar los pasos y librerías utilizadas en scripts de R.
  • Investigar y probar funciones de limpieza de datos en R (imputación, eliminación de NAs, transformación de tipos).