Introducción a Pandas en Python

Aug 28, 2024

Introducción a Pandas en Python

Pandas es una de las librerías más populares para el análisis de datos en Python. Es especialmente útil por su capacidad para manejar datos estructurados de manera similar a Excel, pero con mayor potencia y flexibilidad.

Instalación de Pandas

  • Requisitos previos: Tener Python instalado.
  • Comando de instalación: pip install pandas
  • Importación en Python: import pandas as pd

DataFrames y Carga de Datos

  • DataFrames: Estructura de datos tabular similar a las tablas de Excel.
    • Compuestos por filas y columnas.
    • Cada columna tiene un tipo de dato único.
  • Carga de datos:
    • Archivos CSV, XLS (Excel) o JSON pueden ser importados a un DataFrame.
    • Ejemplo de carga: pd.read_csv('dataset.csv')

Visualización de Datos

  • Usar df.head() y df.tail() para mostrar las primeras y últimas filas.
  • df.describe() para obtener estadísticas descriptivas de los datos.

Transformación y Limpieza de Datos

  • Eliminar datos incompletos: df.dropna()
  • Rellenar datos incompletos: df.fillna(value)
  • Filtrado de datos:
    • Por condición: df[df['column'] > value]
    • Selección de columnas: df[['col1', 'col2']]

Filtrado y Selección Avanzada

  • Filtración por índices con df.iloc[].
  • Filtración por etiquetas con df.loc[].
  • Filtrado por condiciones múltiples usando operadores lógicos (&, |).

Creación de Nuevas Columnas

  • Aplicar funciones personalizadas para transformar datos.
  • Ejemplo: Crear una columna df['new_col'] = df['existing_col'].apply(func)
  • Usar axis=1 para aplicar funciones fila por fila.

Agrupación de Datos

  • Usar df.groupby('column') para agrupar datos.
  • Aplicar funciones de agregación: suma, media, máximo, etc.
  • Ejemplo: df.groupby('country')['likes'].mean()

Visualización de Datos con Matplotlib

  • Instalación: pip install matplotlib
  • Uso básico:
    • Gráficos de barras: df['column'].plot(kind='bar')
    • Gráficos de dispersión: df.plot.scatter(x='col1', y='col2')

Exportación de Datos

  • Convertir DataFrames a archivos CSV: df.to_csv('output.csv')

Notas Finales

  • Pandas es una herramienta muy poderosa para análisis de datos, pero lo cubierto es solo el inicio.
  • Se recomienda explorar la documentación oficial para un aprendizaje más profundo.