Introducción a Pandas en Python
Pandas es una de las librerías más populares para el análisis de datos en Python. Es especialmente útil por su capacidad para manejar datos estructurados de manera similar a Excel, pero con mayor potencia y flexibilidad.
Instalación de Pandas
- Requisitos previos: Tener Python instalado.
- Comando de instalación:
pip install pandas
- Importación en Python:
import pandas as pd
DataFrames y Carga de Datos
- DataFrames: Estructura de datos tabular similar a las tablas de Excel.
- Compuestos por filas y columnas.
- Cada columna tiene un tipo de dato único.
- Carga de datos:
- Archivos CSV, XLS (Excel) o JSON pueden ser importados a un DataFrame.
- Ejemplo de carga:
pd.read_csv('dataset.csv')
Visualización de Datos
- Usar
df.head()
y df.tail()
para mostrar las primeras y últimas filas.
df.describe()
para obtener estadísticas descriptivas de los datos.
Transformación y Limpieza de Datos
- Eliminar datos incompletos:
df.dropna()
- Rellenar datos incompletos:
df.fillna(value)
- Filtrado de datos:
- Por condición:
df[df['column'] > value]
- Selección de columnas:
df[['col1', 'col2']]
Filtrado y Selección Avanzada
- Filtración por índices con
df.iloc[]
.
- Filtración por etiquetas con
df.loc[]
.
- Filtrado por condiciones múltiples usando operadores lógicos (&, |).
Creación de Nuevas Columnas
- Aplicar funciones personalizadas para transformar datos.
- Ejemplo: Crear una columna
df['new_col'] = df['existing_col'].apply(func)
- Usar
axis=1
para aplicar funciones fila por fila.
Agrupación de Datos
- Usar
df.groupby('column')
para agrupar datos.
- Aplicar funciones de agregación: suma, media, máximo, etc.
- Ejemplo:
df.groupby('country')['likes'].mean()
Visualización de Datos con Matplotlib
- Instalación:
pip install matplotlib
- Uso básico:
- Gráficos de barras:
df['column'].plot(kind='bar')
- Gráficos de dispersión:
df.plot.scatter(x='col1', y='col2')
Exportación de Datos
- Convertir DataFrames a archivos CSV:
df.to_csv('output.csv')
Notas Finales
- Pandas es una herramienta muy poderosa para análisis de datos, pero lo cubierto es solo el inicio.
- Se recomienda explorar la documentación oficial para un aprendizaje más profundo.