Por: Guido Fernandez
Proyecto de Análisis Exploratorio de Datos (EDA) con Pensamiento Computacional
1. Definición del Problema
Supongamos que queremos realizar un análisis exploratorio de datos sobre las ventas mensuales de una tienda ficticia. El objetivo es entender la distribución de las ventas, identificar patrones estacionales y explorar posibles relaciones con otras variables ficticias.
2. Generación de Datos Ficticios
Generaremos datos ficticios de ventas mensuales y otras variables relacionadas.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# Generar datos ficticios
np.random.seed(42)
meses = pd.date_range(start='2022-01-01', end='2023-12-01', freq='M')
ventas = np.random.normal(loc=50000, scale=10000, size=len(meses))
gastos = np.random.normal(loc=15000, scale=5000, size=len(meses))
publicidad = np.random.normal(loc=8000, scale=2000, size=len(meses))
# Crear DataFrame
df = pd.DataFrame({
'Mes': meses,
'Ventas': ventas,
'Gastos': gastos,
'Publicidad': publicidad
})
3. Análisis Exploratorio de Datos
Realizaremos un análisis exploratorio de datos para entender la distribución y las relaciones entre las variables.
# Visualización de las ventas a lo largo del tiempo
plt.figure(figsize=(12, 6))
sns.lineplot(x='Mes', y='Ventas', data=df, marker='o', label='Ventas')
plt.title('Ventas Mensuales a lo largo del Tiempo')
plt.xlabel('Mes')
plt.ylabel('Ventas')
plt.xticks(rotation=45)
plt.legend()
plt.show()
# Visualización de la distribución de las ventas
plt.figure(figsize=(10, 6))
sns.histplot(df['Ventas'], bins=20, kde=True, color='skyblue')
plt.title('Distribución de Ventas Mensuales')
plt.xlabel('Ventas')
plt.ylabel('Frecuencia')
plt.show()
# Relación entre ventas y gastos
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Gastos', y='Ventas', data=df, color='coral')
plt.title('Relación entre Gastos y Ventas')
plt.xlabel('Gastos')
plt.ylabel('Ventas')
plt.show()
4. Estadísticas Descriptivas y ANALISIS
Calculemos estadísticas descriptivas para comprender mejor las variables.
# Estadísticas descriptivas
estadisticas_ventas = df['Ventas'].describe()
estadisticas_gastos = df['Gastos'].describe()
estadisticas_publicidad = df['Publicidad'].describe()
# Imprimir estadísticas
print("Estadísticas de Ventas:")
print(estadisticas_ventas)
print("\nEstadísticas de Gastos:")
print(estadisticas_gastos)
print("\nEstadísticas de Publicidad:")
print(estadisticas_publicidad)
RESULTADOS
Estadísticas de Ventas:
count 23.000000
mean 49078.882367
std 9560.053445
min 30867.197553
25% 44841.190424
50% 47742.236995
75% 55196.370983
max 65792.128155
Name: Ventas, dtype: float64
Estadísticas de Gastos:
count 23.000000
mean 13188.655153
std 4444.163971
min 5201.649381
25% 9478.238734
50% 13494.481522
75% 15920.573793
max 24261.390923
Name: Gastos, dtype: float64
Estadísticas de Publicidad:
count 23.000000
mean 8144.871801
std 1698.889932
min 4473.919689
25% 7060.186991
50% 8648.167939
75% 9743.805942
max 10712.480057
Name: Publicidad, dtype: float64
5. Conclusiones y Recomendaciones
Basándonos en los resultados del análisis exploratorio de datos, podríamos formular conclusiones sobre patrones de ventas, estacionalidad, relaciones con gastos y publicidad, etc.
6. Documentación
Documenta cada paso del proyecto, desde la generación de datos hasta las conclusiones obtenidas. Esto facilitará la comprensión y replicación del análisis.
7. Presentación de Resultados
Crea informes o presentaciones que resuman los resultados del análisis, incluyendo visualizaciones, estadísticas y conclusiones.
Este proyecto básico de EDA puede ser expandido y personalizado según las características específicas de tus datos y los objetivos del análisis exploratorio.
No hay comentarios:
Publicar un comentario