Por: Guido Fernandez
Proyecto de Análisis Exploratorio de Datos con Pensamiento Computacional
1. Definición del Problema
Identifica el problema o pregunta que quieres abordar en el análisis exploratorio de datos (EDA). Por ejemplo, podrías explorar la distribución de edades en una población ficticia.
2. Generación de Datos Ficticios
Utiliza Python para generar datos ficticios que simulen el escenario del problema. Puedes hacer esto utilizando bibliotecas como Faker o numpy.
3. Análisis Exploratorio de Datos
Utiliza técnicas de EDA para comprender mejor los datos. Comienza con un resumen estadístico y visualización de los datos.
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# Generar datos ficticios de edades
np.random.seed(42)
edades = np.random.normal(loc=30, scale=10, size=1000
4. Identificación de Patrones y Tendencias
Explora patrones en los datos y busca posibles tendencias. Puedes utilizar gráficos adicionales para esto.
media_edad = np.mean(edades)
mediana_edad = np.median(edades)
std_edad = np.std(edades)
print(f"Media de Edades: {media_edad:.2f}")
print(f"Mediana de Edades: {mediana_edad:.2f}")
print(f"Desviación Estándar de Edades: {std_edad:.2f}")
# Visualización de la distribución
plt.figure(figsize=(10, 6))
sns.histplot(edades, kde=True, bins=30, color='skyblue')
plt.title('Distribución de Edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()
RESULTADOS:
Media de Edades: 30.19
Mediana de Edades: 30.25
Desviación Estándar de Edades: 9.79
plt.figure(figsize=(8, 6))
sns.boxplot(x=edades, color='lightcoral')
plt.title('Boxplot de Edades')
plt.xlabel('Edad')
plt.show()
# Scatterplot para explorar relaciones con otra variable ficticia
ingresos = np.random.normal(loc=50000, scale=15000, size=1000)
plt.figure(figsize=(10, 6))
sns.scatterplot(x=edades, y=ingresos, color='green')
plt.title('Relación entre Edad e Ingresos')
plt.xlabel('Edad')
plt.ylabel('Ingresos')
plt.show()
No hay comentarios:
Publicar un comentario