Please enable JavaScript.
Coggle requires JavaScript to display documents.
2.10 Discretización y bucketización. - Coggle Diagram
2.10 Discretización y bucketización.
son técnicas útiles para transformar datos continuos en datos categóricos o discretos. Vamos a hablar sobre estas dos técnicas y cómo puedes implementarlas en Python utilizando bibliotecas comunes como pandas y sklearn.
Discretización
La discretización consiste en dividir datos continuos en segmentos o intervalos discretos. Es útil para reducir la granularidad de los datos y facilitar análisis como clasificación o análisis de frecuencias.
Ejemplo: Discretizar con pandas.cut()
import pandas as pd
Creamos una muestra de datos continuos
data = {'Edades': [18, 22, 25, 28, 30, 35, 45, 50, 60, 70]}
df = pd.DataFrame(data)
Dividimos las edades en 3 grupos
df['Edad_Grupos'] = pd.cut(df['Edades'], bins=3)
print(df)
Buquetización (Bucketing)
La buquetización es un tipo especial de discretización donde se agrupan valores en "cubos" (buckets) según ciertos criterios, a menudo utilizados para agrupar datos con una distribución desigual o para preparar datos para algoritmos de aprendizaje automático.
ejemplo
from sklearn.preprocessing import KBinsDiscretizer
import numpy as np
Creamos una muestra de datos continuos
data = np.array([18, 22, 25, 28, 30, 35, 45, 50, 60, 70]).reshape(-1, 1)
Discretizamos los datos en 4 cubos usando igual ancho
discretizer = KBinsDiscretizer(n_bins=4, encode='ordinal', strategy='uniform')
Aplicamos la discretización
discrete_data = discretizer.fit_transform(data)
print("Datos discretizados:")
print(discrete_data)