1. Transformaciones de valores

Discretización: establecer un criterio por el cual dividir los valores de un atributo en dos o más conjuntos distintos

Objetivo: mantener la información
asociada al atributo que se discretiza.

Normalización: situar los datos sobre escala de valores que permita la comparación de los valores en rangos diferentes.

Normalización por la diferencia: distancia del valor con respecto al máximo de un atributo

Escalado decimal: reduce el valor de un atributo en un cierto número de potencias de 10.

Normalización por el máximo: Encontrar el max de un atributo y dividir cada valor del campo entre este

Normalización basada en la desviación estándar: división entre el valor menos la media del atributo entre la desviación estándar

Razones para discretizar:
menor coste computacional, mayor velocidad en el proceso de aprendizaje, Menor tamaño de almacenamiento, y Menor tamaño del modelo resultante. Inconveniente: Pérdida de información sobre los valores continuos.

Obtención de intervalos
de discretización

Método de partición basado
en el algoritmo k-means

Método de partición en
intervalos de la misma amplitud

3) Dividir el rango de valores [xmin,xmax] en k intervalos donde la distancia

2) Fijar el número k de intervalos que se desea alcanzar.

1) Calcular el valor mínimo xmin y el valor máximo xmax.

indicando la frecuencia que desea obtener para los intervalos.

indicando el número de intervalos que hay que obtener

calcular para cada muestra si su distancia al centroide del intervalo donde se encuentra es menor a la distancia al centroide del intervalo vecino

Si la distancia es menor o igual, la muestra permanece en el mismo intervalo

Si la distancia es mayor, la muestra cambia de intervalo.