- Transformaciones de valores
Discretización: establecer un criterio por el cual dividir los valores de un atributo en dos o más conjuntos distintos
Objetivo: mantener la información
asociada al atributo que se discretiza.
Normalización: situar los datos sobre escala de valores que permita la comparación de los valores en rangos diferentes.
Normalización por la diferencia: distancia del valor con respecto al máximo de un atributo
Escalado decimal: reduce el valor de un atributo en un cierto número de potencias de 10.
Normalización por el máximo: Encontrar el max de un atributo y dividir cada valor del campo entre este
Normalización basada en la desviación estándar: división entre el valor menos la media del atributo entre la desviación estándar
Razones para discretizar:
menor coste computacional, mayor velocidad en el proceso de aprendizaje, Menor tamaño de almacenamiento, y Menor tamaño del modelo resultante. Inconveniente: Pérdida de información sobre los valores continuos.
Obtención de intervalos
de discretización
Método de partición basado
en el algoritmo k-means
Método de partición en
intervalos de la misma amplitud
3) Dividir el rango de valores [xmin,xmax] en k intervalos donde la distancia
2) Fijar el número k de intervalos que se desea alcanzar.
1) Calcular el valor mínimo xmin y el valor máximo xmax.
indicando la frecuencia que desea obtener para los intervalos.
indicando el número de intervalos que hay que obtener
calcular para cada muestra si su distancia al centroide del intervalo donde se encuentra es menor a la distancia al centroide del intervalo vecino
Si la distancia es menor o igual, la muestra permanece en el mismo intervalo
Si la distancia es mayor, la muestra cambia de intervalo.