Please enable JavaScript.
Coggle requires JavaScript to display documents.
APRENDIZAJE SUPERVISADO - Coggle Diagram
APRENDIZAJE SUPERVISADO
NODO CENTRAL: APRENDIZAJE SUPERVISADO
Definición: Paradigma de IA donde un algoritmo aprende una función de mapeo desde variables de entrada ($x$) a una variable de salida ($y$) usando pares de entrenamiento etiquetados.
Objetivo: Minimizar la pérdida para predecir correctamente datos nunca antes vistos.
RAMA 1: APRENDIZAJE POR CORRECCIÓN DE ERROR
Concepto: Ajuste de pesos basado en la retroalimentación directa del error cometido en la salida.
Proceso: Entrada $\rightarrow$ Salida calculada ($y$) $\rightarrow$ Comparación con deseada ($d$) $\rightarrow$ Cálculo de Error ($e$) $\rightarrow$ Ajuste de pesos ($\Delta w$).
Fórmulas:
Error: $e_j(n) = d_j(n) - y_j(n)$
Regla Delta: $\Delta w_{ji} = \eta \cdot e_j \cdot x_i$
Ventajas:
Simplicidad: Es el método más intuitivo y fácil de programar (ej. Perceptrón).
Convergencia: Muy rápido en problemas donde los datos son linealmente separables.
Estabilidad: Con una tasa de aprendizaje ($\eta$) adecuada, el error disminuye de forma constante.
Desventajas:
Dependencia del Maestro: Requiere que cada dato tenga una etiqueta perfecta; si el dato está mal etiquetado, el modelo falla.
Mínimos Locales: En funciones complejas, puede quedar atrapado en una solución "buena" pero no en la mejor (óptima global).
Sensibilidad al Ruido: Valores atípicos (outliers) pueden distorsionar drásticamente el ajuste de los pesos.
RAMA 2: APRENDIZAJE POR REFUERZO
Concepto: Aprendizaje basado en la experiencia y la interacción (Agente-Entorno) mediante un sistema de premios y castigos.
Proceso: El agente observa un estado ($s$), ejecuta una acción ($a$), recibe una recompensa ($r$) y pasa a un nuevo estado ($s'$).
Fórmula (Q-Learning):
$$Q(s, a) \leftarrow Q(s, a) + \alpha [r + \gamma \max_{a'} Q(s', a') - Q(s, a)]$$
Ventajas:
No requiere etiquetas: No necesita que alguien le diga la respuesta correcta, solo si lo hizo bien o mal al final.
Comportamiento Complejo: Capaz de resolver tareas donde la solución requiere muchos pasos (ej. jugar ajedrez o manejar un dron).
Adaptabilidad: El modelo sigue aprendiendo y ajustándose incluso si el entorno cambia.
Desventajas:
Costo Computacional: Requiere una cantidad inmensa de datos y tiempo de simulación para ser efectivo.
Problema de la Recompensa: Si la función de recompensa está mal diseñada, el agente puede "engañar" al sistema para obtener puntos sin resolver el problema.
Inestabilidad: Al principio, el comportamiento es puramente aleatorio y puede tardar mucho en mostrar resultados.
RAMA 3: APRENDIZAJE ESTOCÁSTICO
Concepto: Método probabilístico que introduce aleatoriedad en el ajuste de parámetros para explorar mejores soluciones.
Proceso: Perturbación aleatoria $\rightarrow$ Medición de Energía ($E$) $\rightarrow$ Aceptación del cambio basada en probabilidad (Criterio de Metrópolis).
Fórmula (Probabilidad):
Ventajas:
Salto de Mínimos Locales: La aleatoriedad permite "escapar" de soluciones mediocres donde otros métodos se quedan atascados.
Optimización Global: Es excelente para encontrar la mejor solución en problemas con miles de variables (optimización combinatoria).
Robustez: Tolera mejor los datos con mucho ruido o errores.
Desventajas:
Lentitud Extrema: El proceso de "enfriamiento" (bajar el parámetro $T$) debe ser muy lento para funcionar, lo que consume mucho tiempo.
Difícil de Ajustar: Elegir la temperatura inicial ($T$) y la velocidad de enfriamiento es más un arte que una ciencia exacta.
No determinista: Ejecutar el mismo algoritmo dos veces puede dar resultados ligeramente diferentes.