Please enable JavaScript.
Coggle requires JavaScript to display documents.
3 FORMAS DE LLEVAR A CABO EL APRENDIZAJE SUPERVISADO - Coggle Diagram
3 FORMAS DE LLEVAR A CABO EL APRENDIZAJE SUPERVISADO
APRENDIZAJE ESTOCÁSTICO
Definición: Se define como un método de optimización donde el ajuste de los pesos se realiza de forma probabilística. En lugar de calcular el gradiente exacto de la función de error sobre todos los ejemplos (como en el modo "batch" o por lotes), el aprendizaje estocástico estima dicho gradiente basándose en un único ejemplo de entrenamiento elegido al azar (o un subconjunto muy pequeño).
Características
Aleatoriedad: Introduce "ruido" en el proceso de aprendizaje, lo que ayuda al modelo a saltar de mínimos locales hacia el mínimo global.
Eficiencia en memoria: No requiere cargar todo el dataset para realizar una actualización, lo que lo hace ideal para Big Data.
Velocidad de convergencia: Aunque el camino hacia la solución es "zigzagueante" o errático, suele llegar a una buena solución mucho más rápido que los métodos deterministas.
Aprendizaje en línea (Online Learning): Permite actualizar el modelo conforme llegan nuevos datos, sin necesidad de reentrenar todo desde cero.
Formula
El algoritmo más representativo es el Descenso de Gradiente Estocástico (SGD).
Mientras que en el descenso de gradiente estándar se busca minimizar la función de costo total J(w) para N ejemplos:
$$J(w) = \frac{1}{N} \sum_{i=1}^{N} Q_i(w)$$
En el aprendizaje estocástico, la actualización del peso W se realiza para cada ejemplo $i$ individual:$$w_{n+1} = w_n - \eta \nabla Q_i(w_n)$$
Aplicaciones
Sistemas de Recomendación en Tiempo Real: Plataformas que ajustan sus sugerencias basándose en el último clic o interacción del usuario de forma inmediata.
Redes Neuronales Profundas (Deep Learning): Casi todas las arquitecturas modernas (CNN, Transformers) utilizan SGD o sus variantes (Adam, RMSprop) para poder entrenar con millones de parámetros y gigabytes de datos.
APRENDIZAJE POR CONEXIÓN DE ERROR
Definición.- Es un tipo de aprendizaje supervisado donde el sistema genera una salida ante un estímulo de entrada y la compara con un valor "objetivo".
Características.-
Iterativo
: El proceso se repite múltiples veces (épocas) sobre el conjunto de datos hasta que el error es mínimo o aceptable.
Localización del error
: El ajuste de cada peso depende directamente de cuánto contribuyó ese peso específico al error total.
Supervisado
: Requiere de un "maestro" o etiqueta que indique cuál es el resultado correcto para cada entrada
Minimización
: Generalmente busca alcanzar el mínimo global de una función de costo mediante algoritmos como el Descenso del Gradiente.
Formula
Señal del Error: Error = Yd - Y, donde si: Error = 0, se continua con el cálculo, y Error =/ 0, se recalculan los pesos.
Recalculo de Pesos: W = Wi + (Factor de aprendizaje x Error x Xi)
Aplicaciones
Reconocimiento de Patrones
: Clasificación de imágenes o dígitos manuscritos, donde el sistema ajusta sus pesos hasta que identifica correctamente la etiqueta de la imagen.
Procesamiento de Lenguaje Natural (NLP)
: Entrenamiento de modelos para predecir la siguiente palabra en una secuencia, corrigiéndose según el texto real.
El aprendizaje supervisado es una técnica de machine learning que utiliza conjuntos de datos etiquetados para entrenar modelos de inteligencia artificial (IA) para identificar los patrones y relaciones subyacentes.
APRENDIZAJE AUTOMATICO
APRENDIZAJE POR REFUERZO
Definición: Es un área del aprendizaje automático inspirada en la psicología conductista. Un agente toma decisiones en un entorno con el objetivo de maximizar una recompensa acumulada a largo plazo. El agente no recibe instrucciones sobre qué acciones tomar, sino que debe descubrirlas a través del ensayo y error.
Características
Ausencia de supervisor: No hay un conjunto de datos con "respuestas correctas". Solo hay una señal de recompensa (positiva o negativa).
Búsqueda de objetivo: El agente se enfoca en resolver un problema completo, no solo en reconocer patrones.
Retroalimentación retardada: Una acción tomada ahora puede afectar las recompensas no solo de inmediato, sino también en el futuro (problema de asignación de crédito).
Exploración vs. Explotación: El agente debe equilibrar entre probar nuevas acciones (exploración) y usar el conocimiento que ya tiene para obtener recompensas (explotación).
Formula
FUNCION DE VALOR Q: Q(s, a) <-- Q (s, a) + a [r + y max Q (s', a') - Q (s, a)]
DONDE:
s: Estado actual.
a:Acción tomada.
alfa: Tasa de aprendizaje.
r: Recompensa inmediata recibida.
gamma: Factor de descuento (determina la importancia de las recompensas futuras; entre 0 y 1).
s':Nuevo estado después de la acción.
max Q(s', a'): El valor máximo estimado para el siguiente estado.
Aplicaciones
Juegos y Estrategia: Es el método detrás de sistemas famosos como AlphaGo (Google DeepMind) o agentes que juegan videojuegos competitivos (Dota 2, StarCraft II) a nivel profesional.
Robótica: Enseñar a un robot a caminar, equilibrarse o manipular objetos sin programar cada movimiento individual.