Please enable JavaScript.

Coggle requires JavaScript to display documents.

APRENDIZAJE SUPERVISADO - Coggle Diagram

- - - - El aprendizaje por corrección de error es un proceso donde el modelo aprende comparando la salida obtenida con la salida deseada.
      - Si la salida obtenida no coincide con la salida esperada, se calcula un error.
      - Después, el modelo corrige sus pesos para disminuir ese error.
      - El aprendizaje ocurre porque el modelo se equivoca, mide su equivocación y se ajusta.
      - Es muy utilizado en perceptrones y redes neuronales artificiales.
    - - Datos de entrada
        
        Son los valores que recibe el modelo para procesar.
        
        Ejemplo: horas de estudio, asistencia, edad, temperatura o características de una imagen.
      - Pesos
        
        Son valores que indican la importancia de cada entrada.
        
        El modelo modifica los pesos durante el entrenamiento.
        
        Si una entrada es más importante, su peso puede aumentar.
      - Sesgo o umbral
        
        Permite ajustar la activación de la neurona.
        
        Ayuda a que el modelo no dependa solamente de las entradas.
        
        Puede representarse como b o θ.
      - Salida obtenida
        
        Es el resultado generado por el modelo.
        
        Se representa generalmente con y.
      - Salida deseada
        
        Es la respuesta correcta esperada.
        
        Se representa generalmente con d.
      - Error
        
        Es la diferencia entre la salida deseada y la salida obtenida.
        
        Indica cuánto se equivocó el modelo.
      - Tasa de aprendizaje
        
        Controla el tamaño del ajuste aplicado a los pesos.
        
        Se representa con η.
        
        Si es muy alta, el modelo puede aprender de forma inestable.
        
        Si es muy baja, el modelo aprende lentamente.
    - - Fórmula del error
        
        e = d - y
        
        e = error
        
        d = salida deseada
        
        y = salida obtenida
      - Cambio de peso
        
        Δw = η · e · x
        
        Δw = cambio en el peso
        
        η = tasa de aprendizaje
        
        e = error
        
        x = entrada
      - Nuevo peso
        
        w nuevo = w anterior + Δw
        
        w nuevo = w anterior + η · e · x
      - Cálculo de salida
        
        y = f(w₁x₁ + w₂x₂ + ... + wₙxₙ + b)
        
        y = salida del modelo
        
        f = función de activación
        
        w = pesos
        
        x = entradas
        
        b = sesgo
      - Error cuadrático
        
        E = 1/2(d - y)²
        
        Se usa para medir el tamaño del error.
        
        Penaliza más los errores grandes.
    - - Ingresar los datos de entrada
        
        El modelo recibe los valores que debe analizar.
      - Calcular la salida
        
        Se multiplican las entradas por sus pesos.
        
        Se suma el sesgo.
        
        Se aplica una función de activación.
      - Comparar con la salida deseada
        
        Se revisa si la respuesta obtenida es igual o cercana a la correcta.
      - Calcular el error
        
        Se usa la fórmula e = d - y.
      - Corregir los pesos
        
        Si existe error, se ajustan los pesos usando la tasa de aprendizaje.
      - Repetir el entrenamiento
        
        El proceso se repite hasta reducir el error.
    - - Es un aprendizaje supervisado.
      - Necesita datos etiquetados.
      - Trabaja con una salida deseada.
      - Compara la salida obtenida con la salida esperada.
      - Calcula un error.
      - Corrige los pesos del modelo.
      - Aprende mediante repetición.
      - Busca minimizar el error.
      - Depende de la tasa de aprendizaje.
      - Se aplica en perceptrones y redes neuronales.
      - Es útil para clasificación y predicción.
    - - Regla del perceptrón
        
        Se usa en el perceptrón simple.
        
        Actualiza los pesos cuando la salida es incorrecta.
        
        Es útil para problemas de clasificación binaria.
        
        Fórmula: w nuevo = w anterior + η(d - y)x
        
        Proceso:
        
        Ingresar datos
        
        Calcular salida
        
        Comparar con la salida deseada
        
        Si hay error, actualizar pesos
        
        Si no hay error, mantener pesos
      - Regla Delta
        
        Utiliza el error para ajustar los pesos.
        
        Se usa cuando la salida puede ser continua.
        
        Se relaciona con funciones de activación diferenciables.
        
        Fórmula básica: Δw = η(d - y)x
        
        Fórmula ampliada: Δw = η(d - y)f'(net)x
        
        f'(net) = derivada de la función de activación
      - Descenso del gradiente
        
        Busca disminuir una función de error.
        
        Modifica los pesos en la dirección donde el error baja.
        
        Es como bajar una pendiente hasta encontrar el menor error.
        
        Fórmula: w nuevo = w anterior - η · ∇E(w)
        
        ∇E(w) = gradiente del error
      - Retropropagación del error
        
        También se llama backpropagation.
        
        Se usa en redes neuronales multicapa.
        
        Calcula el error en la salida.
        
        Envía el error hacia atrás por la red.
        
        Ajusta los pesos de las capas anteriores.
        
        Es fundamental en redes neuronales profundas.
    - - Permite que el modelo mejore con cada error.
      - Es fácil de entender.
      - Reduce el error progresivamente.
      - Se puede aplicar en perceptrones y redes neuronales.
      - Sirve para clasificación y predicción.
      - Es la base de muchos algoritmos de inteligencia artificial.
      - Permite entrenar modelos a partir de ejemplos conocidos.
    - - Necesita datos etiquetados.
      - Puede tardar si hay muchos datos.
      - Depende mucho de la tasa de aprendizaje.
      - Si la tasa es muy alta, el aprendizaje puede ser inestable.
      - Si la tasa es muy baja, el aprendizaje puede ser lento.
      - Puede aprender mal si los datos tienen errores.
      - El perceptrón simple no resuelve problemas no lineales complejos.
    - - Perceptrón simple
      - Redes neuronales artificiales
      - Clasificación de patrones
      - Reconocimiento de imágenes
      - Filtros de spam
      - Predicción de resultados
      - Procesamiento de texto
      - Procesamiento de voz
      - Sistemas de diagnóstico
      - Sistemas de recomendación
    - - Si la salida deseada es 1 y el modelo responde 0, se calcula el error.
      - e = d - y
      - e = 1 - 0
      - e = 1
      - Después se ajustan los pesos para que la próxima respuesta se acerque más a 1.
  - - - El aprendizaje por refuerzo es un método donde un agente aprende mediante recompensas o castigos.
      - El agente realiza acciones dentro de un entorno.
      - Si la acción es buena, recibe una recompensa.
      - Si la acción es mala, recibe una penalización o castigo.
      - El objetivo es aprender qué acciones generan mejores resultados.
      - Aunque normalmente se estudia como un tipo independiente de aprendizaje automático, en esta actividad puede explicarse como una forma de aprendizaje guiada por señales de evaluación.
    - - Agente
        
        Es quien aprende y toma decisiones.
        
        Puede ser un robot, un programa, un sistema inteligente o un jugador automático.
      - Entorno
        
        Es el espacio donde el agente actúa.
        
        El entorno responde a las acciones del agente.
      - Estado
        
        Es la situación actual en la que se encuentra el agente.
        
        Se representa como s.
      - Acción
        
        Es la decisión o movimiento que realiza el agente.
        
        Se representa como a.
      - Recompensa
        
        Es la señal positiva o negativa que recibe el agente.
        
        Se representa como r.
      - Política
        
        Es la estrategia que usa el agente para elegir acciones.
        
        Indica qué acción tomar en cada estado.
      - Valor del estado
        
        Indica qué tan conveniente es estar en un estado.
        
        Se representa como V(s).
      - Factor de descuento
        
        Indica la importancia de las recompensas futuras.
        
        Se representa con γ.
        
        Un valor alto considera más el futuro.
        
        Un valor bajo considera más la recompensa inmediata.
    - - Valor de un estado
        
        V(s) = r + γV(s')
        
        V(s) = valor del estado actual
        
        r = recompensa recibida
        
        γ = factor de descuento
        
        V(s') = valor del siguiente estado
      - Función de valor acción
        
        Q(s,a) = r + γ max Q(s',a')
        
        Q(s,a) = valor de realizar una acción en un estado
        
        s = estado actual
        
        a = acción realizada
        
        s' = siguiente estado
        
        a' = siguiente acción posible
      - Actualización de Q-Learning
        
        Q nuevo = Q anterior + α[r + γ max Q(s',a') - Q anterior]
        
        α = tasa de aprendizaje
        
        r = recompensa
        
        γ = factor de descuento
        
        Q anterior = valor aprendido previamente
    - - Observar el estado
        
        El agente identifica la situación actual.
      - Elegir una acción
        
        El agente decide qué hacer.
      - Ejecutar la acción
        
        La acción modifica el entorno.
      - Recibir recompensa o castigo
        
        El entorno entrega una señal de evaluación.
      - Evaluar la acción
        
        El agente identifica si la acción fue buena o mala.
      - Actualizar el conocimiento
        
        Se ajustan los valores o la política.
      - Repetir el proceso
        
        El agente mejora con la experiencia acumulada.
    - - Aprende por prueba y error.
      - Usa recompensas y castigos.
      - No siempre necesita una respuesta correcta inmediata.
      - Se enfoca en tomar decisiones.
      - Busca maximizar recompensas.
      - El aprendizaje ocurre mediante interacción con el entorno.
      - El agente mejora con la experiencia.
      - Puede trabajar con problemas secuenciales.
      - Considera consecuencias futuras.
      - Puede equilibrar exploración y explotación.
    - - Exploración
        
        El agente prueba nuevas acciones.
        
        Ayuda a descubrir mejores estrategias.
      - Explotación
        
        El agente usa las acciones que ya conoce.
        
        Ayuda a obtener recompensas conocidas.
      - Equilibrio
        
        El agente debe explorar para aprender, pero también explotar lo aprendido para obtener buenos resultados.
    - - Aprendizaje con política
        
        El agente aprende directamente una estrategia de acción.
        
        La política indica qué acción tomar en cada estado.
      - Aprendizaje basado en valor
        
        El agente aprende el valor de los estados o acciones.
        
        Busca elegir la acción con mayor valor.
      - Q-Learning
        
        Aprende una tabla de valores para elegir mejores acciones.
        
        No necesita conocer completamente el entorno.
        
        Fórmula: Q nuevo = Q anterior + α[r + γ max Q(s',a') - Q anterior]
      - SARSA
        
        Actualiza valores usando la acción realmente tomada.
        
        Considera el comportamiento actual del agente.
      - Deep Reinforcement Learning
        
        Combina aprendizaje por refuerzo con redes neuronales profundas.
        
        Se usa en problemas complejos como videojuegos, robótica y simulaciones.
    - - Permite aprender mediante experiencia.
      - Es útil para problemas de toma de decisiones.
      - No requiere que todas las respuestas estén previamente etiquetadas.
      - Puede adaptarse a entornos cambiantes.
      - Aprende estrategias para obtener mejores resultados.
      - Funciona en problemas donde las acciones tienen consecuencias futuras.
    - - Puede necesitar mucho tiempo de entrenamiento.
      - Requiere muchas pruebas.
      - El diseño de recompensas puede ser difícil.
      - Si la recompensa está mal definida, el agente aprende mal.
      - Puede cometer muchos errores durante el aprendizaje.
      - Puede ser complejo en entornos grandes.
    - - Robótica
      - Juegos inteligentes
      - Vehículos autónomos
      - Sistemas de recomendación
      - Control de procesos
      - Simulación de decisiones
      - Optimización de rutas
      - Automatización industrial
      - Agentes inteligentes
    - - Un robot debe aprender a caminar.
      - Si avanza correctamente, recibe recompensa.
      - Si cae o choca, recibe castigo.
      - Con muchas pruebas, aprende qué movimientos son mejores.
  - - - El aprendizaje estocástico es un método donde el modelo aprende usando muestras aleatorias de los datos.
      - En lugar de usar todo el conjunto de datos al mismo tiempo, selecciona ejemplos individuales o pequeños grupos.
      - Esto permite actualizar los pesos de forma progresiva.
      - Es muy usado en entrenamiento de redes neuronales y métodos de optimización.
    - - Muestras aleatorias
        
        Son datos seleccionados al azar del conjunto de entrenamiento.
        
        Permiten que el modelo aprenda de forma gradual.
      - Pesos
        
        Son los parámetros que el modelo ajusta durante el entrenamiento.
      - Función de error
        
        Mide la diferencia entre la salida obtenida y la salida esperada.
      - Gradiente
        
        Indica la dirección en la que el error aumenta.
        
        El modelo se mueve en sentido contrario para reducir el error.
      - Tasa de aprendizaje
        
        Controla el tamaño de cada actualización.
        
        Se representa con η o α.
      - Iteraciones
        
        Son las repeticiones del proceso de entrenamiento.
      - Épocas
        
        Una época ocurre cuando el modelo ha recorrido todos los datos de entrenamiento.
    - - Actualización general
        
        w nuevo = w anterior - η · ∇E(w)
        
        w = peso del modelo
        
        η = tasa de aprendizaje
        
        ∇E(w) = gradiente del error
      - Error cuadrático
        
        E = 1/2(d - y)²
        
        d = salida deseada
        
        y = salida obtenida
      - Actualización con muestra individual
        
        w nuevo = w anterior - η · ∇Eᵢ(w)
        
        Eᵢ(w) = error calculado para una muestra individual
      - Actualización por mini lote
        
        w nuevo = w anterior - η · promedio de gradientes del mini lote
        
        El mini lote es un grupo pequeño de datos seleccionados.
    - - Preparar los datos
        
        Se organiza el conjunto de entrenamiento.
      - Seleccionar una muestra aleatoria
        
        El modelo toma un dato o grupo pequeño de datos.
      - Realizar una predicción
        
        El modelo calcula una salida.
      - Calcular el error
        
        Se compara la salida obtenida con la salida deseada.
      - Calcular el gradiente
        
        Se determina cómo cambiar los pesos para disminuir el error.
      - Actualizar pesos
        
        Se modifican los pesos usando la tasa de aprendizaje.
      - Repetir el proceso
        
        Se toman nuevas muestras aleatorias y se continúa entrenando.
    - - Usa datos seleccionados aleatoriamente.
      - No necesita procesar todos los datos en cada actualización.
      - Actualiza los pesos con mayor frecuencia.
      - Puede entrenar más rápido en conjuntos grandes.
      - Introduce variación o ruido en el aprendizaje.
      - Puede escapar de mínimos locales.
      - Es útil para grandes cantidades de datos.
      - Depende de la tasa de aprendizaje.
      - Se usa mucho en redes neuronales.
    - - Descenso de gradiente por lotes
        
        Usa todos los datos para calcular una actualización.
        
        Puede ser más estable.
        
        Puede ser lento si hay muchos datos.
      - Descenso de gradiente estocástico
        
        Usa una sola muestra aleatoria por actualización.
        
        Es más rápido en conjuntos grandes.
        
        Puede ser más inestable por el ruido.
        
        Fórmula: w nuevo = w anterior - η · ∇Eᵢ(w)
      - Descenso de gradiente por mini lotes
        
        Usa pequeños grupos de datos.
        
        Combina estabilidad y velocidad.
        
        Es muy usado en redes neuronales modernas.
      - Entrenamiento aleatorio
        
        Los datos se mezclan antes de entrenar.
        
        Evita que el modelo aprenda patrones falsos por el orden de los datos.
    - - Es útil para grandes cantidades de datos.
      - Permite actualizaciones rápidas.
      - No necesita cargar todos los datos al mismo tiempo.
      - Puede mejorar la eficiencia del entrenamiento.
      - Ayuda a evitar que el modelo se estanque.
      - Se adapta bien a redes neuronales.
      - Puede trabajar con datos que llegan poco a poco.
    - - Puede ser inestable.
      - El error puede variar mucho entre iteraciones.
      - Necesita una tasa de aprendizaje bien elegida.
      - Si la tasa es alta, puede no converger.
      - Si la tasa es baja, puede tardar demasiado.
      - Requiere varias iteraciones.
      - El resultado puede cambiar por la aleatoriedad.
    - - Redes neuronales artificiales
      - Aprendizaje profundo
      - Optimización de modelos
      - Clasificación de imágenes
      - Procesamiento de lenguaje natural
      - Predicción de datos
      - Sistemas con grandes bases de datos
      - Entrenamiento en línea
    - - Un modelo tiene 1000 datos de entrenamiento.
      - En lugar de usar los 1000 datos juntos, toma un dato aleatorio.
      - Calcula la salida.
      - Calcula el error.
      - Actualiza los pesos.
      - Luego toma otro dato aleatorio y repite el proceso.