Please enable JavaScript.
Coggle requires JavaScript to display documents.
TEMA 5: APRENDIZAJE Y ADAPTACIÓN EN INTELIGENCIA ARTIFICIAL - Coggle…
TEMA 5
: APRENDIZAJE Y ADAPTACIÓN EN INTELIGENCIA ARTIFICIAL
Concepto de Aprendizaje y Adaptación
Aprendizaje
Proceso mediante el cual un agente mejora su desempeño a partir de la experiencia
Puede cambiar su representación de la información y su forma de procesarla
Adaptación
Ajuste del agente a su entorno para optimizar su desempeño
No siempre implica aprendizaje explícito, sino ajustes en el comportamiento
Redes Neuronales Artificiales (NN)
Introducción a las Redes Neuronales
Inspiradas en la estructura del cerebro
Procesamiento distribuido basado en conexiones entre neuronas artificiales
Uso de pesos sinápticos ajustables para aprender patrones a partir de datos
Tipos de Aprendizaje en Redes Neuronales
Aprendizaje supervisado
: Se entrenan con datos etiquetados (ejemplo: clasificación de imágenes)
Aprendizaje no supervisado
: Encuentran patrones en datos sin etiquetas (ejemplo: clustering)
Aprendizaje por refuerzo
: Aprenden a través de recompensas y castigos (ejemplo: agentes autónomos en juegos)
Componentes de una Red Neuronal
Neuronas
: Unidades de procesamiento con función de activación
Capas
Capa de entrada
: Recibe los datos
Capas ocultas
: Procesamiento intermedio
Capa de salida
: Genera la respuesta del modelo
Pesos sinápticos
: Ajustables mediante algoritmos de entrenamiento
Algoritmo de Entrenamiento: Backpropagation
Método basado en el cálculo de gradientes
Función de error
: Diferencia entre salida deseada y salida obtenida
Descenso del gradiente
: Ajusta los pesos para minimizar el error
Tipos de Redes Neuronales
Perceptrón
: Red más simple, solo capaz de aprender separaciones lineales
Multilayer Perceptron (MLP)
: Redes con múltiples capas y funciones de activación no lineales
Redes convolucionales (CNNs)
: Especializadas en el procesamiento de imágenes
Redes recurrentes (RNNs)
: Ideales para datos secuenciales, como texto y series temporales
Deep Learning
: Redes neuronales profundas con muchas capas ocultas
Algoritmos Genéticos (GA)
Fundamentos de los Algoritmos Genéticos
Inspirados en la evolución biológica
Utilizan selección, mutación y recombinación para encontrar soluciones óptimas
Aplicados en problemas de optimización y aprendizaje automático
Componentes de un Algoritmo Genético
Población
: Conjunto de soluciones potenciales
Individuos
: Cada solución posible representada como un "cromosoma"
Función de evaluación
: Determina la calidad de cada solución
Selección
: Se eligen los mejores individuos para reproducirse
Operadores genéticos
Crossover
: Intercambio de información entre individuos
Mutación
: Alteración aleatoria de genes para explorar nuevas soluciones
Proceso de un Algoritmo Genético
Inicialización de la población.
Evaluación de la aptitud de cada individuo.
Selección de los mejores individuos.
Aplicación de crossover y mutación.
Reemplazo de la población y repetición hasta alcanzar una solución óptima.
Aplicaciones de los Algoritmos Genéticos
Optimización de trayectorias (ejemplo: problema del viajante - TSP)
Diseño de estructuras (ejemplo: optimización de boquillas en NASA)
Ajuste de parámetros en modelos de aprendizaje automático
Aprendizaje por Refuerzo (RL)
Concepto de Aprendizaje por Refuerzo
Un agente aprende interactuando con un entorno.
Recibe recompensas o castigos según sus acciones
Objetivo: maximizar la recompensa acumulada a largo plazo
Componentes de un Sistema RL
Agente
: La entidad que aprende y toma decisiones.
Entorno
: Todo lo que rodea al agente y responde a sus acciones.
Estados
: Representaciones del entorno en un momento dado.
Acciones
: Decisiones que el agente puede tomar.
Recompensas
: Señales de refuerzo para guiar el aprendizaje.
Modelado con Procesos de Decisión de Markov (MDP)
Un modelo basado en estados y probabilidades de transición
Estructura
Estados
S
Acciones
A
Recompensas
R
Transiciones de estado
P(s'|s,a)
Algoritmos de Aprendizaje por Refuerzo
Q-Learning
Aprende una función Q(s,a) que estima la mejor acción en cada estado
Se basa en la ecuación de Bellman para actualizar valores
Deep Q-Learning (DQN)
Usa redes neuronales para aproximar la función Q
Aplicado en juegos como Atari y control de robots
Métodos basados en políticas
prenden directamente una política π(s) sin necesidad de una función Q
Método Actor-Critic
Combina aprendizaje basado en valor y aprendizaje basado en políticas
Exploración vs Explotación en RL
Exploración
: Intentar nuevas acciones para descubrir mejores estrategias
Explotación
: Utilizar la mejor estrategia conocida para maximizar la recompensa
Estrategias para balancear exploración/explotación
ϵ-greedy
: Explora con probabilidad ϵ, explota lo aprendido con 1-ϵ
Softmax
: Selecciona acciones con probabilidad proporcional a su recompensa esperada
Aplicaciones del Aprendizaje por Refuerzo
Juegos
: AlphaGo, DQN en Atari.
Robótica
: Agentes que aprenden a moverse.
Finanzas
: Estrategias de inversión optimizadas por RL.
Optimización de procesos
: Sistemas de control industrial.