Please enable JavaScript.
Coggle requires JavaScript to display documents.
Modelo Transformer images (1) - Coggle Diagram
Modelo Transformer
Problema
-Modelos previos con recurrencia y con convoluciones
-Ineficiencia en procesamiento
-Cuello de botella secuencial
-Procesamiento secuencial lento y costoso
-Dificultad para aprender dependencias a largo plazo
Resultados y Beneficios
-Mayor precision BLEU
-Reduccion del tiempo de entrenamiento
-Mayor eficiencia en memoria y computo
-Mayor capacidad de generalizacion
-Facilita la investigacion en aprendizaje profundo
Propuesta
-Basado en atencion sin recurrencia
-Mas paralelizable
-Reduccion de costos de computacion.
Entrenamiento
-Uso de optimizador Adam
-Estrategia de tasa de aprendizaje dinamica
-Uso de regularizacion como Dropout
-Tamaño y pasos de entrenamiento en Hardware especifico
Componentes Clave
-Autoatencion:
Atencion escalada y multi-cabeza
-Arquitectura de modelo
Codificador y decodificador, conexiones residuales
-Codificacion posicional
Normalizacion y regularizacion para sobreajuste
Impacto y Futuro
-Base de modelos como GPT y BERT
-Expansion a otras areas (vision, audio, video)
-Mejoras en generacion de texto y traduccion
-Desarrollo de nuevos modelos mas eficientes
-Posible integracion con datos multimodales