Please enable JavaScript.

Coggle requires JavaScript to display documents.

Vid2Seq - Coggle Diagram

- - - - Visual Encoder: Processa frames de vídeo usando um backbone baseado em CLIP (ViT-L/14).
      - Text Encoder: Codifica a sequência de fala transcrita, incluindo tokens de tempo.
    - - Gera a sequência de eventos (legendas e timestamps) de forma autoregressiva, utilizando embeddings visuais e de fala.