Please enable JavaScript.

Coggle requires JavaScript to display documents.

LLM Survey - Coggle Diagram

- - - - Flash Atention
      - Sequence Parallelism
- - - - Mistério das habilidades emergentes: Quando os modelos ficam gigantes, começam a “aprender” coisas que não estavam programadas, como resolver problemas complexos. Mas os pesquisadores ainda não sabem bem como ou por que isso acontece.
    - - Custo de treinamento: Construir esses modelos custa milhões em energia, hardware e dados. Por isso, só empresas como Google, OpenAI e Meta conseguem treinar LLMs completos — a academia fica limitada a estudar ou adaptar os que já existem.
    - - Risco ético e de segurança: LLMs podem inventar informações (alucinar), reproduzir preconceitos ou gerar conteúdos nocivos. Por isso, precisam ser ajustados para seguir regras, respeitar valores humanos e evitar danos.
    - - Imagine um aluno que, depois de estudar milhões de livros, de repente começa a resolver problemas de matemática avançada sem nunca ter tido aula específica disso.
      - Agora, para formar esse “superaluno”, você teria que comprar milhões de livros, bibliotecas enormes e professores caríssimos.
      - Esse superaluno é muito inteligente, mas também pode mentir, inventar coisas ou falar de forma ofensiva. Então, você precisa criar regras de comportamento, monitoramento e treinamento extra para que ele use seu conhecimento de forma segura.
  - - - Além disso, a comunidade está quase toda focada em Transformers decoder-only (como GPT), deixando pouco espaço para testar arquiteturas diferentes que talvez fossem melhores.
    - - Pesquisas em otimizações de sistema e hardware (ex.: FlashAttention) podem ajudar na eficiência.
    - - Os LLMs têm janelas de contexto grandes (GPT-4 Turbo até 128k tokens, Claude 2.1 até 200k), mas ainda não aproveitam bem toda essa informação.
  - - - Para economizar, muitas vezes usamos modelos já treinados e continuamos seu treino (fine-tuning), em vez de começar do zero.
  - - - Hoje, em vez de treinar o modelo de novo para cada tarefa, você “conversa” com ele via prompts (como dar instruções a um assistente).
    - - Exemplo: você dá a instrução e alguns exemplos no prompt → o modelo consegue aprender e resolver a tarefa na hora (in-context learning).
    - - Para problemas difíceis, você pode pedir ao modelo para pensar passo a passo (chain-of-thought) ou dividir o problema em partes (planejamento).
    - - Por que bons prompts funcionam e ruins não.
      - Como os métodos avançados realmente funcionam.
      - Como achar rapidamente prompts eficazes para cada tarefa.
    - - Saber como escrever um bom prompt (uma instrução ruim pode gerar respostas erradas).
      - Reduzir o custo de usar o assistente em larga escala.
      - Garantir que ele use todas as informações fornecidas sem se perder.
    - - Às vezes, é útil dar informações externas ao modelo (retrieval) para que ele tenha mais contexto.
    - - Exemplo: “Escreva um resumo desta notícia” + mostrar um exemplo de resumo.
      - In-context learning (ICL): Em vez de treinar o assistente com meses de estudo, você ensina na hora, mostrando exemplos diretamente.
      - Ele aprende rapidamente e pode superar colegas que foram “treinados do zero” com todos os dados.
      - Chain-of-thought (CoT) = raciocínio passo a passo
      - Para problemas complexos, você pede que o assistente explique seu raciocínio passo a passo, em vez de só dar a resposta final.
      - Exemplo: “Mostre como você chegou à resposta” → ajuda a resolver tarefas difíceis com mais precisão.
      - Planejamento = dividir tarefas em etapas - Quando a tarefa é complicada, o assistente pode executar uma série de pequenas ações, possivelmente usando ferramentas externas, até completar o trabalho.
      - Retrieval-augmented generation = consultar livros ou fontes externas
      - Se ele não souber a resposta, você dá informações de referência para ele usar.
      - Isso amplia o conhecimento do assistente, mas ele ainda precisa processar e organizar bem tudo que recebeu.
  - - - Alucinações: geram textos plausíveis, mas factualmente incorretos.
      - Conteúdos nocivos: podem ser induzidos a produzir textos tóxicos, enviesados ou perigosos.
      - Privacidade e manipulação: uso indevido ou vazamento de dados sensíveis.
      - Para controlar isso, os pesquisadores usam alinhamento, ou seja, ensinar o modelo a responder de forma segura usando feedback humano.
    - - Limitações: depende de anotadores humanos qualificados, o que é caro e demorado.
      - Possíveis melhorias: LLMs podem ajudar na rotulagem, e algoritmos de alinhamento podem ser simplificados para reduzir custo e instabilidade.
      - Humanos revisam e ensinam o assistente a responder de forma segura e correta, mostrando exemplos de respostas boas e ruins.
    - - Em casos de dados privados, técnicas como aprendizado federado ajudam a treinar sem expor informações sensíveis.
  - - - LLMs são como superassistentes digitais que podem resolver problemas variados apenas com instruções em linguagem natural.
    - - Busca e recomendação: melhorar motores de busca e sistemas de sugestões.
    - - Lojas de aplicativos, APIs para integração e agentes digitais inteligentes
      - A GPT Store é uma plataforma desenvolvida pela OpenAI que permite que usuários e desenvolvedores criem, publiquem e monetizem GPTs sem a necessidade de habilidades avançadas de programação
- - - - Compreensão teórica: ainda não sabemos bem por que habilidades emergentes surgem.
      - Treinamento caro: difícil para academia replicar, pois só grandes empresas conseguem treinar.
      - Alinhamento com valores humanos: risco de conteúdo tóxico ou falso, exigindo técnicas de controle.
- - - - LLaMA
      - Mistral
      - Gemma
      - Qwen
      - GLM
      - Baichuan
- - - - Language Modeling
      - Conditional Text Generation
      - Code Synthesis
      - Major Issues
        
        Unreliable generation evaluation
        
        Underperforming specialized generation
    - - Closed-Book QA
      - Open-Book QA
      - Knowledge Completion
      - Major Issues
        
        Hallucination
        
        Knowledge recency
    - - Knowledge Reasoning
      - Mathematical Reasoning
      - Major Issues
        
        Reasoning inconsistency
        
        Numerical computation
  - - - Tipos de LLMs (categorias para evaluating)
        
        Fine-tuned LLMs (Instruction or Alignment fine-tuned model checkpoints)
        
        Human-based evaluation
        
        Model-based evaluation
        
        Specialized LLMs (Adepated model checkpoints for some specific task or domain)
        
        Base LLMs (Pre-trained model checkpoints)
        
        Common benchmarks
        
        Benchmark based evaluation procedure
      - Três abordagens principais
        
        Benchmarck-based [362]
        
        Human-based [729]
        
        Model-based [731]
    - - Gerais (Mainstream evaluation tasks and real-world human exam questions for the evaluation of LLMs)
        
        Big-bench (Beyond the imitation game: Quantify and extrapolation the capabiliteis of language models [70])
        
        HELM (Holistic Evaluation of Language Model [522])
        
        Human-Level Test Benchmarks
        
        MMLU (Massive Multi-task Language Understand[362])
      - Evaluating specific abiliteis
        
        TyDiQA (for multilingual knowledge utilization)
        
        MGSM (for multilingual mathematical reasoning)
      - Selecionar Benchmarks according to specific goals
      - OpenSource evaluation Frameworks
        
        Language Model Evaluation Harness [738]
        
        OpenAI Evals [46]
      - Continuosly updated leaderboards (aggregating representative bechmarks, to compare the performance of existing LLMs)
        
        Open LLM Leaderboard [709] - Site não exibiu informações (Erro).
  - - - Evaluation Models
      - Tasks and Datasets
        
        Language Generation
        
        Knowledge Utilization
        
        Complex Reasoning
        
        Human Alignment
        
        Interaction with environment
        
        Tool Manipulation
      - Implementation Details
    - - Open-Source Models
        
        Eight open-source models (i.e., LLaMA 2-Chat, Vicuna, Alpaca, ChatGLM, LLaMA 2, LLaMA, Pythia and Falcon)
        
        Instruction-tuned models mostly perform better than the base models.
        
        These small-sized open-source models perform not well on mathematical reasoning, interaction with environment, and tool manipulation tasks.
        
        The top-performing model varies on different human alignment tasks
        
        As a more recently released model, LLaMA 2 (7B) overall achieves a good performance, especially on complex reasoning tasks
        
        Scaling the open-source modes can improve the performance consistently.
      - Closed-Source Models
        
        Four closed-source models (i.e., ChatGPT, Claude, Davinci003 and Davinci002)
        
        These five closed-source models achieve promising results as general-purpose task solvers, in which ChatGPT mostly performs the best
        
        Claude 2, ChatGPT and Davinci003 perform better on interaction with environment and tool manipulation tasks.
        
        All the comparison models perform not well on very difficult reasoning tasks.
- - - - Encoder-Decoder Architecture
      - Causal Decoder Architecture
      - Prefix Decoder Architecture
      - Misture-of-Experts
      - Emergent Architectures
- - - - KM scaling law
      - Chinchilla scaling law
    - - Predictable scaling
      - Task-level predictability
    - - In-context learning
      - Instruction following
      - Step-by-step reasoning
    - - Scaling
      - Training
      - Ability eliciting
      - Alignment tuning
      - Tools Manipulation