Please enable JavaScript.
Coggle requires JavaScript to display documents.
LLM Survey - Coggle Diagram
LLM Survey
9 - Advanced Topics
Long Context Modeling
Scaling Position Embeddings
Adapting Context Window
Long Text Data
LLM-empowered Agent
Overall Framework
Applications
Discussion
Analysis and Optimization for Model Training
Estimation of Training Memory Consumption
Memory Optimization Methods
Efficiency Optimization Methods
Flash Atention
Sequence Parallelism
Analysis and Optimization for Model Inference
Analysis of Inference Efficiency
System-level Optimization
Algorithm-level Optimization
Model Compression
Quantization Methods
Other Model Compression Methods
Open-source Libraries
Retrieval-Augmented Generation
Hallucination
Definition of Hallucination
Source of Hallucination
Hallucination Detection
Hallucination Mitigation
Complex Reasoning
Overview and Analysis
Construction of Long CoT Data
Training Methods
Extended Discussion
10 - Conclusion and Future Directions
Basics and Principles
Compreensão teórica: Não entendemos ainda por que os LLMs desenvolvem habilidades emergentes (capacidades inesperadas que não aparecem em modelos menores).
Mistério das habilidades emergentes: Quando os modelos ficam gigantes, começam a “aprender” coisas que não estavam programadas, como resolver problemas complexos. Mas os pesquisadores ainda não sabem bem como ou por que isso acontece.
Treinamento caro: Treinar LLMs exige recursos enormes de dados e computação, o que torna inviável para a maioria das universidades; só grandes empresas conseguem.
Custo de treinamento: Construir esses modelos custa milhões em energia, hardware e dados. Por isso, só empresas como Google, OpenAI e Meta conseguem treinar LLMs completos — a academia fica limitada a estudar ou adaptar os que já existem.
Alinhamento com valores humanos: Mesmo sendo poderosos, os LLMs podem gerar respostas tóxicas, falsas ou prejudiciais. Por isso, é necessário aplicar técnicas para controlá-los e alinhá-los a valores humanos.
Risco ético e de segurança: LLMs podem inventar informações (alucinar), reproduzir preconceitos ou gerar conteúdos nocivos. Por isso, precisam ser ajustados para seguir regras, respeitar valores humanos e evitar danos.
Os LLMs são como um superaluno genial: aprende mais do que esperávamos, custa caríssimo para treinar e precisa ser guiado para não usar mal suas capacidades.
Imagine um aluno que, depois de estudar milhões de livros, de repente começa a resolver problemas de matemática avançada sem nunca ter tido aula específica disso.
Agora, para formar esse “superaluno”, você teria que comprar milhões de livros, bibliotecas enormes e professores caríssimos.
Esse superaluno é muito inteligente, mas também pode mentir, inventar coisas ou falar de forma ofensiva. Então, você precisa criar regras de comportamento, monitoramento e treinamento extra para que ele use seu conhecimento de forma segura.
Model Architecture
Hoje, quase todos os LLMs são baseados em Transformers, porque essa arquitetura cresce bem com mais dados e parâmetros.
Além disso, a comunidade está quase toda focada em Transformers decoder-only (como GPT), deixando pouco espaço para testar arquiteturas diferentes que talvez fossem melhores.
O problema é que treinar e rodar esses modelos é caro e lento. Por isso, há esforço em melhorar eficiência tanto no software (algoritmos) quanto no hardware.
Pesquisas em otimizações de sistema e hardware (ex.: FlashAttention) podem ajudar na eficiência.
Os modelos modernos conseguem ler contextos enormes (livros inteiros de uma vez), mas ainda não “entendem” ou usam bem todas essas informações longas.
Os LLMs têm janelas de contexto grandes (GPT-4 Turbo até 128k tokens, Claude 2.1 até 200k), mas ainda não aproveitam bem toda essa informação.
Model Training
Como treinar do zero é muito caro, é importante continual pre-training ou fine-tuning a partir de checkpoints públicos (ex.: LLaMA, Flan-T5).
Para economizar, muitas vezes usamos modelos já treinados e continuamos seu treino (fine-tuning), em vez de começar do zero.
Desafios incluem catastrophic forgetting (esquecer o que já aprendeu) e especialização em tarefas.
Também é útil desenvolver estratégias de inserção ou edição de conhecimento, por exemplo, para corrigir fatos desatualizados.
Falta documentação detalhada sobre preparo de dados e programação de currículos de treino, dificultando a reprodução científica.
Estratégias como predictable scaling (scaling previsível) e proxy model training ajudam a otimizar o processo.
Pré-treinamento de LLMs exige uma infraestrutura centrada em dados: coleta, limpeza, mistura e organização dos dados.
Também é necessário gerenciamento eficiente de hardware para aproveitar melhor clusters de computação.
Pré-treinar LLMs é difícil e caro, pois consome muito poder de computação e é sensível à qualidade dos dados e aos “truques” de treinamento.
Model Utilization
O uso de LLMs hoje é feito principalmente via prompts em linguagem natural.
Hoje, em vez de treinar o modelo de novo para cada tarefa, você “conversa” com ele via prompts (como dar instruções a um assistente).
In-context learning (ICL): LLMs aprendem a resolver novas tarefas a partir de exemplos e descrições no prompt, às vezes superando modelos totalmente ajustados com dados.
Exemplo: você dá a instrução e alguns exemplos no prompt → o modelo consegue aprender e resolver a tarefa na hora (in-context learning).
Técnicas avançadas de prompting, como chain-of-thought (CoT), incluem passos intermediários de raciocínio no prompt para melhorar tarefas complexas.
Para problemas difíceis, você pode pedir ao modelo para pensar passo a passo (chain-of-thought) ou dividir o problema em partes (planejamento).
Planejamento é outra abordagem: LLMs são usados iterativamente, muitas vezes combinados com ferramentas externas, para resolver problemas difíceis.
Problemas ainda pouco estuados
Por que bons prompts funcionam e ruins não.
Como os métodos avançados realmente funcionam.
Como achar rapidamente prompts eficazes para cada tarefa.
Desafios práticos: reduzir o custo de inferência e lidar com grandes implantações.
Saber como escrever um bom prompt (uma instrução ruim pode gerar respostas erradas).
Reduzir o custo de usar o assistente em larga escala.
Garantir que ele use todas as informações fornecidas sem se perder.
Retrieval-augmented generation: usar informações externas recuperadas para melhorar respostas. Isso expande o conhecimento do modelo, mas ainda tem dificuldade em aproveitar contextos longos.
Às vezes, é útil dar informações externas ao modelo (retrieval) para que ele tenha mais contexto.
Usar LLMs via prompts é como ter um assistente superinteligente que aprende rapidamente com instruções e exemplos, pode raciocinar passo a passo, consultar fontes externas e planejar tarefas complexas. Mas você ainda precisa saber como instruí-lo bem e cuidar do uso eficiente do seu tempo e recursos.
Exemplo: “Escreva um resumo desta notícia” + mostrar um exemplo de resumo.
In-context learning (ICL): Em vez de treinar o assistente com meses de estudo, você ensina na hora, mostrando exemplos diretamente.
Ele aprende rapidamente e pode superar colegas que foram “treinados do zero” com todos os dados.
Chain-of-thought (CoT) = raciocínio passo a passo
Para problemas complexos, você pede que o assistente explique seu raciocínio passo a passo, em vez de só dar a resposta final.
Exemplo: “Mostre como você chegou à resposta” → ajuda a resolver tarefas difíceis com mais precisão.
Planejamento = dividir tarefas em etapas - Quando a tarefa é complicada, o assistente pode executar uma série de pequenas ações, possivelmente usando ferramentas externas, até completar o trabalho.
Retrieval-augmented generation = consultar livros ou fontes externas
Se ele não souber a resposta, você dá informações de referência para ele usar.
Isso amplia o conhecimento do assistente, mas ele ainda precisa processar e organizar bem tudo que recebeu.
Safety and Alignment
Segurança e alinhamento garantem que LLMs resolvam tarefas corretamente e de forma ética, minimizando riscos de alucinações, conteúdos tóxicos ou vazamento de dados, usando métodos como RLHF, red teaming e aprendizado federado.
LLMs têm grandes capacidades, mas enfrentam desafios de segurança.
Alucinações: geram textos plausíveis, mas factualmente incorretos.
Conteúdos nocivos: podem ser induzidos a produzir textos tóxicos, enviesados ou perigosos.
Privacidade e manipulação: uso indevido ou vazamento de dados sensíveis.
Para controlar isso, os pesquisadores usam alinhamento, ou seja, ensinar o modelo a responder de forma segura usando feedback humano.
Alinhamento: métodos como RLHF (Reinforcement Learning with Human Feedback) usam feedback humano para guiar o modelo a respostas seguras e corretas.
Limitações: depende de anotadores humanos qualificados, o que é caro e demorado.
Possíveis melhorias: LLMs podem ajudar na rotulagem, e algoritmos de alinhamento podem ser simplificados para reduzir custo e instabilidade.
Humanos revisam e ensinam o assistente a responder de forma segura e correta, mostrando exemplos de respostas boas e ruins.
Red teaming: testar o modelo com prompts adversariais para identificar vulnerabilidades e refinar a segurança.
Privacidade: em ajustes finos com dados sensíveis, aprendizado federado pode proteger informações privadas.
Em casos de dados privados, técnicas como aprendizado federado ajudam a treinar sem expor informações sensíveis.
Application and Ecosystem
LLMs podem ser aplicados em diversas tarefas do mundo real usando instruções em linguagem natural.
LLMs são como superassistentes digitais que podem resolver problemas variados apenas com instruções em linguagem natural.
ChatGPT revolucionou o acesso à informação e foi integrado ao New Bing, mudando a forma como buscamos dados.
Espera-se que LLMs impactem motores de busca, sistemas de recomendação e ajudem a criar agentes autônomos para tarefas complexas.
Busca e recomendação: melhorar motores de busca e sistemas de sugestões.
Assistants API da OpenAI permite desenvolver rapidamente assistentes inteligentes que usam instruções, conhecimento e ferramentas.
Esse avanço está criando um ecossistema de aplicações baseadas em LLMs (ex.: GPT Store), cada vez mais próximo da vida cotidiana.
Lojas de aplicativos, APIs para integração e agentes digitais inteligentes
A GPT Store é uma plataforma desenvolvida pela OpenAI que permite que usuários e desenvolvedores criem, publiquem e monetizem GPTs sem a necessidade de habilidades avançadas de programação
O crescimento dos LLMs também abre caminho para a pesquisa em AGI (Inteligência Artificial Geral), mas a segurança e alinhamento ético devem ser prioridades.
1 - Introdução
Statistical Language Models (SLM)
Tenta adivinhar a próxima palavra de uma frase olhando só para as últimas palavras
n-grams
Neural Language Models (NLM)
MLP (Multi-Layer perceptron) - Transformer tem uma MLP (FFN).
RNN (Recorrent Neural Networks)
Word2Vec
A grande inovação foi representar cada palavra como um vetor numérico (embedding) que guarda relações de significado (ex.: “rei – homem + mulher = rainha”).
Não só preveem palavras, mas também aprendem representações úteis da linguagem, que depois podem ser aplicadas em muitas outras tarefas.
Esses vetores permitiram que os modelos entendessem melhor o contexto e funcionassem bem em várias tarefas de linguagem.
Pre-trained Language Models (PLM)
O modelo primeiro é pré-treinado em muito texto geral (aprendendo a “entender a língua”) e depois é ajustado para tarefas específicas (tradução, resumo, classificação etc.).
Antes do PLM: cada modelo tinha que aprender do zero ou usar embeddings fixos (como no word2vec).
O ELMo usava LSTMs para capturar contexto.
O BERT trouxe os Transformers, que entendem contexto em todas as direções ao mesmo tempo.
Os PLMs viraram a base do NLP moderno, porque um único modelo grande pode ser adaptado para muitas tarefas diferentes.
Bert tem centenas de milhões de parâmetros (maior que modelos anteriores, mas não chega à escala dos LLMs modernos como GPT-3, LLaMA, etc.).
É bidirecional e mascarado → ótimo para entendimento de linguagem (classificação, QA, NER), mas não para geração fluente de texto como os LLMs atuais.
Não é um LLM, mas foi um precursor que abriu caminho para os LLMs atuais.
Large Language Modles (LLM)
Os modelos de linguagem começaram pequenos e focados, mas com o tempo foram ficando cada vez maiores. Quando chegam a bilhões de parâmetros (como GPT-3 e GPT-4), surgem habilidades inesperadas, que os transformam em resolvedores gerais de tarefas, e não só em previsores de palavras.
Mudaram o jeito de usar IA (em vez de reprogramar, agora só damos instruções com prompts).
Pesquisas mostram que aumentar o tamanho dos modelos e dos dados de treino (scaling law) melhora a capacidade dos PLMs. Exemplos: GPT-3 (175B parâmetros) e PaLM (540B).
Modelos muito grandes apresentam habilidades inesperadas (called emergent abilities) que não aparecem em modelos menores (ex.: GPT-3 consegue aprender com poucos exemplos em contexto; GPT-2 não).
O termo foi criado para diferenciar esses modelos enormes (como GPT-3, PaLM) de PLMs menores (como BERT, GPT-2).
ChatGPT popularizou os LLMs, mostrando capacidade de diálogo e levando a uma explosão de pesquisas. Hoje eles são vistos como resolvedores gerais de tarefas (não apenas geradores de texto).
Desafios
Compreensão teórica: ainda não sabemos bem por que habilidades emergentes surgem.
Treinamento caro: difícil para academia replicar, pois só grandes empresas conseguem treinar.
Alinhamento com valores humanos: risco de conteúdo tóxico ou falso, exigindo técnicas de controle.
3 - Resources of LLMs
Publicly Available Model Checkpoints or APIs
Publicly Available Model Checkpoints
LLaMA
Mistral
Gemma
Qwen
GLM
Baichuan
LLaMA Model Family
Public API of LLMs
Commonly Used Corpora of Pre-training
Web Pages
Books & Academic Data
Wikipedia
Code
Mixed Data
Commonly Used Datasets for Fine-tuning
Instruction Tuning Datasets
Alignment Datasets
Library Resource
Transformers
DeepSpeed
Megatron-LM
Jax
Colossal-AI
BMTrain
FastMoE
VLLM
DeepSpeed-MII
DeepSpeed-Chat
6- Utilization
Prompting
Prompt Cration
Prompt Optimization
In-Context Learning
ICL Formulation
Demonstration Design
Underlying Mechanism
Chain-of-Thought Prompting
Basic CoT Prompting Approach
Improved CoT Prompting Strategies
Further Discussion on CoT Prompting
Planning
The Overall Framework
Plan Generation
Feedback Acquisition
Plan Refinement
7 - Capacity and Evaluation
Basic Ability
Language Generation
Language Modeling
Conditional Text Generation
Code Synthesis
Major Issues
Unreliable generation evaluation
Underperforming specialized generation
Knowledge Utilization
Closed-Book QA
Open-Book QA
Knowledge Completion
Major Issues
Hallucination
Knowledge recency
Complex Reasoning
Knowledge Reasoning
Mathematical Reasoning
Major Issues
Reasoning inconsistency
Numerical computation
Advanced Ability
Human Alignment
Interaction with External Environment
Tool Manipulation
Benchmarks and Evaluation Approaches
Evaluation Approaches
Tipos de LLMs (categorias para evaluating)
Fine-tuned LLMs (Instruction or Alignment fine-tuned model checkpoints)
Human-based evaluation
Model-based evaluation
Specialized LLMs (Adepated model checkpoints for some specific task or domain)
Base LLMs (Pre-trained model checkpoints)
Common benchmarks
Benchmark based evaluation procedure
Três abordagens principais
Benchmarck-based [362]
Human-based [729]
Model-based [731]
Comprehensive Evaluation Benchmarks
Gerais (Mainstream evaluation tasks and real-world human exam questions for the evaluation of LLMs)
Big-bench (Beyond the imitation game: Quantify and extrapolation the capabiliteis of language models [70])
HELM (Holistic Evaluation of Language Model [522])
Human-Level Test Benchmarks
MMLU (Massive Multi-task Language Understand[362])
Evaluating specific abiliteis
TyDiQA (for multilingual knowledge utilization)
MGSM (for multilingual mathematical reasoning)
Selecionar Benchmarks according to specific goals
OpenSource evaluation Frameworks
Language Model Evaluation Harness [738]
OpenAI Evals [46]
Continuosly updated leaderboards (aggregating representative bechmarks, to compare the performance of existing LLMs)
Open LLM Leaderboard [709] - Site não exibiu informações (Erro).
Empirical Evaluation
Experimental Settings
Evaluation Models
Tasks and Datasets
Language Generation
Knowledge Utilization
Complex Reasoning
Human Alignment
Interaction with environment
Tool Manipulation
Implementation Details
Results Analysis and Findings
Open-Source Models
Eight open-source models (i.e., LLaMA 2-Chat, Vicuna, Alpaca, ChatGLM, LLaMA 2, LLaMA, Pythia and Falcon)
Instruction-tuned models mostly perform better than the base models.
These small-sized open-source models perform not well on mathematical reasoning, interaction with environment, and tool manipulation tasks.
The top-performing model varies on different human alignment tasks
As a more recently released model, LLaMA 2 (7B) overall achieves a good performance, especially on complex reasoning tasks
Scaling the open-source modes can improve the performance consistently.
Closed-Source Models
Four closed-source models (i.e., ChatGPT, Claude, Davinci003 and Davinci002)
These five closed-source models achieve promising results as general-purpose task solvers, in which ChatGPT mostly performs the best
Claude 2, ChatGPT and Davinci003 perform better on interaction with environment and tool manipulation tasks.
All the comparison models perform not well on very difficult reasoning tasks.
4 - Pre-Training
Data Collection and Preparation
Data Source
Data Preprocessing
Data Scheduling
Summary of Data Preparation
Architecture
Typical Architectures
Encoder-Decoder Architecture
Causal Decoder Architecture
Prefix Decoder Architecture
Misture-of-Experts
Emergent Architectures
Detailed Configuration
Pre-training Tasks
Decoding Strategy
Summary and Discussion
Model Training
Optimization Setting
Scalable Training Techniques
5 - Post-Traing of LLMs
Instruction Tunning
Instruction Tuning Strategies
The Effect of Instruction Tuning
Empirical Analysis for Instruction Tuning
Formatted Instance Construction
Alignment Tuning
Background and Criteria for Alignment
Collecting Human Feedback
Reinforcement Learning from Human Feedback
Alignment without RLHF
Remarks on SFT and RLHF
Parameter-Efficient Model Adaption
Parameter-Efficient Fine-Tuning Methods
Parameter-Efficient Fine-Tuning on LLMs
2 - Overview
Background for LLMs
Formulation of Scaling Laws for LLMs
KM scaling law
Chinchilla scaling law
Discussion of Scaling Laws
Predictable scaling
Task-level predictability
Emergent Abilities of LLMs
In-context learning
Instruction following
Step-by-step reasoning
How Emergent Abilities Relate to Scaling Laws
Key Techniques for LLMs
Scaling
Training
Ability eliciting
Alignment tuning
Tools Manipulation
Technical Evolution of GPT-series Model
Early Exploration
Capacity Leap
Capacity Enhancement
The Milestones of Language Models
8 - Applications
LLM for Research Community
LLM for Classic NLP Tasks
LLM for Information Retrieval
LLM for Recommender Systems
Multimodal Large Language Model
KG-Enhanced LLM
LLM for Evaluation
LLM for Specific Domains
Healthcare
Education
Law
Finance
Scientific research