LLM 微調流程

監督式微調
(Supervised Fine-Tuning)

增強式學習
(Reinforcement Learning, RL)

預訓練 (Pretraining)

指令微調 (Instruction Fine-Tuning)

Intruction-簡介

獎勵模型
(Reward Model, RM)

從人類反饋中獲得分數

模型扮演玩家 (Agent)

輸出變得更符合人類的喜好

GPT-Score

Single Aspect

Multi Aspect

近端策略優化
(Proximal Policy Optimization, PPO)

Direct Preference Optimization, DPO

TRL Framework

SFTTrainer

RewardTrainer

PPOTrainer

DPOTrainer