LLM 微調流程
監督式微調
(Supervised Fine-Tuning)
增強式學習
(Reinforcement Learning, RL)
預訓練 (Pretraining)
指令微調 (Instruction Fine-Tuning)
Intruction-簡介
獎勵模型
(Reward Model, RM)
從人類反饋中獲得分數
模型扮演玩家 (Agent)
輸出變得更符合人類的喜好
GPT-Score
Single Aspect
Multi Aspect
近端策略優化
(Proximal Policy Optimization, PPO)
Direct Preference Optimization, DPO
TRL Framework
SFTTrainer
RewardTrainer
PPOTrainer
DPOTrainer