Please enable JavaScript.
Coggle requires JavaScript to display documents.
Fine-tune LLM - Coggle Diagram
Fine-tune LLM
-
Deployment
llama.cpp
Chạy được trên CPU và phần cứng hạn chế. Phù hợp cho ứng dụng cục bộ, không cần internet. Không phụ thuộc CUDA, chạy được trên nhiều thiết bị khác nhau.
Mặc dù tối ưu cho CPU nhưng vẫn chậm hơn nhiều so với GPU. Không được xây dựng cho mục đích phục vụ API quy mô lớn. Thiếu cơ chế quản lý tài nguyên cho nhiều yêu cầu đồng thời
vLLM
-
Yêu cầu CUDA, khó chạy trên phần cứng khác. Đòi hỏi GPU mạnh, không phù hợp cho thiết bị hạn chế. Hỗ trợ OpenAI-Compatible Server
-
Fine-tuning our LLM
Unsloth - Qwen2.5-7B
Supervised Fine-Tuning (SFT): <question>,<think>,<answer> --> Giúp LLM trả lời câu hỏi dựa trên instruction/reasoning
-
GRPO
Accuracy Reward
<answer>...</answer> Qwen2.5-Max để đánh giá <answer> so với <ground_truth> --> Đánh giá & cải thiện câu trả lời của LLM
-