Please enable JavaScript.

Coggle requires JavaScript to display documents.

Fine-tune LLM - Coggle Diagram

- - - - Accuracy Reward
        
        <answer>...</answer> Qwen2.5-Max để đánh giá <answer> so với <ground_truth> --> Đánh giá & cải thiện câu trả lời của LLM
      - Format Reward
        
        <answer>...</answer>: kiểm tra có tag hay không
        
        <think>...</think>: kiểm tra có tag hay không