Please enable JavaScript.
Coggle requires JavaScript to display documents.
HỌC TĂNG CƯỜNG - Coggle Diagram
HỌC TĂNG CƯỜNG
Các thành phần chính
Môi Trường
Môi trường là nơi tác nhân hoạt động và tương tác. Nó cung cấp phản hồi cho tác nhân thông qua phần thưởng hoặc hình phạt.
Đặc Điểm Của Môi Trường
Môi trường có thể là tĩnh hoặc động, có thể thay đổi theo thời gian hoặc theo hành động của tác nhân.
-
Tác nhân
Tác nhân là đối tượng thực hiện hành động trong môi trường. Nó có thể là một robot, phần mềm hoặc bất kỳ hệ thống nào có khả năng học hỏi.
Ví dụ vê tác nhân
Một robot tự hành có thể là tác nhân, học cách điều hướng trong một không gian nhất định.
Vai Trò Của Tác Nhân
Tác nhân cần phải có khả năng nhận diện trạng thái của môi trường và đưa ra quyết định dựa trên thông tin đó.
Quy Trình Học
Khám Phá và Khai Thác
Tác nhân cần cân bằng giữa việc khám phá các hành động mới và khai thác các hành động đã biết để tối đa hóa phần thưởng.
Khám Phá
Khám phá liên quan đến việc thử nghiệm các hành động chưa được thực hiện để tìm hiểu thêm về môi trường.
-
Chính Sách
-
Các Loại Chính Sách
Chính sách có thể là xác định (deterministic) hoặc ngẫu nhiên (stochastic), tùy thuộc vào cách tác nhân chọn hành động.
Tối Ưu Hóa Chính Sách
Tối ưu hóa chính sách là quá trình cải thiện chính sách để tăng cường phần thưởng mà tác nhân nhận được.
-
-
-
-
-
-
-