解决问题的特点
- 智能体和环境之间不断进行交互
- 探索和试错
- 延迟奖励(当前所做的动作可能很多步之后才会产生相应的结果)
目标
- 获取更多的累计奖励
- 获得更可靠的估计
定义
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益
心理学基础
其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为
要素
状态(State)
动作(Action)
Reward(奖励)
模型分类
基于理不理解所处环境来进行分类
Model-Free
Model-Based
基于输出进行分类
基于概率(Policy-Based)
基于价值(Value-Based)
基于更新分类
回个更新(Monte-Carl update)
单步更新(Temporal-Difference update)
基于模型更新分类
在线学习(On-Policy)
离线学习(Off-Policy)
应用
玩游戏
资源调度
- 带宽资源
- 功率资源
自动控制
- 交通信号灯
- 机器人控制
- 无人驾驶
用户交互
- 推荐
- 优化
- 个性化
- 搜索
Policy
概述
从state到action的映射