强化学习

解决问题的特点

  • 智能体和环境之间不断进行交互
  • 探索和试错
  • 延迟奖励(当前所做的动作可能很多步之后才会产生相应的结果)

目标

  • 获取更多的累计奖励
  • 获得更可靠的估计

定义

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益

心理学基础

其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为

要素

状态(State)

动作(Action)

Reward(奖励)

模型分类

基于理不理解所处环境来进行分类

Model-Free

Model-Based

基于输出进行分类

基于概率(Policy-Based)

基于价值(Value-Based)

基于更新分类

回个更新(Monte-Carl update)

单步更新(Temporal-Difference update)

基于模型更新分类

在线学习(On-Policy)

离线学习(Off-Policy)

应用

玩游戏

资源调度

  • 带宽资源
  • 功率资源

自动控制

  • 交通信号灯
  • 机器人控制
  • 无人驾驶

用户交互

  • 推荐
  • 优化
  • 个性化
  • 搜索

Policy

概述

从state到action的映射