Please enable JavaScript.

Coggle requires JavaScript to display documents.

RL (Action Space, state, Environment Access, Data Cost) - Coggle Diagram

- - - - Q-Learning, DQN， SARSA
  - - - REINFORCE、Proximal Policy Optimization PPO ：输出动作的概率分布
- - - - Symmetry and periodicity
    - - 不只用一张网格去覆盖空间，而是用多张相互偏移的网格去“重叠覆盖”。
    - - Stochastic Gradient Descent (SGD)
- - - - policy Iteration
      - value Iteration
  - - - 走一步看一步更新依据：当前的奖励 + 下一步的预估。
        特点：有偏（Biased）但方差小（Low Variance）。
      - SARSA, Q learning, and Actor–Critic, DQN
    - - 秋后算账更新依据：真实的累计回报（True Return）。
        特点：无偏（Unbiased）但方差大（High Variance）。
      - 同时value, policy更新, REINFORCE
- - - - Off-policy（异策）+ 经验回放（Experience Replay）。Q-Learning
  - - - On-policy（同策）。算法选择：PPO, SARSA