Please enable JavaScript.

Coggle requires JavaScript to display documents.

강화학습의 MDP (MDP Key Players! (Agent (Value Function (state-value/action…

- - - - state-value/action-value
    - - planning
- - - - Bellman Equation
        
        Value Iteration - Bellman Expectation Equation
        
        Evaluation + Improvement at the same time
        
        Policy Iteration - Bellman Optimality Equation
        
        Evaluation and then Improvement
  - - - Off Policy - Q Learning
      - On Policy - SARSA
- - - - state-value function
        
        v()
      - action-value function
        
        Q(), Q value, Q function, Q learning
    - - Bellman Expectation Equation
      - Bellman Optimal Equation