Please enable JavaScript.

Coggle requires JavaScript to display documents.

REINFORCEMENT LEARNING - Coggle Diagram

- - - - .
        
        Deterministica
        
        Probabilistica
    - - valuta la bontà di una policy
- - - - non sample efficient
- - - - REWARD
        quanto sto andando bene
        
        OBIETTIVO AGENTE
        
        MAX REWARD
        totale, non di quell'istante
        
        cumulative reward
        
        $$\sum_{k=0}^\inf R_{t+k+1}$$
        
        discounted cumulative reward
        
        $$ \sum_{k=0}^\inf \gamma^k R_{t+k+1} $$
        
        gamma = 0 -> myopic
        gamma= 1 -> far sighted
      - AZIONE
        scelgo che fare
      - OSSERVAZIONE
        riguardo il mondo
- - - - Enviroment State
        conoscenza che non può avere l'agente
      - Agent State
        rappresentazione del mondo
        
        .
        
        Caso completamente osservabile
        agente osserva stato ambiente
        
        MDP
        $$P(S_{t+1}|S_t A_t) $$
        
        Bayesian network
        rappr. grafica di distribuzioni di probabilità
        
        S set stati
        
        A set azioni
        
        R funzioni reward
        
        P funzione transizione
        
        gamma fattore sconto
        
        osservabile non significa semplice
        
        Caso parzialmente osservabile
        stato agente diverso da stato ambiente
        
        POMDP
        
        $$S_t^a=\sigma (W_S S_{t-1}^a + W_o O^T) $$
        
        $$S_t^a=[P(S_t^e=s^1)...P(S_t^e=s^N)]$$
        
        $$S_t^a=H_t$$
- - - - EXPLOTATION
        sfrutto informazioni
      - EXPLORATION
        trovo informazioni sull'ambiente
- - - - DInamic Programming
        
        se conosco state transition function
        
        costosa
        
        uso informazione salvate per il prossimo risultato
    - - Policy Iteration
      - Value Iteration
        
        costose
  - - - Monte Carlo
        
        approssimo media in maniera empirica
        
        serve episodi con un termine
      - Temporal Difference
        
        non servono episodi a termine
        
        bootstrapping
    - - On Policy Learning
        impariamo una policy mentre la eseguiamo
        
        Q function
        
        MC
        improvement solo a fine episodio (epsilpn greedy)
        
        TD
        improvement ogni step (SARSA)
      - Off Policy Learning
        una policy per esplorare una per imparare
        
        Q learning