Please enable JavaScript.

Coggle requires JavaScript to display documents.

Sample INefficiency in on-policy DRL, Second order Optimization…

- - - - how to overcome this?
        
        Trust Region Updates
        
        choose max learning rate for update
        without changing policy too much
        
        Second order Optimization Techniques
- - - - needs exploration
        
        optimistic Q(s,a) initialization
        
        Noisy states/actions
- - - - partially precise
        for certain (s,a,s',r) pairs