Please enable JavaScript.

Coggle requires JavaScript to display documents.

Reinforcement Learning (:banana:Gym (:reminder_ribbon:概念 (:one:Environment…

- - - - :warning:有些Reward是delayed,不是在执行Action后能即时得到的,这些Reward叫做Discounted Future Reward
      - :apple:Discounted Future Reward
        
        :bread:乘以对应的衰减系数,作为当前Action获得的total Reward的一个加数
        
        :reminder_ribbon:衰减系数γ
- - - - :moneybag:内容
        
        :one:Environment State
        
        :explode:四要素:小车位置,速度, 杆的角度, 速度
        
        :two:Action
        
        :explode:二维: 0 或1, 表示向左施力和向右施力
        
        :three:Reward
        
        :explode:每坚持一秒,就获得+1的Reward
        
        :four:任务
        
        :explode:坚持尽量长的时间不让任务失败.如果奖励达到200游戏就会结束啦
        
        :apple:任务失败
        
        :explode:cart偏离原点太多或者 pole的角度太大
      - :maple_leaf:解决
        
        :one:Policy Gradients方法
        
        :banana:遇到的问题
        
        :one:反馈的平均reward到达一定值后就跌到9左右,计算出来的梯度是nan
        
        :explode:因为在append每个时间点的observation, action, reward的时候,错置了
        
        :bread:我初始化的时候用observation = env.reset(),这个时候得到action,但是马上应用到env.step里,这个时候才append observation和action,但其实action对应的应该是上一个observation
        
        :two:如何计算discounted reward
        
        :explode:一个实例(任务开始到任务失败)作为一个完整的单元,保存里面的reward来计算
        
        :three:如何得到可训练变量的梯度的buffer,也就是说我怎么知道可训练变量计算出来的梯度的类型和形状
        
        :explode:实际梯度要应用到tf.gradients第二个参数,所以形状和第二个参数相同,而类型就固定是float了
        
        :four:什么时候计算梯度
        
        :bread:计算梯度肯定是针对一个实例的.而在CartPole中,一个episode就是一个实例,在任务结束后就需要计算一次梯度
        
        :baguette_bread:每次计算后都会相加到梯度的缓冲区汇总,达到一个批次的时候,直接应用到模型中(不用做平均值)
        
        :five:输入有哪些
        
        :one:每个时间点上的环境状态
        
        :two:1-action
        
        :three:衰减系数(advantages)
        
        :four:汇总的一个batch的梯度
        
        :six:loss的计算方式
        
        :explode:使用预测出来的采取各种Action的probability和false_labels的平方差并乘上对应的衰减系数
        
        :pencil2:-tf.reduce_mean(tf.log((probability - false_labels) ** 2) * advantages)
        
        :seven:labels怎么确定
        
        :explode:直接拿我们用模型预测的probability来确定labels
        
        :pencil2:action = 1 if np.random.random() < probability1 else 0
        
        :melon:模型
        
        :explode:没有偏差的2层神经网络.激活函数分别是relu和sigmoid
        
        :pencil2:CartPole代码
  - - - :one:Box
        
        :explode:连续数据构成的空间
        
        :icecream:Box(-1, 1, (3, 4))
        
        :explode:(3, 4)的二维空间上每个数据都在[-1, 1]之间
      - :two:Discrete
        
        :explode:描述了一个Categorical分布的空间,空间由N个离散状态构成,每一个状态之间排斥
        
        :icecream:Discrete(2)
- - - - state, action, td_error
  - - - state, next_state, reward, action