Please enable JavaScript.

Coggle requires JavaScript to display documents.

AI (Machine Learning (Supervised Learning(監督式) (Train Data (define (relies…

- - - - define
        
        relies on data where the true label/class was indicated
  - - - 强化学习是一类算法, 是让计算机实现从一开始什么都不懂, 脑袋里没有一点想法, 通过不断地尝试, 从错误中学习, 最后找到规律, 学会了达到目的的方法. 这就是一个完整的强化学习过程(從無到有學習)
        
        URL:
    - - model-based
        
        那理解了环境也就是学会了用一个模型来代表环境
        他能通过想象来预判断接下来将要发生的所有情况. 然后选择这些想象情况中最好的那种.
        
        比model-free多出建模步驟
      - model-free
        
        不尝试去理解环境, 环境给了我们什么就是什么
        机器人只能按部就班, 一步一步等待真实世界的反馈, 再根据反馈采取下一步行动
        
        e.g.: Q Learning, Sarsa, Policy Gradients
      - 基於概率(policy-Based RL)
        
        基于概率是强化学习中最直接的一种, 他能通过感官分析所处的环境, 直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动
        
        e.g.: Policy Gradients
      - 基於價值(Value-Based RL)
        
        基于价值的方法输出则是所有动作的价值, 我们会根据最高价值来选着动作
        
        e.g. Q learning , Sarsa
      - 在線學習(On-policy)
        
        指我必须本人在场, 并且一定是本人边玩边学习
        
        e.g: Sarsa, Sarsa Lambda(優化)
      - 離線學習(Off-Policy)
        
        你可以选择自己玩, 也可以选择看着别人玩, 通过看别人玩来学习别人的行为准则
        
        e.g.: Q learning