Please enable JavaScript.
Coggle requires JavaScript to display documents.
RL Comparision (Model Based (缺點 (解決已知模型誤差 (PILCO (Models (高斯模型 (濾波PILCO,…
RL Comparision
Model Based
缺點
解決已知模型誤差
PILCO
底層:學習轉一概率模型
中間層:對長期預測進行近似推斷
頂層:策略更新
Models
高斯模型
濾波PILCO
有向探索PILCO
缺點:難以擴展到高維空間
Bayesian Neural Netowrk
Deep PILCO
輸出不確定性
輸入不確定性
優點
如果模型完全已知,轉化為最優控制問題
先從數據中學習模型,在基於模型優化策略
Non Model Based
優點
通用,適用於無法建模or很難建模情境,ex:遊戲,NLP
缺點
效率不高,需要計算上萬次
無泛化能力,環境或任務改變時,agent須重新探索