Reinforcement learning (MDPs (Markov reward processes (Reward function,…