基于模型和无模型强化学习
最后更新于
最后更新于
本章要点
根据前面所学的知识
无模型和有模型是强化学习中一个特殊的概念,其中的模型指的是关于环境的知识,例如状态转移概率和奖励函数。有模型和无模型的关键区别就是对环境知识是否已知。
基于模型的强化学习(Model - based learning)
代表算法:动态规划(Dynamic Programming)
动态规划是一种系统化的优化方法,用于解决具有重叠子问题的决策问题。在强化学习的背景下,动态规划被用来通过递推的方式计算状态的价值函数或策略。
动态规划需要一个已知的环境模型,包括状态转移概率和奖励函数。这意味着我们必须事先知道所有可能的状态转移及其对应的奖励。
无模型的强化学习(Model - free learning)
代表算法:时间差分学习(TD learning)
时间差分学习是一种通过经验来估计价值函数的算法,适用于无模型情况。TD 学习结合了蒙特卡罗方法(依赖样本进行估计)和动态规划(利用贝尔曼方程的递归性质)的方法。
与动态规划不同,时间差分学习可以在智能体与环境交互时实时更新价值估计,而不需要等待完整的一条轨迹或知道完整的环境模型。TD 学习只需通过与环境的交互采样部分状态转移,即可更新价值函数,而无需完全了解环境模型。
各种算法在是否基于模型的强化学习分类中如下: