理解心理学中的强化学习,我认为应该首先讲AI里面的强化学习
我们生活的世界充满了各种交互,人类通过行动影响周围的环境,而环境又反馈给我们不同的结果或奖励。在强化学习中,环境类似于我们生活中的外部世界,它是Agent(智能体)与之交互的外部系统。在每一个时间步,环境会向Agent提供当前的状态(State),Agent基于此做出相应的动作(Action),环境则根据这些动作更新状态,并可能给予一定的奖励(Reward)。这种循环式的互动就像我们生活中的决策与反馈过程,推动着Agent不断学习和改进。
因此,强化学习中通常用四元组 (S,A,P,R) 来形式化定义一个环境(Env)。
Env=(S,A,P,R) 其中,每个元素的定义如下:
S (States): 状态集合,表示环境中所有可能的状态。
A (Actions): 动作集合,表示在每个状态下Agent可以执行的所有可能动作。
P (Transition Probabilities): 状态转移概率函数,描述在执行某个动作后从一个状态转移到另一个状态的概率。通常表示为 P(s′∣s,a) 。
R (Rewards): 奖励函数,描述在执行某个动作后从一个状态转移到另一个状态时得到的即时奖励。通常表示为 R(s,a,s′) 。
马尔可夫决策过程(Markov Decision Process, MDP)是一个数学模型,用于描述一个决策问题,在该问题中,决策者(Agent)在不同状态之间进行选择(行动),以最大化其长期回报。当我们说“环境是一个MDP”时,意思是我们可以用MDP的形式化描述来定义环境的动态行为。MDP为我们提供了一个结构化的方式来描述Agent与环境的交互,这包括状态、动作、状态转移和奖励。这种描述方式使我们能够利用动态规划和强化学习算法来求解最优策略,从而在给定环境中实现目标。
Frozen Lake 是一个经典的强化学习问题,AI相关专业中通常使用该问题解释和演示动态规划和强化学习中的基本概念。我们将通过这个例子介绍以下几个重要概念:Agent、State、Transmission Function 和 Reward。
在强化学习中,Agent 是指在环境中进行决策和行动的智能体。它观察环境状态,选择行动,并根据行动的结果更新其策略。
在 Frozen Lake 例子中,Agent 是一个在冰湖上移动的角色(例如,一个小人)。它的目标是从起点(Start)移动到目标(Goal)而不掉进冰窟窿(Hole)。
State(状态)是描述当前环境的情况或配置。在 Frozen Lake 中,状态$$(s)$$可以表示 Agent 在网格中的位置。
Frozen Lake 可以被表示为一个 8 × 8 的网格,包含以下几种状态:
F: Frozen(冰面,可安全行走,图中白色部分)
H: Hole(冰窟窿,掉进去就失败,图中蓝色部分)
每个状态都是网格中的一个单元格,Agent 从一个单元格移动到另一个单元格。我们用如下代码构建环境中的状态空间:
其中 S 为状态集合,在代码中用env.S来表示, A 为动作集合,在代码中用env.A来表示。
Action(行动)是 Agent 可以在每个状态下执行的操作。在 Frozen Lake 中,Agent 有四种可能的行动:
这些行动会导致 Agent 从当前状态移动到相邻的状态(如果没有超出网格边界)。
Transmission Function (P)
Transmission Function(状态转移函数)定义了在执行某个行动后,环境如何从一个状态转移到另一个状态,以及每个转移的概率。
在 Frozen Lake 中,状态转移函数可以表示为 P(s′∣s,a),即在状态 s 执行动作 a 后转移到状态 s′ 的概率。例如,Agent从 (0,0) 点出发, (0,0) 为当前的状态 s,在执行向下移动的动作后,到达 (1,0),为新的状态 s′ 。
Reward(奖励)是 Agent 执行动作后从环境中获得的反馈。奖励用于指导 Agent 学习最佳策略,以实现其目标。
在 Frozen Lake 中,奖励机制通常如下:
在强化学习中,目标是让智能体(Agent)学习一个策略(Policy),以最大化其在给定环境中的长期累积奖励。具体来说,智能体通过与环境交互,根据获得的奖励,不断调整其行为策略,使得在每一步行动中,智能体能够选择最优的行动来实现这一目标。
策略 π 是一个映射,定义了Agent在每个状态 s 应该选择的动作 a。策略可以是确定的,即 π(s)=a,或者是随机的,即 π(s∣a)=P(s∣a)。
预期累计奖励(Expected cumulative reward)
计算预期累计奖励是强化学习的核心目标之一,它涉及估计在给定策略下从当前状态开始的长期回报。
首先计算累计奖励。初始化状态 s1,选择一个初始动作 a1,随机获得奖励 r1,同时进入新状态。重复步骤,在状态 st−1 执行动作 at−1,观察到新的状态 st 和即时奖励 rt。根据当前策略在新状态 st 选择下一个动作 at。以此类推,得到即时奖励 rt+1,进入新状态 st+1。
由此得到,从初始状态开始得到累计奖励 G1=r1+γr2+γ2r3+γ3r4+…,其中 γ 是折扣因子(discount factor),用于权衡未来奖励的重要性, 0≤γ≤1。以此类推, Gt=rt+γrt+1+γ2rt+2+γ3rt+3+…, Gt 是从时间 t 开始的累计奖励。
价值函数 V(s) 表示在状态 s 下按照某策略 π 选择动作是的预期累计奖励。它的定义是:
Vπ(s)=E[Gt∣st=s]=E[rt+γrt+1+…∣st=s](1) 在给定状态 st=s 和策略 π 的情况下,我们可以把期望分解为对所有可能动作 a 的加权期望,权重是按照策略 π 在状态 s 下选择动作 a 的概率 π(a∣s):
Vπ(s)=a∑π(a∣s)E[rt+γrt+1+…∣st=s,at=a](2) 已知 Gt=rt+γGt+1,因此 E[Gt∣st=s,at=a]=E[rt+γGt+1∣st=s,at=a]。可以进一步分 Gt+1,得到:
Vπ(s)=a∑π(a∣s)s′∑p(s′∣s,a)[rt+E[γrt+1+γ2rt+2+…∣st+1=s′]∣st=s,at=a](3) 由于马尔可夫性质,未来的奖励只依赖于当前状态和动作,并与过去的状态和动作无关。由价值函数定义可得, Vπ(s′)=E[rt+1+γrt+2+…∣st+1=s′],简化(3)可得:
Vπ(s)=a∑π(a∣s)s′∑p(s′∣s,a)[rt+γVπ(s′)∣st+1=s′]∣st=s,at=a,st+1=s′](4) Vπ(s)=a∑π(a∣s)s′∑p(s′∣s,a)[rt+γVπ(s′)∣st+1=s′]](5) 因此得到,状态价值函数的贝尔曼方程(Bellman equation):
Vπ(s)=a∑π(a∣s)s′∑p(s′∣s,a)[rt+γVπ(s′)](6) Bellman Equation 是强化学习和动态规划中的核心方程,用于描述在给定策略下的价值函数的递归关系。使用 Bellman Equation,我们可以估计给定策略的每个任意状态的值。
价值函数(Value Function)与状态-动作价值函数(State-Action Q value Function)
根据同上方法,可以推得状态-动作价值函数的Bellman Equation为:
Qπ(s,a)=s′∑p(s′∣s,a)[rt+γQπ(s′,a′)](7) 价值函数 V(s) 是在状态 s 下的预期累计奖励,用于评估状态的好坏,对于策略 π 定义为:
Vπ(s)=a∑π(a∣s)E[rt+γrt+1+γ2rt+2…∣st=s,at=a] 状态-动作价值函数 Q(s,a) 是在状态 s 执行动作 a 后的预期累计奖励,对于策略 π 定义为:
Qπ(s,a)=E[rt+γrt+1+γ2rt+2…∣st=s,at=a] 由上可得,两者的关系是:
Vπ(s)=a∑π(a∣s)Qπ(s,a) 因此,强化学习的最终目标是找到一个最优策略最大化价值:
π∗=argπmaxVπ(s)