强化学习模型和参数估计

1. 强化学习模型

在强化学习（Reinforcement Learning, RL）研究中，有几种重要的模型用于描述Agent 如何通过经验来学习行为策略。

1.1 简单强化学习模型（Naïve RL Model）

Naïve Reinforcement Learning Model 是一种基础的、未经复杂优化的强化学习模型，往往是最基本的学习方式。这种模型的学习机制通常基于试探法（trial-and-error），通过环境反馈不断调整行为策略。价值更新过程为：

V_t = V_{t-1} + \alpha * (r_t - V_{t-1})

1.2 反事实更新模型（Counterfactual Update Model）

Counterfactual Update Model 强调的是在学习过程中，不仅考虑实际发生的结果，还考虑那些未被选择的动作的潜在结果（反事实，counterfactual outcomes）。这一模型通常用于对比实际行为与可能的行为，从中学习更加优质的策略。

在实验中，该模型不仅更新这个试次已选择选项的价值：

V_{c,t+1}=V_{c,t}+\alpha*(r_t-V_{c,t})

还更新这个试次未被选择选项的价值：

V_{nc,t+1}=V_{nc,t}+\alpha*(-r_t-V_{nc,t})

其中 $V_{c,t}$ 和 $V_{nc,t}$ 分别是以选择选项和未选择选项的价值。 $V_{c,t}$

1.3 奖励-惩罚模型（Reward-Punishment Model）

Reward-Punishment Model 是一种通过强化和抑制行为的方式来学习策略的模型。它根据正向反馈（奖励）和负向反馈（惩罚）来调整代理的行为。这种模型与行为主义心理学中的强化理论（reinforcement theory）紧密相关。当Agent在环境中采取某个动作并获得奖励时，该动作的倾向性会增强（正强化）；相反，如果代理因为某个动作受到了惩罚，执行该动作的倾向性就会减弱（负强化或惩罚）。Reward-Punishment Model 假定Agent的目标是最大化奖励并最小化惩罚，因此它通过调整行为的概率来促使代理趋向于那些带来正向反馈的行为，而避免负向反馈的行为。

在实验中，如果这个试次获得了奖赏，用一个学习率 $\alpha^{rwd}$ ：

V_{c,t+1}=V_{c,t}+\alpha^{rwd}*(r_t-V_{c,t})

如果这个试次没有获得奖赏（这里等价于惩罚），用另一个学习率 $\alpha^{pun}$ ：

V_{c,t+1}=V_{c,t}+\alpha^{pun}*(r_t-V_{c,t})

2. 模型比较：

当多个模型存在时，需要进行模型比较来探索其中的最佳模型。模型比较过程涉及模型拟合优度(goodness of fit)和模型复杂度之间的权衡。常见的两个模型评估指标有AIC(Akaike information criterion) 和BIC (Bayesian information criterion)。这两个指标通过交叉验证(Cross validation)以及近似交叉验证的方法来验证模型的泛化能力(Generalization ability)，即基于当前样本数据拟合后的模型对于样本外数据预测准确度(Out of sample prediction accuracy)。计算过程中为了平衡模型的拟合优度和复杂度，防止过拟合, AIC 和BIC均引入了惩罚项。

2.1 AIC

AIC(Akaike information criterion)是最早被提出的用于模型比较的指标之一(Akaike, 1974)。它度量了模型所预测的数据分布与真实数据分布之间的差异，且已被证明是样本外预测能力（Out-of-sample predictive accuracy）和留一法交叉验证（LOO-CV）的近似（Stone, 1977）。AIC的计算公式为：AIC = −2log(p(data|𝜃)) + 2∗k其中，log(p(data|𝜃))为极大似然法估计或者最大后验概率估计得到的最优参数𝜃的对数似然函数值，用于评估模型拟合优度；k为自由参数的数量，用于对模型复杂度的惩罚。随着k的增加，对模型的惩罚也会增加。AIC 的值越小，表明模型的拟合效果越好。关于AIC差异的解释，Burnham和Anderson（2004）建议，当两个模型的AIC之差的绝对值小于2时，可以认为两个模型之间几乎无差异；当该值在4到7之间时，存在一定证据支持AIC值较小的模型；当该值大于10时，有充分证据认为AIC较小的模型是优于其他模型的。此外，AIC渐近于卡方分布（Anderson & Burnham, 2004），因此研究者可以使用卡方检验对比不同模型的AIC值是否存在显著差异。

2.2 BIC

BIC（贝叶斯信息准则，Bayesian Information Criterion）与AIC相似，是最经典且应用最广泛的模型选择指标之一（Schwarz, 1978）。BIC可视为拉普拉斯近似（Laplace approximation）边际似然的一个特例（Bishop, 2006）。在计算拉普拉斯近似时，假设先验分布为无信息先验，并且当数据点数量𝑛极多时，根据大数定律，拉普拉斯近似的结果可简化为BIC。BIC的计算公式为：𝐵𝐼𝐶 = −2log (p(data|𝜃)) + k*log(𝑛)其中，k*log(𝑛)是对模型复杂度的惩罚项，k是参数数量，𝑛是数据数量。BIC不仅考虑了参数数量对模型复杂度的影响，还将数据量纳入模型复杂度惩罚的关键因素。与AIC相似，BIC的值越小，表明模型拟合效果越好。

最后更新于11个月前