CompModCogPsy
  • 全书介绍和写作计划
  • 第一章 计算认知科学导论
    • 前言
    • 1.1 交叉学科三角
    • 1.2 认知科学的特点
    • 1.3 认知科学的发展历史
    • 1.4 我们为什么需要计算认知
      • 1.4.1 认知科学的基础假设:信息处理理论
      • 1.4.2 挑战与“诞生”
      • 1.4.3 计算认知的必要性
  • 第二章 计算模型基础
    • 2.1 什么是计算模型?
    • 2.2 模型选择
    • 2.3 模型拟合
    • 2.4 模型准确度
    • 2.5 模型可信度
  • 第三章 概率推断和贝叶斯理论
    • 3.1 概率基础
    • 3.2 概率推断
      • 3.2.1 似然函数
      • 3.2.2 最大似然估计
    • 3.3 贝叶斯理论
    • 3.4 拓展阅读:p值
    • 3.5 编程练习-最大似然估计
  • 第四章 心理物理学和信号检测论
    • 心理物理学基础
    • 心理物理曲线
      • 几种常见的心理物理曲线
      • 拟合心理物理曲线
    • 信号检测论
      • dprime
      • 决策标准
      • receiver operating curve (ROC)曲线和area under curve (AUC)
      • dprime和AUC的关系
      • 2AFC的应用
      • Page
    • 展望
  • 第五章 近似推断
    • 马尔科夫链蒙特卡洛采样
      • Metropolis-Hasting算法
    • 变分推断
    • 展望
  • 第六章 知觉决策
    • 模拟一个简单知觉决策
    • 模拟决策和反应时
    • 权衡反应时和正确率
    • 6.4 经典漂移扩散模型
    • 漂移扩散模型的应用
      • 基于价值的决策
      • 精神疾病的应用
      • 社会认知
    • 展望
  • 第七章 价值决策
    • 人类决策基础
    • 前景理论
    • 风险决策
    • 展望
  • 第八章 强化学习
    • 机器学习强化学习基础
      • 动态规划
      • 时间差分学习
      • 基于模型和无模型强化学习
    • 心理学的强化学习
    • 强化学习的交叉关系
    • 强化学习模型和参数估计
    • Rescorlar-wagner模型
    • 二阶段任务
    • 展望
  • 第九章 社会决策和社会学习
    • 社会决策
    • 社会学习
    • 展望
  • 第十章 神经网络
    • 神经网络和心理学引言
    • 神经网络基础
      • 多层感知机
      • 卷积神经网络
      • 循环神经网络
    • 神经网络和人脑加工的关系
      • 感知觉的编解码
      • 工作记忆
      • 长时记忆
      • 学习和决策
    • 展望
由 GitBook 提供支持
在本页
  • 1. 强化学习模型
  • 2. 模型比较:
  1. 第八章 强化学习

强化学习模型和参数估计

1. 强化学习模型

在强化学习(Reinforcement Learning, RL)研究中,有几种重要的模型用于描述Agent 如何通过经验来学习行为策略。

1.1 简单强化学习模型(Naïve RL Model)

Naïve Reinforcement Learning Model 是一种基础的、未经复杂优化的强化学习模型,往往是最基本的学习方式。这种模型的学习机制通常基于试探法(trial-and-error),通过环境反馈不断调整行为策略。价值更新过程为:

Vt=Vt−1+α∗(rt−Vt−1)V_t = V_{t-1} + \alpha * (r_t - V_{t-1})Vt​=Vt−1​+α∗(rt​−Vt−1​)

1.2 反事实更新模型(Counterfactual Update Model)

Counterfactual Update Model 强调的是在学习过程中,不仅考虑实际发生的结果,还考虑那些未被选择的动作的潜在结果(反事实,counterfactual outcomes)。这一模型通常用于对比实际行为与可能的行为,从中学习更加优质的策略。

在实验中,该模型不仅更新这个试次已选择选项的价值:

Vc,t+1=Vc,t+α∗(rt−Vc,t)V_{c,t+1}=V_{c,t}+\alpha*(r_t-V_{c,t})Vc,t+1​=Vc,t​+α∗(rt​−Vc,t​)

还更新这个试次未被选择选项的价值:

Vnc,t+1=Vnc,t+α∗(−rt−Vnc,t)V_{nc,t+1}=V_{nc,t}+\alpha*(-r_t-V_{nc,t})Vnc,t+1​=Vnc,t​+α∗(−rt​−Vnc,t​)

其中 Vc,tV_{c,t}Vc,t​ 和 Vnc,tV_{nc,t}Vnc,t​ 分别是以选择选项和未选择选项的价值。Vc,tV_{c,t}Vc,t​

1.3 奖励-惩罚模型(Reward-Punishment Model)

Reward-Punishment Model 是一种通过强化和抑制行为的方式来学习策略的模型。它根据正向反馈(奖励)和负向反馈(惩罚)来调整代理的行为。这种模型与行为主义心理学中的强化理论(reinforcement theory)紧密相关。当Agent在环境中采取某个动作并获得奖励时,该动作的倾向性会增强(正强化);相反,如果代理因为某个动作受到了惩罚,执行该动作的倾向性就会减弱(负强化或惩罚)。Reward-Punishment Model 假定Agent的目标是最大化奖励并最小化惩罚,因此它通过调整行为的概率来促使代理趋向于那些带来正向反馈的行为,而避免负向反馈的行为。

在实验中,如果这个试次获得了奖赏,用一个学习率 αrwd\alpha^{rwd}αrwd:

Vc,t+1=Vc,t+αrwd∗(rt−Vc,t)V_{c,t+1}=V_{c,t}+\alpha^{rwd}*(r_t-V_{c,t})Vc,t+1​=Vc,t​+αrwd∗(rt​−Vc,t​)

如果这个试次没有获得奖赏(这里等价于惩罚),用另一个学习率 αpun\alpha^{pun}αpun:

Vc,t+1=Vc,t+αpun∗(rt−Vc,t)V_{c,t+1}=V_{c,t}+\alpha^{pun}*(r_t-V_{c,t})Vc,t+1​=Vc,t​+αpun∗(rt​−Vc,t​)

2. 模型比较:

当多个模型存在时,需要进行模型比较来探索其中的最佳模型。模型比较过程涉及模型拟合优度(goodness of fit)和模型复杂度之间的权衡。常见的两个模型评估指标有AIC(Akaike information criterion) 和BIC (Bayesian information criterion)。这两个指标通过交叉验证(Cross validation)以及近似交叉验证的方法来验证模型的泛化能力(Generalization ability),即基于当前样本数据拟合后的模型对于样本外数据预测准确度(Out of sample prediction accuracy)。计算过程中为了平衡模型的拟合优度和复杂度,防止过拟合, AIC 和BIC均引入了惩罚项。

2.1 AIC

AIC(Akaike information criterion)是最早被提出的用于模型比较的指标之一(Akaike, 1974)。它度量了模型所预测的数据分布与真实数据分布之间的差异,且已被证明是样本外预测能力(Out-of-sample predictive accuracy)和留一法交叉验证(LOO-CV)的近似(Stone, 1977)。AIC的计算公式为:AIC = −2log(p(data|𝜃)) + 2∗k其中,log(p(data|𝜃))为极大似然法估计或者最大后验概率估计得到的最优参数𝜃的对数似然函数值,用于评估模型拟合优度;k为自由参数的数量,用于对模型复杂度的惩罚。随着k的增加,对模型的惩罚也会增加。AIC 的值越小,表明模型的拟合效果越好。关于AIC差异的解释,Burnham和Anderson(2004)建议,当两个模型的AIC之差的绝对值小于2时,可以认为两个模型之间几乎无差异;当该值在4到7之间时,存在一定证据支持AIC值较小的模型;当该值大于10时,有充分证据认为AIC较小的模型是优于其他模型的。此外,AIC渐近于卡方分布(Anderson & Burnham, 2004),因此研究者可以使用卡方检验对比不同模型的AIC值是否存在显著差异。

2.2 BIC

BIC(贝叶斯信息准则,Bayesian Information Criterion)与AIC相似,是最经典且应用最广泛的模型选择指标之一(Schwarz, 1978)。BIC可视为拉普拉斯近似(Laplace approximation)边际似然的一个特例(Bishop, 2006)。在计算拉普拉斯近似时,假设先验分布为无信息先验,并且当数据点数量𝑛极多时,根据大数定律,拉普拉斯近似的结果可简化为BIC。BIC的计算公式为:𝐵𝐼𝐶 = −2log (p(data|𝜃)) + k*log(𝑛)其中,k*log(𝑛)是对模型复杂度的惩罚项,k是参数数量,𝑛是数据数量。BIC不仅考虑了参数数量对模型复杂度的影响,还将数据量纳入模型复杂度惩罚的关键因素。与AIC相似,BIC的值越小,表明模型拟合效果越好。

最后更新于8个月前