CompModCogPsy
  • 全书介绍和写作计划
  • 第一章 计算认知科学导论
    • 前言
    • 1.1 交叉学科三角
    • 1.2 认知科学的特点
    • 1.3 认知科学的发展历史
    • 1.4 我们为什么需要计算认知
      • 1.4.1 认知科学的基础假设:信息处理理论
      • 1.4.2 挑战与“诞生”
      • 1.4.3 计算认知的必要性
  • 第二章 计算模型基础
    • 2.1 什么是计算模型?
    • 2.2 模型选择
    • 2.3 模型拟合
    • 2.4 模型准确度
    • 2.5 模型可信度
  • 第三章 概率推断和贝叶斯理论
    • 3.1 概率基础
    • 3.2 概率推断
      • 3.2.1 似然函数
      • 3.2.2 最大似然估计
    • 3.3 贝叶斯理论
    • 3.4 拓展阅读:p值
    • 3.5 编程练习-最大似然估计
  • 第四章 心理物理学和信号检测论
    • 心理物理学基础
    • 心理物理曲线
      • 几种常见的心理物理曲线
      • 拟合心理物理曲线
    • 信号检测论
      • dprime
      • 决策标准
      • receiver operating curve (ROC)曲线和area under curve (AUC)
      • dprime和AUC的关系
      • 2AFC的应用
      • Page
    • 展望
  • 第五章 近似推断
    • 马尔科夫链蒙特卡洛采样
      • Metropolis-Hasting算法
    • 变分推断
    • 展望
  • 第六章 知觉决策
    • 模拟一个简单知觉决策
    • 模拟决策和反应时
    • 权衡反应时和正确率
    • 6.4 经典漂移扩散模型
    • 漂移扩散模型的应用
      • 基于价值的决策
      • 精神疾病的应用
      • 社会认知
    • 展望
  • 第七章 价值决策
    • 人类决策基础
    • 前景理论
    • 风险决策
    • 展望
  • 第八章 强化学习
    • 机器学习强化学习基础
      • 动态规划
      • 时间差分学习
      • 基于模型和无模型强化学习
    • 心理学的强化学习
    • 强化学习的交叉关系
    • 强化学习模型和参数估计
    • Rescorlar-wagner模型
    • 二阶段任务
    • 展望
  • 第九章 社会决策和社会学习
    • 社会决策
    • 社会学习
    • 展望
  • 第十章 神经网络
    • 神经网络和心理学引言
    • 神经网络基础
      • 多层感知机
      • 卷积神经网络
      • 循环神经网络
    • 神经网络和人脑加工的关系
      • 感知觉的编解码
      • 工作记忆
      • 长时记忆
      • 学习和决策
    • 展望
由 GitBook 提供支持
在本页
  1. 第八章 强化学习

强化学习的交叉关系

最后更新于8个月前

  • 重点阐述AI里面的强化学习是如何对应到心理学的任务上的

我们将冰湖游戏作为AI中的强化学习代表,老虎机概率反转学习范式作为心理学中的强化学习代表。

在冰湖游戏中,状态空间为64个格子,动作空间为四个方向(上,下,左,右),状态转移函数和奖励函数由环境所决定也比较明确。

那么在心理学的概率反转学习范式中,状态空间是什么?动作空间是什么?状态转移函数和奖励函数是什么?公式中的Value怎么联系?是有模型还是无模型?

要解决这些疑问,让我们重新思考一遍概率反转学习范式。以一个具体范式来说,实验一共t个trial,假定每个trail中有A(左)和B(右)两个选项,前一半的trial中A和B的奖赏概率分别是0.7和0.3, 后一半trial的两者的奖赏概率反转为0.3和0.7。即在前一半的一个trial中,受试者选择A获得奖赏的概率为0.7,后一半的一个trial中,受试者选择A获得奖赏的概率为0.3。

我们对照心理学中的公式和Q learning的公式,其实心理学中的Value即对应了AI中的Q 动作价值函数。所以在概率反转学习范式对于受试者而言,是一个无模型的学习。

在单个trial这样一个刺激-选择-奖赏的过程中,毋庸置疑,初始的状态为面对刺激。受试者通过做选择(A或B)来获得奖励,所以动作空间由选择的选项构成,那么做完选择的状态是什么呢?是获得奖励的反馈。整体如下图所示,所以状态空间由三个状态组成,刺激,获得奖励,不获得奖励。动作空间由选项构成,选A(左)和选B(右)。其中状态转移函数和奖励函数由主试决定,在这个例子中, P(+1状态|刺激,A)P(+1状态|刺激,A)P(+1状态|刺激,A)在前一半的trial中为0.7,在后一半中为0.3, P(−1状态|刺激,A)P(-1状态|刺激,A)P(−1状态|刺激,A) 与之相反。除此之外,奖励函数也可以由主试决定。但是真的是这样吗?我们当然可以将获得奖励的状态也称作状态,但是对于强化学习中最关键的更新部分,在奖励状态Agent无法有实际的Action,不会影响到更新。换句话说,此时的奖励就是冰湖游戏的终点,终点可以作为一个状态,但是我们在终点就结束了游戏。

图1 冰湖游戏