CompModCogPsy
  • 全书介绍和写作计划
  • 第一章 计算认知科学导论
    • 前言
    • 1.1 交叉学科三角
    • 1.2 认知科学的特点
    • 1.3 认知科学的发展历史
    • 1.4 我们为什么需要计算认知
      • 1.4.1 认知科学的基础假设:信息处理理论
      • 1.4.2 挑战与“诞生”
      • 1.4.3 计算认知的必要性
  • 第二章 计算模型基础
    • 2.1 什么是计算模型?
    • 2.2 模型选择
    • 2.3 模型拟合
    • 2.4 模型准确度
    • 2.5 模型可信度
  • 第三章 概率推断和贝叶斯理论
    • 3.1 概率基础
    • 3.2 概率推断
      • 3.2.1 似然函数
      • 3.2.2 最大似然估计
    • 3.3 贝叶斯理论
    • 3.4 拓展阅读:p值
    • 3.5 编程练习-最大似然估计
  • 第四章 心理物理学和信号检测论
    • 心理物理学基础
    • 心理物理曲线
      • 几种常见的心理物理曲线
      • 拟合心理物理曲线
    • 信号检测论
      • dprime
      • 决策标准
      • receiver operating curve (ROC)曲线和area under curve (AUC)
      • dprime和AUC的关系
      • 2AFC的应用
      • Page
    • 展望
  • 第五章 近似推断
    • 马尔科夫链蒙特卡洛采样
      • Metropolis-Hasting算法
    • 变分推断
    • 展望
  • 第六章 知觉决策
    • 模拟一个简单知觉决策
    • 模拟决策和反应时
    • 权衡反应时和正确率
    • 6.4 经典漂移扩散模型
    • 漂移扩散模型的应用
      • 基于价值的决策
      • 精神疾病的应用
      • 社会认知
    • 展望
  • 第七章 价值决策
    • 人类决策基础
    • 前景理论
    • 风险决策
    • 展望
  • 第八章 强化学习
    • 机器学习强化学习基础
      • 动态规划
      • 时间差分学习
      • 基于模型和无模型强化学习
    • 心理学的强化学习
    • 强化学习的交叉关系
    • 强化学习模型和参数估计
    • Rescorlar-wagner模型
    • 二阶段任务
    • 展望
  • 第九章 社会决策和社会学习
    • 社会决策
    • 社会学习
    • 展望
  • 第十章 神经网络
    • 神经网络和心理学引言
    • 神经网络基础
      • 多层感知机
      • 卷积神经网络
      • 循环神经网络
    • 神经网络和人脑加工的关系
      • 感知觉的编解码
      • 工作记忆
      • 长时记忆
      • 学习和决策
    • 展望
由 GitBook 提供支持
在本页
  • 1. 认知地图、记忆与海马体
  • 2. 灵活状态表示(Flexible State Representation)
  • 3. 泛化能力(generalization)
  • 4. 持续学习(Continuous Learning)
  • 5. 顺序规划(Sequential Planning)
  • 6. 社会学习中的应用
  1. 第八章 强化学习

展望

强化学习(RL)已成为理解包括人类在内的动物如何从经验中学习以优化决策的关键框架。随着我们对认知和神经过程理解的加深,RL 模型越来越多地被用来解释复杂的认知功能,如记忆、规划和跨领域学习。

1. 认知地图、记忆与海马体

认知地图(Cognitive maps)是大脑用于表示空间和环境关系的内在模型,最早由Tolman(1948)提出。海马体(Hippocampus)在大脑中负责构建和管理这些空间表征。海马体中的位置细胞(place cells)和网格细胞(grid cells)构成了神经基础,使得生物能够在复杂环境中导航。RL中的基于模型的强化学习与认知地图理论高度相关,因为它通过学习环境的内在模型来进行规划和决策。

RL代理可以通过探索环境,逐步构建其“认知地图”,从而提高决策能力。例如,基于模型的RL算法(如Dyna-Q)允许代理通过学习环境的转移模型进行模拟和规划,这类似于海马体中的记忆回放(memory replay)机制。研究表明,经验回放机制在强化学习和神经科学中的应用能够解释海马体在空间导航中的功能(Mattar & Daw, 2018)。

2. 灵活状态表示(Flexible State Representation)

灵活状态表示是认知建模中的一个重要课题,因为大脑能够根据任务需求调整对状态的表征。在RL中,如何为智能体提供足够灵活的状态表示,使其能够适应多变的环境,是一个关键挑战。传统的RL模型依赖固定的状态表示,这限制了它们在不同任务和情境中的泛化能力。Gershman 和 Niv(2010)强调,人类和动物可以根据任务需求在不同的学习策略之间灵活转换,如无模型和基于模型的 RL。这种灵活性得到包括前额叶皮层在内的多个大脑区域的支持,抽象规则在前额叶皮层得到处理和整合,从而支持灵活的认知。

3. 泛化能力(generalization)

人类和动物的认知系统具备强大的泛化能力,能够将从特定环境中学到的知识应用到新情境中。对于RL模型来说,如何让智能体在学习后能迅速适应新环境是一个关键问题。传统RL方法常常依赖于特定环境的特定经验,缺乏良好的泛化性能。转移学习(Transfer Learning)与元学习(Meta-learning)是实现泛化能力的有效途径。转移学习通过从先前任务中提取有用信息,帮助智能体在新任务中快速学习。元学习进一步增强了模型在不同任务中的适应性,使其能够在少量经验下实现学习。Ritter 等人(2018)利用元强化学习讨论了泛化问题,元强化学习能让代理在不同任务中学习 “学习策略”,从而提高他们在新情况下的表现。

4. 持续学习(Continuous Learning)

人类能够在学习新知识的同时保持对旧知识的记忆,而RL模型却面临着灾难性遗忘(catastrophic forgetting)的问题,即在新任务中学习时,旧任务的知识容易丢失。这一问题限制了RL模型在动态环境中的适应能力。为解决这一问题,RL研究引入了弹性权重保持(Elastic Weight Consolidation, EWC)等方法,通过对关键网络参数赋予更高权重,使智能体能够在学习新任务时保持对旧任务的知识。这种方法类似于大脑在不同学习任务间的权衡机制(Kirkpatrick et al., 2017)。

5. 顺序规划(Sequential Planning)

复杂任务往往需要多步推理和规划,特别是在不确定环境中,人类能够进行长远规划并调整行为。顺序规划是强化学习模型实现智能决策的关键。RL中的基于模型的规划方法通过环境模拟进行多步预测,从而优化决策路径。蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)是RL中的一种顺序规划方法,广泛应用于复杂决策任务,如游戏AI和机器人路径规划。它通过模拟未来状态的多种可能性来选择最优路径,这类似于大脑在导航任务中的多步决策过程(Silver et al., 2016)。Russek 等人(2017)探究了顺序规划如何依赖于认知地图,其中海马支持对未来可能状态的表征。

6. 社会学习中的应用

RL 模型并不局限于传统的决策任务,而是扩展到复杂的社会行为。在社会学习中,个人不仅可以从个人经验中学习,还可以通过观察他人来学习。RL 模型已被用于解释社会互动,在社会互动中,奖励来自于社会反馈和他人的行为。例如,Cushman(2020 )探讨了 RL 原理如何解释道德学习,即个人根据其行为的社会后果调整自己的行为。同样,Lockwood 等人(2020 )研究了人们如何通过平衡自私行为和亲社会行为来优化自己的社会地位,研究中结合使用了无模型和基于模型的 RL 策略。

参考文献:

Gershman, S. J., & Niv, Y. (2010). Learning latent structure: carving nature at its joints. Current Opinion in Neurobiology, 20(2), 251-256.

Kirkpatrick, J., Pascanu, R., Rabinowitz, N., et al. (2017). Overcoming catastrophic forgetting in neural networks. Proceedings of the National Academy of Sciences, 114(13), 3521–3526.

Mattar, M. G., & Daw, N. D. (2018). Prioritized memory access explains planning and hippocampal replay. Nature Neuroscience, 21(11), 1609–1617.

Ritter, S., Wang, J. X., Kurth-Nelson, Z., & Botvinick, M. M. (2018). Been there, done that: meta-learning with episodic recall. Advances in Neural Information Processing Systems, 31, 4190-4199.

Russek, E. M., Momennejad, I., Botvinick, M. M., Gershman, S. J., & Daw, N. D. (2017). Predictive representations can link model-based reinforcement learning to model-free mechanisms. PLoS Computational Biology, 13(9), e1005768.

Silver, D., Huang, A., Maddison, C. J., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484–489.

Tolman, E. C. (1948). Cognitive maps in rats and men. Psychological Review, 55(4), 189-208.

Cushman, F. (2020). Rationalization is rational. Behavioral and Brain Sciences, 43, e28.

Lockwood, P. L., Apps, M. A. J., & Chang, S. W. C. (2020). Is there a 'social' brain? Implementations and algorithms. Trends in Cognitive Sciences, 24(10), 802-813.

最后更新于9个月前