写在前面的话

事情要从这样一篇”不知所云”的文章讲起……

虽然研究主题是熟悉的决策问题，也挂上了神经生物学的名头，并且成功地推送到了某心理学学生面前。但是显然，这些来自于“computational”的专业名词，诸如“hierarchy (hyper-group parameters)”、“hierarchical Bayesian models”、“the Markov Chain Monte Carlo (MCMC) technique”、“initial burn-in sequence”等等，对于心理学学生来说实在是如同天书。

困难虽有，不必着急，本章内容也许能帮助你迈出理解第一步。

频率学派 vs. 贝叶斯学派

还记得在第三章中，我们学到的最大似然估计和最大后验估计吗？在频率学派中，我们利用最大似然估计的方法，遍历所有可能的参数值，寻找哪个参数最有可能产生观测数据，即 $\hat{\theta} = \arg\max_{\theta} \, p(\text{data} \mid \theta)$ 。但是，当遇到参数空间太大、数据太少等情况时，最大似然估计可能不稳定，出现无解或解不唯一等问题。在贝叶斯学派中，最大后验估计的方法通过引入先验信息来约束参数，我们带着对参数的先验，从已经产生的观测数据中反推出参数的最大可能值，即 $\hat{\theta} = \arg\max_{\theta} \, p(\theta \mid data)$ 。这种贝叶斯推理的思想广泛存在于认知心理学的概率模型中，其本质就是求解后验概率分布。

为什么本章要再介绍两种参数估计的方法呢？第一，最大似然估计和最大后验估计都只能得到参数的点估计值，无法直接得到参数的不确定性信息。后验不确定性不仅对模型的比较和预测很重要，而且在一些认知行为中有重要的理论意义（例如人们对选择的不确定性可能代表了自信程度）。第二，当我们围绕某种心理过程建立认知模型时，如果模型比较简单，我们的确可以用前面两种方法得到精确的解析解；但是，一旦模型结构变得更复杂、参数数量增加，后验分布的形式复杂，我们很可能就算不出解析解，模型优化不稳定。因此，我们在这里介绍马尔可夫链蒙特卡洛采样和变分推断两种方法，它们能够以采样或近似的方法，更稳健地估计参数的整个后验分布。

回到开头的例子中，这篇文章采用了一种层级贝叶斯模型来研究个体决策模式，也就是用来自整个群体的参数估计来约束个体的参数估计。这种层级模型的精髓就在于表达各个层级的不确定性并在层级之间共享不确定性。同时，层级结构通常后验复杂，使用最大后验估计会有一定限制。这就是这项研究使用MCMC方法拟合模型的原因。感兴趣的同学可以在学完本章后，回到这篇文章阅读模型的数学细节和参数的拟合流程！

本章学习要求

对于心理学专业背景的同学而言，理解马尔可夫链蒙特卡洛采样和变分推断是个非常大的挑战。其中，理解马尔可夫链蒙特卡洛采样对于理解认知心理学中经典的概率贝叶斯模型 (Probabilistic Bayesian Modeling)来说是一个重要的里程碑。

当你学完这章之后，

完全理解了所有数学推导并且能够自己实现算法代码，那说明你对此掌握得极好了！
部分理解了背后的数学推导，但同样可以实现算法代码，那说明你已经对此掌握得很好了！
部分甚至完全不理解背后的数学推导，但是可以借助已有的工具包实现算法，那依然说明你已经对此掌握得很好了！

实际上，心理学/认知神经科学的同学达成第二个或第三个小目标就足够了。

所以，同学们，放下心理负担，开启本章学习吧！

参考文献

Edelson, M. G., Polania, R., Ruff, C. C., Fehr, E., & Hare, T. A. (2018). Computational and neurobiological foundations of leadership decisions. Science, 361(6401), eaat0036. https://doi.org/10.1126/science.aat0036

最后更新于3个月前