CompModCogPsy
  • 全书介绍和写作计划
  • 第一章 计算认知科学导论
    • 前言
    • 1.1 交叉学科三角
    • 1.2 认知科学的特点
    • 1.3 认知科学的发展历史
    • 1.4 我们为什么需要计算认知
      • 1.4.1 认知科学的基础假设:信息处理理论
      • 1.4.2 挑战与“诞生”
      • 1.4.3 计算认知的必要性
  • 第二章 计算模型基础
    • 2.1 什么是计算模型?
    • 2.2 模型选择
    • 2.3 模型拟合
    • 2.4 模型准确度
    • 2.5 模型可信度
  • 第三章 概率推断和贝叶斯理论
    • 3.1 概率基础
    • 3.2 概率推断
      • 3.2.1 似然函数
      • 3.2.2 最大似然估计
    • 3.3 贝叶斯理论
    • 3.4 拓展阅读:p值
    • 3.5 编程练习-最大似然估计
  • 第四章 心理物理学和信号检测论
    • 心理物理学基础
    • 心理物理曲线
      • 几种常见的心理物理曲线
      • 拟合心理物理曲线
    • 信号检测论
      • dprime
      • 决策标准
      • receiver operating curve (ROC)曲线和area under curve (AUC)
      • dprime和AUC的关系
      • 2AFC的应用
      • Page
    • 展望
  • 第五章 近似推断
    • 马尔科夫链蒙特卡洛采样
      • Metropolis-Hasting算法
    • 变分推断
    • 展望
  • 第六章 知觉决策
    • 模拟一个简单知觉决策
    • 模拟决策和反应时
    • 权衡反应时和正确率
    • 6.4 经典漂移扩散模型
    • 漂移扩散模型的应用
      • 基于价值的决策
      • 精神疾病的应用
      • 社会认知
    • 展望
  • 第七章 价值决策
    • 人类决策基础
    • 前景理论
    • 风险决策
    • 展望
  • 第八章 强化学习
    • 机器学习强化学习基础
      • 动态规划
      • 时间差分学习
      • 基于模型和无模型强化学习
    • 心理学的强化学习
    • 强化学习的交叉关系
    • 强化学习模型和参数估计
    • Rescorlar-wagner模型
    • 二阶段任务
    • 展望
  • 第九章 社会决策和社会学习
    • 社会决策
    • 社会学习
    • 展望
  • 第十章 神经网络
    • 神经网络和心理学引言
    • 神经网络基础
      • 多层感知机
      • 卷积神经网络
      • 循环神经网络
    • 神经网络和人脑加工的关系
      • 感知觉的编解码
      • 工作记忆
      • 长时记忆
      • 学习和决策
    • 展望
由 GitBook 提供支持
在本页
  • 引言
  • 贝叶斯理论
  • 最大后验估计
  • 最大似然估计 vs 最大后验估计
  • 贝叶斯学派与频率学派
  • 参考阅读
  1. 第三章 概率推断和贝叶斯理论

3.3 贝叶斯理论

最后更新于8个月前

引言

在我们详细介绍了最大似然估计,它在可以帮助我们进行有效推断,但它仍然有一些缺陷。

让我们再次回顾之前的例子,基于家门口有水这个数据,我们做出了下雨的推断。

但我们的推断存在漏洞,比如,我们从来没有考虑过 “我家”位于哪里 这个问题。

  1. 如果我的家在新疆乌鲁木齐,那么由经验可知我家门口有时有洒水车,但是非常少下雨。如果在我家门口发现了水,我不会在第一时间将其归因为下雨。

  2. 如果我的家在撒哈拉沙漠,那么我家不仅很少下雨,而且没有洒水车。如果我家门口出现水,更可能是其他并未列出的原因。

在使用最大似然估计对数据背后的原因进行推断时,我们只考虑在各种原因下出现当前数据的可能性(即条件概率p(di∣θ))p(d_i|\theta))p(di​∣θ))。但当我们考虑这些原因本身出现的可能性(p(θ))(p(\theta))(p(θ)),单纯基于使用最大似然估计做出的推断并不准确。我们需要一个新的方法来解决这个困境,贝叶斯理论就是其中的一个出路。

贝叶斯理论

3.n 贝叶斯理论

贝叶斯理论通常被表述为:

  • p(θ)p(\theta)p(θ)为先验分布,它是某个假设发生的概率分布

  • p(d∣θ)p(d|\theta)p(d∣θ)是我们熟悉的似然函数

  • p(d)p(d)p(d)为归一化因子,也就是我们之前提到的边际概率,表示该数据本身发生的概率。

还是以家门口有水为例,现在我们将假设发生的概率纳入考虑,假设我家所在的区域很少下雨,且几乎不出现洒水车。

注意,这里为了便于计算,我们只取单个数值代入上述公式,来计算 p(C1∣O1)p(C_1|O_1)p(C1​∣O1​),常见的情况往往涉及到分布之间相乘,在此不作介绍。

p(C1∣O1)=p(O1∣C1)∗p(C1)p(O1)=p(O1∣C1)∗p(C1)p(O1∣C1)∗p(C1)+p(O1∣C2)∗p(C2)+p(O1∣C3)∗p(C3)=0.160.16+0.06+0.18=0.4\begin{aligned} p(C_1|O_1)& = \frac{p(O_1|C_1) * p(C_1)}{p(O_1)} \\ & = \frac{p(O_1|C_1) * p(C_1) }{p(O_1|C_1) * p(C_1) + p(O_1|C_2) * p(C_2) + p(O_1|C_3) * p(C_3)}\\ & = \frac{0.16}{0.16+0.06+0.18}\\\\ & = 0.4 \end{aligned}p(C1​∣O1​)​=p(O1​)p(O1​∣C1​)∗p(C1​)​=p(O1​∣C1​)∗p(C1​)+p(O1​∣C2​)∗p(C2​)+p(O1​∣C3​)∗p(C3​)p(O1​∣C1​)∗p(C1​)​=0.16+0.06+0.180.16​=0.4​

同样地,我们可以计算出p(C2∣O1)=0.15,    p(C3∣O1)=0.45,p(C_2|O_1) = 0.15, \;\; p(C_3|O_1) = 0.45, p(C2​∣O1​)=0.15,p(C3​∣O1​)=0.45,

p(C3∣O1)>p(C1∣O1)>p(C2∣O1)p(C_3|O_1) > p(C_1|O_1) > p(C_2|O_1)p(C3​∣O1​)>p(C1​∣O1​)>p(C2​∣O1​) 此时若观察到家门口有水,最可能发生的事情不再是下雨。

通过上面这个计算我们也能更好地理解 “为什么p(d)p(d)p(d)被称为归一化因子”,由于p(d)p(d)p(d)是一个用来归一化的常数,且它并不受θ\thetaθ影响,在计算中我们常省略它。因此贝叶斯公式有时也写作:

p(θ∣d)∝p(d∣θ)∗p(θ)            ∝表示成比例p(\theta \mid d) \propto p(d \mid \theta) * p(\theta)\;\;\;\;\;\;\propto表示成比例p(θ∣d)∝p(d∣θ)∗p(θ)∝表示成比例

最大后验估计

因此,在贝叶斯公式下,我们将先验分布和似然函数结合起来,求出后验概率分布,并找到能使后验概率分布最大的参数值,这被称为 最大后验估计 ,我们同样使用最大后验估计来对数据背后的原因进行推断。

θ^=arg⁡max⁡θp(θ∣d)=arg⁡max⁡θ(p(d∣θ)∗p(θ))\begin{aligned} \hat{\theta} & =\underset{\theta}{\arg \max } p(\theta \mid d) \\ & =\underset{\theta}{\arg \max }(p(d \mid \theta) * p(\theta)) \end{aligned}θ^​=θargmax​p(θ∣d)=θargmax​(p(d∣θ)∗p(θ))​

最大似然估计 vs 最大后验估计

我们接着最大后验估计的公式往下写:

θMAP=arg⁡max⁡θp(θ∣d)=arg⁡max⁡θ(p(d∣θ)∗p(θ))=arg max⁡θ(∑inlog⁡(p(d∣θ))+log⁡(p(θ))  )\begin{aligned} {\theta_{MAP}} & =\underset{\theta}{\arg \max } p(\theta \mid d) \\ & =\underset{\theta}{\arg \max }(p(d \mid \theta) * p(\theta))\\ & =\underset{\theta}{\argmax} (\sum_i^n \log (p(d|\theta)) + \log (p(\theta))\;)\\ \end{aligned}θMAP​​=θargmax​p(θ∣d)=θargmax​(p(d∣θ)∗p(θ))=θargmax​(i∑n​log(p(d∣θ))+log(p(θ)))​

当先验分布为均匀分布时,log⁡(p(θ))\log(p(\theta))log(p(θ))是一个常数,在优化中可以忽略,此时最大后验估计在数学上等价于最大似然估计。

θMAP=arg⁡max⁡θp(θ∣d)=arg⁡max⁡θ(p(d∣θ)∗p(θ))=arg max⁡θ(∑inlog⁡(p(d∣θ))+log⁡(p(θ))  )=arg max⁡θ(∑inlog⁡(p(d∣θ)))+const=arg max⁡θ(∑inlog⁡(p(d∣θ)))=θMLE\begin{aligned} {\theta_{MAP}} & =\underset{\theta}{\arg \max } p(\theta \mid d) \\ & =\underset{\theta}{\arg \max }(p(d \mid \theta) * p(\theta))\\ & =\underset{\theta}{\argmax} (\sum_i^n \log (p(d|\theta)) + \log (p(\theta))\;)\\ & = \underset{\theta}{\argmax}(\sum_i^n \log (p(d|\theta))) + const \\ & = \underset{\theta}{\argmax}(\sum_i^n \log (p(d|\theta))) \\ & = \theta_{MLE} \end{aligned}θMAP​​=θargmax​p(θ∣d)=θargmax​(p(d∣θ)∗p(θ))=θargmax​(i∑n​log(p(d∣θ))+log(p(θ)))=θargmax​(i∑n​log(p(d∣θ)))+const=θargmax​(i∑n​log(p(d∣θ)))=θMLE​​

贝叶斯学派与频率学派

通过上述的计算,其实我们可以看出最大似然估计和最大后验估计对参数(即假设发生的概率)有着不同的理解,最大似然估计将参数的视为均匀分布,即参数的发生是一个未知但固定的值,如 p(θ)=16p(\theta) = \frac{1}{6}p(θ)=61​。这样的思想来自于频率学派,在频率学派中,概率是在无数次重复抽样后得到的预期值。

而最大后验估计对参数的理解则对应着贝叶斯学派。贝叶斯学派认为概率是对事件发生的信心,它会受到先验概率和当前观察到的数据的影响,不断更新。

这两个学派都各自发展出了许多统计推断方法,例如本章所讲述的最大似然估计和最大后验估计,它们均用于估计某个统计量的取值,属于参数点估计。本书的后续章节还会介使用贝叶斯方法进行近似推断等内容。

参考阅读

Casella, G., Berger, R. (2024). Statistical Inference. United States: CRC Press.

Davidson-Pilon, C. (2017). 贝叶斯方法: 概率编程与贝叶斯推断. China: 人民邮电出版社.

前一节
马尔可夫链蒙特卡洛采样(MCMC)和变分推断(Variational inference)将在本书后面的内容中详细介绍。