3.2.1 似然函数
最后更新于
最后更新于
在现实生活中,我们会观察到各种各样的现象,而现象的背后又包含着各种各样的原因。比如,突然下起了大雨,所以行人会被淋湿,而如果看到一个浑身湿透的人,我们也会推测外面可能下雨了。上述这个例子包含了心理学研究中的两种常见思路,一种是,我们可以提出假设,并认为在这个假设下应该会产生怎样的实验数据。另一种是,在实验过后,我们获得了数据,基于这些数据,我们会思考这些数据更支持哪一种假设。由原因生成观察数据,这被称为生成过程(Generative Process); 由观察数据反推原因,这被称为反向推断(Reverse Inference) , 接下来我们将详细介绍这两个过程以及其中涉及到的关键概念。
首先,我们来了解生成过程。我们还是以下雨为例,并且把观察数据定为家门口是否有水,针对这类观察数据,可能获得的结果有两种:有水与无水。
并且,导致家门口有水产生的原因除了下雨,还有洒水车经过等等。那么,我们可以用条件概率的形式将原因和观察数据表示出来。
我们用符号对原因和观察数据进行表示:
(observation)
1. : 家门口有水 2. : 家门口没有水
(cause)
1. :下雨 2. : 洒水车经过 3. : 晴天
把这些原因和数据详细地列表,表A中的每一行都代表一种条件概率分布
🕵️♀️这些条件概率(即每个单元格内的数字)是怎么得来的?
根据这个表,我们可以总结条件概率分布的一个重要性质:
以第一行为例,在已知下雨的情况下,观察到家门口有水的概率是0.8,观察到家门口没水的概率是0.2
如果此时我们观察到家门口有水,那么最有可能发生的事情是发生了什么?我们会回答:下雨。为什么呢,锁定第一列,我们比较不同原因下出现有水的概率
在上述这个过程中,我们由观察数据对背后的原因进行推断,即反向推断。表格中的一列包含了一种数据在不同原因下出现的条件概率,我们将这一系列条件概率组合称为似然函数。
这也正是似然函数告诉我们的,它允许我们去比较当前数据在不同假设下发生的相对可能性。而这个朴素的直觉背后就是接下来即将要介绍的 极大似然估计法。
现在,我们对条件概率分布与似然函数做一个对比:
刚刚我们介绍了离散分布下的似然函数,更进一步的,我们来看看连续分布下的似然函数该如何表示。
假定不同的数据彼此独立,则在正态分布中取得这一连串数据的可能性可以写为(进行连乘):
我们以条件概率分布 为例,其他的条件概率分布,如接下来的 都可以以此类推
假设,在过去的无数日子里,我分别记录了下雨的天数和下雨之后家门口有水的天数,则有:
这两者相加的和一定为 1
同样地,我们将第一列的所有值相加,,这三个条件概率相加的总和并不一定为 1。
在条件概率分布中,的取值是固定的,比如,而则是变化的,如果取遍所有的,必然有:
而似然函数则是一个函数,并不是一种概率分布,在似然函数中,的取值是固定的,比如,则是变化的,如果取遍所有的,似然函数可以表示为:
假定我们有一系列的数据,且这些数据均来自于正态分布 ,我们定义均值 和标准差 都是未知参数,即我们获得了这些数据,但是我们不知道这些数据来自于怎样的分布。
我们以其中一个数据点为例,并将定义为二维参数,那么在正态分布下 取到该数据点 的可能性可以这样表示:
注意,在上面这个式子中,是已知的数据,则是需要推断的
我们将 定义为基于数据的似然函数