3.4 拓展阅读:p值
最后更新于
最后更新于
为了比较华东师大学生2023年和2022年的饭量差异,我们分别测量了一些学生各自在2023年与2022年的饭量平均值,并将此数据集记为 .
: 2022年和2023年的饭量没有显著差异
: 2022年和2023年的饭量有显著差异
然后你做了一个简单t检验
请问这个值的意义?
为真的概率, 即
为真的概率, 即
基于当前数据,为真的概率,即
基于当前数据,为真的概率,即
如果为真,观察到当前数据的概率,即
如果为真,观察到当前数据的概率,即
如果为真,观察到当前数据甚至更极端的数据的概率,即
如果为真,观察到data甚至更极端的数据的概率,即
在假设检验中,我们认为数据可能是在两种原因下产生的,一是,二是。在检验中,我们假设为真,值代表的含义是观察到当前数据以及更极端数据的可能性。因此,如果我们使用条件概率的方式来看待熟悉的假设检验,正确的表示为:
一方面,如果我们使用本章所学的似然函数的角度看待这个问题,我们可以将此问题中出现的概率填入洒水问题相似的表格。
另一方面,我们可以使用直观作图的方法来探究这两个问题。
对于问题2:
首先,将data或者更极端记做 ,比data更常见记做 ,可以得到表格如下:
对于问题1,由似然函数的性质可知, 不一定等于 1
但对于问题2, 的取值似乎并没有限制。
首先,我们需要明确 的定义。由于我们使用的是双尾检验,那么如下图3.1所示, 应该被定义为data以及远离 分布中心。
接着,我们对和代表的两个分布进行可视化 (注意:和代表的两个分布方差一致)
在图3.2中,条件概率被表示为曲线下面积,如蓝色部分面积表示了,红色部分面积表示了,橙色部分面积则表示了。我们知道红色部分和橙色部分面积之和一定等于1。那么明显的(例如图中的极端情况蓝色部分面积远远小于橙色部分,并且很幸运的是,对于问题一我们只需举出一个反例就可以完全推翻),蓝色部分面积并不恒等于橙色部分面积,因此蓝色部分与红色部分面积综合并不一定为1。
当在的右边,如图3.2所示,红色部分面积一定覆盖蓝色部分面积,代表。
当在的左边,由图3.1可知,可以得出和3.2完全对称的结果,因此也有。
当与两个分布完全一致时,两个分布完全重合,此时理论上有。但这种情况意味着 与 在当前数据空间中完全是同一件事(例如测量了学生各自在2023年与2022年的饭量平均值,然后进行假设检验,: 明天会下雨,: 明天不会下雨),这与假设检验的原理(也和我们实际给出的例子不同)不符合,因此实际上并不会出现这种情况。