计算样本方差时为什么是除以(n-1)?
首先,我们要知道,方差分为总体方差和样本方差(这一点如果没有区分,你是弄不懂为什么除以(n-1)这个问题的)。接着,如何计算方差?不就是用每一个数减去均数,再平方,然后加和求平均吗?说着很简单,但你知道这里的均数是指什么均数吗?答案是“总体均数”,对,是“总体均数”!也就是说,如果总体均数已知,你求样本方差的时候是除以n的,而不是除以(n-1),计算公式如下:

不清楚一个总体的总体均数,而是通过抽取样本,计算样本均数,然后用样本均数来代替总体均数,所以样本方差的计算就变为:

统计学重要的研究内容之一是“用样本推测总体”。具体而言,就是用样本均数和样本标准差来估计总体均数和总体标准差,而这里的估计有一个很重要的原则就是“无偏”。如果我们知道某一个变化的量如果总是小于这个恒定的量,那么这个变化量就不是一个无偏估计。


我是这么理解的:取样的数量是有限的,所以,样本值与均值的差的数量总小于总体样本数量或等于总体,所以:

因此,如果我们采取左式计算样本方差,那它就不是总体方差的“无偏”估计了,而是总小于总体方差
既然左式总会低估,那有没有什么办法把它调整一下呢?唯一的办法就是从分母下手,将它的分母调小,这个值不就变大了吗?因而把除数n变小是可取的。问题是变多少呢?你说变成(n-1),那为啥(n-2)就不行?看到这里,我们不得不佩服统计学家们的智慧:通过数学公式推到,他们找到如下定量关系:

把上式稍作调整,我们便可以得到:

有时候,突然证明了或者发现了一个困惑已久的问题,真是让人开心
方法一

而 (n-1)/n * σ² != σ² ,所以,為了避免使用有 bias 的 estimator,我們通常使用它的修正值 S²:

方法二

