# 0x03 统计量分布

## 样本均值的分布

### 中心极限定理

从均值为$$\mu$$, 有限方差为$$\sigma^2$$的**任意总体**中抽取样本量为$$n$$的样本, 当$$n$$充分大时, 样本均值$$\bar{X}$$的抽样分布近似服从均值为$$\mu$$, 方差为$$\sigma/n$$的**正态分布**.

中心极限定理要求$$n$$必须充分大, 实际应用中, 常要求$$n\ge30$$

## 样本比例的分布

总体中, 具有某一特征的比例为$$\pi$$(真实值), 当从总体中随机抽取$$n$$个个体, 符合这个特征的个体数量为$$X$$, 则样本比例可以用$$\hat{p}=\frac{X}{n}$$来表示, 作为总体比例$$\pi$$的估计.

每个个体的抽取相当于一个**二项分布**. 根据二项分布的**期望**和**方差**的公式, 以及中心极限定理, 可以得到当$$n$$充分大时, $$\hat{p}$$的分布可用正态分布去逼近, 此时满足$$\hat{p}\sim N(\pi, \frac{\pi(1-\pi)}{n})$$

## 两个样本平均值之差的分布

从两个不同的总体中选出两个独立的随机样本, 它们的平均值$$\bar{X}\_1$$和$$\bar{X}\_2$$之差的**抽样分布**是什么样子的呢?

假设两个总体分别是$$X\_1\sim N(\mu\_1,\sigma\_1^2)$$, $$X\_2\sim N(\mu\_2,\sigma\_2^2)$$, 样本的容量为$$n\_1$$, $$n\_2$$, 即都是正态分布, 则$$\bar{X}\_1-\bar{X}\_2$$也是正态分布, 且有:

$$E(\bar{X}\_1-\bar{X}\_2)=\mu\_1-\mu\_2$$

$$D(\bar{X}\_1-\bar{X}\_2)=\frac{\sigma^2\_1}{n\_1}+\frac{\sigma^2\_2}{n\_2}$$

## 两个样本比例之差的分布

两个总体此时为参数为$$\pi\_1$$和$$\pi\_2$$的**二项总体**, 样本容量依然为$$n\_1$$和$$n\_2$$. 当$$n\_1$$和$$n\_2$$很大时, $$(p\_1-p\_2)$$的抽样分布近似于正态分布:

$$E(\hat{p}\_1-\hat{p}\_2)=\pi\_1-\pi\_2$$

$$D(\hat{p}\_1-\hat{p}\_2)=\frac{\pi\_1(1-\pi\_1)}{n\_1}-\frac{\pi\_2(1-\pi\_2)}{n\_2}$$

## 样本方差的分布

样本方差的分布就比较复杂了, 这里只说总体为**正态分布**的情况, 对于正态整体$$N(\mu,\sigma^2)$$, 样本方差$$S^2$$的分布为:

$$(n-1)S^2\sim \chi^2(n-1)$$

即满足自由度为$$n-1$$的卡方分布.

## 两个样本方差比分布

同样要求两个样本都是正态分布, 即$$X\sim N(\mu\_1,\sigma\_1^2)$$, $$Y\sim N(\mu\_2,\sigma\_2^2)$$, 则有:

$$\frac{S^2\_x/\sigma^2\_1}{S^2\_y/\sigma^2\_2}\sim F(n\_1-1,n\_2-1)$$

即满足第一自由度为$$n\_1-1$$, 第二自由度为$$n\_2-1$$的$$F$$分布.
