0x02 单因素方差分析
单因素方差分析(one-way analysis of variance, one-way ANOVA), 当方差分析中只涉及一个分类型自变量时, 称为单因素方差分析.
数据结构
A表示因素, 因素的k个水平, 分别用A1,A2,⋯,Ak表示, 每个观测值用xij表示, 代表第i个水平的第j个观测值. 不同水平中抽取的样本量可以相等, 也可以不相等.
分析步骤
提出假设
原假设为检验因素的k个水平的均值相等, 即自变量对因变量没有显著影响.
H0:μ1=μ2=⋯=μk, 自变量对因变量没有显著影响
H1:μ1,μ2,⋯,μk不全相等, 自变量对因变量有显著影响
构造检验的统计量
计算各样本的均值
xˉi为第i个水平总体的样本均值
计算全部观测值的总均值
xˉˉ为全部观测值的总和除以观测值总个数的结果
计算各误差平方和
SST: 总平方和
它是全部观测值xij与总均值xˉˉ的误差平方和:
SST=i=1∑kj=1∑ni(xij−xˉˉ)2
SSA: 组间平方和
它是各组均值xˉi与总均值xˉˉ的误差平方和, 反映了各样本均值之间的差异程度, 因此又称为因素平方和:
SSA=i=1∑kni(xˉi−xˉˉ)2
SSE: 组内平方和
它是每个水平或组的各样本数据与其组均值的误差平方和, 反映了各个样本各观测值的离散状况:
SSE=i=1∑kj=1∑ni(xij−xˉi)2
三个平方和之间的关系为, 从公式中也能体现出这一点, 下面等式的两侧是恒等的:
SST=SSA+SSE
因此可以看出:
SSA是对随机误差和系统误差大小的度量, 反映了自变量对因变量的影响, 因此也称为自变量效应或因子效应
SSE是对随机误差大小的度量, 反映了除自变量对因变量的影响之外, 其他因素对因变量的总影响, 因此也称为残差效应
SST是对全部数据总误差程度的度量, 反映了自变量和残差变量的共同影响, 因此等于自变量效应加残差效应
计算统计量
为了消除观测值多少对误差平方和大小的影响, 需要将其平均, 也就是用个平方和除以他们所对应的自由度, 把这一结果称为均方(mean square), 也称为方差(注意这里方差的定义). 三个平方和对应的自由度分别为:
SST: 自由度为n−1, n为全部观测值的个数
SSA: 自由度为k−1, k为因素中水平的个数
SSE: 自由度为n−k
由于要比较的是组间均方和组内均方之间的差异, 因此通常只计算SSA的均方和SSE的均方:
SSA的均方称为组间均方或组间方差, 记为MSA=k−1SSA
SSA的均方称为组内均方或组内方差, 记为MSE=n−kSSE
将MSA与MSE进行对比, 就得到了所需要的检验统计量F. 当H0为真时, F服从F(k−1,n−k)分布, 即有:
F=MSEMSA∼F(k−1,n−k)
统计决策
将统计量F的值与给定的显著性水平α的临界值Fα进行比较, 从而做出对原假设H0的决策. 当F>Fα时, 应当拒绝原假设H0, 说明自变量与因变量之间的关系时显著的.
注意: 当被检验的因素只有两个水平时, 单因素方差分析与两个独立样本均值之差的t检验的结果完全相同, 这是因为当因素的水平k=2时, 检验的t统计量与F统计量的关系为F=t2, 这是由两个统计量分别服从的分布所共同拥有的性质决定的.
关系强度的测量
当组间平方和比组内平方和大, 且大到一定程度时, 就意味着两个变量之间的关系显著, 大的越多, 表示它们之间的关系越强, 反之就越弱.
因此, 可以用组间平方和SSA占总平方和SST的比例大小来反映关系的强度, 记这个比例为R2:
R2=SSTSSA
其平方根R就可以用来测量两个变量之间的关系强度.
注意: 在回归中也有的R2, 那里将其定义为判定系数, 其平方根定义为相关系数, 因此与这里有着相似的作用.
多重比较方法
通过上面的检验发现了两个变量之间的关系, 具体来说就是自变量中不同的水平, 对应的总体的均值之间不相等. 但到底是哪两个水平之间的均值不同, 进行这种检验的方法就是多重比较方法, 通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异.
这里使用的多重比较方法为最小显著差异方法(least significant difference, LSD), 具体步骤为:
提出假设H0:μi=μj
计算检验统计量: xˉi−xˉj
计算LSD统计量, 公式为: LSD=tα/2MSE(ni1+nj1)
其中tα/2为t分布的临界值, 通过查t分布表获得, 其自由度为n−k, 这里的k是因素中水平的个数(而不是2); MSE为组内方差, ni与nj分别是第i个样本和第j个样本的样本量.
根据显著性水平α做出决策: 如果∣xˉi−xˉj∣>LSD, 拒绝H0, 认为这两个水平对应的总体之间的均值差异是显著的
最后更新于