最后更新于
最后更新于
单因素方差分析(one-way analysis of variance, one-way ANOVA), 当方差分析中只涉及一个分类型自变量时, 称为单因素方差分析.
表示因素, 因素的个水平, 分别用表示, 每个观测值用表示, 代表第个水平的第个观测值. 不同水平中抽取的样本量可以相等, 也可以不相等.
提出假设
原假设为检验因素的个水平的均值相等, 即自变量对因变量没有显著影响.
, 自变量对因变量没有显著影响
不全相等, 自变量对因变量有显著影响
构造检验的统计量
计算各样本的均值
为第个水平总体的样本均值
计算全部观测值的总均值
为全部观测值的总和除以观测值总个数的结果
计算各误差平方和
SST: 总平方和
它是全部观测值与总均值的误差平方和:
SSA: 组间平方和
它是各组均值与总均值的误差平方和, 反映了各样本均值之间的差异程度, 因此又称为因素平方和:
SSE: 组内平方和
它是每个水平或组的各样本数据与其组均值的误差平方和, 反映了各个样本各观测值的离散状况:
三个平方和之间的关系为, 从公式中也能体现出这一点, 下面等式的两侧是恒等的:
因此可以看出:
SSA是对随机误差和系统误差大小的度量, 反映了自变量对因变量的影响, 因此也称为自变量效应或因子效应
SSE是对随机误差大小的度量, 反映了除自变量对因变量的影响之外, 其他因素对因变量的总影响, 因此也称为残差效应
SST是对全部数据总误差程度的度量, 反映了自变量和残差变量的共同影响, 因此等于自变量效应加残差效应
计算统计量
为了消除观测值多少对误差平方和大小的影响, 需要将其平均, 也就是用个平方和除以他们所对应的自由度, 把这一结果称为均方(mean square), 也称为方差(注意这里方差的定义). 三个平方和对应的自由度分别为:
SST: 自由度为, 为全部观测值的个数
SSA: 自由度为, 为因素中水平的个数
SSE: 自由度为
由于要比较的是组间均方和组内均方之间的差异, 因此通常只计算SSA的均方和SSE的均方:
SSA的均方称为组间均方或组间方差, 记为
SSA的均方称为组内均方或组内方差, 记为
将MSA与MSE进行对比, 就得到了所需要的检验统计量. 当为真时, 服从分布, 即有:
统计决策
将统计量的值与给定的显著性水平的临界值进行比较, 从而做出对原假设的决策. 当时, 应当拒绝原假设, 说明自变量与因变量之间的关系时显著的.
注意: 当被检验的因素只有两个水平时, 单因素方差分析与两个独立样本均值之差的检验的结果完全相同, 这是因为当因素的水平时, 检验的统计量与统计量的关系为, 这是由两个统计量分别服从的分布所共同拥有的性质决定的.
当组间平方和比组内平方和大, 且大到一定程度时, 就意味着两个变量之间的关系显著, 大的越多, 表示它们之间的关系越强, 反之就越弱.
通过上面的检验发现了两个变量之间的关系, 具体来说就是自变量中不同的水平, 对应的总体的均值之间不相等. 但到底是哪两个水平之间的均值不同, 进行这种检验的方法就是多重比较方法, 通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异.
这里使用的多重比较方法为最小显著差异方法(least significant difference, LSD), 具体步骤为:
因此, 可以用组间平方和SSA占总平方和SST的比例大小来反映关系的强度, 记这个比例为:
其平方根就可以用来测量两个变量之间的关系强度.
注意: 在回归中也有的, 那里将其定义为判定系数, 其平方根定义为相关系数, 因此与这里有着相似的作用.
提出假设
计算检验统计量:
计算LSD统计量, 公式为:
其中为分布的临界值, 通过查分布表获得, 其自由度为, 这里的是因素中水平的个数(而不是2); MSE为组内方差, 与分别是第个样本和第个样本的样本量.
根据显著性水平做出决策: 如果, 拒绝, 认为这两个水平对应的总体之间的均值差异是显著的