最后更新于
最后更新于
对分类数据进行分析的统计方法, 主要是利用分布, 因此, 对分类数据的假设检验, 又称为检验, 检验的应用主要表现在两方面:
拟合优度检验
独立性检验
列联表是进行独立性检验的重要工具.
可以用于测定两个分类变量之间的相关程度. 如果用表示观测值的频数(注意是频数, 因此只能使用在类别特征上), 用表示期望值频数, 则统计量可以写为:
而统计量有以下的特征:
统计量的分布与自由度有关, 自由度越小, 分布就越向左倾斜, 当自由度比较大时, 分布就趋近于对称的正态分布了.
统计量描述了观测值与期望值之间接近的程度, 两者越接近, 的绝对值越小, 得到的值也就越小.
检验正是通过的计算结果, 与分布中的临界值进行比较, 做出是否拒绝原假设的统计决策.
拟合优度检验(goodness of fit test)是用统计量进行统计显著性检验的重要内容. 依据总体分布的情况, 计算出分类变量中类别的期望频数, 与分布的观测频数进行对比, 判断期望频数与观测频数之间是否有显著的差异, 从而达到对分类变量进行分析的目的.
对应于实际, 需要解决一个分类问题, 因此每个样本对应一个类别; 检验的是一个类别特征, 是离散的, 特征的值没有数值意义的, 只需要通过对这个特征分类计数(value count)即可.
拟合优度检验是对一个分类变量进行检验, 如果想对两个分类变量进行检验, 判断这两个分类变量是否存在联系, 这种分析称为独立性检验, 一般通过列联表进行分析, 因此也称为列联分析.
列联表是由两个以上的变量进行交叉分类的频数分布表. 独立性检验就是分析列联表中行变量和列变量是否相互独立.
列联表中任何一个单元中的频数期望值如下计算:
如果两个分类变量之间存在联系, 它们之间相关程度有多大, 要如何衡量.
对于两个分类变量之间相关程度的测定, 主要用相关系数表示.
如果只有两个单元, 每个单元的期望频数必须大于等于5
如果有两个以上的单元, 如果有20%单元的期望频数小于5, 则不能使用该检验方法
对于这类检验, 我们的原假设为观测频数与期望频数一致. 首先计算统计量. 此统计量服从自由度为的分布, , 为分类变量中类型的个数(len(unique(x))
).
如果计算得到的统计量大于, 则拒绝原假设, 认为该分类变量特征与最终的分类结果显著相关.
对于总体比例的检验, 也可以采用拟合优度的方法. 在假设检验的单个总计的假设检验中, 使用了统计量, 对总体比例进行了检验.
将其转换成上面的方法, 认为原假设正确, 使用假设的比例计算得到期望频数, 与观测频数一起计算统计量, 然后进行检验的比较, 得出结论.
其中, 为给定单元格所在行的总样本数量, 为给定单元格所在列的总样本数量, 为观测值的总个数, 即样本量.
对应的分布的自由度为, 统计量的计算方法仍然同上, 只不过需要对列联表中的每一个单元格都需要进行计算, 然后加和(拟合优度检验中只有一列).
自由度就是可以自由取值的数据的个数, 关于此处自由度为的原因, 在贾俊平
版<统计学>一书的P223
中有详细的阐述.
相关系数是描述列联表数据最常用到的一种相关系数, 即要求两个分类变量, 每个变量都有且只有两类. 计算公式为:
就是上面的方法计算得到的值, 为观测样本的总数量.
系数的取值范围在0到1之间, 的绝对值越大, 说明两个变量之间的相关程度越高. 如果为0说明两个变量之间是完全独立的.
又称为列联系数, 简称系数, 用于列联表大于的情况, 这是因为系数随着和的变大而增大, 没有上限, 因此就没有一个标准来衡量计算得到的值是什么水平, 继而无法产生判断. 因此改进为列联系数, 系数计算公式为:
两个变量相互独立时, 系数, 且它的值不会大于1, 其可能的最大值随列联表的行数和列数的增大而增大, 但不会超过1.
相关系数的计算公式为:
当两个变量相互独立时, , 当两个变量完全相关时, . 所以的取值在0到1之间.
使用分布进行独立性检验要求样本量必须足够大, 特别是每个单元中的期望频数不能过小, 否则使用检验可能会得出错误的结论. 具体来说有以下的要求:
这是因为如果期望频数过小, 计算卡方的公式将会不适当地增大, 造成统计量的高估, 从而导致不适当地拒绝的结论. 可以通过合并较小的, 即合并出现次数不多的类别, 得到合理的结论.