最后更新于
最后更新于
因变量为, 有个自变量分别为, 描述如何依赖于这个自变量和误差项的方程, 称为多元回归模型:
对于误差项有如下的假定:
误差项是一个随机变量, 期望值为0
对于任意的自变量组合, 对应的方差相同
服从正态分布, 且任意一组自变量对应的误差相互独立
因此, 对应的多元回归方程为:
对应的估计的多元回归方程为:
是的估计值, 称为偏回归系数. 是因变量的估计值.
参数且求解方法仍然是最小二乘法.
多重判定系数是多元回归中回归平方和占总平方和的比例, 这点与一元回归一样, 也是度量拟合程度的一个统计量. 仍然符合:
提出假设:
计算检验统计量:
做出统计决策:
提出假设:
做出统计决策:
多重共线性指的是, 当回归模型中两个或两个以上的自变量彼此相关时, 回归模型中存在多重共线性. 变量之间高度相关时, 会使回归结果混乱, 甚至完全错误. 表现为:
线性关系检验显著, 但只有很少的系数回归系数检验显著. 这是因为自变量对因变量的共现相互重叠了, 且只出现在某些变量中
对参数估计值的正负号产生影响, 有可能使估计值与实际值正负相反.
如果出现以下情况, 说明可能存在多重共线性:
模型中各对自变量之间显著相关
回归系数的正负号与预期的相反
解决方法有:
将一个或多个相关的自变量从模型中剔除, 使保留的自变量尽可能不相关
只不过这里的计算是与个自变量相关的.
但需要注意的是, 自变量个数的增加会影响到因变量中被估计的回归方程所解释的变差大小. 当自变量增加时, 预测误差会变小, 从而减小了SSE, 增大了SSR, 从而使多重判定系数被高估. 因此使用调整的多重判定系数, 考虑了样本量和模型中自变量的数量对最终结果的影响:
对应于一元回归, 多元回归中的轨迹标准误差即误差项方差的的一个估计值为:
线性关系检验是检验因变量与个自变量之间的关系是否显著, 称为总体显著性检验.
中至少有一个不为0
对于显著性水平, 如果则拒绝原假设, 认为至少有一个自变量与因变量关系显著.
每次对于一个系数进行检验, 需要注意控制检验系数的个数, 避免第I类错误犯过多次.
计算检验统计量:
是回归系数抽样分布的标准差:
对于显著性水平, 如果, 则拒绝原假设.
模型的线性关系检验(检验)显著时, 几乎所有回归系数的检验却不显著
某个自变量的容忍度越小, 多重共线性越严重. 其中是以这个自变量为因变量, 其他个自变量仍为自变量, 得到的线性回归模型的判定系数
如果不删除现有的自变量, 应保证对值的推断(预测)应当限制在自变量样本值的范围内