16回归方程的验证

(代码位置:《R语言手册 第八站 简单线性回归》 。)
1.回顾回归方程的意义
首先,我们指明回归方程的通式:
y = β 0 + β 1 x + ε y=\beta_{0}+\beta_{1} x+\ y=β0?+β1?x+ε
① β 0 \ β0?和 β 1 \ β1?表示模型参数,分别对应截距和斜率 。这些值是常量,其真实值未知,需要通过最小二乘估计从数据集中估计得到 。
②ε \ ε 表示误差项 。由于大多数预测-响应变量之间的关系是不确定的,因此对实际关系的所有线性近似都需要增加误差项 。所以需要引入由随机变量建模的误差项 。
2.有关误差项的假设
①零均值假设 。误差项 ε \ ε是一个随机变量,其 均值 或者说 它的 期望值 等于0,符号表示为: E ( ε ) = 0 E(\)=0 E(ε)=0 。
②常数方差假设 。ε \ ε的长差,用 σ 2 \sigma^{2} σ2表示,无论x x x 取何值,都是一个常数 。
③独立性假设 。假设 ε \ ε的值是独立的 。
④正态假设 。假设误差性 ε \ ε满足正态分布 。
若把这四个条件汇总,就是:误差项 ε \ ε的值是均值为0,方差为 σ 2 \sigma^{2} σ2的独立正态分布随机变量 。
3.响应变量行为的隐含假设
基于上述4点假设,我们可以得到响应变量y行为的如下4个隐含意义 。
①按照零均值假设,我们有:
E ( y ) = E ( β 0 + β 1 x + ε ) = E ( β 0 ) + E ( β 1 x ) + E ( ε ) = β 0 + β 1 x E(y)=E\left(\beta_{0}+\beta_{1} x+\\right)=E\left(\beta_{0}\right)+E\left(\beta_{1} x\right)+E(\)=\beta_{0}+\beta_{1} x E(y)=E(β0?+β1?x+ε)=E(β0?)+E(β1?x)+E(ε)=β0?+β1?x
文字解释:对x x x 的每个值,y y y 的均值在回归线上 。
②基于常数方差假设,我们有y y y 的方差 V a r ( y ) Var(y) Var(y) ,为
Var ? ( y ) = Var ? ( β 0 + β 1 x + ε ) = Var ? ( ε ) = σ 2 \{Var}(y)=\{Var}\left(\beta_{0}+\beta_{1} x+\\right)=\{Var}(\)=\sigma^{2} Var(y)=Var(β0?+β1?x+ε)=Var(ε)=σ2
③基于独立性假设,对x x x 的 任意特定值,y y y 的取值也是独立的 。
④基于正态分布假设,可知y y y 亦是一种正态分布随机变量 。
**总结一下上面的话:相应变量y i y_i yi? 的值是均值为β 0 + β 1 x \beta_{0}+\beta_{1} x β0?+β1?x、方差为 σ 2 \sigma^2 σ2的正态分布随机变量 。
如果只是在应用回归分析时采用严格的描述性方法,不需要推理和建模,则不需要非常担忧假设验证 。因为假设是关于误差项的 。如果不涉及误差项,则不需要假设 。然而,如果希望推理或构建模型,则必须要验证假设 。
【16回归方程的验证】4.残差的正态概率图
正态概率图是一种特定分布分位数与标准正态分布分位数之间比较的分数位-分数位图,目的是确定特定分布与正态分布的偏差程度(类似于百分位,特定分布的分位数值为x x x,其分布值的p p% p 小于或等于x p x_p xp? ) 。在正态分布图中,待考察分布的观察值与正态分布相同数量的值比较 。如果待考察的分布是正态分布,则图中大部分的点构成一条直线;如果与线性形态存在系统偏差,则该图表明待考察分布不是正态分布 。
比如:
每个分布都在这种正态概率图上有自己的特征,而只有正态分布才会刚好成一条直线 。
顺带一提,这是用做的图,图右上方有一些参数,其中,AD值代表 安德逊-道尔(, AD)统计 ,这是正态分布的AD测试 。AD值越小,表明数据与正态分布拟合程度高 。零假设表明与正态分布拟合,因此p-值小,表明拟合程度不高 。
所以,除了看图的样子,更重要的是看右上角的参数来判断 。
5.标准残差与拟合度的点图
这种图的好处不明而喻,直接展现了标准残差值与拟合值的区别 。同时,我们也可以看一下这是什么类型的模式 。