从统计学看线性回归(2)——一元线性回归方程的显著性检验

阅读: 评论:0

从统计学看线性回归(2)——⼀元线性回归⽅程的显著性检验⽬录
1. σ2 的估计
2. 回归⽅程的显著性检验
  t 检验(回归系数的检验)
  F 检验(回归⽅程的检验)
  相关系数的显著性检验
  样本决定系数
  三种检验的关系
⼀、σ2 的估计
  因为假设检验以及构造与回归模型有关的区间估计都需要σ2的估计量,所以先对σ2作估计。
金山px  通过残差平⽅和(误差平⽅和)
(1)
(⽤到和,其中)
⼜∵(2)
∴(3)
其中为响应变量观测值的校正平⽅和。残差平⽅和有n-2 个⾃由度,因为两个⾃由度与得到的估计值
与相关。
(4)
(公式(4)在《线性回归分析导论》附录C.3有证明)
∴σ2的⽆偏估计量:
(5)
为残差均⽅,的平⽅根称为回归标准误差,与响应变量y 具有相同的单位。
因为σ2取决于残差平⽅和,所以任何对模型误差假设的违背或对模型形式的误设都可能严重破坏σ2的估计值的实⽤性。因为由回归模型残差算得,称σ2的估计值是模型依赖的。
⼆、回归⽅程的显著性检验
  ⽬的:检验是否真正描述了变量 y 与 x 之间的统计规律性。
  假设:正态性假设(⽅便检验计算)
1. t 检验
  ⽤t 检验来检验回归系数的显著性。采⽤的假设如下:
原假设    H0:β1 = 0  (x 与 y 不存在线性关系)
对⽴假设  H1:β1 ≠ 0
  回归系数的显著性检验就是要检验⾃变量 x 对因变量 y 的影响程度是否显著。下⾯我们分析接受和拒绝原假设的意义。
  (1)接受 H0:β1 = 0  (x 与 y 不存在线性关系)
  此时有两种情况,⼀种是⽆论 x 取值如何, y 都在⼀条⽔平线上下波动,即,如下图1,另⼀种情况为, x 与 y 之间存在关系,但不是线性关系,如图2。
图  1
图 2
  (2)拒绝 H0:β1 = 0  (x 对解释 y 的⽅差是有⽤的)
  拒绝原假设也有两种情况,⼀种是直线模型就是合适的,如图 3,另⼀种情况为存在 x 对 y 的线性影响,也可通过 x 的⾼阶多项式得到更好的结果,如图 4。
图 3
图 4
  接下来对其检验。
∵(6)
  ∴当H0:β1 = 0 成⽴时,有:
(7)
  在零附近波动,构造 t 统计量:
我国名画家张善子擅长画什么
(8)
  若原假设H0:β1 = 0 成⽴,则,计算|t|,
|t| ≥ tα/2  ,拒绝 H0
|t| < tα/2  ,接受 H0
  2.F 检验(⽅差分析)
  F检验⽤于检验回归⽅程的显著性。
  ⽅差分析法检验回归显著性,⽅差分析以分割响应变量 y 的总变异性为基础。
senv
∵,
∴(9)
  其中称为观测值的校正平⽅和或总称为平⽅和(SST: sum of squares for total, , L yy),其度量了观测值中总的变异性。刻画 y 的波动程度。
  称为模型平⽅和(或回归平⽅和),记为SSR(R: regression),,。其刻画由 x 的波动引起的 y 波动的部分。
  是残差平⽅和(误差平⽅和),记为SSE(E: error), , 。其刻画了未加控制的因素引起 y 波动的部分。
∴(10)
  下来分析它们的⾃由度。因为约束使丢掉了⼀个⾃由度,所以个⾃由度;因为完全由⼀个参数确
定,所以个⾃由度;因为估计β0与β1时对离差施加了两个约束,所以有n-2个⾃由度。
∵⾃由度有可加性
∴(11)
  因为总平⽅和反映因变量 y 的波动程度或称不确定性,在建⽴了 y 对 x 的线性回归后,总平⽅和SST就分解成回归平⽅和SSR与残差平⽅和SSE这两部分,其中SSR是由回归⽅程确定的,也就是由⾃变量 x 的波动引起的,SSE是不能⽤⾃变量解释的波动,是由 x 之外的未加控制的因素引起的。这
样,总平⽅和S S T 中,能够由⾃变量解释的部分为SSR,不能由⾃变量解释的部分为SSE,从⽽,回归平⽅和SSR越⼤,回归的效果就越好,可以据此构造F 检验统计量为
(12)
好爱情就是要算计
  在正态假设下,原假设H0 : β1 = 0 成⽴时,,当时,拒绝原假设。
  3.相关系数的显著性检验
  因为⼀元线性回归⽅程讨论的是变量 x 与变量 y 之间的线性关系,所以变量 x 与 y 之间的相关系数来检验回归⽅程的显著性。⽤相关系数来反应 x 与 y 的线性关系的密切程度。
  x 与 y 的简单相关系数(Pearson 相关系数):
(13)
r的绝对值⼩于等于1:|r| ≤ 1
  根据相关系数的检验表,通常当|r| ⼤于表中α=0.05相应的值时,认为 x 与 y 有显著的线性关系。
  缺点:接近于1的程度与数据组数 n 有关(n 较⼩时,相关系数的波动较⼤,|r| 接近于1,n 较⼤时,|r|易偏⼩,n 较⼩时,不能仅凭r 判定 x 与 y 之间有密切的线性关系)
  另外补充⼀点,Pearson相关系数的适⽤范围:
  ①两个变量之间是线性关系,都是连续数据;蒋毅君 清华大学
  ②两个变量的总体是正态分布,或接近正态分布;
  ③两个变量的观测值是成对的,每对观测值之间相互独⽴。
  4.样本决定系数
  由公式(10)可知,越⼤,线性回归越好,所以定义样本决定系数r2: 回归平⽅和与总离差平⽅和之⽐。
(14)
(⽤到和)
∴(15)
  其中最右边的 r2 表⽰相关系数的平⽅。
全国党校工作会议  决定系数 r2 是⼀个回归直线与样本观测值拟合优度(Goodness of Fit, 指回归直线对观测值的拟合程度)的相对指标,反映了因变量的波动中能⽤⾃变量解释的⽐例。
  0 ≤  r2  ≤ 1,r2 越接近于 1 ,拟合优度越好。
  那么r2 的值⽐较⼩的时候反应了什么情况呢?
  r2 ⼩的可能原因:
  ①线性回归不成⽴,y 与 x 是曲线关系,应⽤曲线回归;
  ② y 与 x 之间符合线性模型,误差项⽅差σ2⼤,导致r2⼩(n 很⼤时,线性回归显著)
  在对⾃变量有重复观测时可以通过检验正确区分以上两种不同情况,或者⽤残差分析的⽅法。
相关系数和样本决定系数:
相关系数是建⽴在相关分析的理论基础上,研究两个变量 x 与 y 之间的线性相关关系;样本决定系数是建⽴在回归分析的理论基础之上,研究⾮随机变量 x 对 y 的解释程度。样本决定系数除掉了相关系数为0或1(|r|=1 or 0)的情况.
  5.三种检验的关系
  对于⼀元线性回归来说,回归系数显著性的t 检验,回归⽅程显著性的 F 检验,相关系数显著性的 t
检验,这三种检验是等价的。相关系数显著性的 t 检验与回归系数显著性的 t 检验是完全相等的,式(12)F统计量则是这两个 t 统计量的平⽅。对于⼀元线性回归只需要做⼀种检验即可,⽽对于多元线性回归,这三种检验考虑的问题不同,是三种不同的检验,并不等价。

本文发布于:2023-07-07 20:48:20,感谢您对本站的认可!

本文链接:https://patent.en369.cn/xueshu/184487.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:回归   检验   变量   显著性
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图