线性回归诊断与非线性回归

回顾

数据的分析前一定要清洗

可能有虚假相关,所以要做回归。

相关的变量(无控制变量)少,而回归(控制变量)多。

线性回归诊断

诊断多重共线性

相关性与回归分析

相关系数

图形虽然直观,但是不精确。因此通常需要用相关系数来考察两个变量之间的相关性强弱

判断标准:大于0.8时,强相关;0.5-0.8之间中度相关,小于0.3弱相关

特点

(1)相关系数不区分自变量和因变量,相关关系不一定就是因果关系。

(2)相关系数计算以连续变量为主,不使用于分类变量

(3)相关关系只能衡量两个变量的线性关系,不能提供曲线关系的信息。

显著性水平

定义:显著性水平,指估计总体参数落在某一区间内可能犯错误的概率,用α表示。

显著意味着拒绝原假设(不显
著),两者之间差异显著。

概念:

解释变量是非随机或固定的,而且X之间相互不相关(否则有多重共线性)

随机误差项的期望值为0,且方差相同(同方差性)

随机项满足正态分布

解释变量与随机误差项不相关(无法检验,只能根据理论论证)

指一个模型中的自变量之间存在过强的线性关系问题。

• 如果存在完全多重共线性,那么回归方程就缺乏唯一解。这时stata会发出警告

命令: estat vif

存在较严重多重共线性的判断标准是:方差膨胀因子(variance inflation factor,简称VIF)的最大值大于10,且所有vif的均值大于1。

反思

这节课学习了多元线性回归和相关系数以及如何去诊断一个线性回归。另外,上课开始时,听到老师回顾说别忘了清洗数据,我才想起来我上次作业没有清洗,说不定这就是我不是优秀作业的原因。但同时,我对于美化的操作还是抱有困惑,图形可以启动图形编辑器,但是图形编辑器其实不是很方便,不知道有没有什么语法可以直接用。还有,我并不是很清楚如何去美化一个表格,加上percent只会看起来更拥挤。