统计分析V1
总体分布
已知
未知
统计推断
非参数检验
参数检验
T检验
分类
单样本T检验
两独立样本T检验
目的
前提条件
前提条件
目的
利用来自两总体的独立样本,推断两个总体的均值是否存在差异
样本来自的总体应服从或近似服从正态分布
两配对样本T检验
原假设
总体均值与检验值之间不存在显著差异
原假设
两总体均值无显著差异
两样本互相独立,两个样本的样本量可以不等
目的
利用来自两总体的配对样本,推断两总体的均值是否存在差异
前提条件
两样本样本量相同,样本来自的总体应服从或近似服从正态分布
两个样本观测值的先后顺序是一 一对应的,不可随意更改。
配对样本
可以是个案在“前”、“后”两种状态下某属性的两种不同特征
可以是对某事物两个不同侧面的描述
方差分析
前提条件
前提条件
目的
目的
推断控制变量各水平下观测变量的总体分布是否有显著差异来判断分析目标
利用来自某总体的样本数据,推断该总体的均值是否与制定的检验值存在显著性差异
判断总体均值是否存在差异
总体服从正态分布
原假设
两总体均值无显著差异
观测变量各总体应服从正态分布
观测变量总体的方差应相同
分类
多因素方差分析
目的
基本思想
控制变量是否给观测变量带来了影响
控制变量各个水平对观测变量的影响程度
单因素Anova方差分析
方法分类
多重比较(事后比较)检验
作用
目的
目的
方差齐性检验
原假设
研究一个控制变量的不同水平是否对观测变量产生了显著影响
控制变量不同水平下的观测变量各总体的均值无显著差异
方差同质性检验方法
原假设
各水平下观测变量总体方差无显著差异
目的
检验控制变量不同水平下,各观测变量总体方差是否相等
控制变量的不同水平对观测变量的影响程度如何
那个水平的作用区别于其它水平
那个水平的作用是不显著的
利用全部观测变量值,实现对各个水平下观测变量总体均值的逐对比较。
原假设
方法
第i和第j各水平下观测变量的总体均值μi和μj 间不存在显著差异
假定等方差
LSD (最小显著性差异)方法
缺点
统计量 t
优点
没有对犯Ⅰ类错误的概率问题加以有效控制
公式
含义
如果t统计量服从n-k个自由度的t分布,表明LSD方法适用于各总体方差相等的情况
太复杂,以后补充
Bonferroni(邦费罗尼)方法
修正LSD最小显著差异
优点
减少犯犯Ⅰ类错误出现的概率
缺点
会增加出现Ⅱ错误的概率
统计量
含义
Tukey(图基)方法
公式
统计量q
公式
含义
如果q统计量服从(k,n-k)个自由度的q分布,表明Bonfeirroni方法适用于各总体方差相等的情况
优点
适用范围
仅适用各水平下观测值个数相等的情况
与LSD方法相比,对犯Ⅰ类错误概率的问题进行了处理
Scheffe(雪费)方法
统计量S
适用范围
缺点
公式
含义
太复杂,以后补充
S统计量服从(k-1,n-k)个自由度的F分布
与Tukey相比,Scheffe不如它灵敏
可用于各组人数不同,非正态分布上
显著性水平\(\alpha\) 可指定为0-1之间,默认为0.05。
用 t 检验完成各组间的配对比较
与LSD相同
方法
通过设置每个检验的误差率来控制第一类错误的概率
显著性水平\(\alpha\) 可指定为0-1之间,默认为0.05。
显著性水平\(\alpha\) 可指定为0-1之间,默认为0.05。
对所有可能的组合进行同步的配对比较,可用于检验分组均值所有可能的线性组合
显著性水平\(\alpha\) 只能为0.05。
S-N-K 方法
全称为Newman–Keuls 或 Student–Newman–Keuls (SNK),是一种有效划分相似性子集的方法
适用范围
基本思路
各观测值个数相等的情况
公式
剔除标准
用Student-Range 分布进行各组均值间的配对比较
显著性水平\(\alpha\) 只能为0.05。
统计量\(\mu\)
检验敏感性高
不假定等方差
Tamhene's (塔姆黑尼) T2 检验法
Dunnett's (邓尼特)T3 检验法
Games-Howell(盖姆斯-豪厄尔)检验法
Dunnett's(邓尼特)C检验法
用T检验进行各组均值配对比较
用 基于Student最大模数的比较配对实验
方差不齐时的配对比较实验,该方法比较灵活
用Student-Range极差统计量进行配对比较
其它检验
先验对比检验
用途
更精确的掌握各水平间或相似子集间均值的差异程度
趋势检验
用途
当控制变量为定序变量时,趋势检验能够分析控制变量水平的变化,观测变量值变化的总体趋势是怎样的,是线性或者是二次或三次等多项式变化。
作用
帮助人们从另一个角度把我控制变量不同水平对观测变量总体作用的程度
研究两个及两个以上控制变量是否对观测变量产生显著影响
分析多个变量对观测变量的独立影响
分析多个控制变量的交互作用能否对观测变量的分布产生显著影响
确定观测变量和若干控制变量
剖析观测变量的方差
控制变量独立作用的影响
控制变量交互作用的影响
随机因素的影响
单个控制变量独立作用对观测变量的影响
多个控制变量不同水平相互搭配后对观测变量产生的影响
主要指抽样误差带来的影响
比较观测变量离差总平方和各部分所占的比例
数学模型(饱和模型)
以后补充
基本步骤
原假设
各控制变量不同水平下观测变量各总体的均值无显著差异,
控制变量各效应和交互作用效应同时为0
选择检验统计量
固定效应模型
随机效应模型
以后补充
以后补充
计算检验统计量的观测值和概率P值
给定显著性水平,并做出决策
进一步分析
模型分类
饱和模型
非饱和模型
其它功能
均值检验
目的
对各控制变量不同水平下观测变量的均值是否存在显著差异进行比较
方法
多重比较检验
与单因素方差分析类似
对比校验
方法
单样本t检验
目的
把控制变量不同水平下的观测变量值看做来自不同总体的样本,
并依次检验这些总体的均值和某个指定的检验值的差与0是否存在显著差异
检测值的选取
观测变量的均值
第一个水平或最后一个水平下观测变量的均值
前一个水平下观测变量的均值
后一个水平下观测变量的均值
控制变量交互作用下的图形分析
如果控制变量之间无交互作用,则各水平对应的直线是平行的
如果控制变量之间存在交互作用,则各水平对应的直线会相互交叉
协方差分析
必要的原因
在实际问题中,有的控制因素是无法人为进行操控的,而它们的不同水平对观测变量产生了较为显著的影响,如果忽略这些因素而单纯分析其它因素对观测变量的影响,往往会夸大或缩小其它因素的影响,是分析的结论不准确。
目的
剔除协变量对分析结论的影响,更加准确地研究控制变量不同水平对观测变量的影响。
影响观测变量的四个方面
控制变量的独立作用
控制变量的交互作用
协变量的作用
随机因素的作用
原假设
协变量对观测变量的线性影响是不显著的,
在剔除协变量影响的条件下,控制变量各水平下观测变量的总体均值无显著差异,控制变量各水平对观测变量的效应同时为0。
统计量
F统计量
各方差与随机因素引起的方差的比
含义
如果相对于随机因素引起的变差,协变量带来的变差比例较大,即F值较大,则说明协变量是引起观测变量变动的主要原因之一,观测变量的变动则可以由协变量来线性解释。
如果相对于随机因素引起的变差,协变量带来的变差比例较小,即F值较小,则说明协变量没有给观测变量带来显著的线性影响。
在剔除了协变量的线性影响后,控制变量对观测变量的影响分析与方差分析一样。
如何剔除
要求
协变量分析便涉及
两种类型的控制变量
分类型
数值型
数值型观测变量
解决方法
把控制变量当作解释变量,观测变量看作被解释变量
协方差分析便是一种介于方差分析和线性回归分析之间的方法
可参照回归分析中对解释变量的处理方式来处理协变量
作为协变量的变量一般是定距变量(连续数值型)
多个协变量之间无交互作用
控制变量各水平下的观测变量与协变量间有相似的线性关系
数学模型
以后补充
如果残差随协变量值得变化呈规律性变化,则认为存在 异方差情况,可采用加权最小二乘法进行模型得参数估计
多元方差分析
概念
又称多变量分析,研究多个控制变量(自变量)与多个因变量相互关系得一种统计方法
优点
在一次研究中同时检验具有多个水平得多个因素各自对因变量得影响以及各因素间得交互作用
前提条件
样本满足独立、正态分布、等方差
各因变量间具有相关性
每一组都有相同得方差——协方差矩阵
各因变量为多元正态分布
目的
检验控制因素如何影响一组因变量
统计量
Pillai比莱轨迹
恒为正值
Wilks威尔克lambda值
取值范围为0~1
Hotelling霍特林轨迹
用于检验矩阵特征根之和
值越大表明该效应对模型得贡献越大
值越大表明该效应对模型得贡献越大
值越小表明该效应对模型得贡献越大
Roy罗伊最大根
用于检验矩阵特征根中得最大值
值越大表明该效应对模型得贡献越大
选择何种统计量
如果方差齐性假设成立,就用威尔克lambda得检验值进行判断
如果方差齐性检验不成立,就用其它几项检验数据进行判断
单样本的非参数检验
样本来自的总体应服从或近似服从正态分布
无法假定
两独立样本的非参数检验
多独立样本的非参数检验
两配对样本的非参数检验
多配对样本的非参数检验
卡方检验
原假设
样本来自的总体分布与期望分布或一理论分布无显著差异
前提条件
基本思想
目的
为检验实际分布与理论分布(期望分布)是否一致
变量为定序变量
以后补充
统计量
Pearson卡方统计量
公式
含义
如果 \( \chi^2 \) 值较大,说明观测频数分布语期望频数分布差距较大
如果 \( \chi^2 \) 值较小,说明观测频数分布语期望频数分布差距比较接近
单样本K-S检验
二项分布检验
前提条件
二值变量
目的
以后补充
通过样本数据检验样本来自的总体是否服从指定概率为P的二项分布
原假设
样本来自的总体与指定的二项分布无显著差异
检验方法
小样本
精确检验
公式
含义
大样本
近似检验
Z 检验统计量
含义
公式
判定标准
全称
目的
利用样本数据推断样本来自的总体是否服从某一种理论分布
适用范围
是一种拟合优度的检验方法,适合探索连续型随机变量的分布
原假设
样本来自的总体与指定的理论分布无显著差异
理论分布
正态分布
均匀分布
指数分布
泊松分布
Kolmogorov-Smirnov 柯尔莫哥洛夫-斯米诺夫 检验
基本思路
含义
统计量
判定标准
小样本
大样本
变量值随机性检验或者游程检验
目的
通过对样本变量值的分析,实现对总体的变量值出现是不是随机的进行检验
原假设
总体变量值的出现是随机的
基本思想
游程
变量值序列中连续出现相同变量值的次数
统计量
均值公式
方差公式
在大样本下,游程近似服从正态分布
公式
之后补充
判定标准
用途
在对分布不了解的情况下,通过对两个独立样本的分析推断样本来自两总体的分布是否存在显著差异
分类
曼-惠特尼检验
原假设
两独立样本来自的两总体的分布无显著差异
基本思想
通过对两个样本平均秩的研究来进行判断
基本步骤
统计量计算公式
大样本
小样本
判断标准
K-S检验
用途
检验单个总体是否服从某一理论分布
检验两总体分布是否一致
原假设
两独立样本来自的两总体的分布无显著差异
基本思想
以变量的秩为分析对象,而非变量本身
判断标准
基本步骤
游程检验
用途
两独立样本来自的总体的分布是否存在显著差异
原假设
两独立样本来自的总体的分布无显著差异
基本思想
两独立样本的游程检验中,游程数来自于变量的秩
基本步骤
判断标准
统计量Z
极端反应检验
用途
从另一个角度检验两独立样本来自的总体的分布是否存在显著差异
原假设
两独立样本来自的总体的分布无显著差异
基本思想
基本步骤
以控制样本为对照,检验实验样本相对于控制样本是否存在极端反应
注重对跨度和截头跨度的分析
统计量H
小样本
大样本
以后补充
以后补充
判断标准
目的
通过分析多组独立样本数据,推断样本来自的多个总体的中位数或分布是否存在显著差异
分类
中位数检验
Kruskal-Wallis检验
Jonckheere-Terpstra检验
原假设
多个样本来自多个总体的中位数无显著差异
基本思想
基本步骤
统计量
卡方统计量公式
以后补充
判断标准
目的
用于检验多个总体的分布受否存在差异
原假设
多独立样本来自的多个总体的分布无显著差异
基本思想
K-W统计量
以后补充
分布
K-W分布
卡方分布
判断标准
目的
用于检验多个总体的分布是否存在差异
原假设
多独立样本来自的多个总体的分布无显著差异
基本思想
基本步骤
J-T统计量
公式
判读标准
目的
在对总体分布不甚了解的情况下,通过对来两配对样本的分析,推断样本来自的两个总体的分布是否存在显著差异
前提
配对样本的样本量是相同的
各样本值得前后次序不能随意更改
分类
McNemar检验
原假设
两配对样本来自的两总体的分布无显著性差异
基本思想
McNamar是一种变化显著性检验,它将研究对象自身作为对照者检验其“前后”变化是否显著
统计方法
采用二项分布检验的办法
检验分布是否服从概率P值为0.5的二项分布
判断标准
小样本
大样本
符号检验
需注意
两配对样本的McNemar检验分析的变量是二值变量,在实际运用中,需进行数据转换。
目的
检验两配对样本来自的总体的分布是否存在显著差异的非参数方法
原假设
两配对样本来自的两总体的分布无显著差异
基本思想
利用正负符号的个数实现检验
统计方法
采用二项分布检验的方法
检验正负符号个数的分布是否服从概率为0.5的二项分布
判断标准
小样本
大样本
缺点
只考虑数据是变大或是变小了,但没有考虑变化的幅度
Wilcoxon符号秩检验
原假设
两配对样本来自的两总体的分布无显著差异
基本思想
统计量
小样本
大样本
判断标准
公式
公式
目的
通过分析多配对样本数据,推断样本来自的多个总体的中位数或分布是否存在显著差异
分类
多配对样本的Friedman检验
原假设
多个配对样本来自的多个总体的分布无显著差异
基本思想
检验方法
用类似于方差分析的方法来构建统计量
统计量F
公式
以后补充
大样本下,F统计量服从自由度为k-1个的卡方分布
判断标准
适用前提
对数值型变量的分析
多配对样本的Cochran检验
适用范围
适合对二值分类型数据进行分析
原假设
多个配对样本来自的多个总体的分布无显著差异
基本思想
统计量Q
公式
判断标准
在大样本下,Q统计量近似服从于K-1个自由度的卡方分布
Kendall协同系数检验
原假设
评判者的评判标准不一样
基本思想
统计量W
Kendall肯德尔协同系数
公式
含义
接近0
接近1
客观事物之间的关系
函数关系
统计关系
一对多的关系
一 一 对应的关系
可以用数学函数式精确描述
根据\(x\) 可以给出\(y\)的明确值
根据\(x\)可以给出多个\(y\)
分类
线性相关关系
非线性相关关系
本质线性关系
非本质线性关系
正线性相关关系
负线性相关关系
测度方法
相关分析
测度事物之间统计关系的工具
方法
绘制散点图
计算相关系数
特点
优点
分类
简单散点图/简单分布
适用范围
应定义选项
某个变量为纵轴变量
某个变量为横轴变量
重叠散点图/重叠分布
适用范围
多对变量间统计关系
一对变量间统计关系
应定义选项
两个变量为一对,前一个为纵轴变量,后一个为横轴变量
通过按钮进行横纵轴变量的切换
矩阵散点图/矩阵分布
适用范围
三维散点图/3-D分布
多对变量间的统计关系
需注意问题
弄清各矩阵单元的横纵变量
应定义选项
指定参与绘图的变量到【矩阵变量】框中
前一个变量为纵变量,后一个变量为横变量
选择变量的先后顺序决定了矩阵对角线上变量的排列顺序
适用范围
三对变量间的统计关系
应定义选项
指定三个变量为散点图X、Y、Z轴的变量
目的
简单易用且直观的反映变量之间的统计关系以及它们的强弱和数据对可能的走向
缺点
测量精度不够精准
以数值的方式精确的反映两个变量间线性相关的强弱程度
基本步骤
计算样本相关系数\(r\)
取值范围
含义
0
+1
-1
r>0
r<0
-1~+1
标准
\( | r | \) > 0.8
\( | r | \) < 0.3
较强的线性相关关系
较弱的线性相关关系
样本推论总体
假设检验
提出原假设
选择检验统计量
计算统计量观测值和对应的P值
判断决策
分类
皮尔逊Pearson相关系数
偏相关分析
用途
度量数值型变量间的线性相关关系
基本思想
数学定义
特点
太复杂,以后补充
简单相关系数公式
以后补充
x与y在是对称的
x与y的相关系数等于y与x的相关系数
简单相关系数是无量纲量
是个单纯的数字
是度量两变量之间的线性关系的工具,对非线性关系则不会有效
检验统计量
t 统计量
公式
分布
判断标准
斯皮尔曼Spearman等级相关系数
用途
定序型变量间的线性相关关系
设计思想
数学定义
与皮尔逊简单相关系数相似,以后补充
等级相关系数公式
以后补充
分析思路
如果两变量的相关性较强,那么它们的秩的变化具有同步性,r趋近于1
当两变量完全正相关时,r=1,当两变量完全负相关时,r=-1
当两变量相关性较弱时,它们秩的变化不具有同步性,r趋近于0
检验统计量
小样本
Spearman等级相关系数服从Spearman分布
大样本
Z统计量
公式
服从标准正态分布
判断标准
肯德尔Kendall \(\tau\) 相关系数
用途
用非参数检验的方式度量定序型变量间的线性相关关系
设计思想
一致对的数目U
非一致对的数目V
公式
定义
定义
公式
分析思路
如果两变量具有较强的正相关关系,则U较大,V较小
如果两变量具有较强的负相关关系,则U较小,V较大
如果两变量的相关性较弱,则U和V应大致相等,大约各占样本的一半
检验统计量
小样本
大样本
数学定义公式
以后补充
Kendall \(\tau\) 统计量
Kendall分布
Z统计量
标准正态分布
数学定义公式
以后补充
SPSS 将自动计算Pearson简单相关系数、t检验统计量以及其对应的P值
SPSS 将自动计算Spearman等级相关系数、Z检验统计量以及其对应的P值
SPSS 将自动计算肯德尔Kendall \(\tau\) 相关系数、Z检验统计量以及其对应的P值
目的
在剔除其他相关因素影响的条件下,计算变量间的相关性
用途
又称净相关分析,在控制其它变量的线性影响的条件下分析两变量间的线性相关性
分析工具
偏相关系数/净相关系数
分类
根据控制变量的个数
1、2、3
一阶偏相关系数
二阶偏相关系数
三阶偏相关系数
分析步骤
计算样本的偏相关系数
数学定义公式
取值范围
含义
对样本来自的两总体是否存在显著的净相关进行推断
检验步骤
提出原假设
两总体的偏相关系数于零无显著差异
选择检验统计量
t 统计量
数学定义公式
计算统计量的观测值和对应的P值
进行决策
可以进行假定时
因子分析
要解决的问题
收集变量中易出现的问题
计算量问题
变量间的相关问题
高维数据
海量数据
变量间信息的高度重叠
变量间信息的高度相关
目的
大幅减少参与建模的变量个数
同时不会造成信息的大量丢失
特点
因子个数远远小于原有变量的个数
减少计算量
因子能够反映原有变量的绝大部分信息
因子之间线性关系不显著
非简单的取舍,而是因子时变量重组后的结果
重组后的因子间线性关系较弱,因此解决了变量间多重共线性的问题
因子具有解释性
因子的命名解释性有助于对因子分析结果的解释评价
概述
研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,并使因子具有一定的命名解释性的多元统计方法
数学模型
核心
用较少的相互独立的因子反映原有变量的绝大部分信息
公式
相关概念
因子载荷
变量共同度
因子的方差贡献
基本内容
因子分析前提条件
因子提取
因子的命名
计算样本因子得分
一般模型
矩阵形式
以后补充
以后补充
实质
在因子不相关的前提下,因子载荷是变量和因子的相关系数
取值范围
绝对值小于等于1
含义
绝对值越接近于1,表明因子与变量的相关性越强
目的
反映了变量和因子的相关程度
因子载荷的平方也反映了因子对解释变量的重要作用和程度
数学定义
或称变量方差
公式
以后补充
原有变量\(X_i\)的方差
公式
\(h_i ^2 + \varepsilon_i ^2 = 1\)
两部分解释
变量共同度\(h_i ^2\)
是全部变量\(x_i\)方差解释说明的比例
体现了因子对变量\(x_i\)的的解释度
特殊因子\( \varepsilon_i^2\)
反映了变量\(x_i\) 方差中不能由因子全体解释说明的比例
变量共同度\(h_i^2\)接近于1,说明因子全体解释说明了变量\(x_i\)的较大部分方差,如果用因子全体刻画\(x_i\),则变量\(x_i\)丢失的信息较少
\( \varepsilon_i\)越小,说明变量\(x_i\)的信息丢失越少
目的
变量\(x_i\)的共同度刻画了因子全体对变量\(x_i\)信息解释程度,是评价变量\(x_i\)信息丢失程度的重要指标
判定标准
如果大多数原有变量的变量共同度均较高(如高于80%),则说明提取的因子能够反映原有变量的大部分(如80%以上)信息,仅有较少的信息丢失,因子分析的效果较好。
数学定义
以后补充
含义
衡量因子分析效果的重要指标
衡量因子重要性的关键指标
反映了因子\(f_i\)对原有变量总方差的解释能力
该值越高,说明相应因子的重要性越高
目的
衡量因子的重要性
衡量变量\(x_i\)与因子\(f_i\)的相关程度
反映了因子\(f_i\)对变量变量\(x_i\)的重要程度
要求
变量之间应存在较强的相关关系
检验方法
计算相关关系矩阵进行统计检验
判断标准
如果大部分相关系数值均小于0.3,即各变量间大多为弱相关,不适合进行因子分析
问题?
相关系数大于多少,适合进行因子分析
计算反映像相关矩阵
反映像相关矩阵
负的偏协方差
负的偏相关系数
变量\(x_i\)的MSA统计量
数学定义
以后补充
取值范围
0~1
含义
\(MSA_i\)越接近于1
变量\(x_i\)与其它变量间的相关系数越强
\(MSA_i\)越接近于0
变量\(x_i\)与其它变量间的相关系数越弱
判断标准
如果反映像相关矩阵中除主对角线元素外,其它大多数元素的均值较小。对角线上元素的值较接近1,则说明这些变量的相关性较强,适合进行因子分析
巴特利特球度检验
原假设
相关系数矩阵是单位阵,即相关系数矩阵为对角阵(对角元素不为0,非对角元素均为0)且主对角元素均为1。
基本思想
以原有相关系数矩阵为出发点,构建统计量
判断标准
统计量服从卡方分布
如果该统计量的观测值比较大,且对应的概率P-值小于给定的显著性水平\(\alpha\)
则应拒绝原假设,认为相关关系矩阵不太可能是单位阵,原有变量适合做因子分析
反之,如果检验统计量的观测值比较小,且对应的概率P-值大于给定的显著性水平\(\alpha\)
则不能拒绝原假设,可以认为相关系数矩阵与单位阵无显著差异,原有变量不适合作因子分析
KMO检验
目的
是比较变量间简单相关系数和偏相关系数的指标
KMO检验统计量
数学定义
以后补充
取值范围
0~1
含义
KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合做因子分析
KMO值越接近于0,意味着意味着变量间相关性越弱,原有变量越不适合作因子分析
常用的判断标准
0.9以上表示非常适合
0.8表示适合
0.7表示一般
0.6表示不太适合
0.5以下表示极不适合
关键
基于样本数据求解因子载荷矩阵
方法
基于主成分模型的主成分分析法
基于因子分析模型的主轴因子法
极大似然法
最小二乘法
\(\alpha \)因子提取法
主成分分析
数学模型
太复杂以后补充
用途
选取前面方差较大的主成分,这样既减少了变量的数目,又能够用较少的主成分反映原有变量的绝大部分信息
核心
通过原有变量的线性组合以及各个主成分的求解来实现变量降维
数学模型的系数求解步骤
确定因子数
根据\(\lambda_i \)确定因子数
根据因子的累积方差贡献率确定因子数
一般选取特征值大于1的
绘制 特征值个数与特征值的碎石图
数学定义公式
选取标准
通常选取累积方差贡献率大于0.85时的特征值个数为因子个数K
因子旋转和因子载荷矩阵的求解
目的
是一个变量值在尽可能少的因子上有比较高的载荷,使某个变量\(x_i\)在某个因子\(f_i\)的载荷趋近于1,在其他因子上的载荷趋近于0
一个因子\(f_i\) 就能够成为某个变量\(x_i\)的典型代表,于是因子的实际含义就清楚了
含义
将因子载荷矩阵A右乘一个正交矩阵\(\tau\)后得到一个新的矩阵B
因子旋转改变坐标轴,能够重新分配各个因子解释原始变量方差的比例,使因子便于理解
因子旋转并不影响变量\(x_i\)的共同度\(h_i^2\) ,会改变因子的方差贡献\(S_j^2\)
方式
正交旋转
斜交旋转
含义
坐标轴始终保持垂直90°角旋转,新生成的因子仍可保持不相关性
含义
坐标轴始终保持任意度数旋转,新生成的因子之间不能保证不相关性
方式
选择标准
在使因子具有命名解释性方面,斜交旋转通常会优于正交旋转,但却不能以保持因子的不相关性为代价
因此,一般会选用正交旋转
方式
四次方最大法
方差极大法
等量最大法
含义
当因子确定后,便可计算各因子在每个样本观测上的具体数值
因子得分函数
太复杂,以后补充
方法
Bartlette法
Anderson-Rubin法
应用举例
考察原有变量是否适合进行因子分析
考察原有变量间是否存在一定的线性关系
方法
相关系数矩阵
反映像相关矩阵
巴特利特球度检验
KMO检验
提取因子
进行尝试性分析
根据原有变量的相关系数矩阵
采用主成分分析法提取因子并选取大于1的特征值
重新制定提取特征值的标准,再进行分析
因子分析初始解
因子解
最终因子解
因子命名的解释性
采用方差极大法对因子载荷矩阵实行正交旋转
计算因子得分
得出
得出
因子协方差矩阵
旋转后的因子载荷图
因子载荷矩阵
碎石图
得出旋转后的因子载荷矩阵
采用回归法计算因子得分系数
聚类分析
分类情况
一般划分
划分依据
缺点
根据经验来进行划分
线性回归分析
分类带有主观色彩
解决方法
聚类分析
使诸多特征有相似性的顾客被分在一组,而不相似地顾客能够被分到另一组
从数据自身出发,充分利用数据进行顾客的客观分组
需要丰富的行业经验才能得到较好的分类结果
定义
一种建立分类的多元统计方法,它能够将一批样本或变量数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行分类,产生多个分类结果。
类内部个体特征具有相似性,不同类间个体特征的差异较大
关键
没有先验知识
没有事先指定的分类标准
亲疏程度
各变量(特征值)取值上的总体差异程度
亲疏密度度量的方法
角度
个体间的相似程度
简单相关系数
等级相关系数
个体间的差异程度
通过某种距离来测度
个体间差异程度的测量方法
将每个样本观测数据看成K维空间上的一个点
点与点之间距离越小,说明它们关系越亲密,越可能聚成一类
点与点之间距离越远,说明它们越疏远,越可能分别属于不同的类别
计算方式
数值型变量个体间距离
计数变量个体间距离
欧式距离
含义
公式
两个体k个变量值之差的平方和的平方根
以后补充
平方欧式距离
含义
两个体k个变量值之差的平方和
公式
以后补充
切比雪夫距离
定义
两个体k个变量值绝对差的最大值
公式
以后补充
块距离
定义
两个体k个变量值绝对差的总和
公式
以后补充
明考斯基距离
定义
两个体k个变量值绝对差P次方总和的平方根(p可以任意指定)
公式
以后补充
用户自定义距离
定义
两个体k个变量值绝对差P次方总和的q次方根(p,q任意指定)
公式
以后补充
卡方距离
Phi方距离
二值变量个体间距离
简单匹配系数
Jacaard系数
数学定义公式
以后补充
数学定义公式
卡方距离较大说明个体于变量取值有显著关系,个体间变量取值差异较大
含义
定义
是建立在K个变量值同时为0或(1)和不同时为0(或1)的频数表基础之上
数学定义
以后补充
含义
简单匹配系数越小,差异越小
此外
数学定义
以后补充
此外
0和1的地位是不等价的,会因为编码方案的变化而变化
0和1是等价的,不会因为编码方案的变化而变化
注意
所选变量应符合聚类的要求
各变量的变量值不应有数量级上的差异
各变量间不应有较强的线性相关关系
所选变量应与研究的课题有关
解决办法
标准化处理
如果相关,则会重复测量贡献率,产生结果偏差
常见的聚类方法
层次聚类
K-means聚类
定义
又称系统聚类
指聚类过程是按照一定层次进行的
聚类类型
Q型聚类
聚类对象
使相似性的样本聚集在一起,是差异性较大的样本分离开来
R型聚类
聚类对象
对变量进行聚类
对样本进行聚类
使差异性较大的变量分离开来,具有相似性的变量聚类在一起
用途
可在相似变量中选择少数具有代表性的变量参与分析,实现减少变量个数和变量降维
聚类方式
凝聚方式聚类
分解方式聚类
每个个体自成一类,计算亲疏程度
根据亲疏程度,由密到疏来进行分组
对于N个总体需要n-1步可凝聚成一大类
所有个体属于一大类,计算亲疏程度
根据亲疏程度,由远至近进行分解
对包含n个个体的大类,可通过n-1步分解成n个个体
个体与小类间、小类与小类间亲疏程度的度量方法
最小邻距离
最远邻距离
组间平均锁链距离
组内平均锁链距离
重心距离
离差平方和方法
定义
定义
定义
定义
优点
克服了最小和最远邻距离易受极端值影响的弱点
个体与小类中每个个体距离的平均距离
个体与小类中每个个体距离的最小距离
个体与小类中每个个体距离的最大距离
优点
优点
定义
定义
个体与小类中每个个体距离以及小类内各总体间距离的平均值
在聚类的每一步都考虑了小类内部相似性的变化
个体与小类重心点的距离
小类的重心点
小类中所有样本在各变量上的均值确定的数据点
距离公式
充分利用所涉及的距离信息,同时将小类内的样本数也考虑进去
由ward提出,也称ward方法
小类内离差平方和增加最小的两小类应首先合并为一类
定义
又称快速聚类
将数据看成k维空间上的点,以距离作为测度个体亲疏程度的指标,并以牺牲多个解为代价换得高的执行效率
核心步骤
确定聚类数目K
确定K各初始类中心点
根据距离最近原则进行分类
重新确定K个类中心点
判断是否满足终止聚类分析的条件
用户给出需要聚成几类
初始点指定方式
用户指定
系统指定
计算每个样本数据点到K类中心点的欧式距离
按照距离最短原则分类
依次计算各类中各个变量的均值,并以均值点作为K个类的中心点
迭代次数
类中心偏移程度
当目前的迭代次数等于指定的迭代次数时(SPSS默认为10)
新确定的类中心点距上次迭代所形成的类中心点的最大偏移量小于指定的量(SPSS默认为0.02)时终止聚类
定义
是一种数量分析方法
用于分析事物之间的统计关系
侧重考察变量之间的数量变化规律
并通过回归方程的形式描述和反映这种关系
准确把把握变量受其它一个或多个变量影响的程度
进而为预测提供科学依据
如何得到回归线
如何描述回归线
回归线是否可以用于预测
方法
函数拟合
局部平均
步骤
操作
计算标准描述统计量
绘制散点图
结果
回归线是局部平均的结果
利用回归线做预测是对当\(x=x_0 \)时的y的平均值
解决方法
缺点
需要的样本量较大
当样本量无法达到预期数量时,可采用函数拟合的方式得到回归线
基本思路
通过散点图观察变量之间的统计关系,得到对回归线是线性还是非线性关系,确定回归模型
利用样本数据,在一定的统计拟合准则下,估计回归模型的各个参数,得到一个确定的回归方称
对回归方程进行各种检验,判断方程是否能够真实的反映事物总体之间的统计关系,能否用于预测
优点
函数拟合方式比局部平均具有更强的可操作性,因而得到广泛应用
确定回归方程中的解释变量和被解释变量
建立回归方程
确定回归模型
对回归方程进行各种检验
利用回归方程进行预测
解释变量X
被解释变量Y
散点图
线性关系
非线性关系
线性回归分析
线性回归模型
非线性回归分析
非线性回归模型
估计模型中的各个参数
得到确定的回归方程
回归方程能否真实的反映事物总体间的统计关系
回归方程能否进行预测
根据回归方程对事物的未来发展趋势进行预测
散点图
线性关系
分类
一元线性回归模型
多元线性回归模型
含义
只有一个解释变量的线性回归模型
用于揭示被解释变量与另一个解释变量之间的线性关系
数学定义
前提条件
公式
\(y=\beta_0+\beta x +\epsilon \)
随机误差的期望应为0 \(E(\epsilon)=0\)
随机误差的方差应为一个特定的值\(Var(\epsilon)=\sigma^2\)
估计的
\(y=\beta_0+\beta x \)
定义
含有多个解释变量的线性回归模型
用于揭示被解释变量与其它多个解释变量之间的线性关系
数学模型
公式
\(y=\beta_0+\beta_1 x_1 +\beta_2 x_2+... \beta_p x_p+\epsilon \)
估计
\(y=\beta_0+\beta_1 x_1 +\beta_2 x_2+... \beta_p x_p \)
统计拟合准则
普通最小二乘估计
回归参数的普通最小二乘估计
对于一元线性回归方程
对于多元线性回归方程
回归方程统计检验
回归方程的显著性检验
拟合优度检验
回归系数的显著性检验
残差分析
目的
检验样本数据点聚集在回归线周围的密集程度
从而评价回归方程对样本数据的代表程度
目的
基本概念
回归平方和SSR
剩余平方和SSE
总离差平方和SST
基本思想
公式
太复杂,以后补充
当样本点都落在回归线上时,回归方程的拟合优度一定最高的
回归方程能够解释的变差所占比例越大时,那么该方程的拟合优度就越高
公式
公式
公式
分类
一元线性回归方程
多元线性回归方程
检验统计量
\(R^2\)统计量 ,又称判定系数或决定系数
公式
太复杂,以后补充
含义
取值范围
0~1
\(R^2\)越接近于1,则说明方程对样本数据点的拟合优度越高
\(R^2\)越接近于0,则说明方程对样本数据点的拟合优度越低
检验统计量
注意
在一元线性回归方程中,\(R^2\)也是y与x的简单相关系数r的平方
\( \overline R^2\) ,又称调整的判定系数或调整的决定系数
含义
公式
以后补充
取值范围
\(\overline R^2\)越接近于1,则说明方程对样本数据点的拟合优度越高
注意
0~1
\(\overline R^2\)越接近于0,则说明方程对样本数据点的拟合优度越低
\(\overline R^2\)也是y与多个x的复相关系数r的平方
实质测度了y与x全体之间的线性相关程度
也测度了样本数据与拟合数据(预测数据)间的相关程度
选取\(\overline R^2\)的原因
在多元线性回归分析中,导致\(R^2\)增大的原因
当解释变量的个数增加时,SSE必然会随之减少,进而导致\(R^2\)的增加
回归方程引入了对被解释变量由重要贡献的解释变量而使\(R^2\)值增加
目的是为了找到那些对y有贡献的x,进而分析它们之间线性变化的数量关系
目的不是为了追求\(R^2\)的增加,且\(R^2\)的增加并不能对其增加的原因进行区分
基本思想
分类
检验被解释变量与所有解释变量之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当
前提
被解释变量与解释变量之间确实存在显著的线性关系
某个\(x_i \)被引入回归方程后,如果它对y的线性解释有重要的贡献,那么必然会是SSE显著减少,并使平均的SSE也减少,使\(\overline R^2\)提高;反之。
之间的关系
SST=SSR+SSE
采用方差分析的方法
研究在SST中SSR相对于SSE来说是否占较大的比例
如果占较大比例,则表示y与x全体的线性关系明显,利用线性模型反映y于所有x的关系使恰当的
如果占较小比例,则表示y与x全体的线性关系不明显,利用线性模型反映y于所有x的关系是不恰当的
一元线性回归方程
多元线性回归方程
原假设
回归系数于零无显著差异
意味着:当回归系数为零时,无论x的取值如何变化都不会引起y的线性变化,x无法解释y的线性变化,它们之间不存在线性变化关系
统计量
F统计量
数学定义
太复杂,以后补充
服从n-1个自由度的F分布
判断标准
P值与\(\alpha\)的关系
P< \(\alpha\)
P> \(\alpha\)
不应拒绝原假设,认为回归系数与零不存在显著差异,被解释变量y与解释变量x的线性关系不显著,用线性模型描述和反映它们之间的关系是不恰当的
拒绝原假设,认为回归系数与零存在显著差异,被解释变量y与解释变量x的线性关系显著,可以用线性模型描述和反映它们之间的关系。
原假设
统计量
判断标准
各个偏回归系数同时与零无显著差异
F统计量
当偏回归系数同时为零时,无论各个\(x_i\)取值如何变化,都不会引起y的线性变化,所有x无法解释y的线性变化,y与x的全体不存在线性关系
数学定义
太复杂,以后补充
服从n-p-1个自由度的F分布
P值与\(\alpha\)的关系
P> \(\alpha\)
P< \(\alpha\)
认为偏回归系数不同时为零,被解释变量y与解释变量x的全体的线性关系显著,则可以用线性模型描述和反映它们之间的的关系
认为偏回归系数同时为零,被解释变量y与解释变量x的全体的线性关系不显著,用线性模型描述和反映它们之间的的关系时不恰当的。
回归方程的显著性检验与拟合优度检验的关系
统计量的关系
F统计量与\(R^2\)的对应关系
公式
太复杂,以后补充
含义
回归方程的拟合优度越高,回归方程的显著性检验也会越显著
回归方程的显著性检验越显著,回归方程的拟合优度也会越高
注意
回归方程的拟合优度检验的实质,并非是统计学的统计检验问题
回归方程的拟合优度检验仅仅是一种描述性的刻画,不涉及对解释变量和被解释变量总体线性关系的推断
对解释变量和被解释变量总体线性关系的推断,这是回归方程的显著性检验要实现的目标
目的
研究回归方程中的每个解释变量与被解释变量之间是否存在显著的线性关系
研究每个解释变量能否有效地解释被解释变量的线性变化,它们能否保留在线性回归方程中
基本思想
围绕回归系数(偏回归系数)估计量的抽样分布展开的,由此构建服从某理论分布的检验统计量,并进行检验
分类
一元线性回归方程
多元线性回归方程
原假设
\(\beta_0 =0 ,即回归系数与零无显著性差异 \)
意味着:当回归系数为零时,无论x取值如何变化都不会引起y的线性变化,x无法解释y的线性变化,它们之间不存在线性关系
回归系数估计量的抽样
服从分布
或者
判断标准
太复杂,以后补充
构建统计量
公式
服从n-2个自由度的t分布
P值>\(\alpha\)
P值< \(\alpha\)
不应拒绝原假设,认为回归系数与零无显著性差异,被解释变量y与解释变量x的线性关系不显著,x不应保留在回归方程中
拒绝原假设,认为回归系数与零存在显著差异,被解释变量y与解释变量x的线性关系显著,x应保留在回归方程中
原假设
\(\beta_i =0 \) ,即第i个偏回归系数与零无显著差异
注意
在一元线性回归分析中,回归方程的显著性检验和回归系数的显著性检验的作用是相同的,两者可以互相替代
同时,回归方程的显著性检验中的F统计量等于回归系数的显著性检验中的t统计量的平方
\(F=t^2\)
意味着:当偏回归系数\(\beta\) 为零时,无论\(x_i\)取值如何变化都不会引起y的线性变化,\(x_i\)无法解释y的线性变化,它们之间不存在线性关系
偏回归系数估计量的抽样分布
服从分布
以后补充
或者
构建统计量
T 以后补充
判断标准
P值<\(\alpha\)
P值>\(\alpha\)
拒绝原假设,认为回归系数与零有显著差异,被解释变量y与解释变量\(x_i\)的线性关系显著,\(x_i\)应该保留在回归方程中
不应原假设,认为回归系数与零无显著差异,被解释变量y与解释变量\(x_i\)的线性关系不显著,\(x_i\)不应该保留在回归方程中
注意
多元线性模型中,回归方程的显著性检验与回归系数的显著性检验的作用是不同的,两者不能相互替代。
回归方程的显著性检验中的偏F统计量等于回归系数的显著性检验中的t统计量的平方
\(F_{ch}=t_i^2\)
残差
概念
由回归方程计算所得预测值和实际样本值之间的差距
数学定义
以后补充
含义
是回归模型中\(\epsilon_i \) 的估计值
残差序列
由多个\(e_i\)组成的序列
基本思想
出发点
如果回归方程能够较好地反映解释变量地特征和变化规律,那么残差序列中应不包含明显的规律性和趋势性
分类
分析残差是否服从等方差的正态分布
分析残差序列是否独立
借助残差探测样本中的异常值
分析残差是否服从均值为零的正态分布
残差均值为零的正态性分析
残差的独立性分析
异方差分析
探测样本中的异常值
理论依据
当解释变量x取某个特定的值\(x_0\)时,对应的残差必然有正有负,但总体上应服从以零为均值的正态分布。
分析方法
绘制残差图
规则
是散点图,横坐标为解释变量,纵坐标为残差。
标准
如果残差的均值为零,残差图中的点应在纵坐标为零的横线上下随机散落
绘制标准化(或学生化)残差的累积概率图
目的
目的
残差序列的独立性是回归模型所要求的
要求
残差序列应满足\(cov(\varepsilon_i ,\varepsilon_j )=0 \quad (i \ne j) \)
表示残差序列的前期和后期之间不存在相关关系,即不存在自相关
不满足要求的后果
参数的普通最小二乘估计不再是最优的,不再是最小方差无偏估计
容易导致回归系数的显著性检验的t值偏高,进而容易拒绝原假设,使那些本不应保留在方程中的变量保留下来,最终使模型的预测值偏差较大。
方法
绘制残差序列图
计算残差的自相关系数
D-W (Durbin-Waton)检验
规则
以样本期(或时间)为横坐标,以残差为纵坐标
判断标准
残差随时间的推移呈有规律的变化,表明残差序列存在一定的正或负相关
数学定义
太复杂,以后补充
取值范围
-1~1
判断标准
接近于1表明序列存在正相关
接近于-1说明序列存在负相关
适用范围
推断小样本序列是否存在自相关的统计检验方法
原假设
总体的自相关系数\(\rho \)与零无显著差异
统计量
数学定义
太复杂,以后补充
取值范围
0~4
判断标准
\( DW \approx 2 ( 1-\hat \rho )\),序列不存在自相关
\( DW =4 ( \hat \rho=-1 )\),残差序列存在完全的负自相关
\( DW =(2,4) ( \hat \rho=(-1,0)) )\),残差序列存在负自相关
\( DW =2 ( \hat \rho=0 )\),残差序列无自相关
\( DW =(0,2) ( \hat \rho=(0,+1))\),残差序列存在正自相关
\( DW =0 ( \hat \rho=1 )\),残差序列存在完全的正自相关
含义
说明回归方程没能充分说明被解释变量的变化规律,还留有一些规律没有解释
也就是认为方程中遗漏了一些较为重要的解释变量
或者变量存在取值滞后性
或者回归模型选择不合适,不应选用线性模型
如果残差序列存在自相关
无论解释变量取怎样的值,对应的残差的方差应相等,它不应随解释变量或被解释变量预测值的变化而变化,否则认为出现了异方差现象。
方法
当存在异方差时,参数的最小二乘估计不再是最小方差无偏估计,也不再是有效性估计。
绘制残差图
残差的方差随着解释变量的增加呈增加或减少的趋势,出现了异方差现象
等级相关分析
操作步骤
对残差序列取其绝对值
分别计算残差和解释变量的秩
最后计算Spearman等级相关系数
如果存在异方差现象
进行判断
P< \(\alpha\)
拒绝原假设,认为解释变量与残差之间存在显著的相关关系,出现了异方差现象
P> \(\alpha\)
接受原假设,认为解释变量与残差之间无显著的相关关系,无异方差现象
可先对解释变量实施方差稳定变换
再进行回归方程参数的估计
残差与预测值的平方根成比例变化
可对解释变量作开方处理
残差与预测值成比例变化
可对解释变量取对数
残差与预测值的平方成比例变化
对解释变量求倒数
加权最小二乘估计法
权重的确定是关键
在平方和中加入一个恰当的权数\( w_i\),以调整各项在平方中的作用
方差较小的项赋予较大的权数,方差较大的项赋予较小的权数
异常值
指那些远离均值的样本数据点,它们对回归方程的参数估计有较大影响,应找出它们并加以排除。
被解释变量y和解释变量x都有可能出现异常值。
方法
对被解释变量中异常值的探测方法
对解释变量中异常值的探测方法
标准化残差
学生化残差
剔除残差
理论依据
残差服从均值为0的正态分布
因此可以根据3\(\sigma\)准则进行判断
步骤
对残差进行标准化(\(ZRE_i=\frac {e_i} {\hat \sigma} \) )
观察\(ZRE_i\)
判断标准
绝对值大于3的对应的观测值为异常值
步骤
计算学生化残差( \(SRE_i = \frac {e_i} {\hat \sigma \sqrt{ 1-h_ \ddot{u } }} \) ) \( h_ \ddot{u } \)为第i个样本观测得杠杆值
观察\(SRE_i\)
判断标准
绝对值大于3对应得观测值为异常值
构造思想
在计算第i个样本观测得残差时,用剔除样本观测后剩余得n-1个样本观测拟合回归方程,并计算第i个样本观测得预测值和相应得残差
性质
剔除残差比上述残差更能如实反映第i个样本观测y得异常性。
判断标准
绝对值大于3对应得观测值为异常值
杠杆值
库克距离
标准化回归系数的变化和标准化预测值的变化
数学定义
以后补充
含义
杠杆子实质反映了解释变量x的第i个值与x的平均值之间的差异
\( 当x_i接近于x_\overline x 时,h_\ddot{u} \)接近于0;
\( 当x_i远离于x_\overline x 时,h_\ddot{u} \)接近于1;
某个杠杆值\( h_\ddot{u}\)较高意味着对应的\(x_i\) 远离平均值,它会强烈地影响回归方程的拟合,是一个异常点。
平均值
数学定义
以后补充
判定标准
如果\(h_i 大于2或3倍的 \overline {h} \) 就可以认为该杠杆值较高,对应的观测值为异常点
SPSS计算的时中心化杠杆值
数学定义
以后补充
目的
探测强影响点的有效方法
数学定义
以后补充
性质
时杠杆值\(h_\ddot{u}\)与残差\(e_i\) 大小的总和效应
判定标准
一般库克距离大于1,就可以认为对应的观测值为异常点
在剔除第i个样本观测之后,观测标准化回归系数的前后变化。
通常,如果标准化回归系数变化的绝对值大于\(\frac 2 {\sqrt n }\) ,则可认为第i样本观测可能是异常点。
在剔除第i个样本观测之后,观测标准化回归系数的前后变化。
通常,如果标准化预测值变化的绝对值大于\(\frac 2 {\sqrt {p/n} }\) ,则可认为第i样本观测可能是异常点。
多元回归分析中的其它问题
解释变量的筛选问题
变量的多重共线性问题
目的
模型中应引入多少解释变量
对引入的解释变量进行筛选和控制
方法
向前筛选策略
向后筛选策略
逐步策略筛选
解释变量不断进入回归方程的过程
步骤
选择与被解释变量线性相关系数最高的解释变量进入方程,并进行回归方程的各种检验
然后,在剩余的变量中寻找与被解释变量偏相关系数最高并通过检验的解释变量进入回归方程,并对新建立的回归方程进行各种检验。
这个过程一直重复,直到再也没有可进入方程的解释变量为止。
是指解释变量不断剔除出回归方程的过程。
步骤
首先把所有的解释变量全部引入回归方程中,并对回归方程进行各种检验
然后,在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的解释变量,并重新建立回归方程和进行各种检验。
如新建立的回归方程中所有解释变量的回归系数检验都显著,则建立回归方程的过程结束。
否则,按照上述办法再依次剔除掉最不显著的解释变量,直到再也没有可以剔除的解释变量为止。
是向前和向后筛选策略的结合
步骤
在向前筛选策略的基础上,不断引入解释变量
在每个解释变量进入方程后,再次判断是否存在可以剔除的解释变量
随着解释变量的不断引入,由于解释变量之间存在一定程度的多重共线性,使得某些已经进入回归方程的解释变量的回归系数不再显著
这造成最终的回归方程可能包含一些不显著的解释变量
在引入解释变量的每一个阶段都提供了剔除不显著解释变量的机会
含义
多重共线性指解释变量之间存在线性相关关系的现象
存在的后果
偏回归系数估计困难
偏回归系数的估计方差随解释变量相关性的增强而增大
偏回归系数的置信区间增大
偏回归系数估计值的不稳定性增强
偏回归系数假设检验的结果不显著
测度方法
容忍度
方差膨胀因子
条件指数
数学定义
\(Tol_i=1-R_i ^2 \)
是测度解释变量间多重共线性的重要统计量
\( R_i ^2 \)是解释变量\(x_i\)与方程中其它解释变量间的复相关系数的平方
表明解释变量间的线性相关程度
含义
如果\( R_i ^2 \)较小
即方程中其它解释变量对该解释变量的可解释程度较低
那么容忍度会较大
如果\( R_i ^2 \)较大
即方程中其它解释变量对该解释变量的可解释程度较高
那么容忍度会较小
取值范围
0~1
越接近于0
表示多重共线性越强
越接近于1
表示多重共线性越弱
方差膨胀因子是容忍度的倒数
数学定义
\(VIF_i=\frac 1{1-R_i ^2} \)
取值范围
大于等于1
解释变量的多重共线性越弱,\( R_i ^2 \)越接近于0,\(VIF_i\)越接近于1
解释变量的多重共线性越强,\( R_i ^2 \)越接近于1,\(VIF_i\)越大
判断标准
如果\(VIF_i \)>10
则说明解释变量\(x_i\) 与方程中其余解释变量之间有严重的多重共线性,且可能过度地影响方程的最小二乘估计
方差膨胀因子的均值
也可以用来进行测度多重共线性
数学定义
判断标准
以后补充
\( \overline {VIF}\)远大于1
则表示存在严重的多重共线性
特征值和方差比
特征值是诊断变量间师傅存在严重的多重共线性的另一种有效办法
基本思想
如果解释变量间确实存在较强的相关性,那么它们之间必然存在信息重叠
应将这些重叠信息提取出来,成为既能够反映解释变量的信息(方差)且有相互独立的因素(成分)
基本思路
从解释变量的相关关系矩阵出发,计算相关系数矩阵的特征值
具有最大值的特征值能够说明解释变量方差的比例是最高的(通常可达到70%左右)
其它特征值随其数值的减小对解释变量方差的解释能力依次减弱
解读
如果这些特征值中,最大特征值远远大于其它特征值
则说明这些解释变量间具有相当多的重叠信息
原因
仅通过一个特征值就基本刻画了所有解释变量的绝大部分信息(方差)
判定标准
如果某个特征值既能够刻画某解释变量方差的较大部分比例
解释变量标准化后的方差为1
如果每个特征值都能刻画该变量方差的一部分
那么所有特征值将刻画该变量方差的全部
同时又能刻画另一解释变量方差的较大部分比例
则表示这两个解释变量间存在较强的线性相关关系
又称病态指数
是在特征值基础上定义的能够反映解释变量间多重共线性的指标
数学定义
\(k_i = \sqrt {\frac {\lambda _m}{\lambda_i } }\)
\( k_i\) 为第i个条件指标,它是最大的特征值\( \lambda_m\)与第i个特征值比的平方根
含义
如果最大的特征值与第i个特征值相差较大,即第i个条件指数较大
则说明解释变量间的信息重叠较多,多重共线性较严重
如果最大的特征值与第i个特征值相差较小,即第i个条件指数较小
则说明解释变量间的信息重叠较少,多重共线性不明显
判断标准
当\( 0\le k_i <30\)时
则认为多重共线性较弱
当\(30\le k_i <100\)时
认为多重共线性较强
当\(k_i \ge 100\)时
认为多重共线性问题很严重
曲线估计
变量之间的关系
线性关系
非线性关系
本质线性关系
非本质线性关系
变量关系形式上虽然呈非线性关系,但可以通过变量变换转化为线性关系
并可最终进行线性回归分析,建立线性模型
变量关系不仅在形式上呈非线性关系,而且也无法通过变量变换转化为线性关系
最终也无法进行线性回归分析和建立线性模型
目的
解决本质非线性关系的问题
步骤
在不能明确那种模型更接近样本数据时,可在上述多种可选择的模型中选择几种模型
然后,SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值和概率P值、判定系数\(R^2\)等统计量
以判定系数为主要依据选择其中的最优模型,并进行预测分析
此外
曲线估计还可以,以时间为解释变量
实现时间序列的简单回归分析和趋势外推分析
常见的本质线性模型
二次曲线
复合曲线
增长曲线
对数曲线
三次曲线
S曲线
指数曲线
逆函数
幂函数
逻辑函数
重力加速度\( g=\frac{GM}{r^{2}} \)