数据的描述统计量

普遍认为

因为有特例的存在,任何的结论针对个体都是错误的。

因为有统计数据,所以结论针对群体是正确的。

数据分布的特征

集中趋势

一组数据向其中心值靠拢的倾向和程度

寻找数据水平的代表值或中心值

众数

出现次数最多的变量值

一组数据可能没有众数或有几个众数

不受极端值的影响

主要用于分类数据

众数即为山峰的位置

中位数

排序后处于中间位置上的值

不受极端值的影响

主要用于顺序数据

不可用于分类数据

各变量值与中位数的离差绝对值之和最小

如果是偶数个,中位数为两个中间数的均值

均值

集中趋势的最常用测度值

一组数据的均衡点所在

体现了数据的必然性特征

易受极端值的影响

用于数值型数据

均值具有了样本信息的极大化处理

不能用于分类数据

不能用于顺序数据

需要人为去除一些极端值

分类

加权均值

简单均值

数学性质

各变量值与均值的离差之和等于零

各变量值与均值的离差平方和最小

可以求解最优解。平方和最小-切线斜率为0

R函数-集中趋势

中位数

median(example3_1$分数)

众数

当数据中有多个众数时,R输出的数据为最后一个出现的众数。

which.max(table(example2_1$社区))

table(example2_1$社区)

均值

普通均值

mean(example3_1$分数,trim=0)

加权均值

weighted.mean(example3_2$组中值,example3_2$人数)

trim后面所跟的数字意味着两端剔除的数据所占的比例

三者关系

对称分布

均值=中位数=众数

右偏分布

众数—>中位数—>均值

左偏分布

均值—>中位数—>众数

四分位数

两个分位点中间即为山峰的位置

不受极端值的影响

主要用于顺序数据

不能用于分类数据

百分位数

四分位数

quantile(example3_1$分数,probs=c(0.25,0.75))

任意百分位数

quantile(example3_1$分数,probs=c(0.2,0.5,0.8))

离散趋势

反映各变量值远离其中心值的程度

从另一个侧面说明了集中趋势测度值的代表程度

不同类型的数据有不同的离散程度测度值

极差

离散程度的最简单测度值

数据量少

易受极端值影响

未考虑数据分布

四分位差

反映了中间50%数据的离散程度

不受极端值的影响

用于衡量中位数的代表性

R函数-离散程度

极差

max(example3_1$分数)-min(example3_1$分数)

四分位差

IQR(example3_1$分数)

方差&标准差

方差

最常用

扭曲了数据,不同位置的数据的权重变了

反映了各变量值与均值的平均差异

绝对偏差

数据原型

需要打开绝对值

数据分布

约有95%的数据在平均数加减2个标准差的范围之内(对称分布)

切比雪夫不等式

对任何分布形状的数据都适用

结论

至少有75%的数据落在平均数加减2个标准差的范围之内

至少有89%的数据落在平均数加减3个标准差的范围之内

至少有94%的数据落在平均数加减4个标准差的范围之内

方差

var(example3_1$分数)

标准差

sd(example3_1$分数)

标准分数

z分数或标准化值

度量每个数值在该组数据中的相对位置

判断一组数据是否有离群点

(xi-x(均值))/s

标准分数

example3_1$标准分数<-scale(example3_1$分数)

变异/离散系数

标准差与其相应的均值之比

对数据相对离散程度的测度

消除了数据水平高低和计量单位的影响

用于对不同组别数据离散程度的比较

变异/离散系数

x.mean<-apply(example3_9,2,mean)

x.sd<-apply(example3_9,2,sd)

x.cv<-x.sd/x.mean

x<-data.frame("均值"=x.mean,"标准差"=x.sd,"变异系数"=x.cv)

file<-round(x,4)

描述

偏度【Skewness】

峰度【Kurtosis】

偏态系数

【>0】右偏分布

【<0】左偏分布

看偏态与0的比较可以确定哪边力量强

峰态系数

【=0】扁平峰度适中

【=0】对称分布

【<0】扁平分布

【>0】尖峰分布

偏度&峰度

describe(example3_1$分数,IQR=T)

psych求均值时,自动去掉前后10%

library(psych)

apply常常用来计算矩阵中行/列的均值/其他函数