Please enable JavaScript.
Coggle requires JavaScript to display documents.
数据展示-R语言 (多图展示 (注意 (Par_专门设置图片摆放位置的函数, Mfrow_与位置有关-C(1,2)一行两列,…
数据展示-R语言
多图展示
x<-example2_2$销售额
par(mfrow=c(1,2))
hist(x,xlab="销售额",ylab="频数",col=2)
hist(x,prob=T,xlab="销售额",ylab="频数",col=8)
curve(dnorm(x,mean(x),sd(x)),col=2,lwd=2,add=T)
1)layout(matrix(c(1,2,3,3),nrow=2,ncol=2,byrow=T),height=c(2,1))
2)hist(x,xlab="销售额",ylab="频数",col=2)
3)hist(x,prob=T,xlab="销售额",ylab="频数",col=8)
4) curve(dnorm(x,mean(x),sd(x)),col=2,lwd=2,add=T)
5)boxplot(x,horizontal=T,col=3)
注意
Par_专门设置图片摆放位置的函数
Mfrow_与位置有关-C(1,2)一行两列
Matrix
有四个位置,放三个图——byrow=T
按行先放
Col_列
row_行
Height_列的高度比
表展示
表展示(频数表)
定性-单变量
使用summary函数了解所有定性变量的频数分布情况
summary(example2_1)
生成单变量频数表
t1<-table(example2_1$社区)
生成单变量百分数表
t2<-prop.table(t1)
定性-二维
生成二维频数表
t2<-table(example2_1$社区,example2_1$态度)
t2<-xtabs(~社区+态度,data=example2_1)
先纵向标签,后横向
生成二维百分频数表
t2_prop<-prop.table(t2)
列联表
增加边际和
addmargins(t2)
计算总百分数
addmargins(prop.table(t2))
计算行百分数
addmargins(prop.table(t2,1),2)
t2后的1代表计算百分数时是以行来算
最后的2代表在图中显示列的百分比相加的结果
计算列百分数
addmargins(prop.table(t2,2),1)
t2后的2代表计算百分数时是以列来算
最后的1代表在图中显示行的百分比相加的结果
定性-高维列联表
t3<-xtabs(~社区+态度+性别,data=example2_1)
三个变量分别是行、列、分类
表展示-数值型
数值型数据是主流数据
用cut函数对数据进行分组,然后分组统计频数
不要用barplot
可以用summary在一开始看数据
x<-example2_2$销售额
分成12组,不封闭上限
y<-cut(x,breaks=12,right=F)
计算频数
z<-table(y)
生成数据文件
z<-data.frame(z)
计算分组概率
z$per<-z$Freq/sum(z$Freq)
计算积累概率
z$cum_per<-cumsum(z$per)
图展示
定性图
条图&饼图
定性-单变量条图
水平条图
barplot(t1,col=c(2:5),main="社区简单条图",xlab="频数",horiz=T)
简单条图
col=c(1:4)图卡的颜色
barplot(t1,col=c(1:4),main="社区简单条图",ylab="频数")
一般大于7/8个类别的图,不用简单条图
定性-多变量条图
堆砌条图
barplot(t2,col=c(2:5),main="堆砌条图",ylab="频数",legend.text=row.names(t2))
Legend.text:做小图标说明
分组条图
barplot(t2,col=c(2:5),main="分组条图",ylab="频数",legend.text=row.names(t2),beside=T)
beside:肩并肩
定性-百分条图
spineplot(t1)
不可调颜色
定性-饼图
pie(t1)
二维带百分频率饼图
name<-names(t1)
perc<-prop.table(t1)*100
lab<-paste(name,perc,"%")
pie(t1,labels=lab,col=2:5)
统计学喜欢饼图多过条图
定性-帕累托图
barplot(t1,col=2:5,ylab="频数")
累计百分数
s<-cumsum(t1)/sum(t1)
加一个新图
par(new=T)
type:不要原纵轴
plot(s,type="b",axes=F)
新坐标轴的位置
axis(4)
line:轴的左右;adj:轴的上下;cex:字的大小
mtext("累积分布曲线",line=-2.5,cex=0.8,adj=0.75)
数值型
注意
用矩形的面积来表示频数分布
总面积等于一
横轴表示数据分组,纵轴表示频数或频率
展示分组数据分布
直方图
简单直方图-频数
hist(x,probability=T,xlab="销售额",ylab="频数",col=8)
x<-example2_2$销售额
带密度曲线的直方图
hist(x,probability=T,xlab="销售额",ylab="频数",col=8)
lines(density(x),lwd=2,col=2)
注意
prob=T 用频率
density:密度
lwd:线的宽度
带正太密度参考曲线的直方图
hist(x,probability=T,xlab="销售额",ylab="频数",col=8)
curve(dnorm(x,mean(x),sd(x)),col=2,lwd=2,add=T)
d:密度 norm:正态函数
均值型数据均值条形图
使用aggregate函数分类求均值
A<-aggregate(table1_2$salary,by=list(table1_2$district),
FUN=mean)
对分类均值绘制条图
barplot(A$x,col=c(2:5),names.arg = A$Group.1)
箱线图
说明
通用
上下限:1.5个箱体的位置(差不多95%)
箱体之外:空心-离群点
常用于多变量的比较
箱体:四分位线,中位线
分析
箱体小:稳定性好
箱体所代表的50%出现在每个部分的概率不同
竖向
boxplot(x)
boxplot(example2_3)
横向
boxplot(x,horizontal=T)
散点图
注意
Plot(x轴变量,y轴变量)
回归分析使用散点图以分析是否有线性关系
attach(example2_4)
plot(广告费用,销售收入)
detach(example2_4)
时间序列图
x<-ts(example2_9$农村居民消费水平,start=2000)
y<-ts(example2_9$城镇居民消费水平,start=2000)
plot(x,ylim=c(min(x,y),max(x,y)),col=1,lty=1)
lines(y,col=2,lty=2)
legend("topleft",legend=c("x","y"),lty=1:2,col=1:2)
注意
ts:指定一个变量为时序变量
start=2000:从2000年开始的时序变量(年度)
start=c(2000,1),frequency=1:从2000年1月开始的时序变量(月度)
如果只需画x的时序变量曲线只需plot(x)
画x与y的时序变量时,将y轴的范围给定-min&max就可以了
正态分布
可以由均值和方差唯一决定
可以作为正态假定