妙趣横生的统计学
第4章 描述数据
均值
分布形态
统计悖论
均值、中位数、众数
加权平均值 ∑(x·w)/∑w
注意问题:异常值的影响
众数的个数
对称性(偏态)
离散程度
左偏态(负偏态):均值与中位数小于众数
右偏态(正偏态):均值与中位数大于众数
零偏态(对称分布):均值、中位数和众数相等
形态:峰宽和峰高
极差:最大值-最小值
四分位数(五数概括法、箱型图):统计学没有统一公认的四分位数的计算过程
百分位数:小于某值的个数 / 总数*100
标准差:√(∑(x- x̅)²/(n-1))
离差: x- x̅
经验公式:标准差 ≈ 极差/4 、最小值 ≈ 均值-(2×标准差) 、最大值 ≈ 均值+(2×标准差)
辛普森悖论:每组数据对比与整体数据对比给出不同的结果(都是一方数据小的和另一方数据大的做比,算平均则逆转)
女性乳房肿瘤为癌症概率
测谎仪90%与药物检测95%
道琼斯指数
富人越富:基尼系数、五分位、帕累托法则
第5章 正态的世界
什么是正态
正态分布的性质
中心极限定理
SAT考试的发展趋势
我们比父母更聪明吗
3σ原则、标准分数和百分位数
分娩提前和延后的概率
正态分布曲线(高斯曲线):y = e^(-1/2[(x-σ)]²/[σ√(2π)]
正态分布条件
大多数数值集中于均值附近,使分布有一个良好的单峰
数值均匀地分布在均值周围,使分布对称
与均值的离差越大,出现的概率就越小,形成分布逐渐减小的尾部
个别数值是由多种不同的因素共同作用造成的,如遗传和环境因素
正态分布的均值可以是任何值,标准差可以是任何一个正数。
标准正态分布特指均值为0,标准差为1的正态分布。
3σ原则:为衡量全部数值中处于均值两侧1、2、3个标准差内的数值所占的百分比提供了精确的指引。(68.3%、95.4%、99.7%)
不寻常值:距均值超过2个标准差的数值,占5%左右
标准分数:z =(x- x̅)/ 标准差,某一数值大于或小于均值的标准差个数。 (可与百分位数转换)
假设在任意分布(没有必要是正态分布)中,对某一变量随机选取了容量为n的若干样本,并记录每个样本均值的分布,那么:
(1)在大样本情况下,均值的分布将近似于正态分布;(从实际意义上讲,如果样本容量大于30,均值的分布就接近正态分布)
(2)在大样本情况下,均值分布的均值近似等于总体均值μ;(3)在大样本情况下,均值分布的标准差为σ/√n,其中σ为总体标准差(在理想的情况下,均值的分布来源于所有可能的样本,均值分布的均值等于总体均值μ,均值分布的标准差等于σ/√n(n为容量,σ为原标准差))
参试人员是否能代表总体:样本变化
每年的成绩是否具有可比性:考试题目占比不同、考试改革
IQ测试-智力还是其他某种能力?
如果IQ测试衡量的是智力,那么智力是天生的、由遗传决定的,还是由环境和教育后天塑造的?