妙趣横生的统计学

第4章 描述数据

均值

分布形态

统计悖论

均值、中位数、众数

加权平均值 ∑(x·w)/∑w

注意问题:异常值的影响

众数的个数

对称性(偏态)

离散程度

左偏态(负偏态):均值与中位数小于众数

右偏态(正偏态):均值与中位数大于众数

零偏态(对称分布):均值、中位数和众数相等

形态:峰宽和峰高

极差:最大值-最小值

四分位数(五数概括法、箱型图):统计学没有统一公认的四分位数的计算过程

百分位数:小于某值的个数 / 总数*100

标准差:√(∑(x- x̅)²/(n-1))

离差: x- x̅

经验公式:标准差 ≈ 极差/4 、最小值 ≈ 均值-(2×标准差) 、最大值 ≈ 均值+(2×标准差)

辛普森悖论:每组数据对比与整体数据对比给出不同的结果(都是一方数据小的和另一方数据大的做比,算平均则逆转)

女性乳房肿瘤为癌症概率

测谎仪90%与药物检测95%

道琼斯指数

富人越富:基尼系数、五分位、帕累托法则

第5章 正态的世界

什么是正态

正态分布的性质

中心极限定理

SAT考试的发展趋势

我们比父母更聪明吗

3σ原则、标准分数和百分位数

分娩提前和延后的概率

正态分布曲线(高斯曲线):y = e^(-1/2[(x-σ)]²/[σ√(2π)]

正态分布条件

大多数数值集中于均值附近,使分布有一个良好的单峰

数值均匀地分布在均值周围,使分布对称

与均值的离差越大,出现的概率就越小,形成分布逐渐减小的尾部

个别数值是由多种不同的因素共同作用造成的,如遗传和环境因素

正态分布的均值可以是任何值,标准差可以是任何一个正数。
标准正态分布特指均值为0,标准差为1的正态分布。

3σ原则:为衡量全部数值中处于均值两侧1、2、3个标准差内的数值所占的百分比提供了精确的指引。(68.3%、95.4%、99.7%)

不寻常值:距均值超过2个标准差的数值,占5%左右

标准分数:z =(x- x̅)/ 标准差,某一数值大于或小于均值的标准差个数。 (可与百分位数转换)

假设在任意分布(没有必要是正态分布)中,对某一变量随机选取了容量为n的若干样本,并记录每个样本均值的分布,那么:
(1)在大样本情况下,均值的分布将近似于正态分布;(从实际意义上讲,如果样本容量大于30,均值的分布就接近正态分布)
(2)在大样本情况下,均值分布的均值近似等于总体均值μ;(3)在大样本情况下,均值分布的标准差为σ/√n,其中σ为总体标准差(在理想的情况下,均值的分布来源于所有可能的样本,均值分布的均值等于总体均值μ,均值分布的标准差等于σ/√n(n为容量,σ为原标准差))

参试人员是否能代表总体:样本变化

每年的成绩是否具有可比性:考试题目占比不同、考试改革

IQ测试-智力还是其他某种能力?

如果IQ测试衡量的是智力,那么智力是天生的、由遗传决定的,还是由环境和教育后天塑造的?