Please enable JavaScript.
Coggle requires JavaScript to display documents.
統計 (演算法, 描述統計學, 推論統計學) - Coggle Diagram
統計
演算法
關聯 ( Correlation )
回歸 ( Regression )
分類 ( Classification )
聚類 / 分群 ( Clustering )
描述統計學
離散統計
(分佈被拉伸或擠壓的程度)
全距 ( RANGE )
一組數據中最大值和最小值之間的差異
四分位數 ( IQR )
非常有用的統計量,因為它不包括極端的數據
第一四分位數Q1,樣本中所有數值由小到大排列後第25%的數字
第二四分位數Q2,樣本中所有數值由小到大排列後第50%的數字
第三四分位數Q3,樣本中所有數值由小到大排列後第75%的數字
IQR = Q3 - Q1
變異數、方差、標准偏差 ( 𝜎^2 )
觀察數據分散的程度,衡量一組(隨機)數字從其平均值中分散出來的程度。變異數越接近零,數據點聚集在一起越緊密
𝜎^2 = Σ(Χ−𝜇)^2 / N
從數據中的每個值中減去均值(求偏差)。 這可以衡量每個值與平均值的距離。
對這些距離中的每一個進行平方(使得它們都是正值),並將所有平方值加在一起。
將這一個平方和除以數據的數量。
標準差standard deviation ( 𝜎 或 s )
量化一組數據值的變化或分散量的量度。
低標準差表示數據點傾向於接近集合的平均值,而高標準差表示數據點分佈在更廣泛的值範圍內
𝜎 = ( Σ(Χ−𝜇)^2 / N )開根號
分佈形狀
頻率分佈
計算每個區間有多少數字,再畫出來
採樣分佈
常態(高斯)分佈
最重要和最常見的連續概率分佈
常態分佈表示通常出現的數據,其中大多數值與平均值相同,並且在末端僅發現很少的值。在常態分佈中,大約 99%的值在平均值的三個標准偏差( 𝜎2 )內
符合常態分佈的具有相同的均值,中位數和眾數
標準化Standardization
就是把數字壓到一個區間內比較,例如身高是170~190,年齡是25~35,這樣無法比較,所以做標準化後讓數字都在某個小區間內
標準化數字的算法:標準分數、z分數
Z = (x-𝜇) / 𝜎
標準化值的平均值始終為零,標準化值的標准偏差始終為 1
標準化是分析大數據時最重要的過程之一,因為它們允許將不同的變量組合在一起。 標準化值幾乎總是用於演算法的設計和執行
機率分佈
集中趨勢統計
均值 MEAN ( 𝜇 )
求平均
中位數 ( MEDIAN )
數據裡中間的數字,若9個數字就取第5個,10個就取5和6的均值
眾數 ( MODE )
數據裡出現最多次的數字
若有兩個數字出現一樣多次,則該數據集稱為雙峰,兩個以上稱為多峰
推論統計學
例如,針對 500 名籃球運動員的研究顯示,NBA 中 99%的籃球運動員都高於 1.95 米,可以推斷出 NBA 中 99%的籃球運動員都高於 1.95 米
抽樣中最重要的考慮因素之一是確保樣本是整個母體的代表性子集。否則,可能存在偏差 ( Bias )
母體
例如全世界的籃球人口
樣本
例如NBA球員
偏差
例如要統計籃球人口的身高,但樣本卻用NBA的,會造成極大偏差