CHƯƠNG 3
THỐNG KÊ MÔ TẢ: CÁC ĐẠI LƯỢNG SỐ

ĐO LƯỜNG VỊ TRÍ

TRUNG BÌNH

ĐO LƯỜNG ĐỘ PHÂN TÁN

TRUNG VỊ

MODE

PHÂN VỊ

TỨ PHÂN VỊ

đo lường vị trí trung tâm

  • gồm: trung bình mẫu, trung bình tổng thể

Nhược điểm: Bị ảnh hưởng bởi những giá trị bất thường trong dữ liệu => Lúc đó sẽ phản ánh sai dữ liệu

  • Bất thường là những dữ liệu đặc biệt lớn, đặc biệt bé so với những đám đông còn lại

giá trị đứng ở vị trí giữa khi các gtri của dữ liệu được sắp xếp theo thứ tự tăng dần

  • trung vị với số lượng quan sát lẻ
  • trung vị với số lượng quan sát chẵn

Diễn giải trung vị giả sử trung vị =19

  • phân nửa (50%) số quan sát có giá trị < or = 19
  • phân nửa (50%) số quan sát có giá trị > or = 19

mốt của tập dữ liệu là giá trị có tần số xuất hiện lớn nhất

nếu dữ liệu có 2 hay nhiều mốt => hàm mốt trong excel sẽ chỉ xác định được 1 mốt

  • thường sẽ lấy giá trị nhỏ nhất
  • dầu hiệu: thường trên đầu con số mốt đó sẽ có kí hiệu

b1: dữ liệu phải được sắp xếp theo thứ tự tăng dần
b2: tính i = vị trí của phân vị thứ p
i là số nguyên -> pvi thứ p là trung bình của i và (i+1)
i k là số nguyên -> lm tròn i lên -> phân vị thứ p là vị trí i

Diễn giải mốt Đa số (phần lớn) các quan sát có giá trị là mốt = 8

Diễn giải phân vị

  • Có ít nhất p% các quan sát có giá trị < or = giá trị này
  • Có ít nhất (100 - p)% các quan sát có giá trị > or = giá trị này

Để chia tập dữ liệu thành 4 phần, mỗi phần chứa 25% số giá trị quan sát => có 3 phân vị

  • Tứ phân vị thứ nhất = phân vị thứ 25
  • Tứ phân vị thứ 2 = phân vị thứ 50 = trung vị
  • Tứ phân vị thứ 3 = phân vị thứ 75

Diễn giải

  • Tứ phân vị thứ 2: 25% số quan sát có giá trị > or = tứ phân vị
  • Tứ phân vị thứ 3:là giá trị mà ít nhất 75% số quan sát có giá trị < or = tứ phân vị

Khoảng biến thiên

Độ trải giữa

Phương sai

Độ lệch chuẩn

Hệ số biến thiên

Là chênh lệch giữa giá trị lớn nhất và giá trị nhỏ nhất

  • Khoảng biến thiên càng nhỏ dữ liệu càng tập trung, đồng đều
  • Dữ liệu được xếp tăng dần
  • Bị ảnh hưởng bởi giá trị ngoại lệ
  • Là chênh lệch giữa tứ phân vị T3 và tứ phân vị T1
  • Là khoảng biến thiên của 50% dữ liệu ở giữa của dãy số
  • Không bị ảnh hưởng bởi giá trị ngoại lệ
  • Là một đại lượng đo lường phân tán sử dụng tất cả dữ liệu để tính toán
  • Là trung bình của bình phương cái chênh lệch giữa mỗi giá trị dữ liệu
  • Không có đơn vị

Là căn bậc 2 của phương sai

Là chỉ số cho biết độ lệch chuẩn lớn bằng bao nhiêu lần so với trung bình

  • Nếu hệ số biến thiên khoảng trên dưới 10% => độ phân tán đồng đều

CÁC ĐẠI LƯỢNG ĐO LƯỜNG HÌNH DÁNG, PHÂN PHỐI, VỊ TRÍ TƯƠNG ĐỐI VÀ PHÁT HIỆN CÁC GIÁ TRỊ BẤT THƯỜNG

PHÂN TÍCH DỮ LIỆU THĂM DÒ

CÁC ĐẠI LƯỢNG ĐO LƯỜNG MỐI LIÊN HỆ GIỮA 2 BIẾN

TRUNG BÌNH CÓ TRỌNG SỐ VÀ LÀM VIỆC VỚI DỮ LIỆU ĐÃ ĐƯỢC PHÂN NHÓM (chưa học)

Hình dáng phân phối: Hệ số bất đối xứng

Giá trị chuẩn hóa z: Muốn ss đc phải đưa về gtri chuẩn hóa z vì mỗi biến có đơn vị tính khác nhau

Quy tắc Chebyshew (chưa học)

Quy tắc thực nghiệm

Phát hiện giá trị bất thường

  • Là đại lượng số
    -> để nói lên hình dáng lệch trái or phải or đối xứng
  • Có CT tính
  • Lệch tría vừa phải
  • Đối xứng
  • Lệch phải vừa phải
  • lệch phải nhiều
  • Là thước đo tương đối cho biết khoảng cách từ giá trị cụ thể x(i) đến trung bình
  • chênh lệch giữa x(i) với x (trb) bằng bao nhiêu lần so với độ lệch chẩn

Là công cụ phát hiện giá trị bất thường

  • Tổng thể có phân phối bất kỳ => k quan tâm lệch trái, phải, đối xứng
  • z ở đây k phải gtri chuẩn hóa mà là một gtri bất kỳ > 1

Trog tập dự có gtri nào lớn or nhỏ bất thg k , nếu có thì phải giải quyết

  • Phân tích dữ liệu thăm dò
    • Tính toán số học đơn giản : tính Q(1), Q(2), Q(3)
  • Xác định bộ tóm tắt 5 số
  • Sau đó vẽ biểu dồ hộp để tóm tắt dữ liệu
  • Biểu đồ hộp tóm tắt dữ liệu bằng hình vẽ dựa trên bộ tóm tắt 5 số
  • Biểu đồ hợp là 1 cách phát hiện gtri bất thường
    • gtri bất thg < giới hạn dưới < gtri bthg < giới hạn trên < gtri bất thg
  • Có thể xác định xem lệch như thế nào
    • Nếu phần bên phải nhiều hơn: lệch phải
    • Nếu phần bên trái nhiều hơn: lệch trái
  • Hình hộp càng ngắn càng đồng đều, càng dài càng phân tán

Đại lượng mô tả mqh giữa 2 biến: hiệp phương sai & hệ số tương quan

HIỆP PHƯƠNG SAI

Đo lường mlh tuyến tính giữa 2 biến

  • 1 gtri > 0 thể hiện mlh thuận
  • 1 gtri < 0 thể hiện mlh nghịch

HỆ SỐ TƯƠNG QUAN

Đo lường qmlh tuyến tính (k nhất thiết có mlh nhân quả)

  • -1 <= hệ số tương quan <= 1
  • càng gần -1 : tương quan tuyến tính nghịch càng chặt chẽ
  • càng gần +1 : tương quan tuyến tính thuận càng chặt chẽ
  • càng gần 0 : tương quan tuyến tính càng yếu

trung bình có trọng số

trung bình cho dữ liệu phân nhóm

phương sai cho dữ liệu phân nhóm

độ lệch chuẩn cho dữ liệu phân nhóm