CHƯƠNG 3
THỐNG KÊ MÔ TẢ: CÁC ĐẠI LƯỢNG SỐ
ĐO LƯỜNG VỊ TRÍ
TRUNG BÌNH
ĐO LƯỜNG ĐỘ PHÂN TÁN
TRUNG VỊ
MODE
PHÂN VỊ
TỨ PHÂN VỊ
đo lường vị trí trung tâm
- gồm: trung bình mẫu, trung bình tổng thể
Nhược điểm: Bị ảnh hưởng bởi những giá trị bất thường trong dữ liệu => Lúc đó sẽ phản ánh sai dữ liệu
- Bất thường là những dữ liệu đặc biệt lớn, đặc biệt bé so với những đám đông còn lại
Là giá trị đứng ở vị trí giữa khi các gtri của dữ liệu được sắp xếp theo thứ tự tăng dần
- trung vị với số lượng quan sát lẻ
- trung vị với số lượng quan sát chẵn
Diễn giải trung vị giả sử trung vị =19
- phân nửa (50%) số quan sát có giá trị < or = 19
- phân nửa (50%) số quan sát có giá trị > or = 19
mốt của tập dữ liệu là giá trị có tần số xuất hiện lớn nhất
nếu dữ liệu có 2 hay nhiều mốt => hàm mốt trong excel sẽ chỉ xác định được 1 mốt
- thường sẽ lấy giá trị nhỏ nhất
- dầu hiệu: thường trên đầu con số mốt đó sẽ có kí hiệu
b1: dữ liệu phải được sắp xếp theo thứ tự tăng dần
b2: tính i = vị trí của phân vị thứ p
i là số nguyên -> pvi thứ p là trung bình của i và (i+1)
i k là số nguyên -> lm tròn i lên -> phân vị thứ p là vị trí i
Diễn giải mốt Đa số (phần lớn) các quan sát có giá trị là mốt = 8
Diễn giải phân vị
- Có ít nhất p% các quan sát có giá trị < or = giá trị này
- Có ít nhất (100 - p)% các quan sát có giá trị > or = giá trị này
Để chia tập dữ liệu thành 4 phần, mỗi phần chứa 25% số giá trị quan sát => có 3 phân vị
- Tứ phân vị thứ nhất = phân vị thứ 25
- Tứ phân vị thứ 2 = phân vị thứ 50 = trung vị
- Tứ phân vị thứ 3 = phân vị thứ 75
Diễn giải
- Tứ phân vị thứ 2: 25% số quan sát có giá trị > or = tứ phân vị
- Tứ phân vị thứ 3:là giá trị mà ít nhất 75% số quan sát có giá trị < or = tứ phân vị
Khoảng biến thiên
Độ trải giữa
Phương sai
Độ lệch chuẩn
Hệ số biến thiên
Là chênh lệch giữa giá trị lớn nhất và giá trị nhỏ nhất
- Khoảng biến thiên càng nhỏ dữ liệu càng tập trung, đồng đều
- Dữ liệu được xếp tăng dần
- Bị ảnh hưởng bởi giá trị ngoại lệ
- Là chênh lệch giữa tứ phân vị T3 và tứ phân vị T1
- Là khoảng biến thiên của 50% dữ liệu ở giữa của dãy số
- Không bị ảnh hưởng bởi giá trị ngoại lệ
- Là một đại lượng đo lường phân tán sử dụng tất cả dữ liệu để tính toán
- Là trung bình của bình phương cái chênh lệch giữa mỗi giá trị dữ liệu
- Không có đơn vị
Là căn bậc 2 của phương sai
Là chỉ số cho biết độ lệch chuẩn lớn bằng bao nhiêu lần so với trung bình
- Nếu hệ số biến thiên khoảng trên dưới 10% => độ phân tán đồng đều
CÁC ĐẠI LƯỢNG ĐO LƯỜNG HÌNH DÁNG, PHÂN PHỐI, VỊ TRÍ TƯƠNG ĐỐI VÀ PHÁT HIỆN CÁC GIÁ TRỊ BẤT THƯỜNG
PHÂN TÍCH DỮ LIỆU THĂM DÒ
CÁC ĐẠI LƯỢNG ĐO LƯỜNG MỐI LIÊN HỆ GIỮA 2 BIẾN
TRUNG BÌNH CÓ TRỌNG SỐ VÀ LÀM VIỆC VỚI DỮ LIỆU ĐÃ ĐƯỢC PHÂN NHÓM (chưa học)
Hình dáng phân phối: Hệ số bất đối xứng
Giá trị chuẩn hóa z: Muốn ss đc phải đưa về gtri chuẩn hóa z vì mỗi biến có đơn vị tính khác nhau
Quy tắc Chebyshew (chưa học)
Quy tắc thực nghiệm
Phát hiện giá trị bất thường
- Là đại lượng số
-> để nói lên hình dáng lệch trái or phải or đối xứng - Có CT tính
- Lệch tría vừa phải
- Đối xứng
- Lệch phải vừa phải
- lệch phải nhiều
- Là thước đo tương đối cho biết khoảng cách từ giá trị cụ thể x(i) đến trung bình
- chênh lệch giữa x(i) với x (trb) bằng bao nhiêu lần so với độ lệch chẩn
Là công cụ phát hiện giá trị bất thường
- Tổng thể có phân phối bất kỳ => k quan tâm lệch trái, phải, đối xứng
- z ở đây k phải gtri chuẩn hóa mà là một gtri bất kỳ > 1
Trog tập dự có gtri nào lớn or nhỏ bất thg k , nếu có thì phải giải quyết
- Phân tích dữ liệu thăm dò
- Tính toán số học đơn giản : tính Q(1), Q(2), Q(3)
- Xác định bộ tóm tắt 5 số
- Sau đó vẽ biểu dồ hộp để tóm tắt dữ liệu
- Biểu đồ hộp tóm tắt dữ liệu bằng hình vẽ dựa trên bộ tóm tắt 5 số
- Biểu đồ hợp là 1 cách phát hiện gtri bất thường
- gtri bất thg < giới hạn dưới < gtri bthg < giới hạn trên < gtri bất thg
- Có thể xác định xem lệch như thế nào
- Nếu phần bên phải nhiều hơn: lệch phải
- Nếu phần bên trái nhiều hơn: lệch trái
- Hình hộp càng ngắn càng đồng đều, càng dài càng phân tán
Đại lượng mô tả mqh giữa 2 biến: hiệp phương sai & hệ số tương quan
HIỆP PHƯƠNG SAI
Đo lường mlh tuyến tính giữa 2 biến
- 1 gtri > 0 thể hiện mlh thuận
- 1 gtri < 0 thể hiện mlh nghịch
HỆ SỐ TƯƠNG QUAN
Đo lường qmlh tuyến tính (k nhất thiết có mlh nhân quả)
- -1 <= hệ số tương quan <= 1
- càng gần -1 : tương quan tuyến tính nghịch càng chặt chẽ
- càng gần +1 : tương quan tuyến tính thuận càng chặt chẽ
- càng gần 0 : tương quan tuyến tính càng yếu
trung bình có trọng số
trung bình cho dữ liệu phân nhóm
phương sai cho dữ liệu phân nhóm
độ lệch chuẩn cho dữ liệu phân nhóm