CHƯƠNG 9: TƯƠNG QUAN VÀ HỒI QUY
mối liên hệ giữa 2 biến số
hồi qui tuyến tính
liên hệ giữa 2 biến định tính
ví dụ
khảo sát mối liên hệ giữa yếu tố "hút thuốc" và "viêm phế quản"
cần trả lời 2 câu hỏi
có mối liên hệ giữa yếu tố bệnh và yếu tố phơi nhiễm không?
nếu có, độ mạnh của mối liên hệ này như thế nào?
có thể sử dụng
nguy cơ tương đối RR - Relative Risk (nghiên cứu Cohort)
kiến thức cần nhớ
số đo kết hợp là số đo dùng để đo lường độ mạnh và mối liên hệ của biến số nhị giá
tỉ số chênh: OR
nguy cơ tương đối: RR
PR
HR
tỉ số chênh: OR - Odds Ratio (nghiên cứu Bệnh chứng)
tỷ lệ (proportion): là 1 phân số có tử số là 1 phần của mẫu số
tỷ số (ratio): là 1 phân số có tử số không bao gồm trong mẫu số
tỉ số bé trai/bé gái = 112/100
tỉ lệ nam/dân số = 49%
nguy cơ
là xác suất của 1 bệnh có thể xảy ra trong 1 thời gian nhất định nào đó
được thể hiện bằng tỉ lệ giữa số trường hợp mắc bệnh so với tổng số các trường hợp quan sát
số chênh (Odds)
nếu trong số 100 bệnh nhân có 10 người mắc bệnh trong 1 thời gian theo dõi, thì nguy cơ mắc bệnh (kí hiệu p) là:
p = 10/100 = 0.1
được thể hiện bằng tỉ số giữa tỉ lệ xảy ra sự kiện đó so với tỉ lệ không xảy ra sự kiện đó
nếu trong số 100 bệnh nhân có 10 người mắc bệnh trong 1 thời gian theo dõi, thì odds được tính là:
odds = 0.1/0.9 = 0.11
giữa nguy cơ mắc bệnh ở nhóm tiếp xúc phơi nhiễm so với nguy cơ mắc bệnh ở nhóm chưa phơi nhiễm
chỉ sử dụng với nghiên cứu đoàn hệ
phải thực hiện từ thời điểm đầu tiên khi cả 2 đối tượng khi chưa mắc bệnh
tỷ số số chênh có bệnh trên không bệnh ở nhóm phơi nhiễm so với số chênh có bệnh trên không bệnh ở nhóm không phơi nhiễm
sử dụng trong nghiên cứu thiết kế bệnh chứng (case control studies)
VD: chọn 100 người bị UT phổi trong bệnh viện ung bướu và 100 người không mắc bệnh UT phổi ở môi tường ngoài
nói lên nguy cơ mắc bệnh tăng hay giảm hoặc không tăng không giảm
chỉ là ước số của RR trong trường hợp tỷ lệ bệnh (kết cục) trong quần thể thấp hơn 10%; nhưng sự diễn dịch của OR không dễ hiểu
liên hệ giữa 1 biến định tính và 1 biến định lượng
dùng kết quả của kiểm định t
liên hệ giữa 2 biến định lượng
ví dụ
điểm chất lượng cuộc sống sau chấn thương có liên quan đến tuổi không?
biểu đồ chấm điểm (scatter)
graphs/scatter
association: mối liên hệ
simple
mô tả bằng biểu đồ
quan sát: hình dạng, chiều và độ mạnh của mối liên hệ
hình dạng
chiều
độ mạnh tương quan
quan sát có outliers không?
mối liên hệ có thể mô tả bằng đường thẳng? hay đường cong?
thuận, nghịch, nằm ngang
mức độ mà các điểm tuân theo hình dạng được giả định
hệ số tương quan
hệ số tương quan Pearson: r (cho biết mức độ tương quan giữa 2 biến định lượng)
tính chất
hệ số tương quan luôn luôn nằm trong đoạn từ -1 đến 1
cho biết độ mạnh của tương quan
hệ số tương quan r dương chứng tỏ 2 biến số là đồng biến
hệ số tương quan là r âm chứng tỏ 2 biến số là nghịch biến
nếu r = 0, không có mối liên hệ tuyến tính giữa 2 biến số
lưu ý
hệ số tương quan chỉ áp dụng cho mối quan hệ tuyến tính
bị ảnh hưởng nhiều bởi outliers
biện luận độ mạnh của tương quan giữa x và y theo r:
0.00 - .19: tương quan "rất yếu"
0.20 - .39: tương quan "yếu"
0.40 - .59: tương quan "trung bình"
0.60 - .79: tương quan "mạnh"
0.80 - 1.0: tương quan "rất mạnh"
hệ số xác định
r^2: đo lường tỉ lệ biến thiên của y được lý giải bằng sự biến thiên của x
có giá trị từ 0 đến 1
r^2 = 1: lý tưởng, đường hồi quy trừng với các điểm số liệu
r^2 = 0: không có mối liên hệ giữa x và y
định nghĩa
phương pháp thống kê chuyên biệt
tìm ra đồ thị thích hợp nhất giải thích cho sự thay đổi của 1 biến (phụ thuộc) dựa vào 1 hay nhiều biến (độc lập) khác
mục đích
mô tả
chọn ra mô hình (phương trình) phù hợp cho 1 biến phụ thuộc và 1 hay nhiều biến độc lập
dự đoán
ước lượng các giá trị của biến phụ thuộc dựa vào các giá trị biết trước của biến độc lập
hồi quy tuyến tính đơn
thể hiện mối liên hệ cho 2 biến định lượng
phương trình có dạng: y = a + bx
y: biến phụ thuộc
x: biến độc lập
a: điểm chặn
b: hệ số hồi quy
độ dốc của đường thẳng hồi quy
cùng dấu với r
ý nghĩa: nếu biến x tăng 1 đơn vị thì:
biến y sẽ tăng b đơn vị nếu b > 0
biến y sẽ giảm b đơn vị nếu b < 0
b = r * Sy/Sx
a = y(tb) - b*x(tb)
Sy: độ lệch chuẩn của y
Sx: độ lệch chuẩn của x
đánh giá mối tương quan
phương pháp bình phương tối thiểu sẽ cho chúng ta đường hồi quy kể cả khi không có mối quan hệ tuyến tính giữa x và y
chúng ta cần phải đánh giá xem có thật sự có mối tương quan tuyến tính giữa 2 biến định lượng không?
kiểm định giả thuyết cho r
t = r * căn((n - 2)/(1 -r^2))
đối chiếu t tính được với bảng t, ở độ tự do = n - 2 nếu n < 30
Ví dụ
Điểm chất lượng cuộc sống sau chấn thương có liên quan đến tuổi hay không?
analyze/ regression/ linear
sử dụng đường hồi quy
nếu mô hình hồi quy là mô tả tốt cho mối quan hệ giữa 2 biến chúng ta có thể dùng mô hình đó để dự đoán giá trị của y
ước lượng khoảng giá trị của y với 1 giá trị của x
ước lượng trung bình y với mỗi giá trị của x