TƯƠNG QUAN TUYẾN TÍNH (Linear correlation) doc

8 756 0
TƯƠNG QUAN TUYẾN TÍNH (Linear correlation) doc

Đang tải... (xem toàn văn)

Thông tin tài liệu

TƯƠNG QUAN TUYẾN TÍNH (Linear correlation) I. GIỚI THIỆU Phân tích tương quan (Correlation) là kỹ thuật rất thường dùng trong thống kê y học nhằm khảo sát mối liên quan giữa 2 biến số đo trên cùng các đối tượng thông qua hệ số tương quan (correlation coefficient). Có nhiều loại hệ số tương quan (HSTQ) nhưng bài này chỉ trình bày hệ số tương quan r của Pearson (Pearson r correlation coefficient). Pearson r là số đo mối liên quan tuyến tính của 2 biến số, và được sử dụng khi 2 biến số thuộc thang đo lường tỉ số hoặc thang khoảng. II. CÁCH TÍNH và ĐẶC ĐIỂM CỦA PEARSON r Để tính được Pearson r, cần phải đo dược 2 biến số, x và y – thí dụ, chiều cao (x) và cân nặng (y). Các số đo này phải được lấy thành cặp đối với từng thành viên của 1 mẫu ngẫu nhiên đơn giản rút ra từ 1 dân số. Công thức tính: 2 2 xy r x y     ĐẶC ĐIỂM: + Giá trị của Pearson r nằm trong khoảng –1 đến +1. Một HSTQ bằng –1 cho thấy 2 biến số có mối liên quan nghịch chiều tuyệt đối (perfect negative relationship) (liên quan nghịch chiều: x tăng, y giảm; x giảm, y tăng). Một HSTQ bằng +1 cho thấy 2 biến số có mối liên quan thuận chiều tuyệt đối. (perfect positive relationship) (liên quan thuận chiều : x tăng, y tăng; x giảm, y giảm) Một HSTQ bằng 0 cho thấy không có mối liên quan giữa 2 biến số. + Giá trị tính được của Pearson r không phụ thuộc vào các đơn vị của x và y. + Giá trị của Pearson r bị ảnh hưởng rất nhiều bởi giá trị cực (giống như ĐLC). + Giả định cơ bản của Pearson r là mối liên quan giữa 2 biến số là mối liên quan tuyến tính. Do vậy, việc dựng các biểu đồ phân tán (scatter diagram) với x ở trục ngang và y ở trục dọc của đồ thị sẽ giúp đánh giá mối liên quan giữa 2 biến số. Nếu các điểm (trên đồ thị) nằm sát 1 đường thẳng hướng chéo lên trên hoặc chéo xuống dưới thì 2 biến số được xem là có mối liên quan tuyến tính, và việc sử dụng Pearson r là hoàn toàn thích hợp. A B C D E F Hình 1. Scatter plot và correlation. A: r = +1; B: r = 0,7; C: r = –0,9; D: r =–0,4; E: r = 0,0; F: r = 0,0 III. KIỂM ĐỊNH GIẢ THUYẾT VỀ PEARSON r Pearson r là số thống kê tính được từ 1 mẫu rút ra từ 1 dân số có hệ số tương quan ρ (đọc là rho). Khi tính r, chúng ta quan tâm đến việc tìm hiểu xem ρ ra sao, và điều này được thực hiện qua phép kiểm định gỉa thuyết về ρ. H 0 : ρ = 0 ρ ≥ 0 ρ ≤ 0 H A : ρ ≠ 0 ρ < 0 ρ > 0 Dùng số kiểm định tỉ số t (t ratio) khi ρ trong H 0 có số không 2 2 1 n t r r    Dùng số kiểm định z r (Fisher Z transformation) 1 1 ln 2 1 r r z r    khi ρ trong H 0 là một số bất kỳ không phải bằng không Thí dụ minh họa: Tìm và kiểm định mối liên quan giữa thời gian nằm việc (Length of Stay –LOS) và viện phí (Total charges) trên nhóm b/n bị phù phổi và suy hô hấp (DRG 087). B/n LOS (x) Vphí (USD) (y) B/n LOS (x) Vphí (USD) (y) 1 1 6,507 18 4 9,389 2 2 8,771 19 5 9,660 3 2 6,971 20 5 15,106 4 2 7,405 21 5 16,289 5 3 11,290 22 5 8,285 6 3 8,944 23 6 12,893 7 3 11,133 24 6 14,840 8 3 4,304 25 7 17,375 9 3 6,702 26 7 16,925 10 3 12,143 27 8 16,892 11 3 5,867 28 8 12,462 12 3 11,061 29 8 16,955 13 3 9,494 30 8 21,754 14 4 10,920 31 9 20,830 15 4 14,917 32 10 23,915 16 4 8,222 33 10 27,245 17 4 10,566 34 12 41,410 1/ Số liệu: (như trên) 2/ Giả định: 2 biến số LOS và viện phí cùng biến thiên trong 1 phân phối hợp có dạng phân phối bình thường (gọi là PPBT nhị biến – bivariate normal distribution); mẫu ngẫu nhiên. 3/ Giả thuyết: H 0 : ρ = 0 H A : ρ ≠ 0 α = 0,05 4/ Số TKKĐ: 2 2 1 n t r r    5/ Phân phối của số TKKĐ: phân phối t với 32 df khi H 0 đúng và các giả định được thỏa. 6/ Qui tắc quyết định: giá trị tới hạn của t ở 32 df đối với test 1 đuôi là 0,287. Nếu t tính được lớn hơn 0,287 thì từ chối H 0 . 7/ Tính số TKKĐ: với r = 0,88 2 2 34 2 0,88 0,88(16,3) 14,3 1 1 0.88 n t r r         8/ Quyết định thống kê: Từ chối H 0 vì số TKKĐ bằng 14,3 (> 0,287). 9/ Kết luận: Trong dân số b/n phù phổi và suy hô hấp (DRG 087), LOS và viện phí có mối tương quan tuyến tính với nhau. p = 0,0001. IV. CÁC GHI NHỚ QUAN TRỌNG + Hai biến số có tương quan với nhau không nhất thiết phải có mối liên hệ nhân- quả (không thể kết luận rằng LOS làm tăng viện phí.) + Cỡ mẫu đóng vai trò quan trọng trong tính toán pearson r. r nhỏ có thể có ý nghĩa thống kê khi cỡ mẫu lớn, trong khi r lớn có thể không có ý nghĩa thống kê khi cỡ mẫu nhỏ. + Hệ số quyết định (coefficient of determination) r 2 là một giá trị quan trọng. r 2 cho biết bao nhiêu phần thay đổi (biến thiên) của Y được qui là do X, và ngược lại. (Trong thí dụ minh họa chúng ta có r 2 =0,774 (0,88) 2 . Có thể kết luận là 77,4% các biến thiên trong viện phí của DRG 087 được giải thích là do LOS của b/n). Hệ số quyết định giúp đánh giá tốt hơn độ mạnh của mối liên hệ giữa 2 biến số. . TƯƠNG QUAN TUYẾN TÍNH (Linear correlation) I. GIỚI THIỆU Phân tích tương quan (Correlation) là kỹ thuật rất thường dùng trong thống kê y học nhằm khảo sát mối liên quan giữa. suy hô hấp (DRG 087), LOS và viện phí có mối tương quan tuyến tính với nhau. p = 0,0001. IV. CÁC GHI NHỚ QUAN TRỌNG + Hai biến số có tương quan với nhau không nhất thiết phải có mối liên. trên cùng các đối tượng thông qua hệ số tương quan (correlation coefficient). Có nhiều loại hệ số tương quan (HSTQ) nhưng bài này chỉ trình bày hệ số tương quan r của Pearson (Pearson r correlation

Ngày đăng: 26/07/2014, 16:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan