Bài giảng hồi quy SPSS

Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng HỒI QUY LOGISTICS Mục tiêu: Sau học xong này, học viên có khả năng: Trình bày nguyên lý hồi quy logistic Trình bày bước xây dựng mô hình hồi quy logistic Kiểm soát vấn đề thực hồi quy logistic Thực phân tích SPSS phiên giải kết 1.1 Giới thiệu Nguy yếu tố nguy Trong dịch tễ học, thường quan tâm đánh giá “cơ hội” người bị phơi nhiễm với yếu tố dẫn đến bệnh Dễ hiểu hơn, số đo lường dịch tễ học việc đánh giá xác suất Đó xác suất người bị bệnh tiếp xúc với phơi nhiễm cụ thể Đo lường gọi nguy Vậy, nguy xác suất mắc bệnh người tiếp xúc với phơi nhiễm Yếu tố phơi nhiễm gọi yếu tố nguy Như vậy, giả sử có n đối tượng có tiếp xúc với phơi nhiễm, đó, có e đối tượng bị bệnh, gọi nguy bị bệnh tiếp xúc với phơi nhiễm r = e/n Xác định yếu tố nguy Trong nghiên cứu dịch tễ học, thường quan tâm đến việc xác định yếu tố nguy có liên quan đến tình trạng sức khỏe quan tâm bệnh tật tử vong Nếu muốn phát triển mô hình thống kê để biểu diễn mối liên quan yếu tố nguy bệnh, thông thường xem yếu tố nguy biến x bệnh – kết quan tâm – biến y mô hình hồi quy Khi đó, hiểu nôm na biến x nguyên nhân biến y, biến kết Trong nhiều trường hợp, kết quan tâm có bệnh bệnh, nói cách khác, có giá trị Biến y gọi biến nhị phân Xem xét ví dụ: Yếu tố nguy x có nhiều mức độ, x1, x2, …, xl Tương ứng với mức độ yếu tố nguy cơ, có n1, n2, …, nl đối tượng phơi nhiễm Trong đó, tương tự có e1, e2, …, el đối tượng bị bệnh Khi đó, có tỷ lệ bị bệnh đối tượng bị phơi nhiễm tương ứng mức độ yếu tố nguy cơ, tỷ lệ gọi nguy theo khái niệm nêu Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Bảng Các mức độ yếu tố nguy bệnh Các mức độ Số đối tượng bị Tổng số đối tượng yếu tố nguy bệnh Tỷ lệ bị bệnh x1 e1 n1 R1 = e1/n1 x2 e2 n2 R2 = e2/n2 … … … … xl el n3 rl = el/nl Ví dụ: Bảng kết nghiên cứu nguy nhiễm Helicobacter pylori McDonagh cộng (1997) Hình mô tả thay đổi tỷ lệ nhiễm theo mức độ khác yếu tố nguy Nhìn chung, nguy nhiễm H pylori dường gia tăng theo nhóm nguy khác Chúng ta nghĩ đến việc định lượng mối liên quan mô hình hồi quy Bảng Tỷ lệ nhiễm H pylori theo nhóm nghề nghiệp Nghề nghiệp Số lượng Tỷ lệ bị nhiễm (xếp nhóm)* Số đối tượng bị Tổng số đối tượng nhiễm H pylori H pylori I Trí thức – chuyên gia 10 38 0.26 II Trí thức – trung bình 40 86 0.46 – 36 57 0.63 IIIb Lao động tay chân – có kỹ 226 300 0.75 IV Lao động tay chân – trung bình 83 108 0.77 V Lao động tay chân – không kỹ 60 73 0.82 IIIa Trí thức chuyên môn Ghi chú: * khái niệm dịch từ nguyên tiếng Anh, tương ứng là: nonmanual, professional; non-manual, intermediate; non-manual, skilled; manual, skilled; manual, partially skilled; manual, unskilled Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Tỷ lệ nhiễm H pylori Hình Tỷ lệ nhiễm H pylori theo nhóm nghề nghiệp Hồi quy tuyến tính: vấn đề Trong chương trước, bàn luận mô hình hồi quy tuyến tính (linear regression ) việc xem xét mối quan hệ biến phụ thuộc dạng liên tục biến độc lập Câu hỏi đặt liệu mô hình hồi quy tuyến tính có phù hợp biến phụ thuộc dạng biến liên tục Hãy xem ví dụ tỷ lệ tử vong theo tuổi nghiên cứu SHHS (Scottish Heart Health Study) Bảng 0.1 Tỷ lệ tử vong theo tuổi Tuổi Số lượng Tử vong Tổng số đối tượng Tỷ lệ vong 40 251 0.4 41 12 317 3.8 42 13 309 4.2 43 285 2.1 44 10 236 4.2 45 254 3.1 46 10 277 3.6 47 12 278 4.3 48 10 285 3.5 49 14 276 5.1 tử Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng 50 15 274 5.5 51 14 296 4.7 52 19 305 6.2 53 36 341 10.6 54 26 305 8.5 55 21 276 7.6 56 28 325 8.6 57 41 302 13.6 58 38 260 14.6 59 49 302 16.2 Có thể nhận thấy rằng, nhìn chung, nguy tử vong gia tăng theo tuổi có vài nhóm tuổi có nguy cao thấp Hình 0.1 Tỷ lệ tử vong theo tuổi Mối liên quan phơi nhiễm kết không phù hợp với liên quan tuyến tính Tỷ lệ (trong có nguy – dạng đặc biệt tỷ lệ) có giá trị nằm khoảng [0,1] Như quan sát hình 3.1, giá trị nằm khoảng này, chúng không liên quan với theo mô hình tuyến tính Điều giá trị có khuynh hướng “chen chúc” để nằm gọn khoảng giới hạn [0,1] Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Nếu sử dụng mô hình hồi quy tuyến tính, giá trị ước lượng nằm giá trị ý nghĩa Xem ví dụ bảng 3.1, mô hình hồi quy tuyến tính có dạng sau: Nguy tử vong = -25.394 + 0.654 x tuổi Theo tính toán, mô hình có ý nghĩa thống kê giải thích 78% thay đổi nguy tử vong Điều cho thấy việc sử dụng mô hình hồi quy tuyến tính để giải thích mối liên quan phù hợp Tuy nhiên, giả định sử dụng mô hình để ước lượng nguy tử vong người 39 tuổi, nguy tính là: Nguy tử vong = -25.394 + 0.654 x 39 = -0.239 Như vậy, nguy tính có giá trị âm Điều không hợp lý Như vậy, mô hình hồi quy tuyến tính không phù hợp việc mô tả mối liên quan phơi nhiễm bệnh trường hợp Sai số phân phối chuẩn Mô hình hồi quy tuyến tính có dạng: y = α + βx + ε, ε sai số Một lưu ý hồi quy tuyến tính sai số phải có phân phối chuẩn Tuy nhiên, biến y trường hợp (trường hợp biến kết biến nhị phân) phân phối chuẩn mà phân phối nhị thức (binomial) Như vậy, giả định không phù hợp mô hình hồi quy tuyến tính phương pháp phù hợp để mô tả mối quan hệ biến phụ thuộc dạng phân loại nhiều biến độc lập khác 1.2 Nguyên lý khái niệm Về mặt nguyên tắc, mô hình hồi quy logistic có dạng tương tự mô hình hồi quy tuyến tính, nhiên, mô hình sử dụng phép biến đổi logit để khắc phục điểm chưa phù hợp sử dụng mô hình hồi quy tuyến tính Khi biến đầu quan tâm có hai giá trị - ví dụ có không, mô hình hồi quy tuyến tính không phù hợp đó, đo lường sử dụng tỷ lệ (hoặc nguy cơ) Giả sử phân tích mối liên quan chủng ngừa vaccine A (phơi nhiễm) bệnh B thông qua xem xét tỷ lệ có chủng ngừa vaccine nhóm có bệnh bệnh Một cách đơn giản, bảng x xây dựng Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Bảng 0.2 Minh họa bảng x mô tả mối liên quan phơi nhiễm bệnh Bệnh Phơi nhiễm Tổng Có Không Có bệnh a b a+b Không bệnh c d c+d Tổng a+c b+d N Trong dịch tễ học, tính số chênh (odds) nhóm từ tính tỷ số số chênh (Odds ratio - OR) Thông thường, để tính nhanh, người ta tính OR “tích chéo” Nghĩa là, odds nhóm bệnh tính a/b odds nhóm chứng c/d tỷ số số chênh (OR) tính: Tỷ số số chênh (OR) = Odds nhóm bệnh/ Odds nhóm không bệnh = (a/b)/(c/d) = ad/ bc Tuy nhiên, odds tính dựa tỷ lệ Ví dụ odds nhóm bệnh tính tỷ lệ có chủng ngừa nhóm bệnh so với tỷ lệ không chủng ngừa nhóm bệnh, tức là: Odds nhóm bệnh = (a/a+b)/(b/a+b) Gọi p tỷ lệ có chủng ngừa nhóm bệnh, công thức trở thành Odds = p/(1 – p) Logit Chúng ta thấy p có giá trị khoảng [0,1] Với Odds = p/(1 - p), miền giá trị Odds nằm khoảng [0, +α) Khi đó: ln(Odds) = ln[p/(1 - p)] có miền giá trị (-α,+α) Biến đổi ln(Odds) gọi logit Nói cách khác, logit=ln(Odds) Với cách biến đổi này, áp dụng mô hình hồi quy tuyến tính sau: logit = ln(Odds) = ln[p/(1 - p)] = α + βx + ε Phiên giải mô hình Vì mô hình hồi quy tuyến tính có giả định ε tuân theo quy luật phân phối chuẩn giá trị kỳ vọng logit cho giá trị x α + βx Khi đó: Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Khi đó, Odds x = là: Odds x = là: Vậy, OR tính sau : Điều có nghĩa lũy thừa số e hệ số biến số độc lập x OR Như vậy, việc sử dụng biến đổi logit trên, xây dựng mô hình hồi quy logistic – dựa nguyên lý hồi quy tuyến tính – tính toán OR – đo lường dịch tễ quan trọng việc xác định mối liên quan phơi nhiễm kết 1.3 Xây dựng mô hình hồi quy logistic SPSS Trong phần này, sử dụng số liệu Chilumba để minh họa xây dựng mô hình hồi quy logistic SPSS Bộ số liệu Chilumba.sav bao gồm số liệu nghiên cứu bệnh chứng tiến hành thành phố Chilumba nhằm tìm hiểu việc chủng ngừa BCG có bảo vệ bệnh phong hay không Nghiên cứu tiến hành 1260 đối tượng bao gồm 252 trường hợp mắc bệnh phong 1008 trường hợp chứng không mắc bệnh phong Bảng 0.3 Bảng mã số liệu số liệu Chilumba Tên biến Giải thích Mã giá trị biến maso Mã cá nhân Mã số cá nhân benh Loại đối tượng = bệnh, = không bệnh nhtuoi Nhóm tuổi = 1/14 2=15/24 = 25/34 = 35-44 = 45+ gioi Giới tính = nam, 1= nữ bcg Tiêm BCG = không, 1= có hocvan Học vấn (số năm học) 1= không học; 2=1-3 năm 3=4-6 năm 4= từ năm trở lên phongu Tiếp xúc với phong u = không 1= có Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng (có nhiều vi khuẩn) phongcu Tiếp xúc với phong củ (có vi khuẩn) = không 1= có Trong phần này, xem xét làm xây dựng mô hình hồi quy logistic để trả lời câu hỏi nghiên cứu dịch tễ Mô hình hồi quy sử dụng cho biến kết biến nhị phân, xem xét với loại biến độc lập khác nhau: nhị phân, thứ bậc, danh định, định lượng 1.3.1 Hồi quy logistic đơn biến Một số nguyên lý chung Tương tự phần phiên giải trên, mô hình hồi quy logistic đơn biến có dạng sau: y = logit = ln(Odds) = ln[p/(1 - p)] = α + βx + ε Trong nghiên cứu, giá trị biến độc lập phụ thuộc quy ước sau: x= không phơi nhiễm có phơi nhiễm không bệnh có bệnh Và y= Sử dụng biến đổi x = x = 1, tính OR: Nói cách khác, lũy thừa số e hệ số biến số độc lập x OR Độ lớn OR cung cấp thông tin mức độ liên quan biến số phơi nhiễm bệnh OR > 1: phơi nhiễm yếu tố nguy OR = 1: mối liên quan phơi nhiễm bệnh OR < 1: phơi nhiễm yếu tố bảo vệ Tuy nhiên, OR có từ mô hình hồi quy OR tính mẫu nghiên cứu, OR thật quần thể Như vậy, cần ước lượng OR thật để trả lời xác có hay mối liên quan phơi nhiễm bệnh Như vậy, câu hỏi đặt mối liên quan tìm thấy nghiên cứu có ý nghĩa thống kê hay không Nói cách dễ hiểu, ý nghĩa thống kê ngữ cảnh OR thật quần thể liệu OR có khác hay không Điều đòi hỏi Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng phải tính toán sai số chuẩn (standard error - SE) cho OR khoảng tin cậy OR Vì OR tỷ số nên việc tính toán khoảng tin cậy phức tạp thông qua phương pháp gián tiếp Một phương pháp phương pháp Woolf tiến hành sau: Sử dụng lnOR Sai số chuẩn lnOR a b c d Theo quy luật phân phối chuẩn, khoảng tin cậy lnOR 95% CI lnOR: lnOR ± 1.96xSE Sau tính khoảng tin cậy lnOR, tính khoảng tin cậy OR 95% CI OR : elnOR ± 1.96xSE Từ biến đổi trên, tính nhanh KTC 95% OR : OR 1.96SE 1.96SE OR x Trên thực tế, tất tính toán phần mềm phân tích thống kê hỗ trợ Chúng ta tham khảo cách phân tích SPSS sau Ví dụ SPSS Trong ví dụ nghiên cứu Chilumba, biến phụ thuộc quan tâm biến bệnh – có bệnh hay bệnh Giả định muốn xem mối liên quan việc chủng ngừa vaccine BCG bệnh phong hay không, số thống kê quan trọng để trả lời câu hỏi OR Như phân tích trên, tính toán số thông qua bảng x 2, hồi quy logistic Thực tính toán qua bảng x cách sử dụng menu Analyze  Descriptive Statistics  Crosstabs Đưa biến phụ thuộc bệnh vào Row biến độc lập chủng ngừa vào Column Lưu ý nguyên tắc bắt buộc, đưa biến số vào hàng cột tùy ý, nhiên cần hiểu rõ muốn tính toán theo mẫu số để có lựa chọn tỷ lệ xác Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Chọn Cells Vì nghiên cứu bệnh chứng muốn xem xét tỷ lệ phơi nhiễm nhóm bệnh không bệnh nên lấy phần trăm theo biến phụ thuộc (ở Row) Chọn tiếp Statistics chọn Chi-square Risk cửa sổ Kết sau: 10 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Chọn Options để chọn 95%CI, Hosmer-Lemeshow test, At last step Kết sau: Omnibus Tests of Model Coefficients Step Step Block Model Chi-square 115.041 115.041 115.041 df Sig .000 000 000 3 Model Summary Step -2 Log Cox & Snell likelihood R Square 1070.129a 091 Nagelkerke R Square 145 a Estimation terminated at iteration number because parameter estimates changed by less than 001 Hosmer and Lemeshow Test Step Chi-square 5.316 df Sig .621 Variables in the Equation Step a bcg nhtuoi hocvan Constant B -1.065 206 -.428 -.936 S.E .200 052 111 308 Wald 28.230 15.832 14.888 9.244 a Variable(s) entered on step 1: bcg, nhtuoi, hocvan 33 df 1 1 Sig .000 000 000 002 Exp(B) 345 1.229 651 392 95.0% C.I.for EXP(B) Lower Upper 233 511 1.110 1.361 524 810 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Kết kiểm định ý nghĩa mô hình cho thấy mô hình có ý nghĩa Trong bảng Variables in the Equation, có kết OR BCG 0.345, OR nhóm tuổi 1.229, OR trình độ học vấn 0.651 Kết kiểm định Wald cho thấy ý nghĩa tất biến số đưa vào mô hình Kết cho OR chủng ngừa BCG khác với kết trước (ví dụ kết phân tích đơn biến OR 0.225), hiểu điều hiệu chỉnh cho yếu tố gây nhiễu nhóm tuổi trình độ học vấn Như vậy, tác động thực chủng ngừa BCG lên bệnh phong OR = 0.345 Đưa biến số gây nhiễu vào mô hình Một vấn đề thường quan tâm cần đưa biến số vào mô hình Như đề cập trên, nên bắt đầu phân tích đơn biến, xem xét biến số gây nhiễu trù định thông qua phương pháp phân tầng để xác định biến gây nhiễu Đôi có môt hai biến số gây nhiễu có làm thay đổi ước lượng mối liên quan (ví dụ thông qua OR) Không cần thiết phải đưa tất biến số tất biến số gây nhiễu vào phân tích cuối số biến số gây nhiễu không làm thay đổi ước lượng tác động biến số phơi nhiễm quan tâm kiểm soát cho biến số gây nhiễu khác Nếu có hay biến số gây nhiễu cần sử dụng phương pháp cổ điển đủ Trong trường hợp này, phân tầng cho biến số sau phân tầng cho đồng thời biến số để xem ước lượng tác động thay đổi Chiến lược đủ để loại bỏ hầu hết ảnh hưởng gây nhiễu Khi số biến số gây nhiễu lớn kiểm soát phương pháp phân tầng đơn thuần, phương trình hồi quy có giá trị Bước phương pháp mô hình lập lại phân tích đơn giản kiểm tra xem kết có phù hợp với phân tích phân tầng đơn giản hay không Điều giúp tránh sai lầm có Sau xây dựng mô hình phức tạp bao gồm: Biến số phơi nhiễm biến số phơi nhiễm quan tâm; Tất biến số cho yếu tố gây nhiễu trù định; Tất biến số khác cho gây nhiễu số liệu cho thấy có tác động gây nhiễu đáng kể (thông qua phân tích phân tầng) Một điểm cần lưu ý biến số xem gây nhiễu phụ thuộc phần vào định trù định (a priori decision), nghĩa dựa vào tham khảo y văn, phần vào mức 34 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng độ ước lượng bị thay đổi sau kiểm soát cho yếu tố gây nhiễu Chúng ta hoàn toàn không dựa vào kết kiểm định ý nghĩa mô hình Lấy ví dụ nghiên cứu chủng ngừa BCG bệnh phong Mặc dù kết phân tầng cho thấy có biến số nhóm tuổi trình độ học vấn yếu tố gây nhiễu việc ước lượng mối liên quan chủng ngừa BCG bệnh, bỏ qua tác động biến số tiếp xúc với phong u hay phong củ Mặt khác, nhiều nghiên cứu giới tính yếu tố gây nhiễu tiềm tàng, thực mô hình hồi quy với tất biến số Thực tương tự bước hồi quy đa biến, đưa tất biến: chủng ngừa BCG, nhóm tuổi, học vấn, giới tính, tiếp xúc phong u, tiếp xúc phong củ vào ô Covariates, kết sau: Omnibus Tests of Model Coefficients Step Step Block Model Chi-square 126.840 126.840 126.840 df Sig .000 000 000 6 Model Summary Step -2 Log Cox & Snell likelihood R Square 1058.330a 100 Nagelkerke R Square 159 a Estimation terminated at iteration number because parameter estimates changed by less than 001 Hosmer and Lemeshow Test Step Chi-square 5.485 df Sig .601 Variables in the Equation Step a bcg nhtuoi hocvan gioi phongu phongcu Constant B -1.084 230 -.416 029 1.066 585 -1.154 S.E .202 053 116 163 521 223 348 Wald 28.763 18.757 12.882 032 4.187 6.902 11.011 df 1 1 1 Sig .000 000 000 857 041 009 001 a Variable(s) entered on step 1: bcg, nhtuoi, hocvan, gioi, phongu, phongcu 35 Exp(B) 338 1.259 660 1.030 2.904 1.795 315 95.0% C.I.for EXP(B) Lower Upper 228 503 1.134 1.397 526 828 748 1.419 1.046 8.061 1.160 2.778 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Kết cho thấy mô hình với biến có ý nghĩa (có thể lưu ý giá trị R2 tăng lên), nhiên kiểm định Wald biến giới tính ý nghĩa mô hình p = 0.857 Một cách nhà phân tích sử dụng loại bỏ biến số ý nghĩa mô hình, người ta gọi phương pháp backward stepwise Thực thao tác tương tự trên, lưu ý phần Method, chọn Backward:LR (thay Enter phần thực hành phía trên) Kết sau: Model Summary Step -2 Log Cox & Snell likelihood R Square 1058.330a 100 1058.363a 100 Nagelkerke R Square 159 159 a Estimation terminated at iteration number because parameter estimates changed by less than 001 Hosmer and Lemeshow Test Step Chi-square 5.485 5.074 df 7 Sig .601 651 36 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Variables in the Equation Step a Step a bcg nhtuoi hocvan gioi phongu phongcu Constant bcg nhtuoi hocvan phongu phongcu Constant B -1.084 230 -.416 029 1.066 585 -1.154 -1.084 230 -.421 1.063 585 -1.128 S.E .202 053 116 163 521 223 348 202 053 112 521 223 316 Wald 28.763 18.757 12.882 032 4.187 6.902 11.011 28.750 18.883 14.224 4.173 6.912 12.740 df 1 1 1 1 1 1 Sig .000 000 000 857 041 009 001 000 000 000 041 009 000 Exp(B) 338 1.259 660 1.030 2.904 1.795 315 338 1.259 656 2.896 1.796 324 95.0% C.I.for EXP(B) Lower Upper 228 503 1.134 1.397 526 828 748 1.419 1.046 8.061 1.160 2.778 228 1.135 527 1.044 1.161 a Variable(s) entered on step 1: bcg, nhtuoi, hocvan, gioi, phongu, phongcu Có thể thấy mô hình (Step 2) tất biến số có ý nghĩa Mô hình loại bỏ biến giới tính mô hình (Step 1) Tuy nhiên lưu ý rằng, quy định cho kiểm định ý nghĩa Wald có p>0.05 loại bỏ biến số khỏi mô hình Như phân tích trên, không dựa vào kết kiểm định ý nghĩa mô hình Việc xem xét ý nghĩa y sinh học mối liên quan, chứng y văn nghiên cứu khác giúp định 1.3.5 Các vấn đề cần lưu ý Vấn đề đa cộng tuyến (multi-collinearity) mô hình Đa cộng tuyến mô hình hồi quy logistic xảy có mối liên quan mạnh biến độc lập mô hình Sự diện đa cộng tuyến làm sai số chuẩn ước lượng lớn Như dẫn đến kết luận sai lầm mối liên quan biến độc lập biến phụ thuộc, vấn đề đa cộng tuyến mô hình hồi qui logistics giống vấn đề mô hình hồi qui tuyến tính, xem lại để có thêm thông tin Như trình bày chương trước, xem xét phương pháp này, có hai giá trị cần quan tâm Tolerance Variance Inflation Factor (VIF) Một quy ước đưa để xác định đa cộng tuyến Tolerance ≤ 0.1 VIF ≥ 10 đa cộng tuyến xảy Điều xem quy tắc áp dụng nhiều (xem đề cập chương trước) Tuy nhiên, số tác giả khuyên cần cân nhắc xem xét đa 37 503 1.397 817 8.033 2.779 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng cộng tuyến, đặc biệt mô hình hồi quy logistic cỡ mẫu nghiên cứu nhỏ, Tolerance < 0.4 VIF > 2.5 Ví dụ minh họa đa cộng tuyến thực chương trước Trong phần này, trở lại số liệu bệnh mạch vành để đánh giá có hay đa cộng tuyến mô hình hồi quy với biến phụ thuộc tình trạng bệnh mạch vành (có bệnh) biến độc lập huyết áp tâm thu, huyết áp tâm trương, tình trạng huyết áp (có hay tăng huyết áp) Giả định có nghi ngờ có đa cộng tuyến biến độc lập Sử dụng menu Analyze  Regression  Linear Đưa biến phụ thuộc tình trạng bệnh MV vào ô Dependent, đưa biến độc lập vào ô Independent Chọn Statistic để chọn Collinearity diagnostics Kết đánh giá đa cộng tuyến xem bảng sau: 38 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Coefficientsa Model (Constant) Huyet ap tam truong(mm Hg) huyet ap tam thu (mm Hg) Tang huyet ap (sbp >= 160 or dbp >= 95) Unstandardized Coefficients B Std Error 113 174 Standardized Coefficients Beta t 651 Sig .516 Collinearity Statistics Tolerance VIF 000 001 006 085 932 368 2.718 001 001 054 822 411 381 2.627 -.063 039 -.096 -1.590 112 440 2.272 a Dependent Variable: Tinh trang benh mach vanh Với kết thấy Tolerance biến > 0.1 VIF 2.5 Thêm vào biết biến tăng huyết áp thực tạo dựa biến HA tâm thu HA tâm trương Do cần cân nhắc việc có nên đưa biến vào mô hình hồi quy logistic để đánh giá nguy tình trạng bệnh mạch vành hay không Tóm lại: Khi có chứng rõ ràng đa cộng tuyến, ví dụ Tolerance VIF cao mối tương quan tuyến tính biến độc lập lý giải (ví dụ biến độc lập tạo từ tính tóan dựa biến – HA trung bình tính từ HA tâm thu HA tâm trương) xử trí trình bày chương trước Khi nghi ngờ với kết Tolerance VIF, cần cân nhắc thêm nhiều yếu tố khác có hay tương quan biến, ý nghĩa mô hình biến số mô hình hồi quy logistics, việc thêm vào hay bỏ bớt biến số mô hình có ảnh hưởng lớn đến kết luận hay không… Vấn đề chia cắt số liệu (separation) Vấn đề chia cắt số liệu xảy giá trị biến số độc lập khác hoàn toàn nhóm biến số phụ thuộc Ví dụ, giả định tuổi tất đối tượng bị bệnh ≥ 50 tuổi tất đối tượng không bị bệnh < 50 Như vậy, biết tuổi đối tượng đó, chắn biết tình trạng bệnh đối tượng Tình trạng chia cắt số liệu xảy tùy thuộc vào cỡ mẫu, số lượng đối tượng có bệnh, số lượng biến số mô hình Giả sử có mẫu gồm 25 đối tượng có đối tượng có bệnh Như vậy, khả xảy chia cắt số liệu mô hình tăng có nhiều biến số đưa vào mô hình Nói cách khác, đưa 39 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng tất biến số độc lập vào mô hình, dễ gặp tình trạng chia cắt số liệu này, đặc biệt cỡ mẫu nhỏ Một cách đơn giản để phát vấn đề cần thực phân tích đơn biến cách cẩn thận Ví dụ thực lập bảng x biến độc lập biến phụ thuộc, phát chia cắt số liệu kết Bảng 0.7 Ví dụ chia cắt số liệu Bệnh Học vấn Tổng Cao Thấp Có bệnh 50 50 Không bệnh 30 30 Tổng 50 30 80 Có nhiều phương pháp đưa để kiểm sóat vấn đề này, nhiên phạm vi bài, không đề cập đến điều Trong mô hình hồi quy, để tránh gặp trường hợp này, cần xem xét kết đơn biến trước tiên nhớ việc đưa tất biến số độc lập vào mô hình lựa chon phù hợp Vấn đề có giá trị ô số liệu Như bàn luận phần trên, việc tính toán OR dựa hồi quy logistic thực tế xuất phát từ cách tính cổ điển dựa bảng tiếp liên mô tả phân bố biến độc lập phụ thuộc Giả sử có giá trị số liệu, việc tính toán OR gặp sai số không tính toán Bảng cho thấy sử dụng nhóm tuổi 1-14 làm nhóm để so sánh không tính OR cho nhóm tuổi kế tiếp, mẫu số Bảng 0.8 Ví dụ giá trị ô số liệu Nhóm tuổi Bệnh Tổng Có Không 1-14 5 15-24 30 70 100 25-34 50 100 150 35-44 75 75 150 45-54 100 25 125 55+ 70 30 100 40 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Vấn đề dễ dàng xảy đưa vào mô hình với nhiều biến số độc lập khác, số lượng tầng nhiều khả xuất ô có giá trị nhiều Tương tự việc phát chia cắt số liệu, vấn đề giá trị ô phát thực cẩn thận phân tích đơn biến Một cách thông thường sử dụng để giải vấn đề tổ hợp lại giá trị biến số độc lập, nghĩa xếp lại nhóm: ví dụ thay chia nhóm tuổi thành nhóm, chia thành nhóm Khi đó, xem xét thay đổi giá trị χ2 trường hợp tuân theo phân phối Khi bình phương với bậc tự hiệu số bậc tự chúng… Nguyên lý tương tự việc so sánh mô hình A nằm mô hình B nêu phần Ví dụ số liệu bảng 10 có χ2 = 97.46 bậc tự do, gộp nhóm tuổi 1-14 1524 thành nhóm tuổi 1-24, có kết χ2 =88.10 bậc tự Chúng ta hy vọng chấp nhận giả thuyết “cách gộp giá trị thành nhóm không khác giữ nguyên nhóm” Nếu giả thuyết chấp thuận, sử dụng cách gộp giá trị vừa nêu Tuy nhiên, việc thay đổi dẫn đến Δ χ2 = 9.36 Δdf = bậc tự do, kết tuân theo phân phối Khi bình phương nên thay đổi có ý nghĩa thống kê Nói cách khác, việc gộp nhóm không chấp nhận Chúng ta phải thử cách khác để giải Nhiều gợi ý lựa chọn để tổ hợp lại giá trị biến số, ví dụ sử dụng cách phân chia dựa ý nghĩa y sinh học, tham khảo y văn, sử dụng quintile… 1.3.6 Tương tác Chương trước trình bày vấn đề liên quan đến gây nhiễu tương tác Trong chương này, thảo luận việc đưa yếu tố nhiễu vào mô hình phần Bây xem xét việc kiểm sóat tương tác mô hình hồi quy logistic Nguyên tắc kiểm soát tương tác mô hình hồi quy logistic tóm tắt sau: Nếu biến đưa vào mô hình biến định danh thứ bậc, lưu ý khai báo Categorical cho biến này, Xây dựng mô hình tương tác logit = ln(p/1-p) = α + β1x1 + β2x2 Xây dựng mô hình có tương tác logit = ln(p/1-p) = α + β1x1 + β2x2 + β3 x1 * x2 So sánh mô hình dựa kiểm định Khi bình phương Δ(-2ln likelihood) Δdf trình bày phần chọn lựa mô hình 41 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Sử dụng số liệu nghiên cứu yếu tố nguy nhiễm HIV địa phương Mwanza, Châu Phi Giả định quan tâm đến yếu tố nguy vết loét sinh dục, kết sau: Risk Estimate 95% Confidence Interval Lower Upper Value Odds Ratio for Case/control (khong benh / co benh) For cohort loet = khong For cohort loet = co N of Valid Cases 1.530 1.015 2.306 1.083 708 761 996 510 1.178 982 Với kết kết luận việc có vết loét sinh dục nguy nhiễm HIV (lưu ý khoảng tin cậy 95% không chứa giá trị 1) Tuy nhiên biết ngừa có nhiều bạn tình có nhiều khả bị vết lóet tình dục nhiễm HIV, muốn xem liệu biến số bạn tình có phải biến số gây nhiễu tương tác hay không Kết cho thấy số lượng bạn tình biến số tương tác Tests of Homogeneity of the Odds Ratio Breslow-Day Tarone's Chi-Squared 10.314 10.314 df 4 Asymp Sig (2-sided) 035 035 Số lượng bạn tình biến nhận giá trị sau – 0-1 bạn tình, – 2-4, – 5-9, – 10-19, – từ 20 trở lên Mô hình tương tác sau: 42 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Model Summary Step -2 Log Cox & Snell likelihood R Square 812.613a 052 Nagelkerke R Square 077 a Estimation terminated at iteration number because parameter estimates changed by less than 001 Variables in the Equation Step a loet npa npa(1) npa(2) npa(3) npa(4) Constant B 357 S.E .216 746 1.095 2.062 572 -1.910 240 284 371 508 211 Wald 2.725 34.386 9.686 14.906 30.843 1.264 82.035 df 1 1 Sig .099 000 002 000 000 261 000 Exp(B) 1.429 2.109 2.988 7.861 1.771 148 95.0% C.I.for EXP(B) Lower Upper 935 2.182 1.318 1.714 3.797 654 3.374 5.210 16.274 4.796 a Variable(s) entered on step 1: loet, npa Mô hình có giá trị -2ln likelihood = 812.613 df = Mô hình có tương tác, đưa biến độc lập vào mô hình, sau click chọn biến “loet”, giữ Ctrl chọn biến số bạn tình, sau chuyển vào ô covariates ô >a*b> Chọn Categorical để khai báo biến số lượng bạn tình biến Category Nhấp OK để hoàn tất 43 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Kết sau: Model Summary Step -2 Log Cox & Snell likelihood R Square 802.438a 064 Nagelkerke R Square 096 a Estimation terminated at iteration number because parameter estimates changed by less than 001 Variables in the Equation Step a loet npa npa(1) npa(2) npa(3) npa(4) loet * npa loet by npa(1) loet by npa(2) loet by npa(3) loet by npa(4) Constant B 022 S.E .583 765 982 1.794 -.396 260 318 414 776 -.100 562 1.425 2.922 -1.855 672 733 1.042 1.282 224 Wald 001 23.555 8.679 9.564 18.762 261 9.024 022 589 1.868 5.197 68.431 df 1 1 1 1 Sig .969 000 003 002 000 610 060 882 443 172 023 000 Exp(B) 1.023 95.0% C.I.for EXP(B) Lower Upper 326 3.208 2.149 2.671 6.015 673 1.292 1.433 2.671 147 3.574 4.978 13.548 3.082 905 1.755 4.156 18.580 156 243 417 539 1.507 3.375 7.377 32.061 229.130 a Variable(s) entered on step 1: loet, npa, loet * npa Mô hình có giá trị -2ln likelihood = 802.438 df = Như vậy, Δ(-2ln likelihood) = 10.175 Δdf = tuân theo phân phối Khi bình phương, p < 0.05 Như mô hình tương tác phù hợp Mô hình cho thấy bị vết loét tình dục người không bạn tình người có từ 2-4 bạn tình có nguy nhiễm HIV thay đổi không đáng kể (OR = 0.905), người có từ 5-9 người bạn tình có vết loét sinh dục làm nguy nhiễm HIV tăng lên 1.755 lần, người có 10-19 bạn tình vết loét sinh dục làm tăng nguy lên 4.156 lần người có số bạn tình từ 20 trở lên, vết loét sinh dục làm tăng nguy lên gần 19 lần 44 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Tóm tắt Hồi quy công cụ phù hợp cho phân tích tương tác Về lý thuyết, có loại tương tác cần phân biệt, tương tác biến số gây nhiễu, tương tác biến số gây nhiễu biến số phơi nhiễm quan tâm, tương tác biến số phơi nhiễm quan tâm Tuy nhiên, thực thế, không cần xem xét tương tác biến số gây nhiễu Cần lưu ý là, không cần thiết phải tìm kiếm tương tác với tất biến số Cũng nên nhớ mục tiêu nghiên cứu dịch tễ tìm trạnh đơn giản xác hữu dụng thực tế Nếu có tương tác yếu thân điều ý nghĩa quan trọng Do đó, nên để việc phân tích tương tác vào giai đoạn cuối trình phân tích nên xem xét tương tác phơi nhiễm-phơi nhiễm phơi nhiễm-gây nhiễu, đặc biệt ý đến yếu tố tương tác trù định đáng nghiên cứu (các yếu tố tham khảo từ y văn, nghiên cứu khác…) Nên xem xét yếu tố tương tác để tránh mô hình phức tạp với nhiều tham số 45 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Tài liệu tham khảo Tài liệu tiếng Anh Belsley, D.A., Kuh, E and Welsch, R.E (1980) Regression Diagnostics: Identifying Influential Data and Sources of Collinearity John Wiley & Sons: New York Hosmer, D.W and Lemeshow, S (1989) Applied Logistic Regression John Wiley & Sons: New York Joseph F Hair, Jr et al, Multivariate data analysis, Fifth edition Marcello pagano, Kimberlee Gauvreau, Principles of Biostatistics, 1992, California: An Imprint of Wadsworth publishing Mark Woodward (1999) Epidemiology study design and data analysis, Chapman & Hall texts in statistics science series Shen J and Gao S (2008) “A solution to separation and multicollinearity in multiple logistic regression” Journal of Data Science 6: 515-31 Tài liệu tiếng Việt Lê Cự Linh cs Thống kê Y tế - Phần bản, Nhà Xuất Y học, 2009 Nguyễn Văn Tuấn, Phân tích thống kê y sinh học R 2007 Phạm Việt Cường cs Thống kê Y tế - Phân tích số liệu sử dụng SPSS, Nhà xuất Y học, 2009 46 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Bộ số liệu - Bộ số liệu BMI Bộ số liệu cân nặng sơ sinh Số liệu nghiên cứu bệnh mạch vành Số liệu nghiên cứu HIV Số liệu nghiên cứu chủng ngừa bệnh phong 47 bmi.sav cnss.sav benhmv.sav hiv.sav chilumba.sav [...]... equation là kiểm định cho biết ý nghĩa của từng biến số trong mô hình – kiểm định hệ số hồi quy B Kiểm định hệ số hồi quy B 15 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Như đã phân tích ở trên, lũy thừa cơ số e của hệ số hồi quy là OR Do đó, kiểm định Wald sẽ kiểm định hệ số hồi quy B có khác 0 hay không (tức OR có thực sự khác 1 hay không) Kiểm định Wald – được gọi... OR tính toán được từ mô hình 1.3.2 Hồi quy logistic đa biến Mô hình hồi quy đơn biến nêu trên bao gồm 1 biến phụ thuộc và 1 biến độc lập Cũng giống như các mô hình hồi quy khác, hồi quy logistic có thể được sử dụng với nhiều biến độc lập Mô hình đa biến có dạng: logit = ln(p/1-p) = α + β1x1 + β2x2 + β3x3 + … + ε trong đó x1, x2, …, xn là những biến độc lập 24 Bài giảng Dịch tễ-Thống kê nâng cao BM... kê bị kém và khoảng tin cậy của ước lượng sẽ rộng ra Như vậy, khi muốn kiểm soát các yếu tố gây nhiễu đồng thời, chúng ta sử dụng mô hình hồi quy để thực hiện Kiểm soát gây nhiễu bằng hồi quy Thực tế việc kiểm soát gây nhiễu bằng hồi quy thực chất là thực hiện hồi quy đa biến, nghĩa là chúng ta đưa nhiều biến độc lập vào mô hình, trong đó có biến độc lập quan tâm và các biến gây nhiễu cần kiểm soát... tố gây nhiễu này Như vậy, chúng ta sẽ đưa cả 3 biến: chủng ngừa BCG, nhóm tuổi, và trình độ học vấn vào mô hình hồi quy với biến phụ thuộc là bệnh phong Thực hiện tương tự xây dựng mô hình hồi quy đa biến, chúng ta đưa biến phụ thuộc vào ô Dependent, 3 biến còn lại vào ô Covariates 32 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Chọn Options để chọn 95%CI, Hosmer-Lemeshow... quan trọng, chính hiệu số của nó giữa hai mô hình mới có ý nghĩa Chúng ta sẽ thảo luận về điều đó trong phần sau của bài này Giá trị R2 của Cox & Snell và Nagelkerke có thể được phiên giải như trong mô hình hồi quy tuyến tính, tuy nhiên chúng ta không cần sử dụng các thông tin này 14 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Model Summary Step 1 -2 Log Cox & Snell likelihood... lệ tử vong theo tuổi trong ví dụ ở bảng 3 Khi sử dụng tỷ lệ tử vong để mô tả mối liên quan với tuổi như trong hình 2, mô hình hồi quy tuyến tính là không phù hợp Bảng 8 đã sử dụng biến đổi logit và hình 3 mô tả mối liên quan giữa logit và tuổi Mối liên quan này phù hợp với hồi quy tuyến tính hơn Bảng 0.6 Biến đổi logit Tuổi Số lượng Tử vong Tổng số đối tượng Tỷ lệ vong 40 1 251 0.4 -5.52 41 12 317 3.8... than 001 23 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Hosmer and Lemeshow Test Step 1 Chi-square 9.472 df Sig .304 8 Variables in the Equation Step a 1 cholesterol Constant B 007 -3.538 S.E .003 687 Wald 5.225 26.531 df 1 1 Sig .022 000 Exp(B) 1.007 029 95.0% C.I.for EXP(B) Lower Upper 1.001 1.013 a Variable(s) entered on step 1: cholesterol Mô hình hồi quy trong kết... nghiên cứu này có ý nghĩa thống kê Nói cách khác, chúng ta có 95% cơ sở để tin rằng chủng ngừa BCG là yếu tố bảo vệ đối với bệnh phong Thực hiện tính toán bằng hồi quy logistic như sau: Sử dụng menu Analyze  Regression  Binary Logistic 11 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng Đưa biến bệnh vào ô Dependent (nghĩa là biến phụ thuộc) và biến chủng ngừa bcg vào ô Covariates,... ở nhóm tuổi ngay trước đó Kết quả này thấp hơn kết quả trong mô hình đơn biến đã nêu ở phần trên Điều này là do mô hình hồi quy đa biến này đã hiệu chỉnh ảnh hưởng của biến số độc lập này lên biến phụ thuộc với sự có mặt của biến số độc lập khác trong mô hình Cũng trong mô hình hồi quy đa biến, chúng ta có thể chọn biến thứ bậc – ví dụ nhóm tuổi – có tính khuynh hướng như trong ví dụ trên Lưu ý nhớ... xác suất của một sự kiện lớn hơn hoặc bằng một giá trị quy ước nào đó, chúng ta có thể tiên đoán rằng sự kiện ấy sẽ xảy ra Trong SPSS, chương trình mặc định giá trị đó là 0.5 (hoặc 50% - giá trị cut value trong bảng Classification table) Sử dụng mặc định này, chương trình sẽ xếp các đối tượng vào nhóm bệnh nếu xác suất tiên đoán là ≥ 0.5 16 Bài giảng Dịch tễ-Thống kê nâng cao BM Dịch tễ-Thống kê, ĐH

Bài giảng hồi quy SPSS

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan