PHÉP ƯỚC LƯỢNG (Estimation) ppt

PHÉP ƯỚC LƯỢNG (Estimation) I. GIỚI THIỆU Thống kê suy luận: là tiến trình qua đó chúng ta có thể đạt được 1 kết luận về dân số trên cơ sở các thông tin chứa trong 1 mẫu rút ra từ dân số đó. Ước lượng là một trong 2 lĩnh vực chung của thống kê suy luận. Tiến trình ước lượng như vậy sẽ bao gồm việc tính toán, từ số liệu của mẫu, một số số thống kê được xem như đại biểu gần đúng của thông số tương ứng của dân số (mà từ đó mẫu được rút ra). Cơ sở lý luận của phép ước lượng trong lĩnh vực khoa học sức khỏe dựa trên giả định rằng người làm công tác y tế quan tâm đến những thông số, như số trung bình và tỉ lệ, của các dân số khác nhau; và như vậy, có 2 lý do giải thích tại sao cần phải ước lượng. Lý do thứ nhất: Hầu hết các dân số, tuy là hữu hạn, nhưng cũng không thể khảo sát toàn bộ (100%) được do vấn đề chi phí. Lý do thứ hai: không có khả năng khảo sát đầy đủ các dân số vô hạn. Đối với mỗi thông số, có thể tính được 2 loại số ước lượng: số ước lượng điểm (point estimate) và số ước lượng khoảng (interval estimate). Định nghĩa: + Số ước lượng điểm là một giá trị đơn bằng số được dùng để ước lượng thông số tương ứng của dân số. + Số ước lượng khoảng gồm có 2 giá trị bằng số xác định 1 khoảng các giá trị, với 1 độ tin cậy cho trước, mà chúng ta tin rằng sẽ bao gồm thông số đang được ước lượng. Công Cụ Ước Lượng (Estimator) thích hợp Công cụ ước lượng là qui tắc tính các số ước lượng, thường được trình bày dưới dạng công thức. Thí dụ: x = n x i  là một công cụ ước lượng của số trung bình dân số . Giá trị đơn bằng số là kết quả của công thức này, x , được gọi là số ước lượng của thông số . Dân số chọn mẫu (Sampled Population) và dân số đích (Target Population) + Dân số chọn mẫu là dân số mà từ đó người ta thực sự rút 1 mẫu ra. + Dân số đích là dân số mà người ta muốn tìm một kết luận cho nó. Hai dân số này có thể giống nhau hoặc khác nhau. Các phương pháp suy luận thống kê chỉ cho phép rút ra những kết luận về dân số chọn mẫu (với điều kiện phải áp dụng phương pháp chọn mẫu thích hợp). Nếu: – Dân số chọn mẫu = dân số đích: kết luận về dân số đích mang tính suy luận thống kê. – Dân số chọn mẫu  dân số đích: kết luận về dân số đích chỉ dựa trên các xem xét không mang tính thống kê. Mẫu ngẫu nhiên (Random sample) và Mẫu không ngẫu nhiên (Nonrandom sample) Mẫu ngẫu nhiên: Nếu 1 mẫu có kích thước n được rút ra từ một dân số N theo cách mà tất cả các mẫu có kích thước n (có thể rút ra được từ N) đều có cơ hội bằng nhau để được rút ra, thì mẫu này được gọi là mẫu ngẫu nhiên. Độ chính xác của các suy luận thống kê phụ thuộc rất lớn vào mẫu ngẫu nhiên. Mẫu không ngẫu nhiên (Mẫu thuận tiện): là mẫu được lấy không theo cách ngẫu nhiên. Việc tổng quát hóa kết quả phải dựa nhiều trên những xem xét không có tính thống kê. II. KHOẢNG TIN CẬY CHO TRUNG BÌNH DÂN SỐ (Confidence Interval for a Population Mean) Rút một mẫu ngẫu nhiên có kích thước n từ 1 dân số phân phối bình thường, tính x . Tuy có thể dùng x làm số ước lượng điểm cho , nhưng không thể kỳ vọng là x bằng  được (vì tính không nhất quán của cách chọn mẫu). Do vậy, ước lượng  bằng 1 khoảng (interval) sẽ phần nào chuyển tải được các thông tin về độ lớn có thể có của  hơn. Phân phối mẫu và Phép ước lượng Nhắc lại đặc điểm của PP. Trung bình mẫu Nếu việc lấy mẫu được tiến hành trên 1 dân số PP. bình thường thì PP. Trung bình mẫu cũng PP. Bình thường với    x  và  2 x  = n 2  . Tính chất PP. Bình thường của x giúp biết được rằng có khoảng 95% các giá trị của x (giúp cấu tạo nên phân phối) nằm trong khoảng 2 ĐLC tính từ số trung bình. Hai điểm cách đều số trung bình 1 khoảng bằng 2 ĐLC là (  - x 2  ) và (  + x 2  ), như vậy khoảng cách x 2    sẽ chứa khoảng 95% các giá trị có thể có của x . Phép ước lượng Vì không biết giá trị của  nên biểu thức x 2    sẽ không có ý nghĩa gì lớn. Tuy nhiên, với số ước lượng điểm của  là x , vấn đề có thể giải quyết được. Giả sử dựng được các khoảng cách đều 2 bên cho tất cả các x (tính được từ tất cả các mẫu có kích thước n rút ra từ dân số có liên quan), chúng ta sẽ có 1 số lượng rất lớn các khoảng cách có dạng x x   2 có bề rộng bằng với bề rộng của khoảng cách xung quanh  (mà ta không biết). Gần 95% của các khoảng này chắc chắn sẽ có tâm điểm nằm trong khoảng x 2  xung quanh . Mỗi khoảng có tâm điểm nằm trong khoảng x 2  xung quanh  sẽ chứa  . Thí dụ chứng minh: Giả sử một nhà nghiên cứu quan tâm tâm đến việc tìm số ước lượng của nồng độ trung bình của 1 số enzymes của dân số người. Lấy 1 mẫu 10 người, đo nồng độ enzyme cho từng người rồi tính trung bình mẫu, được x = 22. Giả sử biết được biến số này phân phối gần như bình thường với phương sai bằng 45. Hãy ước lượng . Khoảng tin cậy 95% cho  được tính bằng: x x 2   = 22 10 45  = 22  (2,1213) 17,76, 26,24 Thành phần của khoảng ước lượng x x 2   CCƯL  (Hệ số tin cậy) x (Sai số chuẩn) Khi lấy mẫu từ 1 dân số PP. Bình thường với phương sai biết trước, khoảng ước lượng cho  được tính bởi: x (1 /2) x z    (1) Diễn giải Khoảng Tin Cậy (KTC) Với hệ số tin cậy (HSTC) bằng 2, trong trường hợp lấy mẫu lập lại nhiều lần, gần 95% các khoảng [được thiết lập theo biểu thức (1)] sẽ chứa trung bình dân so. Có thể tổng quát hóa diễn giải này nếu đặt toàn bộ phần diện tích dưới đường cong của x và nằm ngoài khoảng x 2    là , và phần diện tích nằm trong khoảng x 2    là (1– ). Diễn giải theo xác suất: Trong trường hợp lấy mẫu lập lại nhiều lần, từ 1 dân số PP. Bình thường với ĐLC biết trước, 100(1–  )% của tất cả các khoảng có dạng x (1 /2) x z    cuối cùng cũng sẽ chứa trung bình dân số, . Đại lượng 1–, trong trường hợp này bằng 0,95, được gọi là hệ số tin cậy (hoặc mức độ tin cậy), và khoảng x (1 /2) x z    được gọi là khoảng tin cậy 95% cho . Diễn giải thực tế: Khi lấy mẫu từ 1 dân số PP. Bình thường với ĐLC biết trước, chúng ta 100(1–  )% tin cậy là khoảng tính đơn lẻ, x (1 /2) x z    , có chứa trung bình dân số, . HSTC trong thí dụ trên, được tính chính xác hơn, sẽ bằng 1,96 (thay vì 2). Trong các điều kiện khác có thể dùng bất cứ HSTC nào, nhưng các giá trị thường dùng nhất là 0,95 tương ứng với z bằng 1,96 0,90 tương ứng với z bằng 1,645 0,99 tương ứng với z bằng 2,58. Đại lượng có được do nhân HSTC với sai số chuẩn được gọi là độ tin cậy của số ước lượng (còn gọi là biên của sai số). III. PHÂN PHỐI t (Student’s t distribution) Việc thiết lập KTC 95% cho một trung bình dân số (trường hợp dân số PP. Bình thường hoặc lấy mẫu lớn) sẽ dường như không thực hiện được nếu không biết . Tuy nhiên, vấn đề được giải quyết khi lấy mẫu lớn (n  30) vì khi đó có thể dùng s (ĐLC của mẫu) thay cho . Khi chỉ có mẫu nhỏ (n  30), biện pháp thay thế để thiết lập các KTC là dùng phân phối t (phân phối Student) Đại lượng t = ns x /   có phân phối này Đặc điểm của PP. t – Có số trung bình bằng 0 – Đối xứng xung quanh số trung bình – Có phương sai  1, nhưng phương sai sẽ tiến đến 1 khi cỡ mẫu lớn dần lên. Phương sai của PP. t được tính theo độ tự do (degrees of freedom – df) – Biến số t biến thiên trong khoảng – đến + – PP. t là một họ các PP., khác nhau ở giá trị (n–1), mẫu số dùng để tính s 2 . Giá trị (n–1) được xem là độ tự do. – So sánh với PP. Bình thường thì PP. t có đỉnh không cao bằng, nhưng lại có đuôi nằm cao hơn – PP. t tiến đến PP. Bình thường khi n–1 tiến đến vô cực. PP. t (df=5) PPBT GT tới hạn của t: ±2,57 (=0,05, 2 đuôi) KTC dùng t CCƯL  (HSTC) x (Sai số chuẩn) Khi lấy mẫu từ một dân số PP. Bình thường có ĐLC,  , không được biết, KTC 100(1–  )% cho trung bình dân số được cho bởi n s tx )2/1(    Lưu ý : để dùng được PP. t việc lấy mẫu phải được tiến hành trên 1 dân số có PP. Bình thường hoặc gần như bình thường. Thí dụ chứng minh: một mẫu gồm 16 bé gái 10 tuổi cho cân nặng trung bình là 71,5 pounds và ĐLC là 12 pounds. Giả định là tuổi của các bé gái này PP. Bình thường, tìm KTC 95% cho . – Dùng trung bình mẫu, 71,5 là số ước lượng điểm của  – Sai số chuẩn bằng s/ n = 12/ 16 = 3 – Độ tự do, df = n–1=16–1= 15 Tra bảng để có 975,0)2/1( tt    = 2,1315 71,5  (2,1315) (3) 65,1 77,9 IV. KTC CHO HIỆU 2 TRUNG BÌNH DÂN SỐ [...]...  p) / n Dùng p làm số ước lượng cho p (dân số), và như vậy sẽ  ước lượng  p bằng   p(1  p ) / n KTC 100(1-) cho p được tính bằng    p  z (1 / 2) p (1  p ) / n Thí dụ chứng minh: Tại 1 BV Tâm Thần, trong 1 mẫu 591 người nhập viện có 204 người đã dùng cần sa ít nhất 1 lần trong đời Thiết lập KTC 95% cho tỉ lệ người dùng cần sa của dân số chọn mẫu này  Số ước lượng điểm của tỉ lệ dân... hạn trung tâm Trong trường hợp này nếu phương sai của 2 dân số không được biết, dùng phương sai của 2 mẫu làm số ước lượng của chúng Khi lấy mẫu từ hai dân số PP B.thường với các phương sai không biết trước + n nhỏ Trường hợp phương sai dân số bằng nhau (đồng phương sai): Phải tính số ước lượng hợp (pooled estimate) của đồng phương sai 2 sp  2 (n1  1)s12  (n2  1) s 2 n1  n 2  2 Sai số chuẩn được... 0,3069 0,3835 VI KTC CHO HIỆU CỦA 2 TỈ LỆ DÂN SỐ Khi n1 và n2 đều lớn và các tỉ lệ dân số không quá gần 0 hoặc 1, áp dụng lý thuyết giới hạn trung tâm để dùng PP Bình thường Sai số chuẩn của số ước lượng được ước lượng bằng     p1  p 2      p1 (1  p1 ) p 2 (1  p 2 )  n1 n2 Với tỉ lệ dân số không biết, KTC 100(1-) cho (p1–p2) được cho bởi   ( p1  p 2 )  z (1 / 2)     p1 (1  p1... Thiết lập KTC 95% cho tỉ lệ người dùng cần sa của dân số chọn mẫu này  Số ước lượng điểm của tỉ lệ dân số (p) là p = 204/591 = 0,3452  Kích thước mẫu và p đủ lớn để có thể dùng PP Bình thường chuẩn khi thiết lập KTC HSTC tương ứng với KTC 95% là 1,96 Số ước lượng của sai số chuẩn  p  p (1  p) / n =  (0,3452)(0,6548) / 591 = 0,01956 KTC 95% cho p 0,3452  1,96(0,01956) 0,3452  0,0383 0,3069 0,3835... 21,0 s1 = 4,9 Nhóm 2: x 2  12,1 s2 = 5,6 Giả định rằng 2 dân số các số đo sức bền này PP gần như bình thường và 2 phương sai được biết là bằng nhau Thiết lập KTC 95% cho hiệu của 2 dân số trên Tính số ước lượng hợp của đồng phương sai 2 sp  (13  1)(4,9) 2  (17  1)(5,6) 2 = 28,21 13  17  2 Tra bảng với df = 13+17-2= 28, HSTC t (1 / 2 )  t 0, 975 = 2,0484 KTC 95% bằng (21,0 – 12,1)  2,0484 28,21... tuổi và phái (với nhóm trên), cho kết quả x 2 = 3,4/100 ml Giả định rằng 2 dân số (các giá trị nồng độ uric acid) trên PP Bình thường với phương sai lần lượt là 1 và 1,5 Tìm KTC 95% cho (1–2) – Số ước lượng điểm cho (1–2) bằng: x1  x 2 = 4,5 – 3,4 = 1,1 – HSTC tương ứng với 0,95 (tra bảng PP Bình thường) là 1,96 – Sai số chuẩn  x 1  x2  2  12  2 1 1,5    = 0,4282 n1 n2 12 15 KTC 95%...Khi lấy mẫu từ hai dân số PP Bình thường với các phương sai biết trước KTC 95% cho (1–2) ( x1  x 2 )  z (1 / 2) 1  2  n1 n 2 Thí dụ chứng minh: một nhóm nghiên cứu quan tâm đến sự khác biệt về nồng độ uric acid trong huyết thanh ở bệnh nhân không có và bệnh nhân . 2 loại số ước lượng: số ước lượng điểm (point estimate) và số ước lượng khoảng (interval estimate). Định nghĩa: + Số ước lượng điểm là một giá trị đơn bằng số được dùng để ước lượng thông. + Số ước lượng khoảng gồm có 2 giá trị bằng số xác định 1 khoảng các giá trị, với 1 độ tin cậy cho trước, mà chúng ta tin rằng sẽ bao gồm thông số đang được ước lượng. Công Cụ Ước Lượng. (Estimator) thích hợp Công cụ ước lượng là qui tắc tính các số ước lượng, thường được trình bày dưới dạng công thức. Thí dụ: x = n x i  là một công cụ ước lượng của số trung bình dân số