Report Group 6 - XSTK ppsx

18 195 0
Report Group 6 - XSTK ppsx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM oOo BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm 8C – TỔ 6 Tp. HCM Tháng 8 - 2009 BÀI 1: Bảng sau đây cho ta phân phối thu nhập của 2 nhóm tuổi: Nhóm từ 40 – 50 tuổi và nhóm từ 50 – 60 tuổi trong tổng số các công nhân lành nghề ở Thụy Điển năm 1930. Có sự khác nhau về phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề hay không? Mức ý nghĩa α = 5%. 1. Cơ sở lý thuyết: a. Dạng bài toán: Phân tích so sánh tỉ lệ b. Khái niệm thống kê: Đối với một thí nghiệm có hai kết quả (binomial experiment) - thí dụ, đối với một thuốc được kê đơn: có hay không – bạn thường so sánh hai tỉ số với nhau (thực nghiệm với lí thuyết hay thực nghiệm với thực nghiệm). Song đối với một thí nghiệm có nhiều kết quả (multinomial experiment) – thí dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều trị bởi thuốc trong một khoảng thời gian – bạn cần so sánh nhiều tỉ số. Trắc nghiệm “khi” bình phương (χ 2 ) cho phép bạn so sánh không những hai mà còn nhiều tỉ số (hay tỉ lệ hoặc xác suất) một cách tiện lợi. χ 2 là phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0. Giả sử bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử nghiệm có k kết quả và mỗi kết quả mang một trong các xác suất thực nghiệm là Pi (i = 1, 2, … k). Nếu gọi P i,0 là các giá trị lý thuyết tương ứng với P i thì các tần số lí thuyết sẽ là E i = NP i,0 . Điều kiện để áp dụng trắc nghiệm χ 2 một cách thành công là các tần số lí thuyết E i phải ≥ 5. c. Giả thuyết: H 0 : P 1 = P 1,0 ; P 2 = P 2,0 ; … ; P k = P k,0 ⇔ “Các cặp P i và P i,0 giống nhau”. H 1 : “Ít nhất có một cặp P i và P i,0 khác nhau”. Giá trị thống kê: 2 ij ij 2 1 ij ( ) k i O E E χ =   − =       ∑ O i : các tần số thực nghiệm (observed frequency); E i : các tần số lý thuyết (expected frequency). Biện luận: • Nếu 2 2 α χ χ > ⇒ Bác bỏ giả thuyết H 0 (DF = k-1) 2 Bài tập lớn – Xác suất thống kê Trong chương trình MS-EXCEL có hàm CHITEST có thể tính: - Giá trị χ 2 theo biểu thức: 2 ij ij 2 1 1 ij ( ) [ r c j i O E E χ = = − = ∑∑ O ij : tần số thực nghiệm của ô thuộc hàng i và cột j; E ij : tần số lý thuyết của ô thuộc hàng i với cột j; r: số hàng; c: số cột. - Xác suất P(X > χ 2 ) với bậc tự do DF = (r-1)(c-1); trong đó, r là số hàng và c là số cột trong bảng ngẫu nhiên (contingency table). • Nếu P(X > χ 2 ) > α ⇒ Chấp nhận giả thuyết H 0 và ngược lại. d. Giải thuật: - Tính các tổng số - Tổng hàng (row totals) - Tổng cột (column totals) -Tổng cộng (grand total) - Tính các tần số lý thuyết - Tần số lý thuyết = tổng hàng x tổng cột / tổng cộng 2. Áp dụng Excel: - Bảng số liệu: P(X > χ 2 ) = 0.5116 > α = 0.01 ⇒ Nhận giả thuyết H 0 . 3 Bài tập lớn – Xác suất thống kê BÀI 2: Hãy tiến hành phân tích phương sai đối với các số liệu sau đây : Mẫu thứ nhất : 22 19 13 19 23 15 16 18 20 20 Mẫu thứ hai : 27 25 22 27 19 23 21 28 23 25 27 Mẫu thứ ba : 20 18 21 21 16 17 20 18 17 19 18 Mẫu thứ tư : 18 16 24 19 22 22 24 1.Cơ sở lý thuyết : a. Dạng bài toán: Phân tích phương sai một nhân tố b. Khái niệm thống kê và giả thuyết bài toán: Giả sử ta có k ĐLNN có phân bố chuẩn X 1 , X 2 , … X k , trong đó X i : N ( 2 , i i µ σ ). Các giá trị trung bình i µ và phương sai 2 i σ đều chưa biết. tuy nhiên chúng ta giả thiết rằng các phương sai bằng nhau: 2 1 σ = 2 2 σ = … = 2 k σ Chúng ta muốn kiểm định xem liệu các giá trị trung bình i µ này có như nhau hay không: 1 µ = 2 µ = … = k µ Trong thống kê các vấn đề trên thường được xem xét dưới góc độ sau đây: Giả sử chúng ta quan tâm đến một nhân tố X (factor) nào đó. Nhân tố X có thể xem xét ở k mức khác nhau. Ký hiệu X i là hiệu quả của việc tác động nhân tố X ở mức I đối với cá thể. Như vậy i µ là hiệu quả trung bình của nhân tố X ở mức i. Chúng ta muốn biết khi cho nhân tố X thay đổi các mức khác nhau thì điều đó có ảnh hưởng hay không tới hiệu qua trung bình. Ta có bảng số liệu sau : Các mức nhân tố 1 2 … k n= ∑ = k i n 1 1 x 11 x 12 … x 1k x 21 x 22 … x 2k … … … … x 1N x 2N … x kN Tổng số T 1 T 2 … T k T = ∑ = k i k T 1 4 Bài tập lớn – Xác suất thống kê Trung bình x 1 x 2 … K x T x n =  Ta đưa ra một số kí hiệu sau đây: + Trung bình của mẫu thứ i: 1 i n ji j i i i i x T x n n = = = ∑ Trung bình chung ở đó: 1 1 j n k ij ji i j x x T x n n n = = = = = ∑∑ ∑∑ Với : n = n 1 + n 2 + … + n k T = T 1 + T 2 + … + T 3 + Tổng bình phương chung. Kí hiệu là SST được tính theo công thức sau: ( ) ( ) ( ) ∑ − ∑ − ∑ − === +++= k n i n i n i xxxxxx ik L ii SST 1 2 1 2 1 2 21 21 ( ) ∑∑ − = = = k j n j n i xx ij 1 1 2 Có thể chứng minh rằng: 5 Bài tập lớn – Xác suất thống kê n T x n T xLxxSST ji ij n i ik n i ik n i ij k 2 , 2 2 1 2 1 2 1 2 21 −= −+++= ∑ ∑∑∑ === + Tổng bình phương do nhân tố kí hiệu là SSF được tính theo công thức sau: ( ) n T n T L n T n T i nSSF k k k i I xx 2 2 2 2 2 1 2 1 1 2 −+++= = ∑ − = + Tổng bình phương do sai số kí hiệu là SSE được tính theo công thức: ( ) ( ) ( )       ++−= −++−+−= +++= ∑∑ ∑∑∑ ∑ − ∑ − ∑ − === === k k ij k k n i ik n i i n i i n i n i n i n T L n T x n T xL n T x n T x kik L ii SSE k k xxxxxx 2 1 2 1 2 2 1 2 2 2 2 1 2 2 1 2 1 1 2 1 1 2 1 2 1 2 21 11 2211 + Từ công thức trên ta thấy: SST = SSF+SSE Trung bình bình phương của nhân tố, kí hiệu là MSF được tính bởi công thức: 1 SSF MSF k = − k – 1 được gọi là bậc tự do của nhân tố. Trung bình bình phương của sai số, kí hiệu là MSE được tính bởi công thức: 6 Bài tập lớn – Xác suất thống kê SSE MSE n k = − n – k được gọi là bậc tự do của sai số. Tỉ số F được tính bởi công thức: F= MSE MSF Các kết quả nói trên được trình bày trong bảng sau đây gọi là ANOVA. Bảng ANOVA Nguồn Tổng bình phương Bậc tự do Trung bình bình phương Tỷ số F Nhân tố SSF k – 1 MSF MSF/MSE Sai số SSE n – k MSE Tổng số SST n - 1 Người ta chứng minh được rằng nếu giả thuyết H0 đúng thì tỉ số F sẽ có phân bố Fisher với bậc tự do là (k – 1,n – k) Thành thử giả thuyết Ho sẽ bị bác bỏ ở mức ý nghĩa của phân bố Fisher với bậc tự do là (k – 1,n – k). k – 1 được gọi là bậc tự do ở mẫu số. Giả thuyết : H 0 : μ 1 = μ 2 =…= μ k : “ Các giá trị trung bình bằng nhau” Bảng ANOVA được tiến hành theo trình tự sau đây: Bước 1: Tính SSF Bứớc 2: Tính SST Bước 3: Tính SSE=SST – SSF Bứoc 4: Tính MSF=SSF/K – 1 Bước 5: Tính MSE=SSE/N – 1 Bước 6: Tính F=MSF/MSE Bước 7: Tra bảng phân bố F để tìm c rồi so sánh với F và rút ra kết luận: Nếu F > Fα thì bác bỏ giả thuyết H 0 và ngược lại. 7 Bài tập lớn – Xác suất thống kê 2. Áp dụng MS-EXCEL : a. Nhập dữ liệu vào bảng tính : Áp dụng “Anova: Single factor”(MS-EXCEL 2003) b. Nhấp lần lượt Data tab và Data Analysis tab. c. Chọn chương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấp nút OK. d. Trong hộp thoại Anova: Single Factor lần lượt xác định: - Phạm vi đầu vào (Input Range) - Cách sắp xếp theo hàng hay cột (Group by) - Nhãn dữ liệu (Label in First Row/Column). 8 Bài tập lớn – Xác suất thống kê e. Nhấn OK, ta có bảng kết quả sau 3. Kết quả: F = 10.36 > F0.05 = 2.87 ⇒ Bác bỏ giả thuyết H 0 . 9 Bài tập lớn – Xác suất thống kê BÀI 3: Tuổi và huyết áp của của 10 bệnh nhân trẻ em ( dưới 14 tuổi) , chọn ngẫu nhiên được cho trong bảng dưới đây : Trong đó X là tuổi còn Y là huyết áp. Tính tỉ số tương quan, hệ số tương quan, hệ số xác định của Y đối với X. Với mức ý nghĩa alpha = 5%, có kết luận gì về mối tương quan giữa X và Y( phi tuyến hay tuyến tính) ? Tìm đường hồi quy mẫu của Y đối với X. Tính sai số tiêu chuẩn của đường hồi quy. I.CƠ SỞ LÍ THUYẾT 1. Tỉ số tương quan: Để đo mức độ phụ thuộc của ĐLNN X vào ĐLNN Y, ta dùng khái niệm ti số tương quan. Tỉ số tương quan lí thuyết được kí hiệu 2 /Y X η : 2 2 2 / ( ( / )) ( ( / )) 1 Y X E Y E Y X DY E Y E Y X DY DY η − − − = − = Trong đó E[Y/X] : kỳ vọng của Y với điều kiện X. Người ta chứng minh được 0 ≤ 2 /Y X η ≤ 1 và 2 2 /Y X ρ η ≤ . Hiệu số 2 /Y X η - 2 ρ càng lớn thì sự tương quan phi tuyến càng mạnh. Ta có bảng tương quan sau: (1) X (2) X … (4) X ( )k X 1 11 21 1 n y y y 2 12 22 2 n y y y …. …. …. …. 1 2 k k k n k y y y 1 n 2 n …. k n n= i n ∑ 1 T 2 T … k T T= i T ∑ Ký hiệu: 1 i n i ji i T y = = ∑ ( tổng các số liệu ji y ở cột ( )i x ) T = i T ∑ i n là số các số liệu ở cột ( )i x . + Tổng bình phương chung: 10 Bài tập lớn – Xác suất thống kê Y X [...]... =sum(B2:B5) T=sum(B6:G6) Bảng B: 12 Bài tập lớn – Xác suất thống kê T=sum(B6:G6) =sum(B2:B5) 1 Tính tỷ số tương quan: BẢNG A: ( 1018 ) T2 ∑∑ yij − n = 11 264 2 − 10 = 9009, 6 2 2 2 2 k Ti 2 T 2  ( 100 ) ( 255) + + ( 85 )  − ( 1018) = 4103, 6 = + ÷ SSF = ∑ − n  1 3 1 ÷ 10 i =1 ni   SSF 4103 .6 ζ ηY /2X = = = 0.455 SST 9009 .6 BẢNG B: 2 ( 1 066 ) = 63 10, 4 T2 2 SST = ∑∑ yij − = 1199 46 − n 10 2 2 2 2 2... Y = 3.111*X + 86. 065 5 Tính sai số tiêu chuẩn: Bảng A: ∑ y 2 − a∑ xy − b∑ y = 11 264 2 − 1.72*7144 − 90, 424*1018 = 1037.8 2 sYX = n−2 10 − 2 Bảng B: ∑ y 2 − a∑ xy − b∑ y = 1199 46 − 3.111*7750 − 86. 0 56* 1 066 = 512.5 2 sYX = n−2 10 − 2 BÀI 4: Bảng sau đây cho ta số liệu về màu tóc của 422 người: Với mức ý nghĩa 1%, nhận định xem số liệu có mối quan hệ giữa màu tóc và giới tính hay không 16 Bài tập lớn –... sau: ( nij −γij ) 2 k k i= 1 j= 1 χ =∑ ∑ 2 0 γij = γij ni m j n Sau khi sử dụng với Excel ta có bảng số liệu γij như sau: - Từ đó: ( 56 −40.872) 2 (32 −47.128) 2 (38 −30, 5 261 ) 2 χ = + + + 40.872 47.128 30, 5 261 2 0 - Hoặc sử dụng hàm trong Excel: = CHITEST(B2:C5,B12:C15) Ta có: - Bước 3: Kết luận: Vì 2 χ0 c thì giả thuyết H 0 bị bác bỏ 4.Đường hồi quy mẫu của Y đối với X: Giả sử X là một biến nào đó, còn Y là 1 ĐLNN phụ thuộc vào X theo cách: Nếu X=x, thì Y sẽ có kì vọng là α x + β , 11 Bài... _ n _ ∑ ( xi − x)2 ∑ ( yi − y )2 i =1 i =1 r được gọi là hệ số tương quan Để tính toán ta thường sử dụng công thức: n(∑ xy ) − (∑ x)(∑ y ) r= ; n ∑ x 2 − (∑ x ) 2 n ∑ y 2 − (∑ y ) 2 r cũng thuộc đoạn [-1 ,1] Hệ số xác định là bình phương của hệ số tương quan Hệ số xác định = r 2 3.Xác định mối tương quan giữa 2 đại lượng ngẫu nhiên: → Kiểm định xem giữa X và Y có tương quan phi tuyến hay không: H 0 . ÷  ÷   ∑ 2 / 4103 .6 0.455 9009 .6 Y X SSF SST ζ η = = = BẢNG B: SST = ( ) 2 2 2 1 066 1199 46 6310,4 10 ij T y n − = − = ∑∑ SSF = ( ) ( ) ( ) ( ) 2 2 2 2 2 2 1 110 265 65 1 066 5531.07 1 3 1 10 k i i i T T n. 3.111*X + 86. 065 5. Tính sai số tiêu chuẩn: Bảng A: 2 2 11 264 2 1.72*7144 90,424*1018 1037.8 2 10 2 YX y a xy b y s n − − − − = = = − − ∑ ∑ ∑ Bảng B: 2 2 1199 46 3.111*7750 86. 0 56* 1 066 512.5 2 10. và ngược lại. d. Giải thuật: - Tính các tổng số - Tổng hàng (row totals) - Tổng cột (column totals) -Tổng cộng (grand total) - Tính các tần số lý thuyết - Tần số lý thuyết = tổng hàng

Ngày đăng: 11/08/2014, 01:22

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan