Phân tích phương sai

34 542 1
Phân tích phương sai

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ứng dụng phần mềm R trong phân tích thống kê

Phân tích phương sai Phân tích phương sai là một trong những nội dung của thống kê phân tích. Nội dung cơ bản của phân tích phương sai về mặt kĩ thuật là tìm cách phân chia tổng sai số bình phương của một biến ngẫu nhiên X thành những bộ phận khác nhau, mà mỗi bộ phận này phản ánh tổng bình phương sai số của X theo một đặc trưng nào đó. Đặc trưng được xác định tuỳ thuộc vào mục đích nghiên cứu thống kê. Với phần này chúng ta sẽ bắt đầu bằng một phân tích đơn giản, sau đó sẽ xem đến phân tích phương sai hai chiều, các phương pháp phi tham số thông dụng. 11.1. phân tích phương sai đơn giản (one-way analysis of variance- ANOVA) Ví dụ 1. Bảng thống kê dưới đây đưa ra mật độ dân số 4 miền của một tỉnh. Đvt: ng/km2 qs F1(Bắc ) F2(Nam ) F3(Tây ) F4( cậ n Tây) 1 293 121 114 136 2 280 116 176 164 3 283 223 224 117 4 242 238 183 153 5 268 118 159 152 6 184 222 149 108 Câu hỏi đặt ra là mật độ dân số giữa 4 miền của một tỉnh có khác nhau hay không? Gọi giá trị trung bình của cả bốn nhóm là α1, α2, α3 và α4 và bây giờ chúng ta phải đi kiểm định cặp giả thiết: KĐGT: Ho: α1 = α2 = α3 = α4 H1: có một khác biệt giữa 4 αj (j=1,2,3,4) 11.1.1 Mô hình phân tích phương sai Gọi mật độ dân số mỗi miền của mỗi quan sát thứ i thuộc nhóm j là thuộc nhóm j (j = 1, 2, 3) là xij. Mô hình phân tích phương sai phát biểu rằng: x ij = µ + αij + εij [1] Hay cụ thể hơn: xi1 = µ + α1 + ε i1 xi2 = µ + α2 + ε i2 xi3 = µ + α3 + ε i3 xi4 = µ + α4 + ε i4 Với lý thuyết về mô hình phân tích phương sai, sử dụng Excel, với bậc tự do k-1 và N-k ta có được một bảng phân tích phương sai (ANOVA table) như sau: Theo đó: • Tổng bình phương sai số cho toàn bộ mẫu là: TSS= WSS+GSS=  • Tổng bình phương sai số giữa các trung bình nhóm và trung bình chung là GSS= 48022.79 • Tổng bình phương sai số của giá trị cá biệt với trung bình nhóm là WSS= 35492.17 11.1.2 Phân tích phương sai đơn giản với R Tất cả các tính toán trên tương đối rườm rà, và tốn khá nhiều thời gian. Tuy nhiên với R, các tính toán đó có thể làm trong vòng 1 giây, sau khi dữ liệu đã được chuẩn bị đúng cách. (a) Nhập dữ liệu. với bộ số liệu “tr134.csv” chúng ta cần nhập dữ liệu vào R bằng lệnh read.csv() Ta thực hiện các lệnh trong R như sau: Trong hàm  trên chúng ta cho R biết biến  là một hàm số của Gọi kết quả phân tích là (b) Kết quả phân tích phương sai. Bây giờ chúng ta dùng lệnh anova để biết kết quả phân tích: Trong kết quả có 3ba cột: ( Degrees of freedom) là bậc tự do; là tổng bình phương( sum of squares), là trung bình bình phương ( mean square);  là giá trị được tính ; và !" là trị số P liên quan đến kiểm định F. Dòng  trong kết quả trên có nghĩa là bình phương giữa các nhóm (GSS) và # là bình phương trong mỗi nhóm (WSS). Trị số p=0.0005568 có nghĩa là tín hiệu cho thấy có sự khác biệt về mật độ dân số giừa 4 miền. (c) Ước số. Để biết thêm chi tiết kết quả phân tích, chúng ta dùng lệnh như sau: Theo kết quả trên đây, intercept chính là µ-mũ=258.33 và sai số chuẩn là 17.20 Để ước tính thông số αj_mũ, R đặt α1_mũ =0, và α2-mũ= α2_mũ - α1_mũ = -85.33, với sai số chuẩn là 24.32 và kiểm định t= -85.33/24.32=-3.509 với trị số p=0.00221. Nói cách khác, so với nhóm 1(miền Bắc), mật độ dân số trung bình miền Nam thấp hơn, có ý nghĩa thống kê. Tương tự so với miền Bắc, mật độ đân số trung bình miền Tây ( p=0.00131) và Cận Tây(p=8.00e-05) thấp hơn, có ya nghĩa thống kê. 11.2. So sánh nhiều nhóm ( multiple comparisons) và điều chỉnh trị số p. Cho k  nhóm,chúngtacóítnhấtlà k(k-1)/2sosánh.  Vídụtrêncó4nhóm,cho nêntổngsốsosánhkhảdĩlà6(giữanhóm1và2,nhóm1và3,nhóm 1 và 4,nhóm2và3, nhóm 2 và 4, nhóm 3 và 4 ).  Khi k=10, sốlầnsosánhcóthểlênrấtcao. Trong trường hợp có nhiều so sánh, chúng ta cần phải điều chỉnh trị số p sao cho hợp lí. Cókhánhiềuphươngphápđiềuchỉnhtrịsốp,và4phươngphápthôngdụngnhất là:  Bonferroni,  Scheffé,  Holm  và  Tukey  (tên  của  4 nhà  thống  kê  học  danh  tiếng). Phươngphápnàothíchhợpnhất?  Khôngcócâutrảlờidứtkhoátchocâuhỏinày,nhưng haiđiểmsauđâycóthểgiúpchúng ta quyếtđịnhtốthơn: (a) Nếu k<10,chúngtacóthểápdụngbấtcứphươngphápnàođểđiều chỉnhtrịsốp.  RiêngcánhântôithìthấyphươngphápTukeythường rấthữuíchtrongsosánh. (b) Nếu k>10,phươngphápBonferronicóthểtrởnênrất“bảothủ”.  Bảo thủởđâycónghĩalàphươngphápnàyrấtítkhinàotuyênbốmộtso sánh  có  ý  nghĩa  thống  kê,  dù  trong  thực  tế  là  có  thật!  Trong  trường hợpnày,haiphươngphápTukey,HolmvàScheffécóthểápdụng. Ở đây, tôi sẽ không giải thích lí thuyết đằng sau các phương pháp này mà sẽ chỉ cách sử dụng R để tiến hành các so sánh theo phương pháp của Tukey. Quaylạivídụtrên,cáctrịsốptrênđâylànhữngtrịsốchưađượcđiềuchỉnhcho sosánhnhiềulần.  Trongchươngvềtrịsốp,tôiđãnóicáctrịsốnàyphóngđạiýnghĩa thống kê,khôngphảnánhtrị  sốplúcbanđầu(tức 0.05).  Đểđiềuchỉnhchonhiềuso sánh,chúngtaphảisửdụngđếnphươngphápđiềuchỉnhBonferroni. Chúngtacóthểdùnglệnhpairwise.t.testđểcóđượctấtcảcáctrịsốpso sánhgiữabốn nhómnhưsau: Kết quả trên cho thấy trị số p giữa nhóm 1( Bắc) và nhóm 2(Tây) là 0.01327( tức có ý nghĩa thống kê); giữa nhóm 1 và 3 là 0.00784 (có ý nghĩa thống kê); nhóm 1 và 4 là 0.00048( có ý nghĩa thống kê); còn giữa các nhóm 2 và3, 2 và 4, 3 và 4 đều là 1( tức không có ý nghĩa thống kê) Một phương pháp điều chỉnh trị số p khác có tên là Holm: Kết quả này kũng không khác so với phương pháp Bonferroni. Tất cả các phương pháp so sánh trên sử dụng một sai số chuẩn chung cho cả 4 nhóm. Nếu chúng ta muốn sử dụng cho từng nhóm thì lệnh sau đây#$ sẽ đáp ứng yêu cầu đó: Một lần nữa kết quả này cũng không làm thay đổi kết luận. 11.2.1. So sánh nhiều nhóm bằng phương pháp Tukey Trong  các  phương  pháp  trên,  chúng  ta  chỉ  biết  trị  số  p  so  sánh  giữa  các  nhóm, nhưngkhôngbiếtmứcđộkhácbiệtcũngnhưkhoảngtincậy95%giữacácnhóm.  Đểcó nhữngướcsốnày,chúngtacầnđếnmộthàmkháccótênlà  (viếttắttừanalysisof variance)vàhàm  %&'(HSDlàviếttắttừHonestSignificantDifference,tạmdịch nômnalà“Khácbiệtcóýnghĩathànhthật”)nhưsau: Kết quả trên cho thấy nhóm 2 và nhóm 1 khác nhau khoảng 85 đơn vị, và khoảng tin cậy 95% từ -153 đến -17. Tượng tự nhóm 3 và nhóm 1 khác nhau khoảng 90 đơn vị, và khoảng tin cậy 95% từ -158 đến -22; nhóm 4 và nhóm 1 khác nhau 120 đơn vị, và khoảng tin cậy 95% từ -188 đến -51. Với lệnh Ta có biểu đồ trung bình biệu và khoảng tin cậy 95% giữa nhóm 1 và 2, 1 và 3, 1và 4, 2 và 3, 2 và 4, và cuối cùng là 3 và 4 Biểu đồ 11.1 11.3. Phân tích bằng phương pháp phi tham số Phương  pháp  so  sánh  nhiều  nhóm phi  thamsố  (non-parametric  statistics)  tương đươngvớiphươngphápphântíchphươngsailàKruskal-Wallis.  Cũngnhưphươngpháp Wilcoxonsosánhhainhómtheophươngphápphithamsố,phươngphápKruskal-Wallis cũngbiếnđổisốliệuthànhthứbậc(ranks)vàphântíchđộkhácbiệtthứbậcnàygiữacác nhóm.  Hàm&&  trong R cóthểgiúpchúngtatrongkiểmđịnhnày: Trịsốptừkiểmđịnhnàykháthấp(p=0.006463)chothấycósựkhácbiệtgiữa bốnnhómnhưphântíchphươngsaiquahàmlmtrên đây.  Tuynhiên,mộtbấttiệncủa kiểmđịnhphithamsốKruskal-Wallislàphươngphápnàykhôngchochúngtabiếthai nhómnàokhácnhau,màchỉchomộttrịsốpchung.  Trongnhiềutrườnghợp,phântích [...]... quả như các phương pháp thống kê tham số (parametric statistics) 11.4 Phân tích phương sai hai chiều( two-way analysis of variance-ANOVA) Phân tích phương sai đơn giản hay một chiều chỉ có một yếu tố (factor) Nhưng phân tích phương sai hai chiều (two-way ANOVA), như tên gọi, có hai yếu tố Phương pháp phân tích phương sai hai chiều chỉ đơn giản khai triển từ phương pháp phân tích phương sai đơn giản... tố máy và công nhân, chúng ta càn phải có một đò thị, mà trong phân tích phương sai gọi là đồ thị tương tác Hàm interaction.plot cung cấp phương tiện để vẽ biểu đồ này: Biểu đồ 11.3 Công suất trung bình cho từng loại máy cho 3 công nhân 12 Phân tích hồi qui logistic Trong các chương trước về phân tích hồi qui tuyến tính và phân tích phương sai, chúng ta tìm mô hình và mối liên hệ giữa một biến phụ thuộc... 3), congsuat(cột 4) Sau đó tất cả cho vào một dataframe tên là data: (b) Phân tích và kết quả khái quát Bây giờ số liệu đã sẵn sàng cho phân tích Để phân tích phương sai hai chiều, chúng ta vẫn sử dụng lệnh lm với các thông số như sau: Ba nguồn dao động( variation) của congsuat được phân tích trong bảng trên Qua trung bình bình phương (mean square), chúng ta thấy ảnh hưởng của người công nhân có vẻ... pháp phân tích phương sai đơn giản Thay vì ước tính phương sai của một yếu tố, phương pháp phân sai hai chiều ước tính phương sai của hai yếu tố ví dụ 2 Quan sát 3 công nhân được đào tạo ở 3 cơ sở đào tạo, có cùng bậc thợ, làm việc trên 10 máy cùng loại của 10 cơ sở khác nhau.Có số liệu về số sản phẩm trong ca (X) như sau: Mô hình phân tích phương sai : µ là số trung bình cho toàn quần thể, các hệ số... biến này ra ngoài mô hình và ta có một mô hình đơn giản hơn: Phân tích phương sai trên deviance sau đây cũng khẳng định income,age, newcustomer, notran, notran3, wpcompany, wpmanager là các biến có ảnh hưởng đến default.int : 12.5 Phân tích hồi qui đa biến và chọn mô hình Một trong những vấn đề khó khăn và có khi khá nan giản trong việc phân tích hồi qui logistic đa biến là chọn một mô hình để có thể... bình cho toàn quần thể, các hệ số αi( ảnh hưởng của loạ máy) và βj ( ảnh hưởng của công nhân j) cần phải ước tính từ số liêu thực tế, Ԑij được giả định tuân theo luật phân phối chuẩn với trung bình 0 và phương sai σ² 11.4.1 Phân tích phương sai hai chiều với R (a) Bước đầu tiên là nhập số liêu từ bảng trên vào R Chúng ta cần phải tổ chức dữ liệu sao cho có 4 biến như sau: công nhân máy 1 1 1 1 Đối tượng... số liệu vào R theo đúng cách: Bây giờ chúng ta có thể sử dụng hàm glm để phân tích số liệu Trong hàm glm trên, chúng ta mô phỏng default.int như là một hàm số của income,age, newcustomer, notran, notran3, wpcompany, wpmanager, spending, experience, vẫn với phân phối nhị phân (binomial) Bây giờ chúng ta có thể xem qua kết quả phân tích: Kết quả trên cho thấy biến spending và experience không có ý nghĩa... generalized linear model) trong R có thể áp dụng, với các lệnh sau: Giải thích các kết quả trên: a) Trong lệnh Chúng ta yêu cầu R phân tích theo mô hình default.int là một hàm số với income như mô hình [4] Trong glm có hiều luật phân phối, mà trong đó phân phối nhị phân( binomial) là một luật phân phối chuẩn cho hồi qui logistic Do đó, sử dụng lệnh family=”binomial” b) Deviance: phần thứ nhất về kết quả cho biết... sự thuần nhất của trung bình theo dòng, cột hây theo ô đều không bị bác bỏ (d) Hiệu ứng tương tác( interaction effects) Để cho phân tích được hoàn tất, cần phải xem xét đến khả năng ảnh hưởng của 2 yếu tố này có thể tương tác nhau Tức mồ hình ban đầu trở thành Kết quả phân tích trên (p=0.7184) cho ảnh hưởng tương tác giứa loại máy và công nhân Chúng ta có bằng chứng để kết luận rằng ảnh hưởng tương... 12.4 Phân tích hồi qui logistic với nhiều biến độc lập bằng R Ví dụ 2 Vẫn với tệp số liệu leha.csv thầy vì chỉ xét mối liên hệ giữa biến default.int và biến income, ta sẽ nghiên cứu sự ảnh hưởng từ các biến income,age, newcustomer, notran, notran3, wpcompany, wpmanager, spending, experience đến biến phụ thuộc default.int Các biến độc lập ở đây có thể là biến liên tục và biến thứ bậc Để phân tích mối

Ngày đăng: 20/04/2014, 14:30

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan