PHÂN TÍCH PHƯƠNG SAI ANOVA

20 2.9K 0
PHÂN TÍCH PHƯƠNG SAI ANOVA

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

PHẦN A: MINH HỌA CÁC VÍ DỤ VỀ PHÂN TÍCH PHƯƠNG SAI ANOVA Phân tích phương sai nhân tố: Một nghiên cứu thực nhằm xem xét suất lúa trung bình giống lúa Kết thu thập qua năm sau: Năm A B C 65 69 75 74 72 70 64 68 78 83 78 76 Hãy cho biết suất lúa trung bình giống lúa có khác hay không? α = 0.01 Bài giải Gọi Xi suất lúa trung bình giống lúa thứ i, i = 1,3 Xi ~ N ( µ i , σ ) Xét giả thuyết H0: µ1 = = µ3 , suất lúa trung bình giống lúa H1: ∃i ≠ j : µi ≠ µ j , suất lúa trung bình giống lúa khác Ta có bảng ANOVA sau: Anova: Single Factor SUMMARY Groups Count Sum Average Variance A 286 71.5 79 B 287 71.75 20.25 C 299 74.75 11.58333 ANOVA Source of Variation Between Groups SS df MS 26.16667 13.08333 F P-value F crit 0.354135 0.711136 8.021517 Within Groups 332.5 Total 36.94444 358.6667 11 Kết luận Vì F = 0.354135 < Fk −1;n −k ;1−α = 8.021517 nên ta chấp nhận giả thuyết H0, nghĩa suất lúa trung bình giống lúa Phân tích phương sai nhân tố không lặp: Có công ty tài yêu cầu dự đoán tốc độ tăng trưởng (%) năm tới công ty ngành nhựa Dự đoán ghi nhận sau: Chuyên gia Công ty A B C D 12 8.5 13 14 10 11 11 12 10 13 10 13 12 10 10 10 Hãy lập bảng ANOVA Có thể nói dự đoán tốc độ tăng trưởng trung bình cho năm công ty nhựa không? α = 0.05 Bài giải Gọi Xij dự đoán tốc độ tăng trưởng trung bình công ty nhựa thứ i chuyên gia công ty tài thứ thứ j, i = 1,5, j = 1, , Xij ~ N (α i + β j , σ ) Xét giả thuyết H0: α1 = α , nghĩa tốc độ tăng trưởng trung bình công ty nhựa H0’: β1 = β , nghĩa công ty tài dự đoán Ta có bảng ANOVA sau: Anova: Two-Factor Without Replication SUMMARY Count Sum Average Variance 41.5 10.375 6.229167 44 11 4.666667 42 10.5 1.666667 4 45 11.25 4.25 42 10.5 A 54 10.8 5.7 B 54 10.8 2.7 C 49.5 9.9 1.8 D 57 11.4 2.3 ANOVA Source of Variation Rows SS df MS F P-value F crit 2.3 0.575 0.144654 0.961924 3.259167 5.7375 1.9125 0.481132 0.701475 3.490295 Error 47.7 12 3.975 Total 55.7375 19 Columns Kết luận + Vì FA = 0.144654 < F4;12;0.95 = 3.259167 nên tốc độ tăng trưởng trung bình công ty nhựa + Vì FB = 0.481132 < F4;12;0.95 = 3.490295 nên dụ đoán công ty Phân tích phương sai nhân tố có lặp: Hãy phân tích tình hình kinh doanh số ngành nghề quận sở số liệu doanh thu số hàng sau: Quận Ngành nghề kinh doanh Điện lạnh Q1 Q2 Q3 Q4 2.5 3.1 2.2 11.2 2.7 3.5 12 2.7 9.5 19.8 Vật liêu xây dựng Dịch vụ tin học 3.2 2.1 15.8 0.6 1.2 3.3 4.2 10.4 2.3 11.2 9.8 6.7 3.8 8.3 1.8 1.9 2.5 4.2 3.2 0.4 3.1 3 6.2 7.8 9.8 3.6 3.3 2.5 2.8 3.9 Giải Gọi Xijk quan sát thứ k doanh thu ứng với ngành thứ i quận thứ j, k = 1,4, i = 1,3, j = 1,4 ; Xijk ~ N ( µ , α i + β j , σ ) Xét giả thuyết H0: α1 = α , nghĩa tình hình kinh doanh ngành nghề H0’: β1 = β , nghĩa tình hình kinh doanh quận Ta có bảng ANOVA sau: Anova: Two-Factor With Replication SUMMARY Q1 Q2 Q3 Q4 Total Điện lạnh Count 4 4 16 Sum 10.2 12.5 15.8 58.8 97.3 Average 2.55 3.125 3.95 14.7 6.08125 0.176667 0.109167 13.69667 15.58667 32.58963 Variance Vật liêu xây dựng Count Sum 4 4 16 30.5 13.8 14.2 11.5 70 Average 7.625 Variance 3.45 3.55 2.875 4.375 23.42917 18.03667 4.756667 2.089167 13.48867 Dịch vụ tin học Count 4 4 16 18.7 16.5 16 11.6 62.8 4.675 4.125 2.9 3.925 1.515833 6.089167 16.34667 1.713333 5.575333 Sum Average Variance Total Count 12 12 12 12 Sum 59.4 42.8 46 81.9 Average 4.95 3.566667 3.833333 6.825 Variance 11.57545 6.798788 9.535152 39.11477 ANOVA Source of Variation SS df MS F P-value F crit Sample 41.40375 20.70188 2.399155 0.105169 3.259446 Columns 78.94229 26.3141 3.049559 0.040902 2.866266 Interaction 385.2246 64.2041 7.440658 3.14E-05 2.363751 Within 310.6375 36 8.628819 Total 816.2081 47 Kết luận Vì P-value hàng = 0.105 > α = 0.05 nên ta chấp nhận giả thuyết H 0, nghĩa ngành nghề khác không ảnh hưởng đến tình hình kinh doanh Vì P-value cột = 0.04 < α = 0.05 nên ta bác bỏ giả thuyết H0’, nghĩa quận khác tình hình kinh doanh cửa hàng khác PHẦN B PHÂN TÍCH THÀNH PHẦN CHÍNH MINH HỌA BÀI TẬP VỚI SỬ DỤNG PHẦN MỀM SPSS A CƠ SỞ LÝ THUYẾT: Đặt vấn đề: Phân tích thành phần (Principal Component Analysis – PCA) phương pháp phân tích liệu nhiều biến đơn giản Khi không gian có số chiều lớn, ta cần phải tìm cách đưa liệu không gian có số chiều nhỏ PCA phương pháp với nhiều đặc tính tốt: • Giúp giảm số chiều liệu, Thay giữ lại trục tọa độ không gian cũ, PCA xây dựng không gian chiều hơn, lại có khả biểu diễn liệu tốt tương đương không gian cũ, nghĩa đảm bảo độ biến thiên liệu chiều • • Các trục tọa độ không gian tổ hợp tuyến tính không gian cũ, mặt ngữ nghĩa, PCA xây dựng feature dựa feature quan sát Điểm feature biểu diễn tốt liệu ban đầu Trong không gian mới, liên kết tiềm ẩn liệu khám phá, mà đặt không gian cũ khó phát hơn, liên kết rõ • Nói cách ngắn gọn, mục tiêu PCA tìm không gian (với số chiều nhỏ không gian cũ) Các trục tọa độ không gian xây dựng cho trục, độ biến thiên liệu lớn có thể, gọi maximize the variability Ba chữ gói gọn ý tưởng PCA Các kiến thức sở ý tưởng phân tích thành phần chính: a Giá trị riêng, vectơ riêng: Giả sử R n với tích vô hướng gắn với ma trận vuông A, f ánh xạ tuyến tính từ R n vào R n Véc tơ v ≠ R n vectơ riêng f nếu: f ( v ) = λv ( λ số khác không ) Khi λ gọi giá trị riêng ánh xạ f Nếu tồn sở R n cho ma trận A biểu diễn sở có dạng chéo ma trận A chéo hóa được, tức tồn ma trận P khả nghịch cho: A ' = P −1A P có dạng chéo b Kỳ vọng phương sai thống kê chiều chiều: + Kỳ vọng: Trong thống kê nhiều chiều, mẫu thống kê vectơ nhiều chiều Giả sử ta có biến ngẫu nhiên X = [ x , x , , x n ] , kỳ vọng E [ X ] ước lượng trung N bình mẫu X với: X = ∑ X i , với N tổng số mẫu thống kê N i =1 + Ma trận hiệp phương sai: Giá trị phương sai thống kê chiều để đo mức độ phân tán biến ngẫu nhiên xung quanh kỳ vọng Trong thống kê nhiều chiều, giá trị mở rộng T thành ma trận hiệp phương sai: C = E  X − E [ X ]   X − E [ X ]  Ma trận hiệp phương sai ma trận đối xứng, phần tử ϕij ma trận hiệp phương sai thể mối quan hệ thành phần x i x j vectơ X ϕij = cov ( X i , X ) j DX i DX j Nếu ϕij = ta nói thành phần x i x j độc lập với nhau, ϕij ≠ x i x j không độc lập hay chúng phụ thuộc lẫn c PCA (Principal Component Analysis ) Giả sử ta cần giảm số chiều từ tập mẫu n chiều ban đầu x = av 1 + a2v + + aNv N (trong v , v , , v N sở không gian N chiều) xuống thành k chiều với y = b1u1 + b2u + + b N u k ( u1 , u , , u N sở không gian K chiều Gọi M tổng số mẫu có thống kê Gọi x vectơ không gian n chiều, y vectơ không gian k chiều Phương pháp PCA tìm phép biến đổi tuyến tính T thỏa: y = T x với T ma trận cấp kxn cho trung bình bình phương lỗi bé b1 = t 11a1 + t 12a2 + + t 1naN b2 = t 21a1 + t 22a2 + + t n aN … b k = t k 1a1 + t k 2a2 + + t kn aN  t 11 t 12 t  21 t 22 T = với   t K t K t 1N  t N    t KN  M Gọi x vectơ trung bình vectơ x tập X: x = ∑x i M i =1 Gọi C ma trận hiệp phương sai phần tử tập X: C = ( M ∑ xi −x M − i =1 )(x i −x ) T Khi T ma trận mà hàng vectơ riêng C m vectơ riêng ( m hàng ma trận T) ứng với m trị riêng lớn T phép biến đổi tuyến tính thỏa điều kiện trung bình bình phương lỗi loại bỏ số thành phần x để thu y bẳng tổng phương sai thành phần bị loại bỏ nhỏ Gọi Φ ma trận vuông nxn mà cột vectơ riêng C chuẩn hóa với y = ( y , y , , y n ) phép biến đổi y = ΦT x Tóm lại, phương pháp phân tích thành phần ánh xạ vectơr từ không gian n chiếu xuống không gian k chiều tìm trị riêng vectơr riêng ma trận hiệp phương sai C tập X giữ lại k vectơr riêng ứng với k trị riêng lớn làm sở cho không gian k chiều Tóm tắt phân tích thành phần : gồm bước sau: Giả sử X biến ngẫu nhiên không gian N chiều M tổng số mẫu có thống kê  B1: x = M M ∑x i =1 i  B2: Thực Φ i = x i − x  B3:Lập ma trận A = [ Φ1 Φ Φ M ] tính C = M M ∑Φ Φ i =1 i T i =AAT  B4: Tính giá trị riêng C: λ1 ≥ λ2 ≥ ≥ λN  B5: Tính vectơ riêng C: u1 ,u , ,u N Vì C đối xứng (N x N) nên u1 ,u , ,u N sở ta có: x − x = b1u1 + b2u + + bN u N  B6: (Giảm số chiều) Giữ lại thuộc tính tương ứng giá trị riêng lớn K xµ − x = ∑ bi u i K [...]... 1.000 812 x13 1.000 671 x14 1.000 624 x15 1.000 781 Extraction Method: Principal Component Analysis Phương sai tương đối của các yếu tố đơn giản là tổng bình phương của các thành phần và đại diện cho lượng phương sai của biến số chiếm đa số trong các thành phần Ví dụ, cả sáu thành phần chiếm 78.1% phương sai trong biến số x15 ( 0.781) Để xác định một thành phần có liên quan hay không, chúng ta có thể... EFA, 0.5≤KMO≤1 thì phân tích nhân tố là thích hợp Kiểm định Bartlett xem xét giả thuyết Ho: độ tương quan giữa các biến quan sát bằng không trong tổng thể Nếu kiểm định này có ý nghĩa thống kê (Sig ≤ 0.05) thì các biến quan sát có tương quan với nhau trong tổng thể Các bảng thống kê mô tả đơn giản là báo cáo, có nghĩa là độ lệch tiêu chuẩn, số trường hợp cho mỗi biến trong phân tích 14 Descriptive... 788 100.000 Extraction Method: Principal Component Analysis Trong hình trên, bạn quan tâm đến một con số ở cột cuối cùng của dòng số 6 (vì có 6 nhân tố được rút ra) Con số này là 76.908 Người ta nói phương sai trích bằng 76.908 % Con số này cho biết 6 nhân tố giải thích được 76.908 % biến thiên của các biến quan sát (hay của dữ liệu) Scree Plot 16 Biểu đồ gấp khúc thể hiện thông tin trong bảng trước...Khi chọn Descriptives, hộp thoại như xuất hiện, đánh dấu chọn KMO and Bartlett’s test of sphericity Khi chọn Extraction, hộp thoại xuất hiện Ta sử dụng phương pháp trích mặc định của SPSS là Principal components Một phương pháp hay được sử dụng khác là Principal axis factoring Tiếp theo, nhấn nút Continue, sau đó nhấp vào Scores Scores sẽ thêm các cột mới vào tập dữ liệu của chúng ta,

Ngày đăng: 26/07/2016, 05:49

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan