tieu luan ung dung cua phan tich chum

32 239 2
tieu luan ung dung cua phan tich chum

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài toán phân tích chùm được thực hiện dựa vào đánh giá mức độ gần xa của các phần tử mà chúng gọi chung là sự tương tự của dử liệu. Khi dữ liệu rời rạc, sự tương tự này được đánh giá qua đại lượng khoảng cách. Khi dữ liệu là hàm mật độ xác suất nó được đánh giá qua nhiều khái niệm khác nhau như khoảng cách, độ rộng chùm,... Trong thực tế, bài toán nhận dạng thống kê có rất nhiều ứng dụng. Chẳng hạn như ứng dụng trong y học, ứng dụng trong xã hội, tài chính, kinh tế… Trong tiểu luận này này, chúng tôi sẽ trình bày tóm tắt kiến thức cơ bản về phân tích chùm, đưa ra những ví dụ minh họa thuật toán và đưa ra những ứng dụng cụ thể đối với bài toán phân tích chùm chạy bằng phần mềm SPSS và MATLAP.

MỤC LỤC CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 GIỚI THIỆU 1.2 KHOẢNG CÁCH GIỮA CÁC PHẦN TỬ RỜI RẠC 1.2.1 Khoảng cách hai phần tử rời rạc 1.2.2 Khoảng cách gữa hai nhóm liệu rời rạc 1.3 KHOẢNG CÁCH CỦA HAI HAY NHIỀU HƠN HAI HÀM MẬT ĐỘ 1.3.1 Khoảng cách 1.3.2 Độ rộng chùm: CHƯƠNG 2: THUẬT TỐN PHÂN TÍCH CHÙM .4 2.1 THUẬT TOÁN XÂY DỰNG CHÙM CHO DỮ LIỆU RỜI RẠC .4 2.1.1 Phương pháp thứ bậc 2.1.2 Phương pháp không thứ bậc 2.1.3 Ví dụ minh họa .4 2.2 THUẬT TOÁN XÂY DỰNG CHÙM CHO HÀM MẬT ĐỘ XÁC SUẤT 12 2.2.1 Phương pháp thứ bậc 12 2.2.2 Phương pháp không thứ bậc 12 2.2.3 Ví dụ minh họa 12 CHƯƠNG 3: BÀI TOÁN ỨNG DỤNG 14 3.1 BÀI TOÁN 14 3.1.1 Phương pháp thứ bậc 14 3.1.2 Phương pháp không thứ bậc 18 3.2 BÀI TOÁN 21 3.2.1 Phương pháp thứ bậc 22 3.2.2 Phương pháp không thứ bậc 25 TÀI LIỆU THAM KHẢO 30 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 GIỚI THIỆU Bài tốn phân tích chùm thực dựa vào đánh giá mức độ gần xa phần tử mà chúng gọi chung tương tự dử liệu Khi liệu rời rạc, tương tự đánh giá qua đại lượng khoảng cách Khi liệu hàm mật độ xác suất đánh giá qua nhiều khái niệm khác khoảng cách, độ rộng chùm, Trong thực tế, tốn nhận dạng thống kê có nhiều ứng dụng Chẳng hạn ứng dụng y học, ứng dụng xã hội, tài chính, kinh tế… Trong tiểu luận này, chúng tơi trình bày tóm tắt kiến thức phân tích chùm, đưa ví dụ minh họa thuật tốn đưa ứng dụng cụ thể toán phân tích chùm chạy phần mềm SPSS MATLAP 1.2 KHOẢNG CÁCH GIỮA CÁC PHẦN TỬ RỜI RẠC 1.2.1 Khoảng cách hai phần tử rời rạc a) Định nghĩa Gọi d(x,y) khoảng cách hai phần tử x y Khoảng cách metric, tức thỏa mãn điều kiện sau: i/ d ( x, y ) �0; d ( x, y )  � x  y ii/ d ( x, y)  d ( y, x) , iii/ d ( x, y )  d ( y, z ) �d ( x, z ) b) Các loại khoảng cách phổ biến n �2 Khoảng cách Euclide: d e ( x, y)  � ( xi  yi ) � � � �i 1 n Khoảng cách city-block: d cb ( x, y )  �xi  yi i 1 xi  yi Khoảng cách Chebyshev: dch  x, y   max i 1/ m �n m� Khoảng cách Minkowski bậc m: d m ( x, y )  ��xi  yi � �i 1 p xi  yi Khoảng cách Canberra: d ca ( x, y )  � i 1 ( xi  yi ) n Khoảng cách Czekanowski: d cz ( x, y)   2�min  xi , yi  i 1 n � x  y  i 1 i i 1.2.2 Khoảng cách gữa hai nhóm liệu rời rạc Gọi D  A, B  khoảng cách hai nhóm A B, nA , nB số phần tử A B, ta có số khoảng cách thường gặp sau: d ( x, y ) Khoảng cách min: Dmin ( A, B)  x�min A, y�B ax d ( x, y ) Khoảng cách max: Dmax ( A, B )  xm �A , y�B Khoảng cách trung bình: Dave ( A, B)  n n A B � d ( x, y ) x�A , y�B Khoảng cách trung vị: Dmedian ( A, B)  d  xm , ym  , với xm , ym trung vị A B Khoảng cách Ward: Dward ( A, B )  x A  xB 1  n A nB Khi nhóm A B nhập lại thành nhóm  A  B  , ta tính khoảng cách từ nhóm  A  B  đến nhóm C sau: Dmin ( A  B, C )   D  A, C  , D  B, C   Dmax ( A  B, C )  max  D  A, C  , D  B, C   nA nB Dave ( A  B, C )  D( A, C )  D ( B, C ) nA  nB nA  nB 1 Dmedian  A  B, C   D  A, C   D  B, C   D  A, B  2 nA  nC nB  nC nC DWard  A  B, C   D  A, C   D  B, C   D  A, B  nA  nB  nC nA  nB  nC nA  nB  nC Chú ý rằng: Trong khoảng cách khoảng cách Ward đuợc định nghĩa khác với khoảng cách khác, sử dụng phương pháp phân tích phương sai (ANOVA) để đánh giá chùm làm giảm thiểu tổng bình phương sai số hai chùm thành lập bước Phương pháp phân tích chùm với khoảng cách Ward thường gọi phương pháp Ward (Ward method) Đây phương pháp hiệu có xu hướng tạo chùm có kích thước nhỏ, gần đặc biệt hữu ích với quy mơ lớn (mẫu n > 100) Sau đây, vào hai thuật toán phân tích chùm cho liệu rời rạc 1.3 KHOẢNG CÁCH CỦA HAI HAY NHIỀU HƠN HAI HÀM MẬT ĐỘ 1.3.1 Khoảng cách Cho hai tập hợp chứa hàm mật độ xác suất f i , gi với A  {f1 , f 2, , f m },B  {g1 , g 2, , g n } , ta định nghĩa khoảng cách hai tập hợp A, B sau: d ( fi , g j ) Khoảng cách min: Dmin ( A, B )  f �min A, g �B i j max d ( f i , g j ) Khoảng cách max: Dmax ( A, B )  fi� A, g j �B Khoảng cách trung bình: Dave ( A, B )   d ( f i , g j ) , f �A, g j �B mn 1.3.2 Độ rộng chùm: Cho k hàm mật độ xác suất  f1 ( x ), f ( x ), , f k ( x ) TH1: k  : w( f1 , f )  �f  f dx Rn TH2: k �3 : w( f1 , f , , f k )  �f max ( x ) dx  Rn CHƯƠNG 2: THUẬT TỐN PHÂN TÍCH CHÙM 2.1 THUẬT TỐN XÂY DỰNG CHÙM CHO DỮ LIỆU RỜI RẠC 2.1.1 Phương pháp thứ bậc a) Bài toán  0  0  0  0 Có n phần tử N  W1 , W2 , , Wn với biến quan sát chưa biết Chúng ta chia phần tử thành chùm với số lượng chùm giảm dần theo bước Tại bước ta ghép hai chùm thành chùm với khoảng cách nhỏ so với việc ghép hai chùm khác Trong bước xem xét chùm bước trước ghép hai chùm có khoảng cách nhỏ nhất, chùm khác khơng thay đổi Tại bước cuối tất phần tử N  0 kết hợp thành chùm N  k 1 Kết sử dụng để thành lập phân tích chùm b) Thuật toán  Bước 1: Bắt đầu với n chùm, chùm chứa đối tượng Tính đôi khoảng cách hai phần tử Thành lập ma trận đối xứng khoảng cách D� dij � � �với dij khoảng cách i j, i  n, j �i  Bước 2: Trong ma trận khoảng cách D tìm khoảng cách nhỏ hai chùm khác nhau, tức hai chùm có tương tác nhiều  Bước 3: Gọi dUV khoảng cách hai chùm U V có tương tác Hợp chùm U V thành chùm (UV) Tính tốn lại ma trận khoảng cách theo hai bước: i/ Xóa dòng cột chứa chùm U V ii/ Thêm dòng cột đại diện cho chùm (UV), tìm khoảng chùm (UV) với chùm lại  Bước 4: Lặp lại bước bước (lặp lại n -1 lần) đối tượng nhóm lại thành chùm 2.1.2 Phương pháp khơng thứ bậc a) Bài tốn Có n phần tử với biến quan sát biết cần chia phần tử thành k chùm với k cho trước, cho phần tử chùm có khoảng cách đến chùm thuộc nhỏ khoảng cách đến chùm khác b) Thuật toán  Bước 1: Chia n phần tử thành k chùm cách ngẫu nhiên (số lượng phần tử chùm tùy ý) Tính trọng tâm chùm  Bước 2: Tìm khoảng cách từ phần tử đến tất trọng tâm chùm Nếu khoảng cách từ phần tử đến trọng tâm chùm thuộc nhỏ ta giữ phần tử chùm ban đầu Nếu tồn chùm khác mà khoảng cách từ phần tử xét đến trọng tâm chùm nhỏ ta gán phần tử xét vào chùm này, bỏ phần tử chùm thuộc Nếu phần tử di chuyển đến chùm khác cần phải tính lại giá trị trọng tâm hai chùm có thay đổi  Bước 3: Quay lại bước dừng lại ta có k chùm, cho phần tử chùm có khoảng cách đến chùm thuộc nhỏ khoảng cách đến chùm khác 2.1.3 Ví dụ minh họa  Phương pháp thứ bậc với khoảng cách   Ví dụ 1: Giả sử có phần tử 1, 2, 3, 4, với ma trận khoảng cách: d  ij D= = Xây dựng chùm theo phương pháp thứ bậc với khoảng cách Giải Vì khoảng cách nhỏ d53 = 2, nên ta chùm (35) Để thực hiển bước tiếp theo, cần tính tốn khoảng cách chùm (35) với phần tử 1, 2, Ta có: d (35)1   d31 , d51   3,11  , d (35)2   d32 , d52    7,10  , d (35)4   d34 , d54    9,8  Xóa dòng cột tương ứng với phần tử ma trận D; thêm vào dòng cột chùm (35) Ta có ma trận khoảng cách mới: (35) Khoảng cách nhỏ cặp chùm d (35)1  , nên hợp chùm (35) thành chùm (135) Ta có d (135)2   d(35)2 , d12    7,9  , d (135)24   d (35)4 , d14    8, 6  Ma trận khoảng cách tìm là: (135) Vì khoảng cách nhỏ d 42 = 5, nên ta hợp phần tử thành chùm (24) Khoảng cách từ chùm (135) tới chùm (24) d (135)(24)   d(135)2 , d(135)4    7, 6  Nên ta có ma trận khoảng cách (135) 24 Lúc chùm (135) (24) hợp thành chùm (13524) chứa tất phần tử.Cuối ta có phân tích chùm: 3 Cây phân tích chùm thứ bậc cho phần tử với khoảng cách  Phương pháp thứ bậc với khoảng cách max Ví dụ 2: Giả sử có phần tử 1, 2, 3, với ma trận khoảng cách cho sau: d  ij D= = Xây dựng chùm cho phần tử theo phương pháp thứ bậc với khoảng cách max Giải dij )  d53 = 2, nên ta hợp phần tử thành chùm (35) Sử Vì có min( i, j dụng khoảng cách max ta có d (35)1  max  d31 , d51  max  3,11  11 , d (35)2  max  d32 , d52   max  7,10  10 , Ta có ma trận khoảng cách là: (35) Khoảng cách nhỏ phần tử d 24 = 5, nên hợp thành chùm (24) Ta lại có: d (35)(24)  max  d(35)2 , d(35)4   max  10,9  10 , d (24)1  max  d(35)2 , d(35)4   max  9,9  Do ma trận khoảng cách tìm là: (35) (24) Vì khoảng cách nhỏ cặp chùm d1(24) = nên ta hợp (24) thành chùm (124) Lúc ta có hai chùm (35) (124), khoảng cách xa chúng d (124)(35)  max  d1(35) , d (24)(35)   max  11,10  11 Lúc chùm (35) chùm (124) hợp thành chùm (12345) chứa tất phần tử khoảng cách xa tìm 11 Cây phân tích chùm cho hinh vẽ: 11 2 Cây phân tích chùm thứ bậc cho phần tử với khoảng cách max  Phương pháp thứ bậc với khoảng cách trung bình Ví dụ 3: Giả sử có phần tử 1, 2, 3, với ma trận khoảng cách cho sau: d  ij D= = Xây dựng chùm cho phần tử theo phương pháp thứ bậc với khoảng cách trung bình Giải dij )  d53 = 2, nên ta hợp phần tử thành chùm (35) Ta có min( i, j Sử dụng khoảng cách trung binh ta có d 31  d 51  17  7 2.1 d  d52  10 17 d (35)2  32   2.1 2 d  d54  17 d (35)3  34   2.1 2 d (35)1  Ta có ma trận khoảng cách mới: (35) Khoảng cách nhỏ phần tử d 24 = 5, nên hợp thành chùm (24) Ta lại có: d32  d34  d 52  d54   10  17   2.2 d  d 41  15 d (24)1  21   2.1 2 Ma trận khoảng cách tìm (35) (24) d (35)(24)  Vì khoảng cách nhỏ d1(35) = nên ta hợp phần tử (35) thành chùm (135) Lúc ta có chùm (135) chùm (24) có khoảng cách trung bình d (135)(24)  d12  d14  d32  d34  d52  d54     10  49   3.2 6 Cuối chùm(135) (24) có khoảng cách trung bình 8.17, kết hợp thành chùm (12345) Kết thực cho ta có phân tích chùm sau: 8.17 2 Cây phân tích chùm thứ bậc cho phần tử với khoảng cách trung bình Ví dụ 4: số liệu sau diễn tả chiều cao nhân viên nam công ty X Nhân viên Chiều cao (cm) 173 159 166 168 170 164 Bằng phươn pháp thứ bậc, khoảng cách Euclide phần tử , khoảng cách trung phần tử, khoảng cách trung bình chùm thành lập phân tích chùm cho nhân viên vào biến chiều cao Giải Xem phần tử (mỗi nhân viên) chùm riêng biệt, sử dụng khoảng cách Euclide ta có ma trận khoảng cách chúng sau: Vòng lặp 1 d  ij D= = Vì khoảng cách nhỏ d34  , nên ta hợp phần tử thành chùm (34) Khoảng cách chùm với chùm lại xác định sau: Davg ((34),1)  n3 1 D(4,1)    n3  n4 2 Tương tự Davg ((34), 2)  6, Davg ((34,5)  3, Davg ((34, 6)  Ta có ma trận khoảng cách sau: (35) s4 Tính tương tự vòng lặp 1, qua vòng lặp nữ ta có phân tính chùm sau: 46 11 3 Hình Cây phân tích chùm chiều cao nhân viên Ta thấy vòng lặp có hai giá trị i,jsao cho dij nhỏ nhất: d34  d 45  d  phần ta chọn phần nhỏ d34 Bây ta chọn d 45  Là khoảng cách nhỏ nhất, nghĩa vòng lặp ta ghép hai phần tử thành chùm (45) Khi thục hiên qua vòng lặp ta có câ phân tích chùm sau: 46 4 Hình Cây phân tích chùm chiều cao nhân viên Nhận xét: phân tích chùm hai hình khác Ví dụ 5: giả sử ta có hai biến quan sát x1, x2 cho hai phần tử A, B, C, D Số liệu cho sau: Phần Các quan sát tử X1 X2 A B -1 C -2 D -3 -2 Hãy chia phần tử thành chùm cho phần tử chùm gần so với phần tử chùm khác Giải Áp dụng thuật tốn ta có: Bước 1: với k=2, ta chia phần tử thành chùm cách ngẫu nhiên (AB) (CD) Tính trọng tâm  x1 , x2  cho hai chùm ta có kết quả: Chùm Tọa độ trọng tâm AB CD x1 x2  (1) 2  (3)  1 1 2  (2) 2  2 2 Bước 2: Sử dụng phương pháp khoảng cách Euclide, Tính khoảng cách từ phần tử đến tất trọng tâm chùm ta có kết quả: d (A, (AB))  (5  2)  (3  2)  10 d (A, (CD))  (5  1)  (3  2)  61 d (B,(AB))  (1  2)  (1  2)  10 d (B, (CD))  (1  1)  (1  2)  Ta nhận thấy phần tử A gần chùm (AB) chùm (CD) A thuộc chùm (AB) Riêng phần tử B gần chùm (CD) chùm (AB) nên B di chuyển đến chùm (CD), hợp tạo thành chùm (BCD) Tính lại giá trị trọng tâm cho hai giá trị mới, kết quả: Chùm A (BCD) Tọa độ trọng tâm x1 x2 -1 -1 Bước 3: lặp lại bước 2, kiểm tra lại phép di chuyển phần tử Sử dụng bình phương khoảng cách Euclide, ta có bảng sau đây: Chùm A (BCD) Trong đó: Bình phương khoảng cách từ phần tử đến trọng tâm chùm Phần tử A B C D 40 41 89 52 5 d ( A, B)  (5  (1))  (3  1)  40 d ( A, C)  (5  1)  (3  (2))  41 d ( A, D)  (5  (3))  (3  (2))  89 d ( A, ( BCD))  (5  (1))  (3  (1))  52 d (B, (BCD))  ( 1  ( 1))  (1  ( 1))  d (C, ( BCD))  (1  ( 1))  ( 2  ( 1))  d (D, ( BCD))  (3  (1))  (2  (1))  Khi đó, khoảng cách phần tử B, C, đến chùm (BCD) nhỏ khoảng cách dến chùm A Do thuật tốn dừng lại Như ta có hai chùm A (BCD) Nhận xét: Cũng giống phương pháp thứ bậc, kết phương pháp không thứ bậc khơng phải la Ví dụ 6: giả sử ta có hai biến quan sát x1, x2 cho hai phần tử A, B, C, D Số liệu 10 Từ kết trên, ta có phương án khác số chùm Phương án chùm là: 8, 6, 1, ta thấy phương án khơng thích hợp có chùm có quy mơ q nhỏ Phương án chùm: 8, 6, ta thấy phương án hợp lý Cụm số V1 5.750 1.667 3.500 V2 3.625 3.000 5.833 V3 6.000 1.833 3.333 V4 3.125 3.500 6.000 V5 1.875 5.500 3.500 V6 3.875 3.333 6.000 Bảng trình bày trung bình chùm biến từ V1 đến V6 file ví dụ với biến phân nhóm biến vừa lưu trình thực thủ tục phân tích chùm cho ví dụ (để lưu biến hộp thoại Save hộp thoại phân tích chùm bạn chọn Single solution khai báo cụm) Chùm số có trị trung bình lớn biến V1 (đi mua sắm thú vui), V3 (đi mua sắm kết hợp với ăn uống), có trị trung bình nhỏ biến V5 (khơng quan tâm đến việc mua sắm) Do đó, chùm đặt tên “nhóm quan tâm thích thú mua sắm” Chùm gồm có quan sát 1, 3, 6, 7, 8, 12, 15 17, kiểm tra điều biểu đồ hình Ngược lại, chùm số có trị trung bình thấp biến V1, V3 có trị trung bình lớn biến V5 Do đó, chùm đặt tên “nhóm thờ với việc mua sắm” Chùm gồm có có quan sát 2, 5, 9, 11, 13 20 Chùm số có trị trung bình lớn biến V2 (đi mua sắm tốn tiền), V4 (cố gắng tìm mua đáng mua mua sắm) V6 (đi mua sắm giúp tiết kiệm tiền nhờ so sánh nhiều giá khác nhau) Vì vậy, chùm đặt tên “nhóm mua sắm quan tâm đến kinh tế” Chùm gồm có quan sát 4, 10, 14, 16, 18 19 Thông thường để mô tả chùm này, ta nên xem xét số biến khác chưa sử dụng phân tích là: liệu nhân học (thu thập, giới tính, tuổi, tình trạng việc làm, tình trạng nhân gia đình, trình độ văn hóa,…), tâm lý, mức độ sử dụng sản phẩm, thói quen sử dụng phương tiện truyền thơng,… để thấy rõ đặc trưng chùm 3.1.2 Phương pháp không thứ bậc Sau ta tiến hành phân tích cụm khơng thứ bậc cho liệu với phương pháp phân chia tối ưu (optimizing partitioning) Số chùm ta cần thực để so sánh với kết phân chùm thứ bậc Các hạt giống chùm giá trị quan sát thứ 8, 19 20 file liệu Các hạt giống chùm trung tâm chùm tạm thời dùng để phân bổ quan sát vào chùm Mỗi quan sát phân vào chùm có trung tâm gần Các trung tâm chùm cập nhật trình tiêu chuẩn phân chia tối ưu thỏa mãn Các trung tâm chùm cuối trung bình quan sát biến phương án phân chùm đạt * Dùng lệnh Analyze > Classify > K-means Cluster > Ta đưa biến từ V1 đến V6 vào khung Variable(s), đồng thời nhập vào ô Number of Clusters 18 * Trong mục Save Options ta chọn hình * Kết quả: 19 Initial Cluster Centers Cluster di mua sam la thu vui di mua sam la ton tien ket hop mua sam voi an uong tim mua nhung gi dang mua nhat di mua sam khong quan tam viec di mua sam co the tiet kiem nhieu so sanh gia ca 3 4 Cluster Membership Case Number Cluster Distance 10 11 12 13 14 15 16 17 18 19 20 3 3 2 3 1 1.414 1.323 2.550 1.404 1.848 1.225 1.500 2.121 1.756 1.143 1.041 1.581 2.598 1.404 2.828 1.624 2.598 3.555 2.154 2.102 Bảng Cluster Membership cho thấy quan sát thuộc chùm khoảng cách quan sát với trung tâm Ta thấy kết phân cụm bảng tương tự ví dụ phần Ngoài ra, khoảng cách chùm phương án phân chùm cuối cho ta thấy cặp chùm phân tách rõ 20 Final Cluster Centers di mua sam la thu vui di mua sam la ton tien ket hop mua sam voi an uong tim mua nhung gi dang mua nhat di mua sam khong quan tam viec di mua sam co the tiet kiem nhieu so sanh gia ca Cluster 6 6 6 Distances between Final Cluster Centers Cluster 5.568 5.698 5.568 5.698 6.928 6.928 ANOVA Cluster Error Mean Square df Mean df Square F Sig di mua sam la thu vui 29.108 608 17 47.888 000 di mua sam la ton tien 13.546 630 17 21.505 000 ket hop mua sam voi an uong 31.392 833 17 37.670 000 tim mua nhung gi dang mua nhat 15.712 728 17 21.585 000 di mua sam khong quan tam viec di mua sam 22.538 816 17 27.614 000 co the tiet kiem nhieu so sanh 12.171 1.071 17 11.363 001 gia ca Bảng ANOVA cho ta kết kiểm định F biến chùm Dựa vào bảng ta thấy tất biến có giá trị sig < 0.05 nên kết luận có khác biệt chùm xét Điều có nghĩa kết phân tích chùm sử dụng tốt 3.2 BÀI TOÁN (Sự tiêu thụ hàm lượng dinh dưỡng protein): Dữ liệu việc tiêu thụ hàm lượng dinh dưỡng protein 25 nước châu Âu nhóm thực phẩm: Red Meat (thịt đỏ), White Meat (thịt trắng), Eggs (trứng), Milk (sữa), Fish (cá), Cereals (ngũ cốc), Nuts (Các loại hạt), Starchy Foods (thực phẩm tinh bột), Fruits/Veg (trái cây/rau quả) cho chi tiết bảng sau: Red White Starchy Country Eggs Milk Fish Cereals Nuts Fruits/Veg Meat Meat Foods Albania 10.1 1.4 0.5 8.9 0.2 42.3 0.6 5.5 1.7 Austria 8.9 14 4.3 19.9 2.1 28 3.6 1.3 4.3 Belgium 13.5 9.3 4.1 17.5 4.5 26.6 5.7 2.1 21 Bulgaria 7.8 1.6 8.3 1.2 56.7 1.1 3.7 4.2 Czech 9.7 11.4 2.8 12.5 34.3 1.1 Denmark 10.6 10.8 3.7 25 9.9 21.9 4.8 0.7 2.4 E Germany 8.4 11.6 3.7 11.1 5.4 24.6 6.5 0.8 3.6 Finland 9.5 4.9 2.7 33.7 5.8 26.3 5.1 1.4 France 18 9.9 3.3 19.5 5.7 28.1 4.8 2.4 6.5 Greece 10.2 2.8 17.6 5.9 41.7 2.2 7.8 6.5 Hungary 5.3 12.4 2.9 9.7 0.3 40.1 5.4 4.2 Ireland 13.9 10 4.7 25.8 2.2 24 6.2 1.6 2.9 Italy 5.1 2.9 13.7 3.4 36.8 2.1 4.3 6.7 Netherlands 9.5 13.6 3.6 23.4 2.5 22.4 4.2 1.8 3.7 Norway 9.4 4.7 2.7 23.3 9.7 23 4.6 1.6 2.7 Poland 6.9 10.2 2.7 19.3 36.1 5.9 6.6 Portugal 6.2 3.7 1.1 4.9 14.2 27 5.9 4.7 7.9 Romania 6.2 6.3 1.5 11.1 49.6 3.1 5.3 2.8 Spain 7.1 3.4 3.1 8.6 29.2 5.7 5.9 7.2 Sweden 9.9 7.8 3.5 24.7 7.5 19.5 3.7 1.4 Switzerland 13.1 10.1 3.1 23.8 2.3 25.6 2.8 2.4 4.9 UK 17.4 5.7 4.7 20.6 4.3 24.3 4.7 3.4 3.3 USSR 9.3 4.6 2.1 16.6 43.6 6.4 3.4 2.9 W Germany 11.4 12.5 4.1 18.8 3.4 18.6 5.2 1.5 3.8 Yugosloslavia 4.4 1.2 9.5 0.6 55.9 5.7 3.2 Bài toán đặt muốn biết 25 nước nước tiêu thụ hàm lượng protein giống gần giống Nói cách khác, nhóm nước mà nhóm có tương tự việc tiêu thụ hàm lượng dinh dưỡng protein? Dữ liệu toán nhập vào SPSS lưu lại với tên “Protein.sav” 3.2.1 Phương pháp thứ bậc Xử lý SPSS phân tích chùm cho Bài tốn theo phương pháp có thứ bậc sau:  Bước 1: Vào Analyze � Classify � Hierarchical Cluster Khi xuất hộp thoại Hierarchical Cluster Analysis:  Bước 2: Đưa nhóm thực phẩm vào khung Variable(s), đưa biến Country vào khung Label cases by Xem hình 2.9 22  Bước 3: Tiếp theo vào tùy chọn Statistics, Plots, Method, Save chọn sau:  Proximily matrix: Hiện thị ma trận khoảng cách phần tử  Range of solutions: Số chùm cần phân tích Ở đây, chọn số chùm nhỏ 23 2, số chùm nhiều  Dendrogram: Vẽ phân loại Ở đây, chọn khoảng cách phần tử khoảng Euclide, khoảng cách chùm khoảng cách (Nearest neighbor) Sau OK SPSS đưa số kết phân tích sau:  Bảng ma trận khoảng cách phần tử Proximity Matrix Lưu ý bảng Proximily Matrix dài, thị phần  Bảng thể bước lặp phân tích chùm SPSS 24 Ag g lomerat ion Sched ule Stage 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Cluster Combined Cluster Cluster 18 25 14 24 20 15 12 18 21 22 16 10 13 11 23 10 19 17 Coefficients ,986 1,123 1,273 1,382 1,418 1,504 1,657 1,880 1,889 1,892 1,901 1,946 2,063 2,104 2,150 2,194 2,392 2,471 2,690 2,717 2,751 2,865 2,874 2,933 Stag e Cluster First Appea rs Cluster Cluster 0 0 0 0 0 10 11 12 0 14 16 13 0 18 17 19 20 21 15 22 23 Next Sta ge 13 10 10 18 11 12 14 17 16 22 17 20 19 21 21 22 23 24 Rõ ràng SPSS thực qua 24 bước lặp (vì ta có 25 phần tử) + Bước lặp 1: Nhóm nước số 18 số 25 lại, với khoảng cách 0,986 + Bước lặp 2: Nhóm nước số số 14 lại, với khoảng cách 1,123 + Bước lặp 3: Nhóm nước số số 24 lại, với khoảng cách 1, 273 Lúc này, ta có chùm 2, 14, 24 (do bước 2) …………… + Bước lặp 24: Nhóm nước số 17 với chùm có đại diện 1, 2, 4, 10 19 , với khoảng cách 2,933 Cụ thể, độc giả muốn chia chùm xem bảng thành viên chùm (Cluster Membership) rõ  Bảng thành viên chùm 25 Clust er Membership Case 1:Albania 2:Austria 3:Belgium 4:Bulgaria 5:Czech 6:Denmark 7:E Germany 8:Finland 9:France 10:Greece 11:Hungary 12:Ireland 13:Italy 14:Netherlands 15:Norway 16:Poland 17:Portugal 18:Romania 19:Spain 20:Sweden 21:Switzerland 22:UK 23:USSR 24:W Germany 25:Yugosloslavia Clusters 2 2 2 3 2 2 Clusters 2 2 2 3 2 2 2 Clusters 1 1 1 1 1 1 1 1 1 Clusters 1 1 1 1 1 1 1 1 1 1 1 Clusters 1 1 1 1 1 1 1 1 1 1 1 1  Theo bảng + Nếu ta phân tích thành chùm thành viên chùm sau: Chùm 1: gồm 24 nước đánh số: 1, 2, 3,…, 24 Chùm 2: gồm nước đánh số: 16 (Portugal) + Nếu ta phân tích thành chùm thành viên chùm sau: Chùm 1: gồm nước đánh số: 1, 4, 11,18, 25 Chùm 2: gồm 16 nước đánh số: 2, 3, 5, 6, 7, 8, 9, 12, 14, 15, 16, 20, 21, 22, 23, 24 Chùm 3: gồm nước đánh số: 10 13 Chùm 4: gồm nước đánh số: 17 Chùm 5: gồm nước đánh số: 19 Điều này, cho ta thấy nước số 17 (Bồ Đào Nha) 19 (Tây Ban Nha) hai nước có chế độ ăn uống tiêu thụ lượng protein khác biệt so với nước Châu Âu khác  Cây phân loại (Dendogram) 3.2.2 Phương pháp không thứ bậc Xử lý SPSS phân tích chùm cho Bài tốn theo phương pháp không thứ bậc sau:  Bước 1: Vào menu Analyze � Classify � K-Means Cluster Khi xuất hộp thoại K-Means Cluster Analysis  Bước 2: Đưa nhóm thực phẩm vào khung Variables, đưa biến Country 26 vào khung Label cases by Tại ô Number of Cluster, độc giả điền số chùm mong muốn SPSS phân tích Ở đây, chúng tơi chọn chùm  Bước 3: Tiếp theo vào tùy chọn Statistics, Plots, Method, Save chọn sau: Cluster membership: Hiện thị bảng thành viên chùm Distance from cluster center: Cho biết khoảng cách từ thành viên phần tử tới trọng tâm chùm 27 Initial cluster centers: Hiện thị tọa độ trọng tâm ban đầu chùm ANOVA table: Bảng phân tích phương sai Cluster information for each case: Thông tin chùm mà thành viên phần tử thuộc vào Sau Continue nhấn OK, có số bảng kết phân tích sau  Bảng Initial Cluster Centers (Tọa độ trọng tâm ban đầu chùm) Init ial Clust er Cent ers RedMeat WhiteMeat Eggs Milk Fish Cereals StarchyFoods Nuts Fruits/Vegetables 10,2 3,0 2,8 17,6 5,9 41,7 2,2 7,8 6,5 9,5 4,9 2,7 33,7 5,8 26,3 5,1 1,0 1,4 Cluster 11,4 12,5 4,1 18,8 3,4 18,6 5,2 1,5 3,8 7,8 6,0 1,6 8,3 1,2 56,7 1,1 3,7 4,2 6,2 3,7 1,1 4,9 14,2 27,0 5,9 4,7 7,9 28  Bảng Cluster Membership (Thông tin thành viên chùm) Clust er Membership Case Number 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Country Albania Austria Belgium Bulgaria Czech Denmark E Germany Finland France Greece Hungary Ireland Italy Netherlan ds Norway Poland Portugal Romania Spain Sweden Switzerla nd UK USSR W Germany Yugoslosl avia Cluster 3 Distance 9,313 6,641 4,148 3,926 9,104 7,734 10,284 1 ,000 7,760 7,160 8,800 6,595 4,413 6,066 8,533 8,766 4,394 4,838 4,394 8,108 5,070 7,410 5,848 6,916 2,859 Number of Cases in each Clust er Cluster Valid Missing 7,000 1,000 12,000 3,000 2,000 25,000 ,000 Theo đó: + Chùm có nước: Albania, Czech, Greece, Hungary, Italy, Poland, USSR + Chùm có nước: Finland + Chùm có 12 nước: Austria, Belgium, Denmark, E Germany, France, Ireland, Netherlands, Norway, Sweden, Switzerland, UK, W Germany + Chùm có nước: Bulgaria, Romania, Yugosloslavia + Chùm có nước : Portugal, Spain Cột Distance: cho ta biết khoảng cách từ thành viên phần tử tới trọng tâm chùm mà thuộc vào Chẳng hạn, khoảng cách từ nước Albania đến trọng tâm chùm 9,313  Bảng Final Cluster Centers (Tọa độ trọng tâm cuối chùm) 29 Final Clust er Cent ers RedMeat WhiteMeat Eggs Milk Fish Cereals StarchyFoods Nuts Fruits/Vegetables 8,6 6,9 2,4 14,0 2,5 39,3 3,7 4,2 4,7 9,5 4,9 2,7 33,7 5,8 26,3 5,1 1,0 1,4 Cluster 12,0 10,0 3,8 21,1 5,0 23,9 4,7 1,8 3,7 6,1 5,8 1,4 9,6 ,9 54,1 2,4 4,9 3,4 6,7 3,6 2,1 6,8 10,6 28,1 5,8 5,3 7,6  Bảng Distance between Final cluster Centers (Khoảng cách sau chùm) Dist ances bet ween Final Clust er Cent ers Cluster 24,347 24,347 17,992 15,913 16,485 14,290 37,604 28,630 17,992 14,290 15,913 37,604 33,652 33,652 18,917 16,485 28,630 18,917 28,471 28,471 Bảng phân tích phương sai-ANOVA ANOVA RedMeat WhiteMeat Eggs Milk Fish Cereals StarchyFoods Nuts Fruits/Vegetables Cluster Mean Square 31,925 30,206 4,783 229,020 35,610 670,716 5,095 13,588 9,218 df 4 4 4 4 Error Mean Square 7,058 10,334 ,542 14,780 6,771 10,392 2,185 2,014 2,061 df 20 20 20 20 20 20 20 20 20 F 4,523 2,923 8,822 15,495 5,259 64,542 2,332 6,747 4,472 Sig ,009 ,047 ,000 ,000 ,005 ,000 ,091 ,001 ,010 The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal Từ bảng ANOVA trên, ta thấy giá trị Sig (hay gọi P-value) yếu tố Red Meat Starchy Foods lớn 0, 05 Điều có nghĩa lượng tiêu thụ protein thực phẩm Red Meat Starchy Foods 25 nước Châu Âu Hay nói cách khác, khác khơng có ý nghĩa thống kê 30 Chúng ta lưu ý sau chạy chương trình bảng liệu có thêm hai cột Trong đó, Cột QCL_1 (Cluster Number of Case) cột QCL_2 (Distance of Case from its Classification Cluster Center) có ý nghĩa tương tự bảng Cluster Membership Nó cho biết thơng tin thành viên chùm khoảng cách thành viên đến trọng tâm chùm tương ứng 31 TÀI LIỆU THAM KHẢO TIẾNG VIỆT Võ Văn Tài, Trần Phước lộc (2012) Giáo trình nhận dạng thống kê Nhà xuất Đại học Cần Thơ Võ Văn Tài (2012), Xử Lý Số Liệu Thống Kê, Tủ sách Đại học Cần Thơ Hoàng Trọng, Chu Nguyễn Mộng Ngọc (2008) Phân tích liệu nghiên cứu với SPSS Nhà xuất Hồng Đức Hoàng Trọng (1999) Phân tích liệu đa biến, ứng dụng kinh tế kinh doanh Nhà xuất Thống kê Ngô Văn Thứ (2005) Thống kê thực hành với trợ giúp SPSS Winstata Nhà xuất Khoa học Kỹ thuật TIẾNG ANH Neuman W L (2000) Social research methods qualitative and quantitative approaches Allyn & Bacon, Holland Ross S., (2000) Probability and Statistics for engineers and scientics Wie Wiley, New York Roxy P., Chris O., Jay D., (2008) Statistics and data analysis, Thomson, New York Cooper D R., Schindler P S., (2003) Business research methods, McGraw Hill, London 32 ... chùm trung tâm chùm tạm thời dùng để phân bổ quan sát vào chùm Mỗi quan sát phân vào chùm có trung tâm gần Các trung tâm chùm cập nhật trình tiêu chuẩn phân chia tối ưu thỏa mãn Các trung tâm... 7 14 20 * Nhập liệu vào SPSS với biến với tên Phan tich cum” * Dùng lệnh Analyze > Classify > Hierarchical Cluster > Đưa biến từ V1 đến V6 vào khung Variable(s): * Trong Statistics chọn số cụm... chùm số có trị trung bình thấp biến V1, V3 có trị trung bình lớn biến V5 Do đó, chùm đặt tên “nhóm thờ với việc mua sắm” Chùm gồm có có quan sát 2, 5, 9, 11, 13 20 Chùm số có trị trung bình lớn

Ngày đăng: 01/06/2018, 23:16

Từ khóa liên quan

Mục lục

  • CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

    • 1.1 GIỚI THIỆU

    • 1.2 KHOẢNG CÁCH GIỮA CÁC PHẦN TỬ RỜI RẠC

      • 1.2.1 Khoảng cách giữa hai phần tử rời rạc

      • 1.2.2 Khoảng cách gữa hai nhóm dữ liệu rời rạc

      • 1.3 KHOẢNG CÁCH CỦA HAI HAY NHIỀU HƠN HAI HÀM MẬT ĐỘ

        • 1.3.1 Khoảng cách

        • 1.3.2 Độ rộng chùm: Cho hàm mật độ xác suất .

        • CHƯƠNG 2: THUẬT TOÁN PHÂN TÍCH CHÙM

          • 2.1 THUẬT TOÁN XÂY DỰNG CHÙM CHO DỮ LIỆU RỜI RẠC

            • 2.1.1 Phương pháp thứ bậc

            • 2.1.2 Phương pháp không thứ bậc

            • 2.1.3 Ví dụ minh họa

            • 2.2 THUẬT TOÁN XÂY DỰNG CHÙM CHO HÀM MẬT ĐỘ XÁC SUẤT

              • 2.2.1 Phương pháp thứ bậc

              • 2.2.2 Phương pháp không thứ bậc

              • 2.2.3 Ví dụ minh họa

              • CHƯƠNG 3: BÀI TOÁN ỨNG DỤNG

                • 3.1 BÀI TOÁN 1: Phân nhóm người tiêu dùng trên cơ sở thái độ của họ đối với việc đi mua sắm. Dựa vào các nghiên cứu trong quá khứ, có 6 biến thái độ được chọn. Người tiêu dùng được yêu cầu diễn tả mức độ đồng ý đối với các phát biểu sau trên thang đo 7 điểm:

                  • 3.1.1 Phương pháp thứ bậc

                  • 3.1.2 Phương pháp không thứ bậc

                  • 3.2 BÀI TOÁN 2 (Sự tiêu thụ hàm lượng dinh dưỡng protein):

                    • 3.2.1 Phương pháp thứ bậc

                    • 3.2.2 Phương pháp không thứ bậc

                    • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan