Phân tích theo nhóm thứ bậc HCA

17 1.1K 18
Phân tích theo nhóm thứ bậc HCA

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Luận văn về phân tích theo nhóm thứ bậc HCA

Phân tích theo nhóm thứ bậc Bộ giáo dục đào tạo (HCA) Trờng đại học bách khoa hà nội TiĨu ln M«n häc xư lý số liệu Đề Số: 28 Phân tích theo nhóm thứ bậc (HCA) cách tiến hành làm ví dụ ứng dụng Hà nội, 12 - 2007 -1 Phân tích theo nhóm thứ bậc (HCA) Mở đầu Chúng ta đà biết, trình nghiên cứu khoa học thờng xuyên gặp phải vấn đề xử lý số liệu Dữ liệu mà thu đợc thờng dạng cồng kềnh, cha đủ để phân tích, đánh giá Vì vậy, bớc quan trọng trình nghiên cứu xử lý số liệu Nghĩa đòi hỏi phải chuyển mẫu liệu quan sát thô mà ta đà tiến hành mà hóa kiểm tra thành số thống kê có ý nghĩa cho việc diễn giải kết nghiên cứu Toàn công việc xử lý phân tích phức tạp đợc thực phần mềm chuyên dụng hỗ trợ Hiện có ba chơng trình thờng dùng phục vụ cho xử lý phân tích số liệu thống kê giới, SAS, SPSS STATA Các chơng trình đợc giảng dạy trờng đại học mà công cụ thiếu đợc nhà thống kê nghiên cứu quan sát thống kê nhiều lĩnh vực khác Trong số ba chơng trình SAS chơng trình lớn mạnh nhng lại đắt nhất, nên giai đoạn đợc phổ biến nớc ta; hai chơng trình SPSS STATA nhiều ngời biết sử dụng nghiên cứu thống kê từ đầu năm 1990 SPSS chơng trình mà nhiều ngời sử dụng a thích nã rÊt dƠ sư dơng SPSS cã mét giao diện ngời máy cho phép sử dụng menu thả xuống để chọn lệnh thực Khi thực phân tích đơn giản chọn thủ tục cần thiết chọn biến phân tích bấm OK có kết hình để xem xét SPSS có ngôn ngữ cú ph¸p cã thĨ häc b»ng c¸ch d¸n có ph¸p lƯnh vào cửa sổ cú pháp từ lệnh vừa chọn thực hiện, nhng nói chung phức tạp không trực giác Các bớc trình xử lý liệu : Bớc 1: Xác định loại liệu thu thập đợc - Dữ liệu định tính: thang đo định danh/ thang đo thứ tự - Dữ liệu định lợng: thang đo khoảng/ thang đo tỉ lệ Bớc 2: Xác định nội dung cần phân tích để mô tả kết liệu (có thể xử lý đơn hay xử lý chéo) Bớc 3: Chọn lựa kỹ thuật phân tích tơng thích Bớc 4: Nhập liệu theo tiêu chuẩn kỹ thuật đà chọn xử lý kết (do máy tính thực hiện) Bớc 5: Đọc kết xử lý nhận xét kết -2– Ph©n tÝch theo nhãm thø bËc (HCA) I Giíi thiệu HCA Phân tích theo nhóm (Cluster Analysis) mt phơng pháp thông kê mà nhóm riêng biệt quan sát đợc gộp lại thành hạng, cấp (hay gọi nhóm) dựa tơng tự Nghĩa phân chia n đối tợng thành k nhóm cho đối tợng nhóm giống đối tợng nhóm khác, với k cha biết Các phơng pháp thông thờng dùng thuật toán phân nhóm là: phân nhóm theo thø bËc (Hierarchical cluster analysis ) vµ K-means analysis., mixture models, SOM, Trong phân tích theo nhóm thứ bậc (Hierarchical cluster analysis HCA) thđ tơc thùc hiƯn ®Ĩ nhằm xác định nhóm có tính chất nhiều đặc tính khác dựa đặc tÝnh ®· lùa chän Chóng ta cã thĨ sư dơng phơng pháp phân tích theo nhóm thứ bậc để phân chia gộp nhóm Gộp nhóm Phân nhóm Hình 1: Thuật toán phân tích theo nhóm thứ bậc Nh ®Ĩ ph©n nhãm theo thø bËc, tríc hÕt chóng ta phải tính toán giống phần tử hai đối tợng Khi đó, hai nhóm giống tạo thành nhóm đây, lại cần phải tính toán giống nhóm với nhóm lại, hai nhóm giống tạo thành nhóm khác Chúng ta biểu diễn trình theo sơ đồ hình Thủ tục phơng pháp phân tích gộp nhóm n điểm ( n đợc coi cỡ mẫu) gộp hai điểm giống bớc kết thúc đạt đợc số nhóm cần thiết -3 Phân tích theo nhóm thứ bậc (HCA) Hình Sơ đồ kết nối đơn Tính toán giống phần tử hai đối tượng Hai nhóm giống tạo thành nhóm Tính toán giống nhóm với nhóm lại Hình 1: Thủ tục phân nhóm Phơng pháp gộp nhóm đơn giản HCA kết nối đơn Nét đặc biệt phơng pháp khoảng cách nhóm bị giới hạn đợc coi khoảng cách cặp đối tợng gần mà , cặp chứa đối tợng từ nhóm đáng kể -4 Phân tích theo nhóm thứ bậc (HCA) Theo phơng pháp liên kết đơn, khoảng cách hai đối tợng D(r,s) đợc tính theo công thức sau: D(r,s)= {d(i,j): ®ã i thuéc nhãm r vµ j thuéc nhãm s} Nh cấp ,nhóm r nhóm s đợc trộn với khoảng cách D(r,s) nhỏ Khoảng cách nhóm đợc minh hoạ hình Ngợc với kết nối đơn, kết nối hoàn toàn mà khoảng cách nhóm khoảng cách xa không gian cặp đối tợng từ nhóm Khoảng cách D(r,s) ®ỵc tÝnh : D(r,s)= max {d(i,j), ®ã, i thc nhóm r j thuộcnhóm s} Nh khoảng cách hai nhóm đợc đa với giá trị đờng liên kết dài nhóm Và cấp phân nhóm, nhóm r nhóm s Hình 3: Kết nối hoàn toàn đợc trộn với khoảng cách D(r,s) lớn nhất, điều đợc thể rõ hình Một phơng pháp khác đợc sử dụng HCA kết nối trung bình khác biệt hai nhóm trung bình khoảng cách phần tử hai nhóm Khi đó, khoảng cách D(r,s) đợc tính theo: D(r,s)= Trs / (Nr*Ns) Trong đó: Trs tổng tất khoảng cách nhóm r s Nr vµ Ns lµ cì cđa nhãm r vµ s tơng ứng Tại cấp thứ bậc, nhóm r nhóm s đợc trộn với khoảng cách D(r,s) nhỏ Điều Hình 4: Kết nối trung bình đợc thể rõ hình vẽ Ngoài phơng pháp trên, kết nối trung bình nhóm đợc sử dụng HCA Theo phơng pháp này, khác biệt hai nhóm đợc khoảng cách trung bình hai nhóm Có thể nói rằng, phơng pháp phân tích theo nhóm thứ bậc thủ tục thống kê tiêu chuẩn, HCA cung cấp hình dung mặt trực quan cđa kÝch thíc cđa sè liƯu, ®ã biĨu đồ HCA đà kết hợp chặt chẽ kích thớc với sở liệu Ngoài biểu đồ HCA cho biết mức độ tơng tự ( giống nhau) mảng trái ngợc Bên cạnh sở liệu, mẫu cha biết dễ dàng đợc phân hạng sử dụng biểu đồ HCA để xác định cho ta nhận biết mối quan hệ sở liệu gần -5 Ph©n tÝch theo nhãm thø bËc (HCA) Sè liƯu cđa phơng pháp phân tích theo nhóm thứ bậc(HCA) Số liệu : áp dụng cho số liệu nhị phân, số đếm, định lợng Tỷ lệ biến vấn ®Ị quan träng – sù kh¸c vỊ tû lƯ ảnh hởng tới giải pháp nhóm Nếu biến có tỷ lệ (độ chia) khác qu¸ lín ( vÝ dơ nh biÕn cã giá trị đôla biến năm) nên xem xét lại cho chuẩn (điều đợc làm tự động nhờ vào thủ tục HCA) Giả thuyết: Các phép đo giống khác đà đợc sử dụng phải nên phù hợp với số liệu phân tích Việc để sót biến số chịu ¶nh hëng cã thĨ dÉn tíi kÕt qu¶ cã gi¶i pháp sai lầm Bởi phân tích theo nhóm thứ bậc phơng pháp có tích chất thăm dò, kết nên đợc xử lý tiếp thủ tơc kh¸c nh : Anova, PCA, K – mean cluster vv vÉn thÊy hoµi nghi cho tíi chóng đợc khẳng định với mẫu độc lập Phân tích theo nhãm thø bËc thÝch hỵp víi viƯc xư lý mẫu nhỏ ( ZbOcimene Nhập liệu vµo data view: Click chuét theo thø tù sau: File ->open Database -> New Query - 10 – Ph©n tÝch theo nhóm thứ bậc (HCA) Khi hình xt hiƯn b¶ng Database Wizard: Lùa chän Excel files  next Tìm đờng dẫn đến file số liệu, click OK Và số bớc đơn giản ta đợc bảng khai báo số liệu Lựa chọn phơng pháp ph©n tÝch ph©n nhãm - 11 – Ph©n tÝch theo nhãm thø bËc (HCA) Click chuét theo thø tù sau: AnalyzeClassify Hierarchical Cluster Chọn dạng đồ thị ( biểu đồ phân nhóm) Khai báo biến nh bảng Hierarchical Cluster Analysis Chọn dạng đồ thị:Dendrogram(dạng cây) Continue - 12 – Ph©n tÝch theo nhãm thø bËc (HCA) Chän phơng pháp phân nhóm: Chọn liên kết nhóm: between-groups linkage *Interval: Dùng cho biến định lợng Lựa chọn phép đo giống nhau: chọn Squared Euclidean distance - Khoảng cách Euclides (Euclidean distance), - Bình phơng khoảng cách Euclides (Squared Euclidean distance) - Tơng quan cosine góc hai véc tơ (Cosine) - Hệ số tơng quan Pearson (Pearson correlation) số khác nh: khoảng cách Chebyshev(Chebyshev), khoảng cách khối (Block), khoảng cách Minkowski (Minkowski) khoảng cách hoá (Customized) * Counts : Dùng cho số liệu số ®Õm Lùa chän phÐp ®o sù gièng nhau: - Tham số Khi-bình phơng (Chi-square measure) - Phi-bình phơng (Phi-square measure) * Binary: Dùng cho biến nhị nguyên : Lựa chọn phép đo giống nhau: khoảng cách Euclides, bình phơng khoảng cách Euclides, hiệu số cỡ mẫu (Size difference), hiệu số kiểu mẫu (Pattern difference), phơng sai (Variance), độ lệch (Dispersion), dáng điệu phân phối (Shape), khớp cặp đơn giản - 13 Phân tích theo nhóm thứ bậc (HCA) (Simple matching), hệ số tơng quan điểm Phi (Phi 4- point correlation) loại tham chiếu thống kê * Transform Values: Dùng chuẩn hoá số liệu (trớc tính toán độ gần nhất) Việc chuẩn hoá không thích hợp với biến nhị nguyên Danh sách phơng pháp tiến hành chuẩn hoá nhấn phím mũi tên ô Standardize Các phơng pháp chuẩn hoá : - Giá trị lệch ®iĨm (Z scores), sè liƯu tr¶i tõ -1 ®Õn (Range -1 to 1), số liệu trải tử đến (Range to 1), biên độ cực đại (Maximum magnitude of 1), trị trung bình (Mean of 1), độ lệch tiêu chuẩn (Standard deviation of 1) - ChuÈn ho¸ theo biÕn (By variable) theo quan sát (By case) Kết thu đợc III Nhận xét kết Sau chạy chơng trình, ta thu đợc bảng kết sau: - 14 – Ph©n tÝch theo nhãm thø bËc (HCA) B¶ng 3.1 Case Processing Summary(a,b) Cases Valid N Missing Total N Percent N Percent 0 100.0 a Squared Euclidean Distance used b Average Linkage (Between Groups) Nh phơng pháp HCA sử dụng kết nối trung bình nhóm(Average Linkage (Between Groups) ) ,với phép đo giống đợc sử dụng khoảng cách ơclit hay khoảng cách hình học ( Squared Euclidean Distance used) Percent 100.0 Tæng sè mÉu nghiên cứu mẫu: : Ora, hnj, anl, sih, nav Tất mẫu phân tích đợc Sự kết nối nhóm mẫu đợc thể bảng 6.2 dới * Sự kết nối trung bình nhóm (Average Linkage (Between Groups)) B¶ng 3.2 Agglomeration Schedule Stage Cluster First Cluster Combined Appears Cluster Cluster Cluster Cluster Next Stage Coefficients Stage 077 0 291 0 3 599 4 913 Qua kết gộp nhóm Bảng 3.2 trên, ta thấy cấp thứ nhất, nhóm mẫu 2(HNJ) mẫu 4( SIH) có mức độ giống với hệ số (của phép đo giống nói phần trên) nhỏ 0.077 chúng ®ỵc gép thanhh mét nhãm TiÕp theo, ë cÊp thø hai, ta lại thấy nhóm mẫu thứ 3(ANL) thứ 5(NAV) lại giống với hệ số phép đo giống 0.291 hai nhóm mẫu đợc trộn với thành mét nhãm míi T¬ng tù ë cÊp thø 3, nhãm mẫu (ORA) nhóm mẫu 3(ANL) ®ỵc trén víi víi phÐp ®o møc ®é gièng cã hƯ sè lµ 0.599 Ci cïng, ë cÊp thứ cấp cuối cùng, kết cho thấy nhóm mẫu 1( ORA) nhóm mẫu 2( HNJ) đợc kết hợp với tạo thành nhóm với hệ số phép đo mức độ tơng đồng 0.913 Tuy nhiên , kết nối nhóm mẫu qủa có múi không đơn giản nh Mà cấp phân nhóm, xuất nhóm mẫu đợc tạo nhóm mẫu thuộc nhóm mẫu vừa tạo thành cấp với nhóm mẫu đơn lẻ khác - 15 Phân tích theo nhóm thứ bậc (HCA) Thật vậy, cấp phân nhóm thứ thứ hai không xuất nhóm mẫu thuộc hai nhóm mẫu vừa tạo thành Do nhóm đợc hình thành Song ë cÊp ph©n nhãm thø nhËn thÊy r»ng, nhãm mẫu quả(1-3) đợc tạo thành cấp có nhãm mÉu gièng mÉu v× vËy h×nh thành nhóm mẫu nhóm mẫu cấp cuối Kết đợc thể rõ bảng 3.3 Bảng 3.3.Vertical Icicle Number of clusters Case 4: 2: 5: S H N I N A H J V X X X X X X X X X X X X X X X X X X X X 3: A N L X X X X X X 1: O R A X X X X B¶ng 3.3 chØ cho chóng ta thÊy r»ng, víi mÉu đà cho đợc phân nhóm nh sau: Trớc tiên, mẫu 4(SIH) mẫu 2(HNJ) giống nên đợc trộn với Khi đó, mẫu ta nghiên cứu đợc chia làm nhãm mÉu qu¶ TiÕp theo, xÐt sù gièng nhóm mẫu này, ta thấy, mẫu (NAV) có tơng đồng với mẫu 3(ANL) chúng đợc gộp thành nhóm Do đó, Số nhóm mẫu ta thu đợc Tơng tù nh vËy, xÐt sù gièng nhãm mẫu vừa thu đợc, nhóm mẫu 1(ORA) giống mẫu 3(NAL) chúng đợc trộn với nhau, kết thu đợc hai nhóm mẫu lớn Và xét mức độ giống hai nhóm mẫu ta lại nhận thấy,số mẫu lại có khác không nhiều ta thu đợc nhóm Tuy nhiên để minh hoạ kết thể cách tỉng quan nhÊt, chóng ta cã thĨ dùa vµo biĨu ®å c©y díi ®©y: Dendrogram * * * * * * H I E R A R C H I C A L C L U S T E R Dendrogram using Average Linkage (Between Groups) - 16 – A N A L Y S I S * * * * * * Ph©n tÝch theo nhãm thø bËc (HCA) Rescaled Distance Cluster Combine C A S E Label HNJ SIH ANL NAV ORA Num 5 10 15 20 25 + -+ -+ -+ -+ -+ B1 C1   B2  C2    B3  D Nh vậy, biểu đồ đà thể đợc mức độ giống mẫu có múi Để thấy rõ hơn, dựng đờng thẳng đứng ( 1,2,3,4) tơng ứng với cấp phân nhóm Tại cấp 1( ứng với D ~ 2), mẫu có múi đợc chia làm nhóm mẫu Tại cấp 2(D~10), nhận thấy nhóm mẫu vừa hình thành đợc chia làm nhóm mẫu quả(B1,B2,B3) nhóm mẫu tơng tự giống nên chúng đợc trộn với thành nhóm, mẫu lại khác chúng nhóm đơn lẻ Tiếp theo, t¹i cÊp ( D~20), chØ cã hai nhãm mÉu (C1,C2), có giống mẫu cđa nhãm B2 víi nhãm mÉu B3 nªn hai nhãm mẫu đợc trộn với tạo nên nhóm C2( nhóm khác so với nhóm C1) Tuy nhiên ë cÊp 4( D~25) cđa ph©n nhãm, mÉu cđa C1 lại có điểm giống với mẫu nhóm C2 nên chúng lại đợc trộn với tạo thành nhóm Việc phân cấp giá trị khác thang đo khoảng cách(0-25) cho thấy, với D lớn mức độ gần chúng giảm, nghĩa mức độ tơng đồng nhóm mẫu có múi bị loÃng dần, không chặt chẽ, song nhiều giống D đó(D

Ngày đăng: 28/04/2013, 08:36

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan