Một số kỹ thuật phân cụm dữ liệu và ứng dụng

85 129 0
Một số kỹ thuật phân cụm dữ liệu và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG - NGUYỄN THỊ HUỆ MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG Chuyên ngành: Khoa học máy tính Thái Nguyên - 2014 ii LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành đến PGS.TS Bùi Thế Hồng, người tận tình hướng dẫn, giúp đỡ em suốt thời gian thực luận văn Em cảm ơn thầy Viện Công Nghệ Thông Tin Hà Nội thầy cô trường Đại học Công nghệ thông tin truyền thông – ĐH Thái Nguyên giảng dạy em, giúp em có kiến thức quý báu năm học qua Mặc dù cố gắng với tận tâm thầy giáo hướng dẫn song trình độ hạn chế nên luận văn em khó tránh khỏi thiếu sót Em mong nhận thơng cảm góp ý thầy cô bạn Thái Nguyên, tháng 06 năm 2014 Học viên Nguyễn Thị Huệ LỜI CAM ĐOAN Em xin cam đoan toàn nội dung luận văn em tự sưu tầm, tra cứu xếp cho phù hợp với nội dung yêu cầu đề tài Tất thử nghiệm luận văn em tự thiết kế xây dựng, thuật toán phân cụm Hierarchical clustering viết MATLAB kết thử nghiệm thuật toán so sánh với kết thử nghiệm liệu phân tích thuật tốn chuẩn phần mềm phân tích thống kê liệu SPSS 20.0 Bảng liệu Tỉ suất chết trẻ em tuổi, tỉ suất sinh thô tổng tỉ suất sinh năm 2007 nước giới em sưu tầm từ nguồn tin cậy số tổ chức liên hợp quốc (Worldbank, UNFPA, UNDP) từ đĩa DVD Microsoft Student with Encara Prenium 2009 Nếu sai em xin hoàn toàn chịu trách nhiệm Thái Nguyên, tháng 06 năm 2014 Nguyễn Thị Huệ MỤC LỤC LỜI CẢM ƠN i CAM ĐOAN iii MỤC LỤC .iv MỤC LỜI CÁC DANH BẢNG MỤC DANH vi CÁC HÌNH VẼ vii DANH MỤC CÁC TỪ VIẾT TẮT viii MỞ ĐẦU ix CHƯƠNG 1: TỔNG QUAN VỀ PHÂN TÍCH THỐNG KÊ DỮ LIỆU VÀ BÀI TOÁN PHÂN LIỆU 1.1 CỤM DỮ Tổng quan phân tích thống kê liệu 1.1.1 Giới thiệu phân tích thống kê liệu 1.1.2 Các thống kê mô tả .4 1.1.3 Phân bố lấy mẫu suy luận quần thể từ thống kê mẫu 1.1.4 Các phương pháp ước lượng tham số thống kê 1.1.5 Kiểm định giả thuyết thống kê .12 1.2 Bài tốn phân tích cụm phân tích thống kê liệu 16 1.2.1 Định nghĩa phân cụm liệu .16 1.2.2 Một số cách tiếp cận phân cụm liệu thống kê 17 CHƯƠNG 20 MỘT SỐ KỸ THUẬT .20 PHÂN CỤM DỮ LIỆU 2.1 Thuật toán phân cụm liệu dựa vào phân cụm phân hoạch 20 2.1.1 Thuật toán K – means 20 2.1.2 Thuật toán PAM .24 2.1.3 Thuật toán CLARA 26 2.2 Thuật toán phân cụm liệu dựa vào mật độ 27 2.2.1 Thuật toán DBSCAN .27 2.2.3 Thuật toán DENCLUDE 34 2.3 Thuật toán phân cum liệu dựa vào phân cụm phân cấp 36 2.3.1 Thuật toán BIRCH .36 2.3.2 Thuật toán Hierarchical clustering 39 CHƯƠNG 43 ỨNG DỤNG PHÂN TÍCH CỤM TRONG NHÂN KHẨU HỌC 43 3.1 Xác định toán 43 3.2 Phân tích lựa chọn cơng cụ phân cụm 48 3.2.1 Các chức chương trình phân cụm MATLAB 48 3.2.2 Mã nguồn chương trình (Matlab) 51 3.3 Thực phân tích cụm phân tích thống kê liệu 53 3.3.1 Phương pháp phân tích 53 3.3.2 Các bước tiến hành phân cụm quốc gia theo số nhân học 54 3.4 Phân tích ý nghĩa cụm quốc gia theo ba số phân cụm 63 KẾT LUẬN 69 TÀI LIỆU THAM KHẢO 70 DANH MỤC CÁC BẢNG Bảng 3.1 Bảng số nhân học quốc gia 48 Bảng 3.2: Các thông kê mô tả biến phân cụm .54 Bảng 3.3: Bảng hệ số tương quan biến 55 Bảng 3.4 Bảng phân cụm sơ theo phương án 62 Bảng 3.5 Bảng số thống kê theo phương án cụm 63 Bảng 3.6 bảng số thống kê theo phương án cụm .65 Bảng 3.7 Bảng số thống kê theo phương án cụm 66 vii DANH MỤC CÁC HÌNH VẼ Hình 1.1: Mơ hình q trình nghiên cứu thống kê .3 Hình 2.1: Các thiết lập để xác định danh giới cụm ban đầu 20 Hình 2.2: Tính tốn trọng tâm cụm 21 Hình 2.3: Ví dụ hình dạng phân cụm Kmeans .23 Hình 2.4: Cây CF sử dụng BIRCH 37 Hình 2.5: Khoảng cách liên kết đơn 40 Hình 2.6: Phương pháp khoảng cách liên kết hồn tồn 40 Hình 2.7: Phương pháp khoảng cách liên kết trung bình 41 Hình: 2.8 Phương pháp phân tích cụm dựa vào phương sai 41 Hình 2.9: Phương pháp phân tích cụm dựa vào khoảng cách trung tâm 42 Hình 2.10: Sơ đồ thuật toán 42 Hình 3.1 Các số nhân học cụm với phương án k=4 .49 Hình 3.2: Các số nhân học cụm với phương án k=5 50 Hình 3.3: Các số nhân học cụm với phương án k=6 50 Hình 3.4: Hộp thoại thực Descriptive Statistics 54 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ Hình 3.5: Hộp thoại thực thủ tục Corelations .55 Hình 3.6: Hộp thoại phân tích cụm .56 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC TỪ VIẾT TẮT STT Tên viết tắt Tên tiếng Anh Định nghĩa Tỉ suất chết IMR Infant Mortality Rate trẻ em tuổi (‰) BR Crude Birth Rate Tỉ suất sinh thô (‰) Số trung bình sinh sống TFR Total Fertility Rate người phụ nữ suốt thời gian sinh sản Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ Bảng 3.3 cho thấy biến có quan hệ mạnh với nhau: hệ số tương quan tỉ suất sinh thô (BR) tỉ suất chết sơ sinh (IMR) gần 0.9 hệ số tương quan tổng tỉ suất sinh (TFR) tỉ suất sinh thô gần Do chọn phân chia quốc gia thành cụm lúc theo biến 3.3.2.2 Thực phân cụm Phân cụm sơ theo miền số cụm Trước tiến hành phân cụm phải lựa chọn số cụm thông qua lần phân cụm thử với miền cụm đó, cách chọn miền phân cụm thủ tục Classify Vào Menu/ Analyze/ Classify/ Hierarchical Cluster Trong hộp thoại ra: Hình 3.6: Hộp thoại phân tích cụm Đưa biến lựa chọn (IMR, BR, TFR) vào hộp Variables Label cases by: Country Phần Cluster : chọn Cases Phần Display: chọn Statistics Plot Nhấn vào Statistics, hộp thoại Statistics xuất Chọn Agglomeration Schedule Proximity Matrix Nhấn vào Plots, hộp thoại Plots xuất hiện, chọn Dendrogram Nhấn vào Method, hộp thoại Method xuất Chọn phương pháp phân cụm Ward’s method; độ đo Squared Euclidean distance, chuẩn hóa giá trị Z scores chọn By variable Nhấn nút Save Hộp thoại Save New Variables xuất Ở khung Cluster Mambership có tùy chọn, chọn Range of Solutions, chẳng hạn từ cụm đến cụm Sau đó, Data View xuất biến clu6, clu5, clu4 Các kết phân cụm trình bày file output Sử dụng chương trình bảng tính thu bảng phân chia quốc gia theo phương án cụm, cụm cụm Các số ba cột bên phải dòng số thứ tự cụm mà quốc gia dòng phân chia vào phương án Ví dụ Anbania thuộc vào cụm ba phương án Còn Benin (dòng 178) lại thuộc cụm phương án cụm, thuộc cụm phương án cụm thuộc cụm phương án cụm STT 10 11 12 13 14 15 16 17 18 Quốc gia Albania Andorra Armenia Aruba Australia Austria Barbados Belarus Belgium Bermuda Bosnia and Herzegovina British Virgin Islands Bulgaria Canada Cayman Islands China Croatia Cuba Clusters 1 1 1 1 1 Clusters 1 1 1 1 1 Clusters 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 58 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 Cyprus Czech Republic Denmark Estonia Finland Georgia Germany Greece Hong Kong Hungary Isle of Man Italy Japan Korea South Latvia Liechtenstein Lithuania Luxembourg Macau Macedonia Malta Moldova Montserrat Netherlands Norway Palau Poland Portugal Puerto Rico Qatar Romania Russia Saint Helena 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Saint Pierre and Miquelon San Marino Serbia Singapore Slovakia Slovenia Spain Sweden 1 1 1 1 1 1 1 1 1 1 1 1 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 Switzerland Taiwan Thailand Ukraine United Kingdom Algeria American Samoa Belize Egypt Eritrea Gaza Strip Ghana Guatemala Honduras Iraq Jordan Kenya Marshall Islands Oman Papua New Guinea Philippines Samoa Solomon Islands Syria Tonga Vanuatu West Bank Zimbabwe Angola Burkina Faso Burundi Malawi Mali Mozambique Niger Nigeria Uganda Zambia Antigua and Barbuda Argentina Azerbaijan Bahrain Số hóa Trung tâm Học liệu - ĐHTN 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 4 4 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 4 4 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 4 4 http://www.lrc-tnu.edu.vn/ 60 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 Botswana Brazil Brunei Chile Colombia Cook Islands Costa Rica Dominica Dominican Republic Ecuador El Salvador Faroe Islands Fiji France French Polynesia Grenada Guam Guyana Iceland Indonesia Ireland Israel Jamaica Kazakhstan Korea North Kuwait Lebanon Libya Malaysia Maldives Mauritius Mexico Morocco New Caledonia New Zealand Nicaragua 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 Northern Mariana Islands Panama Paraguay Peru 4 4 4 4 4 4 Saint Kitts and Nevis 4 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 61 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 Saint Lucia Saint Vincent and the Grenadines Saudi Arabia Seychelles Sri Lanka Suriname 4 4 4 4 4 4 4 4 4 Trinidad and Tobago Tunisia Turkey 4 4 4 4 Turks and Caicos Islands 4 United Arab Emirates United States Uruguay Uzbekistan Venezuela Vietnam Bangladesh Bhutan Bolivia Cambodia Djibouti Haiti Iran Kiribati Kyrgyzstan Laos Lesotho Mongolia Namibia Nepal Pakistan South Africa Swaziland Tajikistan Turkmenistan Benin Cameroon Comoros Cote d'Ivoire 4 4 4 5 5 5 5 5 5 5 5 5 6 6 4 4 4 2 2 2 2 2 2 2 2 2 5 5 4 4 4 2 2 2 2 2 2 2 2 2 3 3 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 62 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 Equatorial Guinea Ethiopia Gabon Guinea-Bissau Liberia Madagascar Mauritania Rwanda 6 6 6 6 5 5 5 5 3 3 3 3 Sao Tome and Principe Senegal Sierra Leone Sudan Tanzania Togo Western Sahara Yemen 6 6 6 6 5 5 5 5 3 3 3 3 Bảng 3.4 Bảng phân cụm sơ theo phương án Từ bảng 3.4 thấy: - Phương án cụm: Được tạo từ phương án cụm cách giữ nguyên cụm 1, 3, 4; cụm cụm ghép vào cụm 2, cụm chuyển thành cụm - Phương án cụm tạo từ phương án cụm cách giữ nguyên cụm 1,2,4 ; cụm cụm ghép vào với cụm 3; cụm ghép vào cụm Sau so sánh danh sách quốc gia phân cụm thuật tốn viết ngơn ngữ Matlab danh sách quốc gia phân cụm SPSS ba phương án, tác giả thấy hai kết trùng Vì mục 3.4 nhận xét chung ý nghĩa cụm theo ba phương án hai cách làm Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 63 3.4 Phân tích ý nghĩa cụm quốc gia theo ba số phân cụm Phương án 1: cụm Descriptive Statistics CLU6 N Minimum Maximum Mean Std Deviation Variance Tỷ suất chết sơ sinh 64 2.17 17.59 6.8531 4.12567 17.021 Tỷ suất sinh thô 64 7.58 12.86 10.2363 1.38515 1.919 Tổng tỉ suất sinh 64 2.0 1.518 2339 055 Valid N (listwise) 64 Tỷ suất chết sơ sinh 23 9.50 42.18 23.0543 10.10266 102.064 Tỷ suất sinh thô 23 21.70 33.27 26.3804 3.27188 10.705 Tổng tỉ suất sinh 23 2.7 4.2 3.241 4382 192 Valid N (listwise) 23 Tỷ suất chết sơ sinh 10 58.86 106.49 76.9010 13.52902 183.034 Tỷ suất sinh thô 10 38.78 46.84 42.0040 3.02438 9.147 Tổng tỉ suất sinh 10 5.3 6.9 5.846 4944 244 Valid N (listwise) 10 Tỷ suất chết sơ sinh 61 3.17 34.45 14.1907 7.46725 55.760 Tỷ suất sinh thô 61 12.60 21.69 16.6664 2.23164 4.980 Tổng tỉ suất sinh 61 1.7 2.6 2.067 2355 055 Valid N (listwise) 61 Tỷ suất chết sơ sinh 19 29.73 59.35 44.9158 8.44931 71.391 Tỷ suất sinh thô 19 18.40 26.31 22.5758 2.56666 6.588 Tổng tỉ suất sinh 19 1.9 2.9 2.503 3237 105 Valid N (listwise) 19 Tỷ suất chết sơ sinh 20 45.10 92.66 59.5075 11.63736 135.428 Tỷ suất sinh thô 20 29.83 38.07 34.1475 2.57654 6.639 Tổng tỉ suất sinh 20 3.6 5.2 4.465 4381 192 Valid N (listwise) 20 Bảng 3.5 Bảng số thống kê theo phương án cụm Phân tích ý nghĩa cụm quốc gia theo ba số nhân học - Cụm 1: Cụm bao gồm 64 quốc gia, nằm chủ yếu khu vực Châu Âu Châu Mỹ Các số cần phân tích thấp giới, là báo động quốc gia Âu Mỹ vài nước phát triển Đông Á việc giảm dân số Cụm xếp loại thấp Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 64 - Cụm Bao gồm 23 quốc gia, nằm rải rác khu vực Bắc Phi, Châu Á, Châu Đại Dương Nam Mỹ Ba số khu vực thuộc loại trung bình thấp - Cụm Bao gồm 10 quốc gia hầu hết thuộc Châu Phi Các số mức cao cho thấy quốc gia có kinh tế, giáo dục, hệ thống y tế phát triển Cụm thuộc loại cao - Cụm 4: Bao gồm 61 quốc gia, nằm chủ yếu khu vực Châu Mỹ số nước khu vực Đông Nam Á Các số mức thấp Nền kinh tế quốc gia hầu hết phát triển - Cụm 5: Bao gồm 19 quốc gia thuộc khu vực Châu Á số quốc gia Châu Phi, Trung Mỹ Các số thuộc loại trung bình - Cụm 6: Gồm 20 quốc gia có số nghiên cứu mức cao (IMR = 59, BR = 34, TFR = 4.4) phần lớn thuộc Châu Phi Với phương án chia quốc gia giớ thành cụm theo ba số nhân học chọn, chia cụm quốc gia mức : thấp (cụm 1), trung bình thấp (cụm 2), cao (cụm 3), thấp (cụm 4), trung bình (cụm 5), cao (cụm 6) Phương án 2: Cụm Phương án cụm có cụm với số lượng quốc gia số thống kê cụ thể sau: Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 65 Descriptive Statistics Clu5 N Minimum Maximum Mean Std Deviation Variance Tỷ suất chết sơ sinh 64 2.17 17.59 6.8531 4.12567 17.021 Tỷ suất sinh thô 64 7.58 12.86 10.2363 1.38515 1.919 Tổng tỉ suất sinh 64 2.0 1.518 2339 055 Valid N (listwise) 64 Tỷ suất chết sơ sinh 42 9.50 59.35 32.9440 14.40114 207.393 Tỷ suất sinh thô 42 18.40 33.27 24.6593 3.50855 12.310 Tổng tỉ suất sinh 42 1.9 4.2 2.907 5360 287 Valid N (listwise) 42 Tỷ suất chết sơ sinh 10 58.86 106.49 76.9010 13.52902 183.034 Tỷ suất sinh thô 10 38.78 46.84 42.0040 3.02438 9.147 Tổng tỉ suất sinh 10 5.3 6.9 5.846 4944 244 Valid N (listwise) 10 Tỷ suất chết sơ sinh 61 3.17 34.45 14.1907 7.46725 55.760 Tỷ suất sinh thô 61 12.60 21.69 16.6664 2.23164 4.980 Tổng tỉ suất sinh 61 1.7 2.6 2.067 2355 055 Valid N (listwise) 61 Tỷ suất chết sơ sinh 20 45.10 92.66 59.5075 11.63736 135.428 Tỷ suất sinh thô 20 29.83 38.07 34.1475 2.57654 6.639 Tổng tỉ suất sinh 20 3.6 5.2 4.465 4381 192 Valid N (listwise) 20 Bảng 3.6 bảng số thống kê theo phương án cụm Từ bảng kết phương án cụm cho thấy cụm cụm phương án ghép lại thành cụm phương án gồm có 42 quốc gia khu vực Châu Á, Châu Đại Dương, Châu Phi, Trung Mỹ Các tiêu hai cụm mức trung bình thấp trung bình Cụm phương án chuyển thành cụm phương án Cụm 1,3,4 giữ nguyên Tỉ suất chết trẻ em nhóm 32.9 ‰, tỉ suất sinh thô 24.6‰, số Con sinh sống trung bình người phụ nữ suốt thời gian sinh sản gần Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 66 Như với phương án chia cụm, chia cụm quốc gia mức : thấp (cụm 1), trung bình (cụm 2), cao (cụm 3), thấp (cụm 4), cao (cụm 5) Phương án 3: cụm Phương án phân chia nước giới thành cụm có kết cụ thể cho bảng sau: Descriptive Statistics Clu4 N Minimum Maximum Mean Std Deviation Variance Tỷ suất chết sơ sinh 64 2.17 17.59 6.8531 4.12567 17.021 Tỷ suất sinh thô 64 7.58 12.86 10.2363 1.38515 1.919 Tổng tỉ suất sinh 64 2.0 1.518 2339 055 Valid N (listwise) 64 Tỷ suất chết sơ sinh 42 9.50 59.35 32.9440 14.40114 207.393 Tỷ suất sinh thô 42 18.40 33.27 24.6593 3.50855 12.310 Tổng tỉ suất sinh 42 1.9 4.2 2.907 5360 287 Valid N (listwise) 42 Tỷ suất chết sơ sinh 30 45.10 106.49 65.3053 14.66563 215.081 Tỷ suất sinh thô 30 29.83 46.84 36.7663 4.62360 21.378 Tổng tỉ suất sinh 30 3.6 6.9 4.925 8002 640 Valid N (listwise) 30 Tỷ suất chết sơ sinh 61 3.17 34.45 14.1907 7.46725 55.760 Tỷ suất sinh thô 61 12.60 21.69 16.6664 2.23164 4.980 Tổng tỉ suất sinh 61 1.7 2.6 2.067 2355 055 Valid N (listwise) 61 Bảng 3.7 Bảng số thống kê theo phương án cụm Với phương án cụm cụm cụm phương án cụm gộp thành cụm bao gồm 30 quốc gia, cụm 1,2,4 giữ nguyên Như với phương án chia cụm, chia cụm quốc gia mức : thấp (cụm 1), trung bình (cụm 2), cao (cụm 3), thấp (cụm 4) Cụm 1: Từ kết phân tích cho thấy ba số phân tích thấp Đây cụm chứa quốc gia có kinh tế phát triển Người dân có Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 67 đời sống cao, y tế phát triển, sở hạ tầng đại, hệ thống kinh tế tăng trưởng mạnh mẽ bền vững lĩnh vực dịch vụ, giáo dục, nghiên cứu phát triển, thông tin… Cụm 2: Bao gồm 42 quốc gia, nằm rải rác khu vực Châu Phi, Châu Châu Á, Châu đại Dương, Trung Mỹ, Bắc Phi Đây cụm có tỉ suất trẻ sơ sinh chết tuổi, tỷ suất sinh thô, tổng tỷ suất sinh mức trung bình Thể quốc gia có kinh tế phát triển, thu nhập bình quân đầu người thấp, đời sống nhân dân chưa cao, dân số gia tăng nhanh chóng Ví dụ: Quốc gia Philippin : Trong 1000 trẻ sinh sống có 18.19 trẻ chết tuổi, với 1000 người dân/1 năm có 24.62 trẻ sinh sống, bình quân người phụ nữ Philippin suốt thời kỳ sinh đẻ có 3.1con Cụm 3: Bao gồm 30 quốc gia, nằm chủ yếu khu vực Châu Phi, Châu Á, Châu Mỹ Trong 1000 trẻ em sinh sống có 45.1 trẻ, nhiều 106.4 trẻ chết tuổi, so với cụm khác tỷ lệ trẻ chết tuổi cao Trong 1000 dân / năm trung bình có 36.7 trẻ sinh sống Bên cạnh số sinh sống tính bình qn người phụ nữ suốt thời kỳ sinh đẻ 4.9 Đây quốc gia có kinh tế, giáo dục, hệ thống y tế phát triển Cụm 4: Bao gồm 61 quốc gia, nằm chủ yếu khu vực Châu Mỹ số nước khu vực Đông Nam Á Tỉ suất trẻ sơ sinh chết tuổi 14.1, tỉ suất sinh thô 16.6, Tổng tỉ suất sinh 2.0 Từ số thể quốc gia có kinh tế phát triển, thu nhập bình quân đầu người thấp, đời sống nhân dân chưa cao, dân số gia tăng nhanh chóng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 68 Ví dụ: Việt Nam nằm cụm nước phát triển với số liệu cụ thể sau: Trong 1000 trẻ sinh sống có 19.61 trẻ chết tuổi, với 1000 người dân/1 năm có 16.56 trẻ sinh sống, bình quân người phụ nữ suốt thời kỳ sinh đẻ có 1.9 (gần 2con) Hiện dân số Việt Nam vào khoảng 90 triệu dân với mật độ dân số lớn, dịch vụ y tế chưa đại Vì mà phủ Việt Nam cần có nhiều biên pháp nâng cao đời sống nhân dân, cải thiện dịch vụ y tế, chăm sóc sức khỏe Từ kết phân tích cụm quốc gia giới toán thể tỷ suất trẻ em sơ sinh chết tuổi, tỷ suất sinh thô, tổng tỷ suất sinh Qua cho thấy quốc gia nằm cụm có kinh tế phát triển, phát triển, phát triển Qua kết toán phân tích cụm theo số nhân học sử dụng thuật toán Hierachical clustering cài đặt Matlab sử dụng thử nghiệm phương pháp phân cụm thống kê liệu cho kết Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 69 KẾT LUẬN Trong trình làm luận văn em thu kết sau: - Cài đặt thuật toán phân cụm Hierachical clustering MATLAB thử nghiệm phân cụm quốc gia giới thành cụm theo số nhân học gồm tỉ suất chết trẻ em tuổi, tỉ suất sinh thô tổng tỉ suất sinh - Xây dựng qui trình phân tích cụm phân tích thống kê liệu - Tiến hành thử nghiệm phân cụm liệu thuật tóan phân cụm Hierachical phân tích thống kê liệu - So sánh kết hai thử nghiệm rút kết luận hai phương pháp Tuy nhiên bên cạnh kết đạt em tự thấy luận văn nhiều hạn chế như: Kiến thức hạn chế nên phần trình bày đề tìm hiểu thuật tốn chưa sâu Chương trình thử nghiệm dừng thuật tốn Hierachical Clustering Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 70 TÀI LIỆU THAM KHẢO Tiếng việt [1] Hoàng Trọng, Chu Nguyễn Mộng Ngọc (2008), Phân tích liệu nghiên cứu với SPSS, NXB Hồng Đức, TP Hồ Chí Minh [2] Bùi Thế Hồng (2010), Giáo trình Phân tích thống kê liệu, NXB Khoa học kỹ thuật, Hà Nội [3] Nguyễn Công Khanh (2001), Ứng dụng SPSS FOR WINDOWS: xử lý phân tích liệu, NXB ĐHQG Hà Nội, Hà Nội [4] Hà Văn Sơn (2004), Giáo trình lý thuyết thống kê, NXB Thống kê Tiếng Anh [5] B.S Everitt, Cluster Analysis, Edward Amold coblished by Haisted Press and imprint of john Wiley & Sons Inc., 3rd edition, 1993 [6] John K Taylor and Cheryl Cihon, Statistical Techniques for Data Analysis, Second Edition, 2004 [7] Betty Kirwood and Jonathan Sterne, Essential of Medical Statistics, London School of Hygiene and Tropical Medicine [8] Data Clustering Theory, Algorithms, and Applications Guojun Gan, Chaoqun Ma,Jianhong Wu 2007 [9] M.R Anderber, Cluster analysis of application, A cademic Press, New York, 1973 [10] B.S Everitt, Cluster Analysis, Edward Amold coblished by Haisted Press and imprint of john Wiley & Sons Inc, 3rd edition, 1993 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ ... kê liệu 1.2 Bài toán phân cụm thống kê liệu Chương 2: Các kỹ thuật phân cụm liệu 2.1 Thuật toán phân cụm liệu dựa vào cụm trung tâm 2.2 Thuật toán phân cụm liệu dựa vào mật độ 2. 3Thuật toán phân. .. thù kỹ thuật phân cụm khả ứng dụng phong phú kỹ thuật nên em chọn nghiên cứu đề tài Một số kỹ thuật phân cụm liệu ứng dụng làm luận văn tốt nghiệp cao học Mục tiêu đề tài Nghiên cứu kỹ thuật phân. .. tượng cụm khác khơng tương tự Một cụm đối tượng liệu xem nhóm nhiều ứng dụng Một số ví dụ phân cụm liệu • Phân cụm liệu sinh học tin sinh học + Phân cụm thực vật động vật Phân tích cụm sử dụng

Ngày đăng: 18/01/2019, 16:29

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan