Khai phá dữ liệu trong mô hình dữ liệu dạng khối

87 284 0
Khai phá dữ liệu trong mô hình dữ liệu dạng khối

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai phá dữ liệu trong mô hKhai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối Khai phá dữ liệu trong mô hình dữ liệu dạng khối ình dữ liệu dạng khối

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI TRẦN THỊ THU HIỀN KHAI PHÁ DỮ LIỆU TRONG MÔ HÌNH DỮ LIỆU DẠNG KHỐI LUẬN VĂN THẠC SĨ MÁY TÍNH HÀ NỘI, 2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI TRẦN THỊ THU HIỀN KHAI PHÁ DỮ LIỆU TRONG MÔ HÌNH DỮ LIỆU DẠNG KHỐI Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ MÁY TÍNH Người hướng dẫn khoa học: TS. Trịnh Đình Vinh HÀ NỘI, 2014 LỜI CẢM ƠN Trước tiên em xin bày tỏ lòng biết ơn tới thầy cô giáo Trường Đại học Sư phạm Hà Nội truyền đạt, hướng dẫn cung cấp kiến thức quý báu cho em suốt trình học tập nghiên cứu trường. Em xin chân thành cảm ơn thầy giáo TS. Trịnh Đình Vinh tận tình hướng dẫn, bảo em thời gian qua. Em xin gửi lời cảm ơn tới gia đình, người thân, bạn bè tạo điều kiện để em hoàn thành khóa học sau đại học. Do thời gian kiến thức có hạn nên luận văn chắn không tránh khỏi thiếu sót định. Em mong nhận góp ý quý báu thầy cô bạn. Vĩnh Phúc, ngày 15 tháng 12 năm 2014. Học viên Trần Thị Thu Hiền LỜI CAM ĐOAN Trong trình hoàn thành luận văn, tìm hiểu, nghiên cứu, tổng hợp từ nhiều nguồn tài liệu khác nhau, đạo, giúp đỡ giáo viên hướng dẫn, kết đề tài sản phẩm lao động cá nhân tôi. Các nguồn tài liệu sử dụng trích dẫn rõ ràng, khoa học. Nội dung luận văn chưa công bố hay xuất hình thức không chép từ công trình nghiên cứu nào. Tôi xin cam đoan điều hoàn toàn đúng. Vĩnh Phúc, ngày 15 tháng 12 năm 2014 Học viên Trần Thị Thu Hiền MỤC LỤC LỜI CẢM ƠN . LỜI CAM ĐOAN . MỞ ĐẦU . 1. Lí chọn đề tài 2. Mục đích nghiên cứu . 3. Nhiệm vụ nghiên cứu 4. Đối tượng phạm vi nghiên cứu 5. Phương pháp nghiên cứu . 6. Những đóng góp đề tài 7. Cấu trúc luận văn DANH MỤC CÁC HÌNH VẼ . DANH MỤC CÁC BẢNG CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 10 1.1. Khai phá liệu 10 1.1.1. Khai phá liệu gì? . 10 1.1.2. Quá trình khám phá tri thức . 10 1.1.3. Các kỹ thuật khai phá liệu . 12 1.1.4. Các ứng dụng khai phá liệu khó khăn khai phá liệu 17 1.2. Kỹ thuật phân cụm khai phá liệu . 19 1.2.1. Khái niệm phân cụm liệu 19 1.2.2. Các hướng tiếp cận toán phân cụm liệu 20 Kết luận chương 38 CHƯƠNG 2: MÔ HÌNH DỮ LIỆU DẠNG KHỐI VÀ KHAI PHÁ DỮ LIỆU TRÊN KHỐI BẰNG KỸ THUẬT PHÂN CỤM 39 2.1. Mô hình liệu dạng khối 39 2.1.1. Khối, lược đồ khối 39 2.1.2. Lát cắt . 40 2.1.3. Đại số quan hệ khối . 41 2.1.4. Phụ thuộc hàm 45 2.1.5. Khoá lược đồ khối R tập phụ thuộc hàm F R . 47 2.2. Khai phá liệu khối kỹ thuật phân cụm . 48 2.2.1. Tính chất kỹ thuật phân cụm . 48 2.2.2. Thuật toán K-mean khối 50 Kết luận chương 52 CHƯƠNG 3: PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI TRƯỜNG CAO ĐĂNG NGHỀ CƠ KHÍ NÔNG NGHIỆP . 53 3.1. Giới thiệu Trường Cao đẳng nghề Cơ khí nông nghiệp . 53 3.1.1. Cơ cấu tổ chức . 55 3.1.2. Yêu cầu xây dựng CSDL: 56 3.1.3. Phạm vi thực . 57 3.2. Công cụ xử lý liệu IBM SPSS . 58 3.2.1. Giới thiệu chung . 58 3.2.2. Công cụ SPSS . 59 3.3. Phân cụm liệu với công cụ SPSS . 62 3.3.1. Thao tác phân cụm . 62 3.3.2. Thống kê mô tả đối tượng 64 3.4. Phân cụm liệu học sinh trường Cao đẳng nghề khí nông nghiệp . 65 3.4.1. Xây dựng sở liệu 65 3.4.2. Biểu diễn thông tin học sinh theo mô hình khối 68 3.4.3. Kết phân cụm theo thuật toán K-means 70 Kết luận chương 83 KẾT LUẬN . 84 TÀI LIỆU THAM KHẢO . 85 MỞ ĐẦU 1. Lí chọn đề tài Trong nhiều năm qua, với phát triển công nghệ thông tin ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống xã hội, lượng liệu quan thu thập lưu trữ ngày nhiều lên. Người ta lưu trữ liệu cho ẩn chứa giá trị định đó. Tuy nhiên theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) phân tích, số lại họ phải làm làm với liệu này, họ tiếp tục thu thập lưu trữ hy vọng liệu cung cấp cho họ thông tin quý giá cách nhanh chóng để đưa định kịp thời vào lúc đó. Chính vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật kỹ thuật khai phá liệu. Khai phá liệu công nghệ tri thức giúp khai thác thông tin hữu ích từ kho liệu lớn. Từ trước tới có số loại mô hình sử dụng hệ thống sở liệu như: mô hình thực thể - liên kết, mô hình mạng, mô hình phân cấp, mô hình hướng đối tượng, mô hình liệu datalog mô hình quan hệ. Trong năm gần đây, việc nghiên cứu nhằm mở rộng mô hình liệu quan hệ nhiều nhà khoa học quan tâm. Theo hướng nghiên cứu mô hình liệu đề xuất, mô hình liệu dạng khối. Mô hình liệu xem mở rộng mô hình liệu quan hệ. Đã có số công trình nghiên cứu mô hình liệu dạng khối này. Tuy nhiên việc khai phá liệu mô hình dạng khối mẻ. Chính lý mà chọn đề tài: “Khai phá liệu mô hình liệu dạng khối". 2. Mục đích nghiên cứu Trên sở nghiên cứu khai phá liệu mô hình liệu dạng khối sử dụng thuật toán K-means kỹ thuật phân cụm. 3. Nhiệm vụ nghiên cứu 1. Tìm hiểu khai phá liệu kỹ thuật phân cụm khai phá liệu. 2. Tìm hiểu mô hình liệu dạng khối. 3. Nghiên cứu thuật toán K-means khối kỹ thuật phân cụm. 4. Đối tượng phạm vi nghiên cứu Các vấn đề khai phá liệu, kỹ thuật phân cụm, thuật toán kỹ thuật phân cụm mô hình liệu dạng khối. 5. Phương pháp nghiên cứu Trong trình triển khai đề tài, sử dụng chủ yếu phương pháp: Thu thập tài liệu, phân tích,suy luận, tổng hợp, đánh giá. 6. Những đóng góp đề tài 1. Tìm hiểu khai phá liệu, kỹ thuật khai phá liệu nói chung kỹ thuật khai phá liệu phân cụm nói riêng. 2. Chứng minh tính chất khai phá liệu phân cụm mô hình khối. 3. Sử dụng kỹ thuật khai phá liệu ứng dụng vào khối liệu mô hình liệu dạng khối cách đề thuật toán thuật toán K-means khối dựa thuật toán K-means có mô hình quan hệ. 4. Áp dụng thuật toán để xây dựng phần mềm phân cụm kết học tập học sinh Trường Cao đẳng nghề Cơ khí nông nghiệp. 7. Cấu trúc luận văn Luận văn gồm phần mở đầu, phần kết luận chương nội dung: Chương 1: Tổng quan khai phá liệu kỹ thuật phân cụm khai phá liệu. Chương 2: Mô hình liệu dạng khối khai phá liệu khối kỹ thuật phân cụm. Chương 3: Phân cụm kết học tập Trường Cao đẳng nghề khí nông nghiệp. Sau tài liệu tham khảo. DANH MỤC CÁC HÌNH VẼ Hình 1.1: Quá trình khám phá tri thức Hình 1.2: Tập liệu với lớp: có khả trả nợ Hình 1.3: Phân loại học mạng nơron cho tập liệu cho vay Hình 1.4: Phân cụm tập liệu kết học tập vào cụm Hình 1.5: Mô tả luật kết hợp Hình 1.6: Gom cụm Hình 1.7: Sơ đồ khối k-means Hình 1.8: Phân cụm tập điểm dựa phương pháp k-medoids Hình 1.9: Các chiến lược phân cụm phân cấp Hình 1.10: Phân cụm tập điểm CURE Hình 1.11: Mật độ tiến mật độ liên kết phân cụm dựa mật độ Hình 1.12: Sắp xếp cụm OPTICS Hình 2.1: Biểu diễn khối điểm học sinh DHS(R) Hình 3.1: Sơ đồ tổ chức trường CĐN Cơ khí nông nghiệp Hình 3.2: Màn hình quản lý liệu SPSS Hình 3.3: Màn hình khai báo tên trường sử dụng SPSS Hình 3.4: Màn hình hiển thị kết Hình 3.5: Màn hình tính toán liệu dựa biến Hình 3.6: Thao tác phân cụm k-means Hình 3.7: Chọn tên trường số cụm cần phân chia Hình 3.8: Thống kê theo số lượng phân cụm cụ thể Hình 3.9. Biểu diễn thông tin học sinh theo mô hình khối Hình 3.10: Kết trung bình học sinh tham gia phân cụm Hình 3.11: Kết phân cụm năm Hình 3.12: Kết phân cụm năm theo vùng miền Hình 3.13: Kết phân cụm theo hoàn cảnh gia đình năm Hình 3.14: Phân cụm năm theo dân tộc Hình 3.15: Kết phân cụm năm theo giới tính 70 3.4.3. Kết phân cụm theo thuật toán K-means Dựa vào kết học tập học sinh phân tích phần trên. Ta xác định hình dạng cụm để thuận lợi cho việc phân tích, đáp ứng nhu cầu quản lý. Ở đây, luận văn phân chia kết học tập học sinh làm cụm, phản án đối tượng học sinh theo cách đánh giá Bộ giáo dục đào tạo là: – giỏi, trung bình khá, trung bình cao, trung bình thấp, yếu. Kết học tập học sinh sau phân cụm, có khoảng điểm cụ thể sau: Cụm Lát cắt học kỳ Lát cắt học kỳ 1-TC 7.1 2-TC 4.1 3-TC 6.3 4-TC 5.8 5-TC 5.1 1-TC 4.3 2-TC 6.8 3-TC 6.0 4-TC 7.6 5-TC 5.3 31 16 64 128 61 20 63 131 11 75 Bảng 3.3: Kết phân cụm số lượng thể cụm Cụm 3.060 .762 1.342 2.007 2.298 1.718 1.053 .580 1.245 3.060 .762 2.298 1.342 1.718 .580 2.007 1.053 1.245 .665 .665 Bảng 3.4: Khoảng cách cụm lát cắt học kỳ I Cụm 2.464 1.674 3.307 1.023 .789 .843 1.441 1.632 .652 2.464 1.674 .789 3.307 .843 1.632 1.023 1.441 .652 2.284 2.284 Bảng 3.5: Khoảng cách cụm lát cắt học kỳ II 71 Kết phân cụm lát cắt học kỳ I: - Cụm cụm có kết học sinh đạt loại – giỏi. - Cụm cụm yếu - Cụm cụm trung bình - Cụm cụm cụm trung bình: cụm dạng trung bình cao cụm trung bình thấp. Kết phân cụm lát cắt học kỳ II: - Cụm cụm học sinh có kết đạt loại yếu. - Cụm cụm học sinh có kết đạt loại trung bình khá. - Cụm cụm cụm học sinh có kết đạt loại trung bình. Trong cụm cụm trung bình cao, cụm cụm trung bình thấp. - Cụm cụm học sinh có kết đạt loại giỏi. Thực phép giao kết phân cụm hai lát cắt, ta thu kết phân cụm năm học sau: Cụm - Cả năm SL Khá giỏi Trung bình Trung bình cao Trung bình thấp Yếu 11 43 110 57 16 Bảng 3.6: Bảng kết phân cụm năm Trong số lượng học sinh cụm năm học số lượng học sinh thuộc cụm hai học kỳ. Ví dụ: cụm - giỏi có 11 học sinh, 11 học sinh phải có kết đạt loại giỏi học kỳ. 72 Phân cụm năm 150 100 50 Khá giỏi Trung bình Trung bình cao Trung bình thấp Yếu Hình 3.11: Kết phân cụm năm Nhìn vào kết phân cụm năm học ta nhận thấy, số lượng học sinh xếp loại học tập trung bình chiếm tỉ lệ lớn có số học sinh có học lực giỏi. Do nhà trường tuyển sinh chủ yếu đối tượng có kết học tập đạt kết thấp trường trung học sở. 3.4.2.1. Kết phân cụm theo vùng miền: Tiến hành phân cụm theo vùng miền lát cắt học kỳ I lát cắt học kỳ II ta thu kết sau: Các cụm Vùng Khá – giỏi Trung bình Trung bình cao Trung bình thấp Yếu Kỳ (7.1) Kỳ (7.6) Kỳ (6.3) Kỳ (6.8) Kỳ (5.8) Kỳ (6.0) Kỳ (5.1) Kỳ (5.3) Kỳ (4.1) Kỳ (4.3) ĐB sông Hồng 19 10 42 40 78 77 40 49 10 13 Trung du miền núi 16 13 37 40 14 17 Bắc trung 10 13 14 Bảng 3.7: Kết phân cụm theo vùng miền hai lát cắt học kỳ I học kỳ II 73 Thực phép giao hai lát cắt, ta thu kết phân cụm năm theo vùng miền sau: Cụm Khá giỏi Trung bình Trung bình cao Trung bình thấp Yếu SL % SL % SL % SL % SL % ĐB sông Hồng 10 6.8 31 20.9 66 44.6 31 20.9 10 6.8 Trung du miền núi 15.0 33 55.0 13 21.7 8.3 Bắc trung 4.3 13.0 11 47.8 30.4 4.3 Bảng 3.8: Kết phân cụm năm theo vùng miền Phân cụm năm theo vùng miền 70 60 50 40 30 20 10 Khá giỏi Trung bình ĐB sông Hồng Trung bình cao Trung bình thấp Trung du miền núi Yếu Bắc trung Hình 3.12: Kết phân cụm năm theo vùng miền Kết học tập theo vùng miền ta nhận thấy em học sinh trung du miền núi có kết học tập thấp hai vùng lại: Lý do tỉnh miền núi có điều kiện học tập thiếu, kinh tế khó khăn, hoàn cảnh gia đình em người dân tộc thiểu số việc học tập em nhiều bất cập. 74 Các tỉnh thuộc đồng Bắc có số lượng học tập đông kết học tập tốt so với vùng lại: học sinh diện giỏi chiếm 6.8% (10 em); diện trung bình 20.9% (31 em). Nhìn chung cụm đồng sông Hồng cụm có kết học tập em xác định cách hợp lý phù hợp với khả tuyển sinh Nhà trường. 3.4.2.2. Kết phân cụm theo hoàn cảnh gia đình: Tiến hành phân cụm theo hoàn cảnh gia đình lát cắt học kỳ I lát cắt học kỳ II ta thu kết sau: Cụm Khá – giỏi Trung bình Trung bình cao Trung bình thấp Kỳ (7.1) Kỳ (7.6) Kỳ (6.3) Kỳ (6.8) Kỳ (5.8) Kỳ (6.0) Kỳ (5.1) Kỳ (5.3) Kỳ (4.1) Kỳ (4.3) Nông dân 26 21 74 72 31 44 10 10 Tiểu thương 19 20 12 12 Công nhân 15 10 28 30 12 14 Mồ côi CCCM 12 Cán 12 14 Hoàn cảnh gia đình Yếu Bảng 3.9: Kết phân cụm theo hoàn cảnh gia đình hai lát cắt học kỳ I học kỳ II Thực phép giao hai lát cắt, ta thu kết phân cụm năm theo hoàn cảnh gia đình sau: 75 Cụm - Cả năm Hoàn cảnh gia đình Khá giỏi Trung bình Trung bình cao Trung bình thấp Yếu SL % SL % SL % SL % SL % Nông dân 1.7 15 12.6 61 51.3 31 26.1 Tiểu thương 2.8 13.9 18 50.0 11 30.6 1 Công nhân 2.2 19.6 24 52.2 10 21.7 4.3 Mồ côi 0.0 0.0 0.0 50.0 50 CCCM 7.7 46.2 30.8 15.4 0.0 Cán 35.3 47.1 17.6 0.0 0.0 8.4 2.8 Bảng 3.10: Kết phân cụm theo hoàn cảnh gia đình năm Kết phân cụm năm theo HCGĐ 70 60 50 40 30 20 10 Nông dân Khá giỏi Tiểu thương Công nhân Trung bình Mồ côi Trung bình cao CCCM Cán Trung bình thấp Yếu Hình 3.13: Kết phân cụm theo hoàn cảnh gia đình năm - Cụm học sinh có học tập loại giỏi hoàn cảnh gia đình cán có tỉ lệ cao 35.3%, thấp hoàn cảnh mồ côi học sinh nào. - Cụm học sinh học lực yếu hoản cảnh mồ côi có tỉ lệ cao 50%. - Cụm học sinh có kết học tập trung bình hoàn cảnh gia đình có công với cách mạng có tỉ lệ cao 46.2%. 76 - Cụm học sinh có kết học tập trung bình cao, hoàn cảnh gia đình công nhân có tỉ lệ cao 52.2%, tiếp đến hoàn cảnh gia đình nông dân có tỉ lệ 51.3%. - Cụm học sinh có kết học tập trung bình thấp, hoàn cảnh gia đình mồ côi chiếm có tỉ lệ cao 50%. Như vậy, với việc phân cụm theo hoàn cảnh gia đình ta thấy: học sinh có học lực giỏi, chủ yếu gia đình nông dân, cán gia đình có công với cách mạng, em gia đình công nhân tiểu thương chủ yếu thuộc diện học lực trung bình. Đồng thời, số lượng lớn em học sinh gia đình nông dân thuộc diện học lực trung bình trung bình khá. Do vậy, việc phân cụm theo hoàn cảnh gia đình không phân biệt rõ ảnh hưởng gia đình với kết học tập em học sinh. 3.4.2.3. Phân cụm theo dân tộc: Tiến hành phân cụm theo dân tộc lát cắt học kỳ I lát cắt học kỳ II ta thu kết sau: Cụm Khá – giỏi Trung bình Trung bình cao Trung bình thấp Kỳ (7.1) Kỳ (7.6) Kỳ (6.3) Kỳ (6.8) Kỳ (5.8) Kỳ (6.0) Kỳ (5.1) Kỳ (5.3) Kỳ (4.1) Kỳ (4.3) Kinh 27 11 50 52 94 96 39 49 10 Dao Tày Mường Hoa Thái H Mông Nùng 10 Dân tộc Yếu Bảng 3.11: Phân cụm theo dân tộc hai lát cắt học kỳ I học kỳ II 77 Thực phép giao hai lát cắt, ta thu kết phân cụm năm theo dân tộc sau: Cụm Dân tộc Khá giỏi Trung bình Trung bình cao Trung bình thấp Yếu SL % SL % SL % SL % SL % Kinh 11 6.3 36 20.7 82 47.1 37 21.3 4.6 Dao 0.0 6.7 40.0 33.3 20.0 Tày 0.0 14.3 42.9 28.6 14.3 Mường 0.0 0.0 50.0 50 0.0 Hoa 0.0 0.0 100 0.0 0.0 Thái 0.0 12.5 43.8 37.5 6.3 H Mông 0.0 33.3 33.3 16.7 16.7 Nùng 0.0 6.3 50.0 31.3 12.5 Bảng 3.12: Phân cụm năm theo dân tộc Phân cụm năm theo dân tộc 90 80 70 60 50 40 30 20 10 Kinh Khá giỏi Dao Tày Trung bình Mường Hoa Trung bình cao Thái H Mông Nùng Trung bình thấp Yếu Hình 3.14: Kết phân cụm năm theo dân tộc 78 Với kết phân cụm theo dân tộc ta nhận thấy có khác biệt rõ nét. Sự chênh lệch lớn học sinh dân tộc Kinh so với dân tộc khác. Cụ thể, toàn học sinh đạt loại giỏi thuộc dân tộc Kinh với 11 em. Các dân tộc lại, số lượng học sinh không nhiều, phần lớn em có học lực trung bình trung bình khá, tỉ lệ học sinh yếu tương đối cao dân tộc Dao H Mông có tỉ lệ học sinh yếu 20% 16.7%. 3.4.2.4. Phân cụm theo giới tính: Tiến hành phân cụm theo giới tính lát cắt học kỳ I lát cắt học kỳ II ta thu kết sau: Cụm Giớitính Khá – giỏi Trung bình Trung bình cao Trung bình thấp Yếu Kỳ (7.1) Kỳ (7.6) Kỳ (6.3) Kỳ (6.8) Kỳ (5.8) Kỳ (6.0) Kỳ (5.1) Kỳ (5.3) Kỳ (4.1) Kỳ (4.3) Nam 20 44 44 102 99 48 60 14 18 Nữ 11 20 19 26 32 13 15 Bảng 3.13: Phân cụm theo giới tính hai lát cắt học kỳ I học kỳ II Thực phép giao hai lát cắt, ta thu kết phân cụm năm theo giới tính sau: 79 Cụm Giới tính Khá giỏi Trung bình Trung bình cao Trung bình thấp Yếu SL % SL % SL % SL % SL % Nam 3.8 31 17.0 86 47.3 44 24.2 14 7.7 Nữ 7.3 12 21.8 24 43.6 13 23.6 3.6 Bảng 3.14:. Phân cụm năm theo giới tính Phân cụm năm theo giới tính 100 80 60 40 20 Khá giỏi Trung bình Trung bình cao Trung bình thấp Nam Yếu Nữ Hình 3.15: Kết phân cụm năm theo giới tính Với đặc thù trường nghề, nên phần lớn học sinh trường học sinh nam. Nhưng dựa vào kết phân cụm theo giới tính, ta nhận thấy học sinh nữ lại có kết học tập tốt học sinh nam. Cụ thể: có đến 7.3% học sinh nữ có học lực giỏi, tỉ lệ nam 3.8%; Bên cạnh đó, tỉ lệ học sinh yếu nam 7.7% nữ 3.6%. 3.4.2.5. Phân cụm theo kết môn toán môn văn. Ở trường trung học phổ thông hai môn mang tính định hình thành tư nhân cách học sinh môn toán môn văn. Hai môn Bộ giáo dục đánh giá cao môn khác cụ thể việc tính điểm trung bình môn học hai môn tính hệ số môn khác hệ số 1. Hai môn môn chủ 80 đạo. Hàng năm, tỉnh tuyển sinh chuyển cấp thi hai môn học này. Trong kỳ thi tốt nghiệp trung học phổ thông thi tốt nghiệp hai môn học này. Do ta xem xét kết học tập học sinh từ hai môn học nhằm mục đích xem có liên hệ, ảnh hưởng qua lại lẫn hai môn học nhằm giúp cho nhà trường có định hướng tốt trình giảng dạy học tập học sinh. Do kết học tập môn toán văn tập trung dạng khá-trung bình yếu. Nên ta phân kết học tập học sinh theo cụm sau: Phân cụm môn toán theo cụm, kết thu sau: Với môn toán: Tiến hành phân cụm theo môn toán lát cắt học kỳ I lát cắt học kỳ II ta thu kết sau: Cụm Học kỳ Học kỳ 1-TC 5.4 2-TC 4.3 3-TC 6.4 4-TC 7.7 1-TC 4.2 2-TC 7.3 3-TC 6.3 4-TC 5.3 143 40 105 12 24 34 124 118 Bảng 3.15: Kết phân cụm theo môn toán hai lát cắt học kỳ I học kỳ II Trong đó: Ở học kỳ I: - Cụm 1: gồm học sinh có kết môn toán đạt loại trung bình. - Cụm 2: gồm học sinh có kết môn toán đạt loại yếu. - Cụm 3: gồm học sinh có kết môn toán đạt loại trung bình khá. - Cụm 4: gồm học sinh có kết môn toán đạt loại giỏi. Ở học kỳ I: - Cụm 1: gồm học sinh có kết môn toán đạt yếu. - Cụm 2: gồm học sinh có kết môn toán đạt loại giỏi. 81 - Cụm 3: gồm học sinh có kết môn toán đạt loại trung bình khá. - Cụm 4: gồm học sinh có kết môn toán đạt loại trung bình. Kết hợp kết phân cụm hai lát cắt theo phép giao, ta thu kết phân cụm năm môn toán sau: Cụm toán - Cả năm Khá giỏi Trung bình Trung bình Yếu 12 83 102 24 Số lượng Bảng 3.16: Kết phân cụm năm theo môn toán Đối với môn văn: Tiến hành phân cụm theo môn văn lát cắt học kỳ I lát cắt học kỳ II ta thu kết sau: Học kỳ Học kỳ 1-TC 5.0 2-TC 3.9 3-TC 6.0 4-TC 6.9 1-TC 7.0 2-TC 5.3 3-TC 6.2 4-TC 4.2 74 22 136 68 69 89 115 27 Bảng 3.17: Kết phân cụm theo môn văn hai lát cắt học kỳ I học kỳ II Trong đó: Ở học kỳ I: - Cụm 1: gồm học sinh có kết môn văn đạt loại trung bình thấp. - Cụm 2: gồm học sinh có kết môn văn đạt loại yếu. - Cụm 3: gồm học sinh có kết môn văn đạt loại trung bình cao. - Cụm 4: gồm học sinh có kết môn văn đạt loại trung bình khá. Ở học kỳ II: - Cụm 1: gồm học sinh có kết môn văn đạt loại trung bình khá. - Cụm 2: gồm học sinh có kết môn văn đạt loại trung bình thấp. 82 - Cụm 3: gồm học sinh có kết môn văn đạt loại trung bình cao. - Cụm 4: gồm học sinh có kết môn văn đạt loại yếu. Kết hợp kết phân cụm hai lát cắt theo phép giao, ta thu kết phân cụm năm môn văn sau: Cụm Số lượng Trung bình Trung bình cao Trung bình thấp Yếu 61 106 67 22 Bảng 3.18: Kết phân cụm năm theo môn văn Dựa vào kết phân cụm hai môn toán văn ta nhận thấy có khác biệt kết học tập môn toán môn văn. Cụ thể: điểm trung bình chung môn toán cao so với môn văn. Số lượng học sinh có kết học tập môn toán đạt loại giỏi tương đối cao với 12 em, môn văn học sinh đạt loại giỏi. Số lượng học sinh có kết môn văn đạt loại trung bình 61 em với môn toán 83 em. Từ ta thấy, học sinh có xu hướng học tốt môn tự nhiên (cụ thể môn toán) so với môn tự nhiên (cụ thể môn văn). 83 Kết luận chương Ở chương luận văn đưa số thông tin tình hình chung Trường Cao đẳng nghề khí nông nghiệp. Đồng thời luận văn số đặc điểm, chức phần mềm SPSS, phần mềm chuyên dụng xử lý thông tin sơ cấp - thông tin thu thập trực tiếp từ đối tượng nghiên cứu. Tiếp theo đó, đưa mô hình khối biểu diễn thông tin học sinh, đồng thời vận dụng kiến thức nghiên cứu chương chương 2, tiến hành phân cụm kết học tập học sinh theo lát cắt để từ tổng hợp, đưa kết phân cụm học sinh năm học. Dựa vào kết phân cụm này, đưa nhận xét, đánh giá chung tình hình học tập học sinh, sinh viên. Đánh giá, phân loại kết học tập học sinh, sinh viên theo tiêu chí: hoàn cảnh gia đình, theo vùng miền hay theo dân tộc…. Với nhận xét, đánh giá này, nhà trường có nhìn tổng quát chất lượng học sinh. Từ có chiến lược tuyển sinh phù hợp, đảm bảo lưu lượng tuyển sinh nâng cao chất lượng dạy học nhà trường. 84 KẾT LUẬN 1. Kết luận Khai phá liệu lĩnh vực đã, phát triển mạnh không giới mà Việt Nam ứng dụng mà đem lại vô to lớn. Đã có nhiểu nghiên cứu khai phá liệu mô hình quan hệ, nhiên việc khai phá liệu mô hình liệu khối mẻ. Sau thời gian thực đề tài với nỗ lực, cố gắng thân với hướng dẫn nhiệt tình thầy giáo TS. Trịnh Đình Vinh, em thu số kết sau: 1. Tìm hiểu khai phá liệu, kỹ thuật khai phá liệu nói chung kỹ thuật khai phá liệu phân cụm nói riêng. 2. Chứng minh tính chất khai phá liệu phân cụm mô hình khối. 3. Sử dụng kỹ thuật khai phá liệu ứng dụng vào khối liệu mô hình liệu dạng khối cách đề thuật toán thuật toán K-means khối dựa thuật toán K-means có mô hình quan hệ. 4. Áp dụng thuật toán để xây dựng phần mềm phân cụm kết học tập học sinh Trường Cao đẳng nghề Cơ khí nông nghiệp. 2. Hướng phát triển đề tài Với kết nghiên cứu bước đầu tiền đề cho nghiên cứu em. Trong tương lai, tác giả mong muốn hoàn thiện vấn đề sau: Viết chương trình phân cụm liệu chạy thẳng phần tử khối mà không chạy lát cắt để tiết kiệm thời gian. 85 TÀI LIỆU THAM KHẢO Tiếng việt [1] Nguyễn Xuân Huy, Trịnh Đình Thắng (1998), Mô hình sở liệu dạng khối, Tạp chí Tin học Điều khiển học, T.14, (S.3), 52-60. [2] Nguyễn Thanh Thủy (2001), Khai phá liệu – kỹ thuật ứng dụng, Hà Nội. [3] Trịnh Đình Thắng (2011), Mô hình liệu dạng khối, Nhà xuất Lao động. [4] Trịnh Đình Vinh (2011), Một số phụ thuộc liệu sở liệu, Luận án Tiến sĩ Toán học. Tiếng anh [5] D. Pyle (2003), Business Modeling and Data Mining, Morgan Kaufmann Publishers, San Francisco, CA. [6] Jiawei Han and Micheline Kamber “Data Mining Concepts and Techniques” 2007 Chapter & Chapter (Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada) [7] Jiawei Han, Micheline Kamber (2006), “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers. [8] M. Ester, H.-P. Kriegel, J. Sander, and X. Xu (1996). "A density-based algorithm for discovering clusters in large spatial databases". pp. 226–231. [9]. L. Kaufman and P. J. Rousseeuw (1990), Finding Groups in Data: An Introduction to Cluster Analysis. JohnWiley & Sons. [10]. Tian Zhang, Raghu Ramakrishnan, Miron Livny (1997): BIRCH: "A New Data Clustering Algorithm and Its Applications. Data Mining and Knowledge Discovery". [...]... phân cụm theo môn toán trên hai lát cắt học kỳ I và học kỳ II Bảng 3.16: Kết quả phân cụm cả năm theo môn toán Bảng 3.17: Kết quả phân cụm theo môn văn trên hai lát cắt học kỳ I và học kỳ II Bảng 3.18: Kết quả phân cụm cả năm theo môn văn 10 CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 1.1 Khai phá dữ liệu 1.1.1 Khai phá dữ liệu là gì? Khai phá dữ liệu (Data Mining)... phá thông tin ẩn được tìm thấy trong các cơ sở dữ liệu và có thể xem như là một bước trong quá trình khám phá tri thức Khai phá dữ liệu là quá trình quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở dữ liệu, các tri thức này hỗ trợ trong việc ra quyết định trong khoa học và kinh doanh… Một số định nghĩa mang tính mô tả của nhiều tác giả về khai phá dữ liệu Định nghĩa của Ferruzza: Khai phá. .. Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như marketing có chủ đích, phân tích quyết định, quản lí kinh doanh, phân tích thị trường, … 17 1.1.4 Các ứng dụng của khai phá dữ liệu và những khó khăn trong khai phá dữ liệu 1.1.4.1 Các ứng dụng của khai phá dữ liệu Khai phá dữ liệu được vận dụng trong nhiều lĩnh vực khác nhau nhằm khai thác nguồn dữ liệu phong phú được lưu trữ trong các... pháp phân loại dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình phân loại dữ liệu thường gồm 2 bước: Xây dựng mô hình và sử dụng mô hình để phân loại dữ liệu 1 Xây dựng mô hình dựa trên việc phân tích các mẫu dữ liệu cho trước Mỗi mẫu thuộc về một lớp, được xác định bởi một thuộc tính gọi là thuộc tính lớp Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện Các nhãn lớp của tập dữ liệu. .. phải lặp đi lặp lại toàn bộ quá trình 1 Gom dữ liệu: Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web 11 2 Trích lọc dữ liệu: Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó phục vụ mục đích khai thác, ví dụ chọn tất cả những em học... khả năng trả nợ ngân hàng) Hai mục đích chính của khai phá dữ liệu trong thực tế là dự đoán và mô tả Hình 1.2: Tập dữ liệu với 2 lớp: có và không có khả năng trả nợ 13 1.1.3.1 Khai phá dữ liệu dự đoán Nhiệm vụ của khai phá dữ liệu dự đoán là đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời Nó sử dụng các biến hay các trường trong cơ sở dữ liệu để dự đoán các giá trị không biết hay các giá... dụng và thách thức với các hệ khai phá dữ liệu - Làm việc với các dữ liệu quan hệ phức tạp: Do các hệ cơ sở dữ liệu quan hệ được sử dụng rộng rãi nên vấn đề làm tốt với các hệ cơ sở dữ liệu này là vấn đề cần quan tâm đối với các hệ khai phá dữ liệu - Khai phá thông tin trong các hệ cơ sở dữ liệu hỗn hợp và hệ thống thông tin toàn cầu: Với sự ra đời của mạng máy tính, dữ liệu có thể được thu thập từ... mô hình đặc biệt và một giới hạn của tập dữ liệu Mô hình đó có thể “Quá phù hợp” trên tập dữ liệu đó nhưng lại thi hành không chính xác trên tập dữ liệu kiểm tra - Sự thay đổi của dữ liệu và tri thức: Dữ liệu là không tĩnh, dữ liệu thay đổi nhanh chóng có thể dẫn đến những tri thức đã khai phá trước đây trở nên không còn phù hợp thậm chí là vô giá trị - Đánh giá các mẫu dữ liệu tìm được: Nhiều mẫu phát... nhau với định dạng khác nhau với số lượng rất lớn Việc phát hiện tri thức từ các dạng dữ liệu hỗn hợp này là một thách thức đối với khai phá dữ liệu 1.2 Kỹ thuật phân cụm trong khai phá dữ liệu 1.2.1 Khái niệm phân cụm dữ liệu Cho x làm một tập dữ liệu: X = { x1, x2, … , xn } Ta định nghĩa m-phân cụm của X như một sự phân chia X thành m tập (cụm) C1, C2, … , Cm sao cho thỏa mãn 3 điều kiện: Hình 1.6:... tri thức khai phá được cho người sử dụng Trên đây là 6 giai đoạn của quá trình phát hiện tri thức, trong đó giai đoạn " khai phá dữ liệu" là giai đoạn được quan tâm nhiều nhất 1.1.3 Các kỹ thuật khai phá dữ liệu Hình 1 2 biểu diễn một tập dữ liệu giả hai chiều bao gồm 27 trường hợp Mỗi một điểm trên hình đại diện cho một người vay tiền ngân hàng tại một số thời điểm trong quá khứ Dữ liệu được phân . hình dữ liệu dạng khối này. Tuy nhiên việc khai phá dữ liệu trong mô hình dạng khối vẫn còn khá mới mẻ. Chính vì những lý do trên mà tôi đã chọn đề tài: Khai phá dữ liệu trong mô hình dữ liệu. năm theo môn văn 10 CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 1.1. Khai phá dữ liệu 1.1.1. Khai phá dữ liệu là gì? Khai phá dữ liệu (Data. cụm dữ liệu 20 Kết luận chương 1 38 CHƯƠNG 2: MÔ HÌNH DỮ LIỆU DẠNG KHỐI VÀ KHAI PHÁ DỮ LIỆU TRÊN KHỐI BẰNG KỸ THUẬT PHÂN CỤM 39 2.1. Mô hình dữ liệu dạng khối 39 2.1.1. Khối, lược đồ khối

Ngày đăng: 10/09/2015, 16:38

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan