Ứng dụng khai phá dữ liệu xây dựng hệ thống trợ giúp phòng, chống và giảm nhẹ rủi ro thiên tai tại trường học

26 119 0
Ứng dụng khai phá dữ liệu xây dựng hệ thống trợ giúp phòng, chống và giảm nhẹ rủi ro thiên tai tại trường học

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 145 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM    LÊ VĂN TRUNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG HỆ THỐNG TRỢ GIÚP PHÒNG, CHỐNG VÀ GIẢM NHẸ RỦI RO THIÊN TAI TẠI TRƯỜNG HỌC Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT ĐÀ NẴNG – 2016 Footer Page of 145 Header Page of 145 LUẬN VĂN ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN Người hướng dẫn khoa học: PGS.TS LÊ VĂN SƠN Phản biện 1: TS Nguyễn Trần Quốc Vinh Phản biện 2: PGS.TS Hoàng Quang Luận văn bảo vệ hội đồng chấm luận văn thạc sĩ Trường Đại học Sư phạm - Đại học Đà Nẵng, vào ngày 07 tháng 01 năm 2017 Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin – Học liệu, Đại học Đà Nẵng - Thư viện trường Đại học Sư phạm, Đại học Đà Nẵng Footer Page of 145 Header Page of 145 MỞ ĐẦU Lý chọn đề tài Ngày với thay đổi phát triển không ngừng ngành Công nghệ thông tin nói chung ngành công nghệ phần cứng, phần mềm hệ thống liệu phục vụ lĩnh vực kinh tế - xã hội nói riêng, việc thu thập thông tin nhu cầu lưu trữ thông tin ngày lớn Bên cạnh việc tin học hóa cách nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu lớn Rất nhiều sở liệu (CSDL) sử dụng hoạt động sản xuất, kinh doanh, quản lí… Những ứng dụng thành công khám phá tri thức cho thấy khai phá liệu lĩnh vực phát triển bền vững mang lại nhiều lợi ích có nhiều triển vọng, đồng thời có ưu hẵn so với công cụ phân tích liệu truyền thống Data mining có nhiều hướng quan trọng hai số phân cụm liệu (Data Clustering) luật kết hợp (Association Rule) Phân cụm liệu trình tìm kiếm để phân cụm liệu, mẫu liệu từ khối liệu lớn, luật kết hợp tìm mối quan hệ đối tượng khối liệu lớn Phân cụm liệu luật kết hợp kỹ thuật để khai thác liệu có hiệu Phân cụm liệu luật kết hợp ứng dụng nhiều lĩnh vực khác như: kinh tế, bảo hiểm, quy hoạch đô thị, du lịch…Tuy nhiên lĩnh vực giáo dục khía cạnh dự báo nguy rủi ro thiên tai trường học chưa khai thác hiệu Trong năm qua có nhiều chương trình hoạt động hỗ trợ trường học trẻ em ứng phó với thiên tai Tuy nhiên chương trình tập trung vào hoạt động lồng ghép kiến thức giảm nhẹ rủi ro thiên tai vào giảng môn học khóa sinh học, vật lí, Footer Page of 145 Header Page of 145 địa lí …và hoạt động ngoại khóa thi tìm hiểu kiến thức thiên tai, câu lạc bộ, diễn đàn, mà chưa có công cụ thu thập thông tin phân tích liệu trường học để đưa dự đoán nguy rủi ro, thiệt hại có thiên tai xảy Xuất phát từ nhu cầu thực tế nên chọn vấn đề: “Ứng dụng khai phá liệu xây dựng hệ thống trợ giúp phòng, chống giảm nhẹ rủi ro thiên tai trường học” làm đề tài luận văn thạc sĩ Mục đích nhiệm vụ đề tài 2.1 Mục đích Xây dựng hệ thống giúp sở giáo dục có sở: Lập kế hoạch phòng, tránh giảm nhẹ rủi ro có thiên tai xảy Xác định thiên tai có nguy xảy khu vực gần sở giáo dục Chuẩn bị nhân lực, vật lực, phương tiện trang thiết bị nhu cầu yếu phẩm phục vụ ứng phó thiên tai Nâng cấp, sửa chữa, bổ sung sở vật chất, phòng ốc cần thiết để phòng, tránh giảm nhẹ rủi ro có thiên tai xảy Có đánh giá, dự báo xác thiệt hại có thiên tai xảy Báo cáo kịp thời lên cấp trước, sau thiên tai xảy 2.2 Nhiệm vụ Để đạt mục đích nêu trên, nhiệm vụ nghiên cứu nội dung sau: - Thu thập thông tin trường học bao gồm: Vị trí nhà trường, sở vật chất nhà trường, số liệu thống kê cán giáo viên, nhân viên học sinh, rủi ro đường tới trường, loại phòng học nhà trường, tình hình giáo dục phòng, chống giảm nhẹ thiên Footer Page of 145 Header Page of 145 tai… (Bộ công cụ thu thập thông tin xây dựng dựa vào tiêu chí đánh giá trường học an toàn) - Nghiên cứu kỹ thuật phân cụm luật kết hợp khai phá liệu thu thập được, đưa nhóm nguy rủi ro thiên tai dự đoán rủi ro gặp phải thiên tai xảy - Cài đặt triển khai hệ thống Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu Thông tin vị trí trường, điều kiện sở vật chất thông tin khác liên quan đến việc thu thập thông tin sở giáo dục địa bàn tỉnh Kon Tum Thuật toán phân cụm liệu, thuật toán luật kết hợp (sử dụng thuật toán K_means Apriori để cài đặt chương trình) Công cụ khai phá liệu Business Intelligence Development Studio (BIDS), ngôn ngữ lập trình Visual C# hệ quản trị CSDL SQL 3.2 Phạm vi nghiên cứu Nghiên cứu thu thập thông tin trường địa bàn tỉnh Kon Tum gồm (16 trường Trung học phổ thông, 10 trường Phổ thông dân tộc nội trú, 07 Trung tâm giáo dục thường xuyên, 103 trường Trung học sở, 142 trường Tiểu học, 121 trường Mầm non) Thu thập thông tin sở vật chất, vị trí địa lí, điều kiện tự nhiên xung quanh trường học núi, sông, suối… Phương pháp nghiên cứu Phân tích, so sánh đối chiếu Thu thập tổng hợp thông tin Kiểm thử phần mềm Đánh giá kết đạt Giải pháp đề xuất Footer Page of 145 Header Page of 145 Mô tả hệ thống: Đầu vào: Thu thập thông tin trường học, sở vật chất, vị trí địa lí trường, vị trí địa lí khu vực gần trường, nguy rủi ro đường tới trường, thông tin học sinh, cán bộ, giáo viên, nhân viên…(Bộ công cụ thu thập thông tin xây dựng dựa vào tiêu chí đánh giá trường học an toàn) Đầu ra: Dự báo mức độ nguy rủi ro có thiên tai xảy trường, nhóm trường có khả chống chịu thiên tai gần giống Kết cấu luận văn Ngoài phần mở đầu, mục lục, danh mục hình, kết luận tài liệu tham khảo luận văn chia làm chương: Chương 1: Tổng quan kỹ thuật phát tri thức khai phá liệu Chương giới thiệu cách tổng quát trình khám phá tri thức nói chung khám phá liệu nói riêng Các phương pháp, lĩnh vực hướng tiếp cận khai phá liệu Chương 2: Tìm hiểu phân cụm liệu, luật kết hợp, thuật toán K_means thuật toán Apriori Trong chương trình bày khái niệm mục tiêu phân cụm liệu luật kết hợp, yêu cầu, cách tiếp cận thách thức mà phân cụm liệu luật kết hợp gặp phải, sâu tìm hiểu thuật toán K_means thuật toán Apriori Chương 3: Ứng dụng khai phá liệu xây dựng hệ thống trợ giúp phòng, chống giảm nhẹ rủi ro thiên tai trường học Chương trình bày lý chọn toán, sở giải toán (lý luận, thực tiễn, khoa học…) Cài đặt chương trình thử nghiệm ứng dụng kỹ thuật phân cụm luật kết hợp số kết thu Footer Page of 145 Header Page of 145 CHƯƠNG TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU “Khám phá tri thức trình tìm tri thức, mẫu tìm ẩn, trước chưa biết thông tin hữu ích đáng tin cậy” Còn khai phá liệu bước quan trọng trình khám phá tri thức, sử dụng thuật toán khai phá liệu chuyên dùng với số quy định hiệu tính toán chấp nhận để chiết xuất mẫu mô hình có ích liệu Nói cách khác, mục đích khám phá tri thức k h a i p h d ữ l i ệ u tìm mẫu mô hình tồn CSDL bị che khuất hàng núi liệu [1] 1.2 QUÁ TRÌNH KHÁM PHÁ TRI THỨC Hình 1.1 Quá trình khám phá tri thức [11] Quá trình khám phá tri thức từ CSDL trình có sử dụng nhiều phương pháp công cụ tin học trình mà người trung tâm Do đó, hệ thống phân tích tự động mà hệ thống bao gồm nhiều hoạt động tương tác thường xuyên người CSDL, tất nhiên với hỗ trợ công cụ tin học 1.2.1 Gom liệu (Gathering) 1.2.2 Trích lọc liệu (Selection) 1.2.3 Làm sạch, tiền xử lý chuẩn bị trước liệu (Cleansing, Pre-processing and Preparation) 1.2.4 Chuyển đổi liệu (Transformation) Footer Page of 145 Header Page of 145 1.2.5 Khai phá liệu (Data Mining) 1.2.6 Đánh giá kết mẫu (Evaluation of Result) 1.3 CÁC LOẠI DỮ LIỆU CÓ THỂ KHAI PHÁ Các loại liệu khai phá sau: - CSDL quan hệ (relational databases) - CSDL đa chiều (multidimention structures, data warehouse, data mart) - CSDL giao tác (transaction databases) - CSDL quan hệ – hướng đối tượng (object relational databases) - CSDL không gian thời gian (spatial, temporal, and time – series data) - CSDL đa phương tiện (Multimedia database) 1.4 CÁC PHƯƠNG PHÁP, KỸ THUẬT CHÍNH TRONG KHAI PHÁ DỮ LIỆU Các kỹ thuật khai phá liệu chia làm nhóm [5]: - Kỹ thuật khai phá liệu mô tả - Kỹ thuật khai phá liệu dự đoán: 1.4.1 Phân lớp dự đoán (Classification & Prediction) 1.4.2 Luật kết hợp (Association Rules) 1.4.3 Khai thác mẫu (Sequential / Temporal patterns) 1.4.4 Phân nhóm- đoạn (Clustering / Segmentation) 1.4.5 Hồi quy (Regression) 1.4.6 Tổng hợp hóa (Summarization) 1.4.7 Mô hình hóa phụ thuộc (dependency modeling) 1.4.8 Phát biến đổi độ lệch (Change and deviation detection) 1.5 NHỮNG KHÓ KHĂN TRONG KHAI PHÁ DỮ LIỆU Khám phá tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực thực tế, thách thức khó khăn ngày nhiều, lớn Sau số thách thức khó khăn cần quan tâm [5]: Footer Page of 145 Header Page of 145 - Các CSDL lớn nhiều - Số chiều cao - Thay đổi liệu tri thức - Dữ liệu thiếu bị nhiễu - Mối quan hệ phức tạp trường - Tính dễ hiểu mẫu - Người dùng tương tác tri thức sẵn có - Tích hợp với hệ thống khác 1.6 ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU Khai phá liệu có nhiều ứng dụng thực tế, số ứng dụng điển [6]: Bảo hiểm, tài thị trường chứng khoán Điều trị y học chăm sóc y tế Sản xuất chế biến Text mining & Web mining Lĩnh vực khoa học Lĩnh vực khác 1.7 KẾT LUẬN Khai phá liệu lĩnh vực trở thành hướng nghiên cứu thu hút quan tâm nhiều chuyên gia công nghệ thông tin giới Điều chứng tỏ ưu thế, lợi ích khả ứng dụng thực tế to lớn khai phá liệu Chương trình bày số kiến thức tổng quan khám phá tri thức, khái niệm kiến thức khai phá liệu Footer Page of 145 Header Page 10 of 145 CHƯƠNG TÌM HIỂU PHÂN CỤM DỮ LIỆU, LUẬT KẾT HỢP, THUẬT TOÁN K_MEANS VÀ THUẬT TOÁN APRIORI 2.1 KHÁI NIỆM VÀ MỤC TIÊU CỦA PHÂN CỤM DỮ LIỆU 2.1.1 Khái niệm phân cụm liệu Phân cụm liệu kỹ thuật Data mining nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn quan trọng tập liệu lớn để từ cung cấp thông tin, tri thức cho việc định Phân cụm liệu phân chia CSDL lớn thành nhóm liệu với đối tượng tương tự Trong nhóm, số chi tiết không quan tâm đến để đổi lấy liệu đơn giản hóa Hay ta hiểu “Phân cụm liệu trình tổ chức đối tượng thành nhóm mà đối tượng nhóm tương tự theo tính chất đó, đối tượng không tương tự tính chất nhóm khác” [1] Như vậy, phân cụm liệu trình phân chia tập liệu ban đầu thành cụm liệu cho đối tượng cụm “tương tự” (Similar) với đối tượng cụm khác “không tương tự” (Dissimilar) với Số cụm liệu phân xác định trước theo kinh nghiệm tự động xác định Chúng ta thấy điều với ví dụ đơn giản sau [13]: Hình 2.1: Ví dụ phân cụm liệu Trong trường hợp này, dễ dàng xác định cụm dựa vào liệu cho; tiêu chí “tương tự” để phân cụm trường hợp khoảng cách: hai nhiều đối tượng thuộc Footer Page 10 of 145 Header Page 12 of 145 10 đất nhằm cung cấp thông tin cho việc nhận dạng vùng nguy hiểm; - WWW: tài liệu phân loại, phân nhóm liệu weblog để khám phá nhóm hình thức tiếp cận tương tự trợ giúp cho việc khai phá thông tin từ liệu 2.3 CÁC YÊU CẦU VÀ NHỮNG VẤN ĐỀ CÒN TỒN TẠI TRONG PHÂN CỤM DỮ LIỆU 2.3.1 Các yêu cầu phân cụm liệu Phân cụm thách thức lĩnh vực nghiên cứu chỗ ứng dụng tiềm chúng đưa yêu cầu đặc biệt chúng Sau yêu cầu phân cụm khai phá liệu: - Có khả mở rộng - Khả thích nghi với kiểu thuộc tính khác - Khám phá cụm với hình dạng - Tối thiểu lượng tri thức cần cho xác định tham số đầu vào - Khả thích nghi với liệu nhiễu - Ít nhạy cảm với thứ tự liệu vào - Số chiều lớn - Phân cụm ràng buộc - Dễ hiểu dễ sử dụng Với yêu cầu đáng lưu ý này, nghiên cứu ta phân tích phân cụm diễn sau: Đầu tiên, ta nghiên cứu kiểu liệu khác cách chúng gây ảnh hưởng tới phương pháp phân cụm Thứ hai, ta đưa cách phân loại chung phương pháp phân cụm Sau đó, ta nghiên cứu chi tiết phương pháp phân cụm, bao gồm phương pháp phân hoạch, phân cấp, dựa mật độ Ta khảo sát phân cụm không gian đa chiều biến thể phương pháp khác 2.3.2 Những vấn đề tồn phân cụm liệu Có số vấn đề với phân cụm liệu Một số [12]: Footer Page 12 of 145 Header Page 13 of 145 11 - Kỹ thuật clustering không trình bày tất yêu cầu đầy đủ (và đồng thời); - Giao dịch với số lượng lớn mẫu số lượng lớn mẫu tin liệu gặp vấn đề phức tạp thời gian; - Hiệu phương pháp phụ thuộc vào định nghĩa “khoảng cách” (đối với phân cụm liệu dựa khoảng cách) Nếu không tồn thước đo khoảng cách rõ ràng “phải tự xác định”, điều mà không thật dễ dàng chút nào, không gian đa chiều; - Kết thuật toán phân cụm liệu giải thích theo nhiều cách khác (mà nhiều trường hợp giải thích theo ý riêng người) 2.4 THUẬT TOÁN K_MEANS Thuật toán K_means mô tả sau: Input: - D tập liệu cần phân hoạch - Số lượng cụm k, với k số nguyên Output: - Danh sách k nhóm: C1, C2, , Ck Begin For i:=1 to k Begin Chọn ngẫu nhiên ri D làm trọng tâm Ci End; While có thay đổi nhóm Ci Begin For x  D Begin Footer Page 13 of 145 Header Page 14 of 145 12 Tính d(x, ri), i=1 .k Đưa x vào nhóm Cj d(x, rj)

Ngày đăng: 22/04/2017, 12:26

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan